La Generalitat vol la teva veu perquè el Siri i l’Alexa parlin en català
El Govern inverteix 3 MEUR en el Projecte AINA per potenciar la recaptació de mostres de veu de la ciutadania a Common Voice
Categories:
El Projecte AINA, la iniciativa basada en intel·ligència artificial (IA) que van impulsar el Departament de Vicepresidència i de Polítiques Digitals i Territori i el Barcelona Supercomputing Center (BSC-CNS) el 2020, vol llançar aquest 2022 el primer corpus de veu en català, un conjunt de dades massives que permetrà que tecnologies com els assistents de veu puguin mantenir converses fluides en la llengua. Per fer-ho, la conselleria destinarà enguany tres milions d’euros al projecte i potenciarà la recaptació de veus pel corpus de Common Voice de la Fundació Mozilla, que recentment ha superat les 1.000 hores enregistrades en català. La responsable de la Unitat de Mineria de Textos del BSC-CNS, Marta Villegas, ha anunciat que esperen arribar a les 2.000 hores abans que acabi l’any.
El conjunt de dades de veu es complementa amb el corpus de text que la iniciativa ja va presentar el 2020 i que, ara per ara, supera els 1.770 milions de paraules, provinents de fonts com la Viquipèdia, l'Agència Catalana de Notícies o el Diari Oficial de la Generalitat de Catalunya (DOGC). “Avui, AINA ja coneix la sintaxi del català. En aquesta nova fase, volem que també conegui el lèxic i la semàntica, tota la part oral de la llengua”, ha declarat el vicepresident del Govern i conseller de Polítiques Digitals i Territori, Jordi Puigneró, en la roda de premsa de balanç del projecte al Barcelona Supercomputing Center de Barcelona.
Puigneró: “Avui, AINA ja coneix la sintaxi del català. En aquesta nova fase, volem que també conegui el lèxic i la semàntica, tota la part oral de la llengua"
Per tal d’aconseguir que la ciutadania se sumi al projecte, el pròxim dijous 17 de febrer el Govern encetarà la campanya La nostra llengua és la teva veu. Tot i que el corpus textual del català ja supera els 10 GB i el de veu els 25 GB, les xifres encara es troben lluny de llengües com l’anglès, el corpus més extens amb més de 825 GB de dades. Un altre dels problemes és la manca de varietat: el 76% de les veus de Common Voice corresponen al dialecte central i un 63% són d’homes. Puigneró ha confirmat a la roda de premsa que es duran a terme accions concretes al territori per aconseguir la participació de les variants amb menys mostres, sense especificar quines. També ha anunciat que es manté el diàleg amb entitats del País Valencià i de les Illes Balears per sumar-les a la iniciativa i que el Govern té previst reunir-se amb els executius de sengles territoris.
Els usos de les dades de veu
La voluntat del Projecte AINA és generar un volum de dades de veu prou massiu i diversificat perquè pugui cobrir tota mena de dialectes, registres i temàtiques. Seguint la filosofia de Mozilla amb Comon Voice, els datasets seran oberts al públic i s’oferiran a tota mena d’empreses que treballin amb tecnologies de veu, tant a les companyies locals com a les grans multinacionals. De fet, Villegas ha confirmat que ja han tingut converses amb Google, Amazon, Meta o Nvidia, a les quals els han preguntat què necessiten per implementar el català en els seus dispositius. “El mercat català és engrescador, però no suficient, i és per això que les llengües petites hem de fer un esforç extra”, ha afegit.
En aquesta línia, els impulsors de la iniciativa es marquen tres objectius secundaris a més a més de la creació i ampliació dels corpus existents. Primerament, la creació de tres serveis lingüístics bàsics, el d’anonimització, el de classificació de documents i el d’identificació d’entitats i conceptes clau, que serviran per desenvolupar eines més avançades com resumidors de textos basats en IA. En segon lloc, el BSC-CNS vol crear models de la llengua especialitzats en àmbits i temàtiques concretes, com la salut o la justícia, que permetin als algoritmes entendre el context dels textos. Finalment, el Projecte AINA vol crear un motor de traducció català-castellà que millori la qualitat dels serveis actuals.