Aina, la mare dels futurs assistents de veu en català

El projecte de compilació de dades en la llengua pròpia preveu crear els recursos necessaris per a la seva incorporació a les solucions tecnològiques de manera eficient i atractiva per als desenvolupadors

Aida Corón

La primera fase d'Aina compta amb 1.700 milions de paraules del català estàndard
La primera fase d'Aina compta amb 1.700 milions de paraules del català estàndard | CC0

"L'origen de la llengua és la parla; les cultures triguen molt a arribar a l'escriptura, i d'aquí ve la civilització perquè el text fixa les paraules. Després l'escriptura passa per la impremta, i quan arriba l'era digital, es produeix un tercer espai entre oralitat i escriptura: l'oralitat escrita, que és tot el món d'internet i que queda imprès, però es pot esmenar". Així és com ha posat en context l'escriptor i periodista Màrius Serra en la presentació de l'Aina, una nova eina basada en intel·ligència artificial (IA) per ajudar a preservar el català en un entorn digital on la tecnologia i els assistents de veu ja parlen amb els usuaris.

El projecte, impulsat per una comissió interdepartamental amb Polítiques Digitals i Administració Pública, i Cultura, vol fer que els creadors d'assistents de veu, aplicacions, videojocs i qualsevol solució basada en IA tinguin els recursos perquè sigui factible, atractiu i amb un cost competitiu incloure-hi el català. Per aconseguir-ho, el Barcelona Supercomputing Center (BSC) ha aportat les capacitats científiques i computacionals per construir els algoritmes capaços de processar les dades i entendre la llengua.

Un corpus de 1.700 milions de paraules

La iniciativa es va començar a gestar el 2018, però ha estat durant el darrer any quan s'ha donat un impuls vital perquè Catalunya compti amb aquest ambiciós sistema. Segons ha explicat en una roda de premsa telemàtica la investigadora de mineria de dades del BSC i coordinadora del programa, Marta Villegas, en aquesta primera fase s'ha treballat a compilar dades textuals fins a sumar prop de 1.700 milions de paraules, i es preveu incorporar veu i imatges en etapes pròximes. Una fita destacable, ja que ha recordat que "no hi ha cap proveïdor que generi aquests volums de dades".

La recol·lecció s'ha fet a partir del material disponible d'internet, plataformes i projectes com el francès Oscar, que va construir una base de dades multilingüe classificant webs per idiomes. Aquí també s'hi ha inclòs la Viquipèdia, l'Agència Catalana de Notícies, el Diari Oficial de la Generalitat de Catalunya (DOGC) i les dades dels 500 dominis .cat amb més trànsit.

El primer corpus d'Aina compta amb 1.700 milions de paraules en català

Durant el confinament es van recollir aproximadament 700 milions de paraules noves, que es van sumar als més de 1.400 milions de termes de l'Oscar i a un altre gran volum d'informació captat de diverses fonts d'internet. Després ha estat necessari un procés de neteja que consisteix a escollir oracions ben formades del català i que no estiguin repetides, i que ha necessitat 2.000 hores de GPUS del Mare Nostrum 4 del BSC. La previsió és que la construcció d’aquest primer pilar necessiti un total de 9.000 hores de GPU.

El big data generat en aquesta primera fase serviran per generar una base per al català estàndard i que permetrà posar els fonaments per garantir que el sistema es pugui actualitzar a mesura que la tecnologia avança. "Hi haurà canvis, però sempre podem reentrenar-los amb les dades que tenim, és una inversió de futur", ha detallat la doctora Villegas. Així mateix, ha assegurat que la previsió és incloure totes les varietats dialectals de la llengua a mesura que l'Aina vagi creixent.

Normalització lingüística i tecnològica

El nom d'Aina és un homenatge a Aina Moll, filòloga i directora de Política Lingüística de la Generalitat de Catalunya als anys 80, i respon a la lluita aferrissada per la normalització del català a la societat. Fent esment a un estudi de la xarxa europea Metanet, el conseller de Polítiques Digitals, Jordi Puigneró, ha recordat que al continent hi ha 20 llengües en risc d'extinció digital i que cal prendre mesures per evitar-ho. "Aquest és el corpus digital del català més gran fins al moment amb més de 1.700 milions de paraules amb metadades", ha celebrat.

Hi ha 20 llengües en risc d’extinció digital a Europa

En aquest sentit, la directora general de Societat Digital, Joana Barbany, ha posat de manifest el pes creixent del desenvolupament d'eines de veu, un sector que preveu assolir els 15,7 bilions de dòlars a curt termini. "Els assistents seran essencials i és important que el català no en quedi al marge", ha insistit. Barbany també ha quantificat en 250.000 euros la inversió de la Generalitat en el projecte i ha explicat que s'espera dotar-lo amb 12 milions d'euros més de fons europeus perquè creixi de manera progressiva en els pròxims tres anys.