El Projecte AINA supera les 1.900 hores enregistrades en català

L’impuls de la campanya ha aconseguit situar la llengua com el segon corpus a Common Voice, però depèn excessivament del dialecte central

Categories:

Redacció

El vicepresident de Polítiques Digitals i Territori, Jordi Puigneró, en la presentació del Projecte AINA al Barcelona Supercomputing Center
El vicepresident de Polítiques Digitals i Territori, Jordi Puigneró, en la presentació del Projecte AINA al Barcelona Supercomputing Center | Govern de Catalunya

El Projecte AINA, la iniciativa del Govern de Catalunya per crear un corpus lingüístic de dades de veu obertes en català, ha superat les 1.900 hores d’enregistrament de veu, de les quals 1.100 hores han estat validades. Així ho ha comunicat Softcatalà a través de Twitter, on l’entitat celebra l’impuls que ha suposat la campanya informativa llançada per l’executiu per promoure la participació de la ciutadania, però remarca els deures pendents: la manca de validació de talls de veu i la dependència del dialecte central, que suposa el 76% de les aportacions a Common Voice.

I és que el segon dialecte més present en les aportacions ciutadanes a Common Voice és el valencià, que representa un 5% del total, mentre que el català nord-occidental es troba present en el 3% dels talls, i el septentrional i el balear, en un 1% cadascun. El 14% de les aportacions no s’identifica amb cap dels dialectes de la llengua. Per tal de resoldre aquesta situació, la Generalitat ha anunciat que arrancarà una gira divulgativa sobre el Projecte AINA per tots els territoris catalanoparlants, començant aquest mateix dilluns 4 d’abril per Perpinyà (Catalunya del Nord). Dijous 7 d’abril, la comitiva encapçalada pel vicepresident de Polítiques Digitals i Territori, Jordi Puigneró, farà un acte a València, mentre que l’11 d’abril es visitarà Palma. En les tres visites, els assistents podran enregistrar talls de veu amb material proveït pel Govern català. D’altra banda, abans de l’estiu la gira encetarà una segona fase, en què es visitarà un municipi de cadascuna de les vuit vegueries catalanes.

Deixant de banda el desequilibri lingüístic, és un fet que la promoció pública de la iniciativa ha disparat les participacions de la població. A principis de febrer, dies abans del llançament de la campanya informativa, el corpus català de Common Voice va superar les 1.000 hores enregistrades i les 800 validades, gairebé tres anys després del seu començament. En menys de dos mesos, la xifra pràcticament arriba a les 2.000 hores, tot i que les validades només han escalat fins a les 1.100. D’altra banda, Softcatalà també assenyala el desequilibri de gènere de les aportacions, atès que un 63% de les veus són masculines, per un 19% de veus de dones i un 18% no determinat.

Imatge: Softcatalà