El Projecte AINA s’estendrà fins al 2026 per normalitzar el català al món digital

El Govern invertirà 12 MEUR en la iniciativa liderada pel BSC-CNS, que ja ha superat les 2.700 hores de veu enregistrades i disposa d’un corpus textual de 35 GB

Categories:

Redacció

El Projecte AINA tanca el 2022 amb més de 2.700 hores de veu en català enregistrades a Common Voice per la ciutadania
El Projecte AINA tanca el 2022 amb més de 2.700 hores de veu en català enregistrades a Common Voice per la ciutadania | Malte Helmhold (Unsplash)

El Projecte AINA, la iniciativa que vol crear un corpus lingüístic per normalitzar el català en les tecnologies de veu a través de la intel·ligència artificial, es continuarà desplegant fins al 2026 gràcies a una inversió de 12 milions d’euros per part del Govern de la Generalitat. Els fons es repartiran en quatre anys en forma de subvencions directes al Barcelona Supercomputing Center - Centre Nacional de Supercomputació (BSC-CNS), l’entitat que coordina les activitats del projecte.

Encetat l’any 2020, el Projecte AINA té com a objectiu crear tots els materials necessaris perquè dispositius tecnològics com els assistents de veu puguin emprar el català a la mateixa escala que la resta de llengües del món. En aquest sentit, són diverses les aplicacions que s’estan desenvolupant, però els grans protagonistes són els corpus lingüístics, reculls de dades necessaris per entrenar els algoritmes en l’ús de l’idioma. “Volem que el català sigui llengua d’ús normalitzat en el món digital”, ha declarat el conseller d’Empresa i Treball, Roger Torrent, per a qui el Projecte AINA és “una infraestructura de país” que permetrà que “qualsevol empresa o organització pugui crear les seves pròpies aplicacions i incloure el català de forma normalitzada en els seus serveis digitals”.

35 GB de dades textuals per entrenar les IA

A hores d’ara, d’acord amb la darrera presentació de resultats de la iniciativa, el corpus textual d’AINA ha passat dels 12,5 GB als gairebé 35 GB, una xifra destacable, però encara molt lluny del corpus obert en anglès, que acumula 850 GB de frases. Això sí, s’ha aconseguit que Amazon l’incorpori a MASSIVE, un dels conjunts de dades de veu per al processament de llenguatge natural més rellevants que hi ha en l’actualitat.

Per la seva banda, el corpus de veu ha estat el dataset que més s’ha promocionat des del govern a través d’una campanya informativa, amb la qual es buscava que la ciutadania participés amb aportacions i validacions de frases a través de Common Voice. L’impuls públic ha permès superar amb escreix l’objectiu marcat per al 2022 i assolir les més de 2.700 hores aquest desembre, la qual cosa situa el català com la segona llengua amb més hores enregistrades i la tercera amb més hores validades en la iniciativa de Mozilla. En total, es disposa de 320.000 frases amb llicència CC0, la necessària per fer-les servir en aquest projecte, que s’han obtingut a partir de vídeos de YouTube en català amb la llicència adequada i de materials cedits per la CCMA i IB3.

Paral·lelament a l’ampliació i millora de qualitat d’ambdós corpus lingüístics, el Projecte AINA també ha treballat en el desenvolupament de diversos prototips. Entre ells destaquen les noves veus sintètiques entrenades per AINA mitjançant el seu ús en un assistent de veu de l'empresa Bookline, una eina de transcripció automàtica (oTranscribe+) i un xatbot de veu que respon preguntes sobre el projecte AINA i que pot servir de base per crear altres experiències conversacionals en català.