L’AINA avança: 128 gigabytes de text i 800 hores de veu en català

El projecte per crear models generatius que abasteixin les desenvolupadores de traductors automàtics, correctors i assistents de veu tanca l’any amb un notable augment del seu corpus de dades

Categories:

Redacció

La iniciativa està impulsada pel Departament d'Empresa i  hi treballen tècnicament els professionals del Barcelona Supercomputing Center (BSC)
La iniciativa està impulsada pel Departament d'Empresa i hi treballen tècnicament els professionals del Barcelona Supercomputing Center (BSC) | MetaData

L’AINA té poc més de tres anys i continua fent passos decididament endavant. El projecte d'intel·ligència artificial destinat a generar corpus i models en català perquè les desenvolupadores puguin crear assistents de veu, traductors o correctors automàtics en aquesta llengua acumula ja 127,5 gigabytes de dades textuals preprocessades, una xifra que equival a 17.000 milions de paraules. Durant l’últim any, a més, s’han recollit 800 hores de veu en la campanya de realitzada a través de CommonVoice, el projecte col·laboratiu iniciat per Mozilla per crear una base de dades lliure de veus en diferents idiomes usable per programari de reconeixement de la parla.

La iniciativa —que impulsa el Departament d'Empresa i treballen tècnicament els professionals del Barcelona Supercomputing Center (BSC)— presenta un balanç positiu pel que fa als avenços experimentats durant el 2023. A les noves col·leccions de dades anotades per ser avaluades s’hi han afegit 60.000 textos curts, 6.000 paràgrafs que inclouen converses d’uns 15 torns de pregunta-resposta, 6.400 ressenyes per analitzar expressions que continguin sentiments, 11.000 frases úniques extretes de tuits sobre temes controvertits i 16.000 frases úniques de fòrums. També s’han extret 689.000 documents de la Viquipèdia que contenen 266 milions de paraules. 

El corpus per l’entrenament de la traducció automàtica també ha crescut significativament. Del català al castellà s’apleguen ja 85 milions de frases, 22 milions del català a l’anglès, 18 respecte al francès i gairebé 10 amb el portuguès, italià i alemany. En la translació del català al xinès se’n tenen 6,8 milions. 

En l’àmbit de la veu, però, és on Catalunya i l’AINA estan excel·lint de manera especial. Un total de 35.000 voluntaris han participat en l’assortiment de talls de veu mitjançant Common Voice per arribar a la xifra de 2.500 hores des de l’inici del projecte. Amb tot això, el català s’ha situat com a primera llengua en hores validades i la segona amb major nombre d’hores enregistrades. Una de les estratègies d’Aina per seguir abastint-se amb un subministrament continu de dades de veu és la creació de Found Speech Pipeline, un instrument capaç de generar dades a partir de transcripcions i subtítols, amb l’objectiu de generar datasets per ASR (reconeixement automàtic de veu) processant continguts de manera automàtica.