El Projecte AINA s’estendrà fins al 2026 per normalitzar el català al món digital

El Govern invertirà 12 MEUR en la iniciativa liderada pel BSC-CNS, que ja ha superat les 2.700 hores de veu enregistrades i disposa d’un corpus textual de 35 GB

Categories:

RedaccióDimarts, 20 de desembre de 2022 | 10:05h

El Projecte AINA tanca el 2022 amb més de 2.700 hores de veu en català enregistrades a Common Voice per la ciutadania | Malte Helmhold (Unsplash)

El Projecte AINA, la iniciativa que vol crear un corpus lingüístic per normalitzar el català en les tecnologies de veu a través de la intel·ligència artificial, es continuarà desplegant fins al 2026 gràcies a una inversió de 12 milions d’euros per part del Govern de la Generalitat. Els fons es repartiran en quatre anys en forma de subvencions directes al Barcelona Supercomputing Center - Centre Nacional de Supercomputació (BSC-CNS), l’entitat que coordina les activitats del projecte.

Encetat l’any 2020, el Projecte AINA té com a objectiu crear tots els materials necessaris perquè dispositius tecnològics com els assistents de veu puguin emprar el català a la mateixa escala que la resta de llengües del món. En aquest sentit, són diverses les aplicacions que s’estan desenvolupant, però els grans protagonistes són els corpus lingüístics, reculls de dades necessaris per entrenar els algoritmes en l’ús de l’idioma. “Volem que el català sigui llengua d’ús normalitzat en el món digital”, ha declarat el conseller d’Empresa i Treball, Roger Torrent, per a qui el Projecte AINA és “una infraestructura de país” que permetrà que “qualsevol empresa o organització pugui crear les seves pròpies aplicacions i incloure el català de forma normalitzada en els seus serveis digitals”.

35 GB de dades textuals per entrenar les IA

A hores d’ara, d’acord amb la darrera presentació de resultats de la iniciativa, el corpus textual d’AINA ha passat dels 12,5 GB als gairebé 35 GB, una xifra destacable, però encara molt lluny del corpus obert en anglès, que acumula 850 GB de frases. Això sí, s’ha aconseguit que Amazon l’incorpori a MASSIVE, un dels conjunts de dades de veu per al processament de llenguatge natural més rellevants que hi ha en l’actualitat.

Per la seva banda, el corpus de veu ha estat el dataset que més s’ha promocionat des del govern a través d’una campanya informativa, amb la qual es buscava que la ciutadania participés amb aportacions i validacions de frases a través de Common Voice. L’impuls públic ha permès superar amb escreix l’objectiu marcat per al 2022 i assolir les més de 2.700 hores aquest desembre, la qual cosa situa el català com la segona llengua amb més hores enregistrades i la tercera amb més hores validades en la iniciativa de Mozilla. En total, es disposa de 320.000 frases amb llicència CC0, la necessària per fer-les servir en aquest projecte, que s’han obtingut a partir de vídeos de YouTube en català amb la llicència adequada i de materials cedits per la CCMA i IB3.

Paral·lelament a l’ampliació i millora de qualitat d’ambdós corpus lingüístics, el Projecte AINA també ha treballat en el desenvolupament de diversos prototips. Entre ells destaquen les noves veus sintètiques entrenades per AINA mitjançant el seu ús en un assistent de veu de l'empresa Bookline, una eina de transcripció automàtica (oTranscribe+) i un xatbot de veu que respon preguntes sobre el projecte AINA i que pot servir de base per crear altres experiències conversacionals en català.

El digital de tecnologia en català

El Projecte AINA s’estendrà fins al 2026 per normalitzar el català al món digital

El Govern invertirà 12 MEUR en la iniciativa liderada pel BSC-CNS, que ja ha superat les 2.700 hores de veu enregistrades i disposa d’un corpus textual de 35 GB

35 GB de dades textuals per entrenar les IA

Etiquetes

Articles relacionats

Aina, la mare dels futurs assistents de veu en català

La Generalitat vol la teva veu perquè el Siri i l’Alexa parlin en català

El projecte Aina supera el milió de veus enregistrades

35 GB de dades textuals per entrenar les IA

Etiquetes

Articles relacionats

Aina, la mare dels futurs assistents de veu en català

La Generalitat vol la teva veu perquè el Siri i l’Alexa parlin en català

El projecte Aina supera el milió de veus enregistrades

MetaData

El digital de tecnologia en català

Seccions

Categories

Territoris

Cercador