El Projecte Aina també desenvoluparà models d’IA en aranès
El BSC preprocessarà i integrarà al corpus lingüístic les dades de veu, text i metadades cedides per l’Institut d’Estudis Aranesi
Categories:
El Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) i l’Institut d’Estudis Aranesi (IEA-AALO) han arribat a un acord per potenciar la presència de la llengua aranesa en el món de la intel·ligència artificial. En concret, l’IEA-AALO cedirà dades de veu, text i metadades al BSC perquè la institució barcelonina les preprocessi i les integri dins dels corpus del Projecte Aina, de manera que els futurs models multilingües que desenvolupi l’entitat també incloguin l’aranès.
En l’actualitat, el Projecte Aina està conformat per múltiples datasets i models que es poden consultar i descarregar des de l’Aina Kit. Tots dos àmbits es classifiquen en tres categories principals: el text, la parla i la traducció automàtica. Un dels darrers models de text publicats és el model massiu (LLM) generatiu de propòsit general instruït FLOR 6.3B, que incorpora tres llengües (català, castellà i anglès) i pot generar tasques de creació de text, com ara respondre preguntes, fer resums d’altres textos o practicar l’escriptura creativa. Amb la implementació de les dades cedides per l’IEA-AALO, el president de l’entitat, Jèp de Montoya, confia que s’aconsegueixi “un avanç important per al desenvolupament de tecnologies en llengua occitana que puguin facilitar l’estudi i anàlisi lingüística”, així com “una major difusió i foment de la llengua a través d’aplicacions de redacció de textos o correcció automàtica”.
Aquesta no és la primera vegada que s’impulsa una iniciativa que busca incloure la llengua aranesa en els models de llenguatge en què es basen els sistemes d’intel·ligència artificial de l’actualitat. A finals de 2022, la cooperativa Col·lectivaT va impulsar, amb la col·laboració del Conselh Generau d’Aran, el Projecte Araina, una iniciativa que s’inspirava en Aina per crear un corpus lingüístic en aranès. L’entitat va organitzar una marató de veus que va aconseguir recaptar vuit hores de veu parlada de frases d’obres literàries clàssiques, però des d’aleshores no hi ha hagut cap més actualització pública del projecte.