El BSC desenvolupa una IA experta en el castellà

El model ha estat entrenat al superordinador MareNostrum amb 59 TB de textos extrets de l’arxiu web de la Biblioteca Nacional

Categories:

ACN

El BSC s'alia amb la Biblioteca Nacional d'Espanya per crear un model d'IA expert en castellà entrenat al superordinador MareNostrum
El BSC s'alia amb la Biblioteca Nacional d'Espanya per crear un model d'IA expert en castellà entrenat al superordinador MareNostrum | BSC

El Barcelona Supercomputing Center – Centre Nacional de Supercomputació (BSC-CNS) ha creat un model d’intel·ligència artificial (IA) especialitzat en la comprensió i escriptura del castellà. El sistema ha estat anomenat MarlA i ha estat entrenat al superordinador MareNostrum amb arxius de dades de la Biblioteca Nacional de España (BNE). El projecte s'ha finançat amb fons del Pla de Tecnologies del Llenguatge del Ministeri d'Afers Econòmics i Agenda Digital i del Future Computing Center, i ja està disponible per a desenvolupadors d'aplicacions, empreses i entitats, que el poden utilitzar gratuïtament per a múltiples funcionalitats, com ara correctors, predictors del llenguatge o motors de traducció i subtitulació automàtica, entre altres.

MarIA és el primer model d'intel·ligència artificial massiu del castellà. Per entrenar-lo s’ha utilitzat un corpus de paraules i frases de 59 TB extret de l’arxiu web de la BNE. Abans d’introduir la documentació, aquesta s’ha processat per eliminar tot allò que no fos text ben format, com números de pàgines, gràfics o altres idiomes. Per a aquest cribratge i la seva posterior compilació van ser necessàries gairebé 7 milions d’hores de processadors del superordinador MareNostrum, que va donar com a resultat més de 200 milions de documents nets, que ocupen un total de 570 GB de text net i sense duplicitats. El corpus obtingut supera en diverses ordres de magnitud la mida i la qualitat dels conjunts disponibles en l'actualitat.

Un cop creat el corpus, els investigadors del BSC van utilitzar una tecnologia de xarxes neuronals per formar el model. Els entrenaments consisteixen en diverses tècniques, una de les quals consisteix a presentar a la xarxa textos amb paraules ocultes perquè aprengui a endevinar quina és la paraula amagada a partir del seu context. Per a aquest entrenament han estat necessàries 184.000 hores de processador i més de 18.000 hores de GPU.