El BSC desenvolupa una IA experta en el castellà

El model ha estat entrenat al superordinador MareNostrum amb 59 TB de textos extrets de l’arxiu web de la Biblioteca Nacional

ACNDijous, 29 de juliol de 2021 | 10:37h

El BSC s'alia amb la Biblioteca Nacional d'Espanya per crear un model d'IA expert en castellà entrenat al superordinador MareNostrum | BSC

El Barcelona Supercomputing Center – Centre Nacional de Supercomputació (BSC-CNS) ha creat un model d’intel·ligència artificial (IA) especialitzat en la comprensió i escriptura del castellà. El sistema ha estat anomenat MarlA i ha estat entrenat al superordinador MareNostrum amb arxius de dades de la Biblioteca Nacional de España (BNE). El projecte s'ha finançat amb fons del Pla de Tecnologies del Llenguatge del Ministeri d'Afers Econòmics i Agenda Digital i del Future Computing Center, i ja està disponible per a desenvolupadors d'aplicacions, empreses i entitats, que el poden utilitzar gratuïtament per a múltiples funcionalitats, com ara correctors, predictors del llenguatge o motors de traducció i subtitulació automàtica, entre altres.

MarIA és el primer model d'intel·ligència artificial massiu del castellà. Per entrenar-lo s’ha utilitzat un corpus de paraules i frases de 59 TB extret de l’arxiu web de la BNE. Abans d’introduir la documentació, aquesta s’ha processat per eliminar tot allò que no fos text ben format, com números de pàgines, gràfics o altres idiomes. Per a aquest cribratge i la seva posterior compilació van ser necessàries gairebé 7 milions d’hores de processadors del superordinador MareNostrum, que va donar com a resultat més de 200 milions de documents nets, que ocupen un total de 570 GB de text net i sense duplicitats. El corpus obtingut supera en diverses ordres de magnitud la mida i la qualitat dels conjunts disponibles en l'actualitat.

Un cop creat el corpus, els investigadors del BSC van utilitzar una tecnologia de xarxes neuronals per formar el model. Els entrenaments consisteixen en diverses tècniques, una de les quals consisteix a presentar a la xarxa textos amb paraules ocultes perquè aprengui a endevinar quina és la paraula amagada a partir del seu context. Per a aquest entrenament han estat necessàries 184.000 hores de processador i més de 18.000 hores de GPU.

El digital de tecnologia en català

El BSC desenvolupa una IA experta en el castellà

El model ha estat entrenat al superordinador MareNostrum amb 59 TB de textos extrets de l’arxiu web de la Biblioteca Nacional

Etiquetes

Articles relacionats

El BSC crea una eina per conèixer la relació entre mobilitat i contagis de covid-19

El català es prepara per entrenar els futurs assistents de veu

El BSC crearà xips de codi obert en un laboratori de computació avançada

La intel·ligència artificial ‘made in Barcelona’ que canviarà el món

Etiquetes

Articles relacionats

El BSC crea una eina per conèixer la relació entre mobilitat i contagis de covid-19

El català es prepara per entrenar els futurs assistents de veu

El BSC crearà xips de codi obert en un laboratori de computació avançada

La intel·ligència artificial ‘made in Barcelona’ que canviarà el món

MetaData

El digital de tecnologia en català

Seccions

Categories

Territoris

Cercador