La IA MarIA ja resumeix i genera textos en castellà

El model, desenvolupat pel BSC, incorpora la tecnologia GPT-2 en la nova versió

Categories:

Redacció

MarIA avança en el resum i creació de textos
MarIA avança en el resum i creació de textos | Barcelona Supercomputing Center – Centre Nacional de Supercomputació

El model d’intel·ligència artificial (IA) especialitzat en la comprensió i escriptura del castellà desenvolupat pelBarcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) i anomenat MarIA ja permet resumir textos existents i crear-ne de nous a partir de titulars o de paraules. Aquestes funcionalitats són el resultat de l’ús de la tecnologia GPT-2, que crea models generatius descodificadors per simplificar redactats, generar preguntes i respostes, mantenir diàlegs complexos amb l’usuari o redactar textos complets.

Les noves capacitats converteixen MarIA en una eina que, amb entrenaments ad hoc adaptats a tasques específiques, pot ser de gran utilitat per a desenvolupadors d'aplicacions, empreses i administracions públiques. Els models que s'han desenvolupat fins ara en anglès s'utilitzen per generar suggeriments de text en aplicacions d'escriptura, per resumir contractes o els complicats documents que detallen les prestacions d'un producte, en funció del que vol saber cada usuari, i per cercar informacions concretes dins de grans bases de dades de text i relacionar-les amb altres informacions rellevants.

“Amb projectes com MarIA, que es veuran incorporats al PERTE per al desenvolupament d'una economia digital en espanyol, fem passos ferms cap a una intel·ligència artificial que pensi en espanyol, cosa que multiplicarà les oportunitats econòmiques per a les empreses i la indústria tecnològica espanyola. Perquè la llengua és molt més que un mitjà de comunicació. És una projecció de la manera que tenim de veure el món, també a la nova realitat digital”, assenyala la secretària d'Estat de Digitalització i Intel·ligència Artificial, Carme Artigas.

Primer model que usa el castellà

El projecte MarIA és el primer sistema d'intel·ligència artificial massiu i expert a comprendre i escriure en llengua espanyola. Pel seu volum i capacitats, ha situat la llengua espanyola al tercer lloc dels idiomes que disposen de models massius d'accés obert, després de l'anglès i el mandarí. S'ha construït a partir del patrimoni documental digital de la Biblioteca Nacional d'Espanya, que rastreja i arxiva les webs elaborades en espanyol, i s'ha entrenat amb el superordinador MareNostrum 4. Es publica en obert perquè els desenvolupadors d'aplicacions, companyies, grups de recerca i la societat en general el puguin fer servir en infinitat d'usos.

Les dades de la Biblioteca Nacional amb què s'ha entrenat MarIA estan constituïdes per més de 135.000 milions de paraules que ocupen un total de 570 Gigabytes. Per crear i entrenar el sistema, s'ha utilitzat el superordinador MareNostrum del BSC i ha calgut una potència de càlcul de 9,7 trilions d'operacions (969.exaflops). Un flop (operació de coma flotant) és la unitat de mesura amb què s'expressa la capacitat de càlcul d'un superordinador per segon i exa és el prefix que expressa 1018, és a dir, un trilió.

D'aquests 969 exaflops, 201 van ser necessaris per processar les dades procedents de la Biblioteca Nacional, eliminar tot allò que no fos text ben format (números de pàgines, gràfics, oracions que no acaben, codificacions errònies, oracions duplicades, altres idiomes, etc.) i guardar només els textos correctes en llengua espanyola, tal com és realment utilitzada. La resta de 768 exaflops es van utilitzar per entrenar les xarxes neuronals del model GPT-2.

La versió actual de MarIA donarà ara lloc a versions especialitzades en diferents àrees d'aplicació, incloent-hi biomedicina i legal, i evolucionarà per resoldre els problemes específics esmentats anteriorment.