El govern espanyol presenta ALIA, la família de models d’IA entrenats en català, castellà, gallec i basc
El projecte desenvolupat pel Barcelona Supercomputing Center ofereix en obert models de text i traducció automàtica i bases de dades per a tecnologies de veu
Categories:
El president del govern espanyol, Pedro Sánchez, ha presentat aquest dilluns al Fòrum HispanIA la família de models fundacionals d’intel·ligència artificial ALIA, un conjunt de recursos desenvolupats pel Barcelona Supercomputing Center – Centre Nacional de Supercomputació (BCS-CNS) entrenats en català, castellà, basc i gallec al superordinador MareNostrum 5. Els models ALIA han estat finançats íntegrament amb fons públics i s’han publicat en obert a través de l’ALIA Kit, convertint-se en la primera infraestructura pública europea, oberta i multilingüe en el camp de la intel·ligència artificial.
La principal característica del projecte ALIA és l’alt percentatge que representen les llengües de l’estat espanyol dins del seu material d’entrenament en comparació amb els principals models fundacionals comercials, com GPT o Gemini, entrenats majoritàriament en anglès. El català representa aproximadament un 1,97% del total de dades amb què s’ha entrenat el model, una xifra que multiplica per 49 el 0,04% que representa la llengua en els models Llama 2 de Meta, per exemple. En el cas del castellà, que és la llengua local amb més presència al conjunt, representa un 16,12%, mentre que el gallec suposa un 0,31% i el basc, un 0,24%.
En conjunt, el model treballa amb informació extreta de 68 bases de dades en 35 llengües europees diferents, de les quals l’anglès és la més emprada, però ‘només’ representa un 39,31% dels textos, constituint un conjunt molt més divers. “El corpus d’entrenament del model ocupa 33 terabytes de memòria, el que equival a 17 milions de llibres, 4,5 milions de fotos en alta resolució o 6,6 milions de cançons“, explica el membre de l’àrea de tecnologies del llenguatge del BSC-CNS, Albert Cañigueral. Pel que fa al català, la informació s’ha extret de documents cedits per mitjans de comunicació, com l’ACN, Vilaweb, Nació Digital, el Grup El Món, IB3 o Racó Català, entre altres; de repositoris d’articles i llibres acadèmics, de la Viquipèdia i d’institucions públiques com el Parlament de Catalunya, les Corts Valencianes, el Diari Oficial de la Generalitat Valenciana o el Butlletí Oficial de la Universitat d’Alacant. Tots els processos s’han executat seguint les directrius de transparència de la llei europea d’intel·ligència artificial i han estat verificats per l’Agència Espanyola de Supervisió de la Intel·ligència Artificial (AESIA).
Cañigueral: “El corpus d’entrenament del model ocupa 33 terabytes de memòria, el que equival a 17 milions de llibres, 4,5 milions de fotos en alta resolució o 6,6 milions de cançons“
El model principal del projecte és l’ALIA-40B, un model que, ara per ara, “s’està acabant d’entrenar i no s’ha instruït encara per a cap funció específica”, però que un cop es completi l’entrenament, s’instruirà per a diverses funcions específiques, com els xats de pregunta-resposta, la generació augmentada per recuperació (RAG), l’anàlisi de sentiments, el resum de textos o el raonament causal, entre altres. “És una tecnologia de propòsit general que, en ser oberta, les empreses poden acabar d’ajustar (fine tuning) a les seves necessitats”, assenyala Cañigueral.
Les bases d’ALIA es fonamenten en el Projecte Aina, encetat el 2020 per la Generalitat de Catalunya, així com en ILENIA, un projecte comú entre diferents institucions de l’estat que busquen crear recursos multilingües de text, veu i traducció automàtica. “Aina ha anat publicat models de text, de veu i de traducció durant els darrers anys. Els més avançats pel que fa a models generatius de text han estat Salamandra 2B i Salamandra 7B, publicats a la tardor de 2024. A partir d’aquesta feina prèvia s’ha continuat treballant fins a l’elaboració d’aquest model ALIA-40B”, explica el membre del BSC-CNS. És a dir, el projecte ALIA comparteix la base de dades d’entrenament i els processos per crear-los dels diversos models finançats dins del projecte Aina, però amb un corpus d’entrenament molt més gran i divers.
Casos pilot a l’administració pública
El projecte ALIA neix el 2019 amb el Pla de Tecnologies del Llenguatge de l’executiu espanyol, però no s’ha posat finalment en marxa fins a l’arrancada de l’Estratègia Nacional d’Intel·ligència Artificial 2024. Dins d’aquest pla, la iniciativa ha rebut un finançament de 10 milions d’euros, part dels 90 milions que el govern espanyol va invertir en el BSC-CNS el maig de 2024 per millorar-ne les prestacions.
Els recursos del Projecte ALIA ja es troben disponibles en obert per a qualsevol persona o institució interessada, un conjunt que també inclou el mateix govern espanyol. De fet, Sánchez ha anunciat que ja es troben en desenvolupament dos projectes pilot per demostrar les capacitats de la iniciativa. El primer d’ells és un xatbot intern per a l’Agència Tributària, el qual busca agilitzar la feina dels seus treballadors, mentre que el segon és una aplicació orientada al sector de la medicina d’atenció primària, amb la voluntat que ajudi a fer diagnòstics precoços i més precisos de les insuficiències cardíaques. Paral·lelament al projecte ALIA, l’executiu espanyol invertirà 150 milions d’euros per impulsar la integració i ús de les tecnologies d’intel·ligència artificial de l’estat, dels quals 20 milions es destinaran a 500 casos d’ús en petites i mitjanes empreses.