La supervivència digital del català és a les mans de la gent (i de les dades obertes)
La participació històrica de la societat per enfortir la presència de la llengua a internet s’ha revalorat amb l’auge de les intel·ligències artificials i els corpus lingüístics amb què s’entrenen
Categories:
Es calcula que al món hi ha més de 7.100 llengües vives, però només 23 superen els 50 milions de parlants i més de 2.000 es troben en perill. Aquestes diferències s’han accentuat notòriament amb la digitalització de la societat, on les principals llengües, amb l’anglès al capdavant, han monopolitzat les comunicacions. Les noves tecnologies, com la intel·ligència artificial (IA) generativa, no se’n salven: el 92% de les paraules amb què OpenAI va entrenar el model GPT-3 provenen de l’anglès, amb el francès i l’alemany com a úniques llengües que superen l’1% (1,8% i 1,4%, respectivament). “El món digital és a la vegada una amenaça i una oportunitat per la llengua, i cal fer esforços i estar pendents dels canvis”, ha afirmat el conseller de Política Lingüística de la Generalitat, Francesc Xavier Vila, a la cinquena edició del NPLD-Coppieters Campus, celebrat aquest dijous a la seu de l’Institut d’Estudis Catalans de Barcelona.
Malgrat el pessimisme que pot transmetre de primeres les xifres d’entrenament de GPT-3, la realitat és que els nous models d’IA generativa han revifat la presència digital de certes llengües, com és el cas del català, segons ha remarcat Vila: “L’entrenament de models de llenguatge extensos s’ha basat en els continguts ja presents a les xarxes, els esforços de generacions prèvies. Afortunadament, després d’anys de feina a la xarxa, hi ha hagut prou recursos per fer aquest pas no des d’aquí, sinó des d’on s’estan fent aquestes aplicacions”.
Conseller @VilaFx al #NPLDCoppietersCampus: "El món digital genera, per molts, una sensació d'abisme: pot ser una amenaça i una oportunitat. Per garantir que sigui positiu pel català, calen estratègies clares, establir prioritats, maximitzar la inversió i mantenir-nos vigilants" pic.twitter.com/1y8KW3HZCB
— Política Lingüística (@llenguacatalana) November 14, 2024
En aquesta línia, un dels moviments més ambiciosos per reforçar la presència de la llengua en els corpus lingüístics per entrenar models generatius és el Projecte Aina, una iniciativa del Govern i el Barcelona Supercomputing Center (BSC) encetat el 2020 que ha aconseguit situar el català com a llengua líder al projecte Common Voice de la Fundació Mozilla, amb gairebé 4.000 hores de veu enregistrades. Amb l’objectiu de tenir un model de llenguatge obert per al sector públic i privat el 2026, de moment el projecte ja ha publicat 64 models de diferents mides i funcionalitats a Hugging Face, entre els quals l’analista de negoci i mercats d’IA del BSC, Andrés José Roman, destaca el model Salamandra: “Anteriorment, fèiem servir models públics, d’altres universitats i de Hugging Face, i aquest any, amb el MareNostrum 5, hem pogut fer el model partint des de zero. Té un 2% de català, que sembla poc, però és 15 vegades més que ChatGPT, i anirà incrementant amb el temps”.
Amb més de 4.000 hores de veu registrades, el català és la llengua líder al corpus lingüístic obert Common Voice gràcies a l’impuls del Projecte Aina, que treballa desenvolupant nous models
Roman ha volgut deixar clar que “el model no és l’aplicació”, sinó que ells s’encarreguen de preparar el terreny de les dades perquè “proveïdors al núvol, start-ups, pimes i integradors” desenvolupin els serveis que arribaran a l’usuari final. Per impulsar-ho, l’equip ha preparat l’Aina Kit, una “caixa d’eines” que aplega recursos i documentació per fer servir els models del projecte. A més, també s’han dut a terme activitats formatives i propostes com l’Aina Hack, una hackató on els participants havien de “resoldre reptes de l’administració per optimitzar i personalitzar aplicacions”. La següent activitat d’aquesta línia de treball és l’Aina Challenge, un concurs de reptes obert a empreses perquè facin proves de concepte amb l’Aina Kit. “Començarà el gener i anunciarem els 20 guanyadors al Mobile World Congress. Desenvoluparan els projectes d’abril a setembre amb la intenció que es converteixin en projectes reals”, ha explicat Roman.
Fortalesa digital gràcies a la societat civil
Tot i que sovint s’enduen la fotografia principal, les tecnologies del llenguatge engloben molts més elements que els xatbots. La conselleria de Política Lingüística en classifica nou categories al directori La llengua catalana i les tecnologies del llenguatge, entre les quals es troben els sistemes de reconeixement de parla, la síntesi de veu, els assistents virtuals o la traducció simultània. De les 296 eines localitzades arreu del món, el català té presència en el 60%, 14 punts percentuals més que el 2020. Per valorar-ne la situació en el context global, la conselleria ha agafat 207 d’aquests programaris i 30 llengües europees per comparar-ne les dades amb el català. Els resultats situen la llengua del Principat dins del grup d’idiomes amb presència important, juntament amb el neerlandès, el danès, el suec, el finès, el polonès i el txec. El percentatge d’implementació en cada categoria és similar en la meitat d’elles, però el català despunta en models de llenguatge estès i xatbots generatius populars, mentre que queda per sota de la mitjana del seu grup en eines de navegació geogràfica i no té presència entre els assistents virtuals amb veu de primera generació. “Quan hi ha organitzacions pel mig, com que necessiten arribar a uns clients, estiren perquè hi hagi mercat. Quan són productes més mainstream, concebuts per tot el món, és més difícil, tot i que a vegades s’arriba a millores. I ens hem trobat que el nou paradigma de la intel·ligència artificial està donant uns resultats que, en principi, són esperançadors”, ha valorat el cap del Servei d'Informació, Difusió i Estudis de Política Lingüística, Anton Ferret.
El català es troba entre el grup de llengües europees amb una presència important en les eines tecnològiques de veu, juntament amb el neerlandès, el danès, el suec, el finès, el polonès i el txec
Una de les claus que expliquen que el català tingui una presència digital comparable a la de llengües amb més parlants o que tenen un estat al darrere és la participació activa de la societat civil. Softcatalà és probablement una de les entitats més destacades en aquest àmbit, amb més d’un quart de segle treballant sense ànim de lucre per reforçar el paper de la llengua a internet. “El nostre enfocament és treballar sempre amb tecnologies lliures, com LibreOffice o Linux. Posem una barrera en tot allò comercial, perquè pensem que les empreses han de contractar serveis de pagament, que els professionals han de tenir un espai i no ens correspon a nosaltres”, ha aportat el membre de Softcatalà Jordi Mas. Un dels pilars de l’entitat és la traducció al català de programaris de codi lliure, un llistat que supera els 50 projectes, entre els quals es troben Mozilla Firefox, GIMP, Inkscape o el ja mencionat LibreOffice. L’altra gran branca de l’equip és el desenvolupament d’eines digitals lingüístiques, tant destinades a traductors, com bases de dades i guies d’estil, com per al públic general, amb diccionaris, correctors ortogràfics i gramaticals i transcriptors de veu a àudio. Recentment, i a conseqüència dels altres enfocaments, Softcatalà també ha desenvolupat models oberts d’IA i corpus lingüístics, els quals es poden trobar a la seva pàgina de Hugging Face.
Una de les grans reivindicacions que Mas ha volgut posar sobre la taula és la necessitat d’apostar de manera clara i directa per les tecnologies obertes, tant des de l’administració com des d’altres àmbits: “Des de fa temps és bastant present limitar l’ús comercial d’una tecnologia. Qualsevol llicència així, no és ni lliure ni oberta. Excloure el món empresarial és un error de dimensions majúscules que impacta més enllà de les empreses”. Un missatge a què també ha donat suport la professora i investigadora del departament de Traducció i Llenguatge de la Universitat Pompeu Fabra (UPF), Gemma Boleda, qui ha subratllat la responsabilitat de l’administració: “Cal finançar recursos oberts, sobretot recursos lingüístics, com corpus i diccionaris. Si això ho paga el Govern, ho paguem tots, i ha d’estar a l’abast de tothom”.
Recerca i models específics
A més a més de les iniciatives públiques i de les aportacions de la societat civil, les universitats catalanes també treballen intensament en la creació de noves eines tecnològiques que normalitzin la presència digital del català. N’és un exemple el Grup de Recerca Interuniversitari en Aplicacions Lingüístiques (GRIAL) de la Universitat Oberta de Catalunya (UOC), un equip que ha creat eines per a l’extracció automàtica de terminologia, de traducció automàtica i d’anàlisi lingüística de corpus de text, totes elles distribuïdes amb llicència pública general GNU. Els investigadors han confeccionat corpus paral·lels entre el català i l’aranès, mantenen el corpus paral·lel del Diari Oficial de la Generalitat de Catalunya (DOGC) i encapçalen el Projecte TAN-IBE, una iniciativa per crear una “eina de traducció automàtica neuronal per a les llengües romàniques de la península Ibèrica, amb atenció especial a l’aranès, l’asturià i l’aragonès”, en paraules del membre de GRIAL Antoni Oliver. Com que les llengües minoritàries tenen una manca de recursos i, a vegades, falta de consens en les normes ortogràfiques, el desenvolupament ha experimentat amb tècniques com l’ús de corpus sintètics, retrotraducció i transferència d’aprenentatge entre llengües basada en IA.
En una línia similar se situa LINGUATEC-IA, un projecte impulsat per un consorci de mitja dotzena d’entitats i universitats dels estats espanyol i francès, als quals enguany s’hi ha sumat la Universitat de Lleida, que busca crear eines perquè les llengües minoritàries s’incorporin en l’àmbit de les noves tecnologies amb un efecte multiplicador. Hi ha quatre idiomes implicats, l’èuscar, l’aragonès, el català i l’occità, els quals es troben en nivells de desenvolupament d’eines molt desiguals. “L’occità té eines per a l’anàlisi sintàctica de textos, de síntesi de veu i reconeixedor de la parla, a més de traductors automàtics occità-francès i occità-català”, ha assenyalat el professor de la UdL Jordi Suïls, però es troba en una situació complexa: “Tenim com a mínim tres opcions de llengua estàndard o normativa, el llenguadocià, el gascó i el subestàndard de l’aranès”. L’equip implicat en el projecte ja va impulsar el 2022 el projecte ARAINA per captar veus en aranès, amb el qual van aconseguir 13 hores de gravacions. “Si arribem a 50 hores, podrem fer un reconeixedor de parla decent”, ha apuntat Suïls.
TAN-IBE, LINGUATEC-IA o Scribal són alguns dels projectes universitaris que estan treballant per millorar la presència del català i altres llengües minoritàries en el món de les tecnologies lingüístiques
La disponibilitat de corpus lingüístics i models de qualitat també permeten crear eines amb funcionalitats molt específiques, com és el cas de Scribal, un programari de transcripció digital especialitzat en entorns educatius. “Scribal és un transcriptor en temps real adaptat a diferents dialectes del català i a la terminologia específica de la universitat”, ha descrit la investigadora i directora del departament de Filologia Catalana de la Universitat de Barcelona (UB) Mariona Taulé. El programari, que transcriu en temps real i pot traduir el text a l’anglès, sorgeix com un afinament (fine-tuning) del sistema Whisper d’OpenAI entrenat amb els corpus de CommonVoice i ParlamentParla, i els resultats redueixen la taxa d’error de les quatre variants dialectals del català. En el cas del central i el balear, la millora va des de dos punts percentuals a algunes dècimes, però en el nord-occidental s’aconsegueix rebaixar gairebé quatre punts i en el valencià es passa d’una taxa d’error del 77,28% a només del 16,15%. En el futur es vol ampliar amb enregistraments de “classes, seminaris i reunions de professors de la UB de diferents matèries i àrees de coneixement” i ja hi ha planejada una prova pilot a les aules de la UB per al pròxim quadrimestre per testar la seva utilitat amb alumnes i professors.