“La intel·ligència artificial ha redefinit què vol dir obert”
Jordi Mas Membre fundador de Softcatalà i cap d’enginyeria en aprenentatge automàtic a Dow Jones
Categories:
El navegador Mozilla Firefox, el paquet d’ofimàtica LibreOffice, l’editor d’imatges GIMP o el reproductor multimèdia VLC són alguns dels principals exponents del programari lliure, una filosofia de desenvolupament informàtic que aposta per l’ús, estudi, reproducció i redistribució de les aplicacions i el seu codi sense restriccions. D’ençà que Richard Stallman publiqués el 1983 el Manifest GNU i que les primeres versions de Linux apareguessin el 1991, el moviment ha experimentat una evolució constant. “A finals dels 90, el programari lliure no es copsava com una cosa tan important, i avui dia molta gent ja entén que el programari i la tecnologia són tant necessaris per moltes capes de la societat que es necessita algun tipus d’infraestructura lliure en el domini públic de què tothom pugui gaudir”, confirma el desenvolupador Jordi Mas. N’és una veu més que autoritzada: fa més de 30 anys que es dedica professionalment a la microinformàtica i és un dels membres fundadors de Softcatalà, entitat responsable de les traduccions al català dels programes abans mencionats i autora d’eines tan lloades com el corrector ortogràfic i gramatical. Mas va acostar-se al programari lliure per l’interès tècnic que li generava el moviment i per la manca de possibiltats de participar en “projectes internacionals i complexos” des de Barcelona, una filosofia que després van traslladar a l’entitat: “Érem una comunitat sense afany de lucre de gent alliberada, així que vam pensar que era un encaix molt natural”. 26 anys després i amb una Creu de Sant Jordi sota el braç, Softcatalà continua experimentant amb les tecnologies del llenguatge, amb especial atenció en la intel·ligència artificial, una tècnica que per Mas “ha posat sobre la taula una lluita molt important, que va més enllà del codi lliure”.
El corrector de Softcatalà és una de les eines més emprades per la ciutadania.
És una eina que ha anat evolucionant amb els anys. Vam començar desenvolupant una mena de base de dades amb tots els termes que existien en llengua catalana, en totes les variants dialectals, i com declinar-los. No hi havia res, ho vam començar nosaltres, i vam crear el que era un corrector ortogràfic, en què si poses una paraula i no la identifica, et suggereix paraules similars. Això ja ho vam començar fa 20 o 25 anys. Aquesta mateixa base de dades és la que també fem servir per al conjugador de verbs i el traductor català-castellà. Ara fa 10 o 15 anys vam adonar-nos que el català és una llengua bastant complexa i que només amb la correcció ortogràfica no n’hi havia prou, així que vam començar a desenvolupar un sistema de correcció gramatical. Aquest sistema es basa en regles, així que vam intentar definir normes que capturessin les errades gramaticals més comunes. Coses típiques, com si ‘es’ és verb o reflexiu… Avui dia, tenim una miqueta menys de 4.000 regles definides, i és un sistema complex, perquè cada vegada que n’afegeixes una de nova, potser genera falsos positius, potser en alguna variant dialectal no acaba de ser del tot correcte… Per això hem desenvolupat una infraestructura bastant complexa per assegurar-nos que tot això es pot provar de manera automàtica, perquè cada vegada que ho actualitzem no ens disparem al peu.
Com ha evolucionat el sistema de regles internes des del seu inici fins al dia d’avui?
Vam començar amb un projecte lliure, LanguageTool, i ens hem basat en la seva base tecnològica, en la qual també hi hem contribuït bastant. Moltes de les necessitats que tenim estan cobertes per aquest sistema, que permet des de definir regles molt senzilles fent servir XML a incloure codi. També té un analitzador gramatical de les frases que et permet fer força coses. El que succeeix és que les limitacions que tenim no són de l’eina, sinó del mètode. Arriba un moment en què, per exemple, si vols fer correcció de pronoms febles, que és una cosa que als humans ja ens costa déu i ajuda, la màquina necessita entendre exactament quin paper té cada part de la frase, quina categoria gramatical té, i això no és fàcil fer-ho en un grau que no tingui un percentatge alt de consells erronis. Hi ha problemes que, per la idiosincràsia, són molt difícils d’expressar amb regles. Amb intel·ligència artificial es poden fer coses, però també és molt complex.
Hi heu implementat la intel·ligència artifical?
Hem estat treballant molt amb intel·ligència artificial, però de manera molt quirúrgica. Un dels problemes que té la intel·ligència artificial aplicada a la correcció gramatical és que és un camp on els falsos positius tenen molt poc recorregut. Si jo et dic que has de fer aquest canvi i el canvi està malament, és totalment devastador, perquè en comptes d’ajudar-te, t’empitjoro el text. Si tu fas traducció amb l’objectiu que s’entengui, encara que hi hagi alguna errada, tindràs més tolerància, perquè estàs intentant entendre el text. Però en el moment en què parlem de correcció gramatical, hi ha tolerància zero. Nosaltres hem fet proves de concepte en coses com les comes, que és molt difícil de fer amb regles perquè és extremadament complex, fins i tot als humans ens costen en català, i n’hi ha moltes que tenen una aplicació subjectiva. El corrector és una eina que fa servir molta gent i hem de ser molt curosos. Moltes vegades no posem coses a producció perquè no hem trobat el nivell de qualitat perquè no doni falsos positius.
"Un dels problemes que té la intel·ligència artificial aplicada a la correcció gramatical és que és un camp on els falsos positius tenen molt poc recorregut"
En el cas del traductor, heu incorporat la traducció neuronal del català a diversos idiomes. A grans trets, com es diferencia de les tècniques anteriors?
Hi ha tres grans famílies de tecnologies de la traducció. Tradicionalment, hi havia els sistemes de regles, com Apertium, que és el que encara fem servir per català-castellà. Com funcionen? Primer, has de tenir un diccionari, i després, defineixes una sèrie de regles de traducció. Són uns sistemes molt costosos de desenvolupar, perquè necessites gramàtics i gent que entengui molt de llengua per definir el diccionaris i les regles, i requereix anys per desenvolupar-los. Després van sorgir els sistemes estadístics, que per mi són l’impàs per arribar als sistemes neuronals. Els sistemes neuronals funcionen d’una manera molt diferent, ja que fan servir algoritmes d’aprenentatge profund. A aquests algoritmes els dones milions d’exemples d’una frase en català i d’una en anglès, si estiguessis fent un traductor anglès-català, i a partir d’això, l’algoritme d’aprenentatge és capaç d’extreure quins són els patrons per, en el futur, crear un model que sigui capaç de traduir una frase que no hagi vist mai. Aquests algoritmes t’estalvien tota la feina d’haver de definir tu les regles, les infereixen a partir de grans volums de dades. Quin inconvenient tenen? Que necessites grans volums de dades alineades, milions i milions d’exemples d’alta qualitat. Si tu ets una llengua molt minoritzada, com les llengües australianes, les de l’Índia, les africanes… Llengües que ja no és que no tinguin corpus, és que tampoc estan digitalitzades. Per elles, probablement és molt millor començar amb sistemes de regles. En canvi, si la llengua d’origen i de destí són similars, és millor, perquè no et calen tants corpus i pots començar simplement amb algú que en sàpiga molt.
La traducció neuronal acabarà substituint els sistemes de regles i els estadístics?
No crec que els sistemes neuronals desplacin completament els anteriors. Encara que tecnològicament siguin d’una generació anterior, tenen els seus casos d’ús. Un avantatge que tenen els sistemes de regles és que són molt ràpids i molt predicibles amb els errors que cometen. Amb un sistema com Apertium, quan tradueix un llibre, les errades que comet sempre són les mateixes, mentre que els sistemes neuronals són bastant indeterministes, i les errades que poden cometre canvien. Si has de traduir grans volums, els de regles estan bé perquè les errades sempre són les mateixes. No es pot equivocar, per exemple, amb el ‘per’ i el ‘per a’. Però amb la traducció neuronal t’ho has de llegir molt bé i anar amb molt de compte, perquè algunes de les errades que comet són de context i no són fàcils de veure. Són errors bastant raonables, que un humà també podria cometre. Un altre tema important és que els sistemes de regles no funcionen bé quan són llengües molt llunyanes. Quan en vols fer un entre català i castellà, és fàcil, perquè amb transferència morfològica, són llengües bastant similars. Però si vols fer un català-àrab, un català-japonès o un català-anglès, és molt fotut, amb un sistema de regles, perquè són llengües molt diferents. Els neuronals són les eines adients per llengües molt llunyanes. El traductor de Google té avui dia unes 280 llengües, però clar, ells fan la combinatòria de 280 per 280, tenen més de 70.000 combinacions. Quan treballes amb aquests volums, no pots fer un sistema de regles. El que fan totes aquestes empreses grans és entrenar sistemes neuronals perquè l’escala humana no els permet fer-ho d’una altra manera. A Softcatalà intentem donar-li un valor diferencial: el nostre castellà-català el fa servir encara molta gent, milions de persones, perquè la traducció que fa és més predictible. En aquesta combinació fem servir un sistema de regles, i per tota la resta, tecnologia neuronal.
"Si has de traduir grans volums, els sistemes de regles estan bé perquè les errades sempre són les mateixes. Però amb la traducció neuronal t’ho has de llegir molt bé i anar molt amb compte, perquè algunes de les errades que comet són de context i no són fàcils de veure"
L’auge de la IA generativa en els darrers anys ha aportat millores en el camp de la traducció, o la traducció neuronal anterior continua oferint resultants similars?
De fet, l’article científic Attention is All you need, que es va publicar el 2017, és el tret de sortida de la intel·ligència artificial generativa i es va dissenyar per traducció. L’origen de GPT i de tots aquests sistemes, la T del GPT, que fa referència als transformers, neix aquí. Els transformers neixen com una tècnica per no perdre el context en la traducció. Si en català agafes una paraula com ‘cap’, et trobes expressions com ‘Cap de Creus’, ‘no tinc cap’, ‘el meu cap a la feina’, ‘vaig escapar cap a Reus’... Has de tenir molt context per desambiguar. Els transformers són una arquitectura neuronal amb uns elements que es diuen heads que permeten tenir un context i aconseguir un rendiment en traducció que és un pas endavant molt important. Originalment, el primer ús que li dona Google és a Google Translate. I després, més endavant, es fan els models generatius de llengua. Des del principi s’aplica aquesta arquitectura a la traducció. El que sí que és diferent és com els models de llengua tradueixen. Quina diferència hi ha entre un model com els de Softcatalà, que són exclusivament de traducció, al qual li poses un text i te’l tradueix, i un ChatGPT? La qualitat de producció és molt semblant, almenys amb les avaluacions que nosaltres hem fet, però crec que aporta una cosa molt important: poder donar-li indicacions. A un sistema com ChatGPT li puc demanar que em tradueixi aquest text i me’l faci en segona persona, que faci que el parlant sigui una dona… Això és superpotent, perquè et permet ser més curós. En entorns professionals, pots dir-li: ‘Fes-me la traducció, però tingues en compte que aquesta llista de noms són marques comercials o de producte, així que no me’ls tradueixis’. Gemini, per exemple, té gairebé un milió de tokens de finestra de context. Li pots dir: ‘Aquesta pàgina que m’estàs traduint és part de tot aquest altre llibre que ja portes traduït’, i això l’ajuda molt a entendre què està traduint, sobretot en cas de desambiguació. Tot això és encara molt recent, i empreses com Google encara ofereixen la traducció normal. No han fet el pas, però la possibilitat hi és i crec que és atractiva.
El consum computacional que suposaria és una de les raons que explica que encara no s’hagi desplegat a gran escala?
Això és una raó, però també crec que hi ha una altra qüestió. En tots aquests usos innovadors de la tecnologia, que ara mateix ningú està oferint, ni tan sols DeepL, una de les preguntes que sorgeixen quan ets el primer és de quina manera ho has d’oferir a l’usuari. Com ho empaquetes perquè sigui útil i, alhora, que no et puguin vandalitzar i no acabis surtin a les notícies? És molt important entendre quins casos d’ús són interessants i si és o no per al públic general. Potser, això al final només és per a un públic molt professional. Jo crec que definitivament obre moltes portes professionals, potser no tant per a l’usuari normal, però sí, per exemple, si necessites textos administratius.
El gremi de traductors i localitzadors ha denunciat l’aprofitament d’aquesta classe d’eines per abaratir els seus serveis, contractant-los com a revisors de textos traduïts automàticament. Com a desenvolupador, com viu aquest fenomen?
Dins de Softcatalà tenim traductors professionals que ens ajuden en el seu temps lliure, per tant, és una qüestió que tenim molt present. El primer que et diria és que totes les tecnologies generatives, i podem incloure-hi també la traducció, encara que no sigui generativa, estan impactant molts camps. Als desenvolupadors també ens impacten moltíssim: eines com Copilot, que a la web de Github diuen que pot augmentar un 55% la productivitat dels desenvolupadors; segurament no és un 55%, probablement sigui un 30%, però definitivament són un gran pas. Els qui creem la tecnologia ja estem envoltats per un canvi molt important pel qual també estem impactats. El que succeeix al món de la traducció és que la indústria sempre ha sigut molt agressiva amb la reducció de costos. Abans que sorgís la traducció automàtica, el preu per paraula que es pagava als traductors ja havia anat baixant. I en el moment en què s’adonen que, amb la tecnologia neuronal, en comptes de fer traducció poden fer postedició, òbviament continuen. El primer problema és que hi ha un canvi de paradigma, en què en comptes de traduir, has de fer correcció i postedició, i això potser no tothom té interès a fer-ho, i és 100% vàlid. Però després n’hi ha un altre, independent de la tecnologia, que és que aquesta indústria ha sigut i continua sent molt agressiva amb els preus que es paguen per les feines fetes per humans. S’ajunten dos factors que crec que són importants: tu pots fer un canvi tecnològic, però pagar la gent bé. De fet, és una indústria que s’ha automatitzat moltíssim, en la qual han anat caient processos de qualitat. Jo hi havia treballat i abans es feien molts processos de qualitat: treies un programa, hi havia gent que el provava i detectava errors, com que aquest text no es veu, és curt, és incoherent… Tot això se n’ha anat. La indústria és molt agressiva i els qui hi treballen s’hi haurien d’enfrontar. I sí, la tecnologia suposa canvis importants, però són canvis contra els quals no pots lluitar, sinó que has d’entendre com pots fer-los servir en el teu benefici.
“Abans que sorgís la traducció automàtica, el preu per paraula que es pagava als traductors ja havia anat baixant. Aquesta indústria ha sigut i continua sent molt agressiva amb els preus que es paguen per les feines fetes per humans. Tu pots fer un canvi tecnològic, però pagar la gent bé”
Com ara?
La traducció automàtica obre casos molt interessants. Llengües minoritzades com el català, l’occità o l’asturià mai han pogut tenir com a llengua de destí tot el que s’hagués volgut. Les tecnologies de traducció automàtica que abarateixen el cost obren una porta molt important per a aquestes llengües per què sempre s’havia posat el cost com un dels problemes. Quan parlem sobre com impacta els traductors, sempre estem parlant de traductors professionals que normalment es dediquen a llengües com el castellà, no parlem tant del català. I per a les llengües no minoritzades també és una gran notícia: si agafes una aplicació com Google Maps, on pots veure les ressenyes, aquestes ara es tradueixen de forma automàtica. En traducció automàtica, hi ha dos casos d’ús principals: aquell en què vols entendre què es diu i aquell que fas servir per publicar. Pel segon, calen humans i les màquines s’han de supervisar. Però perquè la gent pugui entendre els textos en la seva eina, és una gran eina. Que tu puguis anar avui a Google Reviews i llegir en català una ressenya que algú ha escrit en rus és absolutament brutal. Tens un altre cas molt important que és Reddit, als Estats Units, que ara ha començat a traduir automàticament cap al castellà i altres llengües. I tens molts exemples de gent que està fent servir la traducció automàtica perquè cadascú pugui treballar en la seva llengua, i que no es vegin forçats a treballar, normalment, en anglès.
El programari lliure és una pedra angular del projecte de Softcatalà. Per què creu que cal apostar per aquesta via?
El programari lliure és molt rellevant per als usuaris finals i per a totes les administracions i serveis públics. Nosaltres apostem per això per molts motius. Quan et dediques a la normalització lingüística i tradueixes un programa, com poden ser el Firefox o el LibreOffice, el que t’interessa és poder donar-li la màxima difusió. Si tradueixes un producte comercial i després la gent ha de pagar, no arriba a tanta gent. La possibilitat de poder-ho distribuir sense cap mena de límit ha sigut sempre molt important per nosaltres. Per altra banda, el fet de no haver de demanar permís. Amb un projecte lliure internacional, com pot ser Mozilla amb el Firefox, piques la porta i dius: ‘M’agradaria fer la versió en català’. I et diuen: ‘Passi vostè, aquí té les eines, faci-ho’. Tothom pot col·laborar-hi, mentre que, tradicionalment, en les eines no lliures has de posar-te d’acord amb l’empresa, que té els seus criteris. Potser, a banda del producte, l’empresa necessita un servei d’atenció al client en català, comercials… El món comercial és més complicat. Finalment, m’agrada definir el programari lliure com el domini públic. Al final, contribueixes el teu coneixement perquè estigui a disposició de tothom, i en el moment en què ho fas com a voluntari, el pas és molt natural.
Quina presència té actualment el codi obert en les noves solucions d’intel·ligència artificial generativa?
La lluita que s’ha posat sobre la taula és molt important, perquè va més enllà del codi lliure. És una tecnologia que ha de ser transformadora i que pot ajudar en molts aspectes, com accelerar la recerca en medicaments i trobar solució a moltes malalties que tenim, ajudar a fer millors prediccions en el canvi climàtic… El ventall de coses que es poden fer amb intel·ligència artificial va molt més enllà dels Large Language Models (LLM), és una tecnologia molt àmplia. Parlem de ciència oberta, de codi, però també de dades obertes. I tot s’ajunta i parlem també de sobirania digital. Des del món privat es té, aproximadament, un any i mig o dos anys d’avantatge. OpenAI ha jugat moltíssim a no fer la recerca pública, i part de l’avantatge competitiu que tenen ve de no publicar les dades científiques, no explicar com fan l’entrenament, quines dades fan servir… El que tradicionalment s’havia dit secret comercial. De forma bastant automàtica han sorgit projectes lliures impulsats per diferents agents. Per un costat, coses que venen del sector públic: a escala europea hi havia BLOOM, un model de llengua massiu molt interessant, amb dades obertes i col·laboració de gent d’arreu del món, que trobo que és un model molt interessant per no caure en el parany de repetir els esforços per cada país i cada llengua. Per altra banda, tens projectes comercials com els de Meta o Microsoft, que també han fet públics alguns models. I també comences a tenir la Xina, que comença a tenir un paper bastant rellevant amb els models de DeepSeek. Al final, la gent que desenvolupa aquesta classe de coses són científics, amb la qual cosa costa bastant convèncer-los de fer-ho en tancat.
“OpenAI ha jugat moltíssim a no fer la recerca pública, i part de l’avantatge competitiu que tenen ve de no publicar les dades científiques i no explicar com fan l’entrenament o quines dades fan servir”
És factible desenvolupar grans models de llenguatge basats exclusivament en dades obertes?
Jo crec que sí, perquè les dades lliures ja existeixen i els mètodes d’entrenament s’han començat a fer públics, amb un endarreriment d’un o dos anys, però s’anirà arribant. Hi ha un altre impediment important, que és el cost computacional. Si vols entrenar un model des de zero, té un cost alt, i les grans empreses, especialment OpenAI, no han fet cap tipus d’esforç per reduir el cost computacional perquè, de nou, és una barrera d’entrada. Si no expliques com ho estàs fent i, a més, computacionalment és molt costós, és una gran barrera, et calen molts diners. Ara estem veient com, en els últims anys, més gent està invertint en recerca per veure com es pot reduir aquest cost computacional. Els xinesos, en aquest últim model que han publicat, que té característiques molt similars al que està fent OpenAI, han fet servir ordres de magnitud menors computacionalment. Òbviament, tenen un embargament dels Estats Units i no poden comprar el maquinari, i com que els principals productors de GPU són d’allà, estan fotuts i han de ser una mica inventius. El que veurem és que la distància amb el món comercial s’anirà reduint, perquè a la que comencin a aparèixer més actors que comparteixin coses, al final, estàs tu sol i estàs competint contra un munt d’universitats, els xinesos, empreses que treballen en obert, com Meta o Amazon… Empreses que tenen una inversió en R+D absolutament brutal.
S’ha denunciat en diverses ocasions que les grans tecnològiques venen com a solucions de codi obert models d’IA que realment no ho són, com és el cas dels models Llama de Meta. Per què busquen apropiar-se de l’etiqueta?
Aquí hi ha dues coses. La intel·ligència artificial ha redefinit una miqueta què vol dir obert, perquè hi ha les dades, l’entrenament, el model, el codi… Hi ha diferents components i potser no s’ha tingut la discussió detallada, que no existia abans, de què vol dir exactament obert. Per altra banda, si agafes el cas de Llama, el que bloquejaven originalment era l’ús comercial. Crec que això dona un senyal molt important: la lògica indica que volien impedir que competidors directes ho fessin servir i guardar-se la carta per si, en algun moment, es pot fer algun tipus de monetització. Ara, en les últimes versions de Llama, ja pots fer ús comercial, però limitant el nombre de milions d’usuaris que tens. A la gent de Meta els veig molt endotllats, estan fent coses extraordinàries, i crec que a poc a poc anirà evolucionant. Som molt afortunats que una empresa amb aquests recursos decideixi fer-ho.