“L’aparició de la IA generativa ha tret protagonisme al ‘big data’”

Mario Alberich Especialista en ciència de dades de SDG Group

Categories:

Aida Corón

L'especialista en ciència de dades de SDG Group Mario Alberich alerta de la importància de pensar en les dades abans d'implementar un sistema d'IA
L'especialista en ciència de dades de SDG Group Mario Alberich alerta de la importància de pensar en les dades abans d'implementar un sistema d'IA | Cedida

La intel·ligència artificial no és un invent del segle XXI. Informàtics dels anys 70 i 80 ja utilitzaven sistemes d’aprenentatge automàtic i de profund, i els primers casos d’IA generativa més o menys coneguts es donaven ja el 2014. Aquesta és la prospecció que fa l’especialista en ciència de dades de SDG Group Mario Alberich abans de començar a parlar dels algoritmes que ens estan bombardejant avui en el dia a dia. “Tenim al cap la creació de textos, imatges i vídeos perquè és el que ens està impactant ara, però és una tecnologia que s’està treballant des de fa molts anys”, explica. Temps enrere, eren uns pocs els que podien treballar amb els algoritmes, tant per coneixement com per recursos tècnics, mentre que l’evolució tecnològica accelerada que vivim ha fet que la complexitat es converteixi en algoritmes bàsics, i el coneixement necessari, en competències més senzilles. Per això Alberich augura que veurem un creixement exponencial “dels models d’IA i dels professionals que puguin treballar-los, perquè un nodreix l’altre”.

Quins avenços tecnològics han fet possible l’eclosió de la IA massiva?

El núvol ha estat fonamental. Ara movem grans volums de dades per treballar els models d’algoritmes i seria impossible fer-ho amb la infraestructura que es tenia fa 40 o 50 anys. Ara som davant propostes com el federated learning, que bàsicament és un mètode d’aprenentatge automàtic en el qual el model ja ni es mou del mateix dispositiu de l’usuari, sinó que s’entrena allà mateix amb les dades que té. Això també garanteix que les dades quedin en l’entorn privat de l’usuari i que, d’alguna manera, permeti un sistema més personalitzat. A més a més, segurament amb les tecnologies que es deriven d’això veurem la possibilitat d’introduir xips especialitzats en processament de dades per a la IA i d’execució de models que permetin augmentar la velocitat de treball. Per tant, el núvol no ha estat l’únic detonant, sinó que també els terminals, els dispositius que estan fora del núvol que permeten treballar en aquest entorn. La capacitat de connectivitat que donaria el 5G i el 6G pot agilitzar molt la sincronització en aquest entorn més central on viuen alguns dels models més potents.

Però el 5G encara no ha arribat al nivell d’aplicació esperat. Quins canvis veurem a mesura que s’implementa?

Des del punt de vista de la intel·ligència artificial i de l’anàlisi de dades, la diferència principal que veurem es troba en la quantitat i la velocitat amb què funcionaran les dades. És un salt qualitatiu que després permetrà tenir amb 6G aplicacions a escala de sistemes autònoms i de robòtica on ara mateix només és possible si tenim un sistema amb tot en el mateix espai físic per temes de latència i velocitat de transmissió de dades. En un futur, ho tindrem en remot i, per tant, es treballarà amb unes velocitats de coordinació molt més ajustades. Entorns com el de la telemedicina seran dels més beneficiats. Serà interessant veure com evoluciona pel que fa a dispositius, tant en la presa de decisions com en la compilació de dades en temps real.

"Anem cap a una polarització on hi haurà grans models en centres de dades enormes i d’altres que existiran en un xip d’IA en un mòbil"

Qui ha de liderar aquest canvi, el sector privat o el públic?

La IA, des de fa molts anys, s’investiga primer i després s’aplica en empreses. L’últim entorn on s’aplica és la societat. Estem parlant de dos entorns diferenciats, però que estan relacionats. El sector públic actua com a entitat reguladora i aquí esperem que la seva funció serà positiva per a millorar la capacitat d'innovació i que empeny el sector privat a treballar en un entorn d’impacte positiu. És a dir, que permet a les empreses innovar i treballar en un entorn àgil. Hi ha un potencial molt gran al voltant de les subvencions i ajudes que poden impulsar l’aplicació de la intel·ligència artificial i els processos d’automatització en l’agilització de tasques internes o processament de documents, per exemple. Per tant, l’entitat reguladora pot facilitar el canvi establint garanties que creen oportunitats, mentre que la part privada es pot pujar al carro amb eines que s’adeqüin a les necessitats.

Quin risc hi ha que la regulació posi traves al desenvolupament dels algoritmes?

No hem vist directament una afectació. Aquí tenim encara molt per veure. Clarament, hi ha aplicacions d’IA que poden ser negatives i existiran tant si hi ha regulació com si no n’hi ha. Davant d’això, esperem que la legislació no penalitzi la innovació positiva només per evitar aquesta possibilitat. Caldrà estar atents perquè tot això anirà evolucionant molt i no es pot predir res.

Alguns informes alerten que un dels principals problemes en l’aplicació de la IA és la falta de dades de qualitat i l’ús d’interfícies massa antigues per als algoritmes actuals. És una situació habitual?

Totalment. Fa més de 30 anys que treballem amb reporting, extensió de dades, neteja, control de qualitat… Veiem una diferència Molt gran entre les empreses que han fet els deures i han organitzat la informació. Quan tot això està en ordre, és més fàcil començar a aplicar algoritmes perquè no hi ha soroll, les dades estan netes. En aquests casos, és important buscar sempre un proveïdor de serveis adaptat a les necessitats concretes de cada empresa, perquè es pugui escollir la tecnologia que funciona millor en cada projecte.

“El codi obert és un dels factors de més innovació a la IA”

Cal pensar més en el big data abans de llançar-se a la IA?

Correcte. Precisament això és el que està passant, que no es veu que les dades massives continuen sent clau. L’aparició de la IA generativa ha tret protagonisme al big data. Moltes empreses estan explorant el terreny de la intel·ligència artificial generativa, però a mesura que veuen el valor que tenen les dades per poder utilitzar-la, s’adonen de la importància de tenir les dades i organitzades. Això està donant de nou protagonisme al big data dins del marc de la IA. Però si no tens un volum de dades prou gran, costa molt generar conjunts de dades sintètiques realistes. I aquí es pot acabar repercutint en temes de privacitat. Si puc generar unes dades sintètiques, perquè qui hi accedeixi, veurà dades fictícies que no vulneren la privacitat, però prou semblants a la realitat com per a poder entrenar un model amb elles.

Precisament la pèrdua del control de la informació s’ha posat en entredit amb la IA. Perdem el rastre de les dades que donem amb la IA que trobem a les plataformes més massives?

No hauria de passar. El Reglament General de Protecció de Dades deixa clar que s’ha d’explicar quin ús es donarà a la dada que es recull. Quan entrem en la part d’entrenament de models, hem de diferenciar diversos casos. Un exemple és el dels models amb grans volums de dades. Aquí estem parlant de dades agregades, de milers de dades juntes. En aquest cas, identificar els individus que han proporcionat la informació és força difícil. Pot passar, és clar, però no és fàcil. En principi, quan s’entrenen els algoritmes d’aquestes plataformes conegudes no es proporcionen dades personals, sinó dades de comportament i usos dels usuaris.

A mesura que sorgeixin eines d’IA generativa, caldrà una infraestructura més potent. Com influirà això en desplegament d’infraestructura?

Anem cap a una polarització on hi haurà grans models que hauran de viure en centres de dades enormes i altres models que existiran en un xip d’IA en un mòbil, per exemple. Aquests segons seran molt lleugers i estaran adaptats al nostre ús diari. Podran garantir un ús de les nostres dades dins del nostre entorn. És a dir, hi haurà una coexistència entre models amb moltes dades i models més senzills.

I en l’impacte en termes de sostenibilitat?

Entrenar un model des de zero té un cost enorme i aquí és on veiem molts moviments en l’entorn del codi obert i de compartir models que calgui entrenar des de zero. Certament, veurem models més eficients energèticament que estaran més distribuïts entre dispositius, i això ja serà més sostenible que tenir dispositius, equips i targetes gràfiques molt potents o centres de processament de dades per poder desenvolupar nous models.

“La IA ha obert una nova cursa cap a l’eficiència”

Per tant, el codi obert pot tenir la clau del desenvolupament d’algoritmes a petita escala.

Exactament, és un dels factors de més innovació. Ho estem veient cada cop més. Els models privats tenen cada cop més problemes per diferenciar-se respecte dels oberts, per això veiem cada cop més interès per part de les empreses per utilitzar models de codi obert que sigui més eficients i redueixin els costos per temes de privacitat i transparència. Veurem una combinació entre models propietaris i de codi obert.

Veurem una evolució en el programari amb la IA, però quins canvis trobarem a escala de hardware?

Serà sobretot una cursa cap a l’eficiència, cap a dispositius que permetin entrenar més ràpidament i amb menys energia els models de llenguatge. Però no només es buscarà a l’hora d’entrenar-los, sinó que també en l’execució. El fenomen de la IA generativa ha fet explotar empreses, com és el cas de Nvidia, que fa anys que té un creixement sostingut per la seva constant evolució i adaptació a les necessitats del mercat. Tenim també el cas de Sam Altman, cofundador d’OpenAI, que està plantejant crear una fàbrica de xips que puguin servir per a OpenAI. S’ha obert una nova cursa. La IA generativa ha estat el tret de sortida, però tant el big data com els processos de neteja de dades pel que fa a enginyeria de dades o tecnologia de dades, com també el hardware, viuran un canvi amb noves necessitats i serveis.