LangBiTe, el programa de codi obert per detectar els biaixos dels models d’IA generativa

L’eina codesenvolupada per investigadors de la UOC inclou biblioteques amb més de 300 apunts per avaluar tendències racistes, sexistes, xenòfobes, edatistes o LGTBIQ-fòbiques

Redacció

LangBiTe permet avaluar com evoluciona un model concret en la seva resistència contra els biaixos o comparar-los amb altres models
LangBiTe permet avaluar com evoluciona un model concret en la seva resistència contra els biaixos o comparar-los amb altres models | Viralyft (Unsplash)

Investigadors de la Universitat Oberta de Catalunya (UOC) i de la Universitat de Luxemburg han creat LangBiTe, un programari de codi obert dissenyat per detectar i avaluar els diversos biaixos en què poden caure els models generatius d’intel·ligència artificial. L’eina inclou biblioteques amb més de 300 apunts o prompts que analitzen diverses qüestions ètiques, com l’edatisme, les preferències polítiques, els prejudicis religiosos, el racisme, el sexisme, l'LGTBIQ-fòbia o la xenofòbia, tots ells amb unes respostes associades per valorar el grau de biaix.

La versió actual de LangBiTe proporciona accés als dos principals models d’OpenAI, GPT-3.5 i GPT-4, així com a desenes de models disponibles a Hugging Face i Replicate. En tractar-se d’un programari de codi obert, “qualsevol desenvolupador interessat pot estendre la plataforma LangBiTe per avaluar altres models, incloent-hi els seus propis”, assenyala l’investigador del grup Systems, Software and Models (SOM Research Lab) de l’Internet Interdisciplinary Institute (IN3) de la UOC, Sergio Morales, qui ha dedicat el treball de doctorat a aquesta eina. El programari ha permès veure, per exemple, com ha evolucionat la resistència contra els biaixos dels models d’OpenAI: “La versió disponible de ChatGPT 4 tenia una taxa d'èxit de proves contra el biaix de gènere del 97%, superior a l'obtinguda per la versió disponible en aquell moment de ChatGPT 3.5, amb un 42% d'èxit”.

La principal fortalesa de LangBiTe respecte a altres eines similars és la voluntat de no centrar-se en un únic tipus de biaix, sinó cobrir-ne tants com sigui possible: “Anteriorment, la majoria dels experiments se centraven en la discriminació de gènere home-dona, sense considerar altres aspectes ètics importants o minories vulnerables. Amb LangBiTe hem comprovat fins a quin punt alguns models d'IA poden respondre a certes qüestions de manera racista, des d'un punt de vista polític clarament parcial, o amb connotacions homòfobes o trànsfobes”. Morales remarca que l’eina “no prescriu cap marc moral i particular”, ja que “el que és ètic i el que no ho és depèn sobretot del context i la cultura de l'organització que desenvolupa i incorpora característiques basades en models generatius d'IA en el seu producte”. En aquest sentit, el model inclou plantilles d’apunts modificables, de manera que els usuaris puguin ampliar o diversificar les preguntes i àmbits ètics a analitzar.

El sistema està pensat perquè els usuaris puguin comparar els resultats de diversos models en cadascuna de les àrees analitzades, o bé veure com evoluciona un model en les seves diferents versions. També incorpora la possibilitat d’avaluar una eina en diferents idiomes, per “detectar si un model mostra biaixos depenent del llenguatge que s'empra per a les consultes”. De cara al futur, els desenvolupadors volen ampliar el rang de models amb què pot treballar l’eina, que de moment es limita a generadors de text, per incloure també models de generació d’imatge com Stable Diffusion, DALL-E o Midjourney. “L'objectiu de LangBiTe no és comercial, sinó servir com a recurs útil tant per a creadors d'eines d'IA generativa com per a perfils d'usuari no tècnics, que contribueixi a detectar i mitigar els biaixos dels models i ajudi, en definitiva, a tenir millors IA en el futur”, resumeix Morales. De moment, l’eina ja ha estat implementada per organitzacions com el Luxembourg Institute of Science and Technology (LIST).