Investigadors de la URV assenyalen les limitacions de la intel·ligència artificial en la comprensió de textos

Cap dels set principals models de llenguatge extensos analitzats aconsegueix millorar els resultats i la consistència dels humans

Categories:

Redacció

ChatGPT-4 és l'únic model de llenguatge extens que s'acosta (83%) a la mitjana d'encert dels humans (89%), mentre que la resta de models no supera el 70%
ChatGPT-4 és l'únic model de llenguatge extens que s'acosta (83%) a la mitjana d'encert dels humans (89%), mentre que la resta de models no supera el 70% | Clay Banks (Unsplash)

Un equip internacional d’investigadors liderat per la Universitat Rovira i Virgili (URV) ha determinat que els actuals models de llenguatge extensos (MLE) en què es basen els principals xatbots d’intel·ligència artificial no tenen, ara per ara, un nivell de comprensió de textos comparable amb el dels humans. “Tot i que els MLE poden generar textos gramaticalment correctes i aparentment coherents, els resultats d’aquest estudi suggereixen que, en el fons, no entenen el significat del llenguatge de la manera que ho fa un humà”, explica la investigadora del Grup de Recerca en Llengua i Lingüística de la URV Vittoria Dentella.

Per analitzar el rendiment dels MLE, els investigadors han preparat un formulari de 40 preguntes en anglès escrites amb estructures gramaticals simples i verbs d’ús freqüent, les quals s’han formulat tant a models d’intel·ligència artificial com a un grup de 400 persones natives en la llengua. Les preguntes es van repetir cadascuna tres vegades, amb la intenció d’analitzar si les respostes eren les mateixes o similars. Els resultats, publicats en un article en obert a Scientific Reports, assenyalen que cap dels set models analitzats supera l’índex d’encert del grup humà, d’un 89%: ChatGPT-4 és el que ofereix millors resultats, amb un 83%, mentre que els altres sis models (Bard, ChatGPT-3.5, Falcon, Gemini, Llama2 i Mixtral) no assoleixen el 70%.

L’estudi també remarca que la consistència entre les respostes és inferior en el cas de la intel·ligència artificial: l’estabilitat de les rèpliques dels MLE va des del 66% de Bard fins al 83% de Falcon, mentre que en els humans la mitjana és del 89%. “Malgrat que els MLE donen uns resultats per sobre de l’atzar quan parlem d’estabilitat, cap d’ells triomfa de manera recurrent a l’hora de donar la mateixa resposta a una pregunta”, destaquen les conclusions de l’article. En aquest sentit, Dentella considera que aquesta tecnologia encara no és prou fiable per determinades feines: “La nostra recerca demostra que les capacitats dels MLE per dur a terme tasques complexes no garanteix que siguin competents en tasques senzilles, que sovint són les que requereixen una comprensió real del llenguatge”.