GPT 4 ja és aquí: així és la nova IA que operarà ChatGPT

El nou model de processament de llenguatge guanya la possiblitat d’entendre i interpretar imatges

Categories:

Marc Vilajosana

GPT 4 pot emmagatzemar fins a 25.000 paraules per donar context a les respostes
GPT 4 pot emmagatzemar fins a 25.000 paraules per donar context a les respostes | MetaData

OpenAI ha presentat aquest dimarts GPT 4, la nova versió del model de processament de llenguatge que opera aplicacions d’intel·ligència artificial com ChatGPT o DALL·E. L’eina ja s’ha implementat a ChatGPT Plus, la versió de pagament de ChatGPT, i també s’ha obert una llista d’espera perquè els desenvolupadors puguin accedir a l’API per poder crear programari derivat. La principal novetat del nou producte és la capacitat d’entendre i interpretar imatges a més a més de textos, una funcionalitat que amplia la varietat d’estímuls amb què es pot interactuar.

Aquesta nova característica permet a GPT 4 entendre fotografies i informació visual i generar-ne classificacions, descripcions o productes derivats. Un dels exemples que ha posat OpenAI és preguntar-li a ChatGPT quina classe de plats es poden preparar amb els aliments que apareixen en una fotografia. “Fins ara li havies de llistar tot el que tenies, però ara fas la foto i ell ja sap de què disposes”, explica l’investigador de la UPC i president de l’Associació Catalana d’Intel·ligència Artificial (ACIA), Cecilio Angulo. L’expert considera que aquesta funcionalitat pot ser especialment útil per introduir elements que són complicats d’explicar o de descriure, com pot ser un estil concret de fusteria, que s’identifica de manera molt més ràpida a través d’una fotografia.

Un altre dels casos d’ús que ha presentat l’empresa és la capacitat de comprendre un esbós d’una pàgina web dibuixat a mà en un bloc de notes i generar el codi necessari per convertir-lo en una pàgina web real. Això sí: si bé l’eina ara pot captar els inputs visuals, les respostes continuen sent únicament en format text.

Més context i més seguretat

Un dels aspectes que més s’ha destacat de ChatGPT és la seva capacitat per recordar el context d’allò que s’ha parlat durant l’intercanvi de frases, la qual cosa permet tenir converses complexes. GPT 4 ha augmentat encara més el límit textual que té en compte en les seves respostes, elevant-lo fins a les 25.000 paraules, vuit vegades més que el model inicial de GPT, llançat el 2018. Aquest canvi permet els usuaris mantenir converses més llargues amb l’eina, però també millora alguns dels usos més habituals, com el resum i síntesi de textos, ja que ara podrà analitzar volums més grans.

Per a Angulo, el principal benefici d’aquesta millora recau en la possibilitat de “refinar les respostes” a mesura que l’usuari corregeix o matisa els outputs de la IA. L’investigador de la UPC posa com a exemple l’experiment que va fer el codirector de Shift_Insights, Daniel Muro, qui va preguntar-li a ChatGPT que li anomenés 10 filòsofs i, a poc a poc, va anar subratllant els biaixos que té la màquina. “Quan li pregunta per què només li ha donat noms de filòsofs homes i en demana 10 de dones, ChatGPT li dona, però també explica per què ha respost així inicialment”.

OpenAI també ha assegurat que el nou model té una seguretat molt més elevada que GPT 3.5. Un dels punts que més s’ha criticat de l’anterior xarxa neuronal és el fet que, si no és capaç de trobar una informació verídica, sovint genera respostes falses o inventades, com ha succeït en l’àmbit acadèmic. La companyia ha destinat sis mesos de treball en millorar aquests aspectes, i asseguren que la nova versió de la IA és un 40% més eficient a l’hora de crear contingut verídic. També s’ha reduït un 82% les ocasions en què produeix textos que incorporen contingut no permès.

GPT 4 s’ha analitzat a partir de feedback humà, tant dels treballadors d’OpenAI com dels usuaris que durant aquests mesos han fet servir ChatGPT. “Cada cop que ChatGPT et dona una resposta, tu li pots donar feedback a través d’un polze cap amunt o un polze cap avall. Això és el que s’anomena aprenentatge per reforç”, detalla Angulo, una informació que pot ajudar a evitar ambigüitats. Amb tot, l’eina continua presentant diverses limitacions, entre les quals destaquen els biaixos socials i el que anomenen al·lucinacions, és a dir, les respostes inventades sorgides del no-res. El mateix director executiu d’OpenAI, Sam Altman, ho ha subratllat a través del seu compte de Twitter: “Encara és defectuós, encara és limitat i encara sembla més impressionant en el primer ús que després de passar un temps amb ell”.

De Microsoft a Duolingo

Per provar el seu funcionament i demostrar-ne el potencial, la companyia ha col·laborat amb diverses iniciatives per crear productes derivats, com l’aplicació d’aprenentatge de llengües Duolingo o l’entitat financera Morgan Stanley. Amb tot, qui més s’ha implicat en el desenvolupament de GPT 4 és Microsoft, que el febrer va anunciar una inversió milionària en OpenAI. El nou model s’ha entrenat amb la xarxa de superordinadors al núvol Azure de la multinacional nord-americana, una infraestructura conformada per milers de GPU de NVIDIA, i ja es troba implementat en el cercador Bing. De fet, un dels punts que assenyala Angulo és com aquest moviment empresarial ha augmentat el secretisme al voltant del desenvolupament de GPT: “Des del moment en què Microsoft s’interessa i fa una inversió important, i Google veu que això pot fer-li la competència i es posa les piles, s’estableix una competència clara entre les dues empreses, i ara intenten amagar una mica més les seves cartes”.

Malgrat la crida a la prudència d’Altman, les intel·ligències artificials generatives s’han convertit en la tecnologia amb més expectatives acumulades al seu voltant, fins al punt que Google s’ha afanyat a anunciar la integració d’aquestes tècniques a aplicacions com Gmail o Drive. Angulo creu que aquest crèdit està justificat, i ho compara amb l’aparició del motor de cerca de la mateixa Google: “Un cop apareix i et dona respostes de forma automàtica o en microsegons, ho revoluciona tot. A partir d’aquí, es converteix en un monstre que va acaparant totes les temàtiques pròximes al navegador. Amb això passarà exactament el mateix, és una nova forma d’apropar-te al coneixement i al món”.

Angulo: “Hi ha moltes tasques creatives que comencen amb un full en blanc. GPT pot fer-te diverses propostes per començar, que tindran estructures no del tot acurades, però et permetran començar des d’un punt inicial que està més a prop d’on vols arribar”

El president de l’ACIA prediu que a partir de GPT sorgiran nous “ChatGPT especialitzats”, en àmbits com la medicina o la narració, de manera similar al que ha passat amb la cerca bibliogràfica i Google. Amb tot, l’expert creu que la principal tasca on excel·lirà aquesta tecnologia és en l’assistència de processos creatius: “Hi ha moltes tasques creatives que comencen amb un full en blanc. GPT pot fer-te diverses propostes per començar, que tindran estructures no del tot acurades, però et permetran començar des d’un punt inicial que està més a prop d’on vols arribar”.