GPT-4o és la nova aposta d’OpenAI per liderar la intel·ligència artificial generativa
El model omnicanal redueix dràsticament la latència de resposta amb veu i amplia la capacitat per entendre contextos emocionals i visuals
Categories:
Després de mesos d’especulació, OpenAI ha presentat finalment aquest dilluns el seu nou model multimodal d’intel·ligència artificial, que han anomenat GPT-4o. La nova versió del producte estrella de la companyia arribarà a tots els usuaris de ChatGPT i destaca especialment per la millora que ha fet en la interpretació i reacció a formats visuals i sonors. No en va, la o del nom fa referència a la seva condició d’omnicanal.
La principal demostració d’aquesta omnicanalitat s’ha demostrat durant la presentació del nou model, en què en tot moment, els ponents han interactuat amb ChatGPT a través de la veu. I és que GPT-4o incorpora grans avenços en aquest camp: la latència de resposta a les preguntes que li fem s’ha reduït considerablement, passant d’una mitjana d’entre 2,8 i 5,4 segons a només 0,32 segons. Això és possible pel fet que, fins ara, el mode veu era una combinació de tres models diferents, mentre que l’actual està entrenat de manera nativa en text, imatge i àudio. Amb aquesta actuació, l’eina és molt més reactiva a les demandes de l’usuari, que pot interrompre la veu artificial per repreguntar o incorporar altres peticions a una velocitat gairebé de parla natural. Un altre dels aspectes en què la IA suma punts és en l’entonació, ja que ara GPT-4o pot respondre amb més o menys emoció, detectar el to del parlant (per exemple, si està sent humorístic o no) i fins i tot respondre en un to o un altre en funció de què se li demani. En la presentació es veu com el xatbot pot explicar una mateixa història de manera dramàtica o amb veu robòtica.
La interpretació d’imatge també guanya punts en el nou model. Tal com succeeix amb el so, GPT-4o és capaç d’interpretar informació en temps real, tan tècnica —s’ha demostrat amb un problema matemàtic escrit a mà— com emocional —vist amb una descripció de l’estat d’ànim d’una persona a través d’un selfie—. En la pàgina web de la companyia també es poden observar altres demostracions de les capacitats de la nova eina: en un dels vídeos, una persona li demana consells per millorar el seu aspecte actual per estar presentable en una entrevista, mentre que en un altre, una parella competeix a pedra, paper, tisores mentre el xatbot fa de jutge.
Més enllà dels formats d’informació, un altre dels camps en què GPT-4o incorpora millores és l’idiomàtic. Segons ha apuntat la directora de tecnologia d’OpenAI, Mira Murati, el model s’ha entrenat amb quantitats de dades prou rellevants de fins a 50 idiomes, amb els quals, asseguren, cobreixen el 97% de la població mundial. La companyia no ha publicat el llistat sencer, tot i mencionar-ne una vintena, així que no es pot confirmar encara que el català formi part d’aquesta selecció. Amb tot, cal mencionar que la interfície de ChatGPT, que ha experimentat una renovació visual amb aquesta actuació, ara ja es troba traduïda al català, fins i tot amb el model GPT 3.5, actualment l’únic disponible per a usuaris de manera totalment gratuïta.

El nou model ja es troba finalitzat i, segons han anunciat durant la presentació, s’anirà implementant de manera escalonada per a tots els usuaris de ChatGPT. Així, GPT-4o podrà ser utilitzat indistintament per usuaris que l’usen de manera gratuïta i per als subscriptors de ChatGPT Plus, els quals tindran cinc vegades més capacitat de memòria. El model també s’implementarà pròximament a l’API per desenvolupadors, que duplica la seva capacitat i redueix a la meitat el seu cost. A més, juntament amb l’anunci de GPT-4o, OpenAI ha anunciat el llançament d’una aplicació per a escriptori, que ja es pot descarregar en Windows (és el mateix enllaç per a mòbils Android) i que arribarà en el futur pròxim per a ordinadors Mac.