Així és Gemini, l’aposta de Google per desbancar GPT-4
El nou model de llenguatge destaca per la seva multimodalitat i supera l’alternativa d’OpenAI en 30 dels 32 testos de referència efectuats
Després de mesos de desenvolupament intern, Google ha presentat aquest dimecres Gemini, el nou model de llenguatge multimodal que pretén prendre la capdavantera a GPT-4 en el món de la intel·ligència artificial. La proposta de Google destaca per haver estat construïda com una opció multimodal des de zero, la qual cosa li aporta una flexibilitat molt més àmplia del que s’havia pogut veure fins ara a l’hora de canviar de formats entre text, àudio, imatge o vídeo.
El caràcter multimodal és un dels aspectes en què més han insistit des de Google, assegurant que aporta el potencial de “transformar qualsevol classe d’input en qualsevol classe d’output”. Una característica que han mostrat a través d’un vídeo de demostració, en què es pot presenciar la IA interpretant dibuixos, connectant idees, fent jocs a partir d’un mapa o preveient el desenllaç d’un vídeo, entre altres. Tot això és possible per la metodologia que l’equip de Google DeepMind, els dissenyadors de Gemini, han emprat a l’hora de dissenyar el model. Tradicionalment, els models multimodals s’entrenaven per parts, aconseguint que fos capaç d’interpretar els diferents formats d’informació per separat i, després, ajuntar-los perquè funcionessin plegats. La novetat que aporta Gemini és que ha estat entrenat des del principi amb dades multimodals, la qual cosa, segons Google, aporta més capacitats a l’hora de dur a terme tasques complexes que impliquin interpretar diferents classes de dades.
Malgrat que no ha especificat el volum de dades que s’ha fet servir per entrenar el nou model, l’empresa sí que ha compartit el resultat que Gemini ha obtingut en els principals testos de referència (benchmark en anglès) que els acadèmics fan servir a l'hora d’avaluar aquesta classe de models: en 30 dels 32 casos, l’aposta de Google supera els principals competidors —i, concretament, GPT-4—. Des de Google destaquen especialment la puntuació del 90% que s’assoleix a l’índex MMLU, un test que avalua de manera global totes les característiques d’un model multimodal a través de 57 temàtiques en què, per primera vegada, s’ha superat a experts humans.
Així, Gemini presenta resultats especialment elevats en àmbits com l’aritmètica bàsica, la generació de codi informàtic o la comprensió lectora, i es troba més pròxim a GPT-4 en el raonament multimodal i els problemes matemàtics complexos. De fet, l’àmbit de la programació ha estat un dels que han destacat els representants de Google durant la presentació, assegurant que el model és especialment competent en llenguatges d’ús comú com Python, Java, C++ i Go. Per contra, l’àmbit on registra resultats inferiors al model d’OpenAI és en el raonament de ‘sentit comú’ per tasques quotidianes, en què Gemini treu un 87,8% i GPT-4, un 95,3%.
Tres models i més seguretat
Continuant amb la línia de la flexibilitat que ja aporta de per si la multimodalitat nativa, Gemini s’ha preparat en tres mides diferents per poder adaptar-se al context més idoni. La versió més llarga i complexa és Gemini Ultra, mentre que Gemini Pro es presenta com la versió més escalable i Gemini Nano, com la més eficient per dur a terme operacions on-device.
D’altra banda, des de Google també han reivindicat els esforços invertits per blindar la seguretat de Gemini i la seva resistència davant possibles outputs amb caràcter ofensiu que incloguin incitacions a la violència o estereotips negatius, entre altres. L’empresa ha treballat amb col·laboradors i experts externs per posar a prova el model des de diferents flancs, fent servir testos com Real Toxicity Prompts, una base de dades amb més de 100.000 apunts amb diferents graus de toxicitat cerat per Allen Institute for AI.
Primera parada, Bard i Pixel 8 Pro
Els usuaris no hauran d’esperar molt de temps per veure Gemini en acció. Durant la presentació s’ha confirmat que el model, en la seva versió Pro, ja està integrat al xatbot Google Bard des de la seva darrera actualització, de moment només en anglès i en uns 170 països (Europa haurà d’esperar uns mesos). Per la seva banda, els telèfons Google Pixel 8 Pro incorporaran pròximament Gemini Nano als seus sistemes, d’entrada, a través de dues funcions. La primera, anomenada Summarize in Recorder, permetrà fer resums textuals de converses gravades, i la segona, Smart Reply, integrada al teclat de Google GBoard, oferirà contestacions automàtiques als missatges rebuts —de moment, es podrà testejar en versió de prova a WhatsApp—.
De cara als desenvolupadors i les empreses, a partir del 13 de desembre es podrà accedir a Gemini Pro a través d’una API que faran disponible al Google AI Studio i a Cloud Vertex AI. Tanmateix, la versió Ultra encara s’està acabant de polir amb comprovacions de seguretat, i no serà fins a principis de 2024 que es comenci a testejar amb usuaris seleccionats.