Google presenta per sorpresa Gemini 1.5 i pren la davantera en la cursa de la IA generativa

El nou model és capaç d’interpretar fins a una hora de vídeo, 11 hores d’àudio, 30.000 línies de codi o 700.000 paraules com a dades de context

Categories:

Redacció

La nova versió del model generatiu de Google té una finestra de context que va dels 128.000 tokens fins al milió
La nova versió del model generatiu de Google té una finestra de context que va dels 128.000 tokens fins al milió | MetaData

Tan sols una setmana després del canvi de nom de Google Bard, Google ha presentat Gemini 1.5, la nova versió del model generatiu d’intel·ligència artificial que aspira a prendre el lideratge a GPT-4 d’OpenAI. La gran novetat del nou model és la seva gran capacitat per interpretar dades de context: la versió 1.5 debuta amb una capacitat estàndard de 128.000 tokens, la mateixa que ofereix actualment GPT-4 Turbo, però amb la possibilitat d’arribar fins al milió de tokens. A la pràctica, això és equivalent a una hora de vídeo, 11 hores d’àudio, més de 30.000 línies de codi o més de 700.000 paraules.

“Les finestres de context més llargues ens mostren una promesa d’allò que és possible. Desbloquejaran funcionalitats completament noves i ajudaran els desenvolupadors a construir models i aplicacions molt més útils”, ha assegurat en un comunicat el director executiu de Google i Alphabet, Sundar Pichai. Per demostrar el seu potencial, des de Google han mostrat en un vídeo com Gemini 1.5 és capaç de contestar preguntes en qüestió de segons sobre la transcripció textual de les transmissions de la missió Apollo 11, un document PDF de 402 pàgines.

Com els models anteriors, Gemini 1.5 es construeix sobre l’arquitectura Transformer, però també en l’anomenada Mixture-to-Experts (MoE), una capa que es diferencia dels models generatius tradicionals en el fet que no actua com una única xarxa neuronal de grans dimensions, sinó que està dividida en diverses xarxes més petites i especialitzades. “En funció del tipus d’informació donada, els models MoE aprenen a activar selectivament els camins més rellevants dins de la xarxa neuronal. Aquesta especialització millora de manera massiva l’eficiència dels models”, explica el CEO de Google DeepMind, Demis Hassabis. Segons els desenvolupadors, aquest augment de potència permet a la versió Pro de Gemini 1.5 dur a terme una gran diversitat de tasques amb un rendiment similar al de Gemini 1.0 Ultra, el model més gran construït fins ara per la companyia.

De moment, Gemini 1.5 encara no està disponible per al públic general i no té una data de llançament fixada, però ja s’ha començat a testejar en petits grups de desenvolupadors i empreses especialitzades. Aquelles persones interessades a participar en la fase beta, poden inscriure’s a través d’un formulari. El model es llançarà en diferents capacitats, des dels 128.000 tokens fins al milió, que formaran part de diferents quotes de pagament. Tanmateix, durant la fase de prova, els desenvolupadors podran testejar el model amb més potència sense cost.