Així és Gemini 2.0, la nova generació d’intel·ligència artificial generativa de Google
El primer model de la família, Gemini 2.0 Flash, millora les capacitats de Gemini 1.5 Pro en gairebé totes les àrees i en duplica la velocitat
Categories:
Just un any després de presentar la primera versió del model de llenguatge Gemini, i en la mateixa setmana en què OpenAI estrena Sora i la subscripció ChatGPT Pro, Google ha decidit desvelar al públic Gemini 2.0, la nova família de models generatius d’intel·ligència artificial de la companyia. “Si Gemini 1.0 aspirava a organitzar i comprendre la informació, Gemini 2.0 aspira a fer-la molt més útil”, ha assegurat el director executiu de Google DeepMind, Demis Hassabis.
La primera demostració pública de la nova generació de Gemini és Gemini 2.0 Flash, la versió millorada del model Gemini 1.5 Flash, el més lleuger i àgil dels que tenia fins ara la companyia. El nou model, que s’espera que sigui el més petit de Gemini 2.0, millora en gairebé totes les proves de referència a Gemini 1.5 Pro, la versió que ara mateix només es troba disponible de pagament, amb increments considerables en codi i matemàtiques, a més a més de duplicar-ne la velocitat. La gran novetat del model és que ara ja no només admet entrades multimodals de text, imatge, vídeo i àudio, sinó que també pot oferir sortides multimodals en aquests formats. Això sí, aquesta característica està de moment limitada als partners amb accés anticipat a l’eina. Els desenvolupadors poden trobar la versió simplificada del model a Google AI Studio i Vertex AI, mentre que la resta d’usuaris ja poden provar Gemini 2.0 Flash a la versió web de l’assistent de veu de Gemini, i pròximament també a l’aplicació mòbil.
A l’espera de conèixer quins altres models conformen la família Gemini 2.0, Google DeepMind ha aprofitat per presentar els avenços en tres projectes experimentals estretament vinculats a Gemini. El primer d’ells és Project Astra, l’aposta de Google pels assistents virtuals multimodals que ja va desvelar el mes de maig en la presentació de Gemini 1.5. Aquesta solució vol convertir-se en el nou estàndard dels assistents de veu i té un fort component d’àudio i imatge. Ara, l’eina ha millorat els diàlegs, amb més idiomes, idiomes mixtos i millor comprensió dels accents i de paraules comunes, i també és capaç de fer servir altres programaris de Google, com la cerca, Lens o Maps. S’ha millorat també la latència, que s’acosta a la d’una conversa humana. La intenció ara és testar-lo més profundament, especialment amb l’assistent conversacional de Gemini i les ulleres de realitat mixta, per veure com funciona en aquests dos entorns.
Els altres dos projectes presentats per DeepMind són noves solucions que no s’havien desvelat fins ara. El primer d’ells és el Projecte Mariner, un prototip d’investigació sobre la interacció entre humans i agents que intenta crear una eina capaç dur a terme accions complexes en un ordinador, com navegar per una pantalla, escriure o fer clics. Ara per ara, el prototip encara no és precís i triga a completar les tasques, però els investigadors confien que “millorarà ràpidament amb el temps”. Això sí, l’eina està altament limitada de manera conscient: només pot actuar en la pestanya activa del navegador i sempre demana permís abans d’executar tasques delicades, com pot ser una compra en línia. L’altra iniciativa és Jules, un agent de codi experimental dissenyat perquè ajudi els desenvolupadors a detectar i corregir errors de codi de manera automàtica. El programari té l’avantatge que pot integrar-se directament al flux de treball de GitHub i, des d’allà, elaborar i executar plans, sempre sota la supervisió d’un promotor.