Google presenta Gemini 2.5, la nova aposta pels models generatius de raonament profund

El nou model multimodal de Google té una finestra de context d’un milió de tokens i destaca en ciència, matemàtiques i raonament visual

Categories:

Redacció

Gemini 2.5 s'ha llançat en una primera versió experimental, de moment només disponible per als usuaris de Gemini Advanced
Gemini 2.5 s'ha llançat en una primera versió experimental, de moment només disponible per als usuaris de Gemini Advanced | Google

La cursa de llarga distància per dominar el sector de la intel·ligència artificial continua sumant noves apostes de les grans empreses, i ara ha tornat a arribar el torn de Google. L’empresa ha presentat aquest dimarts Gemini 2.5, la nova versió del seu principal model generatiu, que segueix el rastre d’OpenAI, Anthropic i Grok amb una aposta clara pel raonament profund.

Gemini 2.5 és una versió millorada de Gemini 2.0 Flash Thinking, el primer intent de Google de desenvolupar un model de raonament profund, que es caracteritzen per “pensar” les respostes durant un temps, cosa que els permet donar resultats molt més complexos. De moment, la companyia ha llençat una primera versió experimental de Gemini 2.5 Pro, i els primers resultats en els índexs de referència mostren resultats destacats en matemàtiques, ciències i raonament visual, categories on supera els seus principals competidors (o3-mini i GPT-4.5 d’OpenAI, Claude 3.7 Sonnet d’Anthropic, Grok 3 Beta d’X i DeepSeek R1). El model també ha debutat en primera posició a LMArena, una eina per testar i comparar xatbots intel·ligents. Tanmateix, mostra resultats més tímids en generació de codi de programació, amb un rendiment inferior a o3-Mini i Grok 3.

Malgrat els resultats comparatius amb altres models, des de Google destaquen la millora que suposa Gemini 2.5 en l’àmbit de la programació quan se’l compara amb els models anteriors de la companyia, subratllant la seva capacitat per “crear aplicacions web visualment atractives i aplicacions d’agents de codi”. Una altra de les fortaleses que es posen en valor és la seva àmplia finestra de context, de fins a un milió de tokens, amb la previsió d’ampliar-lo pròximament als dos milions, així com la seva “multimodalitat nativa”, que li permet extreure informació de text, àudio, imatges, vídeos i repositoris de codi.

Gemini 2.5 Pro es troba de moment disponible únicament per als subscriptors de Gemini Advanced i per als desenvolupadors i empreses a través de Google AI Studio, amb la previsió d’incorporar-lo a Vertex AI durant les pròximes setmanes. La companyia també desvelarà en el curt termini els preus específics per al seu ús a escala productiva.