Google injecta la intel·ligència artificial a totes les seves venes

La multinacional estatunidenca presenta els darrers avenços dels models Gemini i com s’apliquen al cercador, el xatbot i les múltiples eines i serveis de la companyia

Categories:

Redacció

Google ha duplicat la capacitat de context de Gemini 1.5 i ha llançat noves versions dels seus models de text a imatge i de text a vídeo
Google ha duplicat la capacitat de context de Gemini 1.5 i ha llançat noves versions dels seus models de text a imatge i de text a vídeo | Google

Tan sols un dia després que OpenAI presentés GPT-4o, Google ha dedicat bona part de la seva conferència anual de novetats, la Google I/O 2024, a parlar sobre els avenços que la companyia de Mountain View ha fet en el camp de la intel·ligència artificial. Des de noves versions de la seva de família de models generatius Gemini, fins a l’aplicació més profunda de la tecnologia en les principals eines de la companyia, queda clar que la IA s’ha convertit en el gran camp de batalla de les grans multinacionals tecnològiques, fins al punt que l’empresa es planteja canvis profunds en el funcionament del cercador.

La primera actualització la trobem en els ja mencionats models generatius, que des de principis d’any s’engloben dins del nom de Gemini. El model més potent de Google era fins ara Gemini 1.5 Pro, amb una capacitat de fins a un milió de tokens d’informació, l’equivalent a una hora de vídeo, 11 hores d’àudio, més de 30.000 línies de codi o més de 700.000 paraules. Ara, l’empresa ha anunciat que aquest model experimenta un important creixement i duplica la seva capacitat, arribant així fins als dos milions de tokens. Això servirà, segons el CEO de Google Sundar Pichai, per assolir l’anhelat “context infinit” de l’eina, de manera que les converses que es mantinguin amb ella siguin més naturals i recordin més aspectes del que s’ha anat treballant. La companyia encara no ha anunciat quan es trobarà disponible aquesta millora, però sí que ha assenyalat que la versió amb capacitat d’un milió de tokens de Gemini 1.5 Pro ja és accessible per a tots els desenvolupadors.

Paral·lelament al model principal, Google ha desvelat l’existència de Gemini 1.5 Flash, una versió més lleugera i optimitzada del model mare que està pensada per dur a terme tasques que requereixin una latència baixa a un cost més econòmic. Principalment, l’eina s’ha dissenyat pensant en xatbots, resums de documents o traduccions. Per la seva banda, la variant més oberta del model, Gemma, ja no es limita únicament a informació textual, sinó que ara també pot interpretar llenguatge visual gràcies al model PaliGemma, pensat per tasques d’etiquetatge i subtitulació d’imatges (ja accessible des de Kaggle). Així mateix, Google també ha anunciat que treballa en Gemma 2, la nova generació del model obert, encara sense data de llançament, però que promet una capacitat de 27.000 milions de paràmetres i un rendiment que superarà alternatives fins a dues vegades més grans.

Google també ha mostrat novetats en els seus models generatius de text a imatge i de text a vídeo. El primer d’ells és Imagen 3, el successor d’Imagen 2.0 que destaca per la seva producció d’imatges fotorealismes i per la capacitat d’incorporar una gran quantitat de detalls a partir d’apunts detallats. En segon lloc, es troba Veo, l’alternativa de la companyia a propostes com Sora que ja pot crear vídeos en una qualitat de 1080p i entendre conceptes del llenguatge cinematogràfic, com ara els timelapse. Totes dues eines han llançat llistes d’espera per ser provades en privat a ImageFX i VideoFX, respectivament.

El cercador, cada vegada més ‘intel·ligent’

Més enllà de les novetats vinculades directament amb els models multimodals, Google ha dedicat temps a demostrar com aquesta tecnologia s’integra en els múltiples serveis que ofereix, i un dels més destacats ha estat el seu cercador, el nucli del negoci des que es va crear. La principal novetat és el que l’empresa ha anomenat AI Overviews, una funcionalitat que substituirà el tradicional llistat d’enllaços blaus (que es podran consultar més a baix) per un text creat de manera generativa que busca donar resposta a la pregunta sol·licitada. Aquesta eina permetrà fer preguntes més llargues, complexes i amb llenguatge natural al cercador, que respondrà en diferents formats i incloent les fonts que ha consultat. A més, Google assegura que la funcionalitat és altament personalitzable, en qüestions com la longitud o la tecnicitat del vocabulari emprat. AI Overviews ja s’ha implementat al cercador als Estats Units, però de moment encara no té data confirmada per la resta de països ni en altres llengües que no siguin l’anglès.

Tot i que s’ha emportat el gran protagonisme, el cercador no és ni de lluny l’única aplicació de Google que integrarà la IA. Gmail, Drive, Meet o Fotos són només alguns dels serveis que també implementaran Gemini 1.5 per dur a terme tota mena de tasques, entre les quals destaca la interconnexió entre serveis.

Project Astra, el futur dels assistents?

Entre les múltiples novetats presentades durant les gairebé dues hores de conferència, una de les que més ha cridat l’atenció és Project Astra, un assistent virtual multimodal que des de Google han venut com “el futur dels assistents”. La companyia qualifica aquesta iniciativa com a IA universal pensada per tasques de la vida quotidiana, capaç d’interpretar informació textual, sonora i visual. Els exemples mostrats recorden precisament a les capacitats de GPT-4o: identificar a través de la càmera objectes que produeixen sons, fer descripcions artístiques sobre elements seleccionats o interpretar de manera visual parts de codi informàtic.

Segons han explicat els enginyers de Google DeepMind, aquesta eina funciona a partir d’una sèrie d’agents que codifiquen la informació visual dels fotogrames de vídeos i la combinen amb la rebuda de manera sonora, emmagatzemant-la en una línia de temps per poder accedir-hi de manera més pràctica. La voluntat no és altra que construir un assistent que pugui respondre de manera natural i ràpida, modulant el to de veu —característica que encara no s’ha mostrat—. L’eina es troba encara en desenvolupament i no s’ha anunciat una data de llançament.