Com acaben l’any les grans plataformes d’IA?

ChatGPT-5, Sora 2, Nano Banana Pro o Grok 4 són algunes de les eines que han marcat l’any pel que fa al sector de la intel·ligència artificial

Categories:

Oriol Quintana

OpenAI (Sora 2), Google (Nano Banana Pro) i Microsoft (MAI-Image-1) són tres de les companyies que han presentat models de generació d’imatges
OpenAI (Sora 2), Google (Nano Banana Pro) i Microsoft (MAI-Image-1) són tres de les companyies que han presentat models de generació d’imatges | Zulfugar Karimov (Unsplash)

La intel·ligència artificial (IA) va fer el salt a la popularitat ara fa tres anys amb un impacte que ha anat creixent en l’entorn laboral i la vida social de cadascú de nosaltres. El que va començar com un xatbot, capaç de donar resposta a les peticions més senzilles, ara ha evolucionat cap a models que s’han anat afinant fins al punt de crear contingut de tota mena que és pràcticament impossible de distingir del que ha fet un humà o la mateixa màquina. Els gegants tecnològics que estan darrere d’aquests sistemes algorítmics no han deixat de presentar noves versions i funcionalitats inèdites en aquest àmbit i a continuació repassem les principals novetats vinculades a la IA que ens deixa el 2025.

Només començar l’any, l’escenari va veure’s sacsejat amb DeepSeek, un model creat per l’empresa High-Flyer. La versió R1 ha sorprès no només pel seu potencial, sinó per l’optimització del cost energètic en l’entrenament de models generatius i la publicació de l’eina en codi obert. La companyia xinesa ha demostrat que és possible oferir respostes de qualitat reduint dràsticament els marges econòmics creant especialitzacions dins del mateix model, a diferència dels seus competidors. Per altra banda, el fet que estigui en codi obert facilita que els desenvolupadors experimentin amb la tecnologia.

ChatGPT, navegació i compres assistides

ChatGPT, la plataforma d’IA d’OpenAI, ha complert el mes de desembre tres anys del seu naixement amb unes dades històriques: al llarg del dia rep més de 2.500 milions de sol·licituds i a mitjans d’any va desbancar Instagram i TikTok com l’aplicació més descarregada del món. Pel que fa a les novetats, a l’agost va veure la llum el model de llenguatge GPT-5, amb el qual la companyia vol “revolucionar el món de la IA generativa”. Tot i arribar quatre mesos més tard del previst, destaca, a grans trets, per oferir coneixements amb nivell d’expert amb doctorat, reduir el nombre d’errors i al·lucinacions en les respostes i disposar d’un servei més ràpid i intel·ligent.

Ja a finals d’any, l’eina d’IA va anar afinant el seu model, no exempt de crítiques, amb l’aparició de GPT-5.1 i GPT-5.2. El primer ofereix variants més càlides i conversacionals que milloren el seguiment de les instruccions de l’usuari i s’adapta a cadascun dels casos. Pel que fa al segon, posa el focus en la feina i l’aprenentatge, amb millores com l’escriptura tècnica, els serveis de traducció o l’afinament en les preguntes de cerca profunda. En general, també ha incorporat la possibilitat d’oferir més imatges a les respostes, per ajudar a il·lustrar conceptes, per exemple.

ChatGPT Atlas busca revolucionar la navegació per webs, mentre que Shopping Research suggereix un assessor de compres per evitar la cerca individual pàgina a pàgina

Entre les múltiples funcions que han anat veient la llum enguany, n’hi ha tres que poden canviar la forma com els usuaris naveguen, compren o es relacionen en línia. Una d’elles és ChatGPT Atlas, el navegador web intel·ligent que s’ha presentat com una eina per ajudar els usuaris amb les seves tasques, com resumir articles, analitzar dades d’un web o interactuar amb les plataformes i fer accions per si mateixa. També hi ha el Shopping Research, un assessor de compres que suggereix productes i busca evitar la cerca individual a altres pàgines web. Per últim, s’han estrenat els xats grupals que faciliten la col·laboració com coordinar i organitzar viatges, redactar documents a diferents mans o fer una investigació conjunta.

OpenAI també ha publicat abans d’acabar l’any el nou model de la seva eina de vídeos i àudio, Sora 2. Si bé el primer model ja va deixar bocabadada part de la indústria audiovisual i cinematogràfica, el segon presenta un sistema de vídeos d’una capacitat molt superior, capaç de crear vídeos realistes respectant les lleis físiques. Així doncs, simula moviments de manera fidedigna, esquiva les deformacions absurdes i afegeix àudio i diàleg sincronitzats amb vídeo, convertint-se en narracions més realistes i efectes sonors totalment integrats.

Google: Gemini 3 i Nano Banana Pro

Google, per la seva banda, no ha afluixat en la cursa en el lideratge de la intel·ligència artificial. Després de presentar el model Gemini 2.5 a principis d’any, ha acabat llançant el Gemini 3, el seu model multimodal més potent fins ara. Entre les característiques destacades, hi ha les altes capacitats en raonament i comprensió multimodal –text, imatge i vídeo–, així com la capacitat de codificar de manera avançada. A més a més, l’acompanya el Deep Think, un nou mode que ofereix als usuaris la possibilitat de fer raonaments profunds per resoldre problemes complexos.

Però si hi ha una novetat vinculada a Google que està en boca de molts és el Nano Banana Pro, un model d’última generació d’edició d’imatges que s’alimenta de Gemini 3 Pro i al qual li ha sortit la competència recent de ChatGPT Images. Té la capacitat de generar imatges en qualitat 4K i ofereix controls avançats de creativitat, amb visuals de qualitat d’estudi amb text llegible en diferents idiomes, gràfics vinculats a una marca determinada donada o resoldre equacions en text extraient la informació d’un gràfic.

Nano Banana Pro, alimentat amb Gemini 3 Pro, és una de les principals novetats d’IA generativa vinculada a la creació d’imatges i de gràfics

Un dels grans potencials d’aquest gegant tecnològic és el cercador i enguany li ha tret partit incorporant la IA. Per una banda, han afegit la funció Mode AI, que mostra resultats més directes a les cerques, fent més senzill tot el procés i estalviant entrar en enllaços recomanats per obtenir la informació desitjada. Per altra banda, s’ha incorporat una nova experiència en la cerca de productes on s’analitzen més de 50 milions d’articles de diferents productes i detalls com les ressenyes, el preu o la disponibilitat.

De xarxes socials a intel·ligència artificial

Companyies iniciades en les xarxes socials no s’han quedat enrere en la pugna per dominar la IA. Un exemple d’això és Elon Musk, amb la companyia xAI. El mes de febrer, els usuaris de X ja podien disposar del model d’intel·ligència artificial, Grok 3, integrat a la plataforma. La quarta versió ha arribat al juliol amb eines noves com un navegador web, un executor de codi o la capacitat de fer cerques en temps real. En paral·lel, l’empresa ha llançat Grokipedia, una enciclopèdia en línia que vol competir amb la Viquipèdia i que s’alimenta dels xatbots de Grok.

Meta ha presentat a l’abril l’última generació del seu model de llenguatge, Llama 4, del qual destaquen els agents autònoms i els raonaments de lògica, matemàtics i de codi. També s’ha llançat Meta AI, l’assistent de la companyia que ja parla català, que s’integra a les xarxes socials de WhatsApp, Instagram, Facebook i Messenger. Entre les tasques que ofereix hi ha la traducció de continguts de forma automàtica, el servei de doblatge de vídeos en temps real o el suggeriment de fotografies, per part de la IA, per generar una publicació.

Microsoft: Windows 11 i primeres imatges

Una de les notícies de l’any al sector va ser el pas de Windows 10 a Windows 11. Més enllà de canvis estètics, de velocitat i de seguretat; la companyia ha volgut ficar la seva IA, Copilot, al centre de la nova versió. Entre les tasques que ja permet realitzar hi ha la interacció amb els usuaris a través de la veu, on es poden transmetre ordres orals o per escrit a través de la pantalla. També pot activar-se per analitzar el contingut per on s’està navegant, fer preguntes en la mateixa finestra sobre el que s’està veient o connectar diferents serveis de Microsoft, com OneDrive, Outlook o el calendari.

El gegant nord-americà també ha començat a caminar en els models de generació d’imatges amb MAI-Image-1. Segons va informar la companyia, està pensat per oferir resultats fotorealistes i originals, que es desmarquin del caràcter genèric i repetitiu i, per això, s’han basat en comentaris de professionals de les indústries creatives. En destaquen detalls com la il·luminació o els paisatges, però també la velocitat a l’hora de generar els continguts.