Anthropic presenta Claude 3.7 Sonnet, el primer model de raonament híbrid d’intel·ligència artificial
La nova aposta supera el rendiment de la majoria de competidors en l’àmbit de la programació
Categories:
La cursa per liderar el sector dels models d’intel·ligència artificial generativa no deixa de rebre noves candidatures. Després del terrabastall que va suposar DeepSeek i de l’anunci de Grok 3 per part de X AI, i a l’espera que OpenAI presenti pròximament els seus nous models, ara ha arribat el torn d’Anthropic. Els creadors del que ja era considerat un dels models més competents en l’àmbit de la programació, Claude 3.5 Sonnet, han presentat aquest dilluns Claude 3.7 Sonnet, la nova gran aposta de la companyia que es distingeix de la resta de models grans de llenguatge pel fet de ser el primer model de raonament híbrid del mercat.
Des que OpenAI publiqués el setembre passat el model o1, la majoria de companyies ha optat per desenvolupar models del que anomenen pensament profund, els quals no contesten les peticions dels usuaris de manera immediata, sinó que dediquen més temps i recursos computacionals a donar una resposta molt més elaborada. Habitualment, les companyies presentaven aquests models de pensament profund com un model independent del principal model de llenguatge, i la gran novetat de Claude 3.7 Sonnet és que ajunta totes dues modalitats en un únic model. “De la mateixa manera que els humans fan servir un únic cervell tant per respostes ràpides com per reflexions profundes, creiem que el raonament ha de ser una capacitat integrada en els models principals i no un model completament separat”, assenyala Anthropic en el seu comunicat.
A la pràctica, l’usuari triarà entre el funcionament estàndard i el raonat de manera similar que en altres xatbots, però el model que s’emprarà per donar la resposta serà el mateix: “El mode de pensament estès no és una opció que canvia a un model diferent amb una estratègia separada. El que fa és permetre al mateix model donar-se més temps i dedicar més esforç per trobar una resposta”. De fet, en cas de fer servir l’eina en la seva versió API, la decisió no és únicament binària, sinó que se li pot especificar al model el límit de tokens que pot fer servir per pensar, amb la intenció de modular el cost que es vol invertir en cada resposta.
Com també fan altres models com Grok 3, els usuaris podran veure tot el procés de pensament que Claude 3.7 Sonnet fa abans d’arribar a la resposta, una funcionalitat que ha sorprès especialment els seus creadors: “Alguns dels nostres investigadors amb rerefons en matemàtiques i físiques han notat com d’inquietantment similar és el procés de pensament de Claude a la seva pròpia manera de raonar problemes difícils: explorant molts angles diferents i branques de raonament, i comprovant les respostes dues o tres vegades”.
Lideratge en programació
El resultat és un model que excel·leix especialment en el desenvolupament de codi, àrea on els antics models de Claude ja despuntaven anteriorment. Els principals tests situen Claude 3.7 Sonnet per davant d’Open AI o1, Open AI o3-mini i DeepSeek R1 en àmbits com la gestió de bases de dades complexes, l’ús d’eines avançades de programació, la planificació de canvis de codi i l’elaboració d’aplicacions web. L’únic model que mostra millors resultats és Grok 3 Beta, però només en els tres dels nou ítems on mostra avaluacions. Des de l’equip destaquen que el model de raonament s’ha optimitzat tenint més en compte tasques de la vida real que no pas problemes matemàtics i de ciència computacional, ja que “reflecteix millor com els negocis fan servir els LLM”.
Un altre dels àmbits on Claude 3.7 Sonnet mostra un rendiment especialment elevat és en el que anomenen escalatge d’accions, és a dir, la capacitat de fer diverses accions iteratives que responen a canvis de l’entorn, com per exemple, fer servir un ordinador, amb teclat i ratolí. En això consisteix precisament el test OSWorld, dissenyat per avaluar models multimodals, on 3.7 Sonnet ha millorat significativament els resultats de 3.5 Sonnet, especialment a mesura que continuava interactuant amb l’ordinador virtual. Una altra prova, en aquest cas interna, que l’equip d’Anthropic ha fet per valorar les característiques del model és posar-lo a jugar a Pokémon i veure fins on era capaç d’arribar. Així com els models anteriors de Claude acostumaven a bloquejar-se tot just al principi del joc, el 3.7 Sonnet, que és l’únic que inclou l’opció de pensament estès, ha estat capaç d’avançar pel joc i superar els tres primers líders de gimnàs del títol, els principals reptes que imposa als jugadors. “Claude 3.7 Sonnet és superefectiu a l’hora d’intentar múltiples estratègies i qüestionar-se suposicions prèvies, cosa que li permet millorar les seves pròpies capacitats a mesura que progressa”, detallen des d’Anthropic.
De manera paral·lela al principal model, que ja es troba disponible als mateixos preus que fins ara (3 dòlars per milió de tokens d’input i 15 dòlars per milió de tokens d’output), Anthropic també ha presentat una versió preliminar de Claude Code, un agent especialitzat en codi. Aquesta eina és definida com un “col·laborador actiu” que pot fer tasques com buscar i llegir codi, editar fitxers, redactar i executar tests o fer servir línies d'ordres, tot mentre manté l’usuari informat de cada passa.