Què és DeepSeek i per què ha sacsejat el sector de la IA generativa?
L’optimització del cost energètic de l’entrenament de models generatius i la publicació de l’eina en codi obert obre un nou capítol dins de la indústria tecnològica
Categories:
OpenAI amb GPT, Meta amb Llama, Google amb Gemini o Anthropic amb Claude eren fins ara els grans competidors en la cursa dels models generatius d’intel·ligència artificial, una competició pràcticament monopolitzada pels Estats Units que es basava en la potència bruta de les solucions. Qui fos capaç de dissenyar el model amb el nombre més elevat de paràmetres, la capacitat de context més gran i els millors resultats en la dotzena de testos d'avaluació amb què treballa la indústria seria qui atrauria els ulls d’inversors i desenvolupadors durant els mesos que aconseguís mantenir l’avantatge. La sorpresa ha arribat quan el nou adversari a superar és una start-up xinesa que iguala o supera les xifres del principal model d’OpenAI, OpenAI o1, amb una proposta publicada en codi obert i un cost computacional molt més reduït que la resta de companyies. Això és el que ha aconseguit DeepSeek, el model creat per l’empresa High-Flyer que ha causat un important sotrac a la borsa nord-americana.
La versió més recent del model DeepSeek, DeepSeek-R1, es va publicar el passat 20 de gener i els desenvolupadors ja feia dies que trastejaven amb ell i alertaven sobre el seu potencial. Aquests primers avisos s’han confirmat com un canvi de paradigma aquest dilluns a la borsa americana: Nvidia, una de les empreses més valuoses del món i encarregada de confeccionar els processadors gràfics més emprats pels xips de la indústria de la intel·ligència artificial, ha patit pèrdues de fins a 566.000 milions de dòlars en capitalització. La caiguda també ha arrossegat companyies com Alphabet (Google), Microsoft o Cisco i ha suposat una davallada conjunta del 3% del Nasdaq, l’índex borsari d’empreses tecnològiques dels Estats Units. “Ha sigut un sacseig bastant fort a tota la indústria, ha agafat amb el peu canviat a totes les grans tecnològiques”, confirma el director executiu de la consultora Datarmony, Enric Quintero. “Les inversions que les grans empreses estaven fent en servidors i fins i tot centrals elèctriques per donar resposta als algoritmes ha sigut molt forta, i de cop i volta veiem una nova tecnologia que optimitza el software en un àmbit que no es pensava que seria tan optimitzable”, assenyala. I és que fins ara, l’aposta de les big tech americanes s’havia centrat en el maquinari, en crear “xips molt més rendibles que fessin que la intel·ligència artificial treballés millor”.
High-Flyer ha invertit 5,6 milions de dòlars i un període de dos mesos per entrenar DeepSeek, quan Gemini o GPT-4 han requerit inversions que volten els 100 milions
High-Flyer assegura que per a l’entrenament dels models DeepSeek ha fet servir uns 2.000 xips H800 de Nvidia (que no són els més avançats), que ha tingut una durada de dos mesos i que ha suposat una inversió del voltant de 5,6 milions de dòlars, uns 5,37 milions d’euros al canvi actual. Comparativament, una investigació d’Epoch AI calcula que el cost que Google va assumir per entrenar la primera versió de Gemini es troba entre els 30 i els 191 milions de dòlars sense comptar salaris, mentre que el mateix Sam Altman ha reconegut que l’entrenament de GPT-4 va superar els 100 milions de dòlars. High-Flyer ha aconseguit reduir dràsticament els marges creant especialitzacions dins del mateix model, segons explica el director executiu de Datarmony: “Gemini o ChatGPT tracten tots els problemes de la mateixa manera i aconsegueixen trobar solucions amb força bruta i capacitat de processament. Aquesta gent ha intentat categoritzar primer el problema: si té a veure amb medicina, creen una especialització de l’algoritme per això. Si té a veure amb cuina, una altra. D’aquesta manera, fan que el consum d’energia i de rendiment no sigui a l’engròs, ja que no han de tractar tots els problemes del món amb un únic algoritme”.
Aquesta innovació ve forçada pel context econòmic en què es troben les empreses xineses, amb un embargament d’exportacions de xips dels Estats Units que intenta evitar que el gegant asiàtic aprofiti la tecnologia nord-americana per fins bèl·lics. Una situació en què la inventiva sorgeix de la limitació que Quintero compara amb una anècdota de la cursa espacial durant la Guerra Freda: “Els americans van invertir centenars de milers de dòlars per crear un boli que pogués escriure en ingravidesa. Davant del mateix problema, els russos van utilitzar un llapis. És el mateix: els xinesos no disposen dels millors xips, així que han hagut de centrar-se a fer més eficient el model”. I tot això ha repercutit també en el preu del producte: tot i que el model s’ha publicat en obert a GitHub i els usuaris poden fer-lo servir gratuïtament en forma de xatbot, l’empresa també ha habilitat una API per a desenvolupadors. El que ha sorprès els professionals, entre els quals s’inclou Quintero, és el preu: l’accés va des dels 14 o 55 cèntims de dòlar per milió de tokens d’entrada fins als 2,19 dòlars per milió de tokens de sortida. “OpenAI cobra 15 dòlars per milió de tokens. Ho han trencat completament, han passat de 15 dòlars a 55 cèntims. Han deixat als altres despenjats”, opina el directiu.
La força del codi obert
L’altre gran element revolucionari de DeepSeek és el fet que s’ha publicat íntegrament en codi obert, una filosofia que no és nova dins la indústria (la mateixa Meta comparteix públicament el codi de Llama, tot i que en limita certs usos comercials), però que obre encara més les portes perquè els desenvolupadors experimentin amb la tecnologia. Aquest moviment, segons Quintero, demostra la confiança que High-Flyer té en el seu model: “Si DeepSeek fa aquest pas, és perquè ells ja tenen la versió v4, v5 o v6, i no tenen cap problema amb el fet que tot el món segueixi ara les seves doctrines”. “És com va fer Google Cloud amb Kubernetes, tots els clouds segueixen les directrius de Google perquè va ser el creador de l’estàndard. I ara, DeepSeek pot ser el creador d’aquest nou estàndard”, assegura.
El fet que DeepSeek es trobi publicat en obert implica una nova direcció per a la indústria basada en un consum energètic més reduït, que xoca amb “les inversions tan bèsties que s’estaven fent en centres de desenvolupament de xips i centrals elèctriques, fins i tot nuclears”, i Quintero considera que “és una superbona notícia per a l’ecologia i per al món en general”. Però també suposa una porta oberta a saltar-se la presència de censura política xinesa que han denunciat professionals tecnològics, periodistes i usuaris: “Molta gent critica l’obscurantisme que pot tenir una eina que s’ha desenvolupat a la Xina i el fet que estaria sota les regles del seu govern, i això pot ser veritat per la versió en xat de l’aplicació. Però si t’ho pots descarregar en codi obert, pots construir a sobre el sistema que tu vulguis amb les regles que tu vulguis, sense estar basat en les regles del govern xinès”.
Quintero: “Si pots descarregar el model en codi obert, pots construir a sobre el sistema que tu vulguis amb les regles que tu vulguis, sense estar basat en les regles del govern xinès”
El llançament en obert de DeepSeek és percebut per Quintero com una notícia positiva per a la indústria europea, ja que creu que pot servir per refermar el rol del continent en l’ecosistema global de la intel·ligència artificial: “No sé si de retruc o per sort, però Europa s’ha posicionat amb el tema ètic i regulador, i crec que li convé, perquè ja hem vist que és impossible competir amb aquests colossos”. “Potser ara tindrem un nou estàndard, i a Catalunya començarem a desenvolupar amb ell, però sota unes lleis i una ètica que potser no aplicaran a cap altre lloc. I nosaltres també podem exportar aquests sistemes cap enfora”, defensa Quintero.
De la inversió quantitativa a la IA generativa
Els orígens de High-Flyer es remunten al 2015, any en què tres enginyers de la Universitat de Zhejiang (ZJU) van fundar l’empresa. Originalment, la companyia s’especialitzava en la inversió quantitativa, una tècnica basada en l’ús de models matemàtics i estadístics per dissenyar estratègies d’inversió de risc. L’empresa va començar a treballar amb aprenentatge automàtic aplicat al seu sector el 2016, i el 2019 va obrir una divisió d’investigació, High-Flyer AI, destinada a trobar noves aplicacions d’aquesta tecnologia. És aquesta secció la que més endavant dissenyaria les supercomputadores Fire-Flyer, basades en milers de xips Nvidia adquirits abans que s’imposessin les restriccions d’exportació de xips als Estats Units. L’aposta de High-Flyer per la recerca va desembocar en la creació d’un laboratori independent especialitzat en intel·ligència artificial, origen dels models DeepSeek, la primera versió dels quals va debutar el novembre de 2023. Des d’aleshores, els esforços de la companyia s’han centrat a reduir el cost computacional de la tecnologia, com ha demostrat la versió més recent del model.