OpenAI llança o1: una IA que pot raonar com la ment humana

La companyia creadora de ChatGPT fa una passa endavant i aplica algoritmes d’aprenentatge per reforç en una nova eina capaç de donar resposta a problemes complexos

Categories:

Redacció

o1 és la nova proposta d'OpenAI per acostar la intel·ligència artificial al raonament humà
o1 és la nova proposta d'OpenAI per acostar la intel·ligència artificial al raonament humà | OpenAI

OpenAI ha anunciat que treballa en una intel·ligència artificial capaç de “raonar com un ésser humà” per resoldre problemes complexos tal com ho faria la ment humana. Segons ha apuntat la companyia, els primers resultats ja han demostrat que el sistema pot pensar de manera crítica i reconèixer els errors que genera el seu mateix algoritme en el procés d’aprenentatge.

El rendiment que ha demostrat el model s’ha comparat amb el d’estudiants de doctorat en física, química i biologia. També destaca en matemàtiques i programació, tot i que amb un marge de millora encara ampli per arribar a les altres disciplines. L’anunci emès per l’empresa creadora de ChatGPT informa que o1 ha pogut superar els seus antecessors amb una puntuació del 83% en un examen de l’Olimpíada Internacional de Matemàtiques.

o1 podria arribar a necessitar dies per donar una resposta gràcies a l’ús d’algoritmes capaços de raonar com els humans

Malgrat que ara treballa amb un temps de processament de la informació i obtenció de resultat que s’allarga durant 1 segon, els creadors esperen allargar-lo a “hores, dies o, fins i tot, setmanes”. Així ho ha afirmat l’investigador d’OpenAI Noam Brown a X, qui ha reconegut que això suposarà “un cost de generar respostes més elevat”, però que també suposarà millors resultats.

Com que es tracta d’una versió beta del projecte final, només es troba disponible en anglès a través de la plataforma de ChatGPT de pagament amb limitacions: no té cerques a internet ni càrrega d’arxius, i treballa a un ritme més lent. També s’ha publicat una proposta anomenada o1 mini dissenyada per programar codi. Ambdós tenen limitacions d’usos: 50 pregunta per a o1 i 30 consultes per a o1 mini.

Nous models

Els algoritmes que utilitza o1 es basen en un aprenentatge per reforç (reinforcement learning, RL), per això difereix de ChatGPT en la creació de preguntes. En comptes d’imitar patrons apresos, aprèn a resoldre els problemes interactuant amb l’entorn i triant les accions que més encaixen segons el context. Aquests models minimitzen les al·lucinacions –invencions de la IA quan no troba la resposta adequada-.

La nova solució està disponible en anglès i amb limitacions d'ús

L’entrenament dels nous models requereixen informació prèvia per a l’aprenentatge, però també un raonament basat en recompenses i penalitzacions que l’ajuden a pensar d’una manera que s’apropa a la ment humana.