OpenAI llança o1: una IA que pot raonar com la ment humana
La companyia creadora de ChatGPT fa una passa endavant i aplica algoritmes d’aprenentatge per reforç en una nova eina capaç de donar resposta a problemes complexos
Categories:
OpenAI ha anunciat que treballa en una intel·ligència artificial capaç de “raonar com un ésser humà” per resoldre problemes complexos tal com ho faria la ment humana. Segons ha apuntat la companyia, els primers resultats ja han demostrat que el sistema pot pensar de manera crítica i reconèixer els errors que genera el seu mateix algoritme en el procés d’aprenentatge.
El rendiment que ha demostrat el model s’ha comparat amb el d’estudiants de doctorat en física, química i biologia. També destaca en matemàtiques i programació, tot i que amb un marge de millora encara ampli per arribar a les altres disciplines. L’anunci emès per l’empresa creadora de ChatGPT informa que o1 ha pogut superar els seus antecessors amb una puntuació del 83% en un examen de l’Olimpíada Internacional de Matemàtiques.
o1 podria arribar a necessitar dies per donar una resposta gràcies a l’ús d’algoritmes capaços de raonar com els humans
Malgrat que ara treballa amb un temps de processament de la informació i obtenció de resultat que s’allarga durant 1 segon, els creadors esperen allargar-lo a “hores, dies o, fins i tot, setmanes”. Així ho ha afirmat l’investigador d’OpenAI Noam Brown a X, qui ha reconegut que això suposarà “un cost de generar respostes més elevat”, però que també suposarà millors resultats.
Today, I’m excited to share with you all the fruit of our effort at @OpenAI to create AI models capable of truly general reasoning: OpenAI's new o1 model series! (aka 🍓) Let me explain 🧵 1/ pic.twitter.com/aVGAkb9kxV
— Noam Brown (@polynoamial) September 12, 2024
Com que es tracta d’una versió beta del projecte final, només es troba disponible en anglès a través de la plataforma de ChatGPT de pagament amb limitacions: no té cerques a internet ni càrrega d’arxius, i treballa a un ritme més lent. També s’ha publicat una proposta anomenada o1 mini dissenyada per programar codi. Ambdós tenen limitacions d’usos: 50 pregunta per a o1 i 30 consultes per a o1 mini.
Nous models
Els algoritmes que utilitza o1 es basen en un aprenentatge per reforç (reinforcement learning, RL), per això difereix de ChatGPT en la creació de preguntes. En comptes d’imitar patrons apresos, aprèn a resoldre els problemes interactuant amb l’entorn i triant les accions que més encaixen segons el context. Aquests models minimitzen les al·lucinacions –invencions de la IA quan no troba la resposta adequada-.
La nova solució està disponible en anglès i amb limitacions d'ús
L’entrenament dels nous models requereixen informació prèvia per a l’aprenentatge, però també un raonament basat en recompenses i penalitzacions que l’ajuden a pensar d’una manera que s’apropa a la ment humana.