OpenAI admet que hauria estat “impossible” entrenar ChatGPT sense fer servir continguts protegits per drets d’autor

L’empresa considera que alimentar els models únicament amb obres del domini públic no satisfaria les necessitats de la ciutadania

Categories:

Redacció

OpenAI assegura que no incompleix cap normativa de copyright, ja que aquestes no prohibeixen entrenar models d'IA
OpenAI assegura que no incompleix cap normativa de copyright, ja que aquestes no prohibeixen entrenar models d'IA | Matheus Bertelli (Pexels)

D’ençà del llançament públic de ChatGPT i altres eines basades en intel·ligència artificial generativa, l’origen de les dades amb què s’han entrenat els grans models que les operen ha estat una de les grans polèmiques d’aquesta tecnologia. A finals de 2023, el New York Times va denunciar OpenAI per fer servir articles seus sense permís explícit per nodrir el seu sistema, una acusació que se suma a la que han rebut altres empreses com Midjourney. Davant d’aquest context, la companyia creadora de ChatGPT ha admès que hauria estat “impossible” entrenar el model sense haver fet servir continguts protegits per drets d’autor.

Segons ha explicat l’empresa en un comunicat per a la Cambra dels Lords del Regne Unit, en resposta a una investigació en marxa, les funcionalitats que ofereix ChatGPT no es podrien haver garantit sense un entrenament massiu amb aquesta classe de dades. “Com que el copyright avui dia cobreix virtualment tota classe d’expressió humana -incloent publicacions a blogs, fotografies, publicacions a fòrums, parts de codi de programari i documents de governs-, seria impossible entrenar els models d’IA líders sense fer servir materials protegits per drets d’autor”, assegura el text. La companyia considera que limitar les dades d’entrenament a “llibres i dibuixos del domini públic creats fa més d’un segle” pot considerar-se un “experiment interessant”, però en cap cas seria un corpus capaç de “proveir sistemes d’IA que compleixin amb les necessitats dels ciutadans de l’actualitat”.

Amb tot, des de l’empresa defensen que els seus processos d’entrenament compleixen amb “tots els requeriments de les lleis aplicables, incloent-hi les de copyright”, tot assenyalant que aquestes normatives no prohibeixen, ara com ara, l’entrenament de models generatius. Sigui com sigui, des d’OpenAI concedeixen que “encara hi ha feina a fer per empoderar i donar suport als creadors”, i es comprometen a desenvolupar “mecanismes addicionals” per aquelles persones que vulguin que les seves obres siguin excloses de la base de dades amb què s’entrenen els models de GPT.