Meta admet que va entrenar els models de llenguatge Llama amb llibres electrònics piratejats

Zuckerberg va donar permís a l’equip desenvolupador per descarregar obres protegides amb drets d’autor i esborrar-ne les mencions

Categories:

RedaccióDilluns, 13 de gener de 2025 | 09:50h

L'equip d'enginyeria de Llama va descarregar obres protegides per drets d'autors a través de torrents per entrenar els seus models grans de llenguatge | MetaData

El gran creixement que les solucions d’intel·ligència artificial han experimentat durant els darrers dos anys ha suposat una demanda a l’alça de textos de tota mena per entrenar els models, unes dades que no sempre s’han obtingut a través de mètodes lícits. Ja a principis de 2024, OpenAI admetia davant la Cambra dels Lords del Regne Unit que hauria estat “impossible” entrenar ChatGPT sense haver fet servir continguts protegits per drets d’autor. La nova actualització arriba per part de Meta, després que un dels seus treballadors reconegués en un judici als Estats Units que l’empresa havia descarregat bases de dades de llibres electrònics a través de torrents i n’havia esborrat les mencions al copyright per entrenar el model gran de llenguatge Llama.

La declaració en qüestió es va dur a terme el novembre de 2024 durant el judici entre Meta i els escriptors Sarah Silverman, Richard Kadrey i Christopher Golden per incompliment de drets d’autor, però no s’ha fet pública fins al passat dimecres. En aquests documents, el treballador de Meta va declarar davant de la cort del districte nord de Califòrnia que l’equip de desenvolupament de Meta havia descarregat obres a través de Library Genesis (LibGen), un cercador d’enllaços per descarregar lliurement articles científics, llibres acadèmics i, en grau més baix, obres de ficció de diverses editorials.

En la seva intervenció, el testimoni assenyala que l’equip es referia a les obres baixades de LibGen com una “base de dades que sabem que s’ha piratejat”, fet que alguns membres consideraven que podia “soscavar la posició negociadora amb els reguladors” de Meta. De fet, el treballador explica que algunes persones de l’equip es mostraven reticents al seu ús, el qual va ser finalment aprovat després d’elevar la qüestió al mateix Mark Zuckerberg. Els documents desvelats dimecres també apunten que un dels investigadors de la divisió encarregada del desenvolupament de Llama va escriure un codi per eliminar les mencions als drets d’autor i als reconeixements d’autoria dels llibres electrònics descarregats.

Un dels assumptes que es destaquen en la documentació legal és el fet que totes aquestes obres no es van obtenir legalment a través d’una llibreria o d’una biblioteca, sinó que es van descarregar a través de torrents, un sistema de distribució de fitxers que fa que cada usuari que descarregui també el comparteixi al mateix temps. De fet, quan l’equip d’enginyers va plantejar-se l’ús d’obres extretes de LibGen, va dubtar perquè “fer servir torrents des d’un ordinador corporatiu no se sent correcte”. En la seva intervenció al jutjat, la defensa dels demandants assenyalava que “la decisió de Meta de saltar-se els mètodes lícits d’adquisició de llibres i convertir-se en un participant conegut d’una xarxa il·legal de torrenting” és un fet que “serveix com a prova de la infracció de drets d’autor”.

El digital de tecnologia en català

Meta admet que va entrenar els models de llenguatge Llama amb llibres electrònics piratejats

Zuckerberg va donar permís a l’equip desenvolupador per descarregar obres protegides amb drets d’autor i esborrar-ne les mencions

Etiquetes

Articles relacionats

OpenAI admet que hauria estat “impossible” entrenar ChatGPT sense fer servir continguts protegits per drets d’autor

Meta torna a la lluita pel tron de la IA amb Llama 3, el nou model de processament de llenguatge natural

Meta entrenarà els seus models d’IA generativa amb dades d’usuaris europeus de Facebook i Instagram

Meta substituirà els verificadors externs de continguts per les notes de comunitat

Etiquetes

Articles relacionats

OpenAI admet que hauria estat “impossible” entrenar ChatGPT sense fer servir continguts protegits per drets d’autor

Meta torna a la lluita pel tron de la IA amb Llama 3, el nou model de processament de llenguatge natural

Meta entrenarà els seus models d’IA generativa amb dades d’usuaris europeus de Facebook i Instagram

Meta substituirà els verificadors externs de continguts per les notes de comunitat

MetaData

El digital de tecnologia en català

Seccions

Categories

Territoris

Cercador