Meta admet que va entrenar els models de llenguatge Llama amb llibres electrònics piratejats
Zuckerberg va donar permís a l’equip desenvolupador per descarregar obres protegides amb drets d’autor i esborrar-ne les mencions
Categories:
El gran creixement que les solucions d’intel·ligència artificial han experimentat durant els darrers dos anys ha suposat una demanda a l’alça de textos de tota mena per entrenar els models, unes dades que no sempre s’han obtingut a través de mètodes lícits. Ja a principis de 2024, OpenAI admetia davant la Cambra dels Lords del Regne Unit que hauria estat “impossible” entrenar ChatGPT sense haver fet servir continguts protegits per drets d’autor. La nova actualització arriba per part de Meta, després que un dels seus treballadors reconegués en un judici als Estats Units que l’empresa havia descarregat bases de dades de llibres electrònics a través de torrents i n’havia esborrat les mencions al copyright per entrenar el model gran de llenguatge Llama.
La declaració en qüestió es va dur a terme el novembre de 2024 durant el judici entre Meta i els escriptors Sarah Silverman, Richard Kadrey i Christopher Golden per incompliment de drets d’autor, però no s’ha fet pública fins al passat dimecres. En aquests documents, el treballador de Meta va declarar davant de la cort del districte nord de Califòrnia que l’equip de desenvolupament de Meta havia descarregat obres a través de Library Genesis (LibGen), un cercador d’enllaços per descarregar lliurement articles científics, llibres acadèmics i, en grau més baix, obres de ficció de diverses editorials.
En la seva intervenció, el testimoni assenyala que l’equip es referia a les obres baixades de LibGen com una “base de dades que sabem que s’ha piratejat”, fet que alguns membres consideraven que podia “soscavar la posició negociadora amb els reguladors” de Meta. De fet, el treballador explica que algunes persones de l’equip es mostraven reticents al seu ús, el qual va ser finalment aprovat després d’elevar la qüestió al mateix Mark Zuckerberg. Els documents desvelats dimecres també apunten que un dels investigadors de la divisió encarregada del desenvolupament de Llama va escriure un codi per eliminar les mencions als drets d’autor i als reconeixements d’autoria dels llibres electrònics descarregats.
Un dels assumptes que es destaquen en la documentació legal és el fet que totes aquestes obres no es van obtenir legalment a través d’una llibreria o d’una biblioteca, sinó que es van descarregar a través de torrents, un sistema de distribució de fitxers que fa que cada usuari que descarregui també el comparteixi al mateix temps. De fet, quan l’equip d’enginyers va plantejar-se l’ús d’obres extretes de LibGen, va dubtar perquè “fer servir torrents des d’un ordinador corporatiu no se sent correcte”. En la seva intervenció al jutjat, la defensa dels demandants assenyalava que “la decisió de Meta de saltar-se els mètodes lícits d’adquisició de llibres i convertir-se en un participant conegut d’una xarxa il·legal de torrenting” és un fet que “serveix com a prova de la infracció de drets d’autor”.