Google llança SynthID, la marca d’aigua digital per a continguts creats amb intel·ligència artificial

El conjunt d’eines per marcar textos, imatges, vídeos o sons, creades per Google DeepMind, es publica en obert per als desenvolupadors de models de llenguatge extens

Categories:

Redacció

la marca d'aigua de SynthID per a textos es basa en les probabilitats que té una IA d'escollir cadascun dels tokens que conformen una frase o paràgraf
la marca d'aigua de SynthID per a textos es basa en les probabilitats que té una IA d'escollir cadascun dels tokens que conformen una frase o paràgraf | Google DeepMind

Amb la millora constant de les eines generatives d’intel·ligència artificial, cada vegada és més complicat afirmar a ulls clucs que un text o una imatge és d’autoria humana o no. En els darrers mesos han sorgit diverses eines per intentar esclarir els dubtes, però cal d’elles ha acabat de guanyar la mateixa tracció que les solucions per crear-ne. Tanmateix, ara és la mateixa Google qui ha entrat en aquest camp amb el llançament gratuït i en codi obert de SynthID, un producte elaborat per un equip de Google DeepMind que s’encarrega d’implementar diferents classes de marques d’aigua digitals als textos, imatges, vídeos i àudios generats artificialment. La intenció és que els canvis que apliqui sobre els productes siguin imperceptibles a primera vista, però fàcilment detectables amb les eines adients.

Anunciat originalment l’estiu de 2023, SynthID no és un únic programari, sinó una suite de diversos algoritmes i models d’aprenentatge profund aplicats de diferents maneres. En el cas dels textos, que són el tipus de contingut al qual és més complicat inserir una marca d’aigua, aquesta pren la forma d’un càlcul numèric sobre les probabilitats de generar certes paraules i frases en llocs concrets. Per una sola frase, una eina de generació artificial de text genera més d’una desena de tokens en els quals s’escull la paraula que ha de seguir les anteriors. El que fa SynthID és calcular el percentatge de possibilitats que té el sistema d’escollir cadascuna de les opcions possibles i les compara amb el resultat final. Això, amb un text d’una pàgina de longitud, aporta centenars d’anàlisis que, en el còmput global, se sintetitzen en un percentatge concret sobre les vegades que aquell text ha complert o no amb les expectatives d’un producte generat per IA. És aquest càlcul el que, comparat amb els valors que acostumen a donar els textos generats amb IA i els manuals, el que serveix com a marca d’aigua.

L’explicació de com funciona aquest algoritme s’ha publicat aquest dimecres en un article científic a la revista Nature, al mateix temps que s’ha publicat el kit en codi obert per posar-lo a disposició dels desenvolupadors de models de llenguatge extensos (LLM). L’eina s’ha estat testant des del mes de juliol amb el xatbot Gemini de Google, i també s’ha col·laborat amb la plataforma Hugging Face per posar el programari a disposició dels usuaris.

Imatges, vídeos i música

La marca d’aigua per als textos, que ha estat la que més complexitat ha suposat per Google DeepMind, se suma a les altres eines integrades dins de SynthID per identificar creacions artificials en altres formats. Pel que fa a les imatges, la metodologia és la mateixa que la que es va presentar el 2023: incorporar una sèrie d’alteracions en els píxels de les imatges que no són perceptibles per l’ull humà, però que serveixen per identificar les imatges generades artificialment, fins i tot quan se’ls altera la mida, es retallen, se’ls afegeixen filtres o se’ls canvia el color. En el cas dels vídeos, es fa servir la mateixa metodologia, però aplicada a cadascun dels frames. En l’actualitat, aquest mecanisme està implementat en els models de generació d’imatges Imagen 2 i Imatgen 3 de Vertex AI, i ImageFX, així com el model de generació de vídeos VideoFX, tots ells desenvolupats per Google.

Exemple de comparativa d’una imatge amb i sense marca d’aigua de SynthID | Imatge: Google DeepMind

Amb la música i altres formats d’àudio, el que fa SynthID és convertir l’ona de so en un espectograma, introduir-hi la marca digital i convertir-ho novament en ona de so, modificant els nivells d’àudio perquè els canvis fruit de la marca d’aigua siguin imperceptibles. Aquesta marca d’aigua, ja implementada en el model de generació d’àudio Lyria de Google, s’ha dissenyat perquè resisteixi les modificacions d’àudio més habituals, com la incorporació de soroll, la compressió a MP3 o l’acceleració o alentiment del ritme de la peça.