SuSy, l’aposta del BSC per millorar les eines de detecció d’imatges sintètiques
El model per identificar fotografies generades artificialment es publica acompanyat d’una sèrie de guies i consells per afavorir la creació de detectors més robustos en el futur
Categories:
L’auge dels sistemes d’intel·ligència artificial generativa han omplert internet de textos, vídeos i imatges sintètiques, uns continguts que preocupen especialment pels efectes que puguin tenir en la desinformació de la societat. “Vam notar que hi havia molts sectors de la indústria que començaven a estar preocupats de l’existència de continguts sintètics cada vegada més realistes”, explica l’investigador principal del grup de recerca High Performance Artificial Intelligence (HPAI) del Barcelona Supercomputing Center - Centre Nacional de Supercomputació (BSC-CNS), Dario Garcia Gasulla. Malgrat que en els darrers anys han anat sorgint diverses eines que intentaven detectar l’artificialitat o veracitat de textos i imatges, el sector es troba “enganxat en una cursa d’equilibris entre el camp dels detectors i el dels generadors”, en què una innovació en un d’ells comporta avenços en l’altre. És per aquesta raó que des del HPAI han decidit arromangar-se i preparar el següent gran pas en l’àmbit dels detectors: el projecte SuSy.
Nascut inicialment com una investigació per detectar imatges ampliades amb tècniques de superresolució, l’interès suscitat per la indústria va conduir a l’equip del BSC a ampliar el rang de SuSy perquè fos capaç de detectar imatges sintètiques creades amb tota mena de programaris i tècniques diferents. “Hem utilitzat 14 models de generadors diferents i 17 conjunts de dades per entrenar el model”, assenyala Garcia Gasulla. En total, s’han fet servir 12.000 imatges provinents de cinc d’aquests conjunts de dades, mentre que els altres 12 s’han fet servir per avaluar la qualitat del model, considerada “la part més crítica del procés”. El resultat és un model de detecció d’imatges generades artificialment de 12.700.000 paràmetres, una mida “especialment accessible” pels estàndards d’avui dia, atès que es pot córrer des d’un telèfon mòbil. Més enllà del model en si, l’equip també ha preparat una demostració en forma de minijoc, un test en què els usuaris han de determinar si les imatges mostrades són verídiques o sintètiques i competir contra el model per veure qui n’encerta més. “El model té una precisió d’entre el 70 i el 80%, comparable al rendiment humà de persones expertes en edició d’imatge”, considera l’investigador principal del HPAI.
Un model per millorar els futurs detectors d’imatges sintètiques
El nivell actual del model SuSy es troba entre els cinc millors detectors d’imatges sintètiques que s’han creat fins ara, i la causa és que l’objectiu principal de l’equip del BSC era no crear el millor detector possible en l’actualitat: “Els models es tornen obsolets en el moment que els alliberes, perquè igual que els detectors utilitzen els generadors per aprendre a detectar, els generadors utilitzen els detectors per aprendre a enganyar-los”. En aquest sentit, Garcia Gasulla admet que s’han trobat en un “conflicte d’interessos”, ja que “la reproductibilitat dels coneixements és un dels pilars de la ciència”. És per això que, en comptes de desenvolupar el millor model possible, han optat per dissenyar-ne un de competent, alliberar-lo i publicar unes guies per “entrenar bons detectors robustos”. “Recomanem que si algú aconsegueix crear un millor detector, se’l quedi o l’utilitzi internament, però que no l’alliberi”, alerta l’investigador, ja que això donaria ales als creadors de generadors d’imatges per neutralitzar-los novament.
El desenvolupament de models generadors i models detectors d'imatges sintètiques es retroalimenten mútuament, fet que dificulta la creació d'eines que resisteixin el pas del temps i les innovacions
La investigació i les experiències acumulades a l’hora de desenvolupar el model, publicat en forma a arxiv.org mentre els autors treballen per publicar-lo en una conferència internacional, ha servit a l’equip per “aprendre molt” sobre el funcionament d’aquesta classe de programaris. “Hem vist que afecten aspectes com si la imatge està en JPG o en PNG, si té una resolució alta o baixa, si s’ha passat per un filtre o un desenfocament…”, exemplifica Garcia Gasulla. La saturació de colors és un altre element que es té en compte, ja que “els generadors tendeixen a fer coses molt vistoses”, però l’element més important en què se centra el detector són “artefactes de baixa resolució que els models generatius introdueixen en la imatge”. La investigació també ha servit per testar el nivell d’altres detectors d’aquestes característiques, d’on han tret noves conclusions: “El millor és entrenar amb una varietat de models i no només amb un únic. S’ha d’anar amb compte amb les dades dels models antics, perquè encara que semblin més fàcils els detectors se la solen pegar. I cal incloure transformacions d’imatge en els entrenaments, perquè les operacions de desenfocament fan baixar la detecció de l’ordre d’un 20%”.
Amb la recerca i el model publicats, la intenció actual del BSC és divulgar aquests coneixements i aconseguir que les indústries comencin a adoptar aquestes tecnologies, ja que “la investigació demostra que ja és prou madura per començar a integrar-les amb supervisió humana”. A partir d’aquí, el següent pas és millorar la qualitat en la detecció d’imatges alterant sintèticament només petites parts de les fotografies i comparant-les amb la imatge real, així com fer el pas a la detecció de vídeos sintètics.