La tecnologia que ha fet possible l’existència dels Papers de Pandora
Els reporters utilitzen models automatitzats i ‘machine learning’ per extreure, ordenar i classificar la filtració de dades més gran de la història
Categories:
El cantant Julio Iglesias, l’entrenador del Manchester City, Pep Guardiola, o l’exprimer ministre del Regne Unit Tony Blair són alguns dels noms que apareixen als anomenats Papers de Pandora, la nova filtració massiva sobre evasió d’impostos i paradisos fiscals. Els documents han estat investigats per més de 600 periodistes de 150 mitjans de comunicació internacionals i inclouen informació sobre més de 300 funcionaris públics i celebritats de 200 països diferents. Es tracta de la col·laboració periodística més gran de la història, que no hauria estat possible sense l’ús de les noves tecnologies, atès que el volum de dades analitzades arriba fins als 2,94 terabytes d’informació.
Entre els documents filtrats hi havia 467.000 arxius en forma de fulls de càlcul, però aquests només representaven el 4% del total de les dades. La resta d’informació no estava estructurada, sinó que es repartia en arxius de text, fotografies, correus, àudios, vídeos i altres formats. A més a més, a diferència d’altres filtracions importants com els Papers de Panamà o els Papers del Paradís, que van ser proveïts per una o dues fonts, els Papers de Pandora han estat subministrats per un total de 14 actors diferents, amb les diferències de format, idioma i presentació de les dades que això suposa.
Una investigació fonamentada en ‘machine learning’
El gran pes que tenien els arxius de text en el conjunt de les dades, generalment com a documents o fitxers PDF, era un obstacle per a la correcta anàlisi de la informació, però l’ús de la tecnologia ha facilitat la feina als periodistes encarregats. Segons explica el Consorci Internacional de Periodistes d’Investigació (ICIJ), els professionals han utilitzar llenguatges de programació basats en Python per automatitzar l’extracció i l’estructuració de les dades d’aquesta classe de documents.
Amb tot, existien una sèrie de casos més complexos, per als quals els sistemes dissenyats no eren suficientment útils. És en aquest punt on els membres de l’ICIJ han recorregut al machine learning a través de la utilització dels softwares Scikit-learn i Fonduer, ambdues extensions basades també en Python. L’ús d’aquestes eines ha permès extreure formularis específics dels fitxers de major extensió i separar-los correctament. Això no obstant, la tecnologia no ha arribat a tota la informació, ja que alguns dels documents estaven escrits a mà i ha calgut aplicar una extracció manual.
Amb totes les dades agrupades i ordenades en un gran full de càlcul, l’ICIJ ha estructurat la informació en funció dels beneficiaris individuals identificats, enllaçant-los amb les empreses i associacions amb les quals tenien relació. A continuació, els investigadors han utilitzat plataformes gràfiques com Neo4J i Linkurious per visualitzar les dades i veure més clarament quines connexions s’establien.
Dades segures i enllaçades
Per compartir tota aquesta informació de manera segura amb els mitjans de comunicació associats el consorci ha utilitzat Datashare, una eina desenvolupada per l’equip tècnic de l’organització que incorpora una eina per cercar més fàcilment les personalitats afectades i els casos que els relacionen. Les filtracions no només incorporaven documents financers, sinó també articles i enllaços que aportaven context als fets, com pàgines de la Viquipèdia o notícies de mitjans de comunicació. Per tal de no perdre tota aquesta informació, l’ICIJ ha emprat novament el machine learning per etiquetar tots aquests fitxers a la base de dades.