Croissant, l’estàndard de descripció de dades per entrenar la IA amb participació catalana

La UOC col·labora amb universitats i empreses tecnològiques d’arreu del món per crear un model de metadades que regeixi com descriure i organitzar els conjunts de dades per a l’aprenentatge automàtic

Categories:

Redacció

Els principals repositoris de dades per a IA del món, HuggingFace, Kaggle i OpenML, ja incorporen el nou estàndard
Els principals repositoris de dades per a IA del món, HuggingFace, Kaggle i OpenML, ja incorporen el nou estàndard | Markus Spiske (Unsplash)

Un dels grans maldecaps per als desenvolupadors de solucions basades en l’aprenentatge automàtic és identificar i trobar les dades necessàries per al seu objectiu. Amb la intenció de facilitar la feina als professionals i accelerar l’evolució de la intel·ligència artificial, el consorci estatunidenc MLCommons ha llançat Croissant, un nou format de metadades per indexar conjunts de dades que aspira a convertir-se en l’estàndard mundial en aquesta disciplina. En la seva creació han participat els equips de recerca de les principals multinacionals tecnològiques, com Google, Meta i Amazon, i també universitats com Harvard, el King’s College de Londres i la Universitat Oberta de Catalunya (UOC), que hi ha format part a través de l’investigador del grup de recerca SOM Research Lab de l'Internet Interdisciplinary Institute (IN3), Joan Giner.

Croissant és una expansió de l’estàndard de Schema.org, el qual ja es fa servir en més de 40 milions de conjunts de dades d’internet. El nou format de metadades no canvia la manera com es representen les dades -és a dir, els tipus de fitxers-, però sí que estandarditza la manera de descriure-les i organitzar-les. El model incorpora capes d’informació sobre l’estructura, el tipus d’atributs o com descarregar les dades, la qual cosa facilita la manera de buscar i integrar la informació, sense haver de buscar una per una les dades que calen. “Podem comparar aquesta proposta amb la que va permetre poder buscar qualsevol cosa a internet mitjançant el buscador de Google fa 20 anys, però adaptada al camp de la intel·ligència artificial”, assegura Giner.

La UOC ha participat específicament en l’àmbit d’IA responsable, que és la que s’encarrega de determinar si les dades tenen algun problema de privacitat o si són representatives de la pluralitat de la societat. “Per a mi, el fet que el primer estàndard del món de dades vingui amb una extensió de dades responsable és tot un èxit de la comunitat d'IA ètica, perquè generalment les empreses no paren gaire atenció a aquest fet”, reflexiona l’expert.

Croissant es llança en una posició d’avantatge, ja que els tres principals repositoris de dades per a IA del món, HuggingFace, Kaggle i OpenML, han format part del projecte i ja han aplicat el model als seus conjunts de dades. “Podem considerar que som, de facto, davant de l’estàndard de descripció de dades per a IA”, comenta l’investigador de la UOC. Mentre espera que els professionals vagin adoptant el seu sistema, l’equip que ha treballat en la seva creació se centrarà a identificar les dades més rellevants i els aspectes clau de representativitat social de dominis més concrets, com ara la sanitat i les dades públiques.