L’estàndard que vol acabar amb el desordre de les metadades

La iniciativa OpenMetadata reuneix el coneixement col·laboratiu per establir un sistema i un llenguatge únic que ajudi les companyies a acabar amb les discrepàncies en la recollida, catalogació i anàlisi de les dades

Categories:

Aida Corón

OpenMetadata vol crear un estàndard per garantir la qualitat i l'odre de les dades i les metadades
OpenMetadata vol crear un estàndard per garantir la qualitat i l'odre de les dades i les metadades | Unsplash / Markus Spiske

Les dades són el nou or. És una afirmació tan utilitzada, que ja no genera cap mena de sorpresa. Segons assenyala IBM Watson, nou de cada 10 empreses reconeixen el big data i la intel·ligència artificial com tecnologies importants per al mercat. La demanda d’enginyers i científics de dades creix any rere any, però els darrers estudis assenyalen que potser estem perdent talent, ja que els professionals perden un 40% del temps arreglant i validant la informació abans d’utilitzar-la. Això, d’entrada, ja mostra una escletxa, però s’agreuja quan s’avança cap al concepte de metadades. Si les dades són el contingut que després els experts exploten per elaborar gràfiques i models, les metadades parlen del nombre de columnes, el temps que fa que no s’actualitza on document o qualsevol altre element que defineixi la pròpia dada. Si la informació que més clarament veiem està mal recaptada i endreçada, aquesta segona que demana un procés més minuciós viu en ple desastre. Per això projectes com OpenMetadata treballen de manera col·laborativa per crear un estàndard que en faciliti la recaptació, catalogació, accés i consulta.

Pràcticament totes les empreses recullen dades. Algunes ho fan de forma estructurada, amb assessorament o un equip intern qualificat, mentre que d’altres treballen sobre la marxa. “El gran problema és que tot està desendreçat i repartit”, assenyala el matemàtic i expert en dades Pere Miquel Brull, “algunes controlen molt el testing a les taules, però després no controlen altres dades que venen del back end o de dashboards, o per quants equips passen i quines transformacions tenen”. “Hem d’aprendre a classificar la informació de manera comuna i utilitzant el mateix llenguatge”, conclou. I aquest és l’objectiu d’OpenMetadata, impulsat pels enginyers Suresh Srinivas i Sriharsha Chintalapani, que compta amb una comunitat al darrere que ajuda a construir aquest estàndard.

Les empreses no tenen en compte la quantitat d’informació que hi ha rere les metadades ni si és contingut fàcilment accesible per totes les àrees

Brull és un dels membres del projecte. Va començar a col·laborar-hi en el seu temps lliure i ara és una de les 18 persones d’arreu del món, i únic català, que s’hi dedica professionalment a través de Collate, l’empresa creada per recaptar finançament perquè la iniciativa tiri endavant. Driver i courier són dos termes que s’empren com a sinònims, i a dins d’una organització, això pot generar discrepàncies en l’ús de les dades. Aquest és només un exemple de situacions reals, per això algunes organitzacions han creat les seves estructures i llenguatge bàsic per evitar-ho. La novetat d’OpenMetadata és que vol que les directrius que dissenyin serveixi per a qualsevol companyia. “Un dels pilars és que és opensource”, explica Brull, “sovint diem que dins d’una empresa hi ha d’haver col·laboració entre àrees perquè s’entenguin i no hi hagi discrepàncies amb les dades, per això seria hipòcrita que parléssim d’un estàndard sense col·laboració”.

El fet d’operar sota la dinàmica de codi obert també elimina, segons el matemàtic, “la visió esbiaixada que una persona pugui tenir per la seva feina, coneixements tecnològics o l’arquitectura de dades actuals”. A més a més, garanteix que es parteixi d’una “arquitectura simple i de base” que, assegura, “demana pocs requeriments de manteniment i evita els processos complexos ja creats”. El resultat final ha de permetre a una organització una adaptació fàcil i sense plataformes externes. “Amb uns servidors i unes bases de dades tindràs la solució per catalogar i endreçar les metadades”, reafirma. Per tal de garantir aquests requisits, tota la informació del projecte es troba a GitHub.

L’estàndard només necessita uns servidors i bases de dades, i ha de servir per a qualsevol organització

Un segon problema al voltant de les dades i les metadades és el volum que s’indexa. Davant l’allau d’informació, es poden trobar dues estratègies: la primera, recaptar només quelcom que es consideri necessari per a l’objectiu marcat; la segona, recol·lectar tot el possible. Aquesta segona opció és, per a Brull, la més eficient: “Una persona pot no estar recollint dades de qualitat o s’estan prenent conclusions errònies perquè no s’han estructurat adequadament. El millor és invertir hores a recollir el màxim que es pugui i treballar-ho bé perquè no saps en què pot servir. És una inversió de futur”. Això, d’una banda, facilitaria la feina als analistes de dades que demanen la informació de primera mà abans de ser tractades; i de l’altre, evitaria la duplicació de taules i bases de dades entre dos equips que parlen un llenguatge diferent o empren una altra metodologia.

Alfabetització en dades

L’accés a la informació a la xarxa, els volums ingents de dades i el tractament de tot aquest contingut ha provocat que les competències digitals incloguin el que ja es coneix com alfabetització en dades (data literacy). La Wikipedia la descriu com l’habilitat per “llegir, entendre, crear i comunicar dades”, és a dir, fa referència als coneixements d’una persona d’utilitzar aquest contingut, des de la recaptació fins a l’anàlisi i creació d’altes materials amb ell.

Ja existeixen postgraus, màsters i cursos en centres privats que formen professionals qualificats en la matèria, i cada cop amb un grau més elevat d’especialització, però es parla ja d’un coneixement massiu per tal d’usar correctament les eines digitals i internet. “Les dades estan guanyant pes a un ritme accelerat i cal tenir un mínim coneixement sobre com recaptar la informació i estructurar-la”, comenta Brull, qui recorda que tot això és, al final, el resultat d’una activitat a la xarxa que ja s’ha normalitzat: “Tot el que tens gratuïtament, ho pagues amb dades. És bàsic tenir-ne un mínim coneixement”.

Etiquetes