Arxiversa: l’eina col·laborativa que neix quan historiadors i tecnòlegs treballen plegats
El portal permet consultar més de 120.000 documents dels llibres de l’Ofici d’Hipoteques de Girona transcrits amb un sistema de models fundacionals d’aprenentatge automàtic
Categories:
D’entre les múltiples fonts primàries a què recorren els historiadors per descobrir i analitzar el passat, els documents manuscrits en són un dels més preuats, especialment quan parlem d’arxius amb una continuïtat en els anys. Tanmateix, per poder extreure el suc d’aquest material, primer cal transcriure’l, tasca que suposa grans inversions de temps. Però què passaria si aquest procés es pogués automatitzar a través de la tecnologia? La resposta la podem veure a Arxiversa, un portal web on es pot consultar en obert més 120.000 documents transcrits automàticament gràcies a la feina plegada d’historiadors i tecnòlegs, que ara busca fer un pas més ampliant la col·laboració a tota la ciutadania interessada.
El fons documental que recull Arxiversa prové dels llibres de l’Ofici d’Hipoteques de Girona, en els quals es recullen totes les escriptures notarials que continguessin algun tipus de gravamen o hipoteca de la regió des de 1768 fins a 1805. “Des de la perspectiva de la investigació històrica és una mina molt potent, perquè et permet tenir bona part de la documentació generada en un territori per un període molt gran de temps i seguir la pista a grups socials que altrament deixen poca informació i costen de seguir”, explica el membre del Centre de Recerca d’Història Rural (CRHR) de la Universitat de Girona (UdG), el doctor Enric Saguer. “De les grans cases nobiliàries o de l’Església ja s’han fet molts estudis històrics, però dels grups socials que tenien menys accés a l’escriptura i una posició social més subordinada, moltes vegades no en sabem res més que el nom. Això ens dona l’oportunitat de seguir les traces de molta d’aquesta gent”, continua.
El valor acadèmic d’aquests documents va motivar que l’equip del CRHR comencés a transcriure manualment aquests llibres, però ben aviat es van abandonar de la “tasca ingent” que suposava: “Vam comptar que per buidar-ho tot ens caldria tenir tres estudiants, 15 hores a la setmana, durant 25 anys”. És en aquest punt quan, després d’un contacte fortuït, van començar a col·laborar amb el centre de recerca Pattern Recognition and Human Language Technology (PRHLT) de la Universitat Politècnica de València (UPV), una de les institucions de referència internacional sobre aquest àmbit. La proposta es va convertir ràpidament en una situació de guanyar-guanyar: El CRHR aconseguia un impuls en la transcripció dels llibres de l’Ofici d’Hipoteques, mentre que l’equip valencià guanyava accés a un gran fons documental amb què poder afinar les seves eines de transcripció. “A nosaltres ens ha estat molt útil, perquè ha estat un projecte a gran escala, de centenars de milers d’imatges transcrites, i hem anat aprenent de les variacions per millorar les eines de transcripció”, rememora el professor emèrit de la UPV i aleshores codirector del PRHLT, el doctor Enrique Vidal, qui ha cofundat l’empresa derivada Transkriptorium per portar aquesta pràctica al mercat.
Models fundacionals especialitzats
El projecte, finançat a través de diferents programes públics i privats, ha consistit a dissenyar un conjunt de models fundacionals d’intel·ligència artificial entrenats específicament amb la informació dels llibres de l’Ofici d’Hipoteques, cosa que ha millorat substancialment el marge d’error que acostumen a tenir aquestes eines. “Els bons resultats són gràcies al fet que hem seguit una disciplina molt ortodoxa d’aprenentatge automàtic basada en generació de dades, correcció dels errors i reutilització de les dades usades per entrenar el sistema, i així successivament, i com que la sèrie és molt gran, hem pogut aconseguir resultats molt precisos”, destaca Vidal. Gràcies a aquesta pràctica, el sistema ha pogut aprendre les característiques concretes d’aquest fons documental, com ara la lletra tipogràfica que es fa servir, la manera com escriuen els autors o la forma com es presenten els documents.
El tipus ortogràfic, l'evolució de la lletra amb el pas dels anys i el gran ús d'abreviatures són els principals esculls a l'hora de transcriure correctament un text històric
Tanmateix, la dificultat d’aquests procediments no només radica en la varietat de les grafies manuscrites i en els canvis que puguin anar experimentant amb el pas dels anys, sinó també amb un fet molt particular d’aquests documents: el gran nombre d’abreviatures que fan servir. “Moltes paraules posen una lletra i amb això has de ser capaç de saber què és. Si vols llegir-lo, necessites l’abreviatura expandida”, assenyala el cofundador de Transkriptorium. “Barcelona pot aparèixer com a BAR o BARNA, i el programa et desplega totes les abreviacions”, exemplifica Saguer.
Els resultats de les transcripcions són uns documents de text pla en format .xml que aporten un avantatge qualitatiu als investigadors, com bé destaca l’investigador del CRHR: “El mateix programa ens etiqueta alguns conceptes del document que ens semblen particularment interessants. Per exemple, els noms dels antropònims, noms de lloc, oficis i categories socials, tipologies dels documents…”.
Una plataforma oberta a la col·laboració
La col·laboració entre ambdós centres de recerca (a partir de cert punt, Transkriptorium va prendre el relleu al PRHLT) ha accelerat considerablement la transcripció del fons documental, que en l’actualitat ja té digitalitzat fins a la segona meitat de la dècada de 1790 i té previst concloure a finals d’any. Això ha permès tirar endavant diversos estudis que requerien una àmplia documentació seguida en els anys, com per exemple esbrinar quins són els primers treballadors que es comencen a anomenar menestrals o com era l’accés al crèdit en el segle XVIII. “Això no ho pots fer si no tens la major part de documentació aplegada, perquè és impossible anar casant la documentació per veure qui són els primers en un territori”, assenyala Saguer.
Saguer: “La plataforma és pública i oberta, però es demana identificador i clau d’accés perquè la idea és: ‘jo et dono accés, i tu m’ajudes a millorar les transcripcions en els errors que encara queden’, sobretot en elements crítics, però poc repetitius, com els noms propis”
Tot i que l’eina ofereix resultats amb un alt percentatge d’encert, aquest encara no és del 100%: manté una taxa d’error del 5% en caràcters i d’entre el 10 i el 15% en paraules, de manera que encara requereix que els experts confirmin els resultats i corregeixin les equivocacions que es puguin donar. Una tasca que, fins fa uns mesos, havia fet pel seu compte el CRHR, però que des del mes de juny pot fer qualsevol persona interessada a través d’Arxiversa. “La plataforma és pública i oberta, però es demana identificador i clau d’accés, entre altres motius perquè la idea és: ‘jo et dono accés, i tu m’ajudes a millorar les transcripcions en els errors que encara queden’, sobretot en elements crítics, però poc repetitius, com els noms propis”, detalla el professor de la UdG. En l’actualitat, la plataforma ja aplega més de 120.000 documents dels llibres de l’Ofici d’Hipoteques, i l’objectiu és arribar als 140.000 aquest 2024.