Arxiversa s'endinsa en la mina dels documents històrics amb la transcripció automàtica i la intel·ligència artificial
Posar a l'abast l’Ofici d’Hipoteques de Girona entre el 1768 i el 1805 permetrà investigar el paper de la dona, els artesans i els menestrals
GironaLa transcripció automàtica de documentació manuscrita avança a passos de gegant gràcies a la intel·ligència artificial i ofereix als investigadors una valuosa informació que fins ara quedava sepultada entre patracols i milers de pàgines polsegoses. D'intentar trobar una agulla en un paller els investigadors han passat ara a poder buscar als arxius persones, genealogies, patrimonis, oficis i topònims. El projecte Arxiversa (Arxiversa.udg.edu), que es començarà a difondre els pròxims dies, impulsat pel Centre de Recerca d’Història Rural de la Universitat de Girona (UdG), ha posat a disposició pública l’Ofici d’Hipoteques de Girona (1768-1805), un fons on hi ha resums de les escriptures que contenien alguna garantia o hipoteca general, a la pràctica gairebé tots els matrimonis, compravendes, inventaris de béns i testaments, entre altres documents. La consulta d’aquest riquíssim fons, el precedent del Registre de la Propietat, no té cap cost però es demana un treball col·laboratiu als usuaris que s'hi registrin per ajudar a esmenar la plana a la intel·ligència artificial a l’hora de millorar les transcripcions.
La feina de 25 anys de 6 estudiants
“La transcripció automàtica dels manuscrits equival a la feina que haurien hagut de fer 6 estudiants, 15 hores per setmana cadascun, durant 25 anys”, explica el professor de la UdG Enric Saguer, que coordina el projecte amb Rosa Congost, en un equip integrat també per Ricard Garcia Orallo (UB), Rosa Ros (UdG) i Lluís Serrano (UdG). El projecte ja ha rebut dos ajuts del ministeri de Ciència, Innovació i Universitats, un altre de la fundació del BBVA i acaba de rebre’n un de la Xarxa Vives d’Universitats.
El portal Arxiversa és, de fet, una prova de concepte del ministeri: la implementació d'un mètode amb el propòsit de verificar que es pot explotar d'una manera útil. Aquesta prova no és gaire corrent en el món de les humanitats, però amb el portal Arxiversa es demostra amb escreix la utilitat del projecte.
La tècnica de transcriure manuscrits
La part tècnica de la transcripció automàtica ha anat a càrrec del grup Pattern Recognition and Human Language Technology de la Universitat Politècnica de València (UPV). “La idea ve de lluny, però la tecnologia no estava prou madura”, explica Saguer. “Fa 7 anys que treballem amb aquest grup valencià especialitzat en la lectura de textos manuscrits, que ha participat en un projecte europeu que fa poc va treure al mercat una eina potent de transcripció (https://www.transkribus.org/) i que ha entrenat un programa específic per al nostre fons documental”. Bona part dels textos manuscrits ja eren accessibles amb imatges a través de la web de l’Arxiu Històric de Girona, però no la seva transcripció.
Els notaris de Girona, els més proactius
El concepte de bé hipotecat d’entre mitjans del XVIII i del XIX implicava que s’havia de posar com a aval una finca concreta o la totalitat dels béns (hipoteca general). “Era molt habitual, no només quan t’endeutaves sinó també al signar un contracte matrimonial, fer una compravenda o un testament, que es posés una garantia sobre tots els teus béns”, explica Saguer. Els notaris, al principi, no tenien gaire clar quins documents havien de portar a aquest registre, però després d’una consulta a la Reial Audiència, a Catalunya i encara més a Girona, els notaris van ser molt més proactius que en altres llocs i s’hi acaba portant qualsevol document que tingués una hipoteca general. Els documents de Girona es compten entre els més rics documentalment de tot l’Estat.
Posar ordre al caos
L’abast territorial de l’arxiu inclou l’Alt i el Baix Empordà, el Gironès, la Selva i part del Maresme fins al 1774, quan es reestructura i es redueix al Gironès i el Baix Empordà, tot i que continua sent rellevant històricament. L’Ofici d’Hipoteques no seguia cap mena d’ordre. Ni tan sols tenia un índex de l’any. “Els advocats i la gent que tractava amb afers jurídics al segle XIX ja el descriuen com una cosa caòtica”, adverteix el professor Saguer. La lletra és prou bona, i sobretot uniforme, cosa que ha fet possible entrenar el sistema per reconèixer l’escriptura. Arxiversa té ara mateix unes 103.300 imatges, en les quals hi ha uns 135.000 documents
El sistema actua de manera probabilística i a més de transcriure també identifica determinats conceptes: antropònims, oficis i topònims. El punt més delicat és passar dels píxels al traç llegidor distingit del fons. Quan l’estil d’escriptura canvia cal reentrenar la màquina. El més interessant del projecte és que un cop obtinguts els textos plans s’han passat a dades estructurades. Aquest procés ha anat a càrrec de Jordi Regincós (Escola Politècnica Superior de la UdG).
Col·lectius desfavorits i poc estudiats
Arxiversa és una autèntica mina per a investigacions de signe molt diferent: des d’un genealogista que investigui els orígens d’una família fins a un arquitecte interessat en la reconstrucció d’un mas, passant per les possibles tesis sobre oficis i artesans fora del món gremial de les ciutats o treballs de final de batxillerat. Els col·lectius més desfavorits i poc estudiats seran els protagonistes de bona part d’aquestes investigacions. Sabem moltes coses dels senyors feudals i dels propietaris, però menys dels petits pagesos, els petits artesans, els menestrals i les dones, que han estat molt silenciades en aquests períodes històrics.