La Wikipedia es reinventa

Intel·ligència artificial per revisar les modificacions és una de les línies de futur de la Fundació Wikimedia

Albert Cuesta

i Albert Cuesta

4 min

BarcelonaEl penúltim mantra unionista, que sosté que Quim Torra no és el 131è president de la Generalitat sinó només el desè, ha tingut aquests dies la seva plasmació al món digital quan internautes anònims han esborrat de la llista d’ocupants del càrrec que apareix a l’edició espanyola de la Wikipedia tots els noms anteriors al de Francesc Macià. L’historial de modificacions de la pàgina mostra que el tema és objecte de controvèrsia, i quan algú intenta restituir-hi les referències fins a Berenguer de Cruïlles (1359-1362) tornen a ser eliminades. Si bé les versions en català i anglès de la mateixa pàgina s’han mantingut per ara al marge d’aquestes anades i vingudes, el cas és un bon exemple de les “guerres d’edició” que es lliuren cada dia per determinar el contingut de l’enciclopèdia lliure, que només l’any passat va registrar 407 milions de modificacions. El català Quim Gil, responsable de col·laboració tècnica de la Fundació Wikimedia, reconeix que aquesta mena d’incidents són el pa de cada dia: “Passa sovint amb articles com el de la frontera entre l’Índia i el Pakistan”. Tot i així, Gil assegura que la comunitat sempre acaba posant les coses al seu lloc en els temes de més actualitat, perquè són els que tenen més gent pendent.

En canvi, els responsables de les diverses edicions -que funcionen de manera independent- tenen molta més feina detectant el contingut inadequat menys visible, com insults o referències comercials que algun trol amb poca feina inclou, posem per cas, en un article poc visitat sobre un obscur escriptor del segle XVI. Per això fa uns mesos que la plataforma tecnològica de Wikimedia disposa de l’ORES (Objective Revision Evaluation System), una aplicació d’aprenentatge automàtic que -previ entrenament manual- ajuda els editors a “patrullar” el contingut, assignant a cada modificació feta pels usuaris una puntuació de qualitat que depèn de si s’ha esborrat de cop la meitat de l’article, s’han eliminat referències o s’hi han afegit només paraules malsonants. L’ús d’ORES, que es de codi obert i es va activar al gener a l’edició en català, redueix fins al 90% la càrrega de treball dels editors, explica a l’ARA l’iranià Amir Sarabadani, un dels seus creadors.

Cargando

No hay anuncios

Aquesta aplicació de la intel·ligència artificial a la millora del contingut de la Wikipedia és un dels temes que s’han tractat aquest cap de setmana a la Wikimedia Hackathon, una trobada internacional que ha reunit a la Facultat d’Enginyeria de la Universitat Autònoma de Barcelona 250 especialistes tècnics de 48 països vinculats al desenvolupament i al manteniment dels 280 projectes de la fundació Wikimedia, sigui perquè formen part de la seva modesta plantilla de 270 empleats o perquè col·laboren voluntàriament en algun dels projectes. El protagonista és el software lliure MediaWiki d’edició col·laborativa, que no impulsa només les múltiples edicions de l’enciclopèdia, sinó també publicacions digitals d’empreses i organismes tan diversos com Amazon i la NASA: tenen comptades més de 57.000 instal·lacions a tot el món.

Tot i ser la cinquena web més visitada d’internet, amb 16.000 milions de pàgines vistes cada mes (la meitat corresponen a l’edició en anglès), la Wikipedia i els seus projectes complementaris -la biblioteca multimèdia Commons, el diccionari Wiktionary, la guia de viatges Wikivoyage, el repositori de cites Wikiquote i la base de dades d’espècies vives i fòssils Wikispecies, entre d’altres- reposen sobre una estructura tecnològica força senzilla: 1.200 servidors comercials, repartits entre dos centres de dades principals als Estats Units (Ashburn i Dallas) i tres de distribució (Amsterdam, Singapur i San Francisco), atenen una mitjana de 150.000 peticions per segon. La seva capacitat total d’emmagatzematge és de l’ordre dels petabytes. Faidon Liambotis, director d’enginyeria, aclareix que la majoria corresponen al contingut multimèdia de Commons, majoritàriament imatges i sons; el text de les enciclopèdies no representa més del 10% de les dades.

Cargando

No hay anuncios

A diferència d’altres serveis d’internet que operen des de núvols públics com el d’Amazon, el de Google o el de Microsoft, Wikipedia insisteix a limitar-se a servidors propis. Liambotis explica que ho fan per motius de cost, d’agilitat i sobretot per mantenir el control sobre el contingut i la privadesa dels usuaris. En aquest sentit, no rastregen els usuaris ni capturen dades sobre ells. Les estadístiques de trànsit només recullen xifres de dispositius visitants: el mes passat, tres milions a l’edició en català (amb igualtat entre ordinadors i mòbils) i 792 milions a l’edició en anglès (amb gairebé el doble de mòbils que d’ordinadors).

A més de l’ús d’intel·ligència artificial per optimitzar el contingut, l’altre tema destacat de la Wikimedia Hackathon ha sigut la gestió de les dades que genera la plataforma. D’una banda, es pretén millorar-ne l’explotació sota la direcció de la madrilenya Nuria Ruiz, responsable d’analítica -abans a Amazon i a Tuenti-: tenen pàgines que mostren les modificacions de contingut en temps real sobre una bola del món, i mapes que alerten del possible biaix geogràfic en la informació. I, de l’altra, Wikimedia també està evolucionant d’una plataforma basada en el text cap a una altra de centrada en les dades: Wikidata.org és una mena de Wikipedia per a informació estructurada que pot ser consultada directament o referenciada externament. Per exemple, una consulta sobre Pablo Picasso a la Wikipedia ofereix l’article textual, mentre que a Wikidata apareixen només les dades disponibles sobre el pintor. Un dels projectes en curs aspira a etiquetar automàticament els milions d’imatges que hi ha a Wikimedia Commons més enllà de les descripcions que han introduït manualment els usuaris, amb l’objectiu de facilitar-ne la cerca.

Cargando

No hay anuncios

Amb aquesta transformació del model de contingut de text al de dades, la Fundació Wikimedia -que obté ingressos exclusivament de donacions- aborda el seu pla estratègic de cara a l’any 2030, quan vol ser la infraestructura essencial de l’ecosistema del coneixement lliure, accessible externament en forma de servei i incorporant contingut que fins ara no hi és, com la tradició oral de comunitats remotes. Uns objectius tan ambiciosos com admirables.