Dígits i andròmines

Així funcionarà la xarxa que vigilarà que Google no menystingui el català

Es comença a desplegar una bateria de sensors que faran cerques web des de diversos llocs del territori i analitzaran la visibilitat de la llengua

La Xarxa de Monitoratge del Català Digital preveu desplegar centenars de sensors com aquest
25/10/2023
4 min

Després d’uns mesos en què Google –i altres serveis menys populars– van estar penalitzant sistemàticament i sense cap explicació les pàgines en català en els seus resultats de cerca web, deu entitats que treballen per la defensa de la nostra llengua es van aliar al març per unir coneixements, recursos tècnics i capacitat de mobilització per ajudar a revertir aquesta pèrdua de visibilitat. Amb la coordinació de la Fundació .cat i les aportacions de les altres entitats es va analitzar el trànsit enviat pels cercadors a més de 600 webs dels àmbits institucional, empresarial, comercial i mediàtic, i es va documentar una pèrdua de visites del 66% en un informe detallat que es va fer arribar a Google i a Microsoft al juny. A partir d’aleshores i durant tot l’estiu, els redactors de l’informe vam mantenir un diàleg tècnic amb els departaments d’enginyeria de les dues empreses digitals esmentades fins que el 8 de setembre Google va anunciar que havia modificat el seu algorisme per tal de millorar el reconeixement de les preferències lingüístiques de cada usuari.

Inscriu-te a la newsletter Sèries Totes les estrenes i altres perles
Inscriu-t’hi

De fet, ja feia uns dies que alguns usuaris havien notat la millora i ho havien fet saber a les xarxes socials. En el cas de l’Aliança –que tinc el privilegi de coordinar– també n’érem conscients, i no només perquè Google ens ho havia avançat, sinó perquè ho havíem verificat pels nostres mitjans. El mes de juny vàrem activar un mecanisme artesanal de monitoratge creat per Pere Orga, membre de Softcatalà –i programador del popular joc Paraulògic– que fa periòdicament des d’un sistema configurat en català 24 cerques arbitràries i enregistra la quantitat de resultats en català que hi ha entre els resultats. Mentre es va mantenir la incidència, només el 26% dels 10 primers enllaços portaven a pàgines en català, però a partir de la intervenció de Google han passat a ser el 46%. La millora és encara més acusada entre els tres primers resultats: si abans només el 24% eren en català, actualment són més del 60%, i superen les pàgines en espanyol.

Tot i això, en el gràfic adjunt podeu veure que la millora no només s’ha estancat, sinó que en l’última setmana mostra una tendència a la baixa, amb el català just per sobre del 51%. En el seu moment vàrem valorar molt positivament la intervenció de Google i ens enorgulleix haver-hi col·laborat, però considerem que encara hi ha marge de millora i aquest canvi, tot i que pendents de veure si es consolida, demostra que cal estar atents a l’evolució per tal de detectar noves incidències i reaccionar de manera ràpida abans que s’agreugin. Per això, aquesta setmana s’ha iniciat el desplegament de la Xarxa de Monitoratge del Català Digital (XMCD), que ampliarà i automatitzarà el mecanisme de monitoratge que s’ha fet servir fins ara.

Evolució del català en els primers resultats de cerca de Google

Idioma dels 3 primers resultats de les cerques històriques en 24 cerques diferents diàries
Idioma dels 10 primers resultats de les cerques històriques en 24 cerques diferents diàries

Com funcionarà?

La XMCD instal·larà en diversos punts del territori catalanoparlant sensors de baix cost que executaran de manera autònoma cerques web sistemàtiques i en traslladaran els resultats al servidor de la Fundació.cat, on seran explotats i analitzats per conèixer l’evolució del posicionament del català a internet en funció de diversos criteris. Inicialment, aquests sensors recolliran resultats de cerques a Google i Bing, però més endavant es podran considerar també altres cercadors rellevants.

Aquests sensors són miniordinadors Raspberry Pi gestionats a distància des de la Fundació .cat, que simulen el comportament d’usuaris particulars i empresarials. Per aconseguir-ho treballen sobre connexions domèstiques i d’oficina, executant cerques sobre una bateria de centenars de descriptors, en horaris coherents amb un ús humà en cada data i ubicació. Els descriptors –que inclouen com a referència els 24 del sistema original– es mantenen en secret, per tal d’evitar que els cercadors acabin aprenent-los i manipulant els resultats.

Les nombroses cerques analitzades permetran conèixer en profunditat l’evolució del posicionament del català als cercadors web i també detectar problemàtiques específiques (per exemple, en noms propis, o de poblacions, termes genèrics...). Els resultats obtinguts per la XMCD es faran públics en forma d’informes trimestrals, i també es comunicaran a les empreses dels cercadors web.

Una de les claus de la XMCD és la deslocalització; després de descartar l’ús de xarxes privades virtuals (VPN) per simular activitat des d’altres països, es va optar pels sensors físics. El primer es va instal·lar fa una setmana a la seu d’Acció Cultural del País Valencià a València i es preveu completar una primera onada d’unes 15 unitats actives al Principat, a les Illes, a Andorra i a la Catalunya Nord, entre d’altres. Inicialment, els acolliran les entitats membres de l’Aliança, i quan es comencin a analitzar els resultats es preveu ampliar el desplegament amb centenars de sensors nous per tot el territori, començant per algunes de les empreses, entitats i organismes que van participar en la confecció de l’informe sobre posicionament web i han manifestat la voluntat de continuar col·laborant, segons les necessitats de dispersió de la XMCD. Igualment, es preveu instal·lar alguns sensors fora de l’estat, per tal d’incloure l’experiència dels usuaris catalanoparlants a l’estranger. Els interessats a acollir-ne un poden inscriure’s a https://xmcd.fundacio.cat

El programari dels sensors i la seva plataforma d’explotació han sigut desenvolupats amb recursos propis per la Fundació .cat, que els posarà a disposició en règim de codi obert, per tal que puguin ser aplicades per altres llengües i cultures. En aquest sentit, la setmana passada es va presentar el sensor al Parlament d’Estrasburg, a petició de l’Intergrup de Minories, interessat per les possibilitats d’adaptar la XMCD als casos d’altres llengües minoritzades que els cercadors puguin invisibilitzar.

Aquest monitoratge dels resultats de cerca web des del punt de vista de l’usuari és complementari de l’anàlisi de les visites rebudes per les webs en català que es va fer per elaborar l’informe al mes de juny. Per això també es treballa en paral·lel per actualitzar-lo: s’està tornant a analitzar com ha evolucionat des d’aleshores el trànsit de les 600 webs originals —i algunes més de gran rellevància que no van arribar a temps— per comprovar si la millora aparent s’ha traduït en una recuperació de visites a les seves pàgines en català. Està previst disposar de conclusions abans del mes de desembre.  

stats