El perill de fer cas (només) de les dades
Tinc amics que treballen en el camp de les arts i les humanitats i que han començat a fer una cosa insòlita, almenys per a ells: analitzar dades. Això es deu a la pandèmia, esclar. Cada dia miren la xifra de casos de covid-19, la lentitud o la rapidesa amb què disminueix la taxa de contagi i la quantitat de persones de la seva zona que s’han vacunat el dia abans.
Mentrestant, les xarxes socials estan plenes de declaracions i contradeclaracions relacionades amb tota mena de dades. ¿La pobresa mundial disminueix o augmenta? Quin és el nivell real d’atur als EUA? Les anàlisis, que de vegades porten a polèmiques enceses, són fruit del desig de la gent de citar (o rebatre) l’autoritat de les dades per donar suport a la seva posició o a la seva visió del món.
Ara bé, en altres àmbits en què s’utilitzen dades s’incideix sorprenentment poc en la seva fiabilitat o interpretació. Un exemple impactant que he observat recentment té a veure amb els tests Captcha, dissenyats per protegir els llocs web contra els robots informàtics, que et demanen que demostris que ets humà identificant imatges que contenen elements de la vida quotidiana com ara vaixells, bicicletes o semàfors. Si la tria que fas, encara que sigui correcta, difereix de la del sistema automàtic que utilitza la teva selecció per formar un algoritme de reconeixement d’imatges, se’t considerarà no humà.
En aquest exemple, l’error de la màquina és evident, tot i que no se li pot fer cap reclamació si vols accedir al lloc web que protegeix. Però, en altres casos, pot ser que no sigui possible identificar quines conclusions treuen els sistemes d’aprenentatge automàtic o els analistes humans quan carreguen sobre les dades més pes del que poden suportar.
A l’hora de fer recerca, els economistes s’afanyen a adoptar l’ús de les dades massives, mentre que molts responsables polítics creuen que la intel·ligència artificial permet obtenir una relació cost-efectivitat més gran i prendre mesures més adequades. Però abans de continuar confiant les decisions a l’aprenentatge automàtic basat en dades i als sistemes d’intel·ligència artificial, hem de tenir clares les limitacions de les dades.
Ja es para poca atenció a les incerteses inherents a les dades econòmiques. Tot i que els responsables polítics generalment tenen en compte que fins i tot un paràmetre tan bàsic com el creixement del PIB està sotmès a grans incerteses i revisions, sembla impossible impedir que la gent construeixi relats que es fonamenten en una base tan fràgil.
Per exemple, les comparacions entre països pel que fa a l’impacte de la pandèmia sobre el PIB nacional plantegen dificultats a causa de les diferències en l’estructura econòmica i la metodologia estadística. Això, però, no impedeix fer afirmacions sobre quines economies resisteixen millor o pitjor la crisi.
O pensem en la veritable taxa d’inflació. Les disputes aparentment tècniques sobre la millor manera d’establir un índex de preus emmascaren profunds conflictes de distribució de recursos, com els que hi ha entre prestataris i els titulars dels bons, o entre els treballadors i els empresaris.
Les dades que fem servir configuren la nostra visió d’un món complex i canviant. No obstant, les dades representen la realitat des d’una perspectiva particular. Les que s’esgrimeixen en els debats polítics poques vegades estan completament deslligades del món que descriuen, però l’objectiu que incorporen pot ser transparent o opac i, per tant, no hi ha manera d’escapar-se de la perspectiva que ofereixen.
Una de les possibles raons per a la desconfiança actual respecte a l’“expertesa” econòmica és la creixent bretxa entre els enfocaments de dalt a baix, basats en sèries de dades que coneixem bé, i un món alternatiu de dades més desagregades que ens presenten una imatge captada de baix a dalt. Les estadístiques econòmiques convencionals reflecteixen l’experiència mitjana, que deixa de ser general quan la riquesa de la gent divergeix.
En general, els defensors de les polítiques basades en proves són conscients de la incertesa inherent a les dades de què disposen. Els investigadors són molt rigorosos pel que fa al mostreig, el marge d’error i les limitacions del mètode de recopilació de dades utilitzat. Però el grau de falsa certesa tendeix a augmentar amb la proximitat a la política i la presa de decisions polítiques. L’expresident dels Estats Units Harry S. Truman no és ni de bon tros l’únic polític que ha expressat impaciència amb els economistes que diuen “D’una banda...” i després “però de l’altra...”
Però l’afany actual d’una certesa basada en les dades s’està tornant perillós en la mesura que confiem cada vegada més en els procediments de decisió tecnocràtics (inclosos els sistemes d’aprenentatge automàtic) per establir polítiques en àmbits com la justícia penal, la policia i l’assistència social. Les democràcies sovint es basen en una ambigüitat constructiva per conciliar interessos enfrontats, com ara els relacionats amb la distribució dels rendiments d’un actiu, o per determinar si val més que les autoritats encarregades de mantenir l’ordre es decantin pel risc d’empresonar persones innocents o pel de deixar lliures els delinqüents. Advocar per l’autoritat de les dades minimitza o elimina el camp d’acció d’aquesta ambigüitat, amb conseqüències que poden ser transcendentals.
Soc partidària d’un augment de la quantitat i la qualitat de les dades, que han estat essencials per als esforços dels governs a l’hora de gestionar la pandèmia. Però com més utilitzem les dades per prendre decisions, més conscients haurem de ser del fet que les dades dibuixen la visió d’un expert o d’una màquina basant-se en categories ideades per algú que és un actor que ocupa una posició determinada dins la societat. Altrament, acabarem amb processos de decisió com aquests tests Captcha perversos, que insisteixen que un vaixell és una bicicleta i no et deixen altra opció que acceptar-ho.
Copyright Project Syndicate