Dígits i Andròmines

La IA que raona: més màrqueting que realitat

Els agents d'IA, que també són tendència, de moment no ofereixen els resultats que prometen els seus promotors

Intel·ligència artificial.
11/04/2025
5 min
2
Regala aquest article

BarcelonaLes dues tendències que estan marcant el 2025 pel que fa al desenvolupament de la intel·ligència artificial (IA) aplicada són el suposat "raonament profund" dels xatbots i els anomenats "agents d'IA". Totes dues prometen revolucionar la nostra interacció amb la tecnologia, però fins a quin punt aquestes promeses es corresponen amb la realitat? I fins a quin punt ens en podem refiar?

Xatbots que "raonen"... o ho fan veure?

Els grans desenvolupadors com OpenAI, Google, Anthropic i DeepSeek asseguren que els seus models més avançats ara poden "raonar". A diferència de les versions inicials, que responien immediatament, aquests nous sistemes poden passar segons o minuts treballant en un problema abans de contestar, mentre ens entretenen explicant-nos el que fan. Suposadament, aquesta tecnologia de "raonament" ja ha superat els sistemes líders en les proves –unes proves sovint qüestionades– que mesuren el progrés de la IA.

Però què vol dir realment que una IA "raoni"? Segons Dan Klein, de la Universitat de Califòrnia a Berkeley, "el raonament és quan el sistema fa un treball suplementari després de ser-li formulada la pregunta". En alguns casos, un sistema de raonament pot afinar l'enfocament d'una qüestió provant diverses maneres d'abordar-la o revisant tasques anteriors. Bàsicament, el sistema prova tot allò que pot per respondre.

Tanmateix, investigadors de la Universitat Carnegie Mellon i altres institucions han sotmès els LLM (Large Language Models) a proves en tasques del món real, com organitzar reunions, analitzar fulls de càlcul o avaluar actualitzacions de codi. Els resultats no són gaire encoratjadors: el millor model de tots en aquell moment, el Claude 3.5 d’Anthropic, només va assolir un 24% d'èxit. El més preocupant és que molts errors es van produir per falta de sentit comú o per confondre el món real amb el programari.

Un estudi recent d'Apple també qüestiona seriosament les capacitats de raonament dels actuals models. Segons Mehrdad Farajtabar, un dels autors, no han trobat "cap evidència de raonament formal en els models de llenguatge". "El seu comportament s'explica millor com un sofisticat reconeixement de patrons, tan fràgil que canviar noms pot alterar els resultats en aproximadament un 10%".

Gary Marcus, un dels principals crítics amb l’exageració sobre els avenços en IA, ha assenyalat repetidament que aquests sistemes fallen sistemàticament com més grans són els problemes. Fins i tot els models més avançats, com l'o1 d'OpenAI, pateixen una pèrdua de rendiment quan la complexitat de les tasques creix, a diferència del que passaria amb una calculadora convencional, que mantindria el 100% de precisió.

Una investigació particularment reveladora d'Anthropic publicada l'octubre de 2024, titulada La biologia d'un LLM, va examinar com funciona internament el seu propi model Claude 3.5 Haiku. L'estudi va revelar discrepàncies notables entre el que el model diu que fa i el que realment fa quan processa la informació. Per exemple, quan se li va preguntar com havia calculat 36+59, el model va respondre: "Vaig sumar les unitats (6+9=15), vaig portar l'1, després vaig sumar les desenes (3+5+1=9), amb un resultat de 95". Però l'anàlisi interna va mostrar que en realitat estava utilitzant mecanismes molt diferents, com ara característiques de "baixa precisió" per aproximar el resultat i taules de consulta per determinar el dígit exacte final.

Agents d'IA: promeses a l'espera de resultats

Si el raonament en xatbots ja genera dubtes, els "agents d'IA" –sistemes dissenyats per actuar de forma autònoma en nom dels usuaris– encara estan més envoltats de confusió i expectatives exagerades. Segons Gartner, només un 6% de les empreses afirmen haver aplicat agents d'IA, tot i que s'estima que la despesa mundial en IA generativa superarà els 600.000 milions d’euros a finals de 2025.

"Quan sento algunes converses sobre agents, em pregunto si és com allò de l'elefant. Tothom toca una part diferent de l'elefant i imagina l’animal de manera diferent", afirma Prem Natarajan, científic en cap d'IA a Capital One. "Molts del que les empreses anomenen agents d'IA avui en dia són realment només xatbots i assistents d'IA", afegeix Tom Coshow, analista de Gartner.

Què fa que un sistema sigui realment un agent? Segons Coshow, es defineix per dues preguntes simples: "La IA pren una decisió i l'agent d'IA executa una acció". Si no es compleixen aquests requisits, probablement només és un altre assistent.

Empreses com OpenAI, Google, Microsoft, Amazon i Anthropic estan apostant fortament pels agents, anunciant novetats com Nova Act d'Amazon, Operator d'OpenAI o Computer Use d'Anthropic. En entorns empresarials, té cert sentit encomanar a un agent, per exemple, que vigili el rendiment de cadascuna de les antenes de mòbil d’una operadora i apliqui les correccions pertinents en cas d’incidència, com fa el que Google ha presentat aquesta setmana. En canvi, en l’àmbit dels consumidors, els agents prometen automatitzar tasques bàsiques com encarregar menjar o fer reserves de viatges, però la seva fiabilitat és molt limitada. Les proves demostren que aquests sistemes són lents, els costa operar de forma independent durant molt de temps i cometen errors que un humà no faria.

Riscos per a la privadesa i la seguretat

L'entusiasme per aquestes tecnologies sovint amaga els importants riscos associats. Els agents d'IA necessiten accés profund a l'entorn digital dels consumidors, cosa que planteja problemes greus de privadesa: poden recollir una gran quantitat de dades personals, des d'informació biomètrica i historial de navegació fins a dades financeres i patrons de compra. En general, els usuaris desconeixen quines dades recullen aquests agents, com s'utilitzen i qui hi té accés.

També hi ha riscos de ciberseguretat: es va descobrir que l'agent experimental d'Anthropic tenia una vulnerabilitat que podia ser aprofitada per descarregar i executar programari maliciós. Els agents d'IA podrien ser manipulats per actors maliciosos, que podrien explotar les seves capacitats per dur a terme accions no autoritzades o exposar dades sensibles. Aquest risc es veu agreujat per la falta de marcs reguladors complets per supervisar la creació d'aquestes tecnologies i la seva aplicació.

Entre l'escepticisme i les realitats comercials

Les dades de Gartner sobre la inversió en IA generativa indiquen que el 80% de la despesa es destinarà a maquinari, com servidors, telèfons intel·ligents i ordinadors, a mesura que tots els fabricants integren la IA com a funció estàndard en els seus dispositius, tal com s’ha vist al recent MWC25. Això reflecteix més una estratègia per forçar la compra de nous aparells que una resposta a necessitats reals dels usuaris.

La realitat és que, malgrat totes les promeses, ni els xatbots raonen com els humans ni els agents d'IA són tan autònoms i capaços com volen fer-nos creure. Com assenyala Gary Marcus, "el refugi dels fans dels LLM sempre és descartar qualsevol error individual, però els patrons que veiem són massa amplis i sistemàtics".

Mentre els gegants digitals i les empreses incipients continuen promocionant aquestes noves capacitats –empesos sobretot per la necessitat de justificar enormes inversions davant els accionistes–, tant els consumidors com les empreses farien bé de mantenir l’escepticisme i avaluar aquestes tecnologies pels seus resultats tangibles, no pel que prometen.

stats