Un moment Sputnik per a la IA?

Un mòbil amb la aplicació de DeepSeek instal·lada.
07/02/2025
Daron Acemoglu és premi Nobel d'economia
5 min
Regala aquest article

Després del llançament, el 20 de gener, de DeepSeek R1, seguit per l'enorme caiguda de les accions de la fabricant de xips Nvidia i marcats descensos en les valoracions d'altres empreses tecnològiques, alguns van parlar d'un "moment Sputnik" en la cursa sinoamericana per la supremacia en intel·ligència artificial. Tot i que és cert que a la indústria nord-americana de la IA li calia una sacsejada, el que ha passat planteja algunes preguntes complexes.

Inscriu-te a la newsletter Pensem Les opinions que et fan pensar, t’agradin o no
Inscriu-t’hi

La indústria tecnològica nord-americana ha fet enormes inversions en IA, i Goldman Sachs preveu que "en els pròxims anys megatecnològiques, corporacions i empreses de serveis públics gastaran al voltant d'un bilió de dòlars en capital de suport a la IA". Però molts observadors –entre els quals m'incloc– fa temps que qüestionen el rumb de les inversions i del desenvolupament de la IA als Estats Units.

Sembla que el sector té tots els ous posats a la mateixa cistella, ja que totes les empreses líders segueixen bàsicament el mateix manual (tot i que Meta s'ha diferenciat una mica, amb un model que en part és de codi obert). Sense excepcions, totes les tecnològiques dels Estats Units estan obsessionades amb l'escala. Addueixen "lleis d'escala" que encara no estan provades, i donen per fet que la clau per continuar estenent les capacitats de la IA és subministrar cada cop més dades i potència de càlcul als seus models. Alguns arriben a afirmar que "l'únic que cal és escala".

Fins al 20 de gener, les empreses nord-americanes no estaven disposades tenir en compte alternatives als models fundacionals preentrenats amb conjunts massius de dades per predir la paraula següent d'una seqüència. Les seves prioritats les van portar a centrar-se gairebé exclusivament en els models de difusió i en xatbots pensats per fer tasques pròpies dels éssers humans (o similars). I tot i que en línies generals DeepSeek segueix el mateix plantejament, sembla que ha donat més importància a l'aprenentatge per reforç, a la metodologia de mescla d'experts (on es fan servir molts models més petits i més eficients), a la destil·lació de coneixement i al raonament en cadena refinat. Sembla que aquesta estratègia ha permès a l'empresa xinesa produir un model competitiu, per una fracció del cost dels altres.

Tot i que no és segur que DeepSeek no ens hagi amagat res, el que ha passat posa de manifest un problema de pensament grupal dins de la indústria nord-americana de la IA. La seva ceguesa en relació amb mètodes alternatius més barats i prometedors, en combinació amb el bombo publicitari, és exactament el que havíem predit amb Simon Johnson a Power and progress, llibre que vam escriure just abans que comencés l'era de la IA generativa. La pregunta ara és si el sector no arrossega potser altres angles morts, encara més perillosos. Per exemple, ¿les grans tecnològiques nord-americanes estan perdent l'oportunitat de conduir els seus models en una direcció més "prohumana"? Sospito que sí, però només el temps ho dirà.

Després hi ha la pregunta de si la Xina està prenent la davantera als Estats Units. Si és així, ¿això implica que les estructures autoritàries "de dalt a baix" (allò que James A. Robinson i jo hem anomenat institucions extractives) poden igualar o fins i tot superar, com a motors d'innovació, els esquemes "de baix a dalt"?

El meu biaix em porta a pensar que el control verticalista, "de dalt a baix", obstaculitza la innovació, com argumentem amb Robinson a Why nations fail: the origins of power, prosperity and poverty. I tot i que l'èxit de DeepSeek pot semblar un contraargument, dista molt de ser una prova concloent que la innovació amb institucions extractives pot ser tan poderosa o duradora com la innovació amb institucions inclusives. No oblidem que DeepSeek es basa en anys d'avenços que van tenir lloc als Estats Units (i en alguns casos a Europa). Tots els seus mètodes bàsics van néixer als Estats Units. Els models de barreja d'experts i l'aprenentatge per reforç es van desenvolupar en institucions acadèmiques, ja fa diverses dècades, i van ser megatecnològiques nord-americanes les que van introduir els transformadors, el raonament en cadena i la destil·lació de coneixement.

El que ha fet DeepSeek és una exhibició de capacitat enginyera: combinar els mateixos mètodes amb més eficàcia que les empreses dels Estats Units. Està per veure si les empreses i institucions de recerca xineses poden fer el següent pas i presentar tècniques, productes i metodologies revolucionaris i propis.

A més, DeepSeek no s'assembla a la majoria de les empreses xineses d'IA, que en general produeixen tecnologies per al govern o amb finançament estatal. ¿Mantindrà la creativitat i el dinamisme ara que és a la vista de tots? Passi el que passi, els èxits d'una sola empresa no es poden considerar una prova concloent que en el camp de la innovació la Xina pot vèncer societats més obertes.

Una altra pregunta té a veure amb la geopolítica. ¿El cas DeepSeek és la prova que els controls nord-americans a les exportacions i altres mesures pensades per frenar la investigació xinesa en IA han fracassat? La resposta tampoc no és clara. Tot i que DeepSeek ha entrenat els seus últims models (V3 i R1) amb xips més antics i menys potents, és possible que necessiti els millors xips disponibles per augmentar l'escala i aconseguir nous avenços.

El que és clar és que l'estratègia dels Estats Units de suma zero era inviable i desencertada. Aquesta estratègia només té sentit suposant que ens acostem a la intel·ligència artificial general (models amb capacitat per igualar els éssers humans en qualsevol tasca cognitiva), i que qui aconsegueixi primer la IAG tindrà un enorme avantatge geopolític. Però a l'aferrar-nos a aquests supòsits (incerts en tots dos casos), hem impedit una col·laboració fructífera amb la Xina en moltes àrees. Per exemple, si un dels dos països crea models que augmenten la productivitat humana o ens ajuden a regular millor l'energia, aquesta innovació beneficiarà els dos països, sobretot si se'n generalitza l'ús.

Com les seves homòlogues nord-americanes, de fet, DeepSeek aspira a desenvolupar la IAG, i crear un model que es pugui entrenar a un cost significativament menor podria ser en aquest sentit un avenç revolucionari. Però reduir els costos de desenvolupament amb mètodes coneguts no implica que per art de màgia aconseguim la IAG en els pròxims anys. Que la IAG sigui factible a curt termini és una qüestió encara no resolta (i que sigui desitjable encara és més discutible).

Encara no coneixem tots els detalls sobre com DeepSeek ha desenvolupat els seus models o què significa el seu èxit aparent per al futur del sector de la IA, però una cosa sembla clara: un espavilat xinès ha desinflat l'obsessió del sector tecnològic amb l'escala, i fins i tot és possible que al fer-ho l'hagi despertat de l'autocomplaença.

Copyright Project Syndicate

stats