ChatGPT: com funciona i per què entén els humans i hi pot conversar
El càlcul de probabilitats i l’entrenament amb grans quantitats de text són les claus d’aquest sistema d’intel·ligència artificial
Fa setmanes que el sistema d'intel·ligència artificial ChatGPT és a totes les converses. Hi ha qui hi ha mantingut diàlegs, qui li ha demanat escriure treballs escolars o articles periodístics, qui li ha manat detectar errors en codis informàtics o crear-ne de nous i qui li ha fet preguntes capcioses, com ara "Si en una cursa avancés el tercer corredor, en quina posició estaria?". A aquesta pregunta tan senzilla, ChatGPT respon que després d'avançar el tercer classificat s'ocuparia la segona posició, una resposta que intuïtivament sembla correcta, però que no ho és.
Tothom qui hi hagi interactuat una mica, s’ha adonat que té limitacions com aquesta, però també hi haurà vist un potencial interessant a l’hora de generar certs continguts textuals. Però, com funciona aquest sistema? Com s’ho fa per generar textos que s’adeqüin a les demandes dels usuaris? Si se li demana una explicació sobre el seu funcionament, ChatGPT diu que és un model de llenguatge generatiu que funciona amb una tecnologia d’aprenentatge profund coneguda com a xarxes neuronals de transformació de llenguatge natural. Una resposta més aviat opaca per al públic no especialitzat. Consultem-ho, doncs, amb experts humans.
La paraula més probable
Segons Enric Plaza, investigador de l’Institut d’Investigació en Intel·ligència Artificial (IIIA) del CSIC, amb ChatGPT "s’ha aconseguit un model de llengua molt gran i molt potent que funciona molt bé i que fins ara no teníem". "És capaç de fer textos llargs amb sentit, no només gramaticalment, sinó que pot enllaçar temes", valora. Per aconseguir-ho, els dissenyadors del sistema l’han entrenat perquè aprengui dues coses: "Donada una paraula, quines són les paraules més properes pel que fa a significat i quines són les més probables per anar a continuació", afirma l’investigador.
El catedràtic de la Universitat Politècnica de Catalunya (UPC) Ulises Cortés explica que l’objectiu de ChatGPT és "obtenir una cadena de paraules ordenades de més a menys probabilitat a partir d’una paraula llavor". Per aconseguir-ho, assegura que "cal un mapa de les paraules més comunes de cada llengua i com es relacionen amb altres paraules". Ara bé, si aquestes cadenes són sempre les mateixes, les respostes a una mateixa pregunta o a preguntes semblants haurien de ser sempre iguals. I no ho són. Per evitar aquestes repeticions, Cortés aclareix que el sistema "utilitza una funció aleatòria per escollir paraules d’entre les més probables". I afegeix: "no se sap del tot, però pot calcular seqüències de prop de 2.000 paraules".
Per tant, la primera clau del funcionament de ChatGPT és el càlcul de probabilitats associat a les paraules. Tot i que sembla un concepte una mica abstracte, l’experimentem cada dia quan escrivim missatges o correus electrònics i les aplicacions corresponents proposen paraules que només cal prémer perquè ocupin l’última posició del text que estem elaborant. "És com el telèfon, però amb esteroides", explica de manera molt gràfica Enric Plaza, en al·lusió a la gran capacitat del sistema.
Com entén les preguntes
Ara bé, com es calculen aquestes probabilitats? Segons el mateix ChatGPT, el sistema "està programat per llegir, analitzar i comprendre grans quantitats de text per aprendre les estructures i correlacions del llenguatge natural". Efectivament, tal com explica Cortés, "les probabilitats es calculen a partir d’una selecció de moltíssims textos, en els quals es busquen quines són les cadenes de paraules més freqüents".
Un cop sabem que les respostes de ChatGPT es basen en aquests càlculs de probabilitat, té sentit preguntar-se com s’aconsegueix que aquesta generació de cadenes de paraules estigui relacionada amb la pregunta que se li formula. És a dir, com s’ho fa el sistema per "entendre" què li demana l’usuari. Per copsar com funciona aquest procés de "comprensió" s’ha de tenir en compte que ChatGPT es basa en dos components diferents, cadascun amb els seus processos d’entrenament.
El primer és el model de llenguatge, la part anomenada GPT, que són les sigles angleses de transformador generador entrenat, és a dir, el sistema a partir del qual es construeixen totes les relacions entre paraules i els càlculs de probabilitats esmentats. "Aquest sistema es basa en xarxes neuronals i té un procés d’aprenentatge molt llarg i costós perquè treballa amb un conjunt de dades molt gran", explica Plaza.
Les xarxes neuronals artificials com la que utilitza aquest sistema es van inventar amb l’objectiu d’aconseguir sistemes artificials que imitessin el cervell. Estan constituïdes per elements molt simples amb comportaments molt senzills que, gràcies al gran nombre de connexions que mantenen entre si, poden manifestar comportaments complexos. Un dels efectes més interessants a què donen lloc és l’aprenentatge. Les neurones artificials no són més que unitats de càlcul que operen en funció d’una informació externa, i que a mesura que fan càlculs es poden anar ajustant en funció de si els resultats obtinguts són més o menys propers als desitjats. Ara bé, aquestes xarxes són tan complexes que no hi ha manera de saber com s’acaben configurant internament. "Són una caixa negra", afirma Plaza.
Conversar amb humans
L’altre component de ChatGPT és el sistema de conversa, que també està basat en xarxes neuronals, però aprèn gràcies a la intervenció humana. El primer pas d’aquest entrenament és donar exemples de respostes elaborats per persones que el sistema utilitzarà com a model. En un segon pas, el sistema proposa diverses respostes possibles a les preguntes i un equip humà s’encarrega de valorar numèricament l’adequació d’aquestes respostes. Aquesta valoració humana s’introdueix al sistema i es fa servir per entrenar un model de puntuació. Un cop entrenat amb prou entrades humanes, quan es fa una pregunta al sistema i aquest la respon des de zero, el model de puntuació qualifica la resposta amb un valor que es torna a introduir al sistema perquè en pròximes accions la tingui en compte: si ho ha fet bé, en el futur podrà imitar la resposta, i si no, n’haurà de generar una de diferent.
A més de tot això, una de les característiques més interessants de ChatGPT és que tot el contingut de la conversa, des de la primera pregunta fins a l’última —incloent-hi totes les respostes donades fins al moment— s’introdueix com a informació per elaborar la resposta a l’última pregunta. Això, segons Plaza, "esbiaixa la màquina a donar respostes relacionades amb les anteriors". Aquesta és, doncs, una de les altres claus que fa que el sistema pugui mantenir converses amb un cert sentit i no només donar una resposta aïllada a cada pregunta.
Fortaleses i limitacions
Aquesta tecnologia ha donat lloc a un sistema que, efectivament, té molt de potencial. A parer d’Ulises Cortés, la fortalesa principal de ChatGPT és "la mida del volum de dades i la velocitat de càlcul". Enric Plaza hi coincideix. Segons l’investigador de l’IIIA, un dels seus punts forts és "el model de llengua molt gran, que resol problemes que hi havia amb els models més petits". "Abans pensàvem que amb un volum limitat de dades ben estructurades podíem treballar, però ara s’ha vist que el canvi d’escala és important", afegeix.
Pel que fa a les seves limitacions, quan se li demana si és fiable, el mateix ChatGPT diu que "cap sistema automatitzat és del tot fiable". "ChatGPT —continua el bot— pot ser una eina útil per obtenir informació i respostes, però sempre és important utilitzar el teu propi criteri i corroborar la informació amb altres fonts fiables". Tal com apunta Plaza, "un model de llengua no és un model del món", de manera que "no es pot assegurar que les seves respostes siguin certes". Segons l’investigador, "hauríem de pensar que ChatGPT és com un nen que és capaç de parlar però coneix molt poc el món". A parer d’Ulises Cortés, "com que la informació que dona no és totalment veritable, es pot posar a la xarxa i es pot arribar a convertir en un estàndard, de manera que podria arribar un moment que no sapiguem si hi ha més informació generada per màquines que per persones".
Fa uns dies, en una entrevista al portal educatiu EduKitchen, el lingüista nord-americà Noam Chomsky deia que ChatGPT no té res a veure amb l’educació sinó que és una eina de plagi d’alta tecnologia, i que cal motivar els alumnes perquè no plagiïn. Però la realitat és que el plagi d’alta tecnologia, que inclou variacions que fan molt difícil identificar-lo, pot condicionar moltes de les dinàmiques educatives actuals. I no només les educatives.
Un altre sector on poden tenir impacte els sistemes com aquest és en la redacció de notícies factuals —el periodisme, esclar, és molt més que això—. Ara bé, tal com apunta Enric Plaza, "ChatGPT és una "demo" que, per alguna raó, s’ha fet pública; Google també té un sistema semblant però no l’ha obert a tothom". "Si es vol fer un altre producte com el de redacció de notícies a partir de ChatGPT —continua— caldrà afegir-hi altres elements".
De fet, el 2010 ja es va crear una companyia als Estats Units, Narrative Science, que va construir un sistema d’intel·ligència artificial que, entre altres coses, redactava resums dels partits de beisbol automàticament. Narrative Science va ser adquirida per l’empresa de software Salesforce el 2021 i, poc després, es va anunciar que els seus productes ja no estarien disponibles.
Fins i tot s’ha donat el cas d’una revista que selecciona i publica històries curtes de ciència-ficció en línia, Clakesworld Magazine, que ha hagut de deixar d’acceptar propostes. Els editors han detectat que molts dels contes que els arriben estan generats per sistemes com ChatGPT. En un missatge al seu web personal, l’editor de la revista, Neil Clarke, ha assegurat que "hi ha alguns patrons molt obvis".
Un dossier il·lustrat amb intel·ligència artificial
Els articles i reportatges d'aquest dossier s’han il·lustrat mitjançant imatges generades per dues aplicacions d’intel·ligència artificial: Midjourney i DALL-E, aquesta última d’OpenAI, com ChatGPT. Totes dues aplicacions estan encara en fase de proves, però són capaces de generar imatges úniques segons les peticions i els requisits de l’usuari. Per cada una s’ha fet una petició diferent que s’explica al corresponent peu de fotografia.