Dígits i andròmines

Algoritmes creatius per escriure i pintar com humans

Serveis d'intel·ligència artificial com IMAGEN o DALL-E permeten generar imatges a partir de descripcions textuals fetes per usuaris

Una de les imatges generades artificialment
27/05/2022
4 min

Ja fa uns quants anys que les grans agències de notícies i alguns mitjans de comunicació optimitzen la producció de contingut encomanant a algoritmes la redacció de les peces informatives més rutinàries. Així, els comunicats sobre resultats empresarials o esportius, que solen respondre a patrons amb poca variació, es generen automàticament a partir de les dades originals (el nom de l’empresa, els milions de facturació o de benefici, la variació respecte al trimestre anterior, els noms dels jugadors que van marcar gols i en quin minut del partit...), incorporant-les a una plantilla dinàmica més o menys espavilada que respon al llibre d’estil de cada publicació. D’aquesta manera, se suposa que els redactors humans queden lliures per dedicar-se a tasques més creatives... tot i que en la pràctica la tecnologia acaba sent l’excusa de les empreses de premsa per reduir personal sense afectar el volum de peces publicades.

Inscriu-te a la newsletter Sèries Totes les estrenes i altres perles
Inscriu-t’hi

El pas següent va ser la generació automàtica de textos complets prou convincents per semblar redactats per un humà, tot i haver estat creats per models de llenguatge basats en l’aprenentatge profund, que funcionen com el text predictiu dels telèfons mòbils però a una escala molt més gran, gràcies al fet que prediuen les paraules següents partint d’un corpus textual immens. La referència actual en aquest àmbit és el model de llenguatge GPT-3, entrenat amb tot el text de la Wikipedia, el de tots els llibres disponibles públicament i el de milions de pàgines web i documents científics. Quan es va presentar a mitjans de 2020, el model ocupava uns 700 gigabytes (GB) de memòria i la xarxa neuronal que el gestionava feia servir gairebé mig centenar de processadors gràfics (GPU) amb 16 GB cadascun. El GPT-3 treballa amb 175.000 milions de paràmetres, que multipliquen per més de 100 els que feia servir, poc més d’un any abans, el seu predecessor GPT-2, de codi obert.

Els successius GPT (sigles de Generative Pre-trained Transformer) són creacions d’OpenAI, un laboratori nord-americà de recerca en intel·ligència artificial fundat, entre altres, pel multimilionari Elon Musk. Tot i operar sense afany de lucre, el setembre del 2020 OpenAI va rebre de Microsoft una inversió de 1.000 milions de dòlars amb què el gegant del programari s’assegurava l’accés en exclusiva al codi de GPT-3, que la resta d’usuaris només poden fer servir mitjançant una interfície de Microsoft.

Del text a les imatges

Fa uns mesos, la mateixa OpenAI va anar un pas més enllà i el gener de 2021 va fer públic el DALL-E, un altre servei d’intel·ligència artificial basat en l’arquitectura GPT però centrat en la generació d’imatges a partir de descripcions textuals: escrius quin tipus d’objecte vols veure, tant si existeix en la realitat com si no, i el sistema interpreta la teva petició i la representa gràficament tan bé com sap, amb resultats sorprenents.

El nom DALL-E és un joc de paraules fonètic entre WALL-E, el robot protagonista del film d’animació homònim de Pixar (2008) i l’artista català Salvador Dalí. D’aquí que als inicis fossin especialment populars exemples tirant a surrealistes, com el de la butaca amb forma d’alvocat i el de la il·lustració d’un rave blanc nan vestit amb tutú i passejant un gos, que es troben fàcilment a la xarxa. Fa un parell de mesos, OpenAi va anunciar la segona versió, el DALL-E 2, que no només proporciona imatges foto-realistes (per exemple, un gos shiba inu amb boina i jersei negre de coll alt) i creacions artístiques (retrat vibrant de Salvador Dalí amb mitja cara robòtica, pintura d’una guineu asseguda en un camp a l’estil de Claude Monet), sinó que també pot retocar imatges existents, i obtenir múltiples variacions d’una fotografia de decoració o del quadre La noia de la perla de Johannes Vermeer.

Aquesta setmana, els investigadors de Google han volgut demostrar que no es queden enrere en aquesta cursa i han presentat el seu IMAGEN (acrònim anglès de generació d’imatges), que fa exactament el mateix que DALL-E 2 aplicant el model Transformer T5 del gegant d’internet, i a la vista dels resultats, amb unes imatges encara més realistes, com les que acompanyen aquest article. A banda de la qualitat visual, la competició entre OpenAI i Google es desenvolupa en el terreny de la comprensió del text introduït: retrat molt contrastat d’un panda peludet i molt content, disfressat de xef i pastant pa en una cuina de gamma alta amb un quadre de flors a la paret del fons és una de les imatges que Google exhibeix amb orgull en un fil de Twitter de @JeffDean, un dels responsables.

Potser el que més impressiona i inquieta d’aquestes plataformes és la seva capacitat per interpretar les peticions de l’usuari i encertar en la deducció d’aspectes que no s’han detallat explícitament en el text d’entrada, com les ombres correctes, la posició més natural de les extremitats d’un animal per a l’activitat que es vol representar o la inclusió d’accessoris vinculats: quan li demanes a DALL-E 2 que et dibuixi un pingüí amb jersei de Nadal, també li posa un barret de Pare Noel. De fet, els investigadors del ram diuen que els seus projectes van sorgir per entendre millor com pensen els humans i solen donar més importància a la interpretació del llenguatge natural que a la sortida visible.

Naturalment, tot plegat està subjecte a possibles biaixos. D’aquí que l’ús de DALL-E estigui molt restringit i el d’IMAGE estigui tancat del tot, si més no fins que s’hagin refinat els conjunts de dades de partida i, encara més, s’hagi arribat a algun consens sobre els aspectes ètics d’aquestes tecnologies.

Altres algoritmes creatius

Mentrestant, aquesta mena de models continuen el seu avenç imparable. Així, Microsoft ja ha començat a explotar el seu accés privilegiat al GPT-3 d’OpenAI oferint al seu GitHub, el principal repositori mundial de codi per a programadors, la funció CoPilot, que a partir del contingut existent a la plataforma crea automàticament noves aplicacions només indicant-li què vols que facin. Molt pràctic i eficient, però també motiu immediat d’alarma per les implicacions en matèria de propietat intel·lectual: ¿tinc dret a una part del negoci que algú fa amb un programa que un algoritme ha creat a partir del meu codi?, ¿en seré responsable si se’n deriva un mal ús?

stats