Clarobscurs del Nobel de química: un triomf de la IA però sense una crida a la transparència
El premi Nobel de química 2023 ha reconegut l'avenç revolucionari en la predicció de l'estructura de proteïnes i la seva aplicació al disseny de noves proteïnes, una fita que marca un abans i un després en la biotecnologia i la biomedicina.
El primer premiat ha estat David Baker, de la Universitat de Washington, pel seu treball en disseny i construcció experimental de noves proteïnes amb mètodes que estan obrint nous horitzons a la biotecnologia.
La segona part del premi està compartida per Demis Hassabis i John Jumper, de DeepMind, una companyia de Google, pel desenvolupament d'AlphaFold2, un mètode d'IA –xarxes neuronals profundes– capaç de predir amb precisió l'estructura tridimensional d'una proteïna a partir de la seva seqüència d'aminoàcids. Aquesta metodologia ha donat un impuls enorme a l'exploració de "l'espai de proteïnes", i ha contribuït directament a l'obtenció experimental de l'estructura de grans complexos de proteïnes, la predicció de la conseqüència de mutacions associada al diagnòstic de malalties i la generació de nous fàrmacs, com per exemple nous antimicrobians, entre d'altres.
Aquests avenços han estat possibles gràcies als nous mètodes d'IA, però també, i igualment important, a les ingents capacitats computacionals i a les grans quantitats de dades sobre estructures de proteïnes. Durant dècades s'han dedicat enormes recursos a determinar experimentalment les estructures de milers d'aquestes molècules mitjançant tècniques com la cristal·lografia de raigs X. Aquestes dades, acuradament recopilades i validades, s'han dipositat obertament en bases de dades públiques i han constituït el conjunt d'entrenament essencial per als sistemes d'IA, com AlphaFold. Sense aquest accés lliure i obert a informació crucial, el desenvolupament d'aquestes tecnologies predictives no hauria estat possible.
Aquests premis, els Nobel, representen un triomf de l'aplicació de la intel·ligència artificial a les ciències de la vida. El contrast sorgeix quan es considera l'actitud dels premiats respecte a l'accés als mètodes que han desenvolupat. D'una banda, David Baker ha destacat sempre pel seu compromís amb la publicació oberta del programari i l'ús responsable d'aquestes tecnologies. Per contra, la història d'AlphaFold presenta un contrast preocupant. Si bé la versió objecte del premi (AlphaFold 2) va ser de codi obert, compartint dades i programari, i a més els premiats van contribuir al gran esforç de popularitzar les bases de dades públiques amb el millor model per a cada proteïna, per contra la versió tres d'AlphaFold i els desenvolupaments posteriors s'han mantingut tancats, cosa que ha generat un gran malestar en la comunitat científica sobre les dades i els mètodes amb els quals –obertament accessibles– s'han desenvolupat. Aquest canvi de rumb planteja un seriós dilema ètic i científic.
L'obertura dels models d'IA, com s'ha demostrat amb AlphaFold 2, presenta avantatges innegables:
- Verificació i reproductibilitat: La transparència del codi permet a altres investigadors verificar els resultats, assegurant la rigorositat científica.
- Col·laboració i innovació: L'accés obert fomenta la col·laboració internacional i accelera el progrés científic. Investigadors de tot el món poden contribuir al desenvolupament i la millora del model.
- Accés equitatiu: L'obertura democratitza l'accés a aquestes potents eines, beneficiant així investigadors d'institucions amb menys recursos.
En canvi, mantenir els sistemes tancats limita la verificació, frena la innovació col·laborativa i crea una bretxa d'accés per a investigadors amb menys recursos. L'excusa de la seguretat, sovint invocada per justificar la falta de transparència, resulta feble, especialment considerant que d'aquí uns mesos la comunitat científica acabarà reproduint aquests algoritmes.
La decisió de mantenir AlphaFold 3 tancat, possiblement motivada per interessos comercials, representa un retrocés en l'avenç científic. Més preocupant encara, aquesta acció –en col·laboració, en alguns casos, amb importants editorials científiques– suposa un perillós precedent: el de grans corporacions, com Google, que publiciten els seus avenços amb el format d'articles científics, però sense el rigor de la verificació i la validació pròpies del mètode científic, subvertint el sistema gràcies al qual han estat possibles aquests desenvolupaments.
El debat entorn de l'obertura versus el tancament dels models d'IA, exemplificat per AlphaFold, transcendeix l'àmbit de la biologia estructural. La mateixa tensió, amb idèntics arguments, s'observa en el desenvolupament dels grans models de llenguatge (LLM). Alguns LLM són de codi obert, cosa que afavoreix la col·laboració i la verificació independent; d'altres, com els d'OpenAI (l'antic ChatGPT), són tancats i accessibles només en forma de servidors, fet que limita el desenvolupament i l'escrutini. Les conseqüències d'aquesta situació per al progrés científic, la validació dels sistemes i l'impacte econòmic –considerant l'enorme escala d'aquest sector– són profundes. La necessitat de models oberts, que promoguin la transparència, la reproductibilitat i la col·laboració és crucial per al bé de la societat i per assegurar un desenvolupament responsable i equitatiu de la IA.
Els premis Nobel d'enguany haurien d'haver servit per ressaltar la importància de la transparència i la col·laboració en la recerca, valors que són essencials per maximitzar l'impacte d'aquests avenços revolucionaris en benefici de tota la humanitat. La comunitat científica –i el Barcelona Supercomputing Center en particular– pensem que el futur de la recerca en IA, i particularment en la biomedicina, depèn d'un compromís ferm amb la publicació oberta i l'equitat en l'accés a les eines que estan transformant el món.