Ciència

La intel·ligència artificial descobreix la forma de 350.000 proteïnes amb una precisió mai vista

DeepMind, una empresa de Google, crea una base de dades biològiques que pot ajudar a desenvolupar nous medicaments més eficaços

Estructures de proteïnes predites pel sistema d'intel·ligència artificial AlphaFold
Cade Metz / The New York TImes
22/07/2021
5 min

Des de fa uns anys, John McGeehan, biòleg i director del Centre d'Innovació Enzimàtica de Portsmouth, busca una molècula que pugui descompondre els 150 milions de tones d’ampolles i altres residus de plàstic escampats per tot el món. Treballant amb investigadors a banda i banda de l’Atlàntic ja ha trobat algunes bones opcions. Però la seva tasca és la del manyà més exigent: identificar els compostos químics que per si sols s'esmicolaran en la forma microscòpica que pugui encaixar perfectament en les molècules d’una ampolla de plàstic i separar-les, com una clau que obre una porta.

Determinar el contingut químic exacte d’un enzim concret és un repte força senzill actualment, però identificar la seva forma tridimensional pot implicar anys d’experimentació bioquímica. Aquesta tardor, després de llegir que un laboratori d’intel·ligència artificial de Londres anomenat DeepMind havia construït un sistema que prediu automàticament les formes dels enzims i altres proteïnes, el doctor McGeehan va demanar al laboratori si hi podia col·laborar, i uns dies després ja va enviar una llista de set enzims. Al cap d'una setmana el laboratori li va enviar formes tridimensionals de tots set. "Això ens va permetre avançar no un any la feina, sinó dos", diu McGeehan.

El 3D al servei del microscopi

Ara, qualsevol bioquímic pot treballar igual de ràpid. DeepMind ha publicat aquest dijous l'estructura de més de 350.000 proteïnes: els mecanismes microscòpics que marquen el comportament dels bacteris, els virus, el mateix cos humà i tots els altres éssers vius. Aquesta nova base de dades gegant inclou les estructures tridimensionals de totes les proteïnes del genoma humà, així com les de les proteïnes que apareixen en altres vint organismes, inclosos el ratolí, la mosca de la fruita i el bacteri E. coli.

Aquest ampli i detallat mapa biològic, que proporciona aproximadament 250.000 formes que fins ara eren desconegudes, pot accelerar la capacitat de comprendre malalties, desenvolupar nous medicaments i reutilitzar els medicaments existents. També pot conduir a nous tipus d’eines biològiques, com un enzim que descompon eficientment les ampolles de plàstic i les converteix en materials fàcilment reutilitzables i reciclables.

"Això ens pot fer avançar molt : influir en la manera de pensar sobre els problemes i ajudar a resoldre'ls més ràpidament", explica Gira Bhabha, professora ajudant del departament de biologia cel·lular de la Universitat de Nova York. "Tant si estudieu neurociències com immunologia, sigui quin sigui el vostre camp de la biologia, això us pot ser útil".

El gran avenç de DeepMind és el seu mateix tipus de clau: si els científics poden determinar la forma d’una proteïna, poden determinar com s’hi uneixen altres molècules. Això podria revelar, per exemple, com contrarestar la resistència dels antibiòtics als bacteris. Els bacteris resisteixen els antibiòtics utilitzant certes proteïnes, així que si els científics fossin capaços d’identificar les formes d’aquestes proteïnes podrien desenvolupar nous antibiòtics o nous medicaments eficaços per a la seva eliminació.

Salt en el progrés

Fins ara, per identificar la forma d’una proteïna eren necessaris mesos, anys o fins i tot dècades d’experiments d’assaig i error amb raigs X, microscopis i altres eines de laboratori. Però DeepMind pot reduir significativament aquests terminis amb la seva tecnologia d'intel·ligència artificial coneguda com AlphaFold. Quan el doctor McGeehan va enviar a DeepMind la llista de set enzims va afirmar que ja havia identificat al laboratori formes per a dos d’aquests enzims, però no va dir quins. Aquesta era una manera de provar el funcionament del sistema. I AlphaFold va passar la prova perquè va predir correctament les dues formes.

Encara va ser més notable que les prediccions arribessin en pocs dies. La sorpresa de McGeehan va ser majúscula quan posteriorment es va assabentar que a AlphaFold la feina l'havia ocupat unes poques hores. El sistema prediu les estructures de proteïnes utilitzant el que s’anomena xarxa neuronal, un sistema matemàtic que pot memoritzar tasques analitzant grans quantitats de dades (en aquest cas, milers de proteïnes conegudes i les seves formes físiques) i extrapolant el que encara no es coneix.

Les proteïnes d'una mosca de la fruita vistes a través de la tecnologia d'intel·ligència artificial desenvolupada per DeepMind.

Aquesta tecnologia és la mateixa que es fa servir en les ordres de veu dels smartphones, el reconeixement de les cares de les fotos que publiquem a Facebook i en la traducció de textos d'una llengua a una altra amb Google Translate i altres serveis. Per això molts experts creuen que AlphaFold és una de les aplicacions més potents del món de la tecnologia. “Mostra que la intel·ligència artificial pot fer coses útils enmig de la complexitat del món real", afirma Jack Clark, un dels autors de l'Índex de la intel·ligència artificial, que fa un seguiment del progrés d'aquesta tecnologia a tot el planeta.

Com va descobrir el doctor McGeehan, AlphaFold pot ser molt precís: pot predir la forma d’una proteïna amb una precisió del 63%, segons proves de referència independents que comparen les seves prediccions amb les estructures proteiques conegudes. La majoria dels experts esperaven que una tecnologia tan potent encara trigués anys a ser una realitat.

Precisió "bona"

Però la precisió del sistema varia, de manera que algunes de les prediccions de la base de dades de DeepMind seran menys útils que d’altres. Cada predicció inclou una "puntuació de confiança" que indica la probabilitat. Diversos investigadors assenyalen que en el 95% dels casos la predicció serà "bona". Per això, el sistema no pot substituir completament els experiments físics i es fa juntament amb la feina de laboratori. Per exemple, a través d'AlphaFold, un grup d'investigadors de la Universitat de Colorado Boulder van ajudar recentment a identificar l'estructura d'una proteïna que havien intentat identificar durant més d’una dècada.

Els desenvolupadors de DeepMind han optat per compartir lliurement la seva base de dades d’estructures proteiques en lloc de vendre'n l'accés, amb l’esperança que ajudi a fer progressar les ciències biològiques. "Ens interessa el màxim impacte", diu Demis Hassabis, director executiu i cofundador de DeepMind, propietat de la mateixa empresa matriu que Google, però que funciona més com un laboratori de recerca que com una empresa comercial.

Alguns científics han comparat la nova base de dades de DeepMind amb el Projecte Genoma Humà, finalitzat el 2003, que va proporcionar un mapa de tots els gens humans. Ara, DeepMind ha identificat les aproximadament 20.000 proteïnes del genoma humà, un pas més per entendre com funciona el nostre cos i com podem respondre quan les coses van malament.

L’esperança també és que la tecnologia continuï evolucionant. Un laboratori de la Universitat de Washington ha construït un sistema similar anomenat RoseTTAFold i, com DeepMind, ha compartit obertament el codi que impulsa el seu sistema. Tothom pot utilitzar la tecnologia i treballar per millorar-la.

Fins i tot abans que DeepMind comencés a compartir obertament la seva tecnologia i les seves dades, AlphaFold ja alimentava una àmplia gamma de projectes. Investigadors de la Universitat de Colorado, per exemple, utilitzen aquesta tecnologia per entendre com els bacteris E. coli i la salmonel·la desenvolupen una resistència als antibiòtics i com es pot evitar que això succeeixi. A la Universitat de Califòrnia, a San Francisco, els investigadors utilitzen la mateixa eina per millorar la seva comprensió del coronavirus.

El covid fa estralls al cos humà servint-se de 26 proteïnes diferents. Amb l’ajut d’AlphaFold, els investigadors han millorat la comprensió d’una proteïna clau i esperen que la tecnologia pugui ajudar a comprendre les altres 25. Potser arriba massa tard per tenir efectes en la pandèmia actual, però podria ajudar el món a preparar-se per a la següent pandèmia. "Comprendre millor aquestes proteïnes ens ajudarà no només a atacar aquest virus, sinó altres virus", afirma Kliment Verba, un dels investigadors de San Francisco.

Copyright 'The New York Times'

stats