LA INTELIGENCIA ARTIFICIAL ALPHAFOLD2 EN LAS PROTEÍNAS

El alcance de la inteligencia artificial AlphaFold2, desarrollada por DeepMind y premiada con el Princesa de Asturias, es una gran puerta abierta a nuevos medicamentos, a la lucha contra la contaminación y por la sostenibilidad ambiental. Y, a la comprensión más profunda de la naturaleza.

Conocer la estructura de la proteína espiga del Sars-COV-2 fue fundamental para el desarrollo de la vacuna contra la COVID-19. Crédito: Andriy Onufriyenko

A uno las proteínas le suenan a una cosa que hay que comer para crecer fuerte, para ponerse cachas, unos buenos chuletones que luego convertir en músculo. A uno de esos batidos que se venden en enormes botes de polvos y que beben los más motivados de mi gimnasio low cost después de ducharse, todavía desnudos y perlados de agua. Sí, las proteínas son todo eso, pero también otras cosas: son una de las biomoléculas (junto con los lípidos, los carbohidratos las vitaminas y los ácidos nucleicos) que cumplen un papel fundamental en el funcionamiento del cuerpo humano.

La tecnología como AlphaFold puede llegar a ser revolucionaria para ayudarnos a entender mejor la estructura tridimensional de las proteínas, cosa que a día de hoy no es fácil.

Las proteínas son las moléculas estructuralmente más complejas y funcionalmente más sofisticadas que se conocen. Las proteínas son una secuencia de aminoácidos.

Concretamente, nuestras proteínas están formadas por 20 tipos de aminoácidos.

Cada tipo de proteína tiene una secuencia única de aminoácidos y hay miles de proteínas diferentes en cada célula.

Las proteínas pueden cumplir un sinfín de tareas , el cuerpo

humano recoge todas las instrucciones necesarias para construir masivamente máquinas moleculares que perfectamente ¡parecen pequeños Nanorobots!

Las creaciones de laboratorio más semejante a este tipo de robots moleculares serían los biobots, que se hicieron famosos este año y que estaba

conformado por aglomeraciones de células que realizaban diferentes funciones.

Las proteínas, se fabrican dentro de la célula, la información para sintetizar las proteínas se encuentra en el ADN.

“El ADN contiene la información genética que nos permite funcionar”, en realidad no referimos a que el ADN contiene la información para sintetizar

proteínas que harán funcionar a nuestras células y por tanto a nuestros tejidos, órganos, y a nosotros.

El ADN es una larga secuencia de unas piezas más pequeñas llamadas nucleótidos, y concretamente, existen 4 tipos: Adenina, Citosina, Timina y Guanina, representadas con las letras A, C, T, G.

Y esa larga secuencia de ADN la podemos dividir en fragmentos más pequeños llamados GENES, que contienen la información para sintetizar concretamente UNA PROTEÍNA.

Cada GEN sería un capítulo que contendría la información, la receta, para fabricar un tipo de proteína.

Para sintetizar una proteína, la célula necesita realizar DOS PASOS:

En primer lugar, la secuencia de nucleótidos del ADN (o del gen, concretamente) se tiene que «transcribir» a una secuencia de nucleótidos de ARN.

El ARN es el otro tipo de ácido nucleico, junto al ADN, formado también por una secuencia de nucleótidos pero un tanto distinta.

Una vez tenemos nuestra secuencia de nucleótidos de ADN transcrita a ARN, el siguiente paso será «traducir» esa secuencia de nucleótidos de ARN a la secuencia de aminoácidos de la proteína.

Este proceso lo hará una estructura de la célula llamada «ribosoma», que irá leyendo los nucleótidos del ARN de 3 en 3, y colocando el aminoácido correspondiente.

Esto es algo muy bien definido por el llamado «código genético», ese conjunto de reglas común en todos los seres vivos que nos dice cómo se traducen los nucleótidos del ARN a los aminoácidos de la proteína.

Así, cuando el ribosoma lea los nucleótidos AAA, colocará una lisina, cuando lea CCU a una prolina, y así sucesivamente hasta dar lugar a la secuencia completa de la nueva proteína.

Esto es súper interesante, porque en realidad tienen un montón de similitudes con cómo

se procesa la información cuando ejecutamos un programa informático dentro de nuestro

Son básicamente las moléculas “obreras” de la célula, ya que realizan una infinidad de funciones por todo el organismo que básicamente nos permiten estar vivos:

Transportan moléculas de un lado para otro (como la hemoglobina, que transporta el oxígeno), transmiten señales de una célula a otra (como las hormonas), ayudan a defendernos de los agentes infecciosos (como los conocidos anticuerpos), ayudan a la célula a realizar las reacciones químicas que necesita sobrevivir (como las enzimas), y permiten a la célula

captar señales del entorno (como los receptores de membrana), y multiples funciones mas.

ordenador. Cómo la información se empaqueta en grupos para generar distintos elementos,

al igual que agrupamos los bits en bytes que luego interpretamos de diferentes formas.

Y hay diferentes encargados de ir copiando y traducir esta información…

Millones de años de evolución han diseñado de nuestro cuerpo un sistema operativo biológico altamente preciso.

PLEGAMIENTO DE LA PROTEÍNA.

Una vez la célula ha fabricado la secuencia de aminoácidos completa, es cuando viene que una proteína es mucho más que una simple secuencia de

aminoácidos.

Para dar lugar a una proteína realmente funcional, es necesario que esta proteína se pliegue sobre sí misma, adoptando una estructura tridimensional única para cada proteína y esencial para que esta pueda funcionar correctamente.

Debido a que los distintos tipos de aminoácidos tienen propiedades químicas diferentes, es la secuencia de aminoácidos de cada proteína la que determinará cómo se pliega esa proteína y por tanto cuál va a ser su estructura.

Para poner ejemplos más concretos, si por ejemplo tenemos aminoácidos que son hidrófobos (es decir, a los que “no les gusta el agua”), estos tenderán a aglutinarse en el interior de la proteína (para evitar el contacto con el agua que rodea la proteína, porque las células están formadas en gran medida por agua).

Por el contrario, para los aminoácidos que sean más afines al agua, estos tenderán a colocarse en la superficie de la proteína y a formar enlaces con el agua que la rodea.

Es por esto que dependiendo de su secuencia de aminoácidos y de las interacciones entre estos, la proteína se plegará de una forma u otra.

Y en realidad, si hablamos de plegamiento tenemos que hablar de los distintos niveles de plegamiento de proteínas,

El primer nivel vendría a ser la ESTRUCTURA PRIMARIA, que sería la secuencia de aminoácidos de la proteína.

El siguiente nivel vendría a ser la ESTRUCTURA SECUNDARIA: a ver, a pesar de que, en última in stancia, la estructura tridimensional de la proteína final será única para ese tipo de proteína, existen ciertos patrones de plegamiento que se repiten entre las distintas proteínas.

Estos plegamientos repetitivos y que conforman esa ESTRUCTURA SECUNDARIA vendrían a ser la hélice alfa, en la que la cadena adopta forma de espiral, y la lámina beta, en la que la cadena se pliega sobre sí misma.

Es por eso que a veces las proteínas se representan como estos churrillos en forma de hélices y láminas, porque son precisamente esas hélices alfa y láminas beta que se repiten entre proteínas.

A continuación, vendría la ESTRUCTURA TERCIARIA, que sería la conformación tridimensional total de la proteína, que viene dada por los aminoácidos que forman la cadena y cómo interaccionan los unos con los otros y que, como hemos comentado, es única para cada tipo de proteína.

Hay un nivel más, la ESTRUCTURA CUATERNARIA, que ocurre cuando dos o más cadenas proteicas se pliegan por su parte y luego se unen para formar una sola molécula funcional con distintas subunidades. Un ejemplo sería la hemoglobina, esa proteína que se encuentra dentro de los glóbulos rojos y que transporta el oxígeno por la sangre para repartirlo entre las distintas células de nuestro cuerpo.

La hemoglobina contiene cuatro subunidades distintas, que se pliegan de forma independiente y luego se unen para formar la hemoglobina final. Cada una de estas subunidades es capaz de captar una molécula de oxígeno, con lo que, en total, cada molécula de hemoglobina puede captar 4 moléculas de oxígeno al respirar.

Y en realidad toda esta jerarquía de estructuras, es algo que a los algoritmos

de Inteligencia Artificial que utilizamos les viene muy bien.

De manera general estos algoritmos son Redes Neuronales Artificiales, y una de las cualidades que tienen este tipo de tecnologías, es que la información que procesan se va analizando de forma jerarquizada por capas.

Esto significa que la información primero se procesa por una primera capa, que luego le pasa a la siguiente, que también la procesará y así sucesivamente.

Y esto permite que la red, pueda ir descubriendo patrones y estructuras de manera jerárquica.

Por ejemplo, cuando trabajamos con imágenes, es habitual ver que las primeras capas descubren patrones sencillos generales a todas las imágenes, como texturas, bordes o esquinas.

Luego, esta información es pasada a la siguiente capa que usará estos patrones para generar patrones más complejos, como formas geométricas y luego estas también se compondrán para formar cosas más avanzadas como los ojos, bocas o nariz que nos encontramos en un cara.

Esta jerarquía existe en la estructura de una proteína, donde los

aminoácidos se componen para formar estructuras de hélices alfa o láminas beta, y luego estas estructuras conforman la forma estructura terciaria y cuaternaria, es una jerarquía que se adapta muy a la forma de aprender de estas redes neuronales artificiales, y así se comprueba de manera experimental, donde vemos que efectivamente AlphaFold es capaz

de reproducir y utilizar estas estructuras.

Y es la estructura de la proteína la que permite que esta pueda cumplir su función.

Un ejemplo sería la hemoglobina. Cuando respiramos, el oxígeno de nuestros pulmones es captado por la hemoglobina de los glóbulos rojos.

Para captar ese oxígeno, la hemoglobina tiene un hueco en su estructura donde se encuentra su grupo hemo, una molécula que contiene un átomo de hierro al que se le unirá un átomo de oxígeno. De esta forma, al tener cuatro subunidades cada una con su grupo hemo, cada una de las 280 millones de moléculas de hemoglobina que hay en cada glóbulo rojo puede captar 4 átomos de oxígeno.

Otro ejemplo de la utilidad de las proteínas lo encontramos en la capacidad de algunos animales de no quedarse congelados aún cuando viven en hábitats donde las temperaturas directamente les podrían dejar como un un hielo.

Es el caso de por ejemplo peces que viven en regiones a tan bajas temperaturas que hacen que aparezcan microcristales de hielo en el torrente sanguíneo que podrían acabar congelando por completo al bicho de dentro a fuera. Pero no ocurre… Porque estas especies evolutivamente han desarrollado una serie de proteínas que por su estructura son capaces

de acoplarse perfectamente a estos microcristales, ocupando el espacio que podría ocupar las moléculas de agua y previniendo que se produzca la congelación. Es decir, son proteínas que por su estructura, dan al ser vivo capacidades anticongelantes.

Otro ejemplos más, la enzima llamada alfa-amilasa que tenemos en la saliva

y digiere los azúcares que comemos tiene una estructura determinada que le permita encajar con los azúcares para romperlos, los anticuerpos necesitarán tener una estructura que les permita reconocer la proteína de un virus o de una bacteria, y el receptor de la insulina tendrá una estructura que le permita encajar y unirse a la insulina, lo cual permitirá a la célula captar la glucosa que circule en sangre para alimentarse.

Por tanto, si ese plegamiento de proteínas no se hace bien, no solo la proteína va a ser incapaz de realizar su función (lo cual puede ser súper grave para la célula), sino que puede dar a enfermedades tan graves como el Alzhéimer, el Parkinson o incluso las enfermedades priónicas

Y es por eso que conocer la estructura de las proteínas puede tener aplicaciones tan relevantes para la biomedicina, no solo para conocer mejor estas enfermedades sino para entender cómo funcionamos o incluso para agilizar la búsqueda de nuevos medicamentos, ya que si conocemos la estructura exacta de una proteína diana, puede ser más fácil buscar un principio activo, un fármaco, que sea capaz de interaccionar con ella de la

forma que nos interesa.

La tecnología como AlphaFold puede llegar a ser revolucionaria para nuestro campo, para ayudarnos a entender mejor la estructura tridimensional de las proteínas, cosa que a día de hoy no es fácil.

Los métodos tradicionales que se han venido utilizando para conocer estas estructuras, pasan por métodos cómo la cristalografía de rayos X, que se basa en analizar cómo los rayos X se difractan al interaccionar con los electrones que rodean a los átomos.

Existen otras técnicas también como la resonancia magnética nuclear o la criomicroscopía electrónica, que fue premiada con el nobel de química en 2017.

Pero estas técnicas requieren de mucho ensayo y error en el laboratorio y que fácilmente pueden tardar meses e incluso años en obtener la estructura de la proteína.

Esto se suma además con iniciativas tan interesante como Folding at home, que permitía a usuarios de cualquier parte del mundo el “donar” su capacidad de cómputo de su ordenador personal

para que en conjunto, se pudiera conformar una red de supercomputación destinada al análisis de datos y simulaciones que estos métodos generan.

O el ejemplo de la iniciativa Fold It, que directamente gamifica el proceso de plegado buscando que jugadores de todo el mundo usen su intelecto para resolver esta tarea.

Son ejemplos buenísimos de la estrecha simbiosis que hay entre este problema y los métodos computacionales, y donde ahora AlphaFold representa un nuevo paso en este camino.

Con AlphaFold ahora contamos con un método computacional que en cuestión no de meses sino de días, y con un coste computacional bastante “moderado”, es capaz de predecir la estructura de una proteína con precisión considerable que iguala a los métodos anteriores.

Para medir la precisión de las predicciones de este plegamiento, la métrica que se utilizó fue el llamado GDT o Global Distance Test, “ensayo de la distancia global”. El GDT iría del 0 al 100 e indicaría el porcentaje de residuos de aminoácidos que se encontrarían en la posición correcta dentro de un pequeño margen de error.

Una puntuación de unos 90 GDT aproximadamente se consideraría un resultado comparable a los métodos actuales.

Pues en los resultados de la evaluación CASP 14, AlphaFold logra una puntuación media de 92,4 GDT general en todos los objetivos.

Esto es impresionante pero es sólo un primer paso de todo lo bueno que esta simbiosis entre Inteligencia Artificial y Biomedicina podría aportar. Contar con un método computacional confiable para el plegado de proteínas nos permite acelerar la investigación para mejorar el entendimiento de estas, cómo se forman o cuáles son sus funciones.

Pero mirando al futuro, pongo la vista en la resolución de problemas inclusos más interesantes como el que sería el problema inverso.

Quiero generar esta estructura tridimensional que creo podría cumplir con estas propiedades, y ahora devuélveme la secuencia de aminoácidos

que la podría generar. Abriéndose la puerta al diseño de nuevas proteínas que nos puedan asistir en la resolución de muchos de los grandes retos a los que se enfrenta la humanidad.

Bueno, llegamos ya al final de este vídeo y de esta hermosa colaboración, creo que ha quedado clara la increíble complejidad que puede tener el mundo microscópico, en especial las proteínas, que por muy pequeñas que puedan ser, no dejan de sorprendernos.

Y para estudiar este mundo molecular necesitamos técnicas que puedan ayudarnos, necesitamos ir de la mano con otras disciplinas científicas (como la inteligencia artificial) que nos ayuden a caminar hacia adelante.

Autores

Andriy Onufriyenko estructura de la proteína espiga del Sars-COV-2 fue fundamental para el desarrollo de la vacuna contra la COVID-19.

DeepMind la inteligencia artificial AlphaFold2,