
Alfonso Valencia
ICREA Professor | Barcelona Supercomputing Center- Centro Nacional de Supercomputación (BSC-CNS).
La inteligencia artificial (IA) está transformando radicalmente muchas áreas de actividad humana y
particularmente la forma en que abordamos problemas complejos en ciencia en general y biología y biomedicina
en particular, con aplicaciones que van desde la biología molecular hasta la medicina.
El desarrollo de la IA dependen de tres pilares fundamentales: la supercomputación, la disponibilidad de datos, y
los nuevos métodos en IA, como los modelos de lenguaje (LLMs, por sus siglas en inglés). En este artículo,
exploraremos cómo estos pilares están impulsando avances en áreas como la genómica, el diseño de proteínas y
la biomedicina, con ejemplos concretos de las nuevas posibilidades, para finalizar con una discusión de
posibilidades futuras pero también de las limitaciones tanto técnicas como éticas y legales.
La Inteligencia Artificial (IA)
De modo muy general podemos definir la inteligencia artificial como un campo de la informática que busca crear
sistemas capaces de realizar tareas que normalmente requieren inteligencia humana, como el aprendizaje, la
toma de decisiones y el reconocimiento de patrones. Estos sistemas son capaces de procesar grandes cantidades
de datos, identificar patrones y hacer predicciones o recomendaciones manejando cantidades de información
complejas que en la práctica son inaccesibles a los humanos.
Dentro de la IA, los modelos de lenguaje son una de las herramientas novedosas y ciertamente una de las que ha
tenido mayores una repercusión y aceptación a nivel social (el popular chatGPT alcanzó un millón de usuarios en
24 horas, un marca nunca antes alcanzada). Estos modelos, fueron diseñados inicialmente para procesar y
generar texto, pero su aplicación se ha extendido más allá del lenguaje humano. En biología y biomedicina, los
LLMs se están utilizando para analizar secuencias genómicas, predecir secuencias y estructuras de proteínas o
generar datos sintéticos de distinto tipo de entidades biológicas en biomedicina. En resumen, la IA y en particular
los LLMs, se han convertido en herramientas versátiles para la investigación científica.
La Necesidad de Supercomputación: MareNostrum 5 y las IA Factories
El primer pilar para el desarrollo de la IA es la supercomputación. De hecho podemos decir que la IA no se ha
desarrollado hasta que no han existido ordenadores suficientemente potentes. Sin una potencia de cálculo
masiva, el avance de la IA simplemente no es posibles. El Barcelona Supercomputing Center- Centro Nacional de
Supercomputación (BSC-CNS, con su supercomputador MareNostrum 5, es un ejemplo paradigmático.
MareNostrum 5 es uno de los tres ordenadores más potentes en Europa, con una capacidad de procesamiento
de 314 Petaflops. Esta capacidad es esencial para entrenar modelos de IA complejos, como los que se utilizan en
la generación de modelos de lenguaje como los que están detrás del popular chatGPT. En el caso del BSC el
modelos ALIA, un modelo entrenado desde cero, enriquecido en lenguas oficiales del estado, que en sus dos
versiones de 7BP y 40BP compite con los grandes modelos públicos a nivel mundial.
Además, Europa está respondiendo al desafío de la IA a nivel mundial, con el desarrollo de las IA Factories,
centros dedicados a la creación y aplicación de modelos de IA al servicio de la industria Europea en sectores,
como biomedicina. La IA Factory del BSC, proporcionará la infraestructura necesaria para el desarrollo
aplicaciones de IA y LLMs fomentando el desarrollo de nuevas y más potentes aplicaciones en compañíaspequeñas y medianas, así como en las administraciones públicas con el objetivo de mejorar su competitividad
dentro del marco regulatorio Europeo y los valores éticos que Europa defiende.
Disponibilidad de Datos Heterogéneos y Complejos
El segundo pilar es la disponibilidad de datos. En biología, los datos son necesariamente ruidosos dada su
procedencia experimental y son complejos en el sentido de que para su análisis es necesario incluir el contexto yl
la interrelación con otros datos. Por ejemplo, en el análisis de un genoma del cáncer, los datos incluirán un
número indeterminado de tipos celulares, errores de secuenciación, ruido introducido durante el procesamiento
de la muestra, para extraer conclusiones será necesario entender la función asociada a los genes y la posibles
consecuencia de las mutaciones, la procedencia de la muestra, tipo de tumor, estado del paciente, etc. Además
los datos de humanos son altamente confidenciales lo que complica enormemente su uso en investigación.
Esperamos que la implementación del espacio de Europeo de datos (Europena Health Data Space) y la
implementación de los espacios nacionales de datos de cáncer (National Cancer Data Hubs) emanados de la
misión Europea en cáncer (UNCAN) vayan haciendo progresivamente más accesible los datos generados en
atención primaria en hospitales y centros de salud para investigación. Desde el punto de vista tecnológico, dos
proyectos Europeos: Europan Genome Data Infrastructura y EUCAIM, en imagen médica, junto a la contribución
de las infraestructuras Europea, en espacial ELIXIR, están sentando los pilares para el descubrimiento, acceso y
análisis federado de datos. EN paralelo, los proyectos nacionales, en nuestro caso IMPaCT-Data, financiado por el
Instituto de Saludo Carlos III, son los encargados de reflejar estos desarrollos en implementaciones nacionales a
nivel de hospitales, Institutos de Investigación Sanitaria y centros de investigación.
Nuevos Métodos en IA: Modelos Basados en Proteínas y Genomas
El tercer pilar de la IA son los propios algoritmos que están evolucionado muy rápidamente, sin olvidar que
todavía estamos en una primera generación de los mismos. El ejemplo más relevante del impacto de las nuevas
tecnologías es, sin duda, el software de AlphaFold. El método de predicción de estructura de proteínas,
reconocido por el premio Nobel de 2024 al equipo de DeepMind, y que es ahora una herramienta imprescindible
en cualquier laboratorio que trabaje con proteínas y se ha convertido en la demostración indiscutible de la
capacidad de la IA para cambiar radicalmente un área completa de investigación.
Es interesante que el desarrollo de AlphaFold en 2022 basado en redes neuronales profundas, fue seguido un par
de años después por una nueva generación de modelos basados en una tecnología completamente nueva en
este caso basadas en modelos de lenguaje, capaza de generar millones de secuencias de proteínas nuevas con
potenciales nuevas funciones. Aun es más, ese mismo año, el equipo de DeepMInd generó una nueva versión de
AlphaFold basada en una nueva tecnología de IA (modelos de difusión). Este caso debe servir para ilustrar a qué
velocidad se mueve la tecnología en este área y como las proteínas están resultado ser un área de aplicación
ideal.
La revolución que los métodos de IA están produciendo en el campo de las proteínas impulsando el diseño de
nuevas proteínas con funciones específicas, la identificación de dianas terapéuticas junto a la interacción con
potenciales fármacos. Sin embargo, esto solo es el principio de la aplicación de la IA a la biología, con la
genómica como siguiente objetivo. Los modelos de lenguaje aplicados a secuencias genómicas están
permitiendo sintetizar genomas cada vez más similares a los genomas reales en cuanto a la organización de los
elementos característicos (genes, exones, promotores, enhancers, sitios de unión de factores de transcripción,
etc.). Un ejemplo reciente y destacado en este sentido es Evo, una IA capaz de generar secuencias genómicas
sintéticas desde cero. Este tipo de sistemas tienen aplicaciones prometedoras en biotecnología y biología
sintética asociadas a la generación de genomas sintéticos completos o en medicina en el caso de la predicción de
los niveles de expresión génica a partir de las secuencias genómicas y epigenómicas o la predicción de las
consecuencias de las mutaciones en el ADN pueden afectar a la función de las proteínas.
El Futuro de la IA en la Fusión con los Modelos MecanicistasLos modelos mecanicistas, basados en leyes físicas y biológicas, son esenciales para entender los procesos
biológicos y también para el proceso de aprobación de medicamentos. Un ejemplo de este tipo modelado
mecanicistas es la predicción del tiempo basada en modelos de los distintos componentes de sistema
(temperatura, presión, humedad) alimentados con datos de una multitud de observaciones (satélites, estaciones,
etc). En biología molecular, el ejemplo al caso son los de la evolución tumores con el software PhysiBoss. Este
sistema combina la simulación Booleana para representar el comportamiento interno de las células, i.e., rutas de
señalización molecular, con sistemas basados en agentes que representan el comportamiento de las células y sus
interacciones, completados por un sistema de ecuaciones de difusión que añaden los términos interacción con el
entorno (e.g., matriz extracelular) y la distribución de elementos como oxígeno o fármacos. PhysiBoSS permite
simular cómo las mutaciones que afectan a vías de señalización celular, o la acción de determinados fármacos
influyen en la progresión de un tumor específico construido con datos reales de secuenciación de células únicas.
Aunque estos sistemas son útiles y efectivos en aplicaciones concretas, están inevitablemente lejos del nivel de
formalización de sistemas axiomáticos con el ejemplo de la predicción del tiempo, resultado difíciles de
implementar al requerir mucho conocimiento experto para su generación, requieren cálculos complejos y son
costosos en términos del gasto en instalaciones de HPC.
La emergencia de la IA está teniendo un gran impacto en el campo de las simulaciones mecanísticas. En el caso
de la meteorología, un sistema de Google entrenado con las simulaciones mecanísticas predice mejor la
evolución del tiempo que los propios modelos físicos, aunque con limitaciones obvias respecto a la predicción de
eventos extremos que por su naturaleza no están suficientemente representados en los datos de entrenamiento.
La biología está sufriendo un proceso similar en el que se confrontan los modelos mecanísticos tipo PhysiBoSS
con modelos de IA entrenados directamente con datos genómicos para la generación de células sintéticas,
reproduciendo las mismas contradicciones entre predictibilidad y explicabilidad de los modelos de predicción del
tiempo. En un futuro próximo, esperamos ver como una combinación de estas las aproximaciones mecanística y
IA guiada por datos, puede mejorar nuestra comprensión de los mecanismos subyacentes en enfermedades
complejas como el cáncer que contribuyan a mejorar la adaptación y eficacia de los tratamientos.
Conclusión
La IA está transformando la biología y la biomedicina. Su éxito depende de la disponibilidad de recursos de
supercomputación, la disponibilidad de datos complejos y la capacidad de los nuevos métodos en IA. Con las
nuevas aplicaciones de IA, incluyendo los LLMs aplicados a objetos biológicos y la fusión con los modelos
mecanísticos, estamos viendo como aumentan nuestras capacidades para producir nuevo conocimiento en forma
de hipótesis que pueden ser evaluadas experimentalmente, acelerando tanto el estudio de los sistemas y la
capacidad para predecir las consecuencias de perturbaciones, abriendo nuevas posibilidades para entender y
tratar enfermedades, detectar marcadores y desarrollar nuevos fármacos y tratamientos, para abordar los muchos
desafíos pendientes en ciencias de la vida y salud.
Dejar Comentario
Newsletter
Contacto




