La Inteligencia Artificial en Biología y Biomedicina: Una Revolución con Tres Pilares

25 abril, 2025

Alfonso Valencia

ICREA Professor | Barcelona Supercomputing Center- Centro Nacional de Supercomputación (BSC-CNS).

 

La inteligencia artificial (IA) está transformando radicalmente muchas áreas de actividad humana y

particularmente la forma en que abordamos problemas complejos en ciencia en general y biología y biomedicina

en particular, con aplicaciones que van desde la biología molecular hasta la medicina.

El desarrollo de la IA dependen de tres pilares fundamentales: la supercomputación, la disponibilidad de datos, y

los nuevos métodos en IA, como los modelos de lenguaje (LLMs, por sus siglas en inglés). En este artículo,

exploraremos cómo estos pilares están impulsando avances en áreas como la genómica, el diseño de proteínas y

la biomedicina, con ejemplos concretos de las nuevas posibilidades, para finalizar con una discusión de

posibilidades futuras pero también de las limitaciones tanto técnicas como éticas y legales.

La Inteligencia Artificial (IA)

De modo muy general podemos definir la inteligencia artificial como un campo de la informática que busca crear

sistemas capaces de realizar tareas que normalmente requieren inteligencia humana, como el aprendizaje, la

toma de decisiones y el reconocimiento de patrones. Estos sistemas son capaces de procesar grandes cantidades

de datos, identificar patrones y hacer predicciones o recomendaciones manejando cantidades de información

complejas que en la práctica son inaccesibles a los humanos.

Dentro de la IA, los modelos de lenguaje son una de las herramientas novedosas y ciertamente una de las que ha

tenido mayores una repercusión y aceptación a nivel social (el popular chatGPT alcanzó un millón de usuarios en

24 horas, un marca nunca antes alcanzada). Estos modelos, fueron diseñados inicialmente para procesar y

generar texto, pero su aplicación se ha extendido más allá del lenguaje humano. En biología y biomedicina, los

LLMs se están utilizando para analizar secuencias genómicas, predecir secuencias y estructuras de proteínas o

generar datos sintéticos de distinto tipo de entidades biológicas en biomedicina. En resumen, la IA y en particular

los LLMs, se han convertido en herramientas versátiles para la investigación científica.

La Necesidad de Supercomputación: MareNostrum 5 y las IA Factories

El primer pilar para el desarrollo de la IA es la supercomputación. De hecho podemos decir que la IA no se ha

desarrollado hasta que no han existido ordenadores suficientemente potentes. Sin una potencia de cálculo

masiva, el avance de la IA simplemente no es posibles. El Barcelona Supercomputing Center- Centro Nacional de

Supercomputación (BSC-CNS, con su supercomputador MareNostrum 5, es un ejemplo paradigmático.

MareNostrum 5 es uno de los tres ordenadores más potentes en Europa, con una capacidad de procesamiento

de 314 Petaflops. Esta capacidad es esencial para entrenar modelos de IA complejos, como los que se utilizan en

la generación de modelos de lenguaje como los que están detrás del popular chatGPT. En el caso del BSC el

modelos ALIA, un modelo entrenado desde cero, enriquecido en lenguas oficiales del estado, que en sus dos

versiones de 7BP y 40BP compite con los grandes modelos públicos a nivel mundial.

Además, Europa está respondiendo al desafío de la IA a nivel mundial, con el desarrollo de las IA Factories,

centros dedicados a la creación y aplicación de modelos de IA al servicio de la industria Europea en sectores,

como biomedicina. La IA Factory del BSC, proporcionará la infraestructura necesaria para el desarrollo

aplicaciones de IA y LLMs fomentando el desarrollo de nuevas y más potentes aplicaciones en compañíaspequeñas y medianas, así como en las administraciones públicas con el objetivo de mejorar su competitividad

dentro del marco regulatorio Europeo y los valores éticos que Europa defiende.

Disponibilidad de Datos Heterogéneos y Complejos

El segundo pilar es la disponibilidad de datos. En biología, los datos son necesariamente ruidosos dada su

procedencia experimental y son complejos en el sentido de que para su análisis es necesario incluir el contexto yl

la interrelación con otros datos. Por ejemplo, en el análisis de un genoma del cáncer, los datos incluirán un

número indeterminado de tipos celulares, errores de secuenciación, ruido introducido durante el procesamiento

de la muestra, para extraer conclusiones será necesario entender la función asociada a los genes y la posibles

consecuencia de las mutaciones, la procedencia de la muestra, tipo de tumor, estado del paciente, etc. Además

los datos de humanos son altamente confidenciales lo que complica enormemente su uso en investigación.

Esperamos que la implementación del espacio de Europeo de datos (Europena Health Data Space) y la

implementación de los espacios nacionales de datos de cáncer (National Cancer Data Hubs) emanados de la

misión Europea en cáncer (UNCAN) vayan haciendo progresivamente más accesible los datos generados en

atención primaria en hospitales y centros de salud para investigación. Desde el punto de vista tecnológico, dos

proyectos Europeos: Europan Genome Data Infrastructura y EUCAIM, en imagen médica, junto a la contribución

de las infraestructuras Europea, en espacial ELIXIR, están sentando los pilares para el descubrimiento, acceso y

análisis federado de datos. EN paralelo, los proyectos nacionales, en nuestro caso IMPaCT-Data, financiado por el

Instituto de Saludo Carlos III, son los encargados de reflejar estos desarrollos en implementaciones nacionales a

nivel de hospitales, Institutos de Investigación Sanitaria y centros de investigación.

Nuevos Métodos en IA: Modelos Basados en Proteínas y Genomas

El tercer pilar de la IA son los propios algoritmos que están evolucionado muy rápidamente, sin olvidar que

todavía estamos en una primera generación de los mismos. El ejemplo más relevante del impacto de las nuevas

tecnologías es, sin duda, el software de AlphaFold. El método de predicción de estructura de proteínas,

reconocido por el premio Nobel de 2024 al equipo de DeepMind, y que es ahora una herramienta imprescindible

en cualquier laboratorio que trabaje con proteínas y se ha convertido en la demostración indiscutible de la

capacidad de la IA para cambiar radicalmente un área completa de investigación.

Es interesante que el desarrollo de AlphaFold en 2022 basado en redes neuronales profundas, fue seguido un par

de años después por una nueva generación de modelos basados en una tecnología completamente nueva en

este caso basadas en modelos de lenguaje, capaza de generar millones de secuencias de proteínas nuevas con

potenciales nuevas funciones. Aun es más, ese mismo año, el equipo de DeepMInd generó una nueva versión de

AlphaFold basada en una nueva tecnología de IA (modelos de difusión). Este caso debe servir para ilustrar a qué

velocidad se mueve la tecnología en este área y como las proteínas están resultado ser un área de aplicación

ideal.

La revolución que los métodos de IA están produciendo en el campo de las proteínas impulsando el diseño de

nuevas proteínas con funciones específicas, la identificación de dianas terapéuticas junto a la interacción con

potenciales fármacos. Sin embargo, esto solo es el principio de la aplicación de la IA a la biología, con la

genómica como siguiente objetivo. Los modelos de lenguaje aplicados a secuencias genómicas están

permitiendo sintetizar genomas cada vez más similares a los genomas reales en cuanto a la organización de los

elementos característicos (genes, exones, promotores, enhancers, sitios de unión de factores de transcripción,

etc.). Un ejemplo reciente y destacado en este sentido es Evo, una IA capaz de generar secuencias genómicas

sintéticas desde cero. Este tipo de sistemas tienen aplicaciones prometedoras en biotecnología y biología

sintética asociadas a la generación de genomas sintéticos completos o en medicina en el caso de la predicción de

los niveles de expresión génica a partir de las secuencias genómicas y epigenómicas o la predicción de las

consecuencias de las mutaciones en el ADN pueden afectar a la función de las proteínas.

El Futuro de la IA en la Fusión con los Modelos MecanicistasLos modelos mecanicistas, basados en leyes físicas y biológicas, son esenciales para entender los procesos

biológicos y también para el proceso de aprobación de medicamentos. Un ejemplo de este tipo modelado

mecanicistas es la predicción del tiempo basada en modelos de los distintos componentes de sistema

(temperatura, presión, humedad) alimentados con datos de una multitud de observaciones (satélites, estaciones,

etc). En biología molecular, el ejemplo al caso son los de la evolución tumores con el software PhysiBoss. Este

sistema combina la simulación Booleana para representar el comportamiento interno de las células, i.e., rutas de

señalización molecular, con sistemas basados en agentes que representan el comportamiento de las células y sus

interacciones, completados por un sistema de ecuaciones de difusión que añaden los términos interacción con el

entorno (e.g., matriz extracelular) y la distribución de elementos como oxígeno o fármacos. PhysiBoSS permite

simular cómo las mutaciones que afectan a vías de señalización celular, o la acción de determinados fármacos

influyen en la progresión de un tumor específico construido con datos reales de secuenciación de células únicas.

Aunque estos sistemas son útiles y efectivos en aplicaciones concretas, están inevitablemente lejos del nivel de

formalización de sistemas axiomáticos con el ejemplo de la predicción del tiempo, resultado difíciles de

implementar al requerir mucho conocimiento experto para su generación, requieren cálculos complejos y son

costosos en términos del gasto en instalaciones de HPC.

La emergencia de la IA está teniendo un gran impacto en el campo de las simulaciones mecanísticas. En el caso

de la meteorología, un sistema de Google entrenado con las simulaciones mecanísticas predice mejor la

evolución del tiempo que los propios modelos físicos, aunque con limitaciones obvias respecto a la predicción de

eventos extremos que por su naturaleza no están suficientemente representados en los datos de entrenamiento.

La biología está sufriendo un proceso similar en el que se confrontan los modelos mecanísticos tipo PhysiBoSS

con modelos de IA entrenados directamente con datos genómicos para la generación de células sintéticas,

reproduciendo las mismas contradicciones entre predictibilidad y explicabilidad de los modelos de predicción del

tiempo. En un futuro próximo, esperamos ver como una combinación de estas las aproximaciones mecanística y

IA guiada por datos, puede mejorar nuestra comprensión de los mecanismos subyacentes en enfermedades

complejas como el cáncer que contribuyan a mejorar la adaptación y eficacia de los tratamientos.

Conclusión

La IA está transformando la biología y la biomedicina. Su éxito depende de la disponibilidad de recursos de

supercomputación, la disponibilidad de datos complejos y la capacidad de los nuevos métodos en IA. Con las

nuevas aplicaciones de IA, incluyendo los LLMs aplicados a objetos biológicos y la fusión con los modelos

mecanísticos, estamos viendo como aumentan nuestras capacidades para producir nuevo conocimiento en forma

de hipótesis que pueden ser evaluadas experimentalmente, acelerando tanto el estudio de los sistemas y la

capacidad para predecir las consecuencias de perturbaciones, abriendo nuevas posibilidades para entender y

tratar enfermedades, detectar marcadores y desarrollar nuevos fármacos y tratamientos, para abordar los muchos

desafíos pendientes en ciencias de la vida y salud.

Dejar Comentario

Déjanos tu comentario, es importante para nosotros. Tu email nunca será publicado..

Por favor espere...

La Inteligencia Artificial en Biología y Biomedicina: Una Revolución con Tres Pilares - Fundación Quaes