La inteligencia artificial aplicada al estudio y organización del genoma humano

Dr. Javier Benítez. Genetista, miembro del Comité Científico de la Fundación QUAES.

El Proyecto Genoma Humano fue iniciado en 1990 y finalizado en 2003. Este esfuerzo internacional sentó las bases para entender y trabajar en lo que es hoy día la genómica moderna. En la actualidad, sabemos que el ADN se extiende a lo largo de 3.200 millones de pares de bases que contienen alrededor de 20.000 genes. Estos genes codifican para proteínas que tienen una función específica en nuestro organismo. Curiosamente, nuestros genes sólo ocupan el 2% del genoma, que constituye el llamado DNA codificante. Durante las pasadas dos décadas y gracias al desarrollo y automatización de la tecnología molecular, se han ido identificando y conociendo la función de las proteínas que codifican los genes en condiciones normales, y la asociación con distintas enfermedades y malformaciones a las que dan lugar cuando sufren una mutación. Sin embargo, quedan todavía por estudiar un 30% de los genes de los que no conocemos nada, ni de las proteínas que generan, ni de la función que tienen en nuestro organismo (1). Y esto es uno de los grandes desafíos que tiene la genética moderna.

¿Y qué hay en el 98% restante de nuestro genoma, aquél que no es codificante y que está inexplorado? Actualmente sabemos que ese ADN, que se le dio el nombre de ADN basura, está ocupado por diferentes elementos cuyos nombres son desconocidos para la mayoría de las personas: ADN repetitivo, elementos móviles, trasposones o elementos reguladores entre otros. Estas variaciones genómicas no producen proteínas, pero determinan cuándo, dónde y en qué cantidad se expresan los genes, y su interpretación y organización, sigue siendo uno de los mayores retos de la genómica debido al importante papel que desempeñan en numerosos procesos biológicos y en el desarrollo de enfermedades.

Un ejemplo son los elementos reguladores, que son pequeñas secuencias de ADN a las que se pegan proteínas que van dirigiendo y regulando la función de un gen, cuándo y dónde se va a activar, y cuándo y dónde se va a desactivar. Son muy relevantes porque si están alterados, el gen se activará o desactivará donde no toca y esto puede generar enfermedades congénitas.

Todos estos elementos y variantes genéticas son responsables de la gran complejidad del genoma en cuanto a su organización, activación génica y control, y es una parte tan inexplorada que se le ha conocido como ADN basura y más recientemente ADN oscuro. Identificar todas esas variantes alteradas en el 98% del ADN no codificante, variantes que en muchas ocasiones van a regular la función de genes que se encuentran en el 2% de las regiones codificantes a una gran distancia, de miles de pares de bases, e interpretar toda esa información, es otro de los retos que tiene la genética. El poder hacerlo es tan complejo que se necesita una gran potencia informática, y aquí es donde la inteligencia artificial (IA) está demostrando ser clave en este proceso.

Aportaciones de la IA en el estudio del Genoma Humano:

La IA es un campo de la informática dedicado a desarrollar sistemas capaces de realizar tareas que, tradicionalmente, requieren inteligencia y manipulación humana. La IA utiliza algoritmos para el manejo de grandes volúmenes de datos y técnicas como el aprendizaje automático (machine learning) para aprender patrones, tomar decisiones y resolver problemas.

La IA no es una única tecnología, sino un conjunto de tecnologías que están revolucionando la forma en que interactuamos con la propia tecnología y con la genómica y la biología humana, permitiendo interpretar la vasta cantidad de información contenida en el ADN a una velocidad y precisión sin precedentes. Asimismo, la capacidad de buscar pequeños patrones repetidos entre enormes bases de datos le proporciona un gran potencial para el estudio del genoma.

Los algoritmos avanzados que ha desarrollado permiten detectar variaciones genéticas asociadas a ciertas enfermedades. Además, facilitan la anotación del genoma, es decir, la identificación de nuevos genes y sus funciones. Gracias a la IA, estamos conociendo detalles sobre los elementos reguladores del genoma que determinan cómo se expresan nuestros genes y los de otros seres vivos.
La IA también está revolucionando la medicina personalizada. Los algoritmos de IA, permiten analizar genomas individuales para predecir la predisposición a enfermedades específicas y sugerir terapias optimizadas. Este enfoque permite tratamientos más eficaces y menos invasivos.

Finalmente, un objetivo prioritario es llegar a conocer ese 30% de genes y sus proteínas correspondientes e identificar de entre los miles de compuesto de nuestro metabolismo aquellos que interactúan con esas proteínas de manera que se pueda acelerar el desarrollo de fármacos para enfermedades que aún no tienen cura.

Algunas de las aplicaciones:

Interpretación del ADN «basura»: La IA se utiliza ya para analizar las partes no codificantes del genoma (lo que se ha llamado «ADN basura»), identificando variantes genéticas que pueden ser causa de enfermedades.
Diagnóstico de enfermedades raras: Modelos de IA, como popEVE, pueden predecir la probabilidad de que una variante genética específica cause una enfermedad, acelerando el diagnóstico, incluso en casos de mutaciones únicas.
Medicina de precisión y de predisposición: Algoritmos que analizan los genomas de tumores para identificar mutaciones accionables, aquellas mutaciones en un gen que responden a terapias específicas, y recomendar terapias personalizadas más efectivas. También para valorar la predisposición al desarrollo de enfermedades genéticas y su tratamiento individualizado.
Análisis de secuencias a gran escala: Mediante el desarrollo de herramientas bioinformáticas se puede predecir el impacto de mutaciones individuales en una amplia gama de procesos biológicos, analizando secuencias de ADN no codificante y complejas rápidamente.
Desarrollo de nuevos fármacos: La IA permite generar grandes cantidades de datos de los cientos de miles de moléculas que interaccionan con las proteínas y seleccionar aquellas que puedan ser de interés para modular la función y hacer que hagan de manera correcta la función para la que están programadas (2).

Y, alguno de los algoritmos más usados para esas aplicaciones surgen de Google Deepmind que lleva diez años queriendo ser referente en IA: En el 2018 presentó AlphaFold (3), una herramienta para predecir la forma en 3D de millones de proteínas. Sus resultados se ofrecen en abierto a la comunidad científica y dos de sus investigadores: Demis Hassabis y John Michael Jumper fueron distinguidos con el Nobel de Química el año pasado “por sus contribuciones al uso de inteligencia artificial para la predicción exacta de la estructura tridimensional de las proteínas”. También están AlphaMissense (3), que predice si un cambio en una sola letra del ADN codificante causará una enfermedad, y AlphaProteo (2024), para crear proteínas desde cero.

Y ahora ha presentado ante la comunidad científica AlphaGenome, una herramienta de IA diseñada para entender ese 98% de ADN oscuro y cómo pequeñas variaciones pueden alterar la actividad de los genes en las regiones codificantes (5).

Uno de los principales usos de AlphaGenome es ayudar a identificar variantes genéticas relacionadas con enfermedades. Esto es especialmente relevante en el caso de las variantes situadas fuera de los genes, cuya función era hasta ahora más difícil de interpretar. AlphaGenome permite estimar su impacto de forma directa, evaluando si cambian la expresión, o afectan al procesado del ARN o a la accesibilidad del ADN.

AlphaGenome recientemente publicada en Nature (5), es capaz de predecir la función de secuencias de ADN de hasta un millón de pares de bases y miles de propiedades moleculares: Dónde empiezan y terminan los genes, cómo se procesa el ARN, cuánta expresión génica se produce, qué regiones del ADN están accesibles o qué proteínas se unen a ellas y cómo las variaciones en esas secuencias en su mayoría localizadas en regiones no codificantes influyen en la regulación de los genes. Un ejemplo es la reciente identificación de una mutación específica de leucemia linfoblástica aguda de células T. Los investigadores utilizaron herramientas de IA para predecir que una variante en ADN no codificante creaba un nuevo sitio de unión para la proteína del oncogén MYB, que se encuentra en ADN codificante, y este gen provoca a su vez la activación de otro oncogén cercano TAL1, que facilita el desarrollo de la leucemia, mostrando este proceso su capacidad para vincular variantes no codificantes con genes diana (6).

AlphaGenome representa un avance significativo en el análisis del genoma. Comprender cómo las pequeñas variaciones en el ADN alteran la actividad de los genes es uno de los mayores desafíos de la genómica. No obstante, como cualquier herramienta científica, presenta ciertas limitaciones. Una de las principales es su capacidad limitada para capturar con total precisión los efectos de regiones reguladoras muy alejadas entre sí —aquellas que se encuentran a más de 100.000 pares de bases de distancia. Otros problemas no menos importantes radican en la dificultad de interpretar algunos algoritmos complejos, o los problemas éticos y regulatorios como privacidad y equidad en el acceso a la tecnología, y la vulnerabilidad en ciberseguridad que ponen en riesgo datos sensibles. Abordar estos desafíos permitirá maximizar los beneficios del uso de la IA.

1-Artificial intelligence in clinical and genomic diagnostics. Raquel Dias , Ali Torkamani. Genome Med. 2019 Nov 19;11(1):70. doi: 10.1186/s13073-019-0689-8.

2-Edwards, A.M., Owen, D.R. & The Structural Genomics Consortium Target 2035 Working Group. Protein–ligand data at scale to support machine learning. Nat Rev Chem 9, 634–645 (2025). https://doi.org/10.1038/s41570-025-00737-z

3-Highly accurate protein structure prediction with AlphaFold. Jumper J, et al. Nature. 2021 Aug;596(7873):583-589. doi: 10.1038/s41586-021-03819-2. Epub 2021 Jul 15.PMID: 34265844 Free PMC article.

4-Accurate proteome-wide missense variant effect prediction with AlphaMissense. Cheng J,et al Science. 2023 Sep 22;381(6664):eadg7492. doi: 10.1126/science.adg7492. Epub 2023 Sep 22.PMID: 37733863 Free article

5-DeepMind’s new AlphaGenome AI tackles the ‘dark matter’ in our DNA.Callaway E. Nature. 2025 Jul;643(8070):17-18. doi: 10.1038/d41586-025-01998-w.PMID: 40562910 No abstract available.

6-Advancing regulatory variant effect prediction with AlphaGenome. Avsec Ž, Latysheva N, et al . Nature. 2026 Jan;649(8099):1206-1218. doi: 10.1038/s41586-025-10014-0. Epub 2026 Jan 28.PMID: 41606153 Free PMC article.