El proyecto Genoma Humano llega a su fin

Dr. Javier Benítez
Genetista y Presidente de la Fundación QUAES
jbenitezo @ fundacionquaes.org

El borrador del proyecto “Genoma Humano” se presentó en febrero del 2001 en las revistas Nature y Science, el mismo día y a la misma hora. Una empresa privada, Celera, dirigida por Craig Venter, y el NIH, entidad pública americana, con Francis Collins como director del proyecto, compitieron con estrategias diferentes para descifrar el genoma, pero tras múltiples presiones estuvieron de acuerdo en presentar los resultados conjuntamente como un ejemplo más de la colaboración público privado (1,2). En aquél momento fueron capaces de secuenciar y descifrar al completo el 90% del genoma; identificar alrededor de 30.000 genes (en lugar de los 100000 que se pensaba que existían, y de los 20.000 que se sabe en la actualidad); mostrar que el viejo dogma, un gen una proteína no era correcto ya que un gen puede codificar para proteínas diferentes; encontrar múltiples secuencias repetidas de longitud variable y significado desconocido; y que el genoma humano coincidía en el 99.9% de las personas pero que se diferenciaba en un 0.01% de bases y que ese pequeño porcentaje de marcadores de un solo cambio de base (SNPs) era el responsable de las diferencias fenotípicas y de resistencia a susceptibilidad y enfermedad que presentamos. Quedaba un 10% por descifrar, pero los datos obtenidos permitían ser optimistas en cuanto al potencial conocimiento que nos ofrecía. El borrador presentaba algunos defectos, no solo en la cobertura (90%), sino también en el índice de errores (1/1000 bases), el número de vacíos o huecos en la lectura (unos 150.000), y solo el 28% se podía considerar como terminado.

En el 2003 se lanza un nuevo borrador más completo con un 92% de cobertura, una menor tasa de error (1/10.000 bases) y un menor número de huecos, 400. Finalmente, en el 2022, un consorcio de seis grupos, el T2T, “telomere to telomere” , descifró con éxito el 8% que faltaba del genoma y sus resultados se publicaron en la revista Science (3).

¿Qué nos aporta ese 8%?

La nueva secuenciación ha venido a resolver al 100% los interrogantes que quedaban; se han descifrado las duplicaciones recientes del ADN, las que se encontraban a lo largo del genoma y en lugares específicos, como las secuencias centroméricas tan importantes para la división celular, y la de los 5 brazos cortos con sus satélites de los 5 cromosomas acrocéntricos, el 13, 14, 15, 21, 22. También nos ha mostrado cómo estas regiones de los 5 cromosomas comparten el 97 % de su estructura.

En total, se han añadido 200 millones de pares de bases a los casi 3000 millones (actualmente 3.055 millones) que ya se tenían y que no se podían secuenciar por ser zonas muy repetitivas. En estas zonas hay predicciones de 1956 genes que se prevé que codifican para proteínas, de los que 99 no se tenía noticias de su existencia. El sistema HLA que codifica para 150 proteínas implicadas en susceptibilidad y resistencia, también a los rechazos a los trasplantes, o que protegen de muchas patologías e infecciones, puede ser uno de los beneficiarios. Su ausencia o mal funcionamiento es el origen de muchas enfermedades actualmente desconocidas que ahora se podrán estudiar. Estos posibles genes abren vías también para entender algunas otras enfermedades genéticas, la diversidad humana o la evolución de la especie. Aprender que un gen puede estar una vez en una persona y 24 veces en otra

Los telómeros han sido otros de los beneficiados al descifrar totalmente su estructura genética y seguro que ello ayudará a comprender el envejecimiento o el cáncer entre otros aspectos.

El éxito de este estudio hay que buscarlo en las nuevas tecnologías de secuenciación masiva que lo han hecho posible. La plataforma Oxford Nanopore permite leer la secuencia de millones de letras y corregir millones de errores. El otro secuenciador, PacBio logra lecturas de alta definición, de hasta 20.000 bases. Entre ambas han podido ir cerrando todos los huecos que había. Pero quizá lo más interesante sea el modelo o molde que se ha secuenciado. Una línea celular llamada T2T-CHM13 procedente de una mola hidatiforme, es decir, un tumor embrionario que ha expulsado el ADN materno y ha duplicado el ADN paterno. Tiene 46 cromosomas incluyendo los dos sexuales XX, y esto ha simplificado mucho la secuenciación de las zonas repetidas. Tiene sus inconvenientes y es que no es representativa de la variabilidad humana, y que se queda sin secuenciar el cromosoma Y, pero ambos problemas se están solventando. El primero con la secuenciación de 3000 genomas procedentes de todas partes del mundo, el proyecto Pangenoma (4) para estudiar la diversidad humana, y el segundo secuenciando un cromosoma Y con la tecnología incorporada y que se añadirá posteriormente a los datos de la línea T2T-CHM13.

¿Cómo es nuestro genoma?

El 98% del genoma está formado en su mayoría por ADN repetitivo, y solo el 2% es ADN codificante, que a su vez representa el 1% de la longitud del genoma. Algunos de estos ADNs repetitivos son reguladores de otros genes, otros son pseudogenes, o reliquias genómicas sin funcionamiento, y la mitad de todo ello es ADN repetido con secuencias casi idénticas. ¿Su papel? Durante años se ha considerado carente de función, pero cada vez más se identifican nuevas funciones. No obstante, en medicina forense es ya de gran utilidad porque las secuencias repetidas son de número y extensión variable entre humanos y ello permite diferenciarlos en base a esa huella. En diagnóstico genético porque hay genes responsables de enfermedades que contienen secuencias repetidas que son “patológicas” cuando pasan de un determinado nivel de repeticiones. Los transposones son secuencias repetidas que saltan de un sitio a otro en el ADN y pueden llegar a regular genes (hay algunos primates que han perdido la cola por la represión del gen “cola” por un trasposón). Y como no, en la evolución de la especie y en la diversidad misma. Pasará un tiempo antes de saber la verdadera implicación, pero no hay duda de que estamos en un momento clave de la historia.