Este curso entrega los principales conceptos del estudio de genes, genomas y proteomas desde una perspectiva integradora que abarca la biología molecular, la bioinformática y la estadística. Se abordan la estructura y función de los genes, la organización y evolución de los genomas, la replicación y recombinación del ADN, y la transcripción y su regulación.
Se suman los métodos modernos para generar y analizar datos genómicos y proteómicos: secuenciación de nueva generación, transcriptómica, epigenómica y espectrometría de masas. Combina clases, seminarios y trabajo autónomo, con énfasis en la lectura crítica de la literatura y el diseño riguroso de experimentos a nivel de sistemas.
| 50% | Seminarios o tareas semanales con exposición oralCada estudiante lidera la discusión del artículo que tiene asignado (ver Calendario y Lecturas). |
| 50% | Dos pruebas de desarrolloPrueba 1 (Temas 1–6) y Prueba 2 (Temas 7–11). |
| Ses. | Fecha | Tipo | Tema y lecturas |
|---|---|---|---|
| S01 | 19 jun | Ya realizada | Presentación del curso |
| S02 | 26 jun | Clase · Prof. | Clase: «La evidencia de la evolución y la homología» · lectura previa: Sección 1 |
| S03 | 3 jul | Seminario · Secc. 1 | Evolución, homología y genómica comparada L01 Valentina Garrido · L02 Joaquín Arriagada · L03 Víctor Ríos Campos |
| S04 | 10 jul | Seminario · Secc. 1–2 | Evolución / Estructura del genoma y secuencias repetitivas L04 Lucas Casanova · L05 Bruno Covarrubias · L06 Gabriela Urra Gajardo |
| S05 | 17 jul | Seminario · Secc. 3 | Replicación, recombinación, TEs y retrovirus L07 Javiera Brito Cabezas · L08 Ana Cáceres Troncoso · L09 Darien Salgado |
| S06 | 24 jul | Seminario · Secc. 4 | Expresión génica, splicing, ARN catalítico y código L10 Jordi Hernández · L11 Pedro Valdés · L12 Patricio Suazo Soto |
| S07 | 31 jul | Seminario · Secc. 5–6 | Secuenciación masiva / Diseño, ensamblaje y anotación L13 Talía Rodríguez · L14 Joan Izquierdo · L15 Valentina Garrido |
| S08 | 7 ago | Prueba 1 | Prueba de desarrollo 1 · Temas 1–6 · todo el curso |
| S09 | 14 ago | Seminario · Secc. 6–7 | Anotación / Modelos estadísticos para datos ómicos L16 Joaquín Arriagada · L17 Víctor Ríos Campos · L18 Lucas Casanova |
| S10 | 21 ago | Seminario · Secc. 8 | Genómica funcional (single-cell, ChIP/ATAC, metilación) L19 Bruno Covarrubias · L20 Gabriela Urra Gajardo · L21 Javiera Brito Cabezas |
| S11 | 28 ago | Seminario · Secc. 9 | Proteómica y biomarcadores L22 Ana Cáceres Troncoso · L23 Darien Salgado · L24 Jordi Hernández |
| S12 | 4 sep | Seminario · Secc. 10 | Integración de datos multiómicos L25 Pedro Valdés · L26 Patricio Suazo Soto · L27 Talía Rodríguez |
| S13 | 11 sep | Prueba 2 · cierre | Prueba de desarrollo 2 · Temas 7–11 + cierre del curso · todo el curso |
Veintisiete artículos recientes (2023–2026), uno por estudiante por sesión. La numeración (L01–L27) coincide con la del calendario.
Síntesis del 8.º encuentro «Quest for Orthologs» que revisa el estado de la inferencia de ortología y paralogía, y cómo la IA, las estructuras proteicas predichas, las isoformas de splicing y la evolución de dominios remodelan la detección de ortólogos y la anotación funcional.
La clase distingue ortología, paralogía y xenología mediante las pruebas de Patterson. ¿Cómo operacionalizan los métodos computacionales modernos esa lógica conceptual, y qué supuestos evolutivos podrían fallar al inferir ortología a escala genómica con herramientas basadas en IA?
Cerca del 8% del genoma humano corresponde a retrovirus endógenos (HERV) integrados en posiciones ortólogas hace decenas de millones de años y heredados verticalmente; algunos fueron cooptados para funciones esenciales (p. ej., sincitinas en la placentación).
Los ERV en loci ortólogos compartidos son una de las evidencias moleculares más sólidas de ascendencia común. ¿Por qué una integración independiente en el mismo sitio ortólogo es astronómicamente improbable, y qué advertencias (p. ej., PTERV1) deben tenerse en cuenta al usarlos como marcadores filogenéticos?
Reconstruye la biología inferida de LUCA a partir de filogenómica de genes conservados, argumentando que ya realizaba el metabolismo central y la síntesis de proteínas, y muestra cómo las decisiones de modelo y datos moldean lo que inferimos sobre la raíz del árbol de la vida.
La clase presenta el código casi universal y la maquinaria central compartida como evidencia de un único ancestro común (prueba de la UCA de Theobald, 2010). ¿Cómo dependen las reconstrucciones de LUCA de los supuestos de los modelos, y qué señal distingue la verdadera ascendencia común de la mera similitud de secuencia?
Presenta ESL-PSC, un método filogenético de aprendizaje automático que usa contrastes entre pares de especies para identificar genes y sitios tras rasgos convergentes (fotosíntesis C4, ecolocalización), descontando la convergencia aparente debida a la ascendencia compartida.
El contraste central de la clase es homología vs. convergencia (las «alas» de aves y murciélagos). ¿Cómo separa este método la convergencia molecular genuina de la similitud heredada, y qué riesgos de falsos positivos persisten al buscar firmas de convergencia en todo el proteoma?
Recorrido completo del ADN repetitivo —repeticiones en tándem, elementos transponibles y duplicaciones segmentarias—: cómo se clasifican, cómo se detectan computacionalmente y cómo impulsan la evolución del genoma y contribuyen a enfermedades humanas complejas.
Dado que las secuencias repetitivas ocupan una gran fracción del genoma humano y se asocian con enfermedades, ¿cómo debería integrarse su detección y anotación en el diseño de un experimento de genómica funcional? ¿Qué desafíos metodológicos hay que considerar?
Mediante ensamblajes telómero a telómero de seis especies de grandes simios, resuelve regiones repetitivas antes inaccesibles (duplicaciones segmentarias, centrómeros, loci del MHC), aportando una nueva línea base para entender la evolución y la diversidad del genoma humano.
Solo ciertas regiones se resolvieron con ensamblaje telómero a telómero. ¿Qué implica esto para interpretar conclusiones evolutivas extraídas de genomas de referencia previos con vacíos? ¿Cómo cambia nuestra comprensión de la evolución del genoma?
Las secuencias de inserción IS110 codifican un «ARN puente» no codificante que contacta simultáneamente el ADN donante y el diana para guiar la recombinación sitio-específica: un mecanismo enteramente nuevo de edición de ADN guiada por ARN, con potencial programable.
Los ARN puente son un paradigma nuevo, distinto de CRISPR. Compara su lógica mecanística con la edición CRISPR-Cas9. ¿Qué implicaciones tiene para la ingeniería de genomas y la biología de los elementos transponibles?
Recorre el ciclo de vida de los retrotransposones humanos (LINE-1, Alu, HERV) y los mecanismos del hospedero que controlan sus intermediarios de ARN y ADNc. Su reactivación durante la tumorigénesis, el desarrollo, el estrés y el envejecimiento compromete la estabilidad genómica, a la vez que estos elementos operan como motores de diversidad genética y de la inmunidad innata.
Los retrotransposones son a la vez parásitos genómicos y elementos reguladores. ¿Qué factores del hospedero restringen su movilización en las células somáticas y cómo su desregulación conecta inestabilidad genómica, inflamación y autoinmunidad?
Traza los mecanismos bioquímicos de la recombinación homóloga —de la invasión de cadena a la resolución de uniones de Holliday— integrando hallazgos recientes de experimentos con moléculas únicas sobre la cinética y los intermediarios estructurales del proceso.
¿Cómo revisan o refinan los estudios de molécula única los modelos clásicos de HR? ¿Qué implicaciones tienen estos detalles mecanísticos para entender la recombinación meiótica y la generación de diversidad genética?
Hasta el 40% de los intrones de mamíferos se procesan después de la terminación de la transcripción, lo que replantea el splicing postranscripcional como una capa reguladora importante del control de la expresión génica en el desarrollo, el estrés y la enfermedad.
La visión tradicional considera el splicing como mayormente cotranscripcional. ¿Cómo cambia el splicing postranscripcional generalizado nuestra comprensión de cómo las células regulan el momento y la abundancia de isoformas proteicas específicas?
La proximidad física de un gen a los nuclear speckles —condensados enriquecidos en reguladores del splicing— determina directamente la eficiencia con la que se procesa su pre-ARNm, vinculando la organización tridimensional del núcleo con la expresión génica.
Si la posición genómica en el núcleo —y no solo la secuencia— controla la eficiencia del splicing, ¿cómo se integra este modelo espacial con las señales de splicing basadas en secuencia? ¿Qué diseños distinguirían ambos mecanismos?
Las modificaciones químicas del ARNm (m6A, m5C, pseudouridina) constituyen un «epitranscriptoma» que influye en cada etapa de la vida del ARNm, desde la transcripción hasta la degradación, ofreciendo nuevas perspectivas sobre el control postranscripcional.
¿Cómo se comparan las modificaciones epitranscriptómicas con la metilación del ADN como mecanismos reguladores? Al diseñar un experimento de RNA-seq o proteómica, ¿qué pasos tomarías para controlar sus efectos de confusión en la cuantificación?
Mapea el panorama de las plataformas NGS y sus aplicaciones en genómica, transcriptómica, epigenómica y metagenómica, cubriendo principios técnicos, desafíos de análisis y la trayectoria hacia la secuenciación de moléculas únicas y de lecturas largas.
Para una pregunta de investigación de tu área (p. ej., regulación génica en un organismo no modelo), ¿qué plataforma NGS elegirías y cómo tendría en cuenta tu diseño experimental las limitaciones de esa plataforma?
Con una comunidad mock controlada, compara Illumina, PacBio y Nanopore en recuperación de genomas, tasas de error y predicción génica, y encuentra que los ensamblajes híbridos (Illumina + Nanopore) superan a cualquier tecnología por separado.
Ninguna tecnología es óptima en todos los contextos. Para secuenciar un genoma eucariota complejo con muchas repeticiones, ¿cómo diseñarías una estrategia híbrida y qué métricas usarías para evaluar la calidad del ensamblaje?
Pipeline automatizado de anotación que integra RNA-seq y bases de datos de proteínas con modelos génicos entrenados de forma iterativa, superando a enfoques previos especialmente en genomas eucariotas grandes y complejos.
Compara las contribuciones de la evidencia de RNA-seq frente a la homología proteica al entrenar buscadores de genes. Sin datos transcriptómicos de una especie nueva, ¿cómo priorizarías tu estrategia de anotación?
Comparación sistemática de 12 métodos de anotación en 21 especies: TOGA, BRAKER3 y StringTie son consistentemente los de mejor desempeño, y los datos de RNA-seq mejoran sustancialmente la anotación en organismos no modelo.
¿En qué condiciones filogenéticas esperarías que falle la transferencia de anotación, y cómo combinarías evidencia de transferencia con evidencia de novo (RNA-seq, proteínas) para anotar un linaje sin parientes cercanos bien anotados?
Compara enfoques binomial negativo, bayesianos, de modelos lineales y no paramétricos para expresión diferencial en RNA-seq, discutiendo compromisos de sensibilidad, especificidad y robustez según tamaño muestral y diseño.
Los tamaños muestrales pequeños son un desafío persistente. Para el diseño de un seminario, ¿cómo justificarías tu elección de modelo estadístico y qué análisis de potencia harías a priori para fijar el número mínimo de réplicas biológicas?
Identifica cuatro «maldiciones» de la expresión diferencial en single-cell (exceso de ceros, normalización, efectos de donante y sesgos acumulativos) y propone un marco de efectos mixtos Poisson/Binomial generalizado (GLIMES).
GLIMES usa expresión absoluta en lugar de abundancia relativa. ¿Qué implicaciones tiene para la interpretación biológica? ¿Cómo decidirías entre un marco de cuantificación relativa y uno absoluto en tu investigación?
Revisión de las tecnologías de célula única que perfilan simultáneamente transcriptoma, epigenoma y proteoma de una misma célula, con aplicaciones en atlas celulares, inmunología tumoral y trazado de linajes.
El perfilado simultáneo de transcriptoma y accesibilidad de la cromatina aporta información complementaria, a veces contradictoria. Diseña un experimento multiómico de célula única para estudiar la regulación génica durante la diferenciación, especificando qué modalidades medirías y por qué.
Describe spatial-ATAC-RNA-seq y spatial-CUT&Tag-RNA-seq, métodos que coperfilan expresión génica y marcas epigenómicas dentro de secciones de tejido intactas a resolución casi de célula única.
¿Cómo cambia, al preservar la información espacial, lo que se puede concluir frente a los enfoques de célula única disociada? Propón una pregunta de tu área que requiera específicamente multiómica con resolución espacial.
Secuenciación con bisulfito de genoma completo de 39 tipos celulares humanos purificados para construir un atlas del metiloma que revela enhancers específicos de tipo celular y loci regulados por Polycomb; referencia para biopsia líquida y estudios de enfermedad.
¿Cómo usarías este atlas para inferir la composición celular de un tejido heterogéneo a partir de bisulfito en bulk? ¿Qué limitaciones tendría el enfoque?
Revisión tipo manual del flujo completo de la proteómica bottom-up: extracción y digestión de proteínas, adquisición por LC-MS/MS e interpretación bioinformática; base para quien diseñe un experimento de proteómica.
La proteómica bottom-up pierde información sobre proteoformas intactas por la digestión. ¿En qué contextos sería más consecuente esta pérdida, y cómo complementarías el enfoque para abordarla?
Explica por qué la adquisición independiente de datos (DIA) transformó la proteómica al permitir medir de forma no sesgada y reproducible todos los péptidos detectables, y discute software, aplicaciones clínicas y desafíos pendientes para el diagnóstico de rutina.
Los autores recomiendan usar varias herramientas DIA en paralelo porque cada una tiene sesgos. ¿Qué implica para la reproducibilidad clínica? ¿Cómo diseñarías un estudio de validación para un panel de biomarcadores descubierto por DIA-MS?
Estado de la proteómica dirigida por LC-MS/MS para medir biomarcadores de cáncer en muestras clínicas, contrastándola con inmunoensayos y discutiendo el camino del descubrimiento a la validación clínica y sus desafíos.
Dada la brecha entre descubrimiento y validación clínica, propón un marco de validación por etapas para un biomarcador de cáncer recién descubierto, especificando los criterios estadísticos y técnicos de cada etapa.
Panorama experimental y computacional de la multiómica de célula única y espacial: cómo la medición conjunta de transcriptoma, epigenoma, proteoma y metaboloma transforma la comprensión del desarrollo, la enfermedad y la identidad celular.
La multiómica facilita la inferencia causal al vincular capas moleculares. ¿Qué supuestos computacionales y estadísticos deben cumplirse para que esas inferencias sean válidas, y cómo los comprobarías en un conjunto de datos concreto?
Con un cuarteto familiar como sistema de referencia con verdad de base, muestra que la cuantificación absoluta —no el perfilado basado en razones— es la causa raíz de la irreproducibilidad en la integración multiómica, y propone una solución práctica.
Si el mayor obstáculo es la falta de materiales de referencia comunes y no los algoritmos, ¿cómo diseñarías un estudio multiómico para maximizar la reproducibilidad entre lotes y plataformas? ¿Qué referencias y métricas de control adoptarías?
Clasifica arquitecturas de deep learning para integración multiómica (feedforward, redes convolucionales de grafos, autoencoders, modelos generativos) y compara su manejo de datos faltantes, fusión de modalidades e interpretabilidad biológica.
El deep learning suele mejorar la predicción a costa de la interpretabilidad. En un estudio clínico que busca predicción y descubrimiento de mecanismos, ¿cómo equilibrarías la complejidad del modelo con la explicabilidad biológica?
CASTRO LAB · INSTITUTO DE CIENCIAS BIOLÓGICAS · UNIVERSIDAD DE TALCA
castrolab.org · programa actualizado en junio de 2026