Con el desarrollo de tecnologías de secuenciación emergentes, la investigación del transcriptoma ha entrado en una nueva era. Especialmente entre 2008 y 2012, la disminución significativa de los costos de secuenciación ha hecho posible ensamblar y analizar transcriptomas de muchos organismos no modelo. Este cambio va más allá de encontrar variación fenotípica en organismos específicos, permitiéndonos comprender más plenamente la diversidad y los mecanismos biológicos de la vida en la Tierra.
"El mayor beneficio del ensamblaje del transcriptoma es su potencial para revelar nuevas proteínas y sus isoformas que pueden desempeñar papeles clave en fenómenos biológicos específicos".
Existen dos métodos principales para el ensamblaje del transcriptoma: ensamblaje de novo y ensamblaje basado en referencia. Para los organismos no modelo para los cuales aún no se ha establecido un genoma completo, el ensamblaje del transcriptoma de novo es obviamente una opción más apropiada. Este enfoque no se basa en secuencias genómicas anteriores, lo que permite a los investigadores explorar información de transcripción genética desconocida.
En el pasado, el análisis de datos del transcriptoma se ha basado principalmente en la comparación con genomas de referencia existentes. Sin embargo, este enfoque puede no cubrir todas las variaciones estructurales del ARNm, especialmente cuando está involucrado el empalme alternativo, y muchas variantes de transcripción pueden pasarse por alto porque no pueden asignarse de manera discontinua al genoma. Por lo tanto, incluso con un genoma de referencia, todavía es necesario realizar un ensamblaje de novo, ya que el nuevo ensamblaje puede recuperar transcripciones que faltan en el genoma de referencia.
La profundidad de cobertura del transcriptoma puede reflejar directamente el nivel de expresión del gen, mientras que la profundidad de cobertura del genoma generalmente se ve afectada por secuencias repetitivas. Además, uno de los mayores desafíos que enfrenta el ensamblaje del transcriptoma es que diferentes variantes de transcripción en el mismo gen pueden compartir exones, lo que hace que su identificación sea más complicada.
Después de la extracción y purificación del ARN, las muestras se enviarán a una instalación de secuenciación de alto rendimiento para realizar la transcripción inversa y obtener una biblioteca de ADNc. Dependiendo de la plataforma, estos ADNc se cortarán en longitudes específicas y luego se secuenciarán utilizando diferentes tecnologías, incluida la secuenciación 454, Illumina y SOLiD.
Los datos de secuencia de las transcripciones se ensamblarán en transcripciones utilizando un programa de ensamblaje de transcripciones de lectura corta. Debido a que las transcripciones pueden ser similares pero tener variaciones de aminoácidos, estas variaciones pueden reflejar diferentes isoformas de proteínas. Se pueden utilizar varios programas de ensamblaje para realizar este proceso, pero el ensamblaje del transcriptoma presenta muchos desafíos únicos.
"La mayoría de los ensambladores de lectura corta siguen dos algoritmos básicos: gráfico superpuesto y gráfico de De Bruijn, siendo el gráfico de De Bruijn el preferido debido a sus requisitos computacionales relativamente bajos".
La anotación funcional de las transcripciones ensambladas puede proporcionar una comprensión profunda de sus posibles funciones biológicas. Utilizando herramientas como Blast2GO, se pueden extraer datos de secuencias no anotadas basándose en la ontología genética. Este proceso puede ayudar a identificar los procesos biológicos en los que están involucradas las transcripciones y sus funciones moleculares.
Validación y control de calidadDado que es raro tener un buen genoma de referencia disponible, es necesario verificar la calidad de la secuencia ensamblada comparándola con las lecturas sin procesar. El filtrado de secuencias cortas también es necesario porque estas secuencias cortas generalmente no pueden plegarse eficazmente para formar proteínas funcionales.
Existen muchos programas de ensamblaje disponibles en el mercado que pueden utilizarse para generar transcriptomas. Por ejemplo, herramientas como SOAPdenovo-Trans y Trinity tienen sus propias características únicas. Estos programas no solo pueden ensamblar transcripciones de manera eficiente, sino que también tienen en cuenta diferentes eventos de empalme y niveles de expresión genética.
En este campo en rápida evolución, la elección del método de ensamblaje del genoma o del transcriptoma depende en última instancia de las necesidades del investigador y de las características del organismo estudiado. Cada método tiene sus ventajas y desventajas. ¿Han elegido los investigadores el camino de investigación que mejor se adapta a sus necesidades?