Con el desarrollo de nuevas tecnologías de secuenciación, los costos de secuenciación cayeron drásticamente entre 2008 y 2012, lo que hace del ensamblaje del transcriptoma una opción ideal para la investigación. En el pasado, el costo de la secuenciación del genoma impedía que muchos organismos no modelo recibieran suficiente atención, pero todo esto ha cambiado con la introducción de la tecnología de secuenciación de alto rendimiento (es decir, la tecnología de secuenciación de próxima generación). El desarrollo de estas tecnologías no sólo ha reducido los costes sino que también ha mejorado la eficiencia del trabajo, permitiendo ampliar los objetos de investigación a una gama más amplia de organismos no modelo. Por ejemplo, se han reunido y analizado los transcriptomas cerebrales de garbanzos, platelmintos, cangrejos azules hawaianos, cocodrilos del Nilo, serpientes del maíz, dragones barbudos y tortugas de orejas rojas.
El examen de organismos no modelo puede proporcionar nuevos conocimientos sobre los mecanismos de las "fascinantes innovaciones morfológicas" que permiten que la vida en la Tierra florezca.
En los reinos vegetal y animal, muchas "innovaciones" como el mimetismo, la simbiosis, el parasitismo y la reproducción asexual no pueden probarse en organismos modelo comunes. Dado que los ensamblajes de transcriptomas son generalmente más baratos y simples que los genomas, este enfoque suele ser la mejor opción para estudiar organismos no modelo. Los transcriptomas de estos organismos pueden revelar nuevas proteínas y sus formas variantes asociadas con estos fenómenos biológicos únicos.
Comparación de los conjuntos del transcriptoma y del genomaUn conjunto ensamblado de transcripciones es esencial para los estudios iniciales de expresión genética. Antes del desarrollo de programas computacionales para el ensamblaje del transcriptoma, los datos del transcriptoma se analizaban principalmente mediante el mapeo a un genoma de referencia. Aunque la alineación del genoma es un método sólido para caracterizar secuencias transcritas, presenta la limitación de no poder tener en cuenta cambios estructurales en las transcripciones de ARNm, como el empalme alternativo. Dado que el genoma contiene todos los intrones y exones que pueden aparecer en una transcripción, las variantes de empalme con alineaciones discontinuas pueden pasarse por alto como variantes de proteína reales. Incluso si se encuentra disponible un genoma de referencia, se debe realizar un ensamblaje de novo, ya que permite la recuperación de transcripciones de fragmentos faltantes en el genoma maestro.
Una vez que se extrae y purifica el ARN de las células, se envía a una instalación de secuenciación de alto rendimiento donde primero se transcribe de manera inversa para crear una biblioteca de ADNc. Estos ADNc pueden luego fragmentarse en distintas longitudes dependiendo de la plataforma de secuenciación utilizada. Las siguientes plataformas utilizan distintos tipos de tecnologías para secuenciar millones de lecturas cortas, incluidas la secuenciación 454, Illumina y SOLiD.
Las lecturas de secuencias de ADNc generadas anteriormente se ensamblarán en transcripciones a través de un programa de ensamblaje de transcripciones de lectura corta. A menudo se pueden detectar algunas variaciones de aminoácidos, que pueden reflejar diferentes variantes de proteínas o pueden representar diferentes genes en la misma familia de genes o incluso genes que solo comparten dominios conservados. Si bien estos programas generalmente tienen éxito en el ensamblaje de genomas, enfrentan desafíos únicos en el ensamblaje del transcriptoma. A diferencia de la alta cobertura de secuencias del genoma, para el transcriptoma, la alta cobertura de secuencias puede implicar secuencias abundantes en lugar de repetitivas. Además, la secuenciación del transcriptoma puede ser específica de cada cadena, en cuyo caso están presentes tanto las transcripciones sentido como antisentido. En última instancia, reconstruir y diseccionar todas las variantes de empalme puede resultar difícil.
La anotación funcional de transcripciones ensambladas proporciona información sobre funciones moleculares específicas de posibles proteínas, componentes celulares y procesos biológicos. Blast2GO (B2G) puede anotar datos de secuencia que aún no tienen anotaciones GO alineando fragmentos de contig ensamblados con la base de datos de proteínas no redundantes de NCBI. Esta es una herramienta utilizada frecuentemente en estudios genómicos funcionales de especies no modelo.
Dado que rara vez se dispone de buenos genomas de referencia, la calidad de los ensamblajes computacionales se puede validar comparando las secuencias ensambladas con las lecturas utilizadas para generarlas (sin una referencia) o alineando secuencias de dominios genéticos conservados con el transcriptoma o genoma de una especie estrechamente relacionada (basándose en una referencia). Herramientas como Transrate y DETONATE realizan análisis estadísticos a través de estos métodos para evaluar la calidad del ensamblaje.
En este campo de investigación genómica en rápido desarrollo, el ensamblaje del transcriptoma es sin duda una de las herramientas fundamentales para comprender la diversidad de la vida. Con una biodiversidad tan rica, ¿cómo podemos aplicar estos hallazgos a futuros esfuerzos de biotecnología y conservación?