Mit der Entwicklung neuer Sequenzierungstechnologien sanken die Sequenzierungskosten zwischen 2008 und 2012 drastisch, was die Transkriptomassemblierung zu einer idealen Wahl für die Forschung machte. In der Vergangenheit verhinderten die Kosten der Genomsequenzierung, dass vielen Nicht-Modellorganismen genügend Aufmerksamkeit geschenkt wurde. Mit der Einführung der Hochdurchsatz-Sequenzierungstechnologie (d. h. der Sequenzierungstechnologie der nächsten Generation) hat sich dies jedoch geändert. Durch die Entwicklung dieser Technologien konnten nicht nur die Kosten gesenkt, sondern auch die Arbeitseffizienz verbessert werden, sodass die Forschungsobjekte auf ein breiteres Spektrum nicht-modellhafter Organismen ausgeweitet werden konnten. So wurden etwa die Gehirntranskriptome von Kichererbsen, Plattwürmern, Hawaiianischen Blaukrabben, Nilkrokodilen, Kornnattern, Bartagamen und Rotwangen-Schmuckschildkröten zusammengestellt und analysiert.
Die Untersuchung von Nicht-Modellorganismen kann neue Einblicke in die Mechanismen der „faszinierenden morphologischen Innovationen“ liefern, die das Gedeihen des Lebens auf der Erde ermöglichen.
Im Pflanzen- und Tierreich können viele „Innovationen“ wie Mimikry, Symbiose, Parasitismus und ungeschlechtliche Fortpflanzung nicht an gängigen Modellorganismen getestet werden. Da Transkriptom-Assemblierungen im Allgemeinen billiger und einfacher sind als Genome, ist dieser Ansatz oft die beste Wahl für die Untersuchung von Nicht-Modellorganismen. Die Transkriptome dieser Organismen könnten neue Proteine und ihre Varianten aufdecken, die mit diesen einzigartigen biologischen Phänomenen in Zusammenhang stehen.
Vergleich von Transkriptom- und GenomassemblierungenEin zusammengestellter Satz von Transkripten ist für erste Genexpressionsstudien von entscheidender Bedeutung. Vor der Entwicklung von Computerprogrammen zur Transkriptomassemblierung wurden Transkriptomdaten hauptsächlich durch Zuordnung zu einem Referenzgenom analysiert. Obwohl die Genomausrichtung eine robuste Methode zur Charakterisierung transkribierter Sequenzen ist, weist sie den Nachteil auf, dass sie strukturelle Änderungen in mRNA-Transkripten, wie z. B. alternatives Spleißen, nicht berücksichtigen kann. Da das Genom alle Introns und Exons enthält, die in einem Transkript vorkommen können, werden Spleißvarianten mit diskontinuierlichen Alignments möglicherweise als tatsächliche Proteinvarianten übersehen. Auch wenn ein Referenzgenom verfügbar ist, sollte eine De-novo-Assemblierung durchgeführt werden, da hierdurch die Wiederherstellung von Transkripten aus Fragmenten ermöglicht wird, die im Mastergenom fehlen.
Nachdem RNA aus Zellen extrahiert und gereinigt wurde, wird sie an eine Hochdurchsatz-Sequenzierungseinrichtung gesendet, wo sie zunächst rücktranskribiert wird, um eine cDNA-Bibliothek zu erstellen. Diese cDNAs können dann je nach verwendeter Sequenzierungsplattform in verschiedene Längen fragmentiert werden. Die folgenden verschiedenen Plattformen nutzen unterschiedliche Arten von Technologien, um Millionen von kurzen Reads zu sequenzieren, darunter 454-Sequenzierung, Illumina und SOLiD.
Die oben generierten cDNA-Sequenz-Reads werden durch ein Short-Read-Transkript-Assemblierungsprogramm zu Transkripten zusammengesetzt. Oft lassen sich einige Aminosäurevariationen erkennen, die auf unterschiedliche Proteinvarianten hinweisen oder für unterschiedliche Gene derselben Genfamilie stehen können oder sogar Gene, die nur konservierte Domänen gemeinsam haben. Während diese Programme im Allgemeinen bei der Zusammenstellung von Genomen erfolgreich sind, stehen sie bei der Transkriptomzusammenstellung vor besonderen Herausforderungen. Im Gegensatz zu einer hohen Sequenzabdeckung für das Genom kann eine hohe Sequenzabdeckung für das Transkriptom eher zahlreiche als sich wiederholende Sequenzen bedeuten. Darüber hinaus kann die Transkriptomsequenzierung strangspezifisch sein. In diesem Fall sind sowohl Sense- als auch Antisense-Transkripte vorhanden. Letztendlich könnte es sich als schwierig erweisen, alle Spleißvarianten zu rekonstruieren und zu analysieren.
Die funktionelle Annotation zusammengesetzter Transkripte bietet Einblicke in spezifische molekulare Funktionen mutmaßlicher Proteine, Zellkomponenten und biologischer Prozesse. Blast2GO (B2G) kann Sequenzdaten kommentieren, die noch keine GO-Annotationen haben, indem es zusammengesetzte Contig-Fragmente mit der nicht redundanten Proteindatenbank von NCBI abgleicht. Dabei handelt es sich um ein Werkzeug, das häufig in funktionellen Genomstudien an nicht-modellhaften Arten verwendet wird.
Da gute Referenzgenome selten verfügbar sind, kann die Qualität computergestützter Assemblierungen durch einen Vergleich der assemblierten Sequenzen mit den zu ihrer Generierung verwendeten Reads (ohne Referenz) oder durch die Ausrichtung konservierter Gendomänensequenzen auf das Transkriptom oder Genom einer eng verwandten Art (basierend auf einer Referenz) validiert werden. Tools wie Transrate und DETONATE führen mithilfe dieser Methoden statistische Analysen durch, um die Qualität der Montage zu beurteilen.
In diesem sich rasch entwickelnden Bereich der Genomforschung ist die Transkriptomassemblierung zweifellos eines der wichtigsten Instrumente zum Verständnis der Vielfalt des Lebens. Wie können wir diese Erkenntnisse angesichts einer so großen Artenvielfalt in der Zukunft auf die Biotechnologie und den Naturschutz anwenden?