随着新型测序技术的发展,自2008年至2012年,测序成本骤降,这使得转录组组装成为研究的一个理想选择。过去,基因组测序的成本让许多非模式生物无法获得足够的关注,但是随着高通量测序技术(即下一代测序技术)的引入,这一切都发生了变化。这些技术的发展不仅降低了成本,还提高了工作的效率,促使研究对象扩展到更广泛的非模型生物。例如,鹰嘴豆、平体虫、夏威夷海蓝蟹以及尼罗鳄、玉米蛇、须龙和红耳龟的脑部转录组已经被组装并分析。
检视非模型生物能提供有关「迷人的形态创新」的机制的新见解,这些创新使地球上的生命得到蓬勃发展。
在动植物界,许多「创新」如拟态、共生、寄生及无性繁殖,无法在共同的模型生物中进行检验。由于转录组组装通常比基因组更便宜且简单,因此对于研究非模型生物来说,这种方法常常是最佳选择。这些生物的转录组可能揭示与这些独特生物现象相关的新蛋白质及其变异形态。
一组组装好的转录本对于初步基因表达研究至关重要。在转录组组装计算程序未发展之前,转录组数据主要通过映射到参考基因组来进行分析。虽然基因组比对是一种稳健的表征转录序列的方法,但其缺陷在于无法考虑mRNA转录本的结构变化事件,如可选剪接。由于基因组含有可能出现在转录本中的所有内含子和外显子,不连续对齐的剪接变异可能被忽略为实际的蛋白质变体。即使可用参考基因组,进行de novo组装也应该进行,因为它能够恢复来自主基因组中缺失的片段的转录本。
与基因组序列覆盖水平随着非编码区DNA中的重复内容而随机变化不同,转录组序列覆盖水平可以直接反映基因表达水平。这些重复序列也在基因组组装中形成了模糊性,而转录组组装中的模糊性通常对应于剪接变种或基因家族成员之间的微小变化。基因组组装器不能直接用于转录组组装的原因有几个。首先,基因组测序的深度通常在整个基因组中保持一致,但转录本的深度可能会有所不同。其次,基因组测序中的两条链始终是被测序的,而RNA-seq则可以是链特异性的。最终,转录组装更具挑战性,因为来自相同基因的转录变体可能共享外显子,并且难以清楚地解析。
一旦从细胞中提取并纯化RNA后,将其送到高通量测序设施,首先进行逆转录以创建cDNA文库。然后,这些cDNA可以根据使用的测序平台被碎片化成各种长度。接下来的各种平台利用不同类型的技术来测序数百万个短读数,包括454测序、Illumina和SOLiD。
上述生成的cDNA序列读取会通过短读转录组装程序组装成转录本。通常可以检测到一些氨基酸的变异,它们可能反映出不同的蛋白质变异,或可能代表同一基因家族中的不同基因,甚至是仅共享保守域的基因。虽然这些程序通常在组装基因组中成功,但在转录组装中面临独特的挑战。与基因组的高序列覆盖不同,对于转录组来说,高序列覆盖可能暗示着丰富性而不是重复序列。此外,转录组测序可能是链特异性的,这种情况下同时存在感和反义转录本。最终,重建并拆解所有剪接变体可能会很困难。
对组装转录本的功能注释使人们能够深入了解推测蛋白质的特定分子功能、细胞组件和生物过程。通过将组装的contig片段与NCBI的非冗余蛋白质资料库进行比对,Blast2GO(B2G)能够为尚未拥有GO注释的序列资料进行注释。这是经常用于非模型物种功能基因组研究的工具。
由于良好的参考基因组鲜少可用,因此可透过将组装的序列与用于生成它们的读取相比较(无参考)或将保守基因域序列对齐至密切相关物种的转录组或基因组(基于参考)来验证计算组装的质量。像Transrate和DETONATE这样的工具通过这些方法进行统计分析,以评估组装的质量。
在这个快速发展的基因组研究领域中,转录组组装无疑是了解生命多样性的核心工具之一。面对如此丰富的生物多样性,我们又该如何将这些发现应用于未来的生物技术和保护工作中呢?