隨著新型測序技術的發展,自2008年至2012年,測序成本驟降,這使得轉錄組組裝成為研究的一個理想選擇。過去,基因組測序的成本讓許多非模式生物無法獲得足夠的關注,但是隨著高通量測序技術(即下一代測序技術)的引入,這一切都發生了變化。這些技術的發展不僅降低了成本,還提高了工作的效率,促使研究對象擴展到更廣泛的非模型生物。例如,鷹嘴豆、平體蟲、夏威夷海藍蟹以及尼羅鱷、玉米蛇、鬚龍和紅耳龜的腦部轉錄組已經被組裝並分析。
檢視非模型生物能提供有關「迷人的形態創新」的機制的新見解,這些創新使地球上的生命得到蓬勃發展。
在動植物界,許多「創新」如擬態、共生、寄生及無性繁殖,無法在共同的模型生物中進行檢驗。由於轉錄組組裝通常比基因組更便宜且簡單,因此對於研究非模型生物來說,這種方法常常是最佳選擇。這些生物的轉錄組可能揭示與這些獨特生物現象相關的新蛋白質及其變異形態。
一組組裝好的轉錄本對於初步基因表達研究至關重要。在轉錄組組裝計算程序未發展之前,轉錄組數據主要通過映射到參考基因組來進行分析。雖然基因組比對是一種穩健的表徵轉錄序列的方法,但其缺陷在於無法考慮mRNA轉錄本的結構變化事件,如可選剪接。由於基因組含有可能出現在轉錄本中的所有內含子和外顯子,不連續對齊的剪接變異可能被忽略為實際的蛋白質變體。即使可用參考基因組,進行de novo組裝也應該進行,因為它能夠恢復來自主基因組中缺失的片段的轉錄本。
與基因組序列覆蓋水平隨著非編碼區DNA中的重複內容而隨機變化不同,轉錄組序列覆蓋水平可以直接反映基因表達水平。這些重複序列也在基因組組裝中形成了模糊性,而轉錄組組裝中的模糊性通常對應於剪接變種或基因家族成員之間的微小變化。基因組組裝器不能直接用於轉錄組組裝的原因有幾個。首先,基因組測序的深度通常在整個基因組中保持一致,但轉錄本的深度可能會有所不同。其次,基因組測序中的兩條鏈始終是被測序的,而RNA-seq則可以是鏈特異性的。最終,轉錄組裝更具挑戰性,因為來自相同基因的轉錄變體可能共享外顯子,並且難以清楚地解析。
一旦從細胞中提取並純化RNA後,將其送到高通量測序設施,首先進行逆轉錄以創建cDNA文庫。然後,這些cDNA可以根據使用的測序平台被碎片化成各種長度。接下來的各種平台利用不同類型的技術來測序數百萬個短讀數,包括454測序、Illumina和SOLiD。
上述生成的cDNA序列讀取會通過短讀轉錄組裝程序組裝成轉錄本。通常可以檢測到一些氨基酸的變異,它們可能反映出不同的蛋白質變異,或可能代表同一基因家族中的不同基因,甚至是僅共享保守域的基因。雖然這些程序通常在組裝基因組中成功,但在轉錄組裝中面臨獨特的挑戰。與基因組的高序列覆蓋不同,對於轉錄組來說,高序列覆蓋可能暗示著豐富性而不是重複序列。此外,轉錄組測序可能是鏈特異性的,這種情況下同時存在感和反義轉錄本。最終,重建並拆解所有剪接變體可能會很困難。
對組裝轉錄本的功能註釋使人們能夠深入了解推測蛋白質的特定分子功能、細胞組件和生物過程。通過將組裝的contig片段與NCBI的非冗餘蛋白質資料庫進行比對,Blast2GO(B2G)能夠為尚未擁有GO註釋的序列資料進行註釋。這是經常用於非模型物種功能基因組研究的工具。
由於良好的參考基因組鮮少可用,因此可透過將組裝的序列與用於生成它們的讀取相比較(無參考)或將保守基因域序列對齊至密切相關物種的轉錄組或基因組(基於參考)來驗證計算組裝的質量。像Transrate和DETONATE這樣的工具通過這些方法進行統計分析,以評估組裝的質量。
在這個快速發展的基因組研究領域中,轉錄組組裝無疑是了解生命多樣性的核心工具之一。面對如此豐富的生物多樣性,我們又該如何將這些發現應用於未來的生物技術和保護工作中呢?