隨著基因組學的快速進展,科學家們越來越依賴表達序列標籤(EST)技術,這成為了揭示隱藏基因的強大工具。EST是一段短序列,代表了互補的mRNA,允許研究人員識別和分析基因轉錄本。至今,全球公共數據庫中已有約7420萬個EST可供使用,這些膨脹的數據無疑推動了基因發現及其功能的了解。
由於EST的獨特性,它們可以用來發現新的基因,完善對已知基因的理解,並推測它們的功能。
EST技術的歷史可以追溯到1979年,當時哈佛和加州理工學院的研究團隊開始將mRNA製作成DNA拷貝。1982年,Greg Sutcliffe等人提出從這些cDNA文庫中隨機或半隨機選擇克隆進行測序的想法。最終在1991年,Adams及其同事正式提出了“EST”這一術語,在這之後,系統的測序工作開始,標誌著這項技術的成熟。
作為基因組研究的旁支,EST不僅幫助識別和標定基因轉錄本,還提供了有關特定組織、器官及疾病狀態的寶貴資訊。例如,某些EST可能來源於特定類型的腫瘤樣本,如膠質母細胞瘤,這使得研究人員能夠獲得有關癌症相關基因表達的關鍵信息。
EST包含足夠的信息來設計精確的探針,從而可以用於DNA微陣列,以確定基因表達譜。
在實際操作中,EST的數據來源主要來自dbEST,這是一個自1992年成立的GenBank的分支,並且資料是由全球各個實驗室直接提交的。這意味著,dbEST中的數據並未經嚴格的審核,使得數據的質量和一致性受到挑戰。
此外,EST contig的構建也是一個重要的方面,因為相同mRNA可能有多個不同的EST。為了便捷地進行基因發現分析,幾個研究小組開始將EST組合成contig。不過,這一過程並不簡單,可能會引入伪影,即contig可能包含兩個不同基因產物的片段。
當完整的基因組序列可用時,與EST直接匹配的方式,不僅具有效率,還能夠減少錯誤。
在數據管理上,EST的高通量分析也面臨著挑戰,特別是在組織來源和疾病狀況的標註上。dbEST中組織的文字描述可能使得寫程式來不明確地判斷兩個EST文庫來自相同組織變得困難。因此,TissueInfo項目於2000年啟動,致力於解決這些挑戰,提供經過整理的數據以及開源軟件,以聯繫基因組的轉錄註解與EST數據所計算的組織表達譜。
隨著大規模基因組及轉錄組測序技術的發展,EST的應用雖逐漸被取代,但它作為一項重大的突破,無疑仍然對基因發現與功能分析具有深遠的影響。科學家們期待透過這一工具揭示更多基因的奧秘,進一步理解生命的根本機制。
在未來的研究中,我們是否能夠完全利用這些隱藏在基因中的信息,來促進人類健康的進步呢?