在基因科學的探索中,表達序列標記(EST)無疑是一個重要的里程碑。這些短小的cDNA序列片段不僅用於識別基因轉錄本,還在基因發現和基因序列決定的過程中發揮了重要作用。隨著科技的進步,我們現在可以在公共資料庫中找到大約7420萬個EST。這些EST的標記為了解基因的表達和功能提供了重要的資訊,並引領了整個基因組學的研究浪潮。
「EST提供了一種強有力的工具來提高基因的預測轉錄本,這將有助於預測其蛋白質產物和最終的功能。」
EST的起源可以追溯到1979年。當時,哈佛大學和加州理工學院的研究團隊將體外合成mRNA的基本理念擴展到了在細菌質粒中擴增這類cDNA庫。在1982年,Greg Sutcliffe及其同事探索了隨機或半隨機選擇這些cDNA庫中的克隆進行測序的想法。隨後在1983年,Putney等人對來自兔子肌肉的cDNA庫中的178個克隆進行了測序。1991年,Adams及其同事首次提出了“EST”這一術語並展開了更系統的測序計畫,最初從600個腦部cDNA開始。
「EST的發明不僅是科學研究的突破,更是基因組學發展的奠基石。」
dbEST是GenBank的一個分支,成立於1992年。與GenBank類似,dbEST中的數據由世界各地的實驗室直接提交,並未經過審核和整理。因此,dbEST中的資料保持了原始性和即時性,但也可能存在一些錯誤。
由於EST的測序方式,許多不同的表達序列標記往往是對同一生物體的mRNA的部分序列。數個機構通過將表達序列標記組裝成EST集群的方式來減少下游基因發現分析中EST的數量。提供EST集群的資源包括TIGR基因指數、Unigene以及STACK等。然而,構建EST集群並非易事,有可能產生工藝品,即含有兩個不同基因產品的集群。
「當一個生物的全基因組序列可用時,將轉錄本與EST直接匹配的方式更為高效。」
EST的高通量分析常常面臨數據管理挑戰。首先,EST庫的組織來源在dbEST中以普通英語描述,這使得編寫程序來明確識別兩個EST庫是否來自相同組織變得困難。尤其是在疾病條件下,組織情報常常未被以計算友好的方式標註。為了解決這些問題,TissueInfo項目於2000年啟動,旨在提供經過整理的數據,幫助識別組織來源和疾病狀態,同時提供鏈接轉錄本註解的軟體。
「TissueInfo項目的成立,使得組織表達圖譜的識別和管理變得更加高效。」
隨著全基因組和轉錄組測序技術的發展,EST的運用逐漸被新技術取代。然而,EST仍然是基因研究的一個重要工具,特別是在基因發表、功能預測以及疾病研究方面。在估計人類基因族群時,EST數據的存在讓科學家能夠更準確地了解和定義基因的功能和表達模式。即使在今天,這些歷史遺留下來的技術仍具有其重要性。
面對61百萬條已知的EST,這一工具不僅在基因發現過程中發揮了重要作用,也提供了對基因功能深入理解的基礎。然而,隨著科技的不斷進步,未來基因表達的研究將面臨什麼樣的挑戰和機遇?