在基因組學的領域,表達序列標籤(EST)曾經是基因識別與轉錄物研究的重要工具。透過短碼的安排,EST能夠揭示特定的基因表達狀態及其可能的功能。然而,隨著全基因組測序技術的快速發展,EST的地位開始受到挑戰,許多科學家開始質疑其在基因組研究中的實用性和有效性。
目前在公共數據庫中,可用的EST數量已達到7420萬。
EST是從互補DNA(cDNA)中提取的短序列,通常長度在500到800個核苷酸之間,這限制了其在基因組測序中的應用。相比之下,基因組測序技術提供了整個基因組的清晰圖像,能夠一次性捕捉到所有基因的結構和功能信息,基因組測序的高解析度大大超越了EST的能力。
自1982年起,該領域的研究逐步發展,最早是由科學家對隨機克隆的cDNA進行測序,並在1991年正式提出了“EST”這一名詞。隨著時間推移,EST所提供的資訊雖然對於基因發現及功能預測有重要貢獻,卻也因為其屬於低質量的片段而逐漸被全基因組測序技術所取代。
根據2006年的研究,EST的存在使得數千個基因的識別成為可能。
EST的數據來源主要來自於dbEST,這是一個自1992年起由GenBank建立的數據庫。dbEST提供了大量的EST數據,但缺乏必要的審核過程,這使得該數據庫中的信息質量參差不齊。許多EST實際上是重複的,常常代表同一個mRNA的部分序列,因此需要將這些序列組合成EST contigs來進行後續的基因發現。
當全基因組序列可用時,科學家能夠輕鬆地將EST直接與基因組對比,這一過程在當前的研究中變得越來越重要。許多平台,例如TissueInfo系統,已經實現了此種高效的匹配技術,有助於將轉錄物與EST數據進行鏈接。
大規模的EST數據分析面臨著多樣的數據管理挑戰,其中最為明顯的是組織來源的編碼不明確性。
隨著EST數據的增長,如何有效管理和利用這些數據成到了科研中的一個重要問題。特別是在描述組織來源及其相關疾病狀況時,dbEST的簡單文本描述使得自動化分析變得困難。有鑑於此,TissueInfo項目自2000年開始,旨在彌補這一缺陷,提供經過審核的數據以消歧組織來源與疾病狀態,並為基因數據提供系統化支持。
雖然EST在基因組研究的早期取得了不少成就,但隨著科技的進步及基因組與轉錄組測序技術的發展,這些早期的工具顯然已經失去了一部分的光彩。現代技術的優勢讓研究人員能夠獲得更全面、更精確的基因功能資訊。
雖然EST早期的貢獻無可否認,但未來的基因組研究會如何演變?是否會繼續依賴過時的技術還是全面擁抱新興的測序方法?這些問題值得每位科研工作者深思?