在基因研究中,隨著技術的進步,我們的認知正在迅速改變。而表達序列標籤(EST)作為短小的cDNA序列,正在重塑科學家們對基因表達的理解與發掘過程。這些小分子不僅有助於識別基因轉錄本,還在基因發現及基因序列的確定上發揮了重要作用。
目前公共數據庫約有7420萬個EST,隨著基因技術的發展,這一數字仍在不斷增長。
這項技術的歷史可以追溯到1979年,當時哈佛和加州理工學院的研究團隊將DNA複製mRNA的基本方法擴展至在細菌質粒中放大這類的文庫。他們的努力最終導致了在1982年,Greg Sutcliffe及其同事首次探索隨機或半隨機選取這樣的cDNA文庫來進行測序的想法。隨著這項技術的進一步推進,到了1991年,Adams和他的同事們正式創造了“EST”這個術語,並開啟了更系統的測序項目。
EST的來源數據主要來自於dbEST,這是Genbank的分支,早在1992年成立。這些數據由全球各地的實驗室直接提交,並未經過編輯和整理。同時,由於EST的測序方式,很多不同的EST常常是對同一mRNA的部分序列。為了減少EST數量並方便下游的基因發現分析,幾個研究小組將這些EST集合成了EST contigs。這一過程雖然有助於提升數據的整體質量,但不當的組合還可能產生伪影,即包含兩個不同基因產物的contig。
EST包含足夠的信息,以設計精確的探針進行DNA微陣列測試,從而確定基因表達譜。
當組織的基因組已經被測序且相關轉錄本已被註釋時,科學家們可以輕鬆地匹配EST序列和相關轉錄本,這在TissueInfo系統中得到充分體現。這使得將基因組數據庫中的註釋與EST數據提供的組織表達譜聯繫起來變得更加簡單。
然而,高通量的EST分析往往會面臨數據管理的挑戰。例如,dbEST中的組織來源用普通英語描述,這使得編寫程序來準確確定兩個EST文庫是否來自同一組織變得困難。而疾病狀況的記錄也經常不夠清晰,特別是在癌症的情況下。TissueInfo項目於2000年開始運行,旨在解決這些挑戰,提供經過整理的數據,以消除組織來源和生病狀態的疑惑,並建立組織本體,以通過“是部分”關係將不同的組織和器官聯繫在一起。
由於ESTs的獨特性質,它們為基因發現提供了全新視角,透過這些短小的序列,我們能夠更好地理解基因的功能及其在特定生理或病理狀態下的表現。
與此同時,EST的有效性在於能夠從有限的資源中獲得更具價值的生物學信息。這一技術提供了無數的數據,不僅幫助科學家增加對基因功能的理解,還促進了新的生物醫學研究與應用的出現。隨著全基因組和轉錄組測序技術的發展,傳統的EST方法已經逐漸讓位於新的學術方法,但其在基因表達與功能預測中的重要角色依然值得我們高度重視。
在未來,隨著技術的持續進步,EST將如何與其他基因研究手段融合,進一步改變我們對基因及其功能的認識呢?