在基因科学的探索中,表达序列标记(EST)无疑是一个重要的里程碑。这些短小的cDNA序列片段不仅用于识别基因转录本,还在基因发现和基因序列决定的过程中发挥了重要作用。随着科技的进步,我们现在可以在公共资料库中找到大约7420万个EST。这些EST的标记为了解基因的表达和功能提供了重要的资讯,并引领了整个基因组学的研究浪潮。
「EST提供了一种强有力的工具来提高基因的预测转录本,这将有助于预测其蛋白质产物和最终的功能。」
EST的起源可以追溯到1979年。当时,哈佛大学和加州理工学院的研究团队将体外合成mRNA的基本理念扩展到了在细菌质粒中扩增这类cDNA库。在1982年,Greg Sutcliffe及其同事探索了随机或半随机选择这些cDNA库中的克隆进行测序的想法。随后在1983年,Putney等人对来自兔子肌肉的cDNA库中的178个克隆进行了测序。 1991年,Adams及其同事首次提出了“EST”这一术语并展开了更系统的测序计画,最初从600个脑部cDNA开始。
「EST的发明不仅是科学研究的突破,更是基因组学发展的奠基石。」
dbEST是GenBank的一个分支,成立于1992年。与GenBank类似,dbEST中的数据由世界各地的实验室直接提交,并未经过审核和整理。因此,dbEST中的资料保持了原始性和即时性,但也可能存在一些错误。
由于EST的测序方式,许多不同的表达序列标记往往是对同一生物体的mRNA的部分序列。数个机构通过将表达序列标记组装成EST集群的方式来减少下游基因发现分析中EST的数量。提供EST集群的资源包括TIGR基因指数、Unigene以及STACK等。然而,构建EST集群并非易事,有可能产生工艺品,即含有两个不同基因产品的集群。
「当一个生物的全基因组序列可用时,将转录本与EST直接匹配的方式更为高效。」
EST的高通量分析常常面临数据管理挑战。首先,EST库的组织来源在dbEST中以普通英语描述,这使得编写程序来明确识别两个EST库是否来自相同组织变得困难。尤其是在疾病条件下,组织情报常常未被以计算友好的方式标注。为了解决这些问题,TissueInfo项目于2000年启动,旨在提供经过整理的数据,帮助识别组织来源和疾病状态,同时提供链接转录本注解的软体。
「TissueInfo项目的成立,使得组织表达图谱的识别和管理变得更加高效。」
随着全基因组和转录组测序技术的发展,EST的运用逐渐被新技术取代。然而,EST仍然是基因研究的一个重要工具,特别是在基因发表、功能预测以及疾病研究方面。在估计人类基因族群时,EST数据的存在让科学家能够更准确地了解和定义基因的功能和表达模式。即使在今天,这些历史遗留下来的技术仍具有其重要性。
面对61百万条已知的EST,这一工具不仅在基因发现过程中发挥了重要作用,也提供了对基因功能深入理解的基础。然而,随着科技的不断进步,未来基因表达的研究将面临什么样的挑战和机遇?