随着基因组学的快速进展,科学家们越来越依赖表达序列标签(EST)技术,这成为了揭示隐藏基因的强大工具。 EST是一段短序列,代表了互补的mRNA,允许研究人员识别和分析基因转录本。至今,全球公共数据库中已有约7420万个EST可供使用,这些膨胀的数据无疑推动了基因发现及其功能的了解。
由于EST的独特性,它们可以用来发现新的基因,完善对已知基因的理解,并推测它们的功能。
EST技术的历史可以追溯到1979年,当时哈佛和加州理工学院的研究团队开始将mRNA制作成DNA拷贝。 1982年,Greg Sutcliffe等人提出从这些cDNA文库中随机或半随机选择克隆进行测序的想法。最终在1991年,Adams及其同事正式提出了“EST”这一术语,在这之后,系统的测序工作开始,标志着这项技术的成熟。
作为基因组研究的旁支,EST不仅帮助识别和标定基因转录本,还提供了有关特定组织、器官及疾病状态的宝贵资讯。例如,某些EST可能来源于特定类型的肿瘤样本,如胶质母细胞瘤,这使得研究人员能够获得有关癌症相关基因表达的关键信息。
EST包含足够的信息来设计精确的探针,从而可以用于DNA微阵列,以确定基因表达谱。
在实际操作中,EST的数据来源主要来自dbEST,这是一个自1992年成立的GenBank的分支,并且资料是由全球各个实验室直接提交的。这意味着,dbEST中的数据并未经严格的审核,使得数据的质量和一致性受到挑战。
此外,EST contig的构建也是一个重要的方面,因为相同mRNA可能有多个不同的EST。为了便捷地进行基因发现分析,几个研究小组开始将EST组合成contig。不过,这一过程并不简单,可能会引入伪影,即contig可能包含两个不同基因产物的片段。
当完整的基因组序列可用时,与EST直接匹配的方式,不仅具有效率,还能够减少错误。
在数据管理上,EST的高通量分析也面临着挑战,特别是在组织来源和疾病状况的标注上。 dbEST中组织的文字描述可能使得写程式来不明确地判断两个EST文库来自相同组织变得困难。因此,TissueInfo项目于2000年启动,致力于解决这些挑战,提供经过整理的数据以及开源软件,以联系基因组的转录注解与EST数据所计算的组织表达谱。
随着大规模基因组及转录组测序技术的发展,EST的应用虽逐渐被取代,但它作为一项重大的突破,无疑仍然对基因发现与功能分析具有深远的影响。科学家们期待透过这一工具揭示更多基因的奥秘,进一步理解生命的根本机制。
在未来的研究中,我们是否能够完全利用这些隐藏在基因中的信息,来促进人类健康的进步呢?