在基因研究中,随着技术的进步,我们的认知正在迅速改变。而表达序列标签(EST)作为短小的cDNA序列,正在重塑科学家们对基因表达的理解与发掘过程。这些小分子不仅有助于识别基因转录本,还在基因发现及基因序列的确定上发挥了重要作用。
目前公共数据库约有7420万个EST,随着基因技术的发展,这一数字仍在不断增长。
这项技术的历史可以追溯到1979年,当时哈佛和加州理工学院的研究团队将DNA复制mRNA的基本方法扩展至在细菌质粒中放大这类的文库。他们的努力最终导致了在1982年,Greg Sutcliffe及其同事首次探索随机或半随机选取这样的cDNA文库来进行测序的想法。随着这项技术的进一步推进,到了1991年,Adams和他的同事们正式创造了“EST”这个术语,并开启了更系统的测序项目。
EST的来源数据主要来自于dbEST,这是Genbank的分支,早在1992年成立。这些数据由全球各地的实验室直接提交,并未经过编辑和整理。同时,由于EST的测序方式,很多不同的EST常常是对同一mRNA的部分序列。为了减少EST数量并方便下游的基因发现分析,几个研究小组将这些EST集合成了EST contigs。这一过程虽然有助于提升数据的整体质量,但不当的组合还可能产生伪影,即包含两个不同基因产物的contig。
EST包含足够的信息,以设计精确的探针进行DNA微阵列测试,从而确定基因表达谱。
当组织的基因组已经被测序且相关转录本已被注释时,科学家们可以轻松地匹配EST序列和相关转录本,这在TissueInfo系统中得到充分体现。这使得将基因组数据库中的注释与EST数据提供的组织表达谱联系起来变得更加简单。
然而,高通量的EST分析往往会面临数据管理的挑战。例如,dbEST中的组织来源用普通英语描述,这使得编写程序来准确确定两个EST文库是否来自同一组织变得困难。而疾病状况的记录也经常不够清晰,特别是在癌症的情况下。 TissueInfo项目于2000年开始运行,旨在解决这些挑战,提供经过整理的数据,以消除组织来源和生病状态的疑惑,并建立组织本体,以通过“是部分”关系将不同的组织和器官联系在一起。
由于ESTs的独特性质,它们为基因发现提供了全新视角,透过这些短小的序列,我们能够更好地理解基因的功能及其在特定生理或病理状态下的表现。
与此同时,EST的有效性在于能够从有限的资源中获得更具价值的生物学信息。这一技术提供了无数的数据,不仅帮助科学家增加对基因功能的理解,还促进了新的生物医学研究与应用的出现。随着全基因组和转录组测序技术的发展,传统的EST方法已经逐渐让位于新的学术方法,但其在基因表达与功能预测中的重要角色依然值得我们高度重视。
在未来,随着技术的持续进步,EST将如何与其他基因研究手段融合,进一步改变我们对基因及其功能的认识呢?