在基因组学的领域,表达序列标签(EST)曾经是基因识别与转录物研究的重要工具。透过短码的安排,EST能够揭示特定的基因表达状态及其可能的功能。然而,随着全基因组测序技术的快速发展,EST的地位开始受到挑战,许多科学家开始质疑其在基因组研究中的实用性和有效性。
目前在公共数据库中,可用的EST数量已达到7420万。
EST是从互补DNA(cDNA)中提取的短序列,通常长度在500到800个核苷酸之间,这限制了其在基因组测序中的应用。相比之下,基因组测序技术提供了整个基因组的清晰图像,能够一次性捕捉到所有基因的结构和功能信息,基因组测序的高解析度大大超越了EST的能力。
自1982年起,该领域的研究逐步发展,最早是由科学家对随机克隆的cDNA进行测序,并在1991年正式提出了“EST”这一名词。随着时间推移,EST所提供的资讯虽然对于基因发现及功能预测有重要贡献,却也因为其属于低质量的片段而逐渐被全基因组测序技术所取代。
根据2006年的研究,EST的存在使得数千个基因的识别成为可能。
EST的数据来源主要来自于dbEST,这是一个自1992年起由GenBank建立的数据库。 dbEST提供了大量的EST数据,但缺乏必要的审核过程,这使得该数据库中的信息质量参差不齐。许多EST实际上是重复的,常常代表同一个mRNA的部分序列,因此需要将这些序列组合成EST contigs来进行后续的基因发现。
当全基因组序列可用时,科学家能够轻松地将EST直接与基因组对比,这一过程在当前的研究中变得越来越重要。许多平台,例如TissueInfo系统,已经实现了此种高效的匹配技术,有助于将转录物与EST数据进行链接。
大规模的EST数据分析面临着多样的数据管理挑战,其中最为明显的是组织来源的编码不明确性。
随着EST数据的增长,如何有效管理和利用这些数据成到了科研中的一个重要问题。特别是在描述组织来源及其相关疾病状况时,dbEST的简单文本描述使得自动化分析变得困难。有鉴于此,TissueInfo项目自2000年开始,旨在弥补这一缺陷,提供经过审核的数据以消歧组织来源与疾病状态,并为基因数据提供系统化支持。
虽然EST在基因组研究的早期取得了不少成就,但随着科技的进步及基因组与转录组测序技术的发展,这些早期的工具显然已经失去了一部分的光彩。现代技术的优势让研究人员能够获得更全面、更精确的基因功能资讯。
虽然EST早期的贡献无可否认,但未来的基因组研究会如何演变?是否会继续依赖过时的技术还是全面拥抱新兴的测序方法?这些问题值得每位科研工作者深思?