在分子生物学的领域中,基因表达谱分析是同时测量成千上万个基因活动(即表达)的过程,帮助我们建立细胞功能的全貌。这些谱可以帮助我们区分积极分裂的细胞,或显示细胞如何对特定治疗做出反应。许多这样的实验同时测量整个基因组,也就是特定细胞中存在的每个基因。
基因包含制造信使RNA(mRNA)的指令,但在任何时刻,每个细胞仅从其携带的部分基因产生mRNA。
如果一个基因被用来产生mRNA,它被视为“开启”,否则则为“关闭”。许多因素会影响某个基因是开还是关,例如一天中的时间、细胞是否正积极分裂、其周围环境,以及来自其他细胞的化学信号。举例来说,皮肤细胞、肝细胞和神经细胞表达的基因有所不同,这在很大程度上就是它们之间的区别所在。因此,基因表达谱可以用来推断细胞的类型、状态和环境等。
基因表达谱实验通常涉及测量在两个或多个实验条件下表达的相对mRNA的量。这是因为特定mRNA的水平变化通常暗示该mRNA编码的蛋白质需求有所改变,这可能表明了身体的自我维持反应或病理状况。例如,产生酒精脱氢酶的mRNA水平较高,可能表示所研究的细胞或组织正在对环境中乙醇的增加作出反应。
高水平的mRNA可能意味着该蛋白质在生理过程中扮演着更重要的角色,这或许能成为新药开发的关键。
人类基因组大约包含20,000个基因,这些基因合作生成约1,000,000种不同的蛋白质。由于交替剪接及后转译修饰,单一基因可以成为多种特定蛋白质的基础。即使如此,单次质谱实验可能只能识别约2000种蛋白质,这仅占总数的0.2%。尽管有着这些限制,基因表达谱分析依然提供了一幅无与伦比的全景,能在单次实验中获得。
科学家经常基于已有的假设进行基因表达谱的实验。这是因为在缺乏足够的知识之前,无法形成可测的假设。而表达谱能够帮助识别未来实验的候选假设。许多早期的基因表达谱实验属于“类别发现”,这意味着通过传统的划分算法进行类别的分组和识别。
在“类别预测”中,根据样本的基因表达谱回答关于临床意义的问题,却是一项更具挑战的工作,需要海量的数据支持。
尽管表达谱实验能提供有价值的信息,但通常仅报告在改变的实验条件下呈现统计显著差异的基因,这通常仅是一小部分基因组。许多基因在生存所需的量很特定,因此并不会改变。此外,细胞使用多种机制来调节蛋白质,这使得一些基因的表达在mRNA量改变下可能不会有所波动。经济上的限制也限制了表达谱实验的观察数量。
DNA微阵列和定量PCR都利用互补核酸序列的优先结合进行基因表达谱的分析。虽然高通量的DNA微阵列在量化准确性上略显不足,但在筛选出感兴趣的基因时,常常会先使用DNA微阵列进行筛选,随后再用PCR进行验证,这样方法更加有效。
微阵列的数据分析正在迅速发展。仅仅报告一组基因的调节已经无法满足生物学上的要求,研究者开始寻求更为严谨的统计方法。例如,通过多重比较调整p值,确保这些基因的不同不是由随机变化引起的,而是真正的生物学变化。
数据统计可能能够识别出哪些基因产品在实验条件下变化,但想要理解这些基因的生物学意义,其关键在于了解每个基因产物所制造的蛋白质及其功能。基因注解提供了功能性和其他资讯,帮助科学家理解不同基因之间的关系。
一旦识别出某组调节基因,进一步探究这些基因之间的关联性是至关重要的。例如,我们可能观察到某个基因的蛋白质产物活化了另一个基因。这样的关联可能不仅仅是偶然,而是反映了潜在的生物学过程。这需要采用严格的统计程序来确定这样的生物学主题是否具备意义。
基因表达谱在提供生物学见解方面具有重要意义,但无法单凭此推导出具备因果关系的结论。基因表达的变化未必直接影响蛋白质水平,这使得基因表达数据仅作为生物学深入研究的参考资料。
当我们越来越深入了解细胞如何选择性表达特定基因时,这在未来的研究中将会引出哪些重要的新问题呢?