基因的编码区域,即编码DNA序列(CDS),是基因DNA或RNA中用来编码蛋白质的部分。对比不同物种及时期内的编码区域与非编码区域的长度、组成、调控、剪接、结构及功能进行研究,可以提供关于基因组织及原核生物与真核生物进化的重要信息。此外,这样的研究能进一步辅助人类基因组的绘制和基因治疗的发展。
这个术语有时也与外显子互换使用,但并不完全相同:外显子由编码区域以及RNA的3'和5'非翻译区域组成,因此外显子部分由编码区域组成。 RNA的3'和5'非翻译区域不编码蛋白质,故此页面不会讨论这些内容。
编码区域是DNA或RNA中专门编码特定种类蛋白质的单一部分。
1978年,沃特·吉尔伯特发表了《为什么基因是拼凑的》,首次探讨基因是一种马赛克的概念——即每条完整的核酸链并不是连续编码,而是被“静默”的非编码区域打断。这是对编码区域与非编码区域分别的首次表述。
证据表明,基本组成模式与编码区域之间存在一般的相互依赖性。编码区域的GC含量通常较非编码区域高。进一步的研究发现,编码链越长,GC含量也越高。
GC丰富的区域通常较不易发生突变,因此在编码区域约有1个蛋白质改变突变,但有些受限编码区域可在100个基准内无观察到任何蛋白质改变突变。
在DNA中,编码区域两侧有模板链的启动子序列和终止序列。在转录过程中,RNA聚合酶(RNAP)会结合到启动子序列并沿着模板链移动,然后依据编码区域添加对应的RNA核苷酸,最后形成成熟的mRNA,这个过程会将胸腺嘧啶替换成尿嘧啶。
编码区域可以透过各种方式进行调控。烷基化是一种调控编码区域的方法,可以静默特定序列,阻止基因转录。这种信号的调控序列能决定蛋白质编码区域的表达时间和位置。 RNA剪接则决定了哪些部分的序列被翻译和表达,并涉及切除内含子及将外显子连接在一起。
编码区域的突变可以对生物体的表型产生多种影响。虽然某些突变可以带来优势改变,但有些可能会对生物的存活造成危害,甚至致命。
突变类型包括沉默突变、无义突变和错义突变等,其中一些突变对表型的产生不可忽视。
为了防止由于有害突变而造成的致命后果,细胞中存在多种转录和翻译机制,例如在复制过程中某些DNA聚合酶的校对机制和错配修复等。
虽然一个个体的基因组之间存在着广泛差异,但最近的研究发现,有些编码区域在同一物种的个体之间高度受限,对突变具有抵抗力。这种相似的现象或许为罕见发育疾病的源头提供了线索。
虽然在DNA序列中识别开放阅读框是相对简单的,但确定编码序列却不然。因为细胞仅翻译一部分开放阅读框成为蛋白质,这就要求对mRNA进行取样和测序。
透过对基因编码间相互关联的理解,人类对基因的解析有望更进一步。然而,我们不禁要问,未来的基因研究将如何揭示生命的更深奥秘?