基因的编码区域,或称作编码DNA序列(CDS),是指一段基因的DNA或RNA中,专门用来编码蛋白质的部分。透过研究不同物种及时间尺度下编码区域与非编码区域的长度、组成、调节、拼接、结构及其功能,科学家们获得了大量有关基因组织及原核生物与真核生物演化的重要资讯,这对于绘制人类基因组和发展基因治疗都具有助益。
虽然“编码区域”常与“外显子”互换使用,但二者不完全等同。
编码区域专指DNA或RNA中能编码特定蛋白质的单一区段,与基因内其它部分(如3'和5'非翻译区)有明显区别。 1978年,沃尔特·吉尔伯特在其著作《为何基因是碎片》中,首次提出基因的拼图概念,指出每根完整的核酸链并不是连续的,而是被“沉默的”非编码区域所中断。
研究结果显示,编码区域的核苷酸组成模式与其可用性之间存在着相互依赖的关系。编码区域通常拥有较高的GC含量,此外,编码区域的长度越长,其GC含量也随之增加。相比之下,短的编码链通常GC含量低,这与翻译终止密码子TAG、TAA和TGA的低GC特性相似。
重要的编码区域(基因丰富)拥有较高的GC含量,因此更稳定且更抗突变。
在DNA中,编码区域位于模板链5'端的启动子序列与3'端的终止序列之间。在转录过程中,RNA聚合酶会与启动子结合,随后开始转录编码区域形成mRNA,并在整个过程中将尿嘧啶替代胸腺嘧啶。 mRNA经过成熟后,包含多个在翻译为蛋白质过程中重要的部分。
为了调节基因表达,编码区域可以被修饰。例如,烷基化是一种通过抑制特定序列来使基因失活的调控方式。 RNA剪接则决定了在RNA中哪些部分会被翻译为蛋白质,这一过程涉及去除内含子并连接外显子。
编码区域中的突变对生物体表型的影响各异,某些突变可能带来优势,而另一些则可能有害,甚至导致生存困难。相比之下,非编码区域的变化不一定会轻易在表型中显现出来。
最近的研究发现,即使个体之间的基因组可以存在广泛差异,但某些编码区域在同一物种内却高度约束,对突变具有抵抗力。这些高度约束的区域被称为约束编码区域(CCRs),并与强过滤选择有关。
那些著名的编码区域可能与一些罕见的发育疾病或胚胎致死有关。
虽然从DNA序列中识别开放阅读框相对简单,但准确确定编码序列却并非易事。当前的编码序列预测通常依赖于对细胞中mRNA的抽样及测序,然而,如何确定特定mRNA中哪些部分实际上会转译为蛋白质仍然是挑战。
在基因的研究中,除了编码区域外,还要考量包括RNA基因和调控序列等功能元素。
随着基因组学技术的日益进步,我们对编码与非编码区域的联系和作用有了更深入的理解,这或可催生出新的生物医学应用。面对未来,我们是否能够解开更多基因组中的奥秘,找到能彻底改变疾病治疗的新方法呢?