基因的編碼區域,即編碼DNA序列(CDS),是基因DNA或RNA中用來編碼蛋白質的部分。對比不同物種及時期內的編碼區域與非編碼區域的長度、組成、調控、剪接、結構及功能進行研究,可以提供關於基因組織及原核生物與真核生物進化的重要信息。此外,這樣的研究能進一步輔助人類基因組的繪製和基因治療的發展。
這個術語有時也與外顯子互換使用,但並不完全相同:外顯子由編碼區域以及RNA的3'和5'非翻譯區域組成,因此外顯子部分由編碼區域組成。RNA的3'和5'非翻譯區域不編碼蛋白質,故此頁面不會討論這些內容。
編碼區域是DNA或RNA中專門編碼特定種類蛋白質的單一部分。
1978年,沃特·吉爾伯特發表了《為什麼基因是拼湊的》,首次探討基因是一種馬賽克的概念——即每條完整的核酸鏈並不是連續編碼,而是被“靜默”的非編碼區域打斷。這是對編碼區域與非編碼區域分別的首次表述。
證據表明,基本組成模式與編碼區域之間存在一般的相互依賴性。編碼區域的GC含量通常較非編碼區域高。進一步的研究發現,編碼鏈越長,GC含量也越高。
GC豐富的區域通常較不易發生突變,因此在編碼區域約有1個蛋白質改變突變,但有些受限編碼區域可在100個基準內無觀察到任何蛋白質改變突變。
在DNA中,編碼區域兩側有模板鏈的啟動子序列和終止序列。在轉錄過程中,RNA聚合酶(RNAP)會結合到啟動子序列並沿著模板鏈移動,然後依據編碼區域添加對應的RNA核苷酸,最後形成成熟的mRNA,這個過程會將胸腺嘧啶替換成尿嘧啶。
編碼區域可以透過各種方式進行調控。烷基化是一種調控編碼區域的方法,可以靜默特定序列,阻止基因轉錄。這種信號的調控序列能決定蛋白質編碼區域的表達時間和位置。RNA剪接則決定了哪些部分的序列被翻譯和表達,並涉及切除內含子及將外顯子連接在一起。
編碼區域的突變可以對生物體的表型產生多種影響。雖然某些突變可以帶來優勢改變,但有些可能會對生物的存活造成危害,甚至致命。
突變類型包括沉默突變、無義突變和錯義突變等,其中一些突變對表型的產生不可忽視。
為了防止由於有害突變而造成的致命後果,細胞中存在多種轉錄和翻譯機制,例如在複製過程中某些DNA聚合酶的校對機制和錯配修復等。
雖然一個個體的基因組之間存在著廣泛差異,但最近的研究發現,有些編碼區域在同一物種的個體之間高度受限,對突變具有抵抗力。這種相似的現象或許為罕見發育疾病的源頭提供了線索。
雖然在DNA序列中識別開放閱讀框是相對簡單的,但確定編碼序列卻不然。因為細胞僅翻譯一部分開放閱讀框成為蛋白質,這就要求對mRNA進行取樣和測序。
透過對基因編碼間相互關聯的理解,人類對基因的解析有望更進一步。然而,我們不禁要問,未來的基因研究將如何揭示生命的更深奧秘?