在結構生物學的領域中,蛋白質背骨片段庫(fragment libraries)已成功應用於多種結構預測中,從同源建模到新穎結構預測,再到結構確定,這些片段庫以其降低搜尋空間的複雜性,促進了更快速且準確的模型建構。
蛋白質在被離散建模時,可以採取指數階的狀態。一般而言,蛋白質的構象被表示為連接原子的二面角、鍵長和鍵角的集合。最常見的簡化假設是理想的鍵長和鍵角,其餘的仍需考慮背骨的phi-psi角,以及每個側鏈的多達四個二面角。這樣的複雜性讓蛋白質可能的狀態達到k6*n,其中n為殘基數量,k則為每個二面角所建模的離散狀態數量。透過使用蛋白質片段庫,可以省略明確建模每個phi-psi角。
片段庫使得我們能夠在不需要經歷所有可能的構象角度探索的情況下,專注於建立真實的結構模型。
這些片段庫的建立來自於對蛋白質資料庫(PDB)的分析。首先,需要選擇一個具有多樣結構的代表子集PDB,並在理想解析度下進行分析。然後,對每個結構,取每n個連續殘基作為樣本片段。接下來,這些樣本將根據空間配置的相似性進行聚類分析,使用例如k-means聚類等演算法。選擇的參數n和k將依應用情境而有所不同。
聚類所得的重心被用作片段的代表,這樣的方式不僅保證了幾何的真實性,也避免了探索不合理的構象空間。
在同源建模中,片段庫的常見應用是在結構中建模迴圈部位。一般而言,α-螺旋和β-片層將與模板結構進行比對,但位於中間的迴圈則需要預測。尋找最佳配置的迴圈是一個NP-hard問題。為了減少需要探索的構象空間,可以將迴圈建模為一系列重疊的片段。這樣的空間可以進行抽樣或詳細列舉,具體方法是對所有可能的片段進行對齊,並確保它們之間的重疊符合正確的幾何角度。
即使使用片段庫後,狀態空間的複雜性依然呈現指數性增長。不過,相較於直接建模phi-psi角,使用片段庫可以有效降低指數的度數。對於一個F-mer片段庫,隨著L片段數量的增長,建模一條N殘基的鏈條的潛在組合將大幅減少。這種複雜性雖然仍取決於片段庫的大小,但也要求在準確性與速度之間作出權衡。
隨著生物資訊學的發展,片段庫的使用將成為高效蛋白質結構預測的重要工具。透過這些庫,我們不僅可以更好地理解蛋白質的結構與功能,還可促進新藥的發現及設計。然而,隨著模型準確性的提升,我們是否準備好面對隨之而來的計算挑戰?