在结构生物学中,蛋白质骨架片段库已成功应用于各种场合,包括同源建模、新的结构预测和结构确定。这些片段库透过简化搜索空间,加快了对构象空间的搜寻,进而生成更高效且准确的模型。
蛋白质在离散建模时可以采取指数数量的状态。通常,蛋白质的构象是由所有相连原子之间的二面角、键长和键角所表示。
当前,最常见的简化方法是假设理想的键长和键角。尽管如此,这依然留有骨架的phi-psi 角,以及每个侧链的最多四个二面角,导致蛋白质可能的状态数复杂度可达到k^6 * n
,其中n 是残基的数量,而k 是每个二面角模型的离散状态数。为了减少构象空间,可以使用蛋白质片段库,而不是明确建模每个 phi-psi 角。
片段为由 5 到 15 个残基组成的短段肽骨架,通常不包括侧链。如果是简化的原子表示,它们可能仅指定 C-alpha 原子的定位,或者所有骨架重原子(N、C-alpha、C carbonyl、O)的位置。侧链通常无法使用片段库进行建模。要建模侧链的离散状态,可以使用转旋体库方法。这种方法假设局部相互作用在稳定整体蛋白质构象中发挥了重要作用。
根据 Levinthal 的悖论,蛋白质不可能在合理的时间内采样所有可能的构象。局部稳定的结构会减小搜索空间,使蛋白质能在毫秒的级别内折叠。
这些片段的库是通过对蛋白质数据库(PDB)的分析来构建的。首先,选择 PDB 的一个代表性子集,该子集应涵盖多样的结构,并且解析度良好。然后,对于每个结构,将每组 n 个连续的残基作为样本片段。在样本中应用例如 k-means 聚类的算法,将其根据彼此在空间配置上的相似性聚类成 k 组。此处的参数 n 和 k 根据具体应用而定。
聚类的中心点被视为片段的代表。进一步的优化可以确保中心点具备理想的键几何,因为它是通过平均其他几何而导出的。由于片段衍生自自然界存在的结构,它们所代表的骨架片段将具有现实的键合几何,这有助于避免探索有些会导致不现实几何的完整构象角空间。该聚类可以在不考虑残基身份的情况下进行,也可以针对特定的残基。对于任何给定的氨基酸序列,可以利用 PDB 中相同序列的样本来衍生聚类。
在同源建模中,片段库的常见应用是建模结构的环。通常,α-螺旋和β-片层会与模板结构进行对接,但中间的环则未被指定,需要进行预测。寻找最佳配置的环是一个 NP 困难问题。为了减少需要探索的构象空间,可以将环建模为一系列重叠的片段。然后,我们可以对该空间进行抽样,或者如果空间现在足够小,可以进行全面列举。
环构造始于将所有可能的片段对齐,与三个位于环 N 端的氨基酸重叠(即锚点)。随后,将第二片段的所有可能选择对齐到第一片段的所有可能选择上,确保第一片段的最后三个氨基酸与第二个片段的前面三个氨基酸重叠。
尽管使用片段库后状态空间的复杂性仍为指数,但指数的程度减少了。对于一个F-mer 片段库,其库中包含L 个片段,当要对N 残基更加重叠每个片段的3 个时,可能的链为L[N/(F-3)] + 1
。与明确建模 phi-psi 角的 K 可能组合的 KN 可能性相比,这要少得多。当然,这种复杂性随着片段库中片段数量 L 的增加而提高。然而,更多的片段将捕获更大全景的片段结构,因此在模型的准确性与探索搜索空间的速度之间存在权衡。此外,对于任何固定的 L,随着片段长度的增加,能够被建模的结构的多样性会减少。短片段比长片段更能涵盖 PDB 中发现的多样结构。最近的研究显示,长达 15 的片段库能在 2.0 Å 内模拟 PDB 中的 91% 的片段。
然而,在这些技术背后潜藏着更大的潜力,将改变我们对蛋白质结构的理解和预测方式,未来是否还会有更新颖的解决方法出现呢?