关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

蛋白质结构和功能的基础模型

2022.4.21

蛋白质设计程序使用在体内环境中驱动蛋白质的分子力的计算机模型。为了使问题易于解决,蛋白质设计模型简化了这些作用力。尽管蛋白质设计程序相差很大,但它们必须解决四个主要的建模问题:设计的目标结构是什么,目标结构允许什么样的灵活性,搜索中包括哪些序列,以及将使用哪个力场来分数序列和结构。

目标结构

蛋白质功能在很大程度上取决于蛋白质结构,合理的蛋白质设计使用这种关系通过设计具有目标结构或折叠结构的蛋白质来设计功能。因此,根据定义,在合理的蛋白质设计中,必须预先知道靶标结构或结构的整体。这与其他形式的蛋白质工程(例如定向进化)形成鲜明对比,在定向进化中,可以使用多种方法来查找实现特定功能的蛋白质;在蛋白质结构预测中,已知序列但结构未知。

通常,靶标结构基于另一种蛋白质的已知结构。但是,自然界中看不见的新颖褶皱变得越来越有可能。彼得·S·金(Peter S.Kim)和他的同事设计了自然界中从未见过的非自然卷曲螺旋的三聚体和四聚体。在大卫·贝克(David Baker)实验室开发的蛋白质Top7,是使用蛋白质设计算法完全设计的,具有完全新颖的折叠效果。最近,贝克和同事们开发了一系列原理来设计基于蛋白质折叠漏斗的理想球状蛋白质结构在二级结构预测和三级结构之间架起桥梁。这些基于蛋白质结构预测和蛋白质设计的原理被用于设计五种不同的新型蛋白质拓扑。

序列空间

在合理的蛋白质设计中,可以从已知蛋白质的序列和结构重新设计蛋白质,或者在从头蛋白质设计中完全从头开始重新设计蛋白质。在蛋白质重新设计中,序列中的大多数残基都保留为野生型氨基酸,同时允许少数突变。在从头设计中,整个序列是在没有先验序列的基础上重新设计的。

既从头设计和重新设计的蛋白质能建立此规则序列空间:特定的氨基被允许在每个可变位置残基的酸。例如,基于进化数据和电荷平衡,限制了选择RSC3探针的 HIV-中和抗体的表面成分。蛋白质设计的许多最早尝试都很大程度上基于序列空间的经验规则。此外,纤维蛋白的设计通常在序列空间上遵循严格的规则。例如,基于胶原蛋白设计的蛋白质通常由Gly-Pro-X重复序列组成。计算技术的出现允许设计蛋白质而无需人工干预序列选择。

结构灵活性

在蛋白质设计中,蛋白质的靶结构是已知的。但是,合理的蛋白质设计方法必须在目标结构上建立一定的灵活性模型,以增加可以针对该结构设计的序列数量,并xxx程度地减少序列折叠为不同结构的机会。例如,在蛋白质的紧密堆积核心中的一个小氨基酸(例如丙氨酸)的蛋白质重新设计中,如果周围的侧链折叠,则通过合理的设计方法可以预测出很少的突变体可以折叠成目标结构不允许重新包装。

因此,任何设计过程的基本参数是侧链和主链所允许的灵活性。在最简单的模型中,蛋白质主链保持刚性,同时允许某些蛋白质侧链改变构象。但是,侧链的键长,键角和χ二面角可具有许多自由度。为了简化此空间,蛋白质设计方法使用的旋转异构体库假定键长和键角为理想值,同时将χ二面角限制为一些经常观察到的低能构象,称为旋转异构体。

旋转异构体文库基于对许多蛋白质结构的分析来描述旋转异构体。独立于主干的rotamer库描述了所有rotamer。相反,依赖于骨干的旋转异构体文库将旋转异构体描述为取决于它们在侧链周围的蛋白质骨架排列方式出现的可能性。rotamer库描述的rotamer通常是空间区域。大多数蛋白质设计程序都使用一种构象(例如,空间中旋转异构体二面体的模态值)或旋转异构体描述的区域中的多个点。在OSPREY蛋白质设计方案,相比之下,模型整个连续区域。

尽管合理的蛋白质设计必须保留蛋白质的一般骨架折叠,但允许某些骨架柔性可以显着增加折叠至结构的序列数,同时保持蛋白质的一般折叠。骨架灵活性在蛋白质重新设计中尤其重要,因为序列突变通常会导致骨架结构发生微小变化。此外,骨架灵活性对于蛋白质设计的更高级应用(例如结合预测和酶设计)可能至关重要。蛋白质设计骨架柔性的一些模型包括小而连续的整体骨架运动,目标折叠周围离散的骨架样品,反冲运动和蛋白质环柔性。

能量功能

合理的蛋白质设计技术必须能够将在目标折叠下稳定的序列与倾向于其他低能竞争态的序列区分开。因此,蛋白质设计需要精确的能量功能,该功能可以根据序列与目标结构的折叠程度对序列进行排序和评分。但是,同时,这些能量函数必须考虑蛋白质设计背后的计算挑战。成功设计中最具挑战性的要求之一是能量函数,该函数对于计算计算而言既准确又简单。

最精确的能量函数是基于量子力学模拟的能量函数。然而,这样的模拟太慢并且对于蛋白质设计通常是不切实际的。取而代之的是,许多蛋白质设计算法使用的是基于分子力学模拟程序的基于物理学的能量函数,基于知识的能量函数或两者的混合。趋势是使用更多基于物理学的势能函数。

基于物理的能量函数(例如AMBER和CHARMM)通常来自量子力学模拟,以及来自热力学,晶体学和光谱学的实验数据。这些能量函数通常会简化物理能量函数并使它们成对分解,这意味着可以通过在每个原子对之间添加成对能量来计算蛋白质构象的总能量,这使它们对于优化算法具有吸引力。基于物理的能量函数通常对原子之间的吸引排斥Lennard-Jones项和非键合原子之间的成对静电库仑项进行建模。

与基于物理的电势相反,统计电势的优点是计算速度快,隐含地考虑复杂的影响并且对蛋白质结构的微小变化不太敏感。这些能量函数基于结构数据库中出现频率得出的能量值。

然而,蛋白质设计有时会受到分子力学力场的限制。分子力学力场是分子动力学模拟中最常用的一种,它针对单个序列的模拟进行了优化,但是蛋白质设计通过许多序列的许多构象进行搜索。因此,必须为蛋白质设计量身定制分子力学力场。在实践中,蛋白质设计能量函数通常同时包含统计术语和基于物理的术语。例如,Rosetta能量函数(最常用的能量函数之一)结合了源自CHARMM能量函数的基于物理学的能量项以及统计能量项,例如旋转子概率和基于知识的静电。通常,能源功能在实验室之间是高度定制的。

推荐
关闭