关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

蛋白质三级机构(空间结构)预测-从头预测法

2020.9.07

H-P模型是基于三种简化的,即蛋白质中各个氨基酸残基的α碳原子都位于二维网格或三维网格的格点上,疏水作用是蛋白折叠中唯一的重要因素,同时通过计算疏水残基接触的数目代替构象的能量计算。虽然这样的处理非常简单,但是,通过H-P模型的计算分析,能够发现蛋白质折叠的一些机制。

如果在蛋白质模型中取消氨基酸定位于网格点的限制,那么蛋白模型就可以更真实地模拟出蛋白的实际构象。去网格模型的误差通常用预测构象和实际构象中 α碳原子的均方根偏差(RMSD)来计算。α碳原子的RMSD是指当预测构象和实际构象重叠在一起时,两种构象中每个α碳原子位置的Euclidean平方距离的总和。



随着蛋白模型与实际情况越来越相符,模型的复杂性也越来越大。去网格蛋白折叠模型可以只考虑α碳原子,也可以考虑所有的骨架原子,甚至可以考虑所有的骨架原子和侧链原子。假如在模型中考虑侧链的话,那么侧链可以表示成刚性侧链、半柔性侧链和完全柔性侧链。对于刚性侧链,我们已经在X射线结晶结构中得到了这些侧链的构象,X射线结晶结构中每种氨基酸出现最多的构象就被看作这种氨基酸的刚性侧链采取的构象。对于半柔性侧链,我们也是利用类似的经验性方法得到它的构象。从一系列X射线结构中可以得到侧链的多种构象,对这些构象进行分组,形状类似的为一组,这种方法中排除了那些不经常出现的构象,这也减少了搜索的复杂度。

能量函数及优化

除了要考虑疏水作用,蛋白折叠的能量函数中还要考虑到氢键、二硫桥的形成、静电作用、范德华力以及溶剂作用。由于这些力中每一个力的相对作用还很难通过实验来计算,因此寻找一个合适的蛋白折叠复合能量函数仍然是一个研究热点。我们可以通过理论方法,针对范德华力、氢键、溶剂、静电和其它力对一个已折叠蛋白总体稳定性的相对作用来建立能量函数。它的目标是得到一个近似的能量函数或者力场,那些已知结构的蛋白质结晶构象在这个能量函数中处于一个最小能量的状态。如何寻找一些可行的能量函数,本质上是分子力学的问题。而且,科学家确实已经设计出了许多有效的能量函数。

分子力学方法假设正确的蛋白质折叠对应于最低能量的构象。分子力学势能是原子坐标的函数,其极小值对应于原子体系的局部能量最小点。势能函数由多项组成,包括成键作用和非成键作用。成键作用项分为化学键的伸缩能(键长)、弯曲能(键角)和扭转能(二面角),非成键作用包括范德华力、静电力、氢键等。分子力学中的势能参数有各种来源,包括从头算和半经验量子化学计算结果、氨基酸和小分子的实验观察结果等。



对于能量的优化有多种方法。常用的方法是梯度下降法,其中最陡下降法是一种简单的优化算法。在最低能量搜索过程中,最陡下降法反复对能量函数进行微分,计算梯度,每次沿能量下降最多的方向前进。当搜索位置离能量极小点比较远时,用这种方法可以迅速向极小点靠近,但接近极小点时,会产生振荡,收敛速度慢。另一种基于梯度的方法是共轭梯度法,其计算与最陡下降法一样,但是在选择搜索方向时,不仅考虑当前的梯度,还要考虑原来的搜索方向,经过综合决定下一步搜索方向。共轭梯度法收敛的速度快,但是更容易陷入能量局部极小点。

牛顿-拉普森方法是另一类能量优化方法。梯度方法在计算时使用的是一阶微分,而牛顿-拉普森方法除使用一阶微分外,还计算二阶微分,利用一阶微分确定搜索方向,用二阶微分确定沿梯度在什么地方改变方向。应用该方法能够迅速收敛,但是计算量非常大。也可以通过分子动力学来寻找具有局部最低能量的构象。分子动力学利用牛顿力学的基本原理,通过求解运动方程得到所有原子的运动轨迹,并根据轨迹计算各种性质。分子动力学的优势在于能够跨过较大的势垒,获得低能量的构象。在蒙特卡罗和其它理论、实验方法的支持下,分子动力学技术作为改进的模型,在搜索过程中能够避免陷入局部能量极小点。分子动力学另外一个特点是可以模拟蛋白质折叠的过程,从而深入了解蛋白质折叠的规律。



蒙特卡罗是一种随机采样的方法,通过该方法可以期望找到非常接近于全局能量最优的构象。也有用模拟退火方法、遗传算法等进行蛋白质构象搜索和结构预测。

然而,要确保找到全局最低能量的构象,必须进行全面搜索,以一定步长搜索整个构象空间,从而寻找能量最低点。由于搜索的是整个构象空间,所以最终找到的是全局最小点。但是对于生物大分子来讲搜索空间太大,在实际应用中不可行,只能处理很小的蛋白质。即使对搜索空间进行约束,如只允许我们感兴趣的氨基酸和连接两个残基的二面角发生变化,计算量仍然是个问题。对构象空间的进一步简化也只能处理比较小的蛋白质。

虽然利用引起蛋白质折叠的物理力学以及能量函数对蛋白质进行建模有一定实际意义,但是这种从头开始预测蛋白质结构的方法由于种种原因往往得不到令人满意的结果。首先,到目前为止,我们还没有完全了解究竟是哪些力决定了蛋白质的折叠过程,同时这些力之间又是如何相互作用的。即使有了一些力场,但是,力场参数不精确。其次,这种方法需要考虑蛋白质中所有原子之间以及所有原子与周围溶剂之间的相互作用。对于实际大小的多肽,由于计算量太大,这种方法其实并不可行。实际上,也没有对溶剂处理的好方法。再一方面,构象搜索过程容易陷入局部能量极小点,而且自然折叠的蛋白质结构与一般蛋白质构象之间的能量差值比较小,因此,通过计算发现蛋白质的自然折叠结构非常困难。



对于从头开始的方法,另外一种变化方法就是根据一些已知结构的蛋白质构象为一个未知结构的蛋白设计一个经验性的伪能量函数。通常,为得到这种经验性的能量函数表达式,我们首先要选择一系列已知结构的蛋白质,然后对于每一个氨基酸,分析在三维空间上与其相邻的氨基酸。于是,我们可以根据不同氨基酸的相对位置得到一个得分矩阵。例如,得分矩阵中会记录所有丝氨酸残基和苏氨酸残基的距离小于3.6的数目。对一个假定的蛋白质构象,为了估计出它的经验性能量,必须考虑这个蛋白中每个残基的相邻残基。对于那些在样本库中经常出现的局部构象,它们的能量得分会比较小,而对于那些在样本库中不经常出现的局部构象,它们的得分则比较高。如果一个构象的得分比较高的话,这个构象就不太稳定。例如,假如一个特定的丝氨酸残基在6的距离内有三个相邻的残基,即天冬氨酸、组氨酸和谷氨酸,并且得分矩阵显示天冬氨酸、组氨酸和谷氨酸在蛋白结构样本库中经常与丝氨酸相邻,那么这个丝氨酸残基的能量得分就比较低。但是,假如得分矩阵显示丝氨酸和谷氨酸很少相邻,那么这个丝氨酸残基的经验性能量值就比较高。将蛋白质中所有残基的局部能量值累加,就得到这个蛋白质基于经验的全局能量值。实际上,这种经验性能量函数只对那些与已知蛋白质的结构相似的构象赋予比较低的能量值,而对那些新出现的构象或者不经常出现的构象,这种能量函数给出的能量值则比较高。


推荐
关闭