关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

《自然》封面:新方法根据结构预测功能

2007.8.20

来自美国加州大学旧金山分校药理化学系,得克萨斯农工大学(Texas A&M University),Albert Einstein 医学院的研究人员利用一种变通的分子对接方法(一种用来寻找潜在药物的计算机辅助的模拟方法),设计出一种根据结构来预测某种具有未知活性的酶的功能的方法。如果这一新方法也适用于其他酶,那么就可以作为一种有力工具确定关键的酶在体内是如何发挥作用的。这一研究成果公布在《Nature》封面上。

原文检索:
Nature 448, 775-779 (16 August 2007) |
doi:10.1038/nature05981; Received 24 January 2007; Accepted 7 June 2007; Published online 1 July 2007
Structure-based activity prediction for an enzyme of unknown function
[Abstract]

寻找某种蛋白质的空间结构,首先应该查询蛋白质数据库 HPDB 或 PDB,即查询是否已经有人做过该蛋白质的空间结构测定。 HPDB 或 PDB 中只存储至今人们已知其空间结构的蛋白质,数量占生物体中存在的各种蛋白质的很小部分。由于资金和技术等方面的问题,人们尚不知道许多蛋白质的空间结构。 对于这些蛋白质,结构预测是获得其空间结构的很好办法。

如果已经拥有蛋白质一级结构序列,无论是由蛋白质测序仪直接测定得到氨基酸序列,或是由基因序列通过遗传密码翻译推测得到氨基酸序列,都可以利用蛋白质结构预测软件(服务)对该蛋白质的三维结构进行预测。 尽管预测本身有一定风险,但总比一无所知要好得多。蛋白质结构预测技术已经取得了很大进步,每种预测方法都是根据特定的规则进行合理的预测 ,具有一定的可信度。

目前预测蛋白质结构的方法可分为三大类:

同源建模——目标序列与模板序列比较,按照模板序列的空间结构,经过优化,产生目标序列三维结构;
 
折叠识别——预测二级结构,预测折叠方式,参考其它蛋白的空间结构,产生目标序列三维结构;
 
从无到有——单个氨基酸形成二级结构的倾向,加上各种作用力力场信息,直接产生目标序列三维结构。
同源建模方法目前被认为是最精确的方法。同源性大于50%时,结果比较可靠;30~50%之间, 其结果需要参考其它蛋白的信息。同源性小于30%时,人们一般采用折叠识别方法。同源性更小时,从无到有法更有效。

在这篇文章中,研究人员利用一种变通的分子对接方法对热海栖热袍菌(Thermotoga maritima,一种嗜极端高温的厌氧细菌)的未知功能酶Tm0936进行了预测,对接实验预测,它将使5-methylthioadenosine和S-adenosylhomocysteine去胺化;这一点已在化学上、并从与一个反应产物相结合的该蛋白的X-射线晶体结构得到了证实。这种酶没有与已知的腺苷胺化酶相似的明显序列,甚至它所参与的通道似乎也是新颖的。如果这一新方法也适用于其他酶,那么它应当成为一种有力工具,来确定关键的酶在体内是如何发挥作用的。

附:
蛋白质结构预测相关概念:

“折叠(fold)”的概念

“折叠(fold)”是近年来蛋白质研究中应用较广的一个概念,它是介与二级和三级结构之间的蛋白质结构层次,它描述的是二级结构元素的混合组合方式。

二级结构的预测方法介绍:

Chou-Fasman算法:
 
是单序列预测方法中的一种,它是使用氨基酸物理化学数据中派生出来的规律来预测二级结构。 首先统计出20种氨基酸出现在α螺旋、β折叠和无规则卷曲中出现频率的大小,然后计算出每一种氨基酸在这几种构象中的构象参数Px.构象参数值的大小反映了该种残基出现在某种构象中的倾向性的大小。按照构象参数值的大小可以把氨基酸分为六个组:Ha(强螺旋形成者)、ha( 螺旋形成者)、Ia(弱螺旋形成者)、ia(螺旋形成不敏感者)、ba(螺旋中断者)、Ba(强螺旋中断者)。Chou和Fasman根据残基的倾向性因子提出二级结构预测的经验规则,要点是沿蛋白序列寻找二级结构的成核位点和终止位点。这种方法可能能够正确反映蛋白质二级结构的形成过程,但预测成功率并不高,仅有50%左右。

GOR算法:
 
也是单序列预测方法中的一种,因其作者Garnier, Osguthorpe和 Robson而得名。这种方法是以信息论为基础的,也属于统计学方法的一种,GOR方法不仅考虑被预测位置本身氨基酸残基种类对该位置构象的影响,也考虑到相邻残基种类对该位置构象的影响。这样使预测的成功率提高到 65% 左右。GOR方法的优点是物理意义清楚明确,数学表达严格,而且很容易写出相应的计算机程序,但缺点是表达式复杂。

多序列列线预测:
 
对序列进行多序列比对,并利用多序列比对的信息进行结构的预测。调查者可找到和未知序列相似的序列家族,然后假设序列家族中的同源区有同样的二级结构,预测不是基于一个序列而是一组序列中的所有序列的一致序列。

基于神经网络的序列预测:
 
利用神经网络的方法进行序列的预测,BP (Back-Propagation Network) 网络即反馈式神经网络算法是目前二级结构预测应用最广的神经网络算法,它通常是由三层相同的神经元构成的层状网络,使用反馈式学习规则,底层为输入层,中间为隐含层,顶层是输出层,信号在相邻各层间逐层传递,不相邻的各层间无联系,在学习过程中根据输入的一级结构和二级结构的关系的信息不断调整各单元之间的权重,最终目标是找到一种好的输入与输出的映象,并对未知二级结构的蛋白进行预测。神经网络方法的优点是应用方便,获得结果较快较好,主要缺点是没有反映蛋白的物理和化学特性,而且利用大量的可调参数,使结果不易理解。许多预测程序如PHD、PSIPRED等均结合利用了神经网络的计算方法。
 
基于已有知识的预测方法(knowledge based method):

这类预测方法包括Lim 和 Cohen 两种方法。Lim 方法是一种物理化学的方法,它根据氨基酸残基的物理化学性质,包括:疏水性、亲水性、带电性以及体积大小等,并考虑残基之间的相互作用而制订出一套预测规则。对于小于50个氨基酸残基的肽链, Lim 方法的预测准确率可以达到73%. 另一种是 Cohen 方法,它的提出当时是为了α/β蛋白的预测,基本原理是说:疏水性残基决定了二级结构的相对位置,螺旋亚单元或扩展单元是结构域的核心,α螺旋和β折叠组成了结构域。

混合方法(hybrid system method):

将以上几种方法选择性的混合使用,并调整他们之间使用的权重可以提高预测的准确率,目前预测准确率在70%以上的都是混合方法,其中,同源性比较方法、神经网络方法 和 GOR方法 应用最为广泛。

推荐
热点排行
一周推荐
关闭