关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

Science:利用宏基因组数据预测之前未知的蛋白结构

2017.1.24

  根据一项新的研究,从多种环境中收集的DNA序列数据有助研究人员构建出600多种蛋白家族的三维结构模型,而在此之前,它们的结构是未知的。这些宏基因组数据能够让人们在多种物种之间进行蛋白序列比较,从而允许利用统计学力量预测这些之前不可能预测的蛋白结构。相关研究结果发表在2017年1月20日那期Science期刊上,论文标题为“Protein structure determination using metagenome sequence data”。

  美国加州大学洛杉矶分校蛋白生化学家David Eisenberg(未参与这项研究)说,“重大的关键信息是如今利用计算方法获得非常好的蛋白结构模型是可行的。这是非常重要的,这是因为[这些作者们]能够获得比几年前获得的更多蛋白的结构模型。”

  重要的是,德国马克斯-普朗克生物物理化学研究所计算生物学家Johannes Söding(也未参与这项研究)补充道,“这些方法并不需要任何实验数据”,比如利用X射线晶体分析术或核磁共振成像等揭示蛋白结构的传统技术获得的那些数据。

  Söding解释道,直到最近,生物学家们利用同源建模预测他们喜欢的蛋白的结构---“那就是你有一种与你感兴趣的蛋白存在同源关系的模板蛋白,而且利用这种同源性,你基本上能够复制这种结构,并让它适应这种新的序列。”但是,他说,利用这种新的方法,“即便你没有模板蛋白的话,你也能够构建出[准确的]模型”。

  领导这项新研究和开发出蛋白结构预测软件Rosetta的美国华盛顿大学研究员David Baker说,自从发现氨基酸序列决定着蛋白折叠方式以来,科学家们一直在研究利用蛋白序列计算它的结构的方法。

  Baker说,已知蛋白折叠成它们最低的能量状态,但是经常存在如此多可能的低能量构象,特别是对大分子蛋白而言,毕竟构象本身很少会提供有价值的信息。他补充道,利用实验确定的蛋白结构数据能够提高Rosetta的计算准确性,“但是几年前,我们和其他人已意识到如果你拥有来自一个大的蛋白家族的足够多序列,那么你可能能够基于它们在进化期间的共同变异(covariation),鉴定出在三维结构中进行接触的氨基酸残基对。”

  简而言之,如果两个氨基酸在一个蛋白内相互作用,那么它们可能一起进化。比如,如果它们的电荷是相反的,一种突变改变一个氨基酸的电荷,那么另一个氨基酸可能也会发生改变。对来自多种物种的给定蛋白进行序列比较能够鉴定出这些共同进化的---因此相互作用的---氨基酸残基。

  几年前,Baker团队利用这种方法预测几十种蛋白家族的结构。自那以后,其中的6种蛋白已通过实验加以确定,而且在这项新的研究中,对Rosetta预测结果和这些实验结果进行一一比较,结果表明它们是“真地真地类似的”。

  但是如果感兴趣的蛋白并没有大量的多样性序列用于比较,那么将会怎么样?Baker解释道,这正是宏基因组学发挥作用的地方。

  Baker说,宏基因组数据是通过对一种给定样品(比如土壤,池塘水等等)中的所有DNA进行测序获得的,因此“你获得巨大的多样性序列。它极大地扩大蛋白家族的数量,因此有足够多的序列比较来产生准确的结构模型。”确实,利用宏基因组数据,Baker团队能够自信地预测另外614个蛋白家族的结构。

  Baker说,“它是非常令人关注的,这是因为每个蛋白家族当中有至少1000种不同的蛋白,因此这些结构模型很可能覆盖一百万多种当前结构未知的蛋白。”

  Baker说,相比于真核生物DNA序列,宏基因组数据通常含有更高比例的原核生物DNA序列。因此,在剩余的4500种左右的仍然没有结构模型的蛋白家族当中,很多蛋白家族是真核生物特异性的。他说,“如今,我们正在尝试着做的事情是收集来自全世界正在参加针对鸟、鱼、蠕虫和真菌等真核生物的基因组测序项目的人体中的基因组序列。”

  美国马里兰大学的John Moult(未参与这项研究)说,“这项研究的限制在于序列可获得性。但是,如今每年有大量的新序列出现,因此仅需提前预测一下,你就会明白这一点:利用这种相同的方法,你将会在接下来的5年或10年内对剩下的蛋白家族留下深刻的影响。”

推荐
热点排行
一周推荐
关闭