关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

了解蛋白质挑战的AI解决方案

2021.8.30

根据一项严格的独立研究,在一项重大的科学进步中,DeepMind的AI系统AlphaFold的-新版本已被认为是解决已有50年历史的蛋白质结构预测挑战(通常称为“蛋白质折叠问题”)的解决方案。评定。从长远来看,这一突破可以大大促进生物学研究,从而在疾病理解和药物发现等领域开辟新的可能性。

CASP14的结果表明,DeepMind的-新AlphaFold系统在结构预测中达到了无与-伦比的准确性。该系统能够在几天之内确定高精度结构。CASP是蛋白质结构预测的关键评估,是始于1994年的两年一次的社区运行评估,是评估预测技术的金标准。参加者必须盲目地预测刚刚通过实验确定的蛋白质(或者在某些情况下尚未确定)的蛋白质结构,并等待将其预测与实验数据进行比较。

CASP使用“全-球距离测试(GDT)”度量标准来评估精度,范围为0-100。新的AlphaFold系统在所有目标上的GDT总体平均得分为92.4。系统的平均误差约为1.6埃,大约是原子的宽度。根据CASP联合创始人兼主席John Moult教授的说法,大约90 GDT的分数被非正式地认为与通过实验方法获得的结果具有竞争力。

马里兰大学CASP联合创始人兼主席John Moult教授说:“近50年来,我们一直在解决这个问题(蛋白质如何折叠)这一问题。亲身经历了DeepMind对此的解决方案在这个问题上停留了这么长时间,经过了无数停顿,开始思考我们是否会到达那里,这是一个非常特殊的时刻。”

对现实世界的影响

DeepMind很高兴能与其他人合作,以了解有关AlphaFold潜力的更多信息,AlphaFold团队正在研究蛋白质结构预测如何与少数专家小组一起帮助理解某些疾病。

还有迹象表明,作为科学界开发的许多工具之一,蛋白质结构预测可能在未来的大流行应对工作中有用。今年早些时候,DeepMind预测了SARS-CoV-2病毒的几种蛋白质结构,实验人员令人印象深刻的快速工作现已证实AlphaFold在其预测中达到了很高的准确性。

AlphaFold是DeepMind迄今为止重要的改进之一。但是,与所有科学研究一样,还有许多工作要做,包括弄清楚多种蛋白质如何形成复合物,它们如何与DNA,RNA或小分子相互作用以及如何确定所有氨基酸侧链的精-确位置。

与早期的CASP13 AlphaFold系统一样,DeepMind计划在适当的时候向同行评审的期刊提交详细介绍该系统工作原理的论文,并同时探索如何-好地以可扩展的方式为系统提供更广泛的访问。

AlphaFold在展示AI作为辅助基础科学发现的工具的惊人潜力方面开辟了新天地。DeepMind期待与他人合作以释放这种潜力。

诺贝尔奖得主,皇-家学会主席Venki Ramakrishnan教授说:“这项计算工作代表了蛋白质折叠问题的惊人进展,蛋白质折叠问题是生物学界50年来的巨大挑战。它已经发生了数十年,而该领域的许多人将我们已经预见到了。很高兴看到它将从根本上改变生物学研究的许多方式。”

为什么蛋白质结构预测很重要

蛋白质对生命至关重要,其形状与功能密切相关。准确预测蛋白质结构的能力使人们能够更好地了解它们的作用及其运作方式。目前,主数据库中有超过2亿种蛋白质,而它们的3-D结构中只有一小部分已经被绘制出来。

一个主要的挑战是蛋白质在理论上可以折叠成终的3-D结构之前可以折叠的天文方法。从根本上说,社会面临的许多大挑战,例如开发疾病的治疗方法或寻找可分解工业废物的酶,都与蛋白质及其作用密切相关。确定蛋白质的形状和功能是科学研究的一个主要领域,主要是使用实验技术,每个结构可能要花费数年的艰辛和艰巨的工作,并且需要使用数百万美元的设备。

DeepMind解决蛋白质折叠问题的方法

突破性突破是DeepMind在2018年*参加CASP13的基础上,初的AlphaFold版本在所有参与者中都达到了-高的准确性。现在,DeepMind为CASP14开发了新的深度学习体系结构,从生物学,物理学和机器学习领域以及过去半个世纪蛋白质折叠领域的许多科学家的工作中汲取了灵感。

折叠的蛋白质可以被认为是“空间图”,其中残基是结点,边缘将残基紧密相连。该图对于理解蛋白质内的物理相互作用及其进化历史非常重要。对于在CASP14上使用的-新版本的AlphaFold,DeepMind创建了一个基于注意力的神经网络系统,端到端进行了培训,该系统试图解释该图的结构,同时对所构建的隐式图进行推理。它使用进化相关序列,多序列比对(MSA)和氨基酸残基对表示来完善此图。

通过重复此过程,系统可以对蛋白质的潜在物理结构进行强有力的预测。此外,AlphaFold可以使用内部置信度量度来预测每个预测的蛋白质结构的哪些部分是可靠的。

该系统接受了来自蛋白质数据库中约170,000种蛋白质结构组成的公开数据的培训,使用的是现代机器学习标准,使用的计算量相对较小-大约运行了128个TPUv3核(大约相当于100-200个GPU)几个星期。

 




推荐
热点排行
一周推荐
关闭