分析测试百科网 > 行业资讯 > 科技前沿

上海药物所提出基于序列的药物设计新方法

2023.7.19

　　20世纪90年代以来，基于蛋白质结构的药物设计（SBDD）一直是创新药物发现的主流方法，在针对具有明确靶标的疾病治疗方面取得了进步。这种方法一般涉及多个步骤的复杂流程，包括建立蛋白质的三维（3D）结构，识别潜在的配体结合位点，并通过虚拟筛选或全新设计发现活性化合物等。SBDD流程中的每个步骤都有局限性，如许多蛋白质没有高分辨率的结构。虽然近年来的蛋白质结构预测技术如AlphaFold和RoseTTAFold有所突破，但并非所有预测的结构都适合进行基于结构的药物设计。精确预测配体结合口袋颇具挑战性，原因在于这些局部结构往往违反“蛋白质折叠规则”，同时配体的结合也会诱导氨基酸构象发生变化。此外，由于变构效应的机制多样性，对具有多个结构域的新靶标如何确定配体结合位点也存在困难。虚拟筛选可能会产生假阳性，误差和错误的不断累积会导致严重的假阳性问题。

　　中国科学院上海药物研究所郑明月团队提出了一种基于序列的药物设计新概念。这一“从序列到药物”（sequence-to-drug）的思路采用端到端的可微学习，直接从蛋白质序列出发进行药物设计发现，而无需经过上述多个中间步骤的复杂流程（图1）。端到端的可微深度学习已在计算机视觉和自然语言处理等领域产生了影响。它通过可微基元（differentiable primitives）取代了复杂流程的所有组件，从输入端到输出端进行联合优化。AlphaFold2在蛋白质结构预测的成功，较大程度上依赖端到端可微学习的思想。这一概念可以一种自洽和数据高效的方式执行整个学习建模过程，可能避免复杂流程中的错误积累。7月15日，相关研究成果以Sequence-based drug design as a concept in computational drug design为题，在线发表在《自然-通讯》（Nature Communications）上。

　　尽管已有深度学习研究报道可基于蛋白质序列信息预测与化合物的相互作用，但尚无一种模型完全验证了“从序列到药物”的药物设计概念。本研究设计了TransformerCPI2.0作为概念验证的基础模型。该模型利用Transformer神经网络架构和预训练蛋白质语言模型，在蛋白质和化学多样性空间中均展示出泛化能力。研究对TransformerCPI2.0进行可解释分析表明，模型可以通过注意力机制从序列信息中有效学习蛋白质与配体分子间相互作用的抽象知识，而不仅是简单的记忆训练数据中的分布偏差。

　　为了进一步检验基于蛋白质序列药物设计的可行性，研究团队基于TransformerCPI2.0预测结果开展了湿实验的验证研究，针对多种具有挑战性的药物靶标发现活性化合物，包括靶向E3泛素连接酶接头蛋白SPOP（配体结合位点为难以靶向的PPI作用界面）的新骨架抑制剂（图2）、靶向E3泛素连接酶RNF130（无蛋白晶体结构、无已知活性化合物）的结合分子。此外，研究通过逆向应用TransformerCPI2.0对已上市药物进行蛋白质组范围的靶标筛选发现，雷贝拉唑抗肿瘤作用的潜在靶标ADP-核糖基化因子ARF1。这些新发现的活性分子和靶标蛋白都是模型训练过程未见的，表明TransformerCPI2.0可以推广到新的蛋白质和化学空间，显示了良好的泛化能力。计算分析和实验结果支持基于序列药物设计的可行性。基于这一概念的新方法有望成为未来理性药物设计流程的重要组成部分。

　　这一工作通过计算机、信息学、化学和生物学等多学科融合交叉，为创新药物发现提供了新视角。基于序列的方法可以作为基于结构药物设计的替代方法，在无法获得高质量蛋白质3D结构的场景中发挥作用，也可与其他虚拟筛选和高通量体外筛选技术结合，加速药物发现进程。超大规模按需定制化合物库（make-on-demand library）技术快速发展，已覆盖了数亿到数十亿种化学物质的多样性空间，如何开发计算效率更高的虚拟筛选方法成为领域的研究热点。“从序列到药物”的端到端学习策略可以有效的简化建模和筛选流程，可以更加高效的探索未知化学和生物学空间，为原创药物的发现提供新的出发点和切入点。

　　研究工作得到国家自然科学基金、临港实验室、国家重点研发计划、中国科学院青年创新促进会和上海市自然科学基金的支持。

sbdd 可微基元

上海药物研究所

喜欢作者我要约稿

喜欢作者

打赏方式

上海药物所提出基于序列的药物设计新方法

周锦帆