关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

如何选择蛋白晶体结构

2020.8.24

  在使用殷赋云计算平台的时候,有不少用户对于如何选择蛋白晶体结构存在疑问。本篇就这个话题做一些经验分享。任何标准都有一个适用范围。我们在这里只讨论用于分子对接的蛋白晶体结构的选择原则和方法。

  1. 确定蛋白种属

  在实验当中,研究人员通常使用动物模型(如小鼠)来研究人源蛋白。这样做有许多原因,比如:

  1) 无法获得(提纯分离)人源蛋白;

  2) 需要在体内考察蛋白的功能,但无法直接进行人体临床试验;

  3) 使用动物蛋白更方便、更便宜;

  4) 其他限制因素。

  而计算模拟则便利很多。如果我们真正的研究对象是人体,则一般情况下应当使用人源蛋白。但是,如果需要根据对接计算的结果去指导实验或解释实验现象,或者开展后续实验(如定点突变)对计算结果进行验证,那么,原则上应当让计算用的蛋白种属与实验一致,否则氨基酸序列可能对应不上。

  比如,在UniprotKB数据库(https://www.uniprot.org/)输入基因名1DH1,得到以下结果。然后,根据我们确定的种属查询相应的蛋白。

  (UniprotKB数据库蛋白查询结果)

  假设我们要研究人的蛋白,那么,可以在RCSB Protein Data Bank数据库中搜索它的Entry name(1DHC_HUMAN)。另一方面,PDB数据库也会给出每个晶体结构的种属信息。

  (PDB详情页的蛋白种属信息)

  2. 了解更多关于蛋白功能/结构的信息

  做任何研究都应当对研究对象有充分了解。UniprotKB数据库为我们整合了蛋白的相关知识,我们可以通过它获得重要的信息。比如,了解蛋白的功能是什么,序列有多长,结合位点在哪里,有哪些蛋白结构。

  (UniprotKB蛋白详情页,了解蛋白功能与结构信息)

  (蛋白的结合区域信息)

  3. 选择口袋完整的晶体结构

  对于某些蛋白,RCSB PDB数据库可能存在许多晶体结构。这种情况下,应当选择包含完整口袋的晶体结构。比如,当我们寻找1DH1基因的蛋白(Isocitrate dehydrogenase [NADP] cytoplasmic,Uniprot AC: IDHC_HUMAN)时,找到许多晶体结构。以4UMX和4UMY为例,如果查看三维结构,我们会发现4UMY有较多残基缺失。最关键的是,一大段组成口袋的残基缺失了,导致口袋的形状改变(对比4UMX可知)。相反,4UMX则较为完整。因此,我们不应选择4UMY,而应选择4UMX作为候选结构。

  (口袋完整与残基缺失的蛋白对比)

  4. 选择含有共晶配体的结构

  很多时候,蛋白晶体结构中不只是蛋白,还可能有核酸、多肽、辅酶、小分子化合物(抑制剂、拮抗剂、激动剂、底物)、助溶剂、表面活性剂、金属离子和水分子以及其他分子;除了目标蛋白,可能还有其他蛋白。在PDB数据库的蛋白详情页内有详细记录,我们需要了解各组分是什么物质,各自的作用是什么,哪个是共晶配体。

  (蛋白晶体结构中各组分的信息)

  一些很小的分子,数量很多的分子,结合在很浅的蛋白表面的分子,通常不会是配体分子(但也有例外)。还有一些名称非常常见的,比如:GOL、ACT、PEG、SO4等等,这些只是蛋白结晶所需要的或者在溶液中存在的分子,不是真正意义上的配体分子。

  仍然以4UMX为例,通过查询它的详细记录(https://www.rcsb.org/structure/4UMX),我们了解到NAP是辅酶,VVS是小分子配体,GOL是助溶剂分子而已。那么,我们应当以VVS的结合位置为对接口袋,而不应以NAP为对接位点。考虑到NAP与VVS有直接的相互作用,我们应当在对接时保留NAP,把它作为受体的一部分参与对接。

  常见的辅酶还有:ADP、ATP、NAD+、NADH、NADP+、NADPH、HEME。

  5. 选择共晶配体相似的晶体结构

  当有多个蛋白晶体结构可选,并且很多是包含共晶配体的,我们可以选择共晶配体与要对接的化合物在结构上比较相似的那个。因为蛋白与配体在结合过程中,会发生“诱导契合”效应。有的蛋白的口袋柔性较大,这种效应更加明显,蛋白跟不同配体结合时,口袋会有所改变。更为极端的是,有可能存在“开”和“合”等不同状态。而对接过程中,蛋白结构是刚性不变的。因此,选择口袋形状合适的晶体结构会有利于对接。

  6. 选择分辨率高的晶体结构

  蛋白晶体结构的质量指标之一是resolution,它表示晶体结构模型中的原子位置的不确定程度。在有许多晶体结构可选的情况下,我们选择分辨率高的,即resolution数值小的。一般来说,resolution < 2 Å就足够好了。但这不是最重要的选择标准,很多人一上来就根据这条规则过滤掉大部分蛋白,这是不够严谨、合理的。因为这样有可能导致被过滤掉的低分辨率蛋白中包含共晶配体,而剩下的高分辨率蛋白中却没有配体的情况。此时选择高分辨率蛋白就无法确定口袋的位置(虽然可以通过低分辨率蛋白来了解口袋位置,但仍然不便于定位口袋)和获得适合的口袋形状。

  (蛋白结构分辨率resolution)

  值得注意的是,晶体结构由于分辨率问题,通常不含氢原子,只有个别超高分辨率的文件,才能看到氢原子的确切位置。相反,核磁结构通常含有氢原子,且有较多构象(它是溶液中的状态),但不含配体分子。在蛋白分辨率的选择问题上,我们应有合理的依据,而非教条主义、人云亦云。

  总结

  事实上,如何选择蛋白晶体结构,是个帕累托最优问题。我们需要综合判断,选择最适合于当前研究的晶体结构。上述内容虽然是针对分子对接计算来讲的,但同样适用于其他计算模拟的情况。


推荐
关闭