关注公众号

关注公众号

手机扫码查看

手机查看

蛋白质组学专题 | 蛋白质数据库多如何选择?实测数据告知最优数据库

迈维代谢
2023.3.30

3748559d60b676d6ffb3a79bb993747d.gif

 前言

卡尔·马克思在《黑格尔法哲学批判》中提出“经济基础决定上层建筑”,针对蛋白质组学研究这句话同样适用。蛋白质组学中需要依赖蛋白质数据库进行谱图预测并和质谱采集数据进行比对完成蛋白质鉴定,因此蛋白质数据库即相当于“经济基础”,其完整性和准确性,直接影响最终蛋白质组学数据质量。


16eb5e1a9ecce78f6f0755a62e3032e4.png



6a10a99a99017adbae1a7225928f17ef.png人蛋白数据库

人蛋白组研究相对其他物种较为完善,目前常用数据库为UniProt提供,共三个人蛋白组子库,分别为:UniProtKB/Swiss-Prot(以下简称Swiss-Prot)、Proteome(UP000005640)、UniProtKB(总库:Swiss-Prot+TrEMBL),三个数据库在蛋白质总数、准确性、注释程度存在差异。


三个数据库中值得一提的是Swiss-Prot数据库。Swiss-Prot是高质量的、手工注释的、非冗余的数据库;主要来自文献中的研究成果和E-value校验过的计算分析结果,有质量保证的数据才被加入该数据库;属于已验证数据库。


UniProtKB/TrEMBL是从核苷酸编码序列自动翻译、再经过高质量注释、分类的蛋白质序列;属于未验证的数据库。


Proteomes为全基因组测序物种的核苷酸序列翻译、注释的蛋白质信息,每组数据都赋予一个蛋白质组特定标识符(Unique Proteome Identifier)。


456f4301454aa0bda77b26a41b70cc1c.png

6a10a99a99017adbae1a7225928f17ef.png实测数据比较

为比较不同数据库对蛋白组数据质量影响,小迈使用人细胞、血清(去高丰度)、血清(不去高丰度)蛋白组数据进行不同数据库搜库,对蛋白定性、定量结果进行评估。


7bde714d2cd82176fa6d37c943994e0f.png


细胞6a772f59d64f6a30af86d04871e5d07b.png

1. 不同数据库检出

使用Swiss-Prot、Proteome、UniProteinKB鉴定到的肽段数目分别为:100821、100723、99597,鉴定到的蛋白数量分别为7798、8158、8452;3个数据库共同被鉴定到的蛋白质和肽段占比分别为85.97%和87.21%。

ca7d574c79d22935fd6bde8c5c4563f4.png

7a6ae82448ea251de11fe7f29a3cc357.png

    

细胞不同数据库蛋白检出差异


2. 缺失值占比比较

对不同数据库定量缺失值进行分析,所有样本缺失值变化趋势在三个数据库间具有一致趋势,但Proteome和UniProtKB数据库缺失值整体高于Swiss-Prot,在缺失值比较中Swiss-Prot略优于其他数据库。




bf2c9e5449fd6146906e67ce0c930b33.png9017d15622375860c010e4a7393ef967.png1487055cf88e4b6623290219faa4b382.png

    

细胞不同数据库缺失值


3. 总结

与UniProtKB/Swiss-Prot数据库搜库结果相比,使用Proteome和UniProtKB数据库搜库,鉴定到的蛋白质数目分别增加了4.62%和8.44%,增加幅度并不明显

与Proteome和UniProtKB数据库相比,Swiss-Prot数据库序列信息最少,鉴定蛋白数量最少,但鉴定肽段数量最多,表明Swiss-Prot蛋白序列信息与实际匹配度更高,鉴定更准确

随着搜库使用数据库增大,鉴定到的蛋白质定量缺失值占比也依次增多,说明很多增加的鉴定蛋白质离子强度较低,相对数据库而言可能是假阳性鉴定


综上所述,Swiss-Prot数据库蛋白鉴定数量略低,但鉴定准确性和定量稳定性更好,综合而言,细胞样本推荐使用Swiss-Prot数据库进行蛋白质组学分析


血清(去高丰度)

6a772f59d64f6a30af86d04871e5d07b.png

1. 不同数据库检出

使用Swiss-Prot、Proteome、UniProteinKB鉴定到的肽段数目分别为:18752、18527、18936,鉴定到的蛋白数量分别为2487、2661、3769;3个数据库共同被鉴定到的蛋白质和肽段占比为53.68%和73.72%。


8c56bf52ed10e59c57d64193b40ffd20.png

    

血清(去高丰度)不同数据库蛋白检出差异


2. UniProtKB搜库结果评估

UniProtKB搜库结果鉴定到的蛋白质数目显著高于Swiss-Prot和Proteome,分析其独自鉴定到的1335个蛋白质发现,其中有1172(87.79%)个蛋白质来源于TrEMBL,156个蛋白质来源于Swiss-Prot,7个蛋白质来源于Proteome;免疫求蛋白有76个,1002(85.49%)个蛋白质不存在基因名。

5a6d82ff427e66ca1de154442289fbc3.png9b8f1bf8a955c02f1630cdf3dd3889de.png    

血清(去高丰度)不同数据库鉴定蛋白、肽段韦恩图


3. 总结

与UniProtKB/Swiss-Prot数据库搜库结果相比,使用Proteome和UniProtKB数据库搜库,鉴定到的蛋白质数目分别增加了6.99%和51.75%,前者增加幅度并不明显,后者显著增加;

虽UniProtKB鉴定蛋白数目最多,但超85%蛋白可能为预测编码基因翻译而来,真实性存疑。


综上所述UniProtKB数据库在血液去高丰度检出中具有很大优势,较Swiss-Prot提高51%,虽部分蛋白真实性存疑,但仍囊括Swiss-Prot超过91.5%的蛋白,因此血液去高丰度优先建议选择UniProtKBSwiss-Prot+TrEMBL)进行后续蛋白组数据分析


血清(不去高丰度)6a772f59d64f6a30af86d04871e5d07b.png

1. 不同数据库检出

使用Swiss-Prot、Proteome、UniProteinKB鉴定到的肽段数目分别为:6674、6682、9093,鉴定到的蛋白数量分别为772、855、2815;3个数据库共同被鉴定到的蛋白质和肽段占比为19.66%和53.99%,共有蛋白略低主要因Swiss-Prot、Proteome检出蛋白远低于UniProteinKB。


a111ddc4c1778013752779d369b9cde5.png

    

血清(不去高丰度)不同数据库蛋白检出差异


2. 缺失值占比比较

对不同数据库定量缺失值进行分析,所有样本缺失值变化趋势在三个数据库间具有一致趋势,但UniProtKB数据库缺失值占比高于Swiss-prot,在缺失值比较中Swiss-prot略优于其他数据库。



bf2c9e5449fd6146906e67ce0c930b33.png9017d15622375860c010e4a7393ef967.png1487055cf88e4b6623290219faa4b382.png

    

细胞不同数据库缺失值


3. UniProtKB搜库结果评估

UniProtKB搜库结果鉴定到的蛋白质数目显著高于Swiss-Prot和Proteome,分析其独自鉴定到的2187个蛋白质发现,其中有2152(98.40%)个蛋白质来源于TrEMBL,29个蛋白质来源于Swiss-Prot,6个蛋白质来源于Proteome;免疫求蛋白有103个,1988(91%)个蛋白质不存在基因名。


aacebadb2650523269dd594380d6c7b7.png30177685ffc29e34201d2c5e2227ec19.png    

血清(不去高丰度)不同数据库鉴定蛋白、肽段韦恩图


4. 总结

与UniProtKB/Swiss-Prot数据库搜库结果相比,使用Proteome和UniProtKB数据库搜库,鉴定到的蛋白质数目分别增加了10.75%和269.3%,前者增加幅度并不明显,后者显著增加;

虽UniProtKB鉴定蛋白数目最多,但超85%蛋白可能为预测编码基因翻译而来,真实性存疑。

虽UniProtKB缺失值占比较高,但去除样本中存在缺失值蛋白后,最终保留了2016个蛋白质,仍远高于Swiss-Prot和Proteome鉴定蛋白数量。


UniProtKB数据库在血液不去高丰度检出中具有很大优势,较Swiss-Prot提高269.3%,虽部分蛋白真实性存疑,但仍囊括Swiss-Prot超过82%的蛋白;另UniProtKB虽缺失值占比高,但去除存在缺失值蛋白后,剩余蛋白数量仍非常可观。综上所述UniProtKB数据库虽存在未经人工核对蛋白,但实际项目中可包含Swiss-Prot绝大部分信息,并额外提供Swiss-Prot无法提供的蛋白信息,因此血液不去高丰度优先建议选择UniProtKBSwiss-Prot+TrEMBL)进行后续蛋白组数据分析

6a10a99a99017adbae1a7225928f17ef.png结论

UniProtKB数据库较Swiss-Prot大,实测数据中多出的蛋白质大部分来源于预测编码基因翻译的蛋白,即同一基因通过单个或多达四个生物事件(可变启动子、可变剪接、可变翻译起始子、核糖体移码等)组合产生的蛋白,蛋白质层面无存在证据。


对于组织/细胞类样本,使用Swiss-Prot、Proteome、UniProtKB检索结果差异较小,由于Swiss-Prot数据库蛋白信息更可靠,因此综合而言建议人细胞/组织采用Swiss-Prot数据库进行后续蛋白鉴定分析


对于血浆/血清样品,UniProtKB数据库检出蛋白较其它数据库显著提升,虽部分蛋白真实性存疑,但可囊括Swiss-Prot绝大部分信息,因此建议人血清/血浆采用UniProtKB数据库进行后续蛋白鉴定分析

备注:Human UniProtKB/Swiss-Prot是经过人工验证的蛋白质库,可信度最高,且囊括了所有编码基因翻译的蛋白质。UniProtKB(Swiss-Prot+TrEMBL)除囊括Swiss-Prot所有信息外,还包括许多预测蛋白信息,若对可变剪接等特殊生物事件感兴趣,可以使用UniProtKB数据库


6a10a99a99017adbae1a7225928f17ef.png迈维时刻

迈维提供蛋白组检测服务,如有需求可联系小迈,还有限时活动等你来!

3c708f83f7487a67f1bdcb0c26260e3b.png

40d6766c77f7d90652e72478bcd63b16.gif

99%的代谢组学研究者都在阅读下文(精彩合集,欢迎收藏):

重磅升级 | 短链脂肪酸小分子在肠道菌群研究中也能大有可为

新品发布!限时特惠!4D-label free磷酸化蛋白组

新品发布|摊牌了!非靶向代谢组PLUS亮出新底牌:检出提升1000+

重磅发布!SHT4500超高通量靶向代谢组,助力科研“狂飙”

项目文章集锦

蛋白专题合集

Biomarker专题合集

空间代谢组合集

肠道菌群&微生物专题

c65bc85ecb7abb494809b2ceee852e77.gif

客服微信:metware888

咨询电话:027-62433042

邮箱:support@metware.cn

网址:www.metware.cn

我就知道你“在看”

ce6672643e7f3df337cca18f212c6bcb.gif

文章作者
推荐
关闭