关注公众号

关注公众号

手机扫码查看

手机查看

文献分享 | 基于血浆蛋白组学的泛癌诊断模型

氨探生物
2023.8.14

be52ff49c4859e3beef469342d699771.gif


文献背景BACKGROUND

泛癌标志物的挖掘是癌症早筛领域的研究热点之一。相比于单个癌症,泛癌标志物筛选难度更大,表现在临床设计、样本量收集和标准化、以及后期机器学习流程设计和实现等。随着测序和质谱技术的成熟和普及,基因组、蛋白组、代谢组等多组学研究迈入高通量时代,为泛癌生物标志物的研究提供了良好的研究工具。

本期我们解读Mathias Uhlen团队在Nature Communications发表的一篇基于Olink血浆蛋白组学挖掘泛癌预测标志物的文献(Next generation pan-cancer blood proteome profiling using proximity extension assay),文中使用的技术是Olink Explore 1536邻位延伸分析技术(Proximity Extension Assay, PEA)。这篇文献的癌症标志物挖掘思路非常值得阅读和思考借鉴,我们将重点解读文献是如何基于蛋白组数据挖掘泛癌的蛋白标志物。


队列设计

研究队列包括12种癌症病人的1477个血浆样本以及来自瑞典SciLifeLab SCAPIS健康人群队列中74个对照样本。12种癌症包括急性髓系白血病(AML)(n=50)、慢性淋巴细胞白血病(CLL)(n=48)、弥漫性大B细胞淋巴瘤(DLBCL)(n=55)、骨髓瘤(n=38)、结直肠癌 (n=221)、肺癌(n=268)、胶质瘤(n=145)、乳腺癌(n=152)、宫颈癌 (n=102)、子宫内膜癌(n=101)、卵巢癌(n=134) 和前列腺癌 (n=163)。样本量最多的三种癌症为肺癌、结直肠癌和前列腺癌,样本量最少的三种癌症为骨髓瘤、慢性淋巴细胞白血病和急性髓系白血病。下游机器学习模型构建使用的数据集分割比例统一标准是70%为训练集和30%为验证集,使用 R的glmnet package构建正则化广义线性模型。

泛癌蛋白质模型

PEA技术最终获得了1463个靶蛋白表达谱,为了获得泛癌的标志物,研究者主要基于以下3个步骤(图1):

ca58bb91be1c5886a5578526d9e6c590.png

图1 流程图

1 - 差异蛋白筛选

采用组学常见的双边t-test结合BH校正的差异表达统计方法分析每一种癌症的差异蛋白。每种癌症为实验组,剩余其它癌症为对照组。差异表达分析结果可以直观看出蛋白在每种癌症的表达水平情况(图2),比如蛋白FLT3在AML的NPX(Normalized Protein eXpression)值大于其它癌症,可以看作AML的特异性标志物。

89ba47bc998674f124fb8aea3ab2e29e.png图2 箱线图展示癌症特异性蛋白在12种癌症的表达水平分布

2 - 构建12种癌症的二分类模型

作者对每种癌症分别进行建模,模型数据分组与差异蛋白筛选分组一致。现在以单个癌症为例来阐述建模过程:

1) 首先直接使用1463个蛋白数据构建模型。通常,线性模型会给出每个特征的重要性值,作者将1463个蛋白重要性值由低到高赋予百分位数进行排序(见图3示例)。

1f484061ef0c71c8714fa754eb6e8882.png

图3 蛋白特征排序图

2) 根据蛋白特征重要性排序表,分别选取top3、top10、top50、top200蛋白特征集构建模型。

3) 将上述构建的所有模型进行比较。作者发现多数癌症使用50或者以上蛋白进行建模,会获得更好性能的分类模型;但对于AML, myeloma, 和glioma这3种癌症只需要较少数目蛋白便能获得性能不错的分类模型。

3 - 多分类构建泛癌模型

根据12个癌症模型的特征排序图,作者基于以下3个原则筛选出83个蛋白作为泛癌标志物(见图4):蛋白质重要性至少超过50%;差异分析结果中为上调蛋白;每种癌症至少选择3种蛋白,对于三种癌症(神经胶质瘤,骨髓瘤和卵巢癌),分别包含一种或两种低于50%临界值的蛋白质。

eb3b0278f54170915c7f56628652c437.png

图4 泛癌83个蛋白标志物

随后,作者构建泛癌83个蛋白标志物的多分类模型。同时为了验证泛癌模型性能,继续构建3种多分类模型进行比较,包括来自每种癌症的top1蛋白集和top3蛋白集和1463个蛋白模型(图5)。从结果上看, 83个蛋白panel模型的AUCROC范围在0.93-1之间,模型性能较好。

e0c334df06d7d60f82fa18ed9637d0b9.png

图5 多个模型ROC曲线

4 - 癌症样本与健康对照的分类模型

83个蛋白panel标志物来自12种癌症,作者又使用panel中每种癌症对应的标志物对癌症和健康对照组数据构建模型(每种癌症标志物见图4)。模型结果示例见图6,比如CLL使用6个蛋白构建模型的AUCROC=1,结直肠癌使用10个蛋白构建模型的AUCROC=0.851。这部分结果说明泛癌的蛋白标志物可以将癌症病人从健康人中区分开。

d87404cc9a5b1e1b50c514d92d250cf6.png

图6 癌症和健康对照模型结果







总结

本文泛癌标志物的建模关键点是先基于12个癌症的二分类模型去筛选单个癌症的特异性标志物,随后组成泛癌标志物panel并构建多分类模型。这些特异性标志物使癌症在多分类中被预测出来的准确率较高。癌症样本和健康样本构建的模型说明了这些标志物将癌症病人从健康人中区分开的性能较好,进一步验证泛癌标志物panel的可靠性。这篇NC的文献虽然未提及到如何选择机器学习算法,不过在Research Square预发表文献中,其实是使用随机森林和glmnet2种算法同时建模,根据建模结果最终选择glmnet model构建泛癌模型。

作者提出泛癌模型主要不足之处是没有独立验证集去进一步验证83个蛋白panel的准确性,其他不足点包括:像骨髓瘤、慢性淋巴细胞白血病这些癌症样本数目太少,影响相关癌症的单模型构建和特征筛选;83个蛋白全是上调蛋白,没有进一步探究下调蛋白对模型构建的影响;一些肝和肾等常见癌症未加入到该项目,后续研究可能会增加癌症种类。

另外,83个蛋白的泛癌模型AUCROC和accuracy和特异度结果较好,但多数癌症灵敏度偏低,比如结直肠癌为0.66,乳腺癌为0.57,肺癌为0.71。这说明在保证灵敏度和特异度条件下,如何确定泛癌模型最佳cutoff值是个难点。

文章将原始数据公布在多个公开的数据网站上,供读者进行深入的数据挖掘。后期我们将展示使用氨探生物开发的在线机器学习工具Omics Machine Learning(OML,https://omia.untangledbio.com/oml/)重现文章中的建模结果。

参考文献


1. Next generation pan-cancer blood proteome profiling using proximity extension assay. Nat Commun. 2023;14(1):4308. 

2. Next generation pan-cancer blood proteome profiling using proximity extension assay, 01 November 2022, PREPRINT (Version 1) available at Research Square.

Untangled Biosciences

解构健康奥秘、探寻生命答案,氨探生物以一流的分子表型组平台和成熟的临床转化应用体系,为优秀的研究团队进行技术和数据赋能,致力于实现分子表型水平的精准诊疗。


64bd53f64449752e5d532f2c64ebdd6a.jpeg

推荐
热点排行
关闭