上海鹿明生物科技有限公司
400-6699-117转1000
热门搜索:
分析测试百科网 > 鹿明生物 > 新闻动态 > 【教程】组学研究,用python快速实现PCA分析和绘图
非会员

诚信认证:

工商注册信息已核实!
扫一扫即可访问手机版展台

【教程】组学研究,用python快速实现PCA分析和绘图

发布时间: 2020-03-30 23:09 来源:上海鹿明生物科技有限公司

什么是PCA

 

主成分分析(Principal Component Analysis,PCA)是一种无监督的多元统计分析方法。在蛋白组学和代谢组学研究中能从总体上反应各组样本之间的总体差异和组内样本之间的变异度大小,其结果一目了然,在许多蛋白组学和代谢组学生信分析中常应用这种方法来探究各组样本中的差异。
 

图 | PCA主成分分析在蛋白组学中的应用

 

PCA的基本原理:利用数学的方法,将原来变量重新组合成新的互相无关的几个综合变量(即主成分),对所有因素按重要性排序,通常靠后的微小因素被忽略掉,从而起到简化数据的作用。实际项目中,我们可以通过PCA找出蛋白组学和代谢组学中的离群样本、判别相似性高的样本簇等来找到样本之间的差异。


 

PCA算法在蛋白组学和代谢组学中的应用

 

在蛋白组学,代谢组学研究应用领域中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,蛋白组学、代谢组学研究中许多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果分别对每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。

 

因此需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。主成分分析与因子分析就属于这类降维算法。

 

在蛋白组学和代谢组学研究中,如何通过机器学习语言方便快速的实现PCA的分析?下面可以跟着小鹿一起get~~PCA分析与计算机语言相结合的应用及绘图。助力您在代谢组学,蛋白组学研究分析中的难题。


 

PCA的算法步骤

 

设有m条n维数据:
1)将原始数据按列组成n行m列矩阵X;
2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值;
3)求出协方差矩阵;
4)求出协方差矩阵的特征值及对应的特征向量;
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;
6)Y=PX即为降维到k维后的数据;


 

如何用python快速实现绘图?

 

python作为一门优雅的计算机语言在蛋白组学和代谢组学生信领域中有着广泛的应用,虽然上述步骤比较多,但其实并不需要我们从头实现,我们可以用python中的科学计算包sklearn,和基础绘图工具matplotlib实现PCA的分析和绘图过程。

 


 


用以上python实现的PCA主成分分析图如下:
 

PCA分析 | 鹿明生物
 

鹿明生物作为一家以生物科技为核心,以蛋白组学、代谢组学为两大主攻方向的多层组学研究机构。作为生命科学领域的科技创新型企业,不仅在生信分析上,鹿明生物可以通过自己的经验更好的帮助各位老师。同时,为展示蛋白质组、代谢组等多层组学在生命科学研究中的最新前沿研究进展历程,促进行业内各研究领域科学家们的交流学习等。鹿明生物推出蛋白组学PCT-DIA、DIA、PRM等前沿技术专题系列讲座及蛋白组学、代谢组学等多层组学专题系列讲座。希望这2大系列8大专题课程以及各路组学专家把关主讲的重磅免费线上讲座,能够进一步开拓您的科研思路。
 


移动版: 资讯 直播 仪器谱

Copyright ©2007-2023 ANTPEDIA, All Rights Reserved

京ICP备07018254号 京公网安备1101085018 电信与信息服务业务经营许可证:京ICP证110310号