分析测试百科网 > 行业资讯 > 技术原理

数据分析介绍(I) 主成份分析法

2020.6.23

华联于 2012 年 7 月~ 9 月的科技专题中，介绍芯片实验设计时，概略介绍了一些常用的数据分析方法，有许多客户及好学的读者纷纷来信，希望我们另辟单元，仔细教学这些对他们很有帮助的分析软件；数据分析素来是华联的强项之一，我们很乐意也很兴奋地开辟这个新单元 - 数据分析教学，本期以主成份分析法 (Principal Component Analysis，PCA)作为起头，并搭配影片教学，让大家学习事半功倍。

在微阵列数据 (Microarray data) 分析中，主成份分析法 (PCA) 是一种常用于简化数据集 (Data set)、观察样本或基因群之间相关性的技术。微阵列数据通常是上万笔基因、数十个样本所组成的一个数据矩阵，利用主成份分析可以减少数据的维数 (Dimension)，同时保留数据对变异数贡献最大的特征，藉以观察样本或基因群的主要差异。主要原理是经由保留低阶主成分，并忽略高阶主成分。通常低阶成分较能够保留住数据的最重要成分。但是由于主成份分析依赖所给予的数据，所以数据的准确性(或者我们也可以说实验的准确与否)对分析结果影响很大。

主成份分析法由卡尔．皮尔逊于1901年创建，用于分析数据及建立数理模型。其方法主要是通过对共变异数矩阵(这边可以想成微阵列数据矩阵)进行特征分解3，以得出数据的主成份(即特征向量, Eigenvector) 与它们的权值(或称特征值, Eigenvalue) 。特征向量的长度在该线性变换下缩放的比例我们称之为其特征值，前面提到，将影响样本变异数贡献最大的特征向量放于第一维度，第二贡献度的放于第二维度，藉此可得到样本于平面坐标之间的关系图，如图一。

这边我们用颜色来区分不同样本，微阵列实验常以技术性重复来增加统计上的意义，图中技术性重复以同一颜色来表示。一般来说，技术性重复的实验因为来自同一管制备的RNA，所以理论上相关性应该很高；但由于样本取得、实验过程、数据取得以及分析方式都可能造成误差，所以实际上的结果会有变异性。图中可见到技术性重复的结果很接近，但是标示黑色、紫色的样本和红色、绿色样本间”特征差异性”比较大。我们也可以利用前三组贡献最大的特征向量画成3 度空间分布图(如图二)，能进一步了解样本于空间中分布的情形；从图中可以发现，当我们转了一个角度，标示红色和绿色的样本在空间坐标中还是有段距离；代表其特征值还是有差异性。

数据对应的特征值如表一，我们可以观察到这边将主成份 (Principal Components) 分成PC1~PC7共七等份，全部加成起来代表了所有样本的特征信息，以百分比 (%Var)表示的话，总共100%；用白话一点的方式来说，前三个主成份(维度)就可以取得这些样本约略 84%的特征信息，足以用其代表的特征值来区分样本之间的差异性。所以当实验完成、取得微阵列数据后，常常第一件事就是做主成份分析或丛集式分群分析(HierarchicalClustering)，观察样本间的技术性或生物性重复做的好不好、实验组和对照组之间的差异大不大，以及是否可以观察到样本间的特征差异性等等。这样的分析可以做为一种质量控管(Quality Control)的依据，决定是否继续分析或是重新作实验的重要参考指标。

之后的分析工作，主成份分析也扮演了重要角色。特别当我们找出一些基因群、足以分别代表其生物调节功能、代谢作用或药物调控的变化指标，也可以将这些基因作主成份分析，如图三。这边我们特定挑选了一些有显著差异表现的基因来试作，经过主成份分析后被分成了五群，每个颜色代表一特定基因群，而每个基因群在研究中可能扮演了重要的调控机制。

小结

本期介绍的主成份分析为芯片数据分析的第一关，将芯片数万点的信息简化成几个低维度的分析数据，以归纳出彼此的群落分布，藉以比对各自的近似关系；观察样本间的技术性或生物性重复做的好不好、可不可信，进而决定是否继续接下来的进阶分析。

华联将在未来几期的科技专题中介绍更多的数据分析方法，包含丛集式分群分析(Hierarchical Clustering)、基因功能分类 (Gene Ontology)、讯息传递路径分析 (Pathways analysis)...等等，若有分析上的疑惑也欢迎随时与我们连络哟!。

数据分析

互联网

喜欢作者我要约稿

喜欢作者

打赏方式

数据分析介绍(I) 主成份分析法

周锦帆