分析测试百科网 > 行业资讯 > 微信文章

干货 | 代谢组数据预处理（三）：必看！数据Normalization方法选择指南

迈维代谢

2022.4.11

【点击图片即可跳转报名】

在对代谢组学数据分析之前，我们常常需要根据数据量纲的不同以及分析方法的需要对数据进行各种预处理，也即数据规范化（Normalization）处理，有些学者称为标准化（Standardization）处理。数据规范化的目的主要有以下几种：一是让数据无量纲化，使不同性质的变量具有可比性；二是将不同数量级的变量数据经过不同的转换（transform）至合适范围，避免大值变量掩盖小值变量的波动；三是可以使数据总体符合正态分布以方便参数检验；此外，还可以通过归一化处理使数据分布均匀以方便作图展示等。

数据Normalization的定义

数据Normalization，在我们代谢组学中，指的是通过对多个样本，多个代谢物的定量数据进行一系列的中心化，缩放，以及转换操作，减少数据集的噪声干扰，强调其生物学信息，使其适用后续的统计分析方法，并改善其生物学解释性。

简单来说，就是对代谢数据集进行一些改变，把数据拉到一个特定范围里，使之变得更有统计意义。

数据Normalization的必要性

我们通过来一组实际数据来看一下：

注：该数据来自本公司实际项目数据的子集，数据已进行了脱敏处理，代谢物 ID，样本名均进行了替换。

通过以上数据可以明显看出，代谢数据有着典型的高维度、高噪声等特性，并且不同代谢物或者样本间，普遍存在着数量级的差异。例如：表格中标记出来的代谢物MW0006，在6 个样本中，就存在 1000多倍的差异，与Met0009的生物学相关性并不成比例。

此外，很多统计分析方法，对数据的分布较为敏感，统计的效力通常会集中于那些含量高或者倍数变化较大的代谢物之上，然而真正起到作用的很可能是那些浓度低的代谢物。因此，针对不同的统计分析方法，进行合理的数据Normalization是十分有必要的。

数据Normalization的方法

组学分析中常见的方法，大致可以归为以下三个类别：

中心化（Centering）

中心化（Centering）：即将所有数据减去平均值，让数据分布在0值左右而非均值左右，聚焦于数据的差异；

缩放（Scaling）

缩放（Scaling）：指将数据统一乘或者除一个因子，以消除数量级差异，有多种不同的缩放方法适应不同的分析需求；

转换（Transformation）

转换（Transformation）：即进行Log或者Power变换，以消除异质性；

Berg等人在2006年将这三类方法进行了总结：

现对其进行解释和补充如下：

Centering：常被称为中心化，将数据从均值附近变换到0值附近；对存在异方差的数据处理效果不佳；

AutoScaling：常被称为零值标准化，Z-score标准化或UV(unit variancescaling)等；将数据变成均值为0，方差为1的数据集；将变化集中在代谢物之间的相关性；对噪声信号敏感，这个方法被广泛的使用在许多机器学习算法中(例如：支持向量机、逻辑回归和类神经网络分析)；

Min-MaxScaling：离差标准化，常被翻译为归一化，将数据缩放到[0,1]区间；对异常值敏感；

RangeScaling：比较变化量相对于变化范围的比例以及变化方向；对测量误差和异常值敏感；

ParetoScaling：相对AutoScaling在一定程度上保留了数据的原始结构，所得结果与原始数据更接近，但对大的倍数差异较敏感；

VastScaling：关注变动小的代谢物，需要特定的群体才有较好的效果；可以进行有监督分析；

LevelScaling：比较变化量相对均值的比例，适合用来发现生物标志物；对误差敏感；

LogTransformation：消除异方差以及大的倍数差异影响，是数据线性化；代谢组学数据一般都呈现一个偏态分布（右偏），所以需要用一个合适的转换来使得数据的分布变得对称一些。若是数据中有0或负值，可以给全部数据加上一个数转换为正数，所以常用log（1+x）来计算；

PowerTransformation：可以消除异方差影响，是数据线性化；选择合适的root 很重要。

总峰面积归一化：单一样本的单一代谢物值/该样品所有代谢物的总和，即把绝对值含量转换成每个代谢物占样品中总代谢物含量的比例来计算。此方法是较为常用的尿液代谢组学归一化方法。

共峰面积归一化：单一样本的单一代谢物值/所有样品该代谢物的总和，该方法相较于总峰归一化排除了仅出现在个别样本中的特殊变量对可用信号峰的干扰，增加了归一化的准确性。

肌酐归一化：肌酐（creatinine）是一种低分子量的含氮物质，正常机体每天通过尿液排出的肌酐量是恒定的，不会受尿量等因素的影响，因它常被用于尿液代谢组学研究中的校准指标，即用每个变量的峰面积除以相应肌酐的峰面积。

PQN：概率熵归一化（ProbabilisticQuotientNormalizaton），也是一种常用的尿液代谢组数据归一化方法。该算法的前提假设是大部分代谢物在样本间是保持不变的，只有部分代谢物是差异表达的，不适用于存在大量差异表达代谢物的数据集。

Normalization方法的选择

前面我们提到过，有些统计分析对规范化方法非常敏感，其中PCA分析就是一个典型。接下来我们对2个实际数据集进行不同的规范化处理，然后进行PCA分析，来看看不同方法的效果。（数据来自本公司实际项目数据，对于代谢物ID，样本名，分组名等信息已进行了脱敏处理，并删除了部分数据。）

下图选择了代谢组数据分析中最常见的5种方法的结果进行展示。

数据集1分为2个组，3个地域群体，共221个样本，加上13个mix，检测出600+个代谢物。

上图中一共有四个样本分组和一个mix分组；样本分组中，AE（橙色），AS（橄榄色），AW（绿色）是同一组群体在不同地域的样本；BW（蓝色）是另一组群体，但是和AW在同一个地域；mix分组（粉色）应该聚成一个点。从上图中可以发现，Autoscaling（标准化）和两种转换方法明显效果较好。

数据集2为多个个体以及个体不同组织共31个样本加上3个mix，检测出600+个代谢物。

上图中一共有四个样本分组和一个mix分组；A（橙色）是一个组织，B1（橄榄色），B2（绿色）是同一个组织不同部位；C（蓝色）是另一个组织；mix分组（粉色）应该聚成一个点；通过上图可以看出，同样是Autoscaling（标准化）和两种转换方法明显效果较好，并且Log转换方法效果最好。2018年，李霜发表的文章[2]中统计了在代谢组相关文献中，使用率最高的规范化方法，就是Log转换，可见Log转换方法的适应性最广。

两组不同的数据，两种Transformation方法和AutoScaling方法都取得了不错的效果。虽不能代表代谢组数据的全部情况，但是也足以说明这三种方法的效果。此外，在我们没有放出的图片中，ParetoScaling有着和 AutoScaling方法相差无几的效果，其次是RangeScaling方法。

事实上，从结果来选择使用方法是不可取的，因为不管是哪种方法，之所以能够获得较好的结果，都是基于代谢组数据的本质特点。常见的广泛靶向代谢组和非靶向代谢组数据具有高维，高噪，稀疏，右偏的特点；而PCA要求数据是同方差数据，对异方差敏感，对线性性敏感；上述几种效果较好的规范化方法刚好适合PCA分析。如果换一种统计方法，那么Normalization方法也需要根据实际情况进行调整。因此，在分析时可以多尝试一些规范化的方法，结合具体的实验内容、目的进行多次的调试以实现所期望的目标。

参考文献：