关注公众号

关注公众号

手机扫码查看

手机查看

干货 | 代谢组数据预处理(一):缺失值填充,你真的会吗?

迈维代谢
2022.3.15

64b9af0ac60f99d24d90cbb714f884cd.jpeg


导 读

代谢组原始数据包含质控样本(quality control, QC)和检测样本,为了更好地分析数据,需要对原始数据进行一系列的预处理,主要包括对原始数据缺失值的处理,离群值的处理,离群样本的处理以及数据规范化。经过数据的预处理,可以减小数据中与研究目的不相关的变异对数据分析的影响,有利于潜在目标差异代谢物的筛选和分析。


09d7a2555c96dbea19ada3202ac14d26.png




01

缺失值过滤


样本可能会由于某些原因(a. 信号很低检测不到;b. 检测错误,如离子抑制或者仪器性能不稳定;c. 提峰的算法限制,不能从背景中将低的信号提取出来;d. 解卷积时不能将重叠的峰全部解析出来),造成一个或多个值的缺失。在表格中缺失值通常是以空值的形式或者是NA(Not A Number)存在的。


根据样本或分组内缺失值的比例,进行数据过滤是代谢组学分析中常用的方法。例如:将QC样本中缺失超过50%的峰去除;或将样本中缺失值超过80%的峰去除。


02

缺失值如何填充


对于未被过滤的缺失值,如果直接忽视,这样的数据矩阵可能会影响后续算法的计算,将会触发异常,因此需要进行模拟填充。比较简单的方法是用固定值值、平均值、中位数、最小值或1/2最小值进行填充;复杂一点的则是使用机器学习的算法如临近算法(KNN)、随机森林(RF)、奇异值分解(SVD)等方法。在代谢组学数据处理中较为常用的有以下几种:


1

固定值填充

对于特征值缺失的一种常见的方法就是可以用固定值来填充,例如0,9999, -9999等。

2

均值、众数、中位数填充

根据样本之间的相似性填补缺失值是指用这些缺失值最可能的值来填补它们,通常使用能代表变量中心趋势的值进行填补,代表变量中心趋势的指标包括平均值、中位数、众数等,那么我们采用哪些指标来填补缺失值呢?


147ab18dee20b972e7402d73e5dad3b5.png


3

Mix填充

使用最小值进行填充,适用于由于代谢物信号响应低于仪器检测限而造成的缺失值;


4

插值法填充

插值是离散函数逼近的重要方法,利用它可通过函数在有限个点处的取值状况,估算出函数在其他点处的近似值。与拟合不同的是,要求曲线通过所有的已知数据。


5

回归法填充

任何回归都是从特征矩阵中学习,然后求解连续型标签y的过程,之所以能够实现这个过程,是因为回归算法认为,特征矩阵和标签之前存在着某种联系。对于一个有n个特征的数据来说,其中特征T有缺失值,就把特征T当作标签,其他的n-1个特征组成新的特征矩阵。用T标签没有缺失值的部分和新特征矩阵相对应部分来预测T标签中缺失的部分。常见的回归模型-线性回归,基于完整的数据集,建立回归方程。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。


6

随机森林法填充

随机森林也可以应用到回归问题上面,取决于随机森林的每颗cart树是分类树还是回归树。它对原始数据集做很多次放回抽样,会得到很多不同的数据集,然后对于每个数据集建立一个决策树。随机森林的最终结果是所有树的结果的平均,一个新的观测值,通过许多棵树(比如n 棵)得到n 个预测值,最终用这n 个预测值的平均作为最终结果进行填充。当然还是跟上面的回归数据预处理一样,先构建训练集和预测集再进行模型预测。


7

KNN填充

属于算法填充,KNN方法的原理是在数据集中识别空间相似或相近的k个样本。然后我们使用这些“k”样本来估计缺失数据点的值。每个样本的缺失值使用数据集中找到的“k”邻域的平均值进行插补。


ab6c68a4884278c92d3f74fff6f5336f.png

 

KNN原理图


据调研,KNN算法是目前缺失值填充方法中处理效果最稳健的算法,近年来使用较为普遍。但也有研究者认为需要根据缺失类型来进行选择,对于完全非随机缺失的可使用最小值的一半进行填补,完全随机缺失或随机缺失的使用随机森林方法(Wei et al.,2018),所以目前并没有完全统一的标准,具体填充方法还要根据本身数据类型和生物学意义进行选择。


下期预告

下周将为大家介绍离群值及离群样本如何筛选,敬请期待!

039e74882c7f82143b53afcc89ee52d4.gif

99%的代谢组学研究者都在阅读下文:

超干软文 | 肿瘤空间代谢组学方案(上)

项目文章 | 动物领域连续两篇!贝类代谢组、昆虫多组学研究成果

项目文章 | IF=13!TM广靶助力强化结肠癌放疗仿生纳米载体研究

大爆发!平均IF=15 | 项目文章(武汉地区)遍地开花

996a75f323f9b291e084199f8a4c24aa.gif

客服微信:18062045271

咨询电话:027-62433042

邮箱:support@metware.cn

网址:www.metware.cn

我就知道你“在看”

248cd138ef1f8b06443d5d745bbb25e9.gif

文章作者
推荐
关闭