关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

近红外光谱多变量分析中变量选择方法汇总

2019.10.29

近红外(NIR)光谱[1]具有简单,快速,无创,经济,无样品预处理的特点,已成为农业各领域定性和定量分析的流行分析工具,石油化学,药物,食品,聚合物,林业,中药,环境,生物医学和临床部门正如Pasquini所说,现代近红外光谱是一种成熟的分析技术,有三个支撑柱:振动光谱学仪器 化学计量学的基础[19]

化学计量学中的多变量校准方法首先应用于构建NIR波长与感兴趣特性之间的关系,以建立预测模型。然后该模型用于预测来自未知样品的NIR波长的相同性质,用于定性或定量分析随着现代分析仪器的进步,样品的近红外光谱包含数百个波长。例如,当使用傅里叶变换,6000 cm -1的光谱范围可以产生1557个光谱点(即变量),具有4 cm -1的高分辨率近红外分析仪。这种高维数据带来了“维度的诅咒”  ,许多传统的统计方法都无法应对对于大量的光谱变量,近红外光谱通常包括一些噪声和干扰变量,这使得感兴趣的预测性质不可靠。为了解决这些问题,已经开发了三种类型的方法,即正则化,降维和变量选择正则化方法,如岭回归,弹性网,最小绝对收缩和选择算子(LASSO)模糊规则构建系统,在目标函数上加一个惩罚项,解决高维度引起的过度拟合问题。降维方法用低维空间代替原始的高维变量空间。例如,投影方法,主成分回归(PCR)和偏最小二乘(PLS)回归通过用较大方差的一些潜在变量或主成分替换原始变量来使用,以减少共线性,频带重叠和与感兴趣的属性无关的冗余噪声的影响。然而,PCR和PLS全谱通常遭受这样的事实:与原始变量相比,潜在变量难以解释。

相反,由于只有部分变量与感兴趣的属性相关,因此变量选择基于选择少量变量的假设,这些变量可以提高预测性能,使校准可靠,并提供更容易的解释。它在诸如PLS和PCR的多变量校准方法之前进行。实际上,当关注感兴趣的属性时,整个变量可能是信息性的,无信息的(噪声)或代表参考变量例如,如果NIR模型预测水分含量,则波长与O有H键可能被视为信息变量,其他变量被认为是无信息或甚至干扰,因为水分仅具有OH键。从化学基础的观点来看,变量选择在去除无信息或干扰变量方面非常有用,从而获得分析方法的更好的预测性能。

Spiegelman等人。通过从数学基础的角度选择信息变量来证明改进PLS校准Yun和Liang等人。本质上已经证实,对于复杂的分析系统,如振动光谱系统,进行变量选择以获得更好的预测性能非常重要和必不可少除了理论论证,许多实验也证明变量选择可以获得更好的预测性能和更好的解释邹等人。总结了变量选择在化学,物理和统计方面的重要性。总的来说,变量选择是近红外光谱多变量校准的关键步骤。变量选择的目的可归纳为三个方面:( 1)提高模型预测能力; (2)通过降低噪声或干扰变量,提供更快,更具成本效益的变量; (3)用简单的模型提高可解释性。

由于NIR数据集中存在大量变量,因此无法调查变量总数的所有可能组合来选择最佳变量集。面对样本数量远小于变量数量(大p,小n)的情况,找到满足上述四个方面的最优子集,成为非确定性多项式时间(NP)硬优化问题。因此,变量选择实际上是一个数学优化问题。数学优化搜索可能的可变子集的空间,并基于优化算法和一些统计策略选择关于目标函数的最优或接近最优的子集。应该通过使用计算机和统计科学来辅助这种方法。在过去的二十年中,已经提出了大量的可变选择方法用于分析NIR光谱。有许多类别可以对这些方法进行分类。大多数变量选择方法的分类类别和简要概述将在第3章中介绍。

在本文中,我们简要概述了过去几十年中NIR中的变量选择方法,而没有重复其他评论和调查的内容我们的目的有两个:首先,我们以简单的方式概括变量选择方法,以便向读者清楚地告知每种方法的特征,并对它们的相似性和差异进行视觉比较。其次,总结了现有变量选择方法存在的问题,并对如何指导变量选择方法的发展给出了更深入的观点,这对于近红外光谱的进一步发展非常有利。

近红外光谱多变量校正中的变量选择

如上所述,变量选择是NIR光谱分析的多变量校准中的关键步骤。对于近红外光谱技术,多变量校准[52]定义为“创建模型的过程,该模型将样品属性' y '与一组已知参考样品的多于一个波长或频率的强度或吸光度' X '联系起来“如等式(1) [48]所示

通常,NIR数据集分为校准集和独立测试集。校准集用于构建校准模型,而测试集是用于验证校准模型的独立集。校准集进一步分为训练集和预测集,预测集用于评估使用训练集建立的校准模型的误差。交叉验证和引导技术,包括留一出,多出[53],蒙特卡罗(MC)交叉验证[54],双交叉验证[55] 和自举拉丁分区 将校准集划分为训练集和预测集通常用于估计校准模型的误差。变量选择步骤在校准集中进行,校准模型使用所选变量建立[58]当使用校准模型进行预测时,新样本的光谱仅包含所选变量,然后预测感兴趣的属性。校准集上校准的均方根误差(RMSEC),测试集上预测的均方根误差(RMSEP)和交叉验证的均方根误差(RMSECV)通常用于评估校准集的准确性。一个模型

变量选择方法的分类

由于近红外光谱的连续特征,波长间隔选择(WIS)和波长点选择(WPS)适合于对NIR光谱数据的变量选择方法进行分类。WIS方法遵循NIR光谱具有光谱带的连续特征的事实。在进行变量选择时,每个由多个连续变量组成的波长间隔被视为一个单元。WPS方法将每个波长点视为一个单位(即变量)。因此,所选变量是离散的。过滤器,包装器和嵌入式[47][60]通常用于基于评估度量和学习算法的组合对各种领域中的变量选择方法进行分类。变量子集选择和排名[47]根据变量的最终输出对变量选择方法进行分类。静态和动态[61]方法基于选择处理。图1显示了基于不同原理的变量选择方法的分类。

图1变量选择方法的分类。

在本研究中,我们按照以下四个因素以简单的方式概括了大多数变量选择方法。

1)

变量的初始化:任何变量选择方法的传导都应该初始化变量的输入。有些方法直接或通过预处理步骤将所有变量考虑在内。诸如蒙特卡罗(MC)采样,自举采样和二进制矩阵采样(BMS)[62]之类的采样方法通常用于在可变空间中生成变量子集。波长间隔选择方法通常首先将所有变量划分为具有宽度的间隔。应该注意的是,变量的初始化是变量选择中非常重要的一步,因为它甚至可以影响最终的变量子集。

2)

建模方法:使用选定的变量,建模方法用于建立变量与感兴趣的属性之间的关系。对于近红外光谱,常见的建模方法包括多变量线性回归(MLR),PCR,PLS,LASSO,支持向量回归(SVR)[63],极端学习机(ELM)[64][65]和人工神经网络(ANN)[66]然而,一些单变量方法是无模型的; 他们只评估变量和感兴趣的属性之间的相关性,例如相关系数。

3)

评估度量:基于评估度量评估单个变量或可变子集的预测性能,例如相关系数的值,回归系数和RMSECV。

4)

选择策略:此步骤是通过在变量空间中搜索来找到最佳变量子集。选择策略包括基于过滤器,极值,顺序,穷举,基于智能优化算法(基于IOA)和基于模型人口分析(基于MPA)的搜索等。

基于过滤器:当评估度量评估变量并生成排名时,基于过滤器的策略消除了不满足评估度量的定义阈值的变量。

极值搜索:极值搜索仅选择最值得注意的所有值,例如最低RMSECV和最大绝对回归系数(absRC)。


顺序搜索:顺序搜索[67]包括前向选择[68]和后向选择[69]对于前向选择,将变量顺序地添加到空候选集,直到添加其他变量不降低标准。对于向后选择,从完整候选集中顺序移除变量,直到移除其他变量增加标准。

穷举搜索:此搜索考虑所有可能的变量组合,如果变量或间隔的数量不是太大,则选择具有最佳结果的变量组合。

基于IOA:此搜索使用目标函数,通过统计重采样或交叉验证,根据预测性能(即测试数据的误差)评估变量子集。它使用进化和群体智能算法[70]评估多个模型,如遗传算法(GA),粒子群优化(PSO)[73],萤火虫[74],蚁群优化(ACO)]和模拟退火(SA),以找到最大化模型性能的最佳变量组合。

基于MPA:该搜索提取统计信息,并从大量子模型中进行选择,这些子模型由大量可变子集构建。MPA策略对各种生成参数的输出进行统计分析。它认为感兴趣的输出不是单个值,而是可以方便地执行各种参数/非参数统计显着性检验的分


推荐
关闭