关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

近红外光谱分析方法研究——从传统数据到大数据

2019.10.29

红外光谱分析技术作为一种绿色分析技术,在许多领域中已得到广泛应用。  


随着应用的深入和拓展,近红外光谱的数据类型逐渐从传统数据变成近红外光谱大数据。


本文总结了近红外光谱的预处理、奇异样本筛选、多元校正和模型转移等技术及其在相关领域的应用。


对近红外光谱大数据分析技术的初步研究,包括近红外光谱在工业品在线检测、不同批次产品鉴别中的应用以及近红外光谱物联网系统等也进行了综述。 


此外,对于近红外光谱大数据未来的发展及近红外光谱大数据云平台的基本功能、软硬件的设计与开发、建设过程中需要解决的问题等进行了详细阐述。


随着数字时代的到来,人类对自然和社会认识的进一步加深,人类的活动空间得到进一步扩展。


高度数字化的生活使得人类在科学研究、互联网应用、电子商务、移动运营等诸多领域均出现了大规模的数据增长,大数据时代已经来临。


与传统的数据集合相比,大数据可以通过挖掘和应用创造出巨大的价值,因此迅速发展成为工业界、学术界乃至世界各国政府高度关注的热点。


大数据以其颠覆性的技术对国家治理模式、企业决策、组织和业务流程以及个人生活方式等均产生了巨大的影响。 

大数据时代

作为一个新兴的概念, 大数据问题得到了学术界、工业界乃至政府机构的密切关注,并对其产生浓厚的兴趣。  


Nature于2008年针对大数据推出了专刊“Big Data”。


Science于2011年推出专刊“Dealing with Data”,围绕科学研究中大数据的问题展开讨论,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题,说明了大数据对于科学研究的重要性。


2012年,美国奥巴马政府发布了“大数据研究和发展倡议”,宣布投资2亿美元启动“大数据研发计划”。


这一计划使大数据上升到了国家战略层次,使之成为各国关注的热点,之后与大数据相关的研究成果呈现出爆炸性的增长并一直持续至今, 2012年也因此成为大数据的元年。

大数据研究与应用


虽然大数据的重要性得到各行各业的一致认同,但对大数据本身至今尚无确切统一的定义。目前普遍认为,大数据具有“ 4 V ” 特点 , 即数据体量(volumes)巨大、数据类别(variety)繁多、产生与处理速度(velocity)快、价值(value)密度低但可挖掘价值高。


目前,大数据的研究内容主要集中在大数据采集、处理与集成、分析和解释的过程中产生的一系列热点和难点问题。


在数据采集技术迅速发展的同时,数据的集成与整理技术也得到发展。通过数据集成,将结构复杂的数据转换为便于处理的数据结构,通过对数据的整理保证数据的质量及可靠性。 


数据分析是大数据处理流程中的核心部分,通过对数据进行分析,可以发现数据的价值。传统的数据处理分析方法,包括聚类分析、因子分析、相关分析、回归分析等仍然可以用于大数据分析。


但由于大数据本身数据量大、实时性强的特点,使得传统方法在处理大数据时也存在众多局限性。


因此,出现了许多专门针对大数据的分析方法,如散列法、布隆过滤器(Bloom Filter)、Trie树等。


同时,针对不同类型的大数据,也存在不同的分析方法。如对文本进行分析的自然语言处理(NLP)技术,对 Web 进行分析的 Page Rank法和CLEVER法,对多媒体进行分析的摘要系统以及对社交网络进行分析的概率法和线性代数法等。


基于分布式文件系统、分布式数据库、批处理技术及开源平台的云技术为大数据分析奠定了基础。


通过云技术实现了海量数据的高效存储、大数据的分布管理以及大数据分析的技术与平台。同时,可视化技术在大数据分析中也得到发展并发挥了重要作用。 


大数据目前已广泛应用于生命科学、医疗、商业、金融等行业中。在医疗领域中,大数据分析用于复杂疾病的早期诊断、心血管病的远程治疗、器官移植、HIV抗体的研究等,均取得了较好的效果。


在生命科学领域,大数据技术用于基因组学、生物医学、生物信息学等方向。商业是大数据应用最广泛的领域, 各种大数据的经典应用均来自此领域。


如利用大数据关联分析,更准确地了解消费者的使用行为,挖掘新的商业模式; 利用大数据进行库存优化、物流优化、供应商协同等工作,缓和供需之间的矛盾、控制预算开支、提升服务等。此外,大数据技术还用于温室气体排放的检测、政府信息管理等公共领域。


近红外光谱技术


近红外光谱分析技术作为一种绿色分析技术,有分析速度快、操作简单、不需要样本预处理、可实现原位、无损、在线的定性定量分析等优点。


实践证明,以近红外光谱分析为主的过程分析技术为工业信息化与自动化的深度融合起到了决定性的作用,它所提供的快速、实时测量信息可以使工农业生产过程保持最优化的控制,在显著提高产品质量的同时,降低生产成本和资源消耗。


然而,由于近红外光谱存在吸收强度弱、光谱重叠严重等缺点,要想进行准确的定性定量分析,必须借助化学计量学方法所建立的高质量的模型。


因此,基于化学计量学的近红外光谱的数据处理技术研究得到了广泛的研究。 目前,近红外光谱的数据分析技术研究主要集中在光谱预处理(包括变量筛选)技术、建模样本筛选技术、多元校正技术和模型转移技术等方面。 


实验采集到的原始近红外光谱除了包含与样品相关的有用信息外,往往伴随随机噪音、背景干扰、杂散光等干扰信息,对校正模型的质量和未知样品预测的准确度将产生严重的影响。 


因此,在建立校正模型之前,通过光谱预处理技术消除各种类型的干扰显得十分关键和必要。


常用的光谱预处理技术包括多元散射校正(MSC)、正交信号校正(OSC)、净信号分解[40]、连续小波变换(CWT)等。


如图1所示, MSC可以有效地消除样本颗粒分布不均匀及颗粒大小不同而产生的散射对其光谱的影响,而CWT可以有效地对样品光谱进行背景扣除。实践证明,光谱预处理技术可以有效地消除光谱中的变动背景及散射干扰,处理后的光谱可以有效提高校正模型的质量和未知样品预测的准确度。    

波长筛选技术对于得到代表样品信息的重要波长、删除冗余波长、提高模型预测精度和简化模型均具有重要意义, 因此针对波长筛选开展了大量研究工作。 


常用的波长筛选技术包括模拟退火算法(SA)、遗传算法(GA)、粒子群算法(PSO)、连续投影算法(SPA)、无信息变量选择(UVE)、竞争性自适应重加权算法(CARS)[53,等。 


 我们在之前的工作中也提出了基于蒙特卡洛的无信息变量选择算法(MC-UVE)、随机检验算法(RT)、强影响变量算法(IVs)、基于特征投影图(LPG)的变量选择算法[58]和基于局部线性嵌入的变量选择算法等。  


图2是LPG方法用于变量选择的示例,其中图2(a)为光谱数据集的特征投影图,其中实心三角形的点为特征投影图拐点处的变量,即根据共线性原则选择的变量;  图2(b)中标出了选择的变量在实际光谱(经过连续小波变换处理)中的位置。


可以看到,根据LPG法选出的变量均处于光谱的拐点位置,具有很强的共线性,对于建模的贡献较大,可以进行稳定的建模。


在实验和实际生产生活采集到的光谱之中,总会存在一些落在总体样品分布之外的样本,该类样品被称作奇异样本(outlier)。 


奇异样本的存在会在一定程度上影响甚至改变整体数据的分布趋势,从而影响校正模型的准确性。所以,奇异样本的有效识别对多元校正具有重要意义。

奇异样本的识别方法大致可以分为3类: 经典识别方法、稳健识别方法和基于统计学的识别方法。  经典识别方法都是基于最小二乘估计,包括残差法、马氏距离、杠杆值和主成分得分图等。


稳健识别方法则是通过寻找光谱矩阵稳健的均值和方差或者建立稳健的回归模型来寻找奇异样本。


常用的方法包括椭球多变量修剪法、最小体积椭球估计、最小协方差行列式法、最小半球体积法和半数重采样法、M估计法等。基于统计学的识别方法则是通过重复地采样分析建模,然后通过统计参数来识别奇异样本, 常用的方法为蒙特卡洛交叉验证法。


多元校正技术一直是近红外数据分析的重点。在定量分析中,通过多元校正技术建立稳定的定量模型,才能对未知样品待测组分的浓度实现准确的定量。


在所有的多元定量校正技术中,偏最小二乘(PLS)技术应用最为广泛,对于各类型样品的光谱,该技术均表现出良好的回归和预测性能。针对偏最小二乘技术,还提出了大量的改进算法,如PLS,boosting-PLS,weighted-PLS和 multiblock- PLS等。


其他一些非线性校正技术,如最小二乘支持向量回归机(LS-SVM)、高斯过程回归(GPR)和贝叶斯神经网络(BANN)、独立成分回归等,也引起了不少关注。类似地,通过多元校正技术建立稳定的定性分析模型,能够实现对未知样品的准确判别。


在各类模式识别技术中,比较经典的算法为主成分分析(PCA)技术和偏最小二乘-判别分析(PLS-DA)技术。


此外,还有支持向量机、人工神经网络,以及基于Fisher准则的典型变量分析技术 (canonical variates analysis)等对于药品、烟草和油品等大型近红外光谱数据库,基于光谱残差、标准偏差和相关系数等参数建立的库光谱搜索方法被认为是非常有效的识别技术。


为了建立准确和稳定的近红外光谱模型,通常需要准备大量的标准样品,测量它们的近红外光谱和分析目标的参考值。


整个建模过程十分费时且花费巨大。而在实际应用中,由于仪器之间的硬件差异或测量条件的差异,一台仪器上建立的模型往往不能直接用于另一台仪器。即使是同一台仪器,随着时间的推移或关键部件的更换,模型的预测性能也会发生变化。


模型转移是解决上述问题的技术之一,通过模型转移将新仪器(源机)的光谱转移为原仪器(目标机)的光谱即可继续使用原来的模型。模型转移技术可以分为校正预测结果、校正光谱和校正模型3类。


校正预测结果的技术是建立原仪器与新仪器模型预测结果之间的关系来进行转移,如SBC算法。校正光谱技术则是建立原仪器光谱与新仪器光谱之间的关系来进行转换,通过2台仪器光谱之间的转换,直接使用原来的模型或者建立新的模型进行预测。

推荐
关闭