最常见的近红外光谱的预处理技术的综述

更新时间:2024-07-04 03:07:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

最常见的近红外光谱的预处理技术的综述

smund Rinnan, Frans van den Berg, S?ren Balling Engelsen

摘要:预处理在近红外(NIR)光谱数据处理化学计量学建模中已经成为不可分割的一部分。预处理的目的是消除光谱中物理现象在为了提高后续多元回归、分类模型或探索性分析。最广泛使用的预处理技术可以分为两类:散射校正方法和光谱间隔方法。综述和比较了算法的基础理论和当前的预处理方法以及定性和定量的后果的应用程序。其目的是提供更好的NIR最终模型的建立,在此我们通过对光谱的预处理基本知识进行梳理。 关键词:乘法散射校正;近红外光谱法;标准化;诺里斯威廉姆斯推导;预处理;Savitzky-Golay平滑;散射校正;光谱导数;标准正态变量;综述 1. 引言

目前为止,没有能够优化数据来进行代替,但是经过适当的数据收集和处理将会起到优化效果,对光谱数据进行预处理是最重要的一步(例如最优化之前叠层建模),常用的方法有主成分分析(PCA)和偏最小二乘法(PLS)。在大量的文献中,多变量光谱应用食品、饲料和医药分析,比较不同的预处理的结果研究模型的预测结果是不可分割的组成部分。近红外反射/透射率(NIR / NIT)光谱的光谱技术,到目前为止最多被使用的和最大的多样性在预处理技术,主要是由于入非线性光散射的光谱可以引起显著影响。由于类似规模的波长的电磁辐射和粒子大小的近红外光谱在生物样品,近红外光谱技术是一种不被广泛使用是由于存在散射效应(包括基线转变和非线性),这将会影响样品光谱的结果的记录。然而,通过应用合适的预处理,可以很大程度上消除这些影响。

在应用研究中,比较了几乎完全不同的定标模型(定量描述符和相应关系)。几乎没有出现评估的差异和相似性的报道。替代技术即修正的含义(例如,谱描述符数据)在研究中很少被讨论。本文旨在讨论建立了预处理方法对近红外光谱和模型之间的关系,更具体地说,这些技术都是对应独立的响应变量,所以我们只讨论方法,不需要一个响应值。我们同时关注预处理工艺理论方面的和实际效果,这种方法适用于近红外光谱/ NIT光谱。

对固体样品,干扰系统的差异主要是因为光散射的不同和有效路径长度的不同。这些不受欢迎的变化常常构成了样本集的总变异的主要部分,可以观察到得转变基线(乘法效应)和其他现象称为非线性。一般来说,近红外光谱反射率测量的一个示例将测量普及性的反映和镜面反射辐射(镜面反射)。镜面反射通常由仪表设计和几何的采样最小化,因为它们不含任何化学信息。这个diffusively反射的光,这反映在广泛的方向,是信息的主要来源在近红外光谱。然而,diffusively反射光将包含信息的化学成分不仅示例(吸收)而且结构(散射)。主要的形式的光散射(不包括能量转移与样品)瑞利和洛伦兹米氏。两者都是过程中电磁辐射是分散的(例如,通过小粒子,泡沫,表面粗糙度,水滴,晶体缺陷,microorganelles、细胞、纤维和密度波动)。

当粒子尺寸大于波长,因为通常情况下,NIR光谱,是主要的洛仑兹米氏散射。相比之下,瑞利散射,是各向异性,洛伦兹米氏散射依赖的形状散射粒子和不强烈波长依赖性。

对生物样品,散射特性是过于复杂,所以软或自适应补偿,光谱预处理技术,正如我们近红外光谱在本文中进行讨论,要求删除散射从纯粹的、理想的吸收光谱。

显然,预处理不能纠正镜面反射率(直接散射),自谱不包含任何精细结构。光谱主要由镜面反射率应该总是被移除之前为离群值多元数据分析,因为他们仍将是局外人,甚至在预处理。图1显示了一组13好蔗糖和样品不同粒径加一坏蔗糖的例子展示如何(极端)镜面反射率表现比正常的光谱。

图1还演示了总体布局的大多数数据在本文中。上部的图,一个条形图显示了主成分得分值第一主成分(PC)后的样本集数据意味着定心[1]。下面部分显示预处理效果的数据集(或

者,在这种情况下,任何预处理)。相关系数r的平方值之间的酒吧和一个选定的参考变量包含(在本例中,已知的平均粒径的13蔗糖样本)。蔗糖的数据集,这种关系应该是低,例如,当假设散射是一种阻碍粒子始发;尽可能小的信息的粒度应该保持在正确的预处理。

图 1近红外光谱的13蔗糖和样品不同粒径(最小的粒子在底部,最大的顶部;粒子尺寸范围在20 - 540 lm。黑色的光谱显示了一个镜面反射率蔗糖样本。酒吧是分数值第一主成分的13个蔗糖样品主成分分析模型在完整的光谱。

一个示例数据的预处理蔗糖中可以看到图2,其中也包含一个其实的一个示例数据预处理的蔗糖中可以看到图2,其中也包含一个其实

从现在起,在这篇文章中,我们将演示效果不同的预处理技术在小果胶数据集只包含7个样品有不同程度的酯化(%德;范围在0 - 93%)[2]。这些样品测定近红外光谱反射率模式在光谱范围1100 - 2500海里(收集每2海里区间;图3)。我们提供相应的第一因素PCA样本得分后作为一个条形图意味着定心,连同集中吸光度值在波长2244纳米。我们选择这个峰值,因为它在理论上应该描述% DE完美。对于本文,我们假设信息在光谱相联系的果胶粒子大小和形状应该被预处理技术,条形图应该显示一个线性行为与%德。

为了说明预处理的影响在量化,我们使用数据取自克里斯腾森et al。[3]。他们研究了一组32杏仁蛋白软糖混合物,基于不同的食谱,九个不同的数据都在互联网上可用的(www。模型的生活ku dk)。所有的杏仁蛋白软糖样品测定了六种不同的近红外光谱仪器和化学参考分析了水分和糖含量。在构建一个定量的回归模型,重要的是要打扫预测数据从非系统性散射变化,因为他们可以产生重大影响的预测模型的性能和模型的复杂性或吝啬。在本文中,我们使用请预测这种定量响应信息[4]。 2. 预处理方法

图 2上图:数据被一个二阶蔗糖乘法散射校正;底:相应的标准差每个波长,虚线是原始/未加工的数据(见图1),固体是预处理的数据。

最广泛使用的预处理技术在近红外光谱法(在两个反射和透射模式)可以分为两类:scattercorrection方法和光谱衍生品。

第一群散射校正预处理方法包括乘法散射校正(MSC),逆MSC,扩展MSC(EMSC),扩展逆MSC,de趋势,标准正态变量(SNV)和标准化。

图 3生/未加工的光谱,7果胶样本。蓝线是一个示例有0%程度的果胶酯化(DE),红色的线是一个样本93%德。打开条指示主成分分析(PCA)评分值在第一个PC为完整的光谱,意味着定心,关闭了酒吧后的光谱值在波长2244纳米。

光谱推导集团是为代表的两种技术在本文中:诺里斯威廉姆斯(NW)衍生品和Savitzky-Golay(SG)多项式导数过滤器。这两种方法都使用一个平滑的光谱导数计算之前,以减少有害的影响,传统的信噪比有限差分衍生品会。

预处理步骤的目标可以三种: 1) 提高后续探索性分析

2) 提高后续叠层校正模型(力数据服从兰伯特啤酒法律);或者, 3) 提高后续的分类模型。

朗伯比尔定律(方程(1))是经验对近红外光谱/ NIT和显示成线性关系,吸收光谱和浓度(s)的成分(s):

A???log10(T)????l?c (1)

其中A?作为吸光度,??依赖波长的摩尔吸光系数,l代表光通过容器有效的路径长度,是c成分的浓度。朗伯比尔定律严格有效的只有纯透射系统没有散射。在反射率测量,方程(1)是重新定义在类比透射率的测量为:

A???log10(R)????l?c

其中,R是反射率。

选择合适的预处理应该总是被认为是相对于连续建模阶段。例如,如果数据集的兴趣不遵守法律,额外因素兰伯特啤酒或组件在请回归通常可以弥补这一理想的行为的光谱预测[5]。的缺点包括额外的因素是提高模型的复杂性,反过来,最有可能减少对未来预测的模型的鲁棒性。所有的预处理技术的目标减少变化降低数据以增强特性寻求在光谱,常常一个线性(简单的)关系现象(比如,一个成分)的兴趣。通过使用一个合适的预处理技术,这可以实现,但总是有危险的应用了错误的类型或应用太严重的预处理,将移除有价值的信息。正确的选择的预处理是很难评估模型验证之前,但是,一般来说,执行几个预处理步骤是不可取的,作为最低要求,预处理应保持或降低复杂性的有效模型。

图4 样品光谱(蓝色的点)密谋反抗一个选定的参考光谱。标量修正条款发现随着拦截和边坡的黑色线条,就是发现从最小二乘回归适合通过所有的点。

3. 散射校正

根据散射校正方法,我们考虑三个预处理的概念:硕士,SNV和标准化。这些技术是为了减少(物理)可变性样本之间由于散射。所有三个也调整基线样本之间的变化。 3.1MSC

乘法散射(或者,在一般情况下,信号)校正(MSC)可能是最广泛使用的预处理技术对近红外光谱(紧随其后SNV和派生)。MSC其基本形式是由Martens首次引入等人1983年[6],并进一步阐述了通过Geladi等人1985年[7]。MSC背后的概念是,工件或缺陷(如,不良的

散射效应)将被删除的数据矩阵之前,数据建模。MSC包含两个步骤: 1) 估计的校正系数(加法和乘法的贡献。

Xorg?b0?bref,1?Xref?e (2)

2) 校正记录的光谱

Xcorr?Xorg?b0bref,1?Xref?ebref,1(3)

其中:Xorg代表近红外光谱仪器对一个原样品进行光谱测量,Xref代表参考光谱用于预处理的整个数据集,e是降低的一部分的 Xorg,Xcorr代表了修正后的光谱,其中 b0 和bref,1都是标量参数,这在每个样品中具有不同的代表含义,这个在图4中进行说明,对每个标量参数进行了解释。

在大多数应用中,平均频谱的校准设置用作参考光谱。然而,一个通用参考光谱也可以应用。在最初的论文Martens et al。[6],这是建议只使用那些部分光谱轴,不包括相关信息(基线)。而这使得好的光谱意义上说,很难确定这些地区在实践中,特别是在近红外光谱测量,信号从不同的化学成分是强烈重叠和相关,很少或根本没有真正的基线是发现。这是为什么,在大多数情况下,整个频谱用于查找标量校正参数在MSC。图5演示了应用程序的标准MSC对果胶的数据。光谱特征的果胶粉是守恒的,而背景偏移和斜坡基本上是删除(与图3)。的线性关系光谱和%德是不错,但它并不完美。

图5数据预处理的乘法散射校正用一阶校正对平均频谱。

基本形式的MSC已经扩展成更复杂的扩展(8 - 12)通常被称为EMSC。这个扩展包括二阶多项式拟合参考光谱,拟合的一个基线的波长轴,和利用先验知识从光谱的兴趣或光谱干扰物。在本文中,所有这些替代品被称为MSC为简单起见,因为他们可以总结为一个单一的方程:

Xorg22??1,X,X,???,Xknown,1,Xknown,2...?refref??b?e(4)

其中,?代表依赖波长轴的修正向量,Xknown,1包含先验知识包括了想要/不必要的光谱信息(比如一个已知的光谱干扰的物种)。方程(4)可以轻易地扩大到包括任何其他任何具有适当

意义的修正。b代表了一组标量(校正系数)给出了方程(5)。

b???b0,bref,1,bref,2,b?,1,b?,2,bknown,1,bknown,2...??(5)

其中:b0偏差校正

bref,1是根据ith的修正

b?,1改正对我

bknown,1是对ith校正订单波长轴依赖, bknown,1是纠正第i已知信息吗

相比方程(2),它可以观察到方程(4)只是一个高阶扩张之一的想法。在本文中Xknown,1将不再做进一步的讨论,因为,在很多实际情况,参考光谱对想要的和不必要的成分并没有现成可用的。参考校正是最常用的方法只有一个一阶多项式。即使没有数学限制扩大到高阶增加,有通常没有光谱参数这样做(除了也许如果重要的瑞利散射是出现在短的波长区域。

图6显示了结果的一个二阶多项式校正的果胶数据。修正条款用于二阶多项式参考校正只是发现了拟合二阶(二次)多项式的点在图4。只有边际改进取得了比一阶修正在图5。

波长轴的依赖是最常包括作为一个二阶多项式拟合的波长轴的光谱。当没有参考校正包括在内,这个简单的波长配件也的名义光谱de趋势[13],它可以被视为一个基线校正。重要的是要注意,包括波长依赖性在完整的校正方程(4)而不是让它作为一个单独的步骤会导致一个较小的矫正效果。这是由于一个矩阵求逆操作同时执行所有的校正参数在MSC,不同的修正会相互影响的最小二乘法拟合准则。当一个波长的依赖是独立决定只有波长轴(而不是参考光谱)影响的校正,这将导致一个趋平加工谱。这个效果可以看出通过比较无花果。7和8。

正如前面提到的,更加复杂的修正(比如,高阶多项式或其他转换的波长依赖性)可以很容易地纳入MSC。Thennadil和马丁[12]建议使用对数值的波长,因为这是更多的声音来判断光谱。然而,区别使用对数变换的波长与使用一个一阶多项式校正是最小的,使这两个方法相同的所有实用目的。

彼得森指出,et al。[9],这是一个相当简单的过程,应用逆版本的MSC,称为逆信号校正(ISC)[14]。估计的校正参数,b系数,发现以类似的方式来定期MSC:

22Xref??1,X,X,???,Xknown,1,Xknown,2...?orgorg??b?e(6)

请注意,xorg和xref已经交换了地方比方程(4)。一个利用(扩展)ISC(EISC)是简单的修正方

程:

22Xcorr???1,Xorg,Xorg,???,Xknown,1,Xknown,2...??b(7)

图6乘法散射校正的光谱使用二阶参考校正对平均频谱。

在ISC和EISC,无论是估计的校正系数和校正本身中执行可以被描述为一个前进的方式,使它能方便包括附加的条款和/或参考信号[9]。前面提到的矩阵求逆操作所需的参数估计在MSC可以很容易地成为数字坏脾气的如果它包括高阶多项式参考更正。这是一个论点支持ISC。然而,假设,ISC最小二乘法拟合,误差在记录的光谱(纠正)小于误差为参考光谱。在大多数实际应用,参考是平均谱计算样本数据集从n的(例如,校准设置)。预期的噪音水平数量级这个引用是小于个人光谱(忽略了偏见由于散射差别集)。这是一个反对ISC,因为一个小错误在光谱预处理将会影响到更大的程度比最初的MSC。

图8 乘法散射校正(MSC)与一个一阶多项式参考校正对平均频谱,其次是一个单独的MSC与二阶多项式波长校正(去趋势)。

主要的挑战是定义一个合适的MSC参考光谱。正如前面提到过的,这是最经常设置为普通的校准光谱。加拉格尔等人[15]提供了一个天然的变化来MSC通过包含一个加权方案在预处理步骤。提出了两个选择:

1)使用一个预定义的权向量的波长轴向 2)迭代搜索最优权重向量

迭代的解决方案是通过给低体重发现变量或波长与高残留差异的原始数据和修正的解决方案。权重的计算将继续,直到区别两个后续的迭代修正光谱小于假定数据中噪声水平。不幸的是,这个相当简单直接的方法并不总是适合近红外光谱数据,自蔓延在更高的波长范围通常表明更分散,应该更正而不是权重小。图9显示了权重。用于最终的修正给强调到shortwavelength地区,而长波长区域并不有助于校正在所有。

另一个建议寻找参考校正在MSC都暗示了Windig et al。——所谓的糊涂MSC[16]。这种方法发现平均频谱从msc修正数据集。接下来,MSC是多次重复更新参考光谱的平均数据集的纠正在每次迭代中步骤。

图10显示了结果的糊涂MSC应用到果胶数据集——在这种情况下的表现非常类似于呆头呆脑的MSC单纯的MSC。在呆头呆脑的MSC,可以遵循增加模型的统计信息,然后停止在收敛(两个迭代步骤通常是足够的)。叠加在图10的变化参考光谱从原始光谱的平均值。

3.2标准正态变量(SNV)

SNV预处理可能是第二个最散射校正的应用方法NIR / NIT数据[13]。在本文中,规范化(也称为对象明智的标准化)的光谱将检查在同一个小节由于明显的相似性两个原则。SNV的基本格式和正常化修正与传统MSC:

图9加权乘法散射校正,基于迭代重量的决心。绿线显示了最终的权向量(任意规模的贡献)。

Xcorr?Xorg?a0a1(8)

对于SNV,a0是平均值的样品光谱需要修正的同时,为标准化,a0设置等于零。对于SNV,a1是标准偏差的样品光谱。

图11演示了SNV校正的果胶的数据集。对于正常化,不同的向量规范可以用于比例因子a1,最常见的是总金额的绝对值的元素的向量(城市街区或出租车规范)或的平方根之和的平方元素(欧几里得的规范)。其他选项,有时也用正最大吸光度变量和正常化向着单一选定波长。这两个最后选项应该小心使用,因为他们可以有不良影响后续分析在例嘈杂的数据。

图12显示了效果。欧几里得的正常化,迄今为止最常用的正常化,果胶的数据集。 这个信号校正背后的概念SNV和标准化是相同的MSC除了常见的参考信号不是必需的。相反,每个观察自己处理,孤立于剩下的设置。缺乏需要一个共同的参考可能是一个实际的优势。

因为SNV和归一化不涉及一个最小二乘方拟合在他们的参数估计,他们可以敏感嘈杂的条目谱。相反,使用平均值和标准偏差作为校正参数,有人可能会考虑使用更健壮的等价物这些统计的时刻。郭et al。[17]建议使用中等或意味着内部的四分位范围和标准偏差的内

部四分位数估计为a0,a1,分别命名为“方法”健壮的正常变量”。这将是特别合适的情况下光谱很模糊(如。在超快的在线近红外光谱的应用程序,在强劲的措施将会更受散射噪声(例如,波长选择性反射颗粒的液体流)]。鲁棒估计的影响他们演示郭et al。[17]对于模拟和实际数据。

正如已经讨论了Dhanoa et al。[18],有一个明显的相似性SNV和MSC。这种关系可以通过以下简单的近似提出:

Xmsc?XSNV?sX?X(9)

其中:sX一般的标准偏差的光谱,X大意味着在所有的光谱,都发现了从原始/未修正的光谱(参见图13)。

图10呆头呆脑的乘法散射校正与一个一阶参考校正。绿线显示了最终的,差别开始参考光谱(任意规模的贡献)。

图11标准正态变量修正光谱

图12欧几里得规范归一化光谱

图1 3 标准正态变量之间的关系和乘法散射校正。蓝色的和红色的线条代表的趋势线估计在图4。

作为方程(9)表明,MSCandSNV相似到简单的旋转和抵消校正。对于本文中使用果胶数据,相关的SNV预处理数据(图11)和基本MSC修正数据(图5)是0.9995后意味着中心。换句话说,MSC和SNV是相同的对于大多数实际应用。 4. 导数光谱

衍生品有能力清除两个添加剂和乘法效应在光谱和已经被用于分析光谱学了几十年。这个概念表明在无花果。14对于一个简单的高斯峰添加了基线和基线加上乘法效应。第一个衍生品只删除基线;二阶导数删除两个基线和线性趋势。在本文中,我们将讨论两种不同的方法:SG和西北。两个派生技术使用平滑为了不降低信噪比的修正光谱太多。

最基本的方法,推导是有限的差异:一阶导数是估计为区别两个后续光谱测量分;二阶导数是然后估计通过计算连续两个点之间的区别的一阶导数光谱:

xi'?xi?xi?1(10)

xi''?xi'?xi?1'?xi?1?2?xi?xi?1(11)

4.1诺里斯威廉姆斯推导

西北推导是一个基本的方法,以避免噪音通胀开发在有限的差异。这种技术是在1983年提出诺里斯[19]和阐述了通过诺里斯和威廉姆斯在1984年[20]作为一种方法来计算导数近红外/ NIT光谱。西北派生包含两个步骤(见图15): 1. 平滑的光谱,平均在一个给定的点的数量是执行:

xsmooth,1??mj??mxo?g,i?12m?1(12)

其中,m中的点数平滑窗口围绕电流测量的点i

2. 对于一阶求导,以区别两个平滑值与一个给定他们之间缺口大小(大于零);对二阶求导,

采取两倍的平滑值点我和平滑值在一个间隙距离两边:

图14派生的影响在添加剂(绿色)和添加剂加上乘法(红色)的影响。蓝色光谱是光谱没有任何补偿,黑色虚线是零线。

xi'?xsmooth,i?gap?xsmooth,i?gapxi''?xsmooth,i?gap?2?xsmooth,i?xsmooth,i?gap(13)

可以看到从方程(13),实际的推导模仿一个有限差分(方程(10)和(11))。通过应用一个平滑之前的计算,通过引入一个缺口大小的问题,降低信噪比降低。

在文学、NW推导往往是紧随其后的正常化修正光谱。诺里斯和威廉姆斯[20]提出了规范化光谱强度相当于在一个选定的波长,但更复杂的归一化方法可以使用。使用一个缺口很难捍卫在近红外光谱。这个概念经常使用的一个缺口,如果有一个(固定)频率分量在数据,大小的地方缺口将对应于两峰之间的距离值的信号。然而,在光谱学,有通常没有这样的背景频率的贡献。西北的衍生作品由于高度的co变异和平滑的近红外光谱和不一定由于光谱推理(见图16)。

一个有趣的注意在西北存在推导几个设置(组合的差距和平滑窗口),给相同的估计导数。再见。数,三分的差距有五个平滑等于一个四点平滑与一个缺口大小的三个;类似地,一个threepoint平滑有缺口的七是一样的sixpoint平滑与一个缺口大小的三个。这可以推广到m点平滑与一个缺口大小的k等于一个k 1点平滑和一个缺口大小的m。 4.2Savitzky-Golay推导

Savtizky和戈利(SG)[21]推广一个方法推导的数值一个向量,包括一个平滑的一步。为了找到导数在中心点我,一个多项式拟合在一个对称窗口的原始数据(参见图17)。当参数对

于这个多项式计算,任何顺序的导数的这个函数可以很容易地发现分析,这个值随后被用作导数估算出这个中心点(参阅图。18)。这个操作是应用于所有分光谱顺序。点的数目用来计算多项式(窗口大小)和程度的拟合多项式都决定要做,。最高的衍生物,可以确定取决于学位的多项式拟合过程中使用(即一个三阶多项式可用于估计的三阶导数)。

图15估计的一阶导数,诺里斯威廉姆斯。支持率窗口用于平滑,和一个缺口大小3应用于派生。

我们注意到有一个内在的冗余的层次结构SG推导。对于每个派生,随后的两多项式适合将给相同的估计的系数。第一导数,一个一级多项式和二级多项式将给出同样的答案(如将第三和第四度)。对二阶导数,第二和第三等级的多项式将给出同样的答案(如将第四和第五度),等。当这个方法是首先引入了Savitzky和戈利[21],它仍然是计算繁琐的计算参数的估算导数。出于这个原因,作者报道一组表列值几个不同类型的衍生品和多项式组合。然而,错误在他们的第一篇文章介绍了,Steinier et al。[22]发表一个修正和扩展版本的原始表。这些餐桌是后来甚至进一步扩大,发狂[23]。然而,随着现代计算机,不再有任何真正的需要为这些表。

原始形式的NW,SG推导使用对称窗口平滑,要求数据点的数量在每一边的中心点是相同的。因此,忽视一些点技术在每一端在预处理。为NW推导,点的数目失去了数等于分用于平滑加上差距的大小减去一个。对于SG推导,点的数目失去了数等于分用于平滑减一。因此吸收更多的点NW推导比SG推导。如果谱向量是长(即超过500点),这个问题不重要,但是,对于较短的光谱(例如,二极管阵列仪器),这个损失的波长可能是重要的。

天天p和舍伍德在1980年[24]和[25]天呀在1990年提出一个解决方案,包括使用一个基于非对称多项式拟合的终端窗口。在实践中,这意味着米的第一个得分谱估计从2 m + 1

第一分光谱,和一个类似的估计去年米点。然而,这样的解决方案将介绍,显然工件精度的衍生品随距离中心点(m + 1)。此外,估计的端点并不拥有内在的冗余提到:没有两个后续的SG多项式秩序配件将给相同的估计。此外,估计的潜孔导数相等的所有端点如果谱是平滑的潜孔秩序多项式。

NW推导类似于有限的差异,但引入了平滑和缺口大小为counteractions在估计衍生物光谱保持信号-噪音比例。这两个步骤在NW派生或多或少是独立的。然而,SG推导使用更多的常见的过滤技术来估算导数光谱,而不是使用有限差分方法,适合一个多项式通过一系列的点来维持一个可接受的信噪比。一般来说,NW,SG派生不给相同的估计。唯一的一双设置,让相同的结果是三个平滑分两,SG使用一阶多项式配合,在西北气隙的大小等于1。然而,更复杂的(和现实)设置为SG和/或NW自动导致(稍微)不同的推导的结果。

图16诺里斯威廉姆斯二阶导数使用9点平滑和一个缺口大小的3。

5. 间隔和联合版本

提到的预处理技术迄今为止,只有估计的衍生品是由一个移动窗操作,只有一个本地部分(窗口)的光谱用于任何时间估计校正。然而,所有其他的方法同样能够在一个窗口明智的方式执行。

伊萨克松和科瓦尔斯基[26]建议这详尽分析,并将其命名为分段MSC(PMSC)。Andersson[27]预处理方法相比替代两个版本的PMSC:移动窗或当地的预处理(划分成几部分波长轴和执行预处理在每一个部分分别)。

这个移动窗版本的预处理技术获得了一些利益,从近红外光谱的社区,可能是因为正确的选择的窗口大小是至关重要的,它是远离琐碎要正确做到这点。过小窗口会导致引进大型

工件在纠正光谱和降低信噪比。然而,更大的窗口的大小,较小的完整和移动窗之间的区别预处

图17估计的,Savitzky-Golay一阶导数。 支持率窗户,一个二阶多项式是用来平滑

理(见图19)。本地窗口预处理是有用的,尤其是在记录的情况下测量光谱从视觉范围或短波近红外光谱的中期红外范围。在这个宽光谱区,几个不同的散射问题并存,和光谱应该相应的分割,执行单独的散射纠正在不同的部分。然而,由于这不是本质上不同于在区域划分光谱的预处理方法,应用独立,我们不讨论它进一步。

使用预处理方法的组合是丰富的文学,原则上,任何序列的预处理是可能的。然而,以下简单的规则可以作为最初的指导方针。

1) 散射校正(除了标准化)应该被执行之前,分化。这些技术都是设计用于修正原始光谱,

从未被认为是修正一个分化或基线纠正谱。

2) 可以使用规范化的两端校正,尽管它是容易评估正常化的影响如果是任何其它操作之前

执行。

3) SNV之间的基本差异与随后的消除趋势和MSC与参考和基线校正是,在MSC,同时应

用两个修正,而不是连续的。因此,通常会给一个较小的MSC基线校正比SNV加德趋势。

4) 其次是SNV执行de趋势并不推荐Barnes et al。[13],基于以上原因,不推荐进行消除

趋势第一。 6. 一个定量的例子

图18Savitzky-Golay估计的二阶导数使用9分和一个二阶多项式的平滑。

现在我们将应用所有的预处理方法的讨论到一个定量分光任务涉及32杏仁蛋白软糖样品测量六非常不同的光谱分析仪作为预测变量两种不同的响应变量:水分和糖含量。这些数据来自一项由克里斯腾森et al。[3]。图20显示了一个,光谱集。对于一个总结的数据,见表1。在这里,我们展示了pls回归模型,建立所有的六个近红外光谱仪器,和响应分别(所谓的PLS1模型[5])。

杏仁糖近红外光谱数据集是不同的预处理技术处理本文中描述的。除了设置用于理论部分,一些更极端的参数设置进行估算,以显示分段MSC使用合理的选择的重要性。没有样本被看成是例外,因为所有样本表现不错在最初的探索性分析。引导错误估计[28]被用作验证方法。共有1000引导图纸进行每种组合的数据集、引用和预处理。同一套图纸是用于所有数据集,除了仪器1,只有十五32样品进行了测量。0.632引导估计的预测误差进行了计算见方程(14),按照Wehrens et al。[28]

RMSEf?0.368?RMSEf?0.632?RMSEPf(14)

其中RMSEf预测误差估计并且RMSEf和RMSEPf一般的校准(样本每一个引导得出选择)和预测(不是每一个样本选择引导画)错误在所有引导图纸。最优数量的因素,f,是决定基于0.632引导估计,选择第一个最低或的地方RMSEf曲线作为函数的因素变得平缓(RMSEf曲线的斜率是常数)。

图19移动窗口标准正态变量使用129 nm移动窗口(65测量分)。

通过应用所有的预处理技术相同的样本集记录六个不同的工具和/或光学测量几何图形(分散,干涉仪,反射、透射和光纤探针)使用两个不同的响应(水分和糖),一些一般性的性能差异是显示(见Tables2和3)。

作为一个非常首先观察,它是安慰,几乎所有的预处理的模型是简单或更简约的(比如,使用更少的请因素)比全球模型、独立的光谱仪建立和独立的响应变量。

第二个一般观察,过滤器的仪器1在反射模式不是竞争在测量杏仁糖样品(RMSEmoisture = 0.75、4潜变量(lv)和RMSEsugar = 2.30,3 lv;但我们需要记住,只有15 32样品测量)和预处理没有帮助,让它回落到其它乐器的水平。过滤器的工具并不是真正的兼容光谱派生技术,但其他预处理技术也未能达到预期的性能。

第三个一般评论可以在全息信息内容的近红外光谱,在这种信息(泛音)会重复出现多次。小光谱范围850 - 1050海里(覆盖着仪器6),它包含第二泛音的o - h和n h伸展和第三泛音的从完全竞争的延伸与更精密的仪器覆盖完整的或传统的近红外光谱区域。此外,很有趣的一点是,创建的模型从光谱从传输基础仪器6通常是最简单的,甚至在预处理。显然,从密度波动的散射测量样品的传输方式不太苛求比反射散射测量反射模式。当谈到预处理,这是令人惊讶的,与所有其他乐器,欧几里得规范工作得非常好,提供了最好的结果对仪表6(RMSEmoisture = 0.38,3 lv,RMSEsugar = 1.39,5 lv)。原因可能是,这小NIR区域包含所有氢键覆盖从示例和一个规范化的方法从而对应于整合所有的质子信号并设置质子密度样本之间的平等。除了标准化的方法,这似乎是一个很好的预处理,衍生品策略对于这种类型的数据,因为他们可以一直简化模型,特别明显的对于糖预测。

图表 10 32杏仁蛋白软糖样品测量仪器2,在间隔1100 - 2500海里。

对于剩下的全地区近红外光谱仪器2 - 5,我们发现一些有趣的和强大的差异取决于响应变量,大概是因为含水率是一个低分辨率光谱任务而糖含量是一个高分辨率的问题。

对于水分模型、色散仪器2和3几乎总是比模型基于傅里叶变换工具4和5。

最好的整体模型为工具PSNVwindow-width发现2 129预处理(RMSE = 0.30、4 lv)和最好的傅里叶变换模型是发现对仪表5用光纤利用MSC和secondorder参考校正(RMSE = 0.37,5 lv)。当添加一个光纤探针仪器2(=仪器3),模型的复杂性增加(平均3 lv)。这个大的差异可以分配到更复杂的光学几何后期的系统。此外,性能没有预处理是相同的(RMSE = 0.42),但预处理的性能的仪器3是劣质(RMSE = 0.37,10个lv使用SNV和MSC)的最好的模型的仪器2。

对于糖模型,情况几乎是逆转。在这里,干涉仪基础仪器4显示始终最好的模型,但更复杂的,大概是由于更好的光谱分辨率的仪器。最好的整体模型对仪表与MSC1st发现4订单ref,二阶波浪预处理(RMSE = 0.92,9 lv),远比最好的色散结果(RMSE = 1.30、4 lv对仪表2)但也复杂得多。再一次,对于糖模型,添加一个光纤探针仪器2(=仪器3)使得模型劣质和复杂得多(平均两个lv和增加最好的两个模型之间的RMSE从1.22到1.81对于仪器仪表2 3)。

这个移动窗版本的SNV和MSC显示不同的结果。一般来说,移动窗版本给结果类似于或比最好的剩余的预处理方法。然而,顶多10% RMSE是比最好的正常的预处理技术,但窗口选择可能很容易成为一个关键的参数。相比之下,一些次优的移动窗方法都包含在最后三行表2和3。

差异有限差分方法,推导和更复杂的方法是不明显的估计第一导数的一些测量(仪器2、3和6)。这很适合这些系统的平稳行为,表明额外的平滑是没有必要的。这个干涉仪(仪器4和5)有一个更好的光谱分辨率,给上升到一个更高程度的精细结构,导致低信噪比在估计的一阶导数的有限差分法。这最终导致劣质模型。结果,使用有限差分第二衍生品通常是,他们都不如更复杂的方法。这表明在信噪比

7.总结

显然,我们的定量的例子并不能给出权威的回答,比如哪些预处理使用在何种给定的情况下。然而,它确实使用标准化在短波近红外透射光谱是明智的和利用MSC(一阶参考校正)或标准SNV对于大多数其他的一些情况。

虽然很难找到最好的预处理,这的确是可以使用错误的预处理。这主要是因为不正确的参数设置窗口的大小和/或平滑函数估计的衍生品和移动窗技术。

最后,我们强调的任何预处理只是对模型进行一定量的改善,全局建模大约25%在我们的研究中。25%的降价,而可能是重要的工业应用的[29],这是几乎没有什么使区别在许多多元可行性研究蓬勃发展,在科学文献中,我们可以推荐选择预处理,以实现最佳的,最具有说明的模型。

参考文献

[1] S. Wold, K. Esbensen, P. Geladi, Chemom. Intell. Lab. Syst. 2 (1987) 37.

[2] S.B. Engelsen, E. Mikkelsen, L. Munck, Progr. Colloid Polym. Sci. 108 (1998) 166.

[3] J. Christensen, L. N?rgaard, H. Heimdal, J.G. Pedersen, S.B.

Engelsen, J. Near Infrared Spectrosc. 12 (2004) 63. [4] S. Wold, H. Martens, H. Wold, Lect. Notes Math. 973 (1983) 286.

[5] H. Martens, T. N?s, Multivariate Calibration, Wiley, New York, USA, 1989.

[6] H. Martens, S.A. Jensen, P. Geladi, Multivariate linearity transformations

for near infrared reflectance spectroscopy, in: O.H.J. Christie (Editor), Proc. Nordic Symp. Applied Statistics, Stokkland

Forlag, Stavanger, Norway, 1983, pp. 205–234. [7] P. Geladi, D. MacDougal, H. Martens, Appl. Spectrosc. 39 (1985) 491.

[8] H. Martens, E. Stark, J. Pharm. Biomed. Anal. 9 (1991) 625.

[9] D.K. Pedersen, H. Martens, J.P. Nielsen, S.B. Engelsen, Appl.

Spectrosc. 56 (2002) 1206–1214.

[10] H. Martens, J.P. Nielsen, S.B. Engelsen, Anal. Chem. 75 (2003) 394.

[11] M. Decker, P.V. Nielsen, H. Martens, Appl. Spectrosc. 59 (2005) 56.

[12] S.N. Thennadil, E.B. Martin, J. Chemom. 19 (2005) 77.

[13] R.J. Barnes, M.S. Dhanoa, S.J. Lister, Appl. Spectrosc. 43 (1989) 772.

[14] I.S. Helland, T. N?s, T. Isaksson, Chemom. Intell. Lab. Syst. 29 (1995) 233.

[15] N.B. Gallagher, T.A. Blake, P.L. Gassman, J. Chemom. 19 (2006) 271.

[16] W. Windig, J. Shaver, R. Bro, Appl. Spectrosc. 62 (2008) 1153.

[17] Q. Guo, W. Wu, D.L. Massart, Anal. Chim. Acta 382 (1999) 87.

[18] M.S. Dhanoa, S.J. Lister, R. Sanderson, R.J. Barnes, J. Near

Infrared Spectrosc. 2 (1994) 43.

[19] K.H. Norris, Extracting information from spectrophotometric

curves - Predicting chemical composition from visible and near

infrared spectra, in: H. Martens, H. RusswurmJr. (Editors), Food

Research and Data Analysis–Proc. IUFOST Symposium, Applied

Science Publishers, London, UK, 1983, pp. 95–113. [20] K.H. Norris, P.C. Williams, Cereal Chem. 61 (1984) 158.

[21] A. Savitzky, M.J.E. Golay, Anal. Chem. 36 (1964) 1627.

[22] J. Steinier, Y. Termonia, J. Deltour, Anal. Chem. 44 (1972) 1906.

[23] H.H. Madden, Anal. Chem. 50 (1978) 1383. [24] A. Proctor, P.M.A. Sherwood, Anal. Chem. 52 (1980) 2315.

[25] P.A. Gorry, Anal. Chem. 62 (1990) 570.

[26] T. Isaksson, B.R. Kowalski, Appl. Spectrosc. 47 (1993) 702.

[27] C.A. Andersson, Chemom. Intell. Lab. Syst. 47 (1999) 51.

[28] R. Wehrens, H. Putter, L.M.C. Buydens, Chemom. Intell. Lab. Syst. 54 (2000) 35.

[29] C.B. Zachariassen, J. Larsen, F. van den Berg, S.B. Engelsen,

Chemom. Intell. Lab. Syst. 76 (2005) 149.

本文来源:https://www.bwwdw.com/article/h4n.html

Top