摘 要: 因近红外光谱具有波长点多、谱带归属困难、光谱重叠严重及光谱分布结构未知等问题,在进行近红外光谱关键特征提取和数据特征空间映射时难以准确获知合适降维方法。为了解决该问题,本文对比分析了典型线性和非线性降维方法,并用烟叶近红外光谱数据从数据降维可视化和分类准确性识别率角度分别进行了实验验证。结果表明,线性降维算法,特别是PCA、LDA算法,比较适合应用于烟叶近红外光谱降维分析中,非线性降维算法因其泛化学习能力与推广能力差以及本征维数估计困难不适合应用于近红外光谱降维分析。
关键词: 降维;PCA;LDA;近红外光谱;小样本
0 引言
近红外光谱(NIR)分析技术是近年来分析化学领域迅猛发展的高新分析技术,越来越受到国内外分析专家的关注,在分析化学领域被誉为分析“巨人”。它的出现可以说带来了又一次分析技术的革命。近红外光谱分析技术广泛应用于农产品、化工、医药等领域的质量分析。然而,由于近红外光谱数据具有高维、谱带重叠等特征,给提取样品的关键主成分信息带来了一定程度的困难和挑战。如何实现高维到低维空间的特征映射关系,选择合适降维方法显得尤为重要。近年来,为了解决高维光谱数据降维问题,国内外相继出现大量的降维算法。主成分分析(PCA)[1]和线性识别分析(LDA)[2]是目前应用最为广泛的特征提取与数据降维方法之一。但当分析数据集呈现非线性且数据分布明显弯曲时,采用线性降维方法无法获取数据非线性结构特征。为了更好地解决该问题,先后有不少非线性降维方法被提出,比较经典的有局部线性嵌入LLE算法、等距离映射方法Isomap算法;另外,Sammon[3]提出了一种非线性映射,即Sammon映射(SM),该算法能够保持输入样本之间的相关距离;Hastie[4]提出了Principal Curves(PC),其定义为通过概率分布或数据云中间的“自洽”光滑曲线;Kohonen[5]基于自组织神经网络提出Self-organizing Map(SOM)用来保存数据空间的拓扑属性;Scholkopf[6]应用Mercer核将PCA扩展为Kernel PCA(KPCA),该算法在高维空间中计算主分量,而该高维空间由输入空间经某种非线性映射得到;Mika等[7]采用相同的思想来非线性扩展LDA,从而提出了Kernel LDA(KLDA)。
上述这些线性和非线性降维方法各有特性,适合解决不同类型特征数据,对于近红外光谱而言,需要根据光谱特征找到适合降维和关键特征提取方法,因此,本文重点分析近红外光谱特征,对比分析了线性降维算法与非线性降维算法在提取关键数据特征方面的优缺点,获得一种可行有效的降维方法,并在实际应用中得到较好应用。
1 降维方法
1.1 线性降维方法
主成分分析PCA是目前应用最为广泛的降维方法之一。PCA算法依据的是方差最大化原理,将数据从高维空间向低维空间映射,并使之投影后方向相互正交。主成分大小根据方差大小依次提取。PCA是一种无监督的降维算法,该方法无需考虑数据类别属性,通过某种线性投影变化获得综合变换,综合变量最大化反应了原始光谱数据中所反映的大致规律。
线性判别式分析LDA算法是模式识别的经典算法,其基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,使投影后空间中有最佳的可分离性。但是,PCA和LDA方法中的全局线性属性限制了它们在非高斯分布数据上的有效性。
1.2 两种线性方法的区别
PCA算法是在数据空间中找出一组向量,用此向量尽可能地表达数据的方差,将数据从高维降到低维,其利用K-L变换获得逼近原数据空间的最低维识别空间。LDA算法也是一种线性降维方法,它基于分类的思想对数据进行降维,即它希望降维后的数据在分类后间距尽可能的大。
1.3 两种线性方法的结合PCA+LDA
根据PCA与LDA的特点,可将二者进行结合使用。设训练样本为xi∈Rm×n,i=1,2,…,N,N表示训练样本数,训练样本的协方差矩阵Q为XXT,然后计算协方差矩阵的特征值与特征向量,并取其较大d个特征值对应的特征向量,组成PCA算法的特征子空间W1;在样本数小于样本维数时,直接运用LDA算法会出现小样本问题,即Sw奇异,此时无法求出Sw-1Sb的特征向量,其中Sw为类内散布矩阵,Sb为类间散布矩阵。依据PCA算法的特征子空间W1,结合使用PCA、LDA算法时Sw与Sb分别定义为:
Sw=W1TXwXwW1
Sb=W1TXbXbW1
然后,求解矩阵Sw-1Sb的特征值问题。这里选择Sw-1Sb的P个较大特征值对应的特征向量构造LDA算法的特征子空间W2,将PCA算法与LDA算法的特征子空间进行融合,即WS=W1W2,可获得PCA-LDA算法的融合特征空间WS,使用得到的WS作为PCA-LDA算法的特征空间进行运算。
1.4 非线性降维方法
(1)LLE算法
局部线性嵌入(Locally Linear Embedding,LLE)算法是流形学习中非线性降维方法中最为经典的算法之一,能够使降维后的数据较好地保持原有流形结构,并找到每个样本的k个最近邻域。
(2)ISOMAP
如果数据采自一个蛋卷形的流形,两点间的欧式距离不能真实反应两点间的关系,而两个点之间沿着蛋卷的最短距离即geodesic距离可以更好地反应这两个点之间的关系。ISOMAP的主要思想就是利用点之间的geodesic距离来代替点之间的欧氏距离,然后用Metric MDS计量多元尺度算法进行数据降维。ISOMAP对数据的整体平移、旋转和翻转具有不变形的特性,并且它最后也归结为特征值和特征向量的计算问题,它具有发现高维空间低维流形的能力。
(3)KPCA(Kernel-PCA)
KPCA算法是基于核函数的思想对PCA算法进行改进,它不会显著增加计算的复杂度,并且继承了PCA算法可以得到全局最优解的特性,另外它可以求解非线性问题。其算法思想大致如下:假设有m个数据x1,x2,…,xm,当这些数据在n维空间中线性不可分时,希望通过一个映射将数据从n维空间映射到N(N>n)维空间中,使得数据在N维空间中是线性可分的,这样,当使用PCA在N维空间对数据进行降维时可以得到更好的结果。实践发现,当对数据处理时,经常会出现求两个向量点积的形式,即椎(xi)T(xj)的形式,于是,可以用一个函数来代替这种点积计算,即寻找一个函数,使得K(xi,xj)=(xi)T(xj),这样可以把求点积的运算转化为求函数值的问题。这里的函数K(xi,xj)便称为核函数。
2 实验部分
2.1 材料和仪器
为了获得有效的近红外光谱数据降维方法,挑选了134个有代表性的复烤片烟,包含福建、云南、山东3个质量差异明显的产区。这些烟叶样品的近红外光谱采用FOSS近红外分析仪NIRS DS2500采集,该设备波长范围400~2 500 nm,数据采样间隔0.5 nm。
2.2 环境条件
为了保证近红外光谱数据采集的准确性和稳定性,需具有良好的环境温湿度条件,空气相对湿度范围保持20%~70%,温度范围为20℃~26℃,样品检测过程中门窗处于关闭状态,确保每小时的温度变化不大于1℃,湿度变化不大于2%。
2.3 样品前处理
将挑选的134份来自三个不同产区的烟叶样品进行抽样、去梗等前处理,然后在烘箱中以60℃、4 h条件烘干(含水量约为4%~8%),从烘箱中取出烘好的样品马上磨粉,过筛40目,装入密封袋中密封并常温下避光贮存。
2.4 光谱数据采集
每份烟叶粉末样品称重20~25 g,采用漫反射的方式扫描,每个样本重复装样3次,取平均光谱作为该样品的最终近红外光谱。
2.5 实验验证分析
2.5.1五种降维算法的数据可视化结果
本实验中,分别采用PCA、LDA、LLE、ISOMAP、KPCA 5种降维算法对134份烟叶粉末样品近红外光谱数据在MATLAB平台下进行降维分析,降维因子数为10个,其获得数据可视化结果如图1~图5(其中横轴表示降维后第一主成分的得分,纵轴表示降维后第二主成分的得分)。
从数据的可视化结果来看,LDA算法在水平与垂直方向都可以把产区分开,PCA、LLE、ISOMAP可以在某些方向上把产区分开,Kernel-PCA可以在某些区域内把产区分开。
2.5.2 分类结果
从降维后的可视化结果中可看出5种算法的不同性能,此外,本文从另外一个角度——分类器正确识别率来判断算法的适合性。从三个产区中分别随机选取部分样本作为测试样本,训练样本与测试样本的组成结构如表1所示。如果测试样本经过分类器分类之后可以正确识别出产区信息,则认为是正确识别。实验过程中主因子数采用1~10,对5种降维算法分别进行KNN分类,不同算法采用不同主因子数得到的正确识别率如表2所示。
由表2可以看出:(1)LDA具有最好的对烟叶产区分类功能,其次是PCA和ISOMAP,LLE对于产区分类的效果不理想,由此可以推测烟叶近红外光谱在高维空间的分布情况;(2)特征空间维数对产区的正确识别率有一定的影响,并不是特征空间的维数越多对产区分类越好,这表明在特征提取时部分维数信息对于产区的分类是具有干扰性的。
3 结论
本文着重对比分析了线性与非线性的数据降维方法在烟叶光谱中的应用。在对5种降维算法的分析中可以看出,PCA和LDA降维算法在烟叶近红外光谱图方面相对其他的降维算法有较好的分类性能,而且特征空间的维数对产区分类有一定的影响,合适的特征空间维数能够进行较好的分类。本文的分析结果与专家评吸的结果相一致,对降维算法的研究可为实际应用中降维算法的选择提供重要的参考依据。
参考文献
[1] HOTELLING H. Analysis of a complex of statistical variables into principal components[J]. Journal of Educational Psychology, 1933,24:417-441.
[2] FISHER R A. The use of multiple measurements in taxonomic problems[J]. Annals of Eugenics, 1936,7(2):179-188.
[3] SAMMON J J W. A nonlinear mapping for data structure analysis[J]. IEEE Trans on Computers,1969,18(5):401-409.
[4] HASTIE T. Principal curves and surfaces[D]. California:
Stanford Univ, 1984.
[5] KOHONEN T. Self-organizing Maps[J]. Journal of Mathematical Modelling and Algorithms,2008,7(4):371-387.
[6] SCHOLKOPF B, SMOLA A, M?譈LLER K R. Nonlinear component analysis as a kernel eigenvalue problem[J]. Neural Computation, 1999(10):1299-1319.
[7] MIKA S, RATSCH G, WESTON J, et al. Fisher Discriminant Analysis with Kernels[C]. Proc. IEEE Workshop Neural Networks for Signal Processing, 1999,25: 41-48.