一种改进的扩散映射算法-AET-电子技术应用

一种改进的扩散映射算法

2015年微型机与应用第8期

徐丽丽1，闫德勤2，刘彩凤2，贾洪哲2

（1.辽宁师范大学数学学院，辽宁大连 116029；2.辽宁师范大学计算机与信息技术学院，辽宁大连 116029）

关键词： 扩散映射降维流形学习聚类

Abstract：

Key words :

　　摘要： 扩散映射（Diffusion Maps）是一种基于流形学习的非线性降维方法。基于对扩散映射的研究，提出了一种新的非线性降维算法。根据近邻点分布的不同和模糊聚类原理，新算法定义了扩散映射算法构建权值矩阵的误差近似系数，并采用改进的距离公式来选取样本点的近邻点，很大程度地降低了近邻点的选取对降维效果的影响。实验结果表明，新算法有效地保持了高维数据中的流形结构，具有更好的降维效果，并在基于内容的图像检索中达到很高的查准率，新算法的有效性和优越性得到了证实。
　　关键词： 扩散映射；降维；流形学习；聚类
0 引言
　　流形是局部具有欧几里得空间性质的空间，包括各种维数的曲线、曲面等，是一般的几何对象的总称。流形学习[1-3]以流形理论为基础，把高维空间中的样本集在低维空间中重新表示出来，并能求出其相应的嵌入映射，很好地保持了样本点的拓扑结构，达到了维数约简的目的。流形学习方法减少了高维数据的冗余性，解决了维数灾难的问题，因此，流形学习具有非常重要的研究意义。目前，流形学习的方法主要分为两类：一类是线性降维方法，主要有主成分分析（Principal Component Analysis，PCA）[4]、独立分量分析（Independent Component Analysis，ICA）[5]、多维尺度分析（Multidimensional Scaling，MDS）[6]等；另一类是非线性降维方法，主要有核主成分分析（Kernel Principal Component Analysis，KPCA）[7]、等度规映射（Isometric Mapping，Isomap）[8]、局部线性嵌入（Locally Linear Embedding，LLE）[9]等。
　　扩散映射（Diffusion Maps，DM）[10]是COIFMAN R等人在2006年提出的一种基于流形学习的非线性降维方法，其主要思想来自于动力系统。作为一种新的流形学习框架，扩散映射通过在扩散过程中尽可能地保持扩散距离来进行降维，即保持样本点的局部结构不变，通过局部关系定义全局关系，使样本点在低维空间中仍保持这种稳定的全局关系。近邻点选取和分布的不同可产生不同的邻接图，对扩散映射的降维效果影响很大，由此本文提出了一种改进的算法。由于聚类的中心含有大量的信息，新算法根据聚类原理，先定义了扩散映射构建权值矩阵的误差近似系数，然后利用改进的距离函数来选取近邻点，构建邻接图。新算法模糊了近邻点的选取对实验结果的影响，达到了较为理想的降维效果，并在实验中得到了证实。
　　1 Diffusion Maps（DM）算法
　　DM算法主要分为如下4步：
　　（1）构建邻接图。对于给定的数据集X={x1，x2，…，xN}，xi∈RD，i=1，2，…，N，若xi是xj的近邻点，则将xi与xj之间赋一个边，边反映了样本点之间的局部关系，近邻点一般用欧氏距离来度量，距离公式为：
　

　（2）构建权值矩阵W。权值矩阵的元素Wij（W（xi，xj））反映样本点xi与xj之间的相似程度，因此满足：
　　①W是对称的：Wij=Wji；
　　②W是非负的：Wij≥0。
　　一般采用高斯核函数定义成对数据点之间的相似度矩阵，即：

　　其中， 4EN0F92~XUQE`@NW)]@@MA6.png 为高斯核的方差，越大，权值越大，数据点间的相似程度越大。
　　（3）构建扩散核矩阵K。利用加权的图Laplacian归一化方法。
3,4.png

　　其中，Wi表示xi与其他各点的权值之和。
　　（4）核矩阵K的特征分解。对内积矩阵K进行特征分解，求K的特征值和特征向量，K的最大的d个特征值λ1，λ2，…，λd对应的特征向量为U=[u1，u2，…，ud]，则高维数据X降维后的数据集为Y=UT=[u1，u2，…，ud]T。
2 新算法的提出
　　2.1聚类原理
　　聚类是解决高维数据问题的常用方法。聚类分类产生一些簇，簇是一组数据对象的集合，同一簇中的对象相似，不同簇中的对象相异，每个簇的中心含有丰富的可利用的信息，具有代表性。模糊C均值（Fuzzy C-Means，FCM）算法[11-13]是应用最广泛的聚类分析方法之一。
　　对于给定的采样于维流形的高维观测数据集X={x1，x2，…，xN}，xi∈RD，i=1，2，…，D。设样本点聚类分类的类别个数为M，第j类样本的中心为cj，第j类样本的个数为rj，总体样本的中心为c。则定义第j类样本点的类内平均距离为：

　　第j类样本中心与总体样本中心的距离为：

　　其中，‖‖表示欧式距离。由此，定义样本点构建权值矩阵的误差近似系数为：

　　其中，j为样本点xi所属的类。
　　用误差近似系数重新构建样本点在低维空间上嵌入的权值矩阵，从而提高样本点之间的相似程度，获得更好的实验结果。
　　2.2 改进的距离函数
　　对于分布不均匀的数据集，假设P为分布密集的区域上的点，其k个近邻点所占的区域为SP，O为分布稀疏的区域上的点，其k个近邻点所占的区域为SO，显然SP要比SO小得多。因此对于分布不均匀的样本集，近邻点k个数的选取会影响实验结果。所以要对近邻点间的距离进行改进，降低样本点分布的影响。下面定义一种新的距离[14-15]。

　　其中，Gi、Gj分别表示xi、xj和其他点之间距离的平均值。
　　因为新的距离的分子是欧氏距离，分母是数值，则有：
　　①非负性：dij≥0，当且仅当xi=xj，即i=j时等号成立；
　　②对称性：dij=dji；
　　③三角不等式性：dis+dsj≥dij。
　　由泛函分析知识可知，新的距离满足距离空间的定义。在DM的第一步构建邻接图时，采用新的距离公式取代欧氏距离来选取样本点的k个近邻点。新的距离使分布较密集区域的样本点间的距离增大，而使分布较稀疏区域的样本点间的距离缩小，这样区域SP和SO区域的差异性减小，样本点的整体分布趋于均匀化，从而降低样本点的分布对算法效果的影响。
　　2.3改进的算法（Improved Diffusion Maps，IMDM）
　　IMDM算法的步骤如下：
　　（1）对样本集进行聚类分类，得出构建权值矩阵的误差近似系数：

　　（2）构建邻接图。距离公式为：

　　（3）构建权值矩阵W′。

　　（4）构建扩散核矩阵K′。

　　（5）核矩阵K′的特征分解。求K′的特征值和特征向量，K′的最大的d个特征值λ′1，λ′2，…，λ′d对应的特征向量为U′=[u′1，u′2，…，u′d]，则高维数据X降维后的数据集为Y=[U′]T=[u′1，u′2，…，u′d]T。
　　新算法首先对样本集进行聚类分类，利用类别信息得出构建权值矩阵的误差近似系数，然后采用新的距离函数选取近邻点构建邻接图，这样可适当降低近邻点个数k的选取对算法的影响，得到较好的降维效果。
3 实验结果及分析
　　3.1人工数据
　　用DM和IMDM对Scurve人工数据集（如图1所示）进行降维，实验选取2 000个样本点，近邻点的个数分别取8、12，将数据集降至2维，实验结果如图2所示。从图2中可以看出，IMDM比DM具有更好的降维效果，模糊了近邻点个数的选取，降维效果比较理想，具有更好的可视化效果。

Image 001.png

　　3.2 图像检索
　　在基于内容的图像检索实验中，图像选自Corel数据库，共1 000幅图像，类别为10种，有建筑、风景、人物、动物、植物等。实验对第450号恐龙图像进行相关图像检索，降至维数d分别取6、14、20，检索出的图像数目设为20。实验一先用DM方法对图像数据集降维然后进行检索，得出实验结果如图3中的（a）、（c）、（e）所示。实验二先用IMDM方法对图像数据集降维再进行检索，得出实验结果如图3中的（b）、（d）、（f）所示。对比两次实验结果，可以清晰地看出，IMDM降维后进行基于内容的图像检索的准确率明显高于DM的。

Image 002.png

　　查准率是衡量图像检索算法有效性的常用指标，查准率越高，表示图像检索方法越好，反之越差。

　　图4为在维数不同时，DM和IMDM查准率的变化情况。可以看出，多数情况下IMDM降维后图像检索的查准率高于DM的。特别地，当维数为20时，应用IMDM方法，查准率达到了100%。

Image 003.png 　

4 结论
　　本文对基于流形学习的扩散映射非线性降维方法进行了分析研究，提出了一种改进的扩散映射非线性降维方法。此方法以聚类分类原理构造权值矩阵的误差近似系数，通过改变样本点间的距离公式重新构建邻接图，进而实现降维。新算法有效地降低了近邻点的选取对降维效果的影响，并且很好地保留了原始数据的拓扑结构。将改进的扩散映射方法用于Scurve数据集和基于内容的图像检索实验，都得到了很好的效果，具有很好的实际应用价值。
　　参考文献
　　[1] ORSENIGO C， VERCELLISN C. Kernel ridge regres-sion for out-of-sample mapping in supervised manifold learning[J]. Expert Systems with Application， 2012，39（9）：7757-7762.
　　[2] 曹林林.基于流形学习的分类技术[D].济南：山东师范大学，2013.
　　[3] 王自强，钱旭，孔敏.流形学习算法综述[J].计算机工程与应用，2008，44（35）：9-12.
　　[4] 曾宪华，罗四维.全局保持的流形学习算法对比研究[J].计算机工程与应用，2010，46（15）：1-6.
　　[5] HYVARINEN A， OJA E. Independent component analysis：algorithms and applications[J]. Neural Networks， 2000，13（45）： 411-430.
　　[6] COX T， COX M. Multidimensional scaling[M]. London：Chapman&Hall， 1994.
　　[7] SCHOLKOPF B， SMOLA A， MULLER K R. Nonliner co- mponent analysis as a kernel eigenvalue problem[J]. Neural Computation，1998，10（5）：1299-1319
　　[8] THEODORIDIS S，KOUTROUMBAS K.模式识别（第4版）[M].李晶皎，王爱侠，王骄，等译.北京：电子工业出版社，2010.
　　[9] Zhang Zhenyue， Zha Hongyuan. Principal manifold and nonlinear dimensionality reduction via local tangent space alignment[J]. SIAM Journal of Scientific Computing， 2004，26（1）：313-338.
　　[10] COIFMAN R， LAFON S. Diffusion maps. Applied and computational harmonic analysis[EB/OL]. [2006-05-30].http： www.elsevier.com/locate/acha.
　　[11] 姜伦，丁华福.关于模糊C-均值（FCM）聚类算法的改进[J].计算机与数字工程，2010，38（2）：4-6.
　　[12] 苏锦旗，张文宇.基于模糊聚类的改进LLE算法[J]，计算机与现代化，2014，225（5）：9-13.
　　[13] BEZDEK J C， EHRLICH R. Full W. FCM： the fuzzy c-means clustering algorithm[J]. Computers & Geosciences，1984，10（2）：191-203.
　　[14] 王和勇，郑杰，姚正安.基于聚类和改进距离的LLE方法在数据降维中的应用[J]，计算机研究与发展，2006，43（8）：1485-1490.
　　[15] JOSHUA B T， VIN.DE S， LANGFORD J C. A global geometric framework for nonliner dimensionality reduction[J]. Science， 2000，290：2319-2323.

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容