基于SVM手绘太阳黑子图像背景提取方法-AET-电子技术应用

基于SVM手绘太阳黑子图像背景提取方法

2016年微型机与应用第23期

朱明锋，郑胜，曾祥云，徐高贵

三峡大学理学院，湖北宜昌 443002

摘要：手绘太阳黑子图像手写记录信息对于研究太阳黑子长期活动规律具有重要价值，而背景提取又是利用计算机手绘太阳黑子信息数字化工作中的关键过程。文章提出一种基于支持向量机（Support Vector Machine ，SVM）的手绘太阳黑子图像信息背景提取方法，通过针对性地对每个像素样本特征向量的监督学习训练，从而实现背景像素与前景像素的分离，实验证明该方法具有很好的鲁棒性，将此方法与传统的K-means模糊划分、模糊C均值（FCM）聚类方法进行对比分析，证实该方法的应用价值更高。

关键词： 手绘太阳黑子图背景提取支持向量机监督学习

Abstract：

Key words :

　　朱明锋，郑胜，曾祥云，徐高贵

　　(三峡大学理学院，湖北宜昌 443002)

关键词：手绘太阳黑子图；背景提取；支持向量机；监督学习；K-means聚类

中图分类号：TP319文献标识码：ADOI： 10.19358/j.issn.1674 7720.2016.23.015

　引用格式：朱明锋，郑胜，曾祥云，等. 基于SVM手绘太阳黑子图像背景提取方法［J］.微型机与应用，2016,35（23）：52-55,58.

0引言

　　随着科学技术的快速发展，在短短几十年间，数字图像处理技术快速发展，并逐渐趋于成熟。该技术在人工智能应用、遥感影像处理、空间探测、工业检测以及生物医学等众多领域都得到了广泛应用，并为这些领域内的学科发展提供了新的方向和突破点［1］。在研究太阳活动的过程中，对太阳黑子活动的观察最为明显和容易。在计算机不发达的过去，天文工作者所观测到的太阳黑子的大小、形状和位置等特征，主要是通过投影法手工描迹［2］，近些年才逐渐由光球观测照相替代这一传统方法。每天黑子面积数值表示的是每天出现在全日面上的黑子面积（单位是全日面面积的百万分之一），在一定意义上，它是太阳磁场活动的每日磁流量的数字化表示，也是太阳发电机产生黑子功率的直接表现［3］。将手绘太阳黑子图的工作数字化，能够最大程度地保护这些宝贵数据不被丢失，并且可以方便地快速整合所有观测到的黑子信息，使不同天文台的观测数据信息得到有效的整合与规整化处理，可为太阳黑子活动研究者提供便捷的数据查询和使用服务，这一革新对天文研究的意义是不言而喻的［4-5］。

　　西班牙和比利时是世界上较早开始手绘太阳黑子图像数字化处理工作的，DigiSun和HSUNSPOTS等手绘黑子图像的数字化工具就是由他们研制出来的［6］。我国自上世纪30年代末开始对太阳黑子活动进行相关观测，并将观测结果记录于纸上，到目前为止云南国家天文台已经获取了2万多张如图1所示的太阳黑子手绘图。对于手绘太阳黑子图信息数字化工作即是将图像中手写记录信息提取并保存于数据库中，这一工作的重要环节是对图像背景的提取和分离。

图像 001.png

图像信息数字化的关键在于数字图像的处理算法［7-10］，包括图像RGB空间聚类、图像分割等，背景的有效分割是手绘太阳黑子图像中信息数字化的难点。

　　SVM是经典的机器学习方法之一，在回归处理、模式分类等方面都有明显优势［11］。针对手绘太阳黑子图像信息数字化中的背景分离工作，本文提出一种基于支持向量机的背景提取方法，通过利用LIBSVM图像处理算法将图像中的R、G、B颜色分量进行训练学习，得到最优分类模型，经试验验证，该方法不仅效果显著，而且鲁棒性也很好，自动适应由于年代久远、纸张发生变化给图像带来的模糊效应。

1理论基础

　　支持向量机 (Support Vector Machine，SVM)机器学习方法以统计学的VC理论和构造风险最小化为基本原理。该方法可以基于一定的样本信息，使模型在其实现可行性和模式分类能力之间寻找最佳平衡点，是SLT的一种成功实现［12］，又称为回归机。假设训练样本为(xi,yi)，(i=1,…,n)，其中n为样本大小。采用线性函数对样本进行拟合是最简易的SVM回归分析方法。对于如何解决线性不可分的分类问题，最有效的方法是在高维样本特征空间中建立线性模型，其中的关键是将样本点映射到高维空间的非线性变换，SVM回归机可以表示如下：

QQ图片20170105142307.png

　　式（1）中，ω2是模型复杂度相关因素；C>0代表对误差范围之外样本的抑制力度，即惩罚系数；ε则代表非敏感损失函数，模型中支持向量的个数会受到其取值大小的影响；ξi、ξ*i表示样本与非敏感区域的相对距离，即松弛变量。

　　对于式（1），通常获得原始问题最佳解的方法是通过求解上述模型对偶问题的最佳解：

QQ图片20170105142310.png

　　其中，K(xi+xj)是核函数，满足Mercer条件并且K(xi+xj)=φ(xi)φ(xj)。径向基核（Radial Basis Function，RBF）是普适的核函数：

QQ图片20170105142312.png

　　其中γ=1/σ2，σ>0 是核函数宽度系数。惩罚力度大小C、不敏感程度ε、卷积核及其处理参数的选取，对SVM的分类正确率有较大的影响［13］。

　　K-means是一种无监督的数据划分聚类算法，在预先不知道样本所属类别的情况下，根据样本之间的距离或相似程度自动地进行样本的分类，是一种基于划分的聚类方法［14］。

　　经典的K-means算法中，使用每个样本与每个样本区中心点之间误差的平方和最小为准则来建立映射关系。假设待分类的样本集合为D={xj}nj=1，xj∈Rd，K-means划分算法的目的就是将样本数据集合划分为k(k

　　FCM采用隶属度矩阵来确定每个样本属于某个分类的程度［15］。假设样本数为n个向量xi(i=1,2,…,n)组成的模糊组，将其分为c个区域中心，使得非相似性指标函数的值达到最小。

2数据样本采集及特征向量构造

　　2.1数据样本采集

　　早先的太阳黑子观测是记录在特定的纸张上的。特定的绘制纸张是印刷出来的，上面有固定的表格和文字信息等，如图2所示。为了更好地进行图像的下一步分割操作，首先需要将图像中的印刷部分提取出来，也就是图2所示部分。

图像 002.png

　　将图2中的图像进行二值化处理，即可得到每个像素样本的类别信息。手绘太阳黑子图像中，对于每个像素点，都是一个特定样本，其R、G、B值即是其特征值，那么，对于每个像素样本而言，其特征向量即为X=［RGB］。

2.2特征向量构造

　　手绘太阳黑子图像的背景提取中，每个像素点都是一个待分类的样本，由此，构造样本的特征向量为：

QQ图片20170105142316.png

　　其中，n为图像中像素的个数。假设图像为M×N×3的矩阵，那么n=M×N。在SVM模型训练过程中，需要输入样本的监督向量。由此，建立监督向量为：

QQ图片20170105142318.png

　　其中，当Xi为前景像素点时，yi=+1；当Xi为背景像素点时，yi=－1。

　　SVM可以使用少量样本来对大量实体对象进行分类［16-17］。因此，本文随机选取原图像素中的2万个点进行训练，然后使用得到的模型对图像进行前景与背景的提取。

2.3SVM问题求解机制

　　SVM比较擅长于二分类问题的求解，本问题正属于二分类问题。假设待分类的N个样本组成的集合为：xi,yiNi，并且yi=+1,－1，这里，可以将构造的样本特征向量X i看作是xi，而Y i即是yi。其中xi是一个n维向量，这里n=3，yi是向量所属的分类类别信息。

　　SVM使用一个超平面将样本进行分类：

QQ图片20170105142321.png

　　其中，w是输入向量，x是自适应权重向量，b是偏置量。求解过程中，最大化边界2/w2获得最优分界面参数w和b，设定约束条件为：

QQ图片20170105142324.png

　　引入拉格朗日系数，获得对偶问题有效解：

QQ图片20170105142327.png

　　满足条件：

　　αi≥0,∑mi=1αiyi=0

　　将内积形式数据点映射到希尔伯特内积空间：

QQ图片20170105142330.png

　　其中，K(·)是核函数。

　　由此可将式(9)化为：

QQ图片20170105142333.png

　　由此可得到SVM分类器为：

QQ图片20170105142336.png

　　其中，

QQ图片20170105142339.png

　　是SVM分类面上的决策表达式。

3手绘黑子图像背景提取实验结果及分析

　　3.1SVM背景提取

　　构造的样本通过训练后得到SVM分类模型，然后对原始图像进行分类处理。

　　图3是背景提取结果的局部显示，图3(a)是原始图像中的局部图，图3(b)是提取出来的背景图像，图3(c)是提取出来的背景黑白显示。

图像 003.png

3.2SVM划分与模糊聚类划分对比分析

　　文中使用中国科学院云南天文台1982年到1992年，以及1995、1997、2000年每年一月份中随机抽取一张共14张手绘太阳黑子图像进行试验，使用Kmeans、FCM、SVM等方法分别对图像中印刷体背景进行提取，部分结果如图4所示。

图像 004.png

　　图4中a0、a1、a2、a3、a4分别是1989年1月19日手绘太阳黑子图像原图中的部分图像、手动提取背景信息图像中相同位置部分图像、Kmeans聚类提取背景信息图像中相同位置部分图像、SVM提取背景图像中相同位置部分图像、FCM提取背景图像中相同位置部分图像；b0、b1、b2、b3、b4，c0、c1、c2、c3、c4则分别是1991年1月9日和1995年1月11日两天不同处理后图像中的局部显示。

　　分别对几种处理方法在处理速度和处理PSNR上进行统计，结果如表1所示，计算PSNR的公式为：

QQ图片20170105142344.png

　　其中，d代表图像像素的位深，8 bit的图像中d=8，MSE是原始图像与处理后图像之间的均方误差，其计算公式如下：

QQ图片20170105142347.png

　　其中，m,n是图像的大小维度，I(i,j)为原图像中的像素点的值，P(i,j)为处理后图像中对应点的像素点的值。因此，PSNR值越大，代表处理后图像失真越小。

图像 005.png

由表1可知，SVM提取印刷体背景与人工手动处理得到的背景信息PSNR均值达到56.33，具有高的实用价值，并且处理速度也在可接受范围内。

4结论

　　K-means与FCM等传统的聚类方法在前景与背景的分离中具有较好的使用价值，但聚类中心不稳定性以及聚类算法复杂性，限制了其应用范围和场景。支持向量机作为有监督的分类网络，可在一次性学习后，得到相关系列分类问题的分类知识表达，并且模型易于推广使用，在手绘太阳黑子图像背景的分离中具有较好的效果，可应用于手绘太阳黑子图像分割的前期处理，以便更好地自动提取和识别图像中的手写记录信息，对于手绘太阳黑子图像信息的提取和数字化具有重要意义。另外，在自然背景下的图像中，对于单色目标的分割也具有较好的适应性。

参考文献

　　［1］刘中和，王瑞雪，王锋德，等. 数字图像处理现状与展望［J］. 计算机时代，2005(9)：6-8.

　　［2］刘学富. 太阳黑子观测［J］. 天文爱好者，1999(6)：24-26.

　　［3］吴立德. 计算机视觉［M］. 上海：复旦大学出版社，1993.

　　［4］李可军，苏同卫，梁红飞. 现代黑子观测的太阳黑子活动周的周期性［J］. 科学通报，2004，49(24)：2511-2516.

　　［5］ Zheng Sheng,Zeng Xiangyun,Lin Ganghua,et al. Sunspot drawings handwritten character recognition method based on deep learning［J］. New Astronomy, 2016,(45): 54-59.

　　［6］朱道远，郑胜，曾祥云，等. 手绘太阳黑子图像手写字符分割方法研究［J］. 微型机与应用，2015，34(20)：33-35.

　　［7］周得水，葛洪伟. 基于贪心算法的快速模糊连接图像分割［J］. 计算机应用与软件，2015，32(8)：201-203.

　　［8］邰滢滢，吴彦海，张利. 基于快速mean-shift聚类与标记分水岭的图像分割方法［J］. 计算机应用与软件，2015，32(8)：184-186.

　　［9］黎远松. 高斯混合模型融合SSC的脑部MR图像分割［J］. 计算机应用与软件，2015，32(7)：70-73.

　　［10］邓娟. 基于灰度向量表示的纹理元集的非监控纹理图像分割［J］. 计算机应用，2005，25(1)：117-118.

　　［11］钟坛旺，林昭语. LIBSVM回归算法在话务预测中的应用［J］. 电信工程技术与标准化，2014(9)：80-83.

　　［12］李冬萍. 基于混沌粒子群优化的SVM分类器研究［J］. 计算机仿真，2010，27(4)：185-187.

　　［13］袁勋，吴秀清，洪日昌，等. 基于主动学习SVM分类器的视频分类［J］. 中国科学技术大学学报，2009，39(5)：473-478.

　　［14］高丽平，周雪燕，詹宇斌. 流行上的非线性判别K均值聚类［J］. 计算机应用，2011，31(12)：3247-3251.

　　［15］徐少平，刘小平，李春泉，等. 基于区域特征分析的快速FCM图像分割改进算法［J］. 模式识别与人工智能，2012，25(6)：987-995.

　　［16］孙少乙，黄志波．一种 SVM 多分类算法［J］．微型机与应用，2016，35(8):12-14，17．

　　［17］高晴，闫德勤，楚永贺，等．基于模糊聚类的 LLE 和 SVM 的人脸识别［J］．微型机与应用，2016，34(6):56-58．