摘 要:采用了一种基于SURF的人脸识别方法,其中所提取出的SURF特征向量对于图像的尺度与旋转变化均具有较好的适应性;通过采用LDA算法有效地缩短了运算时间;此外还采用K-means聚类方法对特征向量进行分组处理;最后通过综合图像的局部与全局特征信息便可完成对人脸的分类工作。实验结果证明,最终所获取的LDA-SURF特征向量对于一般图像中人脸的平移、亮度变化、遮挡和噪声等具有良好的不变性。
关键词:人脸识别;SURF;LDA算法;K-means聚类
经过多年研究,人脸识别已经得到了很大发展,而随着在访问控制、信息安全和视频监控等领域的应用需求不断增长,如何更好地解决低分辨率、出现遮挡以及光照、姿态和尺度变化等问题已经成为近几年来研究中的难点与重点[1]。
现在最为传统的识别方法有Eigen Face、Fisher Face和2D-PCA等。其中由LOWE D G所提出的尺度旋转不变性变换SIFT(Scale Invariant Feature Transform)凭借其良好的性能表现而迅速得到关注。由于SIFT特征对描述对象的姿态与大小变化均有很强的适应性[2],因此可以将其应用于人脸识别。目前已经出现了大量的比较优秀的尺度不变算法,SIFT算法具有较好的鲁棒性,但其计算效率低、算法复杂度高;SURF算法的思想与SIFT类似,但是其复杂度有所精简,在参考文献[3]中,通过比较两种特征的性能,最终判断出SURF比SIFT具有更好的性能。本文所采用的人脸识别方法分特征提取与特征分类两步进行,其中特征提取采用SURF特征与LDA降维相结合的方法;而特征分类阶段则通过改进的K-means方法来对特征进行区域划分,然后综合利用区域的局域相似性与全局相似性进行最后的分类。具体流程如图1所示。
1 图像预处理
预处理阶段对于人脸识别的功能实现起着非常关键的作用,这就要求在该阶段中能够去除掉尽可能多的由光照与视角所引起的噪声,并保存图像中尽可能多的有用信息。
首先要对图像进行肤色检测处理,以剔除掉人脸周围的头发、衣服等噪声影响;然后对人脸区域进行直方图归一化与像素值归一化处理,如图2所示。
在人脸图像中,两眼的位置和间距受光照或表情变化的影响是最小的,因此通过对人眼进行准确定位,然后根据人脸器官的分布关系,就可以比较准确地对脸部其他特征进行定位,从而进行尺寸归一化处理,如图3所示。
2 SURF特征介绍
SURF特征作为一种尺度旋转不变特征,其获取过程由检测和描述两步组成,SURF所采用的特征为64维,而不是128维,从而能够在进行特征提取和匹配时更加快速[4]。
为了减少滤波处理的运算量,通过使用盒滤波器来近似表示高斯二阶偏导数,并利用该近似表示对源图像的积分图像进行滤波处理。
在实际计算时,先使用δ=1.2的大小为9×9的近似盒滤波器来构成尺度最小的滤波器,随着尺度的增大,利用这些不同尺度的滤波器来对图像进行滤波处理,并计算出行列式值,从而得出对应的近似Hessian矩阵的行列式分布图,由这些图便可以构成金字塔尺度空间。然后从这些分布图中得到各个尺度下的行列式极值点,由极值点、同尺度下极值点周围的8个点以及前后两个尺度中的18个点组成一个3×3×3的正方体邻域,将极值点与其正方体邻域中的其余26个点比较大小,当极值点的值大于所有这些点时,将该极值点作为候选点。
2.2 兴趣点描述
在确定兴趣点的位置之后,接下来就需要对SURF兴趣点进行描述。参考文献[5]采用Haar小波响应来进行兴趣点描述。图4为滤波计算所使用的水平与垂直方向的Haar小波滤波器。其中,黑白两种颜色区域的值分别为-1与1。
兴趣点描述主要分为主方向确定以及描述向量生成两步进行。参考文献[6]提出了一种确定方向的方法:假设检测该兴趣点时的尺度为s,对以兴趣点为圆心,以6s为半径的圆中的点计算Haar小波响应。然后将x和y方向上的响应值投影到圆形区域之中,从而得出dx与dy的分布图,如图5所示。让π/3的扇形区域围绕圆心旋转,对每个扇形区域中的dx与dy分别求和,利用这两个值能够得到一个方向向量,最终可以得到一个向量集合,其中最长的向量就可作为该兴趣点的主方向。
2.3 SURF特征降维处理
(1)在训练阶段,先从训练样本集合中提取出SURF特征。设Ni(i=1,2,…,C)为从某一类人脸样本中所提取的特征点的数目,因此可以定义矩阵Bi=1,2,…,C),该矩阵的每一行代表一个SURF向量。
2.4 SURF特征分组
在不同图像中,兴趣点的位置与数目往往会有很大区别,因此不能单纯依靠兴趣点在图像中的位置来进行匹配,否则就会出现错误匹配。为了只对人脸图像中物理意义相同的特征点进行比较,采用K-means方法来将人脸图像分为数个子区域,然后将各个子区域分开进行比较。这样就能够较好地解决上述问题。
K均值聚类是一种实时的非监督性聚类算法,其基本原理是通过最小化误差函数来将数据分到K种不同的类别中。但由于传统的均值算法对初始聚类中心十分敏感,聚类中心的不同往往会导致聚类结果有很大的波动性。针对这一缺点,通过综合考虑特征点的密度与距离分布特点,本文选择出相距最远且区域密度为最高的k个点来作为初始聚类中心,这样就可以尽量避免噪声数据的干扰,从而更好地表现数据的分布状况[7]。定义特征点的r邻域为半径为r的圆形区域,特征点之间的距离计算采用欧氏距离,则选择最初聚类中心的算法描述如下。
(1)初始化类的数目k、邻域半径r、以及邻域内所包含点的最小值Pmin。
(2)计算每个特征点的邻域内所包含的特征点的数目,如果大于Pmin,就将该点加入到特征点集合M中。
(3)找出集合M中其邻域内所包含的特征点数目最多的特征点,将该点作为候选的聚类中心P1,并从集合M中去除。
(4)将集合M中距离P1最远的特征点作为聚类中心P2,同样将其从集合M中去除。
(5)继续寻找集合M中与所有候选聚类中心距离和最大的点作为候选中心点,直到找出k个点为止。
对这些聚类中心运用K-means聚类算法,则可以确定出图像的各个子区域。如图8所示,可以看到图中所标记出的子区域主要位于双眼、鼻子和两嘴角附近,而这些区域正是人脸图像中最具有区分能力的部分。
2.5 特征匹配
经过特征分组处理,人脸图像中的兴趣点将会被分到k个不同的区域Rm中,其中m=1,2,…,k,nk表示子区域Rk中特征点的数目,而fij表示子区域Ri中第j个特征向量。则图像It与Ir的相似性的计算方法如下。
3 实验及其结果
为了对上述人脸识别算法进行测试,通过使用标准CAS-PEAL-R1共享人脸图像数据库来建立训练与测试的样本库,该数据库总共包含有30 863幅人脸图像,这些图像可以分为两个主要的子集:正面与非正面人脸图像子集。这个数据库内容十分全面,其中的图像含有各种表情变化、饰物变化、光照变化、背景变化、姿势变化及视角变化等,而且面部图像的关键点(如眼睛、嘴巴的位置)等比较规范,无需进行归一化和配准等工作。训练样本集中共包含有300人的1 200张图像,通过利用LDA方法来得出训练集的最佳投影矩阵,同时利用K-means方法进行特征区域划分。测试样本集中则包含438个人的2 287张图片。
为了更好地判断算法的性能,利用样本集同时对当前比较流行的KPCA与传统的SURF两种方法进行测试,其中的KPCA方法是指核主成分分析方法,是PCA方法的改进算法,主要是通过选择合适的核函数来在高维空间提取人脸图像的主成分。3种方法识别结果的ROC曲线如图10所示。
为了更好地测试该算法对视频中人脸的识别表现,从2010年FIFA世界杯中的几场比赛视频中提取测试集。视频的分辨率为720×580,帧率为25 f/s,通过从每场比赛视频中抽取那些出现次数较多的球员所在的镜头序列,每个序列将会包含100~200帧人脸图像,最终测试集包含3 000余帧图像。由于视频中存在姿势、光照条件、人脸表情与镜头环境等诸多干扰因素,为了分析识别算法的鲁棒性,将这些测试集分为A、B两个子集。A类中的人脸图像都来自于同一视频,其中人脸的姿势、表情、大小、光照与遮挡情况等改变较小;而B类中的图像则来自于不同的比赛视频,变化较大。具体测试结果如表1所示。
本文主要通过提取人脸的SURF特征来进行人脸识别工作,然后运用LDA算法与改进的K-means算法分别进行降维与区域化处理。从实验结果可以看出,无论对于在实验室条件下所采集的人脸数据库和从视频中所抽取人脸图像,均能取得较好的测试效果,但在环境条件改变较大的情况下,识别正确率仍然不高,有待进一步的研究。
参考文献
[1] BAY H, ESS A, TUYTELAARS T, et al. SURF: speeded up robust features[J]. Computer Vision and Image Understanding, 2008, 110(3):346-359.
[2] SHAKHNAROVICH G, MOGHADDAM B. Face recognition in subspaces[J]. Handbook of Face Recognition, 2004:141-168.
[3] Lei Yunqi, Jiang Xutuan, Shi Zhenxiang, et al. Face recognition method based on SURF feature[J]. International Symposium on Computer Network and Multimedia Technology, 2009:1-4.
[4] An Shan, Ma Xin, Song Rui, et al. Face detection and recognition with SURF for human-robot interaction[J].International Conference on Automation and Logistics, 2009:1946-1951.
[5] Zhao Tuo, Liang Zhizheng, ZHANG D, et al. Interest filter vs interest operator: face recognition using Fisher linear discriminant based on interest filter representation[J]. Pattern Recognition Letters, 2008,(29):1849-1857.
[6] 张锐娟,张建奇,杨翠.基于SURF的图像配准方法研究[J].红外与激光工程,2009,38(1):160-165.
[7] PRABHUET P. Improvising the performance of K-means clustering for high dimensional data set[J]. International Journal on Computer Science and Engineering, 2011:2318-2321.