文献标识码:A
DOI:10.16157/j.issn.0258-7998.2018.S1.043
0 引言
近年来随着我国电力行业的蓬勃发展,电力现场维护施工的需求也越来越多,而由于现场施工人员违反电力操作流程所造成的电力故障甚至人员伤亡的事件也时有发生。为了加强对电力现场施工人员的科学监管,建立智能化的电力现场安全管控系统势在必行。电力现场安全管控系统把工作票与施工现场拍摄图片视频以及视频会议相结合,电力专家可以在办公室通过工作票随时查阅相应图片和视频或进行现场视频会议及时发现违反电力操作的情况,以监管手段降低事故的发生率。作为智能电网的重要组成部分,电网视频监控系统已广泛应用于变电站的运行、维护和管理等方面[1,2],为电力现场安全管控系统的建立与推广提供了条件。电力现场安全管控系统以视频结合人脸识别的形式进行工作票内现场施工人员的自动签到。然而,现场施工视频较多,施工现场光照条件多种多样,场地背景复杂,如何快速、准确地提取视频现场施工人员脸部区域以便进行进一步的人脸识别仍是一个技术难题。
1 相关研究
近年来,计算机视觉技术在安全验证系统和人机交互系统中的应用技术持续走热。其中,基于人脸生物特征的安全验证技术和基于手势识别的人机交互技术极具代表性。这两项技术都涉及一个共同的过程,即定位脸部或手部区域从而提取形状、纹理等几何特征或统计特征以供分析识别。目前,通过肤色检测技术在影像中定位人体裸露皮肤的区域,以作为人脸和手部检测、分割和跟踪的线索,是较为常用且有效的策略[3]。
可使用的人脸检测系统需要能够有效应对影像中的多种可变因素。这些因素包括成像特性(比如成像尺度、位置、光照、朝向、视角等)、脸部特性(比如眼镜、胡须、表情、化妆品等)、内容特性(比如背景复杂度、人脸数量、遮挡等)等。对于以上可变因素,人的肤色特征是用于人脸检测和手部检测最为鲁棒的特征之一。
对肤色建模旨在构建一系列决策规则用于提取影像中属于人体皮肤部分的像素而排除那些归属于场景中其它成分的目标。现有肤色建模的方法从不同的侧面可以划分不同的类属。比如,文献[4]将有关的肤色特征的模型分为两类:物理模型和统计模型。前者描述影像内容的物理特性,比如皮肤的颜色特性相对于场景亮度的变化关系[5]。后者关注影像中不同颜色的统计分布,具体又可进一步细分为非参数分布模型和参数分布模型[6]。
在统计模型的框架下,肤色分割过程可以描述为利用皮肤区域和非皮肤区域的颜色分布差异,通过一些数值或经验性的规则建立分类器,以区分属于皮肤区域的像素和那些属于背景成分的像素。由于不同颜色空间对于颜色通道通常有着截然不同的定义,肤色的统计模型与颜色空间的选择密切相关。在计算机视觉领域中,RGB颜色空间往往被用作描述颜色分布的参考系。然而由于R、G、B三个通道皆受到亮度效应的影响而非相互独立,以此作为参考系对影像内容进行分析往往其效果并不理想。而亮度与色度分离的颜色空间在人脸和手部检测的应用中更具潜力,研究者们据此做出了许多有益的探索[7-9]。这些研究提出了很多简便的特征用于皮肤检测,随之也带来了一些快速的分类算法以进行像素级的肤色区分。但是,这些算法在算法的鲁棒性方面的表现不佳。另一方面,研究者们也尝试通过监督学习方式进行肤色分割,即通过训练数据估计皮肤色值分布,而不是直接建立直觉模型。由于自然影像中的光照条件往往是未知的,肤色相关变量的参数空间难以预估,这一技术框架下通常采用非参数模型进行肤色模型的建构。比如,建立肤色概率图谱(Skin Probability Map,SPM)[10-11],在不同的颜色空间给影像中的像素分配以概率值。其它具有代表性的方法有贝叶斯的SPM[12-13]、直方图查找表(Histogram Lookup Tables,LUT)[14-15]、人工神经网络[16-17]等。非参数算法的优势在于训练和分类阶段较低的时间复杂度,并且不依赖于肤色值的具体分布形态和颜色空间的选取。然而,非参模型往往需要较高的存储代价,并且其训练过程依赖于训练数据集对总体样本空间的代表性。
随着人们对特定应用背景下模型紧致度要求的提升,参数模型逐渐受到关注。肤色分割参数模型的基本思路是,基于均值、协方差、混合高斯、椭圆边界等特征,在训练样本集上针对皮肤区域的像素拟合特定的分布模型,进而建立决策规则[18-19]。参数模型具有较高的执行效率,并且能够在欠完备数据集上进行训练。然后,此类方法的效果依赖于分布模型的经验性设定,并且忽略非皮肤区域像素的统计特征。因此,这一技术框架下的方法与基于非参数模型的方法相比虚警率(False Positive Rates,FPR)相对较高。
近来,研究者们通过选择理想的颜色空间,以肤色聚类(Skin Cluster)的思路着重对皮肤颜色特征表达能力的挖掘。如果皮肤的颜色模型能很好地适应不同的光照条件,颜色信息可以直接作为判别脸部、手部区域的有效线索。本文以模糊模型建立面向彩色影像的肤色检测方法。该方法结合参数模型与非参数模型优势,既可以拟合经验模型得出简洁的决策规则,又能够以较低的计算代价充分利用训练集内的正例和负例样本。
2 模糊系统
在影像分割过程中,分类器对于理想分割的自动获取过程具有很高的不确定性,具体到肤色分割问题也是如此。对此,借用模糊集理论对“不确定性”良好的表达与操作能力,能够有效提高肤色分割效果。
针对彩色影像以模糊分类器进行分割是一种像素级的分割策略。该策略基于一套模糊规则,分配给待测影像中每个像素以特定的类别标签。模糊规则的提取是通过有监督的训练过程进行,综合利用不同颜色空间的信息。每种颜色空间可以被单独视为一个模糊集,肤色分割过程可被转化为寻找一个恰当的模糊函数,为各像素对于不同类别标签的隶属度进行表达。
针对人脸检测这一具体的应用背景,本文采用XM2VTS[21]人脸数据库来计算归一化颜色直方图。具体来说,从该数据库中抽取200影像,仅以人脸部位皮肤的信息在HSI和YUV两种颜色空间下统计颜色分布直方图,并进行归一化。XM2VTS中包括295个人的脸部影像数据,在为期四个月的采集过程中,每个人各采集八次脸部影像。数据库中的被试来自不同的种族,所有人像的背景物是固定的,但成像过程的光照条件有所变化。训练集脸部皮肤区域的直观效果参见图1。
将训练集所有影像的人脸区域像素在HSI颜色空间进行表达后,相应的归一化颜色直方图统计结果参见图2。其中,图2(a) 展示的是归一化直方图的响应值。可以看出,皮肤区域像素颜色在H、S、I三个通道上的响应值都呈现出明显的高斯形态。
由此可假定归一化直方图响应的拟合函数:
对于背景像素,也即非皮肤区域的像素,本文基于文献[22]中所提出的模型来判别前景、背景过渡区的模糊性。具体来说,待测像素的色值率属皮肤区域的程度是由以下S函数组和Z函数组来确定的:
以上策略同样用于YUV颜色空间。需要说明的是,现有的相关研究认为,对于亮度与色度分离的颜色空间,颜色信息仅包含在色度通道[23],比如HSV空间的S、V通道和YCbCr空间的Cb、Cr通道。而在本文的实验中发现,对于肤色的识别也明显受到影像亮度信息的影响。这一发现促使我们在模糊模型构建的过程中对于HSI和YUV颜色空间综合使用三通道的信息以提升模型效力。对于这两个颜色通道进行归一化直方图响应拟合结果如图2和图3所示。
对Y、U、V通道归一化直方图的拟合同样采用式(3)的方式,并同样建立如式(4)与式(5)的S函数组和Z函数组。由此,肤色分割问题转化为针对两种颜色空间的六个颜色通道求解模糊系统中式(3)、式(4)、式(5)相应的参数。
3 模糊熵模型
对于模糊系统的参数估计问题可以使用最大熵原则求解。而信息领域中,Shannon熵是最常用的工具[24],目前已在影像分割问题上得到广泛的应用[25-26]。对于肤色分割这种影像分割的具体形式,本文以模糊3组分类熵方法处理每种颜色空间。
对应于式(3)、式(4)、式(5)的3个模糊集的概率可以定义为:
对H(αsi,ρsi,γsi,αzi,ρzi,γzi)求解最大化可选择出合适的参数。这一最大化过程遍历所有颜色空间和颜色通道。
通过从XM2VTS[21]人脸数据库中随机抽取200幅影像进行训练获取模糊系统的参数,所获取的分类模型如图4、图5所示。
4 实验和分析
本文实验中共采用3种数据集以验证算法的有效性,具体包括:XM2VTS[21]、VALID[27]、FERET[28]。VALID数据库共包括106张被试的人脸数据,每个被试在为期一个月内经过5次独立的采集。FERET数据库共包含11 338张人脸影像,采集自994个被试, 在本实验中仅采用正面视角的人脸影像。这些数据集各自都囊括了高加索人、亚洲人、非洲人三种典型肤色。每个数据集与XM2VTS经过同样的程序建立训练集,从而优化、确定相应的模糊系统参数。
为了验证肤色分割模糊系统的优越性,实验中采用了两种传统算法进行性能对比,包括:硬分割算法、SPM算法。硬分割算法针对各个颜色通道定义明确的分割阈值以分类人脸像素,相应阈值经由对训练集的观察来选取[29-30]。SPM方法针对各个颜色通道分别建立肤色与非肤色的直方图统计模型,并建立贝叶斯模型[10-19]。实验结果如表1~表3所示。
从表中所展示的实验结果可以看出,肤色分割模糊系统在三个数据库上都取得了很好的分割效果,其像素级的虚警率和漏检率都保持在减低的水平。与传统的硬分割算法和SPM相比,本文的算法具备3%~5%的准确率优势。传统的两种算法在XM2VTS数据库上也取得了不错的效果,但面对VALID和FERET这两种具有更复杂的场景背景和更强光照变化的数据库时,分割效果退化明显。相反,模糊系统在3个数据库上的表现较为稳固,具备很好的鲁棒性。
5 结论
人脸和手势识别技术的成功为智能系统的应用和推广做出了重要贡献,相关的产品吸引了广泛的兴趣和关注。为了得到可靠的识别结果,在影像中快速、准确地定位人脸和手部区域是不可缺少的技术环节。在关于人脸和手部区域定位的相关研究中,基于肤色分割的方法占据极大的比例。肤色分割的挑战主要来自两个主要方面:一是需要应对复杂的影像场景,比如背景复杂度和光照变化导致的成像差异;二是需要具备较低的时间复杂度,以满足作为前置手段的效率需求。本文以模糊系统进行像素级的肤色分割,基于HSI和YUV颜色空间,充分利用亮度和色度信息建立模糊系统。
对比实验表明,肤色分割的模糊系统相对于两者对比算法具有更高的分割精度和鲁棒性,能够有效应对复杂的场景背景且适用于不同的成像光照条件。同时,由于模糊系统的决策规则简洁,在确定系统参数后可以快速实施像素级的分割,能够满足实际应用中对于算法效率的要求。
肤色分割的模糊熵模型在电力现场安全管控系统的应用能降低电力专家工作强度,提高工作效率,减少不必要的工作环节,让专家更专注于现场的具体技术环节,为电力现场安全管控系统的普及应用提供了必要的技术手段。
参考文献
[1] 王磊, 蔡东升, 黄琦, 等. 基于SIP的变电站视频监控平台测试系统的设计与实现[J]. 电测与仪表, 2014, 51(12):87-92.
[2] 任堂正, 杨俊杰, 楼志斌. 无人值守变电站周界光电一体化安防系统设计[J]. 电测与仪表, 2016, 53(12):111-117.
[3] SUN H M. Skin detection for single images using dynamic skin color modeling [J]. Pattern Recognition. 2010, 43(4): 1413-1420.
[4] ZHENG H, DAOUDI M, JEDYNAK B. Blocking adult images based on statistical skin detection [J]. Elcvia, 2004, 4(2): 1-14.
[5] KELLY W, DONNELLAN A, MOLLOY D. Screening for objectionable images: A review of skin detection techniques[C]. Machine Vision and Image Processing Conference. 2008: 151-158.
[6] VEZHNEVETS V, SAZONOV V, ANDREEVA A. A survey on pixel-based skin color detection techniques [J]. In Proc. Graphicon-2003, 2003: 85-92.
[7] CHEN H S, WANG T M, CHEN S H, et al. Skin-color correction method based on hue template mapping for wide color gamut liquid crystal display devices [J]. Color Research & Application, 2011, 36(5): 335-348.
[8] TOMAZ F, CANDEIAS T, SHAHBAZKIA H. Improved automatic skin detection in color images [C]. International Conference on Digital Image Computing: Techniques and Applications, 2003: 419-428.
[9] XIANG F H, SUANDI S A. Fusion of multi-color space for human skin region segmentation [J]. International Journal of Information & Electronics Engineering, 2013, 3(2): 172-174.
[10] BRAND J, MASON J S, ROACH M, et al. Enhancing face detection in colour images using a skin probability map [C]. International Symposium on Intelligent Multimedia, Video and Speech Processing. 2001: 344-347.
[11] XU J, ZHANG X. A real-time hand detection system during hand over face occlusion [J]. International Journal of Multimedia & Ubiquitous Engineering, 2015, 10(8): 287-302.
[12] MA Z, LEIJON A. Bayesian estimation of beta mixture models with variational inference [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2011, 33(11): 2160-2173.
[13] Shirali-Shahreza S, MOUSAVI M E. A new bayesian classifier for skin detection [C]. International Conference on Innovative Computing Information and Control. 2008: 172-172.
[14] Lü W, HUANG J. Skin detection method based on cascaded AdaBoost classifier [J]. Journal of Shanghai Jiaotong University. 2012, 17(2): 197-202.
[15] 余益民, 黄廷辉, 桑涛. 基于Real AdaBoost算法的肤色分割方法[J]. 计算机应用, 2011, 31(12):3370-3372.
[16] 王真. 基于多颜色空间信息融合和AdaBoost算法的自适应肤色建模研究[D]. 济南:济南大学, 2011.
[17] PHUNG S L, CHAI D, BOUZERDOUM A. A universal and robust human skin color model using neural networks[C]. International Joint Conference on Neural Networks. 2001: 2844-2849.
[18] WIMMER M, RADIG B, BEETZ M. A person and context specific approach for skin color classification[C]. International Conference on Pattern Recognition. 2006: 39-42.
[19] AHUJA N. Gaussian mixture model for human skin color and its applications in image and video databases [J]. Proceedings of SPIE - The International Society for Optical Engineering, 1998, 3656(23): 458-466.
[20] ZADEH L A. Fuzzy sets [C]. Fuzzy Sets, Fuzzy Logic, & Fuzzy Systems. 1996: 394-432.
[21] MESSER K, MATAS J, KITTLER J, et al. XM2VTSDB: The extended M2VTS database [C]. International Conference on Audio- and Video-Based Biometric Person Authentication. 1999: 72-77.
[22] MURTHY C A, PAL S K. Fuzzy thresholding: Mathematical framework, bound functions and weighted moving average technique [J]. Pattern Recognition Letters, 1990, 11(3): 197-206.
[23] CHITRA S, BALAKRISHNAN G. Comparative study for two color spaces HSCbCr and YCbCr in skin color detection [J]. Applied Mathematical Sciences, 2012, 6: 4229-4238.
[24] WU Y, ZHOU Y, SAVERIADES G, et al. Local shannon entropy measure with statistical tests for image randomness[J]. Information Sciences. 2013, 222: 323-342.
[25] ABDEL-K S, ISHAK A B, OMER O A, et al. A two-dimensional image segmentation method based on geneticalgorithm and entropy [J]. Optik, 2017, 131: 414-422.
[26] SUSAN S, KUMAR A. Auto-segmentation using mean-shift and entropy analysis [C]. International Conference on Computing for Sustainable Global Development. 2016: 292-296.
[27] FOX N A, O’MULLANE B A, REILLY R B. VALID: A new practical audio-visual database, and comparative results [C]. International Conference on Audio- and Video-Based Biometric Person Authentication. 2005: 777-786.
[28] PHILLIPS P J, MOON H, RIZVI S A, et al. The FERET evaluation methodology for face-recognition algorithms [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000, 22(10): 1090-1104.
[29] ZHANG X N, JIANG J, LIANG Z H, et al. Skin color enhancement based on favorite skin color in HSV color space [J]. IEEE Transactions on Consumer Electronics, 2010, 56(3):1789-1793.
[30] HUANG D Y, LIN C J, HU W C. Learning-based face detection by adaptive switching of skin color models and Adaboost under varying illumination [J]. 2011, 2: 204-216.
作者信息:
王文贤,武立平,马维青
(国网山西省电力公司阳泉供电公司,山西 阳泉 045000)