文献标识码:A
DOI:10.16157/j.issn.0258-7998.2015.07.043
中文引用格式:罗亮,龙伟,李富贵,等. HHT在血细胞特征提取中的应用[J].电子技术应用,2015,41(7):154-157.
英文引用格式:Luo Liang,Long Wei,Li Fugui,et al. Application in blood feature extraction with Hilbert-Huang trans-
form[J].Application of Electronic Technique,2015,41(7):154-157.
0 引言
血细胞分析仪是医院检验科、化验室的常规设备之一[1]。血细胞的计数与分类是临床上判断疾病类型和严重程度的重要标准。国内外血液分析仪主要采用电阻抗法对细胞进行判断和识别。电阻抗法主要原理是细胞通过小孔电极产生电压脉冲,由脉冲的个数和幅值对细胞进行计数和分类。国产血细胞分析仪普遍采用模拟电路识别法[2],将电压脉冲信号转化为能触发计数器的方波来实现计数。该方法简单快捷,能适应于基本的临床初诊,但在计数正确度和分类准确度上无法在临床上进一步病理分析和确诊,无法满足高端市场的需求。
类似血细胞信号这种非线性、非平稳、非高斯、非确定性的时变信号,常见的特征提取方法有:短时窗傅里叶变换(STFT)、Wigner-Ville分布、小波变换等[3,4],但这些方法各自均有不足之处,如:STFT容易受窗函数的影响,Wigner-Ville分布受到交叉项的干扰,小波变换的时频分辨率不高且不具备自适应能力。为此,Norden E.Huang等人提出了一种新的信号分析方法——希尔伯特-黄变换(Hilbert-Huang Transform,HHT)[5-8],通过EMD(Empirical Mode Decomposition,EMD) 方法将信号分解为有限个IMF(Intrinsic Mode Function,IMF)的和,对每个IMF进行Hilbert变换得到有意义的瞬时频率,从而给出频率随时间变化的精确表达,进而表示出信号在时间-频率平面上的幅度分布。本文主要研究应用HHT 对血细胞进行特征提取,并在此基础上采用多类分类支持向量机方法实现了多形态血细胞信号的分类识别。
1 血细胞信号分析
根据库尔特原理[9],血细胞通过检测小孔时产生电压脉冲信号,根据脉冲数量得到单位时间内通过细胞的个数。实际检测过程中由于样本浓度、小孔负压、微型气泡等影响,检测到的细胞脉冲形态多样[10],图1(a)是一个细胞通过时的单峰信号,图1(b)是两个或多个细胞同时通过时的M型多峰脉冲信号,图1(c)是单个细胞从检测小孔边缘斜向通过时的“m”型驼峰式脉冲信号。多形态的脉冲信号影响血细胞计数的准确度,因而,在对血细胞信号进行正确分类与识别前,需要对这3种形态的血细胞脉冲信号进行合适的特征分析与提取。
2 血细胞特征提取
2.1 时域特征提取
单纯的脉冲计数容易将M信号和m信号误判为单峰信号,引起脉冲信号的误计或漏计。考虑到M信号和m信号时域特征相似,本小节以M信号为代表对这两种形态的双峰信号建立模型进行特征分析。
图2是一例典型的M信号脉冲波形。α、β分别是第一个脉冲下降时的平均角度和第二个脉冲上升时的平均角度。
根据信号分析结果可知,m信号的谷值较M信号谷值高,且后者的第二个脉冲变化程度较前者剧烈,因此,采用峰谷比和陡度描述两者在时域的差异。
根据上述分析,提取两个脉冲的宽度和高度以及峰谷比和陡度构造M信号的时域特征向量:
2.2频域特征提取
血细胞脉冲信号的时域特征能够有效区分单峰和双峰脉冲信号。本小节主要分析两种形态的双峰脉冲信号的特征差异,提取能够正确区分这两种形态脉冲的特征量。
图3是两种形态的双峰脉冲信号序列,其序列长度和脉冲个数均相同。
对这两种脉冲序列进行经验模态分解[11],得到一序列模态分量,如图4所示。
由图4可见:原始脉冲序列经过EMD分解后得到一序列频率由高到低的模态分量,且越早分解出来的分量频率越高,IMF1分量代表原始信号的最高频率成分,往后依次分解得到次高频、中频、低频成分,最后得到单调的趋势分量。各个分量在同一局部位置上的频率成分和振荡模式均不相同,表明经验模态分解能够充分体现原始信号的所有局部振荡。
对分解后的IMF分量进行Hilbert变换,得到各分量的瞬时幅值和瞬时频率。将幅值表示成时间-频率的分布后,得到原始信号的Hilbert幅值谱(简称Hilbert谱),如图5所示。在Hilbert谱的基础上求得原始信号的边际谱如图6所示。由信号的Hilbert谱和边际谱可以看出,对信号幅值和能量的主要贡献频率主要集中在IMF2~IMF8所表示的的频段上。
血细胞脉冲信号的形态差异和固有特征与其自身的幅值、频率和能量有着密切的内在关联。为了研究两种形态的双峰脉冲信号的差异性,对两者的平均强度、频谱质心、能量贡献率这3个特征量进行了对比分析。设原始信号经EMD分解后得到M个模态分量和一个残余量,其中第i阶模态分量共有N个采样点,则第j个采样点的瞬时幅值、瞬时频率、瞬时强度、瞬时能量分别为aij、fij、Aij、Eij,i=1,2,…,M;j=1,2,…N。
(1)平均强度
平均强度体现了在给定频带范围内信号的幅值特征,反映了信号在频域空间的强度分布。第i阶模态分量的平均强度可定义为:
(2)谱质心
谱质心[12]是信号分析的一个重要特征量,是在给定频带范围内以每个频率成分的能量为权重的加权平均频率,它反映了信号能量与频率成分之间的分布关系。第i阶模态分量的谱质心可定义为:
(3)能量贡献率
能量贡献率表示单个模态分量的能量在原始信号总能量中的比重,它能够体现原始信号的某些固有特征。第i阶模态分量的能量贡献率可定义为:
对图3中的两类脉冲信号进行EMD分解和Hilbert谱分析,求得各分量的平均强度、谱质心、能量贡献率,如图7和图8所示。
信号经EMD分解后一序列IMF分量,其频率是由高到低的。根据IMF分量频率分布规则,图7中沿着X轴从右至左的分量分别是IMF1~IMF8。对比分析两类脉冲信号的分量特征可以发现,前3阶分量m脉冲序列的谱质心和平均强度均低于M脉冲序列;由第4~6阶分量的谱质心和平均强度可以看出,M脉冲序列的模式特征较m脉冲序列突出。由图7可以看出,两类脉冲序列的第2~5阶分量特征有较好的区分度。
图8反映了两类脉冲序列的能量贡献率差异与图7中其平均强度的差异大体一致。M脉冲的能量主要集中在第2~6阶分量中,而m脉冲的能量则主要集中在第2~5阶分量中。
综合上述分析和讨论,两类脉冲序列的特征差异主要体现在第2~5阶分量上,分量的平均强度和能量贡献率均反映了信号在频域里的能量特征。因此,选择第2~5阶的分量谱质心和能量贡献率构成血细胞脉冲信号的频域特征向量:
2.3 血细胞特征向量
结合血细胞脉冲信号的时域特征向量、频域特征向量,可以得到用于区分3种形态的血细胞脉冲信号的14维血细胞特征向量:
3 实验仿真与应用
从项目组自有的临床数据库中随机选择3种形态的脉冲样本各200个,用以构成本研究的样本库,奇数样本用于训练,偶数样本用于检验。采用的分类器是多类分类支持向量机[13],其参数设置如表1所示。
(1)用数据样本库中的奇数样本对已设计好的多类分类器进行训练,用偶数样本对训练好的分类器进行测试,同时使用模拟电路法进行测试对比。表2分析比较了不同识别方法下的3种形态的血细胞脉冲信号的分类结果。
(2)以瑞士奥菲MYTHIC 18仪器为参考,按照《中华人民共和国医药行业标准——血液分析仪》的检验方法,随机选取医院门诊部门200位患者标本,以白细胞(white blood cell, WBC)为例对比采用HHT方法的国产仪器和MYTHIC 18的可比性和相关性,结果见表3。
由表2可以看出,根据HHT方法提取的血细胞特征量,多类分类支持向量机能够对这3种形态的血细胞脉冲信号进行正确分类与识别,分类精度可达94.33%。而模拟电路识别法存在较大的识别误差。由于模拟电路识别法是通过触发器将脉冲波转化为方波来对脉冲信号进行计数,且存在漏计或误计的弱点,它无法反应出血细胞信号的特征,无法正确识别出双峰信号。
由表3则可以看出,使用HHT对血细胞进行特征提取识别能提高血细胞分析仪的可比性和分类相关性。从整体上看,该算法识别准确率相对较高,有效提高了仪器的计数正确度和分类准确度。
4 结语
本文研究了基于HHT 的血细胞信号的特征提取方法。HHT 作为一种新的信号处理方法,在非平稳非线性信号的分析上有着独特的优势。研究表明,HHT 具有局部化特性,分辨率高,适应性好并且实现简单,可用于实时计算,为多形态血细胞脉冲信号的特征提取提供了有力的途径和研究思路。最后的实验结果也验证了HHT方法在特征提取方面的有效性与可行性。
参考文献
[1] 胡少华.加强血细胞分析仪质量控制提高血液检验水平[J].中国实用医药,2012,7(8):255.
[2] 许超.桡动脉超声多普勒血流信号的特征提取及分类研究[D].哈尔滨:哈尔滨工业大学,2008.
[3] 许文荣.临床血液学检验(第五版/本科检验)[M].北京:人民卫生出版社,2012.
[4] 孟庆丰.信号特征提取方法与应用研究[D].西安:西安电子科技大学,2006.
[5] 周小龙.希尔伯特—黄变换在故障诊断中的应用[D].吉林:长春工业大学,2014.
[6] HUANG N E,SHEN Z,LONG S R,et al.The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[C].Proc.R.Soc.A.1998,454:903-995.
[7] HUANG N E.New method for nonlinear and nonstationary time series analysis:Empirical mode decomposition and Hilbert spectral analysis[C].In:Proceedings of SPIE,2000,4056:197-209.
[8] 贾春花.希尔伯特.黄变换及其在信号处理中的应用研究[J].电力学报,2013,28(4):150-151.
[9] 丛玉隆,乐家新,袁家颖.实用血细胞分析技术与临床[M].北京:人民军医出版社,2011.
[10] 张春光,黄民双,陶宝祺.血细胞计数分析仪的信号处理[J].自动化与仪器仪表,2000,89(3):27-29.
[11] 付晓波.经验模态分解法理论研究与应用[D].山西:太原理工大学,2013.
[12] 王娜, 陈克安.分段谱质心特征在水下目标识别中的应用[J].兵工学报,2009,30(2):144-149.
[13] 白鹏,张喜斌,张斌,等.支持向量机理论及工程应用实例[M].西安:西安电子科技大学出版社,2008.