文献标识码:A
DOI:10.16157/j.issn.0258-7998.191123
中文引用格式:可婷,葛雪纯,张立东,等. 铁路道岔故障的智能诊断[J].电子技术应用,2020,46(4):29-33.
英文引用格式:Ke Ting,Ge Xuechun,Zhang Lidong,et al. An intelligent diagnosis for railway turnout fault[J]. Application of Electronic Technique,2020,46(4):29-33.
0 引言
作为一种重要的铁路信号基础设备,道岔的运行情况与列车的安全运行和运输效率密不可分,一旦道岔运行发生故障没有及时检修,会带来非常大的安全隐患,对人们的生命和财产安全造成巨大损失[1]。因此,实时监控其运行状态并及时处理故障是铁路安全运行的关键问题之一。
目前,我国大部分地区铁路道岔故障的传统检测方法是利用微机监测系统采集道岔转辙机动作时的电流值。图1给出了随着时间变化,道岔转辙机动作时产生的电流变化趋势图。该图可分为切断表示电流、解锁、转换、锁闭、接通表示电流5个阶段。道岔传统的故障检测方式主要是现场工作人员将微机监测系统监测出的道岔动作电流曲线与总结得到的电流曲线进行人为比对,最终确定道岔的工作状态。然而,这种人工识别方式存在3个方面的缺陷:(1)对维护人员的工作经验依赖度较高,容易出现误判或漏判等情况,特别是当道岔故障被误判为正常状态时,会导致未及时采取维护措施,造成无法挽回的损失;(2)在中国高速铁路和客运专线飞速发展的今天,这种单纯靠人工经验判断错综复杂的道岔设备的运行状态需要耗费大量的人力、物力和财力;(3)人工判断效率极其低下,已经完全不能满足经济发展的要求和人民出行的需求。因此,在当今人工智能和中国铁路事业飞速发展的大背景下,研究一种具备学习能力的道岔故障智能识别系统是亟待解决的问题之一。
随着人工智能方法的逐渐成熟和完善,国内外专家学者利用人工智能方法对铁路道岔故障的识别进行了初步的研究,并取得了一些成果。例如,邢玉龙等人考虑外部环境因素,对数据做特殊处理,建立数学模型进行故障检测[2]。然而,该模型和方法的分类性能并不稳定,泛化能力不强。王思明、雷烨和关琼利用支持向量机方法设计不同的求解算法,实现道岔设备的故障诊断[3-4]。钟志旺、唐涛和王峰通过分词算法将故障文档表达在词项特征空间中,并将故障文档表达在主题特征空间上,以SVM算法构造诊断器[5]。DIEGO J和GARCIA M F则是将模糊理论与神经网络结合设计改进算法,用于道岔故障诊断[6-7]。然而,神经网络在训练样本较少时分类性能不佳,会出现过拟合现象。总之,以上方法只有在拥有大量的故障样本(均衡数据)时才具有较好的识别效果。事实上,在实际的运行环境中,每个道岔出现故障的概率十分小,即故障样本远少于正常样本,是一种不均衡问题。此外,不同道岔电流数据维度并不相同,且道岔电流数据往往维度很高,这也会导致以上方法的运算时间较长,不能满足铁路道岔实时检测的要求。
针对以上两个普遍存在的问题,本文提出一种基于不均衡问题的铁路道岔故障智能诊断技术,具体地,包括道岔数据的缺失值补齐、特征提取、道岔智能识别问题的转化、道岔的智能识别技术、识别性能指标的设计等方面的研究。以广州铁路局的道岔数据为实验数据,在环境为MATLAB 2014a,Windows 7,Intel Core i3 2.4 GHz CPU下进行实验模拟。实验结果表明,本文的识别系统在不均衡道岔样本中仍具有很好的识别能力,并具有强泛化能力,且其识别平均时间为0.04 s,满足智能识别的实时性要求。
1 道岔故障智能识别系统
1.1 道岔电流数据特征选择
微机监测采集数据的周期为0.04 s,道岔正常转换时,需要6.4 s~10 s,于是会产生160~250个电流数据;而道岔卡阻时,其转换时间可能长达30 s,甚至更长时间,此时会采集600多个甚至更多的电流数据。因此,这就可能存在两个问题:(1)以道岔动作一次得到的电流值为一个样本向量,那么多次动作将得到多个样本向量,以这些样本向量作为本文的训练样本,发现其维度并不相同,这将大大增加后面的训练难度; (2)道岔卡阻时会产生高维数据,这必然增加模型学习的训练时间,导致道岔故障识别迟缓。因此,本文首先对数据进行预处理,即利用缺失值补零的方式将所有数据补为维度相同的向量。然而,补零操作必会出现高维小样本数据,导致过拟合现象的出现。因此,接下来就需要对高维小样本数据进行特征提取,本文采取主成分分析方法对数据进行特征选择和提取。主成分分析(Principal Component Analysis,PCA)是KARL P发明的一种特征提取技术[8],它对多个样本的输入矩阵求协方差矩阵,根据协方差矩阵的特征值确定方差较大的属性,通过获得累计方差贡献率,选择协方差矩阵相应的特征向量,确定主成分。具体的数据处理步骤如下:
(1)输入:铁路道岔电流的n个样本向量、参数θ;
(2)原始数据预处理:以样本的最高维度m为训练样本的维度,将低于m维的样本进行补零操作,初步得样本如下:
1.2 智能识别问题的转化
一方面,道岔异常可能出现在任何一个阶段,且异常情况极其复杂;另一方面,出现异常道岔的概率较低,即本文得到的训练数据为不均衡数据,正常数据较多,而异常数据极少。鉴于此特点,区别于已有方法,本文将学习问题转化为不均衡分类问题,即设道岔故障电流曲线数据为正类数据,记作x1,x2,…,xp,其标签记为yi=1,i=1,…,p;道岔正常电流曲线数据为负类数据,记作xp+1,xp+2,…,xn,其标签记为yi=-1,i=p+1,…,n。与负类样本相比较,正类数据的错误识别会导致更加严重的后果。因此,本文更看重正类数据的正确识别。本文在已知两类训练样本前提下,通过学习一个决策函数f(x)判断任何新来道岔电流数据x∈Rr×1的所属类别。
1.3 道岔故障识别器
由CORTES C和VAPNIK V开发出来的分类技术[9]——支持向量机(SVM),是以结构风险最小化为原则,将最大间隔思想和基于核的方法结合起来,构建优化模型。在很多实际应用中,该模型都表现出了很好的泛化能力。基于此,为了保证正类样本能正确分类,本文设定正类样本的惩罚参数大于负类样本的惩罚参数,来构建如下非均衡学习的SVM模型:
由此可以推出:
1.4 道岔故障识别性能指标
在学习到一个分类器之后,需要对它的分类性能进行评估。目前,有许多标准来评估一个分类器性能,如:分类精度(分类的正确率)、分类错误率。然而,在铁路道岔故障识别的电流数据中可能有高达98%的情况是正常道岔, 那么一个分类器不做任何分析而简单地把每个数据分成“负类”就能达到98%的精度。显然,分类精度这样的评价准则在铁路道岔识别问题中是毫无用处的。本文更看重铁路故障道岔(正类)的识别情况,受自然语言处理问题及部分监督学习问题[10]的启发,本文设计正类样本的查全率及查准率两个评价标准。具体的定义如下:
式(14)和(15)中各个指标的具体含义如图2所示。
这两个评估标准的直观含义是十分明显的,即更加关注正类样本是否更加准确及全面地识别。然而,由于这两个标准从两个角度说明正类样本的识别性能,并不相关。这时,可以对查全率和查准率求调和平均数,得到新的评价标准,即F值:
该评价标准对故障道岔的识别提出更高的要求,只有查全率和查准率都大时,F值才大;有一个小,F值就不高。
2 数值实验
2.1 实验安排
本文实验数据为广州钟村站的2016年11月28日-2017年6月14日的两种类型铁路道岔电流值,记为W1902#和W1904#。这些数据包括道岔的定位到反位、反位到定位数据(包括故障位)。经过前期的数据缺失值补零预处理及特征提取后,随机取其中的80%作为训练集,剩余的20%作为测试集进行预测。实验重复进行100次,取平均F值即为本文分类器最终的分类性能的评估。
2.2 参数设置
本文取累计贡献率?兹=95%,保证95%的数据信息量不丢失,利用主成分分析进行数据降维。本文采用十折交叉验证方法对偏置-SVM的模型进行选择。十折交叉验证(10-fold cross-validation)[11]是将数据集随机分成10份,轮流将其中9份作为训练样本,1份作为验证样本。惩罚参数C+,C-在集合{2-10,2-9,…,210}中选择。此外,本文采用高斯核K(xi,x)=进行数据分类,核参数?滓在集合{2-10,2-9,…,210}中选择。每组参数在十折交叉验证中得到10个F值,计算其平均F值。本文取最高平均F值所对应的参数为最优参数,同时偏置支持向量机的模型随之确定。
2.3 实验结果
通过MATLAB软件实现对数据的缺失值补零及PCA降维处理后,得到的训练样本如表1所示。其中,#正样本表示异常道岔数据量,#负样本表示正常道岔数据量,#特征表示道岔数据通过PCA降维后的数据维数,#训练(80%)表示随机取80%数据作为训练数据的个数,#测试(20%)表示测试数据个数。通过表1发现在进行数据降维之后,样本的属性个数有明显的下降,从600多降到7~8维,这说明采集到的电流值大部分都是冗余的,没有区分度和实际意义的。
在进行100次的实验运行后,得到W1902#和W1904#道岔检测的平均查全率、查准率及F值,如表2、表3所示。表2说明W1902#道岔的查全率高达0.98以上,平均F值为0.94以上。
表3体现了W1904#极好的效果,平均查全率值高达100%,即本文偏置-SVM智能识别器可以精准检测故障道岔。
3 结论
本文提出了一种铁路智能检测系统,该系统从数据预处理、特征选择、SVM建模到性能评价标准设计这几个方面做了详细的研究,最后针对广州钟村站的道岔电流数据,利用MATLAB软件进行仿真实验。实验结果显示,该智能系统具有强的泛化能力,即在环境复杂变化时仍具有极高的检测效果,同时运行时间为0.04 s,满足实时性要求。
参考文献
[1] 中华人民共和国铁道部.铁路行车事故案例选编[M].北京:中国铁道版社,1999.
[2] 邢玉龙,赵会兵,田健.道岔动作电流曲线的特征提取方法及道岔故障诊断方法:中国,CN105260595B[P].2017-03-15.
[3] 王思明,雷烨.一种基于LS-SVM的道岔控制电路故障诊断[J].兰州交通大学学报,2010,29(4):1-5.
[4] 关琼.基于FOA-LSSVM的高速铁路道岔故障诊断[J].科技通报,2015,31(4):230-232.
[5] 钟志旺,唐涛,王峰.基于PLSA和SVM的道岔故障特征提取与诊断方法研究[J].铁道学报,2018,40(7):80-87.
[6] DIEGO J,PEDREGALA F P,GARCIA F S.RCM2 predictive maintenance of railway systems based on unobserved components models[J].Reliability Engineering and System Safety,2004,83(1):103-110.
[7] GARCIA M F,SCHMID F,CONDE J.Wear assessment employing remote condition monitoring:a case study[J].Wear,2003,255(7):1209-1220.
[8] KARL P.Principal component analysis[J].Chemometrics & Intelligent Laboratory Systems,1987,2(1):37-52.
[9] CORTES C,VAPNIK V.Support-vector network[J].Machine Learning,1995,20:273-297.
[10] KE T,JING L,LV H,et al.Global and local learning from positive and unlabeled examples[J].Applied Intelligence,2018,48(8):2373-2392.
[11] 邓乃扬,田英杰.支持向量机——理论、算法与拓展[M].北京:科学出版社, 2009.
作者信息:
可 婷1,葛雪纯2,张立东1,吕 慧1
(1.天津科技大学 理学院,天津300457;2.北京华铁信息技术有限公司,北京100081)