文献标识码:A
DOI:10.16157/j.issn.0258-7998.190159
中文引用格式:曾祥坤,张俊辉,石拓,等. 基于主题提取模型的交通违法行为文本数据的挖掘[J].电子技术应用,2019,45(6):41-45.
英文引用格式:Zeng Xiangkun,Zhang Junhui,Shi Tuo,et al. Text data of traffic illegal acts mining based on latent dirichlet allocation model[J]. Application of Electronic Technique,2019,45(6):41-45.
0 引言
目前全球每年有近130万人死于交通事故,另有2 000~5 000万人因交通事故而导致伤残[1]。面对严峻的交通安全形势,对交通事故数据分析挖掘,寻找隐含其中的影响因素,对改善城市交通环境、减少交通事故的发生具有重要意义。
欧美等发达国家早在20世纪70年代已建立了交通事故信息系统,其规范的数据记录模式及配套的数据分析处理技术己达到了较为成熟的水平。我国的交通事故信息系统在数据的规范化及信息挖掘利用方面尚处于起步阶段,公安部交通管理局的交通事故数据库为提高数据的分析和处理效率,多以提供标准化编码的数据为主。针对记录事故发生过程的文本类数据虽然包含大量有用的信息,但由于缺乏有效的挖掘和分析手段,得不到充分的利用。同时,由于受交通民警语言表达差异影响,同一类型交通事故成因描述也不尽相同,只达到语义相同,导致对交通事故规律的研究还停留在定性分析或组成比较的层面上,严重影响了交通事故统计分析的客观性和科学性。己有的研究表明,对文本数据的分析可以挖掘出更多的潜在信息,可用来修正结构化数据分析所得结果的客观性,从而达到更好地服务于事故分析的效果[2-8]。此外,FRANKS B[9]的研究表明,在数据挖掘过程中,70%~80%的时间用于数据的结构化整理,而用来分析数据的时间仅仅占到20%~30%。
本文研究的目的在于更好地挖掘文本数据中的潜在信息,在提高信息识别精度的同时节省信息处理的时间。
1 交通事故文本数据描述
文本预处理是文本挖掘的第一步,也是文本挖掘较为重要且费时的一步。汉语文本的预处理技术主要包括中文分词、特征提取和特征表示。建立一个相对完整的标准化信息描述语义集合是进行文本数据挖掘前的关键[2],本文依据《道路交通事故信息代码》(GA16-2010)[10]标准中提取道路交通事故时间、伤亡人数、事故形态、事故认定原因、交通违法行为等7个属性项目,以验证该语义集合的有效性及可行性,构建了一套综合描述道路交通事故基本信息的标准化语义集合,参见表1。
2 LDA主题模型
随着计算机网络的日益普及,文本数据呈现爆炸式增长,在海量数据中对文本进行分类,成为快速了解舆论信息的一个重要手段,并且被广泛应用到许多领域,包括:数字图书馆、网页分类、垃圾电子邮件过滤等[1]。文本聚类(Text clustering)作为一种无监督的机器学习方法[11],已经成为对文本信息进行有效的组织、摘要和导航的重要手段。其中LDA(Latent Dirichlet Allocation)模型对主题和主题对应的特征词加上了先验分布,是一种无监督的概率主题模型。每个主题下都分布着出现概率较高的词语,这些词都与这个主题有很强的相关性,利用这种相关性能在一定程度上解决一词多义、同义词等问题[2],可以用来识别大规模文本集或语料库中潜藏的主题信息,其效果优于混合主题模型(multinomial mixture)[12-13]等其他主题划分方法。近两年来,国外学者开始将LDA模型用于文献计量领域主题研究并取得了较好的效果[14-18]。同时研究发现,LDA模型在新兴领域潜在主题分析上更能显现优势[15],更加适用于交通事故中所体现的主题分析。因此,本文提出了一种基于LDA主题模型的文本聚类和聚簇描述方法,运用gensim主题建模工具,建立交通事故规律LDA分析模型,挖掘隐藏在交通事故定责统计文本内的不同主题与影响因素之间的关系。
2.1 LDA模型数据处理原理
概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)由BIEI D M、NG A Y和JORDAN M I于2003年提出,是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。它是一种典型的词袋模型,即一篇文档是由一组词构成的,词与词之间没有先后顺序的关系。本文以国家交通事故信息采集规范为依据,以北京市一般程序处理的交通事故数据作为研究对象进行文本数据分析。在LDA模型中,一篇文档生成的过程为:
(1)从狄利克雷分布中取样生成文档m的主题分布,即为第m条交通事故记录的关键词组列表,首先会对主题的分布做一个先验假设(如正态分布或均匀分布),根据假设与取样的契合度,最终找到一个最大似然的分布α。
(2)从主题的多项式分布θm中取样生成文档m第n个词的主题zm,n,用于对似然的分布做验证。
(3)从狄利克雷分布β中取样生成主题zm,n对应的词语分布,k∈[1,K],不断去尝试和逼近真实的分布。
(4)从词语的多项式分布中采样最终生成词语wm,n,m∈[1,M],n∈[1,N],最终得到了更客观的关键词分列表。
综上所述:LDA采用了变分法的原理找到一个近似真实分布的分布,是一个生成统计模型,即:生成分布->统计->再生成分布->再统计……,如图1所示。
2.2 应用LDA模型处理数据结果
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF、LSA、LDA和Word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算、信息检索等一些常用任务的API接口。因此,可根据主题建模的思想,建立车辆交通事故影响因素主题分析模型,根据车辆交通事故影响因素之间的关联度,确定交通事故因素主题,并确定各因素的重要程度,实现对车辆交通事故规律的客观公正评价。使用jieba分词建立开放文本的Word2vec模型,即使用爬虫技术收集互联网上公开的新闻文章文本,以这些文本为依据建立词向量模型,然后删除现有样本数据中的停止词(使用频率较高且对文本主题分析没有帮助的词语)。
本文选用2012年~2018年2月期间北京市一般程序处理交通事故数据中记录驾驶员风险驾驶违法行为(一个交通事故可包含多项驾驶员违法行为)的2万余条文本数据为对象,经过工具包处理后,得到有效样本14 299个,使用Word2vec模型对其进行分词,建立事故因素语料库reason corpus,在reason corpus中记录了词向量的索引编号和出现频次,如图2所示。
使用reason corpus语料库建立LDA 模型,将关键字分布转换为主题分布,即可得到道路交通事故影响因素主题列表。
由于LDA模型是以概率分布的方式建立起的主题模型,因此DA每次运行产生的结果都会略有不同,在样本量较小的情况下,这个问题尤为突出,可以通过增大对样本数据的迭代次数,让模型结果尽可能地客观。通过实验发现,在目前14 299个样本数据的条件下,迭代次数超过100次时,迭代出的结果就不会有太大变化,这里将迭代100次后的主题作为分析结果,如图3所示,图中所表示的主题格式为“相关系数*关键字”。
图3中分析得到的主图结果的排列顺序为:具备更高LDA意义得分的结果更靠前[10]。从结果集中可以通过筛选出相关系数大于0.1的关键字,归纳出如下重要权重关键字:
(1)驾驶、驾驶证、机动车;
(2)变更、车道、行驶、机动车;
(3)车型道、分界线;
(4)超过、中型、汽车;
(5)逆向行驶、机动车;
(6)妨碍、驾车、时有、驾驶;
(7)行驶、非机动车、道路;
(8)20%、未达、10%、载货;
(9)机动车、营运、驾驶;
(10)发生、机动车、故障、事故、按规定、标志。
一共自动生成100个主题模型,这里限于篇幅,仅截取前10个。
2.3 模型评估
Gensim推荐使用Coherence Model用于对主题模型进行评价,该模型评价主题一致性度测量值常用指标有4个:u_mass、c_v、c_uci、c_npmi,这里选用u_mass,因其运行效率高,测试结果如表2所示。在选择25个主题时,u_mass出现极小值,所以聚类出的合理主题约为25个,符合评估条件。
3 交通事故文本数据处理结果分析
提高车辆交通事故预防水平,必须紧紧抓住影响车辆交通事故的优先支配因素,探索行之有效的防范对策。从上述计算结果可以看出,北京地区的车辆交通事故影响因素主要涉及以下方面:是否取得驾驶证、正确变更车道线、逆向行驶和超速等违规驾驶,其中无证驾驶、超速、逆向行驶是目前公安机关重点打击的重要违法行为,分析结果基本与实际相符,具体分析如下。
(1)交通事故主要和驾驶及驾驶证有关(见第1组重要权重关键字)。在交通事故责任认定时主要指无驾驶证、酒后或者醉酒、吸毒驾驶机动车车辆上道路行驶,这类驾驶员缺少正规培训或者思路不清晰,发生交通事故往往伴随超速行为,目前交通事故定责中很少精确测量事故发生时的瞬间车速,常用较保守的利用路面摩擦力方法计算车速。管理部门可以结合实际,监管这类危险驾驶和驾驶证相关的信息,在交通执法过程中对无证驾驶的问题需重点关注。
(2)交通事故主要和变更车道有关(见第2组、3组重要权重关键字)。正确变更车道线是目前造成交通事故的又一主要原因,主要指驾驶员在道路上行驶随意变更车道,由于北京地区交通状况复杂,车道标识成为制约交通安全的一个重点和难点问题,深层次体现在车道标志标线不完善、不清晰导致驾驶员选择道路时产生失误,表象是驾驶员过错,目前交通事故定责中应该直接体现出来,交通事故责任认定书也应该不断完善,增添道路因素责任选项。
(3)交通事故主要与超车有关、逆向行驶、妨碍驾驶有关(见第4组、第5组、第6组重要权重关键字)。主要指不同车辆不遵守交通标线指示,借道行驶或跨越车道行驶,导致交通事故频发,部分深层次原因是一些公交车道时段或者标线设置不合理,部分原因是驾驶员怀有侥幸违法心理风险驾驶。在交通执法的过程中,可以进一步追踪导致驾驶员风险驾驶的更进一步原因,进而从源头上预防交通事故发生。交通事故受时间的影响较大,还可以积累更多的数据,以时间维度分割后,再向下钻取时间维度内的事故影响因素。
后面影响因素在这里就不再继续归纳总结。
4 结论
交通事故统计数据少、事故成因复杂,本文使用文本挖掘理论,借助主题建模工具,建立交通事故LDA模型,分析交通事故统计信息中驾驶员违法驾驶的文本数据,从而得到以下结论:
(1)通过对原有文本信息的文本处理分析,结果表明交通事故信息采集规范中规定的交通违法行为用文本信息表述,可以进一步归类主题,可以对其信息的结构进行优化处理,为进一步的数据挖掘搭建更好的信息处理平台。
(2)对事故系统中文本信息挖掘分析,发现道路设计因素和路面标志标线在交通事故中占有重要的位置,但是事故统计选项内容侧重于驾驶员违法统计,可以对国家交通事故统计的信息予以补充。
(3)构建的一套含有驾驶员识别道路交通标志标线规则、交通事故发生时车速、驾驶员违法心理需求的交通事故信息语义库可作为一个桥梁连接不同的数据库,使交通事故数据库的非结构化的文本信息更加直观和真实,从而提高信息的综合利用价值,为捕捉交通事故特征及研究事故发生机理创造有利的条件。
(4)由于文本信息表达不统一、特征属性不易清楚定义和界定,计算机根据标准语义库来自动识别文本信息时仍会出现遗漏现象,因此在标准语义库的基础上构建同义词词库是增加数据库查询精度的重要手段。未来还可构建使用在线版的主题提取模型,不断完善和丰富词向量空间,使得分词会越来越准确。
参考文献
[1] 宗强.基于数量化理论的道路交通事故预测研究[D].兰州:兰州交通大学,2015.
[2] STIGLIANI I,RAVASI D.Organizing thoughts and connecting brains:Material practices and the transition from individual to group-level prospective sensemaking[J].Academy of Management Journal,2012,55(5):1232-1259.
[3] TILCSIK A, MARQUIS C.Punctuated generosity:how megaevents and natural disasters affect corporate philanthropy in U.S.communities[J].Administrative Science Quarterly,2013,58(1):111-148.
[4] 傅贵.安全管理学——事故预防的行为控制方法[M].北京:科学出版社,2013.
[5] 陈国权,赵慧群,蒋璐.团队心理安全、团队学习能力与团队绩效关系的实证研究[J].科学学研究,2008,26(6):1283-1292.
[6] 钟开斌.从灾难中学习:教训比经验更宝贵[J].行政管理改革,2013(6):35-39.
[7] 胡剑波,郑磊.航空维修安全监察的安全性分层监督控制模型与分析[J].安全与环境工程,2016,23(6):135-142.
[8] 马阿瑾.高速公路交通事故持续时间和影响范围研究[D].西安:长安大学,2013.
[9] FRANKS B.Taming the big data tidal wave:finding opportunities in huge data streams with advanced analytics[M].Hoboken,NJ:Wiley Publishing,2012.
[10] 中华人民共和国公安部.GA 16--2010道路交通事故信息代码[S].北京:中国标准出版社,2010.
[11] 王鹏,高铖,陈晓美.基于LDA模型的文本聚类研究[J].情报科学,2015,33(1):63-68.
[12] 苗蕊,刘鲁.科学家合作网络中的社区发现[J].情报学报,2011,30(12):1312-1318.
[13] MISRA H,YVON F,CAPP?魪 O,et al.Text segmentation:a topic modeling perspective[J].Information Processing & Management,2011,47(4):528-544.
[14] DING Y.Topic-based page rank on author cocitation networks[J].Journal of the American Society for Information Science and Technology,2011,62(3):449-466.
[15] SUGIMOTO C R,LI D,RUSSELL T G,et al.The shifting sands of disciplinary development:Analyzing north american library and information science dissertations using latent dirichlet allocation[J].Journal of the American Society for Information Science and Technology,2011,62(1):185-204.
[16] GRIFFITHS T L,STEYVERS M.Finding scientific topics[J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(Suppl 1):5228-5235.
[17] LI S,LI J,PAN R.Tag-weighted topic model for mining semis tructured documents[C].Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence.AAAIPress,2013:2855-2861.
[18] ROSEN-ZVI M,CHEMUDUGUNTA C,GRIFFITHS T,et al.Learning author-topic models from text corpora[J].ACM Transactions on Information Systems(TOIS),2010,28(1):4.
作者信息:
曾祥坤1,张俊辉2,3,石 拓1,邵可佳4
(1.北京警察学院,北京102202;
2.北京交通大学 综合交通运输大数据应用技术交通运输行业重点实验室,北京100044;
3.北京市公安局公安交通管理局,北京100037;4.马上消费金融股份有限公司,北京100102)