基于Lucene的中文是非问答系统的设计与实现
2020年信息技术与网络安全第11期
罗东霞,卿粼波,吴晓红
四川大学 电子信息学院,四川 成都610065
摘要:针对中文是非问句,设计并实现了基于Lucene的问答系统,主要包括问句预处理、索引创建和答案整理三部分。问句预处理部分,引入句法成分权重和命名实体权重改进TextRank算法,得到一种提取问句核心词的方法。在索引创建部分,针对本地的多源数据进行文档融合创建索引,降低数据多样性带来的复杂度。在答案整理部分,对查询索引结果进行答案判决,输出肯定或否定含义的答案。实验结果表明,数据融合能有效减少索引创建耗时,改进TextRank的核心词提取方法准确率明显高于TextRank,系统具有较为不错的性能。
中图分类号:TP391.1
文献标识码:A
DOI:10.19358/j.issn.2096-5133.2020.11.012
引用格式: 罗东霞,卿粼波,吴晓红. 基于Lucene的中文是非问答系统的设计与实现[J].信息技术与网络安全,2020,39(11):74-78.
文献标识码:A
DOI:10.19358/j.issn.2096-5133.2020.11.012
引用格式: 罗东霞,卿粼波,吴晓红. 基于Lucene的中文是非问答系统的设计与实现[J].信息技术与网络安全,2020,39(11):74-78.
Design and implementation of Chinese yes-no question answering system based on Lucene
Luo Dongxia,Qing Linbo,Wu Xiaohong
College of Electronic Information,Sichuan University,Chengdu 610065,China
Abstract:A Chinese yes-no question answering system based on Lucene around Chinese yes-no questions is designed and implemented,and this system includes three parts:question preprocessing,index creation, and answer sorting. In the first part, introducing the syntactic component weights and named entity weights to improve the TextRank algorithm, a method for extracting the core words of the question sentence is obtained. In the second part, the document fusion is created for the multi-source data to reduce the complexity which is caused by data diversity. In the last section, the query index results are judged by the answer,and then the answers with positive or negative meanings are output. The experimental results show that data fusion can effectively reduce the index creation time, and the accuracy rate of the improved TextRank core word extraction method is significantly higher than TextRank, which means the system has good performance.
Key words :yes-no question answering;Lucene;TextRank;core word extraction
0 引言
随着人工智能技术的飞速发展,传统搜索引擎已不能满足用户需求,自动问答系统逐渐成为信息检索领域的研究热点,并具有广泛应用前景[1]。自动问答系统指允许用户以自然语言的形式描述问句,并将简洁答案返回给用户的一种信息检索系统[2]。
近年来,自动问答系统相关的研究和应用十分广泛。2011年,IBM公司的深度问答系统首次将自然语言处理与深度学习结合起来,使得众多机构和企业纷纷效仿。2013年3月,京东上线京东JIMI 客服机器人,提供客户常规咨询服务;2016年10月,百度推出百度医疗大脑,实现健康在线咨询[3]。但目前关于中文自动问答系统的研究多是围绕特指问句,其开放性的回答方式不适用于是非问句的二值答案。例如,对JIMI提问:“京东自营满88包邮对吗?”,JIMI的答案是京东自营商品包邮的详细说明,而非是非问句要求的“对”或“不对”的二值答案。中文是非问答系统的设计与实现,能够弥补目前中文自动问答仅能作答特指问句的不足,帮助用户快速获取简洁的答案,对自动问答系统的研究和应用有着极其重要的意义。
本文利用Lucene设计并实现一种中文是非问答系统,主要工作包括:(1)引入句法成分权重和命名实体权重,改进TextRank算法[4-5],提出一种问句核心词提取方法;(2)针对MySQL、Neo4j和本地新闻文件中的多源数据,提出一种多源数据融合索引创建方法,减少索引创建耗时;(3)查询索引并对索引结果判决,获得是非问句的二值答案。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003183
作者信息:
罗东霞,卿粼波,吴晓红
(四川大学 电子信息学院,四川 成都610065)
此内容为AET网站原创,未经授权禁止转载。