文献标识码:A
DOI:10.16157/j.issn.0258-7998.191130
中文引用格式:杨维. 领域知识融合与共建研究[J].电子技术应用,2019,45(12):47-50.
英文引用格式:Yang Wei. Domain knowledge fusion and knowledge co-construction research[J]. Application of Electronic Technique,2019,45(12):47-50.
0 引言
近年来,随着人工智能和自然语言处理方法的研究进一步深入和应用进一步落地,基于知识图谱的对话系统及其衍生应用在越来越多的场景中开始发挥其作用。国家电网客服中心的人工智能研究中心AI Lab成立后,也就国网客服的相关场景做了很多知识图谱和对话系统的相关研究。当前国网客服对话面临的最大的困难即为传统知识图谱构建方法和架构均需大量相关优质数据支撑,而在实际生产情况下,只存在大量非结构化、清洗困难的异构数据。如何组织和处理这些数据就成为了国网客服的知识图谱构建和对话系统建立的关键挑战。
在解决痛点前,先要明确基于国网客服中心的对话系统[1]和知识图谱的核心需求。在设计知识图谱的架构时,本文考虑了对话类应用对知识图谱[2]的下述需求:
(1)实例关联需求:即语义解析获得了相关解析结果后能够将解析结果和图谱中相应实体、属性、关系等建立映射关系并消歧;
(2)答案获取需求:即根据相应实例、关系和属性等查询相应值和答案;
(3)逻辑推理需求:即基于已知语义信息,根据推理逻辑规则获取精准语义推理或运算结果;
(4)指导对话管理需求:即根据已知语义信息反哺对话管理,基于静态的对话策略和动态的知识内容产生动态、可变化的图谱对话。
前两个需求在传统KBQA[3]的相关研究中,基于RDF/OWL标准的事实图谱,业界一般称为知识图谱,但由于本文需要区分和融合,根据其特征称为事实图谱。事实图谱已经被大量的研究证实了其可用性和实用性,然而这种类型的图谱对推理和指导对话管理的支持性能上均由于其本身知识组织形式的局限性,需要额外人工设计大量的规则,且由于基于预设好的逻辑规则,在灵活性和普适性上都很难有较好的表现。因此大数据时代以来,很多研究从数据出发,基于自底向上的思路,从实际图谱推理和应用的角度做了一些探索,提出了依托事件挖掘算法构建的事理图谱,并利用事理图谱的相关架构在金融、法律等领域实现了一些应用,有很不错的表现,得到了业内研究人员的高度认可。但也不得不承认,由于其本身基于统计学习算法、概率分布计算关系概率,且以抽象泛化后的事理为元数据,因此,实例映射、消歧和答案获取等功能的精准性和可解释性就远低于事实图谱。因此,本文从目标应用即垂直领域任务型对话的角度出发,考虑两类图谱架构的相关特性,结合实际研究和工作中的经验,提出了融合事实图谱和事理的思路,来发挥两类图谱的优势,从而提升任务型对话性能的目标。
1 事实图谱和事理图谱
要解决事实图谱的融合和事理图谱的融合,需要先简单介绍其概念、研究现状等内容。
1.1 事实图谱
事实图谱是一种描述事实知识内容的知识库,一般节点代表概念,边代表概念的相关性质。本文构建标准为RDF/RDFS标准。这两类标准是用来表现万维网上各类资源的信息的一种语言,RDF通过类、属性和值来描述资源。RDF Schema(RDFS)是对RDF的一种扩展,应用程序专用的类和属性必须使用对RDF的扩展来定义。RDF Schema就是这样一种扩展。RDFS不提供实际的应用程序专用的类和属性,而是提供了描述应用程序专用的类和属性的框架。RDFS中的类与面向对象编程语言中的类非常相似,这就使得资源能够作为类的实例和类的子类来被定义。
事实图谱的知识获取有很多成果卓然的研究,从实体级的实体挖掘[4]、实体发现、实体链接,到关系抽取[5],主要目标是找到各类事实知识信息,并将它们按照三元组的结构组织起来,用以描述事物本身性质及其相关关系,在国网客服场景下,利用实际生产中的机房、设备、人员、应用功能、服务等既定事实构建了事实图谱。
图1展示了一个局部场景的事实图谱。
1.2 事理图谱
事理图谱[6]是一种描述事件之间的演化规律和模式的逻辑知识库。从结构上来说事理图谱是一个有向有环图,节点代表事件,有向边代表事件之间的顺承、因果等关系。
事理图谱的构建方法也有不少相关研究,主要是基于大规模事件密集型数据(例如:新闻)的抽取和泛化,并计算相关边的转移概率,最后生成相应事理的拓扑图。因此,在国网场景中,本文将指导性文档中的操作步骤、方法、故障实例等涉及大量实践且事件具有一定逻辑关系的知识内容形成了事理图谱。图2是某业务流程的事理图谱表示。
2 图谱架构和融合方法
在垂直领域下,常常很难有大量事件密集型数据,尤其是基于具体行业、公司场景下,往往只有一些规范性文档、操作手册作为基础数据来源。因此,获得的事理图谱和事实图谱在常规融合的情况下,往往会出现大量孤岛节点,实现不了在对话过程中支撑对话知识的作用。因此,在垂直领域特定场景下的知识融合和知识共建是相互耦合的,需要以专家知识的种子图谱为基础,融合事理图谱,并在融合过程中让事理和事实互相校验互相补充,才能不断丰富图谱内容,保证图谱对整个对话支持[7]的性能。
图谱融合实际上就是节点消歧并建立链接。为了对事实图谱和事理图谱建立相互链接,使之融合成为一个大图谱,本文提出下述架构:
以实体粒度的知识为核心,将语义角色中的实体、谓词、事件等关系链接成网络状态,其中实体称之为概念(concept),通常为名词和领域核心词等事实知识内容,以父类-类-实体的形式来组织上下位关系,概念通过谓词关系链接到相关事件上,具体的类和大类链接到具体泛化事理上。
这样的架构既可以实现从知识图谱中获得的详细的语义信息、实体、详细事件,也可以根据实体上下文关系及其事理的逻辑推理,指导对话管理。
这样架构有下述优点:
(1)最大限度利用问句中的语义信息;
(2)最大限度地利用知识图谱中的上下位信息;
(3)只需要定义较少的事理逻辑推理和上下位逻辑推理,即可实现对对话的引导和跟踪;
(4)能够获取精准的当前语义事件(如:买苹果,而非买水果);
(5)构建过程中实体挖掘、事件挖掘、事件泛化等算法的相互校验提高整个图谱的知识的精准性;
(6)概念相匹配的谓词体系校验语义解析结果,辅助解析结果的重排序。
总言之,这样的框架是从应用的角度出发,从构建过程中融合两类图谱,将更多更精准的关系和语义信息融入知识图谱中,并利用在融合共建中产生的谓词、实体、事件等资源辅助识别、检索、排序等算法。其架构如图3所示。
如图3所示,在事实图谱中,实体和类展现了核心的上下位关系;事理图谱中通过事件到事理的泛化,体现事件的上下位关系。事实图谱中的类和子类通过谓词关系连接到事理图谱中的具体事理中,事实图谱中的实体通过谓词关系连接到具体事件上,将两类图谱有机地连接起来。
所以融合本质就是通过谓词关系,将事理图谱和对应概念的事实图谱链接成一个语义内容和逻辑关系更丰富的知识图谱。显然,融合过程中可以利用已有信息不断补充和反向校验其他信息,所以知识融合的过程也是一个不断互相补充互相完善的过程。
首先,在构建过程中需要一些通用资源,例如:中文动词词典、同义词典、来自于通用知识库(例如:wikipedia、freebase等)的同义词、语义上下位关系等资源。
其次,用以构建的数据源主要是两类,一类是功能文档、产品文档等带有场景和逻辑顺承关系的文档类数据;另一类是问答对话类带有大量领域关键词和谓词逻辑关系的数据。事实图谱和事理图谱的分别建立也都是基于这类数据。
这里主要介绍在已建立了基础的事实图谱和事理图谱,融合和共建新架构图谱的流程:
(1)利用动词词典,构造谓词关系集。
(2)利用事实同义词典,从事理图谱中发现相关实体并筛选。
例如:事实图谱中存在Class=(员工),事理图谱中存在Event=<通知相关人员>,利用同义词“员工:人员,发现,<通知相关人员>-[通知]-(员工)”这样的连接关系,并关联。
(3)孤岛事件中挖掘新实体,并归类新类。
(4)筛选事实-谓词组合,产生新的事件/事理。
例如:事实:(服务器)(交换机)(刀片机)…结合谓词:
“重启”,产生新的事件,<重启服务器><重启交换机>
<重启刀片机>
(5)事件泛化找到新的事理。
例如:事实:(服务器),在Class=设备,<重启服务器>,
泛化为<重启设备>
(6)计算事理间的逻辑关系。
3 研究成果
本文实验基于国网客服人工智能中心和清华大学智能技术与系统国家重点实验室联合构建知识图谱和对应对话系统,其中基础事实图谱数据和事理图谱数据分别由国网培训文档、标准运维解决方案文档、故障分析报告、客服常见问答问题等文档数据构造。实验最后获得如表1所示成果。
图4展示了局部融合图谱。
本文在该知识图谱和清华语义平台的基础上建立了针对客服系统的相应知识管理及对话系统,在客服应答、故障查修、运维状态跟踪等场景下均获得了较好的应用效果。
4 结论
本文提出了一套基于事实图谱和事理图谱融合的新型知识图谱构建框架,该框架不仅包含了相关垂直领域的各类知识信息,还将基础语义信息和推理信息融入其中。该框架构建过程中能够不断链接映射并互相补充,达到图谱动态扩展的目标,有效提高了图谱构建效率,降低了图谱构建的人工成本。最后成功建设了一个较为完善的垂直领域混合型图谱,并在相关问答知识类应用中对其性能进行了较好的验证。
参考文献
[1] MCTEAR M F.Spoken dialogue technology:enabling the conversational user interface[J].ACM Computing Surveys,2002,34(1):90-169.
[2] 代文韬,林诗璐,朱小燕,等.基于知识图谱的保险领域对话系统构建[J].电子技术应用,2019,45(9):18-21,27.
[3] LEE C,JUNG S,KIM K,et al.Recent approaches to dialog management for spoken dialog systems[J].Journal of Computing Science and Engineering,2010,4(1):1-22.
[4] 李刚,黄永峰.一种面向微博文本的命名实体识别方法[J].电子技术应用,2018,44(1):118-120,124.
[5] 金鹏,杨忠良,黄永峰.基于卷积神经网络的诗词隐写检测方法[J].电子技术应用,2018,44(10):114-117,126.
[6] Ding Xiao,Qin Bing,Liu Ting. Building Chinese event type paradigm based on trigger clustering[C].Proceedings of the 6th International Joint Conference on Natural LanguageProcessing(IJCNLP),2013:311-319.
[7] HUANG M,ZHU X,HAO Y,et al.Discovering patterns to extract protein-protein interactions from full texts[J].Bioinformatics,2004,20(18):3604-3612.
作者信息:
杨 维
(国家电网客服中心 信息技术部,天津300000)