摘 要:为了能够充分地挖掘、分享和重复利用本体中的知识,提出一种基于映射关系的分簇方法,先通过已存在的高质量的本体映射关系,对原本体和目标本体分别进行分簇,再挖掘出实体间潜在的关系。通过实验证明,采用改进的映射方法提高了本体映射的质量,采用具有完善实体关系的映射结果提高了检索系统的准确率和查全率。
关键词:分簇;本体映射;实体关系发现
随着越来越多的本体被开发,以及持续性和高效性的知识访问需求不断提高,本体知识的充分挖掘、分享和重复利用已成为本体库优化的重要研究内容。由于本体的独立开发性,导致在相同或者重叠领域本体中实体的定义和实体间的关系有所不同,即本体间的互操作性较低。本体映射已成为当今本体研究中的热点,它是解决并促进本体间互操作性问题的重要方法。但是要更充分地挖掘、分享和重复利用本体知识,该方法还需要不断地改进和优化。本体映射过程中存在以下两个问题:
(1)基于特征低相似性进行本体映射的质量不高。目前对语义、词汇和结构特性相似度较高的本体进行映射,在一定范围内其映射质量是较高的,但是大部分本体的建模粒度都不相同,导致本体中实体表示的词汇和结构特性都不相同,即本体中实体的特征相似度较低,所以采用基于词汇和结构特征的相似性进行本体映射的质量不高。
(2)映射结果中实体关系不够完善。目前大量本体映射方法在建立了本体映射关系后不会对实体关系进行分析和处理,导致本体映射结果的实体关系不够完善,应用质量较低。
1 相关工作
目前大多数的本体映射方法(例如ASMOV[1-2]和RiMOM[3]等)是基于词汇和结构特征的相似性进行本体映射的,在一定范围内映射质量较高,但当两个本体的建模粒度不相同时,采用基于这些特征相似性进行本体映射的质量就较低。例如,石灰在原本体中包括氧化钙和氢氧化钙,在目标本体中包括煅烧石灰、熟石灰、石灰乳和消石灰,这两个本体中用不同的术语描述相同的信息石灰,采用传统的本体映射方法测量得到的映射准确度低于1%,本体映射时就无法建立实体间高质量的映射关系。为解决这一问题,可以重复利用已存在的高质量本体映射关系,提高本体映射的质量。调查本体映射关系重复利用的目的在于利用多对一或者一对多的实体映射关系实现分簇的过程,从而获取准确的匹配信息。
本文以最新的ASMOV映射系统[4]为基础。它是一种半自动化本体映射过程,联合了元素级和结构级的相似度测量,使用本体中四种不同特征相似度的加权平均值作为实体间的总相似度,采用了语义验证要求遵守的规则来判断是否建立映射链接的技术,以确保建立的映射链接不包含语义矛盾,但是其映射匹配的准确率和查全率还有待提高。针对本体映射过程中存在的问题以及ASMOV在映射匹配质量方面的不足,提出了一种基于分簇的本体映射方法OMMC(Ontology Mapping Method based on Clumping),该方法有助于建立本体间高质量的映射关系,通过高质量的映射关系再进行实体间关系的再发现,从而提高了本体映射的应用质量。
2 基于分簇的本体映射
基于分簇的本体映射的流程是:先将原本体和目标本体分别进行分簇,再将分簇后的原本体和目标本体应用于ASMOV映射系统中的本体映射,主要包括分簇和建立映射链接两个模块。
2.1 分簇
定义1 簇。利用已存在的高质量的本体映射关系,在多对一的映射场景下,一个本体O中的多个实体和另一个本体中的相同实体匹配,则将这多个实体看做是一个簇,本体O可划分为多个簇。
对原本体和目标本体分别进行分簇,原本体和目标本体都被划分为多个簇,得到一个原本体的划分和一个目标本体的划分。以农业领域的本体S和本体T为例,原本体S是PWP(Prism Web Pages)定义的一个中文本体,包含1 028个实体,S和本体PWP1已存在本体映射关系,通过它们之间的映射关系进行分簇,可将S划分为196个簇,S中一个簇的映射关系如表1所示;目标本体T是FAO(Food and Agriculture Organization)定义的一个中文本体,包含2 420个实体,T和本体FAO1已存在本体映射关系,通过它们之间的映射关系进行分簇,将T划分为357个簇,T中一个簇的映射关系如表2所示。
2.2 建立映射链接
对原本体S和目标本体T分别进行分簇,得到了两个稳定性划分PS和PT后,直接进入本体映射匹配阶段,在ASMOV系统中,对本体S和目标本体T采用OMMC方法进行映射的过程如图1所示。
本体映射的核心模块是相似度计算,改进的ASMOV映射过程在相似度计算时要优先考虑在一个簇中的实
运行改进后的ASMOV系统步骤如下:
(1)数据准备。准备好已经分簇的原本体和目标本体。
(2)预处理阶段进行词汇匹配。利用一个词库来计算概念、属性和个体的词汇相似度。
(3)进行相似度计算。包括外部关系、内部匹配和个体匹配相似度的计算,并将计算结果放入相似度矩阵中。
(4)从相似矩阵中提取两个本体中相似度最高的匹配对实体集,依据这些实体集找到对应的簇,建立簇中实体间多对多的映射关系,并放入预映射模块中。
(5)对预映射模块中的映射关系集进行语义验证,即通过一些已定义的规则进行验证并修剪无效的映射关系,且将连接无效映射关系的实体间相似度置零。循环执行步骤(3)~步骤(5),直到本体S或T中所有簇都执行一遍迭代过程。
(6)提取最终的本体映射关系。
3 实体关系的再发现
在建立了高质量的本体映射关系后,连接每一条映射关系的两个实体间都可发现新的关系,主要包括父类关系发现、子类关系发现和等价类关系发现。
规则1 父类关系发现是指若连接一条映射关系的两个实体的父类不同,那么这两个实体的父类可以合并,同时对合并后的父类消除重复,最后这两个实体得到了相同的新的父类集合,依此类推应用于每一条映射关系中。如图2所示,建立实体C4和实体E2的映射关系以后,C4和E2的父类都为C1和E1,若C1与E1重复,那么去除重复后C4和E2的父类都为C1或者E1。
规则2 子类关系发现是指若连接一条映射关系的两个实体的子类不同,那么这两个实体的子类可以合并,同时对合并后的子类消除重复,最后这两个实体得到了相同的新的子类集合,依此类推应用于每一条映射关系中。如图3所示,建立C4和E2的映射关系以后,C4和E2的子类都为C5、C6、C7和E4,若E4与C5、C6和C7其中一个重复,那么去除重复后C4和E2的子类都为C5、C6和C7。
在合并父类、子类及等价类关系时,以T为目标,且需互相说明彼此之间的关系,如果发生冲突,则调用以下冲突处理规则进行解决。
规则 4 类层次结构冲突处理[6]。以目标本体中类层次结构为基准,删除原本体的冲突结构,保证关系合并中类层次结构的完整性。例如在本体S中的C2和C3是等价类,在本体T中的E1是E2的父类,若C2和E1建立了映射关系,C3和E2建立了映射关系,则先合并E2,然后合并E1,本体中C2和C3既是父子关系又是等价关系,此时就存在类层次冲突问题,以本体T层次结构为基准,把C2和C3的等价类关系删除。
4 实验评估
4.1 改进ASMOV前后映射质量比较实验
在ASMOV的测试场景中,逐步对本体S和本体T进行映射检测,获取的参数包括标准配对数x、配对总数量n和配对总数n中准确的配对数r,通过获取的参数值来计算匹配的准确率P和查全率R,其计算公式为P=r/n和R=r/x。经过多次测试改进前后的方法,证明采用OMMC方法得到的映射匹配质量均明显提高,相对于传统方法,在相同条件下采用OMMC方法使得匹配的准确率和查全率均提高了约0.2。比较结果如表3和图5所示。
4.2 关系再发现前后映射结果应用的质量比较实验
本文提出的分簇方法是在已存在的高质量的本体映射关系中发现本体内部结构,即将本体划分为若干个簇。在映射匹配时采用以簇为单位替换以实体为单位的ASMOV方法,建立高质量的本体映射关系,然后对实体关系进行再发现,完善了映射结果的实体关系。将实体关系完善前后的映射结果应用于海量农业信息语义检索系统中,用多组请求信息分别进行检索,比较检索结果的准确率和查全率。
海量农业信息语义检索系统总体框架主要包括本体管理、数据获取、请求管理、请求信息匹配、海量农业信息处理及语义请求客户端6个部分。通过网络爬虫工具采集海量农业信息,并对爬下的网页进行信息的抽取和整理,抽取和整理后的网页可保存在海量农业信息数据库中作为检索时的资源库。为使实验能够更准确和更快速得出结论,选择了整理好的10万个网页作为资源库,运用该系统进行实验的具体步骤如下:
(1)清除本体库中已经存在的本体信息,将本体及映射结果添加到本体库中。
(2)将本体库中的本体信息与海量农业信息相关联,即运行信息标注与词频计算、倒排表建立和农业信息聚类3个模块,并将关联信息存入海量农业信息数据库中。
(3)通过配置文件管理接口设置配置文件信息,如本体库中等价类、父类和子类各自所占的权重等。
(4)启动系统服务器,在用户检索接口输入用户需要检索的信息。
(5)计算检索结果的准确率和查全率。
在建立高质量的本体映射链接后得到映射结果M1,在完善映射结果M1中的实体关系后得到映射结果M2,将M1和M2分别应用于海量农业信息语义检索系统中,运行该系统进行实验,输入多组检索数据,计算检索结果的准确率和查全率,如图6所示。通过比较分析可知,对采用了M2的系统进行检索,得到了较高的准确率和查全率,从而表明了完善映射结果中的实体关系对本体映射应用的重要性。
本文提出一种基于映射关系的分簇方法,首先通过各自已有的映射关系,对原本体和目标本体分别进行分簇,再采用改进的ASMOV映射系统,建立高质量的映射关系,并完善实体间的关系。通过对比采用OMMC方法和传统方法的ASMOV系统的映射质量,可知采用OMMC方法具有一定的优越性,即匹配结果更准确和全面;通过对比完善实体关系前后本体映射结果应用的质量,可知完善了实体关系的映射结果应用于检索系统中,提高了检索系统的准确率和查全率。
参考文献
[1] Jérme Euzenat,MEILICKE C,STUCKENSCHMIDT H,et al.Ontology alignment evaluation initiative:six years of experience[C].Proceedings of the Journal on Data Semantics XV.Berlin Heidelberg:Springer,2011:158-192.
[2] JEAN-MARY Y R,SHIRONOSHITA E P,KABUKA M R. Ontology matching with semantic verification[J].Web Semantics,2009,7(3):235-251.
[3] Wang Zhichun,Zhang Xiao,Hou Lei,et al.RiMOM results for OAEI 2010[C].Proceedings of the 5th International Workshop on Ontology Matching(OM-2010) collocated with the 9th International Semantic Web Conference(ISWC-2010).Shanghai:CEUR-WS,2010:195-202.
[4] ASMOV Results for OAEI 2007[EB/OL].[2012-06-30].http://ftp.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-304/paper12.pdf,2007.
[5] 张钋.基于语义的网络服务匹配机制的研究与实现[D]. 北京:清华大学,2005.
[6] 罗正海.面向语义Web服务的本体合并研究[D].大连:大连海事大学,2009.