摘 要: 案例检索是案例推理系统中的一个关键过程,是近年来人工智能领域的研究热点之一。案例相似度的计算方法是案例检索的关键技术。将集对分析理论引入目标案例,与案例库中源案例的相似度比较,建立两个比较案例的集对,通过属性的重要度和联系度构建了本体案例检索模型;通过本体的词义扩展解决检索词的多词同义问题,有效提高了不确定性问题的检索精度。实验结果表明,基于集对分析的本体案例检索模型不仅减少了运算量,还提高了查全率和查准率。
关键词: 案例推理;属性联系度;相似度计算;本体;集对分析;语义扩展
0 引言
案例推理[1-2](Case-based Reasoning,CBR)是近年来人工智能领域的一项重要的问题求解和学习推理技术,是通过访问知识库中过去同类问题的求解,从而获得当前问题解的一种类比推理模式。案例推理一般要经过案例检索、案例重用、案例修正和案例存储4个阶段。为了解决问题案例,首先需要从案例库中搜索与所给问题相似的案例,然后对检索出来的案例信息和知识进行重用得到建议解,如果该建议解失败或不满意时需对其进行修正,并将修正后的案例作为新案例存入案例库。
案例检索是案例推理中的关键步骤,在相似性评估环节,最常用的相似性评估方法是通过加权的海明距离[3]和欧几里德距离反函数[4]来计算两个案例的相似度。这些相似性度量方法,只考虑了有确定属性值的情况, 或者将模糊属性简单地与确定性属性同等处理,未考虑案例间的相异及相反因素。以这种度量方式计算案例间的相似度进行案例搜索、匹配的CBR 系统处理复杂问题时,不仅效率低,而且将影响对所获得信息的准确判断,难以根据现有的知识实现新的知识推理,也无法处理推理中的信息不确定性问题,进而降低决策的质量。集对分析[5](Set Pair Analysis,SPA)是在一定的问题背景下,对集对中两个集合的确定性与不确定性以及确定性与不确定性的相互作用所进行的一种系统和数学分析,从同、异、反三个方面研究事物的确定性和不确定性,并引入联系度的公式:u=a +bi+cj来统一描述模糊、随机和信息不完全所致的不确定性,进而分析不确定因素。由于集对分析考虑了系统之间的相异及相反等因素,使得对获取信息的判断更加客观,因而得到较为广泛的应用[6-7]。
为了提高案例检索的效率和决策质量,本文将集对分析理论和方法用于案例间相似性评估,构建了基于集对分析的案例检索数学模型,充分考虑了案例中的不确定信息。通过对中医喘症医案的案例推理应用,充分证实了这种方法能有效提高案例检索的查全率和查准率。
1 案例的属性联系度计算
集对分析是一种处理不确定性问题的系统分析方法,其核心思想是先对两个有关联的集合构造集对,再对集对的特性作同一性、差异性、相反性分析,然后建立集对的同异反联系度。
定义1 集对联系度:根据问题W的需要对集对H的特性展开分析,共得到N个特性,其中在S个特性上具有同一性,在P个特性上相反,在其余的F=N-S-P个特性上既不同一,又不相反,即其性质不确定,则称比值:
S/N为这两个集合在问题W下的同一度,简称同一度;
F/N为这两个集合在问题W下的差异度,简称差异度;
P/N为这两个集合在问题W下的相反度,简称相反度,
用公式表示集对H的联系度。
式中的i为差异度标记,j为对立度标记,但在运算时,i和j又同时作为系数参加运算。规定j恒取值-1,而i在[-1,1]区间视不同情况取值,为简便记也可写成:
显然,在上述定义下, a、b、c三个数满足归一化条件,即a+b+c=1。
为了将集对分析理论引入案例检索,给出以下定义:
定义2 案例集对:问题案例q与案例库中每一个案例p间存在一定的映射关系,构成案例集对。并且用(q,p)表示两者构成的案例集对。
定义3 案例集对的属性集对:问题案例q与案例p关于同一属性的属性值构成案例集对的属性集对。
例如,假设案例集对(q,p)与n个属性有关,分别为x1, x2,…, xn,案例q与案例p关于这n个属性的属性值分别为xq1, xq2,…, xqn和xp1, xp2,…, xpn ,则(xq1, xp1), (xq2, xp2),…,(xqn, xpn) 均为案例集对(q,p)的属性集对。
定义4 属性的联系数:每一对属性集对间的联系度表达式称为属性的联系数。
例如,用表达式ul=al+blil+cljl表示案例集对(q,p)关于第l个属性的联系数,因为属性值只有一个,所以表达式只有一项,如果两个案例在第l个属性上具有同一性,则联系数记为:ul=al且al=1,若具有差异性则记为:ul=blil且bl=1。
这样,在计算案例属性联系数时,对于有属性值缺失的情况,根据集对分析理论,认为两者具有差异性,即性质不确定,有效处理了推理中不确定性信息问题。
在本文实证研究的中医喘症案例中,从案例库中获取案例的属性特征,假设与n个属性有关,分别为x1, x2,…, xn,然后将问题案例q与案例库中每一个案例p的n个属性分别进行比较,确定案例集对(q,p)的每一个属性集对联系数:
其中,al表示问题案例q与目标案例p关于第l个属性的同一度;bl表示它们之间的差异度;cl表示它们之间的相反度,且al+bl+cl=1,则问题案例与目标案例间的n个属性集对的联系数分别为:u1, u2,…, un,这是案例相似度计算中非常重要的一部分。
2 构建本体案例的检索模型
2.1 案例的结构存储
目前的CBR系统大多是用静态的框架来描述案例[1,7-8],存在难以扩展、可重构性和学习性差等缺点。而本体[9]作为一种能在语义和知识层面描述概念的知识建模工具,概念化地表达了领域内相关概念和概念之间的关系,确定了共同认可的概念,具有可重用、可共享、语义可扩展等优点,在知识表示领域得到很好的应用[10-12]。虽然在一个CBR系统中主要的知识源是以前的经验集(案例) ,但是在实际应用中,可以把案例所表达的具体知识与一般的领域知识模型 (用本体表示)进行整合,有学者进行了尝试[13-15]。为了实现案例检索属性关键词的语义扩展,提高案例检索查全率,本文的医案采用本体结构的方式进行存储。
参考文献[7]计算联系度时通过加权平均的方法尽量减少权系数的影响,但仍不能去除人为定制权系数的弊端。为了减少人为偏好,本文将案例属性在本体知识库中的层次作为体现属性重要度的一个参考,定义位于上一层的属性比下一层属性有更高重要度。
2.2 案例相似度计算
假设案例集对(q,p)有关的属性x1, x2,…, xn的权重分别为w1, w2,…, wn,则结合式(1)和式(2),得到问题案例q与目标案例p间的案例相似度,记为:
给定合适的i值,可以计算出问题案例与目标案例的相似度值,按照相似度值顺序存入目标案例库,相似度值大于预定阈值的案例即为要找的目标案例。
在有些案例中,特别是医学案例中,由于古医案描述的模糊性,人为的理解差异大大影响了数据的确定性,因此需要考虑相似度的主观性认识。一般原则是:依据同一度A越大越好、对立度C和差异度B越小越好的原则,选取合适的案例。
2.3 案例检索模型的系统架构
图1展示了案例推理中检索词扩展、构造属性集对、属性联系度计算、案例相似度计算的处理过程,其所对应的检索步骤为:
⑴用户输入问题案例q的描述信息,抽取问题背景的关键词;
⑵通过本体知识库进行近义或同义词的扩展,得出问题案例有关的属性集合,从而构造案例集对的属性集对;
⑶对案例库中的每一个案例p应用式(2)和式(3)计算案例集对(q,p)的相似度,如果相似度大于设定阈值,则将其存入目标案例库;
⑷如果目标案例库为空,则可以减小阈值,重复步骤(3),当阈值小到一定程度仍没有目标案例,可以应用本体推理进一步扩展问题背景的属性集合,转步骤(2),否则转步骤(5);
⑸按照相似度值由大到小重排目标案例库。
3 应用实例和分析
3.1 案例的本体片段和相似度计算
本文从中医喘症医案中梳理600多条记录作为案例库,抽取出相关属性,应用Protégé 4.1.0编辑器建立的本体片段如图2所示。
表1所示为从案例库中选取的12个比较有代表性的案例,其中2个作为问题案例,并附有中医专家推荐且结合本体结构的属性权重值。
为了验证本文提出的案例相似度计算方法的高效性,尤其是某些属性信息缺失或不确定情况下对案例的相似度计算影响,分别对问题案例1和问题案例2采用一般相似度(海明距离法)计算和基于集对分析的相似度计算,阈值设定为λ=0.8。计算结果的对比如表2所示。
3.2 结果分析
从表2可以看出,基于集对分析的相似度计算方法具有很好的区分度,对于问题案例1,用集对分析方法计算出大于阈值λ=0.8的案例有4个,用海明距离法有3个,通过观察表1的数据且结合医案的诊断结果,很明显案例7与问题案例1相接近,说明基于集对分析的计算方法更接近事实。且用集对分析计算目标案例与源案例5的相似度值比与源案例9的值大,但是用海明距离法结果却相反,原因可能是案例5属性缺失较多,而集对分析法能有效地处理这些不确定信息。
对于问题案例2,用集对分析法计算出大于阈值的案例有0个而海明距离法有1个,通过观察表1的数据且结合医案的诊断结果,很明显,问题案例2与源案例属性不太接近,而用海明距离法检索出的案例作为参考,就有可能做出错误诊断。由此表明,本文的相似度计算方法比传统的基于海明距离的方法更加有效。
4 结束语
案例推理技术的优势主要体现在不需要完整的领域知识,不需要大量完备的数据,仅需要过去经验中的具体案例即可解决新问题,并具有自学习的功能。本文将集对分析应用于基于案例推理的相似度评估,提出了一种新的相似度计算方法,并实现了检索属性的语义扩展。通过中医喘症医案的应用证明此方法提高了案例检索效率。基于集对分析的本体案例相似度计算方法具有以下优点:⑴本体的应用有效处理了一词多义、多词同义问题,提高了检索的查全率;⑵集对分析考虑了系统之间的相异甚至对立等因素,使得对获取信息的判断更加客观,更加全面,提高了检索算法效率。
下一步的工作重点是以古医案喘症为研究对象,应用Jena推理引擎实现本体规则推理,进一步提高案例检索的查全率。这为案例推理和语义网络的进一步研究和应用提供了理论基础和技术支持。
参考文献
[1] 王东,刘怀亮,徐国华. 案例推理在故障诊断系统中的应用[J].计算机工程,2003,29(12):10-12.
[2] Liu Chenghang, Chen Longsheng , Hu Chunxin. An association- based case reduction technique for case-based reasoning [J].Information Sciences, 2008(17):3347-3355.
[3] Armengol E, Plaza E. Using symbolic descriptions to explain similarity on CBR[J].Artificial Intelligence Research and Development,2005,131:239-246.
[4] Gu Yinshan,Hua Qiang,Zhan Yan. Case-base maintenance based on representative selection for 1-NN algorithm[C].In:Machine Learning and Cybernetics,2003 International Conference on,2003:242l-2425.
[5] 赵克勤. 集对分析对不确定性的描述和处理[J].信息与控制,1995,24(3):162-166.
[6] 王文圣,向红莲,丁晶. 集对分析在水文地质单元相似性选择中的应用[C]. 中国水论坛第四届学术研讨会,郑州,2006:320-323.
[7] 阮光册. 基于SPA案例推理的海关风险识别研究[J]. 情报学报, 2012,31(10):1090-1095.
[8] 李锋刚,倪志伟,郜峦. 基于案例推理和多策略相似性检索的中医处方自动生成[J]. 计算机应用研究, 2010,27(2):544-547 .
[9] Studer R,Benjamins V R,Fensel D.Knowledge engineer,pnnciplesand methods[J]. Data and Knowledge Engineering,1998,25(1-2):161-197.
[10] 蒋宏潮,王大亮,张德政. 基于领域本体的中医知识获取方法[J]. 计算机工程,2008,34(12):16-19.
[11] 阎红灿, 李敏强, 任蕴丽, 等. 结构和内容联合提取的XML网页分类研究[J]. 天津大学学报(社会科学版),2009,11(5):272-276.
[12] 黄风华, 晏路明. 基于Jena的台风灾害领域本体模型推理[J]. 计算机应用,2013,33(3):771-775.
[13] 徐桂臣. 基于本体的医学案例推理研究[D]. 杭州:浙江工业大学, 2011.
[14] 王海棠,顾君忠,杨静,等. 基于本体的相似性计算实现高性能案例推理[J]. 计算机时代, 2009(1):58-60.
[15] 谢红薇,李建伟. 基于本体的案例推理模型研究[J]. 计算机应用研究,2009,26(4):1422-1424.