摘 要:数据空间的提出旨在解决模式驱动型的数据管理方式中所遇到的瓶颈,并最终解决数据管理所面临的挑战。而其中数据源内容之间的内部关联性成为数据空间研究的重点。从自然语言处理的角度出发,建立描述数据空间的模式实体,并且综合考虑基本刻面和内容刻面的主要内容,提出基于数据空间的数据源内容的关系发现机制,从而为下一步创建索引、浏览、搜索、查询以及其他服务提供良好的基础。
关键词:数据空间;刻面;自然语言处理
计算机网络的飞速发展以及信息化的推进,使得人类面临着巨大的数据量,而且数据的采集、存储、处理和传播依然与日俱增,数据管理也呈现出海量、共享以及多样化等新的特点。这些新特点使得数据管理技术面临着挑战,DBMS无法解决这些挑战,如何对数据进行集成并有效的管理成为当前迫在眉睫的研究课题,数据空间就是在这个大背景下应运而生的。
数据空间[1]的概念由FRANKLIN M、HALEVY A、MAIER D等人在2005年的SIGMOD会议上提出,旨在解决数据空间包含的所有与主体(用户)相关的信息,它不是一个信息集成的方法,而是一种信息共存的措施。数据空间淡化模式,凸显数据,支持多种不同的异质异构的数据源,而且具有pay-as-you-go(演化集成)的特性,强调数据的可关联性和演化性,最终可实现对个人数据的轻量级管理。其中演化集成的思想以及人在数据管理中的主体作用越来越得到关注,对主体人的研究日益成为数据管理技术研究中的重要问题。数据空间强调数据的可关联性,不仅要从用户(主体人)的行为上来获取数据的关联,还要从数据源内容上来获取数据源之间存在的内部关系,对数据源内容关系的发现也成为目前数据空间研究的一个重点难点。本文从自然语言的角度,通过分析数据空间刻面描述模型,对基本刻面和内容刻面进行描述,辅以词语语义相关度的模型,提出一个基于数据空间的数据源内容关系发现机制。
1 相关研究
数据源内容之间的关系发现是数据空间研究的一个重要问题,是创建索引、浏览、搜索、查询以及其他服务的基础。当前的研究前提大多假设已经获得数据之间的关系,但这往往有其局限性,为了解决这个问题,需要提出更加精确的发现数据源之间关系的方法,以便有效地管理数据空间的数据源。参考文献[2]认为采用统一的数据模型来描述数据空间中不同类型的物理数据源是困难的,故而提出一种三层(即物理层、逻辑层、应用数据层)组织结构,文章集中在逻辑数据层,并通过领域本体代表一类数据源资源,从而划分为直接关系和间接关系。参考文献[3]通过关联调整(Reference Reconciliation)来解决数据源复杂信息空间问题,使用基于一个基本框架的算法,通过关联调整传播信息,使用上下文信息、相关实体上的相似性来计算和丰富关联。参考文献[4]提出了使用贝叶斯网络模型来抽取元数据的匹配,通过可能性推理来解决不确定问题,建立数据的关系网,通过元数据匹配来抽取实体之间的关系。参考文献[5]提出了新的分散的语义元数据组织模型SmartStore,利用元数据的语义来增加相关的文件。参考文献[6]通过制定数据源之间联系,并将每个联系集定义为联系轨迹(Association Trail),创建来自不同数据源的无联系数据之间的一个增强的关联图。总之,相关方面的研究也都是基于各自对数据空间的描述而进行的,通过本体或推理模型来发现数据之间的关系。本文基于之前所研究的词语相关度模型,综合分析基本刻面和内容刻面,从而确立数据源内容之间的关系发现机制。
2 刻面内容的关系发现机制
2.1 数据空间数据特点
数据空间的数据源是异质异构的,课题组提出了一个FADSM模型即基于刻面描述的数据空间模型,通过内容刻面以及基本刻面对数据空间进行描述,并分析刻面的内容来发现数据源本身之间的内部关联性。
数据空间个人数据的特点:(1)多样性和异构型。个人数据均来自不同的数据源,如Web、Email、文件系统,数据都存储在不同的位置,需要采取统一的方法来制定异构数据源;(2)个性化。缘于不同的知识背景,使用计算机的不同习惯,以及每个人不同的组织数据的方式;(3)复杂结构。RDBMS都是基于表结构的,但是在PDS中,关系都是基于元组级别的,数据源之间可能都是有关系的。
2.2 数据源描述
本文主要从两个方面来讨论数据源,一个是基本刻面,另一个是内容刻面。
将每个数据源作为一个模式实体来描述,每个数据实体都有一个独立的实体标识符。基本刻面是数据源的主体属性,包括文件名、文件类型、访问频率、目录以及大小等。内容刻面是每个数据源的描述性的主体内容,在课题研究组中已经将内容刻面提取出来。将内容刻面的内容进行分词(应用ICTCLAS软件),分词后进行预处理,去除停顿词、虚拟词、语气词等。基于刻面描述的数据空间中数据源实体的表示如图1所示。
通过对基本刻面和内容刻面的内容进行分析,对内容刻面进行分词预处理,形成刻面内容主题词集合,即代表了该数据源的实体内容;而基本刻面主要考虑其刻面属性。作为实体的类型集合,综合两者构造数据源实体的语义模式,发现数据源的内部关联性即是发现语义实体模式之间的关联机制。图2所示为数据源内容关系发现机制的流程。
2.3 语义模式的建立和匹配
本文采用中科院的ICTCLAS进行分词。对数据源的刻面内容进行分词预处理,去掉一些修饰词、停用词等,所获得的主题词代表了该数据源的核心内容。而刻面属性需要逐一考虑4个属性,对其进行相关的匹配策略。数据源表示为模式实体即[实体标识符,基本刻面,内容刻面]的形式。
语义模式匹配的过程为:(1)考虑基本刻面各刻面属性的匹配程度;(2)过滤掉内容刻面中修饰以及停顿的词语、标点符号、数字、名字等;(3)提取内容刻面的主题词集合以及该数据源所代表的实体类型组成待比较向量;(4)对于基本刻面中 [文件类型,目录,访问频率,大小]等条件进行刻面匹配,以此对基本刻面的说明作为基本刻面的匹配策略;对于内容刻面,比较模式向量中的词语与待比较向量中的每个词语的语义相关度(应用相关度模型)。具体的内容刻面匹配策略如下。
2.3.1 基本刻面相关性匹配
基本刻面属性即一个数据实体的主体属性,能够直接获得,如一篇文档的文件名、路径、大小、修改时间、访问时间等。
鉴于此处在分子中,已经对词语项进行了相关度的计算,而在SVM中,对分母的取模是为了保证整个余弦值的范围在(0,1)之间,而在式(7)中,已经转化为对词语项进行相关度计算了,因此直接使用了点积公式作为计算内容刻面相关度的公式形式,即RSource就是所求的两个内容刻面的相关度值。
2.3.3 数据源内容关系发现机制
将基本刻面和内容刻面的相关性匹配策略结合起来,本文着重以内容刻面中表达的数据源内容来发现关联关系,因而内容刻面所占的权重会比基本刻面对数据源关系发现的贡献率更大,设基本刻面对数据源内容关系发现的贡献率是λ,而内容刻面的贡献率是σ。通过加权值来获得最终数据源内容的关系发现机制,如式(8)所示,其中λ+σ=1且σ>λ。
2.4 讨论与分析
根据以上对数据空间数据源的刻面模型描述以及对基本刻面和内容刻面的主要内容进行考虑,辅助以词语相关度模型计算,可以从理论上分析出获取数据源内容关系发现机制,并以上述的计算模型来表达其关系程度。但是,这个方案存在一些不足之处:(1)相关度的研究存在一些主观上的误差;(2)分词上出现的误差;(3)考虑内容刻面时,其中的许多主关键字没有考虑到人物名词,人物名词对于发现数据空间中数据源之间的内部关系起到很大的作用,本文主要是考虑数据源的具体内容,而未涉及到具体的人物之间的联系,因此对数据源的关系发现有一定的影响;(4)在基于数据空间对数据源内容的关系发现研究上,存在很多不同的方式,本文作为基础性的研究,因而辅以之前的相关度的研究,从而提出这个数据源内容关系发现机制的方案。
数据空间中的数据源都是异质异构的,且基于数据空间,是数据驱动型的管理手段,这些数据源彼此之间的内部关联性发现是数据空间研究的一个重点难点,国外研究方面,数据源内容关系的发现都是通过制定联系或者是参考协调等方法来完成,而本文研究是以自然语言处理中的词语相关度模型作为突破口,提出一个关系机制来发现数据源之间的关系。
今后的工作将继续完善该策略,特别是在考虑到几个不足之处的影响因素中,尽量减少这些因素所造成的误差,以该策略为基础,实现从相关度上进行数据空间中数据源的检索和查询。
参考文献
[1] 李玉坤,孟小峰,张相於.数据空间技术研究[J].软件学报,2008,19(8):2018-2031.
[2] Dong Yanlei,Shen Derong,Nie Tiezheng,et al.Discovering relationships among data resourcesin DataSpac[C].IEEE, 2009 Sixth Web Information Systems and Applications Conference,2009.
[3] Xin Dong.Providing best-effort services in dataspace systems[J].Doctor of Philosophy University of Washington,2007(9):76-81.
[4] Sun Daring,Ma Anxiang,Zhang Bin,et al.Metadata matching based bayesian network in DataSpace[C].Computer Design and Applications(ICCDA),2010:358-362.
[5] Hua Yu,Jiang Hong,Zhu Yifeng,et al.SmartStore:a new metadata organization paradigm with metadata semantic-awareness for next-generation file systems[C].Proceedings of the Conference on High Performance Computing
Networking,Storage and Analysis,Portland,Oregon,USA,2009.
[6] SALLES M A V,DITTRICH J,BLUNSCHI L.Intensional associations in dataspace[C].Data Engineering(ICDE),2010 IEEE 26th International Conference,2010:984-987.
[7] Li Yukun,Meng Xiaofeng.Exploring Personal corespace for dataspace management[C].Fifth International Conference on Semantics,Knowledge and Grid,2009.