一种基于Rough本体的语义搜索引擎模型

更新时间:2023-06-02 13:17:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

基于本体的搜索引擎

软件时空

文章编号:1008-0570(2008)08-3-0180-03

中文核心期刊《微计算机信息》(管控一体化)2008年第24卷第8-3期

一种基于Rough本体的语义搜索引擎模型

AModelforRoughOntology-basedSemanticInformationRetrieval

(1.南昌大学信息工程学院计算机科学与技术系;2.南昌大学软件学院)

胡军

1,2

李志露

HUJunLIZhi-lu

摘要:基于关键字匹配的搜索引擎无法反映Web信息在现实世界中的语义,由此不可避免地导致查准率和查全率低的缺陷;另一方面,目前本体支持的形式化概念还不足以表示不完备知识。因此本文结合Rough本体理论,提出了一种基于Rough本体的语义搜索引擎模型,讨论了模型设计和实现其中的若干关键技术,最后对模型的实现技术进行概述。关键词:Rough本体;信息检索;关联搜索;检索模型

文献标识码:A中图分类号:TP393

术创新

Abstract:Traditionalinformationretrievalcan'tusethesemanticofthewebinformation,sothelowprecisionandrecallareun-avoidable,andconceptualformalismsupportedbyanontologyisnotsufficientforhandlingincompleteinformationconfrontedinrealworldknowledge.Totacklethisproblem,thepaperproposeamodelforroughontology-basedsemanticinformationretrievalbycom-biningtheroughontologytechnology,thendiscussdesignofthismodelandkeytechnology,andintroducetechnologyofimplementa-tionbrieflyatlast.

Keywords:Roughontology;Informationretrieval;Associationsearch;Retrievalmodel

1前言

目前的搜索引擎滞后于网络信息的变化且搜索范围有限,因而无法适应语义搜索引擎的要求,这就要求对现有的搜索引擎进行内部改造或引入新的检索机制。近年来,语义Web的提出为实现语义搜索引擎带来了契机。本体作为语义Web的核心,基于本体的信息检索成为研究的热点并取得一定的成果,它们的目的都是通过从语义Web上获取的数据来增强并改进传统的搜索结果,实现本体层次的检索,突破关键词检索局限于形式的固有缺陷。但是本体不可能在有限的表达中穷尽其词语的语义,因此本体所表达的知识是不完备的。Rough集理论是一种处理不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息。SyoheiIshizu等人提出利用Rough集来扩展本体,并提出了Rough本体的概念,用来表示不完备知识。因而,本体与Rough集的结合将促进网络信息检索系统的发展。本文提出一种基于Rough本体的语义搜索引擎模型,将Rough本体应用到传统的搜索引擎模型中,设计了模型中的主要模块,并实现其中的若干关键技术。

的子集的有限集合,这意味着如果c∈C,则;每个属性都有

它的定义域、值域和关系,即Dom:Q→C,Range:Q→C,对于每个

p∈Q,有,rel(p)可能不是函数,而是关系。

Rough本体的概念实质上是Rough集理论的扩展,吸收了

本体结构可伸缩性的优点,使我们更灵活地应用信息系统。在

Rough集理论中,信息系统(InformationSystem)定义为IS=(O,A,

特V,f),其中O为对象的有限集,也称为全域;A为属性(变量、

性)的有限集,每一个属性a∈A定义一个信息函数,其中Va为a的值所构成的集合,称之为属性a的值域,从而有

在以上定义的前提下,假设本体满足以下三个条件:①属性的定义域相同;②个体是由属性的定义域和值域的并集来划分的;③关系rel(p)是一个函数。即对于每个p∈Q,有U=Dom

(p);令

示Vp的全集;令

,则Vp是个体的有限集,令

定义为

表,由

于每一关系都是函数,因而f是函数。通过以上定义,我们可以将本体表示为信息系统<U,Q,V,f>的形式。但是,本体往往是不满足以上三个条件的,比如说,属性的定义域不同、关系rel(p)的值是空值或者是多值等。为了解决这些问题,就需要对<U,Q

2本体与Rough本体相关技术概述

本体(Ontology)是语义Web的核心组成部分,它是概念模型的明确的规范说明。提出本体概念的目标是通过本体捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。本体可形式化定义如下:

一个六元组Ontology=<U,Q,C,Dom,Range,rel>,其中U为个体的有限集(U={i1,i2,...,im}),Q为属性名的有限集,C为U胡军:副教授博士

,V,f>扩展如下:,即,Pow(U)

表示U的超集。通过这样的扩展,即使关系rel不是函数,也能够对其进行描述。因此,本体信息系统表示成

不的形式。本文主要利用Rough本体相关的概念有:近似空间、可分辨关系、上近似和下近似。

3基于Rough本体的语义搜索引擎模型

本文结合Rough本体技术,提出一种应用在Web中的语义搜索引擎模型,如图2所示。

-360元/:现场总线技术应用200例》

基于本体的搜索引擎

您的论文得到两院院士关注软件时空

基于本体的语义搜索引擎关键在于推理应用,因此利用本体概念的描述逻辑进行相关、相近概念的推理运算是实现基于本体的查询扩展的有效方法。在引入FranzBaader的描述逻辑基础上引入了三个概念集,简述如下:将信息源抽象为一个三元组IS=<O,R,D>,其中O=<T,TD>是领域本体,R是术语的包含关系,D是对象集,D={d(t1),d(t2),...,d(tn)},且念:下位术语集:;等价术语集:

;上位术语集:

。以这三个概念为基础,将其组。经过以上推理步骤可得到一个

,d(ti)为信息源

中以ti为主题进行索引的对象集。以此为基础定义了三个概

图2基于Rough本体的语义搜索引擎模型

整个模型从搜索引擎的功能角度来划分,可分为四个模块:信息查询模块、推理机与Rough本体推理机、本体管理组件、信息收集与处理模块,其中本体管理组件可以利用现有软件及开源环境完成,因此下面将对其它模块做详细讨论。

合为6种模式,本模型的语义扩展机制选取了其中的一种模式,即

个体集,记为Ik0。

3.3.2Rough本体推理机

本文设计Rough本体推理机的推理过程如下:对查询词采用

关键字的方法对索引数据库查询并返回一个文档集,由于文档已被标注了本体语义信息,因此文档集的每个文档都包含了一个个体集;同时,Rough本体推理机根据查询词对本体信息系统OIS进行关联搜索,返回与查询词相关的个体集和属性集,用上一层得到的Ik0扩大返回的个体集,以属性集作为个体全集U的等级关系构造近似空间,这个近似空间是计算相似度的基础;计算文档集和个以下体集的相似度,根据相似度的高低对文档排序并返回给用户。就关联搜索和相似度计算这两部分进行分析。

关联搜索:本体中,如果两个个体直接由一个属性相连接,那么就称这两个个体是直接关联的;而通过一系列个体和属性间接连接起来的两个个体是间接关联的。这些关联关系对于在信息检索中挖掘用户关心的信息起着重要的作用。本文利用个体之间存在关联的特点在本体信息系统OIS中搜索与查询此相关的个体和属性的步骤如下:(1)给定一组查询词,把它表示成一个关键字集合q={ki},搜索与包含q的个体Iq。设Iki={iki}表示个体的内容字段中包含关键字ki的个体集合,这样就得到包含q个体集合集Ik0加入

,进一步扩大

关联iki和ikj的属性,其中

。(2)将推理机推理得到的个体

。(3)搜索

这时要考虑三种情况:。

3.1查询处理模块

用户首先进入搜索引擎信息查询界面,输入查询词,接下来的查询分析处理中主要完成对查询语句的处理,查询分析中包括常用的分词系统、语法分析、句法分析、格式转换等功能模块,经过这些功能模块的处理,最后得到若干个精确的查询语句。其中格式转换主要是把易于人类理解的非形式化的查询语句转换成推理机可以理解的形式化的语法格式,如OWL-QL、RDQL等。

3.2信息收集与处理模块

本模块主要完成对Web页面的收集、标注、索引和构造本

体信息系统,并最终得到元数据索引数据库和本体信息系统。首先在信息收集模块中,利用一定的搜索策略(例如Spider、

Robot)进行原始数据的采集,这些原始的Web页面中包括未标注的HTML页面和已经标注的XML页面,对于没有标注的部

分,要通过本体标注模块结合领域本体库来完成标注,这些标注不仅丰富了文档的内容,而且更方便了计算机对它们实现自动化处理。当文档集合D已经结合领域本体库(知识库)进行了标注,文档中每一个被标注的部分就形成一个个体,并且和本体的类之间形成一种链接关系。本文对文档向量定义如下:

文档dj可以表示成向量

其中,n表示文档集中关键字的总数,m表示个体的总数,wi,j是关键字wi在文档dj的权重,ik,j表示个体ik在文档dj的权重。关键字wi,j权重的计算可以由传统的tf/idf方法来计算:

术创新

①个体i同时包括关键字段ki和kj,即ki和kj之间不构成关联;②个体iki和ikj之间直接由属性p关联,即它们是直接关联的,将这些属性p的全集表示为Qq;③个体iki和ikj之间没有直

接关联的属性,则要寻找在它们之间的间接关联,即是否存在一条连接iki和ikj的关系路径。比如,iki通过属性pa与ii直接关联,记做(iki,pa,ii),同样地(ii,pm,ij)、(ij,pb,ikj),这样通过(ii,pm,ij),iki和ikj之间构成了一条关系路径。如果个体iki和ikj之间构成间接关联,将连接它们之间的个体集和属性集分别表示为Iq′和;(4)得到与查询相关的个体集I0=Iq∪Iq′,属性集Q0=Qq∪Qq′。Qq′

相似度计算:给定个体对象间的一个等价关系,即导致由等价类构成的近似空间的不可分辨关系。在检索时,将文档和查询都表示成相对应的全域U的子集,将它们近似地分类,从而能对它们较精确地比较。Rough集就用不可分辨对象类形成的上近似和下近似来描述,对应了确定属于给定类的最大对象集合和可能属于给定类的最小对象集合。本文采用此近似的方法表示查询相关的个体集I0和采用关键字的方法对索引数据库查询并返回的文档集Dq,然后计算Dq中每一元素dj与I0的相似度。算法具体如下:

输入:个体集I0,属性集Q0;文档向量集Dq;

:360元/年-

freqi,j表示wi在文档dj的词频,N表示文档集合D的大小,

ni表示词项wi在文档集合D中涉及的文档个数。为了方便起见,这里采用了一种简单的方法来判断ik,j的权重:如果个体ik在文档dj有明确定义,则权重ik,j值为1,否则值为0。

由于文档已经包含了丰富的个体及个体之间的关系,因此即可建立本体信息系统。同时索引程序采用某种索引算法对标注过的包含元数据的文档进行索引,从而建立索引数据库。

3.3本体推理机与Rough本体推理机3.3.1本体推理机

在本模型中,推理机就是针对本体的推理,首先接受上一层的查询语句,然后根据推理规则结合本体服务器中的相关本体完成推理任务,输出一个与查询词相关的概念集。本模型利用了Jena提供的API函数编程实现基于Jena的推理,以获得查询概念集。在给定了本体和模型后,Jena推理引擎根据相关的公理、规则获取输入模型的额外断言。PLC技术应用200例》

181-

基于本体的搜索引擎

软件时空

中文核心期刊《微计算机信息》(管控一体化)2008年第24卷第8-3期

输出:经排序的结果文档集Dq′;

Step1:令以属性集Q0为全域U上的一个等价关系,建立近似空间AS=(U,Q0);

Step2:计算I0的Q0-上近似Q0I0、Q0-下近似Q0I0;Step3:while(Dq中每一个文档dj)

计算dj的Q0-上近似Q0dj、Q0-下近似Q0dj;

Step4://计算个体集I0与档集Dq中每一元素dj的相似度

(330031南昌南昌大学信息工程学院计算机科学与技术系)胡军

李志露

while(Dq中每一个文档dj)

计算最后

(330047南昌南昌大学软件学院)胡军

(DepartmentofComputerScienceandTechnology,SchoolofIn-formationEngineering,NanchangUniversity,Nanchang,330031)HUJunLIZhi-lu

(SoftwareCollege,NanchangUniversity,Nanchang330031)HUJun

通讯地址:(330031江西南昌学府大道999号南昌大学前湖校区30栋840室)李志露

(收稿日期:2008.6.3)(修稿日期:2008.8.5)

Step5:根据近似度SIM(dj,I0)的高低对文档Dq进行排序,得到结果文档集Dq′。

(上接第174页)

4模型的技术实现

整个模型在技术上的具体实现,开发软件和平台采用Java和Eclipse,并采用与本体相关的开发软件及JenaAPI来实现。领域本体方面,可参照相关领域标准及词表等,构造表达该领域的一些基本概念以及概念之间的关系,利用本体编辑工具

4结论

算例结果表明,所得功角均值与精确值相当接近,可作为准确值对其它模型下的计算结果进行验证。由于计算功角的协方差时采了线性化模型,协方差仅仅接近精确值,如果想提高功角协方差的精度,需要采用高阶项进行修正。由于采用概率算法求出的功角初值和其它发电机变量与精确值比较接近,在暂态过程中,概率算法的功角运行曲线与精确的功角运行曲线非常接近,这也验证了概率算法的准确性。

本文作者的创新点:以PV电压运行曲线为基础,形成了720种运行方式,用概率潮流结果作为初始条件,计算各个状态变量的均值和协方差,仿真出各台发电机功角运行轨迹,并分别以720种运行方式的每一种运行方式为样本,绘制功角运行曲线,取均值对概率算法进行验证。

技术创新

创建领域本体库,本体可以利用Jena平台向用户提供Protégé

的RDFAPI、OWLAPI实现OWL本体的结构化存储,以三元组方式将领域本体存储于关系数据库MySQL,开发者通过领域本体的URI进行调用。搜索引擎的数据样本可以从Google搜索引擎获取相关领域的Web信息资源,使用标注软件Annotea以人工标注的方式用领域本体库概念标注数据样本,并对其索引,创建本体信息系统与索引数据库;推理机可使用Jena提供的API函数编程实现基于Jena的推理。

5结语

本文将Rough本体技术应用到传统的Web信息检索系统,提出了一种基于Rough本体的语义搜索引擎模型,并着重设计了语义搜索引擎模型的核心部分———本体推理机与Rough本体推理机。该模型与其它基于本体的搜索引擎不同,不仅对用户查询进行语义扩展,找出文档中隐含的语义关系,而且使用Rough集来近似描述文档和本体概念集,进而可以更精确地计算它们的相似度。

文章创新点:本文提出了一种基于Rough本体的语义搜索引擎模型,在此基础上研究并设计了Rough本体推理机。

参考文献

[1]蔡明,张体首.基于本体的搜索引擎研究.微计算机信息.2006,36,249-251.

[2]刘清.Rough集及Rough推理.北京:科学出版社,2001.

[3]BaaderF,McGuinnessD,NardiD,PscheiderP.TheDescrip-tionLogicHandbook:Theory,Implementationandapplication[M].Cambridge:CambridgeUniversityPress,2002.

[4]IshizuS,GehrmannA,NagaiY,InukaiY.RoughOntology:Ex-tensionofOntologiesbyRoughSets.LectureNotesinComputerScience:Vol4557.Berlin:Springer-Verlag,2007:456-462.

作者简介:胡军(1971-),男,汉族,江西临川人,副教授,博士,主研人工智能与电子商务;李志露(1984-),男,汉族,广西贵港人,硕士研究生,主研人工智能与计算机网络.

Biography:HUJun(1971-),Male,theHannationality,Linchuan,Jiangxi,associateprofessor,mainlyengaginginartifi-cialintelligenceandelectroniccommerce.

参考文献

王锡凡,王小璐.电力系统概率暂态稳定性的分析[J].[1]甘德强,

中国电力,1994,27(4):32-35.

马大强.电力系统的概率稳定性分析[J].电力系统自动[2]鞠平,

化,1990,14(3):18-23.

[3]WangKW,TesCT,TangKM.Algorithmforpowersystemdynamicstabilitystudiestakingaccountthevariationofloadpower[J].ElectricalPowerSystemResearchJournal,1998,46:221-227.

方万良,杜正春.现代电力系统分析[M].北京:科学出[4]王锡凡,

版社,2003.

[5]汤涌.电力系统稳定计算隐式积分交替求解[J].电网技术,1997,21(2):1-3.

童建忠.改进欧拉法在电力系统暂态分析中的应用[6]赵艳雷,

和软件设计[J].微计算机信息,2004,20(5):98-99.

作者简介:武东亚(1982-),男,硕士研究生,研究方向为电力系统稳定性分析与控制;王克文(1964-),男,博士,教授,研究方向

为电力系统稳定分析与控制。

Biography:WUDong-ya(1982,3-),Male,Master,Researchinterest:PowerSystemStabilityAnalysisandControl.;WangKewen(1964-),male,Doctor,Professor,Researchinterest:PowerSystemStabilityAnalysisandControl.

(450001河南郑州郑州大学电气工程学院)武东亚王克文(SchoolofElectricalEngineering,ZhengzhouUniversity,Henan,China450001)WUDong-yaWANGKe-wen

通讯地址:(450001河南河南省郑州市科学大道100号郑州大学电气工程学院05级硕士)武东亚

(收稿日期:2008.6.3)(修稿日期:2008.8.5)

-360元/:现场总线技术应用200例》

本文来源:https://www.bwwdw.com/article/yy01.html

Top