基于最小相关实体子树的XML关键字查询算法
更新时间:2023-09-11 08:24:02 阅读量: 教育文库 文档下载
- 最小相关成本推荐度:
- 相关推荐
基于最小相关实体子树的XML关键字查询算法
摘要:针对目前xml关键字查询结果中包含了许多无意义的节点的问题,提出了一种语义相关的查询算法。由于xml文档具有半结构化和自描述的特点,通过充分利用节点间的语义相关性,提出了最小最低实体子树(slest)的概念,在这个概念中,关键字之间仅存在物理连接关系;为了捕获关键字之间的idref引用关系,提出基于最小相关实体子树(siest)的算法,并利用最小最低实体子树和最小相关实体子树代替最小最低公共祖先(slca)作为查询结果。实验结果表明,提出的算法能有效提高xml关键字查询结果的查准率。
关键词:最小最低实体子树;最小相关实体子树;xml关键字查询;xml数据库;语义相关性
xml keyword search algorithm based on smallest lowest entity sub.tree interrelated
yao quan.zhu, yu xun.bin*
school of computer science and engineering, xi’an university of technology, xi’an shaanxi 710048, china abstract:
a query algorithm of semantic relevant is proposed in this
paper, with regard to many meaningless nodes contained in the present results of xml keywords retrieval. based on the characteristics of semi-structure and self-description of xml files, the concept of smallest lowest entity sub-tree (slest), in which only physical connection exists between keywords, is put forward by making full use of semantic correlation between nodes. based on smallest interrelated entity sub-tree (siest), an algorithm, in which the result is represented by slest and siest instead of smallest lowest common ancestor (slca), is proposed to capture the idref relation between keywords. the result shows that the algorithm proposed in this paper can increase the precision ratio of xml keywords retrieval.
a query algorithm of semantic relativity was proposed in this paper, with regard to many meaningless nodes contained in the present results of xml keywords retrieval. based on the characteristics of semi.structure and self.description of xml files, the concept of smallest lowest entity sub.tree (slest), in which only physical connection exists between keywords, was put forward by making full use of semantic correlation between nodes. based on smallest interrelated
entity sub.tree (siest), an algorithm, in which the result was represented by slest and siest instead of smallest lowest common ancestor (slca), was proposed to capture the idref relation between keywords. the result shows that the algorithm proposed in this paper can increase the precision of xml keyword retrieval. key words:
smallest lowest entity sub.tree (slest); smallest interrelated entity sub.tree (siest); xml keyword query; xml database; semantic relativity 0 引言
随着internet的普及,对xml数据的查询迅速增多。因此,如何能够简单并有效地查询xml文档成为一个研究的热点。目前,在xml数据检索方面的研究集中到xml结构化查询和xml关键字查询两个方面。
用户使用结构化查询的门槛较高,除了要了解xml文档结构,还要掌握相应的查询语言,例如,xpath或xquery。用户需要利用这些精确的查询语言来描述自己需要的查询模式,查询系统则会根据用户描述的查询模式返回相应的查询结果。如图1,如果用户想要
找到名为“java”的书的信息,相应的查询路径表达式为“//books/book[title=“java”]”。由于大部分互联网用户并不懂得相应的查询语言和xml文档结构,所以xml关键字查询更适合于普通用户。
xml关键字查询由于其简单易用而受到普通用户欢迎,用户只需要提供有关的查询关键字就可以实现查询。目前,xml关键字查询大多数是以最低公共祖先(lowest common ancestor,lca)概念的改进作为查询结果,比如elca(exclusive lca)、slca(smallest lca)和mlca(meaningful lca),这类方法执行效率较高,但由于没有捕获xml文档中不同节点之间的类似于idref引用关系,导致查询的准确率较低。
xml树中的实体节点和属性节点类似于关系数据库中e.r模型中的实体和属性,为了使查询关键字所对应的xml片段所携带的信息量更多,本文借鉴文献[1]中提出的实体子树的思想,并提出最小最低实体子树(smallest lowest entity sub.tree,slest)的概念,最小最低实体子树很显然比单个节点所携带的信息量多,这不仅能充分表达xml文档中每个节点的语义信息,通过对同一xml树中的不同祖先节点的子节点之间的联系进行分析,更能有效地捕获不同查询关键词之间的语义信息。
1 相关研究
xrank[2]是最早考虑到xml文档的分层和超链接结构及关键词二维接近概念的xml检索系统。xrank是以elca作为返回结果,elca节点是满足以下条件的节点集:删除了以该节点为根的子树中包含了全部关键字的更小子树后,原子树仍包含全部关键字。xrank提出一种基于栈的算法,通过elemrank来衡量xml元素的重要性,但xrank不区分标签和关键字,没有考虑到关键字之间可能存在的语义信息,使得该系统会返回大量无意义的结果。
文献[2-3]中介绍了以slca作为返回结果的三种主流算法indexed lookup eagar(ile)、scan eagar(se)和stack算法。stack算法利用对各关键字节点dewey编码的对比来确定其最小公共祖先,这需要扫描所有的节点,包括对结果不起任何作用的无效节点,在整个计算过程中,需要大量的节点编码的比较操作和编码的入栈与出栈操作,以至于会浪费大量的系统资源。ile算法利用特殊的b+树索引来提高检索效率,在该算法中需要将全部的xml数据保存在修改过的b+树中,实现较为复杂。文献[4]中提出最小子树根节点问题的分层算法,该算法在获取了包含关键字的节点的编码集合后,通过计算对应于不同层次的编码集合的交集,可以得到对应于不同层的slca节点,该算法的效率比前面的算法要高,但其仍然会返回一些不满足用户查询需要的结果。
限制lca这类相关概念的主要因素是它不能捕获xml文档中的语义关系,比如文档内的idref引用关系。例如,在图1中,对于给
定的一组查询关键字q1={proceeding,book,java},用户是想查找书名为java的书的出版信息。在这组查询中,以lca为基础的一系列概念都是返回根节点dblp(0);这是因为在这些查找过程中没有考虑文档节点间的语义关系而扩大了相关节点范围。在查找过程中,proceeding(0.0.0,0.0.1)、book(0.1.0)和java(0.1.0.0.0)会参与计算过程。而实际上proceeding(0.0.0)节点是不需要参与计算的,因为仅仅只有proceeding(0.0.1)和book(0.1.0)之间存在引用关系。
本文针对目前xml关键字查询中缺少对用户语义的捕获,导致返回结果准确率偏低的问题;通过存储xml文档节点间的idref引用关系的方法,从而达到能准确捕获用户的查询意图的目的,并在slca的基础上提出最小最低实体子树的概念,用最小最低实体子树(slest)和最小相关实体子树(smallest interrelated entity sub.tree,siest)代替slca作为查询结果,从而保证查询结果更符合用户的查询意图,能够提高查询的准确率。
正在阅读:
切应力互等定理适用情况有下列四种答案,正确的为( )。 A.纯剪切03-28
战胜困难的办法小学生三年级优秀作文06-13
防止静电通则解析10-18
测量学试卷、习题11-24
2017年静疗专业考试题库71题附答案10-07
现代通信网 - 第三次阶段作业(1)10-14
2016年上半年黑龙江保险公估人精讲:营销管理考试题04-09
2015年一级建造师《水利水电工程》真题及解析.doc04-08
仪器分析复习整理07-11
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 子树
- 算法
- 实体
- 最小
- 关键字
- 基于
- 相关
- 查询
- XML
- 齐心协力 积极应对
- 件数单位代码
- 安徽省示范高中2015届高三物理下学期第三次模拟试卷(含解析)
- 数学八年级下《证明与命题》复习测试题(答案)
- 中值定理与导数的应用1(终)
- 肛裂的治疗方法介绍
- PCSK9 ELISA测定试剂盒说明书
- 某公路施工组织设计
- 谈谈初中英语课堂愉快教学之我见
- 国际商务单证考试复习指导2013 - 图文
- 南京市城市供水企业2013年水质督察情况通报(公共供水企业·第二部分) - 图文
- 按准考号顺序:- 福建省立医院- 首页
- 公园设计说明
- 中国共产党纪律处分条例学习专题一
- 《 游园不值》教学设计
- 2018大学生暑假医院社会实践报告范文3篇
- 中南大学材料科学基础历年试题 - 图文
- 1冠词
- 实验7 动态路由RIP配置
- 1环境与资源保护法学-阶段测评3