基于XML的WEB查询技术研究

更新时间:2023-06-03 09:09:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

本科毕业论文、设计《基于XML的WEB查询技术研究》

本科生毕业论文(设计)

论文(设计)题目:基于XML的WEB查询技术研究

系: 信息管理系

专 业 (方 向):信息管理

年 级 班:

学 生 姓 名:

指 导 教 师:

月日

本科毕业论文、设计《基于XML的WEB查询技术研究》

基于XML的Web查询技术研究

xxx

(XXXX学院2003级信息管理专业本科班)

摘 要

WWW是目前使用最为广泛的Internet信息服务系统,它为用户提供了一个搜索和浏览信的工具。但WWW是一个信息的海洋,数亿万计的Web文档散布在世界各地的成千上万个Web服务器上,并且每个服务器自主管理自己的资源,没有一个统一的管理机制。总体状况是,整个网络上资源丰富,内容庞杂,很难实现数据的共享,亦不能进行有效地查询。

XML的出现为解决上述问题提供了理想的解决方案。XML全称为Extensible Markup Language,即扩展标记语言,是SGML(Standard Generalized Markup Language)的一个简化的而又严格的子集,它是特别为Web应用设计的,XML是一个在互联网上进行数据交换的理想工具。

由于XML能够使不同来源的结构化的数据很容易地结起,从而使搜索多样的不兼容的数据成为可能,为解决Web查询问题带来了希围绕着基于XML的Web查询技术涉及到的几个主要问题展开研究与讨论:

1.针对Web上的数据格式差异大、数据来源差别大及当前的数据模型不能很好地描述Web上数据的缺点,研究和探讨了Web上的数据模型--XML数据模型。

本科毕业论文、设计《基于XML的WEB查询技术研究》

2.解决异构数据的集成问题。由于异构数据的集成主要是异构关系数

据库中数据的集成。所以本文采用了基于“中间模式”的方法进行数

据的集成,将关系数据库中的数据转换为通用的XML格式的数据,从

而更好地实现数据的共享。

3. 利用XML数据模型在半结构化数据表示和查询方面的优势,通过

基于XML查询语言XML-QL实施Web查询。

在XML出现以前,面向Web数据查询是一项复杂的技术。通过本文的

研究方法,如果通过XML数据模型描述Web上的数据,把不同来源的

结构化的数据转换成XML格式的数据,就能够方便的实现数据的共享

和进行精确、有效的信息查询,将极大的简化复杂性,提高工作效率。

关键词:XML;Web查询;半结构化数据;数据模型

本科毕业论文、设计《基于XML的WEB查询技术研究》

Based on XML Web inquiry engineering

research

xxx

(Undergraduate Classes of Information management and information system

Subject of 2003 Grade , College of LongQiao,LanZhou Commercial College)

ABSTRACT

WWW is the most widely used information scivice system on the

Internet。It offers a tool to search and hi uwse information. But WWW contains too much Information.and billions of pages located on thousands of servers in different palaces in the world. Every server manages its own resources, and does not follow one standard managing mechanics. In general, there are wealthy of various resources on the net, which can not be shared anc queried effectively.

The emergence of XML provides a resolution to the above-mentioned

problem The full name of XML is Extensible Markup Language.It is a simplified and restricted stbset of SGML, particularly devised for Web application. XML is an excellent tool for data exchange on the internet. Due to its capability to combine structured data with different sources, XML makes it Fossible to retrieve data from different and incompatible database servers, and brings hopes for Web data query. This article focus on these following problems:

本科毕业论文、设计《基于XML的WEB查询技术研究》

1. Consicering the big difference of data format and data sources on

the Web, We made research and discuss on the Web data model -XML

data model.

2. To resolve the problem of integration of data with. different

structure. Because the integration problem mainly focus on the

integration of different structured RDBMS, this article adopted

mediated schema and transformed the data in RDBMS into XML data

source. Therefore, better sharing of data can be ealized.

3.Making full use of the advantages of using XML data model in

semi-structured data representation and query,we can carry out

dataretrieving queries from XML data resources on Web by using

XML-QL.

Before the emergence of XML,Web-oriented data query is a complex

technique. Through the research in this article if we represent Web data

by XML data model and transform the structured data from different data

source into XML data format sources We will realize data sharing and

carry out exact and efficient data query,which will simplify ourwork and

enhance efficiency greatly.

Key words:XML, Web query, Semi-structured data, Data model

本科毕业论文、设计《基于XML的WEB查询技术研究》

目录

一、引 言 ············································································································(7)

二、基于XML的Web查询技术研究 ·····································································(8)

1 Web查询涉及的几个主要问题 ·········································································(8)

2 Web上的数据模型-XML数据模型···································································(9)

3 异构数据库的集成···························································································(20)

4 基于XML的Web查询····················································································(29)

三、结 论 ··········································································································(44)

参考文献················································································································(45)

本科毕业论文、设计《基于XML的WEB查询技术研究》

基于XML的Web查询技术研究

一、引 言

随着互联网的普及,网络已成为人们获得信息的主要途径和重要

手段网络}资源丰富,闷容庞杂,网络上的数据能否很好地得到共享成为影响网络发展的个重要因素但就目前来看,我们日常用到的数据大部分是无结构的文档和完全结构化的关系数据库中的数据,如果把这些数据放在互联网上很难实现数据的共享为此,必须改变当前数据格式的多样性和共享性差的缺点,用一种统一的数据格式来表示数据,从而实现数据在互联网上更大范围内的共享。如果能够把不同来源的结构化的数据比较容易地结合在一起,将使搜索多样的不兼容的数据库成为可能,从而为解决Web 数据查询难题带来了希望。

XML的出现为解决上述问题提供了理想的解决方案。它是特别为

Web应用设计的,它是针对于HTML和Internet 的标准的、可扩展的、通用的数据格式。XML保留了SGML可扩展性、结构性以及数据确认方面的主要优点,它的灵活性允许表示各种各样的信息,而这些信息是自我描述的,所以XML表示的结构化的数据可以被那些没有关于这些数据的知识的软件来处理,实现数据在互联网上更大范围内的共享。XML是一种半结构化的数据模型,XML的文档描述的语义非常清楚,它的可供操作的基础要比HTML好得多,而且很容易就可以将之和关系数据库中的属性一一对应起来,能够支持实施十分精确有效的查询。

本科毕业论文、设计《基于XML的WEB查询技术研究》

本文围绕着基于XML的Web查询技术涉及到的几个主要问题展开

研究与讨论:

1.针对Web上数据的自身特点,研究与探讨了适于表示Web上数

据的数据模型XML数据模型;

2.为了更好地实现Web数据的共享,本文给出了从关系数据库中

结构化的数据向XML格式数据的转换方法,解决异构数据的集成问

题;

3. 利用基于XML的查询语言XML—QL实施Web上XML数据源的

查询。

二、基于XML的Web查询技术研究

1. Web查询涉及的几个主要问题

Web上有海量的数据信息,怎样对这些数据进行有效的应用成了

现今数据库技术的研究热点。所谓数据查询,就是从大量的数据中发

现真正需要的内容,解决数据的应用质量问题。如何充分利用有用的

数据,废弃无用的数据,是Web数据查询所面临的一个难题。相对于

Web的数据而言,传统的数据库中的数据结构性很强,数据为完全结

构化的数据,而Web上的数据是半结构化数据。所谓半结构化是相对

于完全结构化的传统数据库的数据而言。显然,面向Web的数据查询

比面向单个数据仓库的数据查询要复杂得多。Web查询涉及的几个主

要问题是:

1.1 寻找一个描述Web上数据的数据模型

Web上的数据与传统的数据库中的数据不同,传统的数据库都有

本科毕业论文、设计《基于XML的WEB查询技术研究》

一定的数据模型,可以根据模型来具体描述特定的数据。而Web上的

数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设

计,并且数据本身具有自述性和动态可变性。Web 上的数据具有一定

的结构性,但因自述层次的存在,从而是一种非完全结构化的数据,

这也被称之为半结构化数据。半结构化是Web上数据的最大特点。要

解决Web上的异构数据的集成与查询问题,就必须要有一个模型来清

晰地描述Web上的数据。针对Web 上数据的半结构化特点,寻找一

个描述半结构化数据的数据模型是解决问题的关键所在。

1.2 通过Web上的数据模型实现异构数据库数据的集成

从数据库研究的角度出发,Web上信息的来源主要是从不同的数

据库中提取。如果要想充分利用这些数据进行有效地数据查询,就必

须解决异构数据的集成问题,用一种统一的数据格式表示数据。只有

将各个异构数据源的数据都集成起来,提供给用户一个统一的视图,

才有可能从巨大的数据资源中获取所需的东西。

1.3 高效、准确的Web查询

通过使用Web上的数据模型对异构数据进行“改造”,达到数据

表示的统一性和一定程度上的结构化,从而实现高效、准确的Web查

询。下面就从Web查询涉及的几个主要问题展开研究与讨论。

2. Web上的数据模型—XML数据模型

2.1 结构化数据模型的特点

传统的数据库都有一定的数据模型。描述数据库的数据模型一般是

本科毕业论文、设计《基于XML的WEB查询技术研究》

结构化的数据模型,主要分为第一代的层次\网状数据模型、第二代

的关系数据模型、第三代的面向对象数据模型。这模型能很好地描述

特定的数据,同时可以很好地定义和解释相关的查询语言。

面向传统数据库技术直接应用网络数据的困难在于,网上数据缺乏

统一固定的模式,数据往往是不规则并且经常变动,在这种情况下如

何来解决异构数据的集成和数据查询问题呢?这就迫切需要有一个模

型来清晰地描述Internet的数据。

针对Internet上的数抓半结构化的特点,寻找个半结构化的数

据模型则成为了解决上述问题的关键所在由于XML数据模型的无模

式及自描述的特点适于描述网上数据,所以研究这种新类型数据的半

结构数据模型应运而生。

2.2 XML数据模型

半结构化数据模型的研究对数据库界来说是个全新的领域,早在

1995 年,斯坦福大学己经开始了相关方面的研究。但当时研究的重

点还没有真正面对Web,而主要研究的是异构数据环境,因为在异构

环境中的数据已经存在这种半结构化的特征。后来随着Internet的

发展,Web上的数据半结构化特征日渐明显,这一问题也就扩展到Web

领域,最终提出了针对Web数据的模型司题。相关的研究工作在

1997-1998 年间取得了一些结果,提出了诸如WebSQL、WbOQL、

WebLog、StruQL、LLIXES 、LoreI等大约一二十种的查询语言。基

于一Web上的内容查询主要有两个含义,一是页面内容的查询,二是

本科毕业论文、设计《基于XML的WEB查询技术研究》

页面与页面之间链接的查询,而像页面之间链接的这种关系我们则称

之为路径表达。由于当时的Web都是基于

HTML实现的,而HTML在路径表达的实现上难度很大。因为HTML实

际上只提供了如何在浏览器中显示信息的方式而没有反映数据本身

所包含的语义,所以要想真正做到准确、高效地查询数据,十分困难;

所幸的是,近年来新涌现出了XML,它最大的特点在于其Tag是

具有语义的,是由用户定义的,能够反映一定的数据的含义。AL的

出现给做数据库研究的人带来了很大的惊喜。从某种意义上说,XML

就是一种半结构化的数据模型。XML的文档描述的语义非常清楚,而

且我们很容易就可以将之和关系数据库中的属性一一对应起来,能够

支持实施十分精确的查询。

XML格式数据是一种自描述的半结构化数据。XML文件本质上是

保存信息的结构化载体为了得到XML文件的有效性,需要确定文件中

信息必须遵守哪些结构。这是通过Schema来实现的,Schema是一种

描述XML文件中信息结构的模型。在XML中,Schema被用来建立某

类数据的模型。一旦数据模型适合特定的数据类,我们就可以创建遵

守该模型的结构化XML文件。DTD是建立XML文件的Schema的一种

方法。

XML数据模型中XML文档的结构按照XML图来组织。XML图是一

种非常灵活的数据模型图的结点表示属性,图的每一个边用元素标签

标识。通常,XML图包含以下内容:

1. 图的侮一个顶点用一个唯一的字符串标识,称为对象标识

本科毕业论文、设计《基于XML的WEB查询技术研究》

(OID)

2. 图的边用元素标签标记

3. 图的结点用一组属性值来标记

4. 图的叶结点用值(或字符串)来标记

5. 图有一个根结点

为了更有效地进行XML数据的处理,学者们提出了许多关于XML

数据模式描述的方案,其中最主要的是文档类型定义DTD。与半结构

化数据的模式相比,DTD的优点是它的正则语法支持定义半结构化的

数据。

如:<!ELEMENT e(a,b?c+)>说明元素e由一个子元素a,可选的

子元素b, 要求出现或连续出现多次的子元素c组成。

要讨论XML的模型图,首先定义一个XML文档的DTD,假定XML

文档放在D: \bib.xml,

<!ELEMENTbib(bok)+>

<!ELEMENTbok(author+,title,publisher)>

<!ATTLISTbook yearCDATA>

<!ELEMENTarticle (author+,title,year?) >

<!ATTLISTarticletypeCDATA>

<!ELEMENTpublisher(name,address) >

<!ELEMENTauthor (firstname?,lastname) >

这个DTD规定元素bib中包含多个bok 元素、每一本书(book )

包含一个或多个作者元素、一个标题元素、一个出版商元素、一个出

本科毕业论文、设计《基于XML的WEB查询技术研究》

版年月属性。文章(article) 的DTD也是相似的,但它的出版年月是

可选的,它省略了出版商,但包含了类型属性,一个出版商包含了名

字和地址元素,作者元素包含了可选的名和必须有的姓。假定所有的

数据类型是字符串型。

该DTD限定了数据是怎样组织的。事实上,XML模型的元素顺序

可以是任意的。数据模型并不要求元素的顺序必须与XML文档中的次

序一致。如下述两个表示等价:

1. bok 元素内的最开始部分是注释。

2. 作者名放在书名的前面。

3. 每一个作者的名放在姓前

<author> <firstname> $f </> <lastname> $1 </> </author>

等价于:

<author> <lastname> $1</> <firstname> $f </> </author>

对于上述的DTD,假定有以下事实:

1. bok 元素内的最开始部分是注释。

2. 作者名放在书名的前面。

3. 每一个作者的名放在姓前

XML非常适合描述分布的、多态的、动态改变的Web数据,数据

与XML图之间的对应非常简单。下面是一个XML的数据模型图,该模

型图中的数据的类型和结构与前面定义的DTD一致。

本科毕业论文、设计《基于XML的WEB查询技术研究》

图1 XML数据模型图

通过该模型图可以很容易的实现数据从XML模型图到XML文档的转

换,转换成的XML文档如下:

<bib>

<bok year="1995">

<!一Agodinductorytext-->

<author><lastname>Date </lastname></author>

<title> AnIntroductionto Database Systems</title>

<publisher> <name>Adision-Wesley</name></publisher>

</book>

</bib>

模型允许同样两个结点之间有多条边相连,但必须用不同的标签

标识。为了支持元素的共享,XML可以为一个元素指定一个ID属性

值来唯一地标识元素,同时可以为一个元素指定一个引用IDREF属性

本科毕业论文、设计《基于XML的WEB查询技术研究》

来引用已存在的多个元素ID. 例如文档DTD中有以下ID属性和

IDREFS属性。

<!ATLISTpersonIDID#REQUIRED>

<!ATLISTarticleauthorIDREFS#IMPLIED>

其中:#REQUIRED一属性是必须的;#IMPLIED一属性是可选的;在

下面的XML文档片段中,两个person元素的ID值分别为o123和o234,

元素article的作者是ID值分别为o123和o234的person.。

<personID="oI23">

<firstname>John<lfirstname>

<lastname> Smith </lastname>

</person>

<person ID= "o234">

</person>

<article author="o123 o234">

<title> .. </title>

<Year>1995</Year>

</article>

上述结构用XML模型图表示如下:

本科毕业论文、设计《基于XML的WEB查询技术研究》

图2 XML图中数据之间的引用

因为仅有XML图的叶结点中包含值,并且只能表示一个值.所以,

下面的XML文档片段就不能直接用数据模型表示.

<title> A Trip to <titlepart>the Moon</title part></title>

为此,考虑用下面的片段来代替.

<title><CDATA>A Trip to</CDATA><titlepart><CDATA>the

Moon</CDATA></titIe part></title>

该片段的数据模型图如下:

本科毕业论文、设计《基于XML的WEB查询技术研究》

图3 XML数据模型图

本科毕业论文、设计《基于XML的WEB查询技术研究》

其中页结点的值是它的OID。

2.3 XML数据模型图向XML文档的映射

通过对XML模型图的转换可以很容易地得到析可以生成 XML数

据模型图.这可以从上述 XMLXML文档,同样通过对XML文档的解文档

与 XML模型图的映射对应关系看出.通常由于如下两条原因,XML图

不是和 XML文档严格对应的。

1.XML数据模型中的数据是无序的,元素的顺序事先并未假定;

2.支持结点共享,一个结点可能和几个结点有边相连。

2.4 XML数据模型中数据的存储以及索引的存储

1. XML数据的存储有以下方式:

(1).文本文件 是最简单,直接地存储XML数据的方式.它与数据

被理解的方式一致,自然地反映了对象之间的嵌套关系,且同一个对

象的数据集中存储.缺点是存储粒度大,当数据量大时不利于实现网

络通信和数据共享。

(2).关系数据库 存储半结构化数据或XML数据.可以利用数据

库现有的存储管理,并发控制,恢复,版本机制等技术有效地管理数据.

该方式的欠缺是一个简单的查询路径可能要通过多重链接实现,影响

了查询的效率.半结构化数据的缺乏模式和数据类型的特性也使关系

数据库的一些优化存储策略(如聚集存储等)不能应用。

(3).面向对象数据库 很多商业的XML服务器采用这种方式.它

利用DTD给出的类型信息构造类层次结构,正则表达式的符号可由基

本科毕业论文、设计《基于XML的WEB查询技术研究》

于对象数据模型的类型表达 (如用 list数据类型表达),也可以通过

创建新类实现 (如 "|"符号可用 union类型的类实现).该方式的数

据模型更接近半结构化数据模型,并能更好地处理嵌套的集合和顺序,

因此,其数据存储和查询处理可以用来提高XML或半结构化数据处理

的效率.问题是在数据加载时对未知的数据类型需要建立新的类对应,

这样就影响了加载效率;当DTD改变时,数据模式的变动代价也很昂

贵.面向对象模型虽然比关系模型更适合于表达半结构化数据和XML

数据,但有快速连接性能的关系数据库也可以实现很好的性能。

(4).专门的对象存储 如Lore系统,它利用自己的对象管理器管

理物理磁盘上的半结构数据或 XML数据对象。

2.索引的存储

半结构化数据索引需要处理的问题是异构原子值的索引和路径

表达式的索引.不同原子值的索引可以通过强制类型转换实现.路径

表达式的索引可以分为树/图结构数据的索引,受限/完全的正则表达

式.相对来说,树结构的数据,如XML,其索引技术较简单,并且只支持

正则路径表达式的受限形式的索引更有效一些,因为较少有非常复杂

的正则路径表达式.伯克利大学的XSet系统就为XML数据采用了一种

索引.这种索引综合了路径信息,也是树结构.索引树的节点是哈希表,

索引根节点包含了数据根节点的所有出边标记,索引树的内节点对应

了数据中到达某一非叶节点的标记序列,哈希表的每一项都包含了数

据树中指向泪应节点的指针.这种索引结构可以有效地处理简单路径

表达式, 一些更复杂的路径表达式也可以通过索引的索引来实现.斯

本科毕业论文、设计《基于XML的WEB查询技术研究》

坦福大学的DataGuide系统实现了任意结构的半结构化数据的索引,

它是关于半结构化数据的路径信息的一个精确,简洁的索引结构,可

以有效地用来辅助建立查询和进行查询优化。

3. 异构数据库的集成

3.1 异构数据库集成的方法

Web上异构数据库集成目标是支持对Web上多个数据源的查询,

处理大量的,数目递增的Web数据源.

Web上异构数据库集成主要有两种方法:数据仓库方法和虚拟方

法.前者是将各数据源的数据装载到数据仓库中,用户的查询基于数

据仓库的数据;后一种方法基于一个 "中间模式" (Mediated Schema),

数据仍保存在局部数据源中,通过各数据源的''包装程序"(Wrappers)

将数据虚拟成中间模式,用户的查询基于中间模式,不必知道每个专

门的数据源的特点,查询执行引擎直接与Wrappers打交道,将基于中

间模式的查询转换为基于各局部数据源的模式.虚拟方法更适应于数

据源数目多,各局部数据源的自治性很高且局部数据经常变化的Web

环境。

本文数据的集成方法采用基于 "中间模式"的方法,将关系数据

库中的数据转换为通用的XML数据源.由于从不同的关系数据库中产

生XML数据源的转换方法类似,文中仅给出从一个数据库中进行数据

转换的方法。

3.2 用XML格式表示的数据源的优势

本科毕业论文、设计《基于XML的WEB查询技术研究》

XML是Web上定义数据的通用语言, XML允许为指定的一群应用

程序创建一致的数据格式,它同样也是服务器间传递数据的理想格式.

用XML格式表示的数据源有以下优势:

(1), XML格式表示的数据能够被唯一标记,能用于更有意义的检

索.例如,用户可以指定查找一些书,书的作者是鲁讯,而不是指书的

内容.传统的检索将会将二者混为一谈,如果是XML表示的数据源,可

以方便地被检索到.

(2),基于 XML的数据是自描述的,不需要有对数据的内容描述就

可以交换和处理,可以更好地实现数据的共享和跨平台操作。

(3),可以更好地从离散的 XML数据源集成数据.查找多个不兼容

的数据库在实践上难以实现,但是如果把各个数据库的数据转换成

XML格式的数据源,通过软件代理可以很方便地把这些数据集成到中

间层服务器上,在这之后,这些数据还可以被传到客户或其他的服务

器上进行进一步的集成,处理和分发.

(4) , XML数据源可以方便地应用于数据的多个视图.如果数据

被传送到桌面上,它可以以多种方式显示.例如,XML数据的购买订单

对代理商可以显示得较为详细,而对于顾客来说,只需要显示简单的

视图。

(5),易于实现不同的粒度更新.XML数据允许不同的粒度更新,消

除每次数据的一部分发生变化后就必须重传整个结构化数据的需要.

只有发生变化的元素从服务器传给客户,不必更新全部用户接口就能

显现发生变化的数据。

本文来源:https://www.bwwdw.com/article/xps1.html

Top