基于DNS的网页搜索引擎

更新时间:2024-06-27 18:53:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

一种基于DNS的分层式网页搜索引擎研究

王亮1+, 郭一平2 1

?

(华中科技大学 控制系,湖北 武汉 430074) (华中科技大学 图书馆,湖北 武汉 430074)

2

Study of a layered Web search engine based on DNS

1+

2

Wang Liang, Guo Yiping

1

(Department of Control Science and Control Engineer, Huazhong University of Science and Technology, WuHan, 430074 ,China)

2

(Library of Huazhong University of Science and Technology, WuHan 430074, China)

+ Corresponding author:Phn:+86-27-87553494, Fax +86-27-87544415, E-mail: guoypm@hust.edu.cn, http://dris.hust.edu.cn

Abstract: Web search engine based on DNS, the standard proposed solution of IETF for public web search system, is introduced in this paper. Now no web search engine can cover more than 60 percent of all the pages on Internet. The update interval of most pages database is almost one month. This condition hasn't changed for many years. Converge and recency problems have become the bottleneck problem of current web search engine. To solve these problems, a new system, search engine based on DNS is proposed in this paper. This system adopts the hierarchical distributed architecture like DNS, which is different from any current commercial search engine. In theory, this system can cover all the web pages on Internet. Its update interval could even be one day. The original idea, detailed content and implementation of this system all are introduced in this paper.

Keywords: Search engine; Domain name; Information retrieval; Distributed system; Web-based service; Information network

摘 要: 本文介绍了IETF构建公共网页搜索系统的标准提案“基于DNS的网页搜索引擎”。目前没有一个网页搜索引擎可以覆盖超过60%的互联网上全部网页,而大部分的网页数据库更新周期都在一个月左右。在更新率和覆盖率等关键性能上当前的搜索引擎多年来几乎没有任何明显的改进。为了解决搜索引擎遇到的这些瓶颈性问题,本文提出了一种全新的网页搜索引擎,“基于DNS的网页搜索引擎”。此系统采用了与现有商业化搜索系统完全不同的分层的分布式结构。从理论上讲,此系统可以覆盖全部的互联网网页,而且其网页数据库可以做到每天更新。此系统基本思路来源,详细内容和具体实施都将在本文中逐一介绍。

?华中科技大学“211”资助项目

关键词: 搜索引擎;域名;信息检索;分布式系统;基于Web的服务;信息网络 中图法分类号: TP391;TP393.4 文献标识码: A

1 介绍

由于整个WWW是一个大规模动态的分布式系统,网页更新和增加非常频繁,搜索引擎很难跟踪WWW的每一处的变化,因此很难保证覆盖率和更新率的要求。根据1998年的统计数据,几乎所有的网页搜索引擎的数据平均更新周期都达到一个月,而没有一个搜索引擎能够覆盖超过50%的互联网全部网页,而时至今日这些数据依然适用。

搜索引擎遇到的这些颈性问题很大程度上是由其集中式结构造成的,一般的搜索引擎都有一个或多个大的数据中心,在此执行全部的网页下载和索引工作。如著名搜索引擎Google就有上万台服务器来并行完成此工作。但由于WWW系统的地域分布式特性以及网络基础条件等方面的限制,随着WWW系统的迅速扩张,这种集中式系统必然会遇到覆盖率和更新率方面的瓶颈问题。

整个WWW系统的地域分布式特性和现有搜索引擎的集中式体系结构之间的矛盾是造成搜索引擎两个瓶颈性问题的主要原因,要解决这两个问题必须构建一种地域上分布式的搜索引擎。但近年来的搜索引擎研究主要集中在知识挖掘、个性化检索及网页排序算法的改进等方面,在搜索引擎的基本体系结构方面的研究很少,尽管旨在寻找新型搜索引擎的研究都是基于分布式框架的,但发展非常缓慢。

事实上在1994年出现的第一个网页搜索系统Harvest[2]就是一种分布式检索系统,但由于其算法复杂,开销巨大,因此仅停留在理论研究阶段,而没有成为真正的Internet服务。而后兴起的商业化搜索引擎考虑到成本等方面因素都采用了集中式的体系结构,并一直处在主导地位。而此后基于分布式结构的搜索引擎研究大都停留在理论阶段,典型的如CSE(合作式搜索系统),和其它一些研究一样,它们都是Harvest的改进系统。这些方法的主要原则就是要求每个Web服务器都对自己的网页进行索引,然后分别提供检索接口,而搜索引擎则利用这些接口进行信息检索,这种方法可以部分解决更新率的问题,但检索速度很难保证,而且并非所有的web服务器管理者都愿意提供这样的检索接口。文献[4]则针对此问题进一步提出一种分层次的共享网页数据库的解决方案,可以从理论上解决更新率问题并保证检索的速度,但是具体怎么划分不同的层次,以及如何实现等问题依然没有得到很好的解决。

先前分布式网页搜索引擎研究经验教训说明一个成功的分布式系统必须解决两个基本难题,首先是系统基本结构的确定问题,包括整个系统如何进行划分,如何保证系统可以覆盖整个WWW系统等;再者就是实施的激励机制问题,作为一个分布式系统,其管理和建设必然是由不同的单位组织负责的,如果各个单位组织不能从系统的实施中受益,而仅仅是强调共享,技术再先进也只会是纸上谈兵,而这也是目前分布式检索系统难以推行的根本性原因。对一个分布式系统来说实施需求的发现比技术研究本身更为重要。

[3]

[1]

2

2 新方法的来源

2.1 基本思路

我们从DNS技术中得到一些基本的启发。如今几乎每个高校和大的机构都有自己的域名服务器,并与高层服务器协调配合,这种分层的分布式体系使互联网上所有的站点都能得到有效的管理。而DNS技术本身发展也经历了从集中式到分布式的转变,在DNS系统建立之初,仅仅有数百个Web站点,而相应的DNS数据库可以存储在单个服务器上,但是当WWW上站点数目达到上百万时,各个站点分布世界各处而且更新较为频繁,集中式的DNS系统显然很难高效地管理如此多的站点,提供优良的解析服务,DNS最终发展成为一个分层的分布式系统。

由于种种原因,目前所有的商业搜索引擎都采用了集中式构架,但随着WWW的迅速扩张,网页搜索引擎恰恰也遇到了当初DNS技术遇到的问题,如今已有上百亿张网页分布在世界不同角落的服务器上,而当前的搜索引擎却要反复地访问并下载全部的网页到一个数据库系统中,数据的更新率和覆盖率根本无法得到保障。显然集中式的框架是不适于分布式的WWW信息管理的,而正是系统基本结构选择的不恰当导致了当前搜索引擎遇到的数瓶颈性问题。

参考DNS改进和发展的历史可以发现Web搜索引擎若像DNS那样采用一种等级分布式的框架,一些基本的瓶颈性问题就可能会得到一定的解决。而进一步地看,既然DNS能够索引各个站点的名称,那么是否也能索引整个站点的所有网页呢?因此就有了“搜索引擎+DNS”的基本思路。 2.2 系统基本框架

如上所述,基于DNS的搜索引擎采用了和DNS完全相同的基本结构,具体如图1所示。

整个系统分为三层,第三层为DNS的三级域,一般对应于某个组织机构,如一个大学;第二层一般对应于国家的各个主干网;第一层则对应于某个国家。

rootFirst layerUk(England)Ru(Russia)Cn(China)Fr(France)?Second layerGov.cnEdu.cn(CERNET)Com.cn?Third layerHust.edu.cnPku.edu.cnTsinghua.edu.cn?Figure 1 Architecture of system图1 系统结构

采用此基本框架,我们可以简单地在最底层下载网页数据,然后逐级传递到最上层的服务器上。由于网页的下载更新工作都在不同的底层节点进行,而这些节点一般又都对应于某个局域网,因而这种分布采集、逐层递交的方式可以保证整个系统的数据每天更新,这样更新率问题就得到了很好的解决。但是另一个问题

3

是,按照这种方法,顶层的服务器数据存储量可能依然很大,我们可能不得不采用分布计算等复杂技术来保障顶层服务器的数据存储和检索服务质量。要建立一个可以“镜像”整个Internet数据的系统几乎是不可能的,必须采用其它方式来完成此任务。

因此我们首先对搜索引擎基本技术及当前具有代表性的几种信息检索系统和网页搜索引擎的两种基本算法做一简介,在此基础上对系统的基本思想进行具体的实现研究。

3 搜索引擎相关技术

3.1 搜索引擎基本技术

目前大多数实用的商业化网页搜索引擎都是基于集中式结构设计的,其一般包括三个主要部分,网页下载器,搜索器和检索接口,具体如下所述:

? 网页下载器。网页下载器主要从WWW上下载网页,其一般按照网页上的链接关系进行漫游。 ? 检索器。其主要工作是将网页数据进行索引,一般要进行文本倒排等相关工作。 ? 检索接口。其主要功能是为用户提供最终的经过排序的 检索结果。 3.2 两种基本算法

网页搜索引擎按照基本排序算法划分可分为以词频统计为主的第一代搜索引擎和以超链接分析为主的第二代搜索引擎。

1 基于词频统计的搜索引擎[6]。词频统计基于传统的全文检索算法,如文档的向量空间模型和tf*idt算法。此类算法中网页文本的每一个词汇都作为网页的索引词,由词频和位置信息确定索引词的重要性,并作为在此网页在检索结果中的排名权值。一些改进的算法则考虑到网页自身的特点,将标签(Tag)的影响反映在权值计算中。

2 基于超链接分析的搜索引擎。其基本思路为一个网页的排名权值由指向此网页的其它网站网页的数目来决定,即一个网页被链接的次数越多就说明此网页的质量越高。具有代表性的实现算法有两种,由Google提出的PageRank[7][8]算法和IBM研究院Clever系统中采用的HITS( Hyperlink Induced Topic Search)[9]算法。它们都利用了网页和超链接组成的有向图,根据相互链接的关系进行递归的运算。但又有很大的区别,主要在于运算的时机。Google是在网页搜集告一段落时,离线地使用一定的算法计算每个网页的链接权值,在检索时只需要从数据库中取出这些数据即可。这样做的好处是检索的速度快,但丧失了检索时的灵活性。Clever使用即时分析运算策略,每得到一个检索请求,它都要从数据库中找到相应的网页,同时提取出这些网页和链接构成的有向子图,再运算获得各个网页的相应的链接权值。这种方法虽然灵活性强,并且更加精确,但在用户检索时进行如此大量的运算,会导致检索效率的急剧下降

[10]

。目前大多数搜索引擎均采用以

PageRank为基础的改进算法,而实际使用的排序算法往往对基于词频统计得到的权值、超链接分析权值以及用户行为分析等其它因素的计算得到的权值进行综合分析,采用按照比例组合的办法得到一个网页的最终权值[11]。

如果搜索引擎覆盖的范围较小,如仅仅是一个校园网的搜索引擎,则采用基于词频统计的网页排序算法

4

就可基本满足需求,但如果范围较广,如一个国家范围的搜索引擎,一般则采用基于超链接分析的排序算法。 3.3 三种检索系统

按照基本体系结构划分,目前已有三种不同类型的信息检索系统,具体如下所述:

1 基于传统数据库的集中式检索系统。这种系统拥有自己的数据采集装置,如网页搜索引擎中的Spider,电子图书馆的扫描识别系统等,所有的数据都存储并索引在一个数据库系统中。虽然目前很多网页搜索引擎都通过上万台服务器并行提供服务,但按其基本结构划分仍然可归为此类。

2 基于元数据采集的检索系统。当需要整合多种类型的资源或数据源规模较大的情况下,一般采用从各个小的子数据库中采集元数据并整合到一个系统的方式构建信息检索系统。这类系统没有自己的数据采集模块,仅存储起索引功能的元数据,比较常用的如OAI系统。

3分布式检索系统。如果数据源的规模非常大,以至于元数据都很难在一个独立的数据系统中存储并有效管理,则可采用分布式的信息检索结构。分布式信息检索系统中各个子数据库系统分别提供符合统一标准的信息检索接口,执行信息检索时由总系统负责协调各个子数据源完成检索请求。这类系统中没有存储实际的数据记录,仅仅对各个子数据源的检索接口等特征作基本的描述索引。著名的如Stanford数字图书馆计划中的InfoBus系统[5]。

信息检索系统基本结构的选择一般根据以下规则,即随着数据源规模扩大和数据类型的增多一般可以依次选择常规数据库型、元数据采集型、分布式检索型。

4 基于DNS的网页搜索引擎的实现

根据新系统三个层次的具体特点,我们分别采用了不同的系统构架和基本算法,以构建一个更为高效的网页检索系统。我们按照从底层到高层的方式逐一介绍各层的不同的搜索系统。 4.1 第三层:集中式检索系统

第三层的系统将构建一个三级域内的网页搜索引擎,如一个大学校园网的搜索引擎,其设计原理同现有的搜索引擎基本相同,差别仅在于其搜索范围较小。这里采用了集中式的设计结构,此检索系统由三个部分组成:网页下载器,索引器以及检索接口。下面对此三部分逐一介绍。

4.1.1 网页下载器

此系统的网页下载器将下载某个三级域内的所有网页。如 “www.hust.edu.cn ”是华中科技大学域名,那么此域名下的低级域名如计算机系的域名“cs.hust.edu.cn”均可在此三级域名服务器上查到。因此相应的Spider程序只要依照DNS列表就可下载此域内的所有网页。

系统Spider的工作是按不同的站点划分的,其依次访问一个域内的全部站点。当一个Spider访问某个Web服务器时,它将下载此服务器上的所有内容,当遇到指向其他服务器的链接时,也将此链接作为本站内容下载,但不再下载更深层次的链接,这些指向外部的链接相当于Spider的访问终止标记,我们将这样的链接称为“终止标志链接”。

这一点和现有的网页搜索引擎有较大的不同。它们的Spider一般采用自由漫游的方式采集网页信息,没

5

有一定的终止标记。其系统都采用多个Spider协作的方式进行网页的下载,一般都要用非常复杂的算法来指导Spider的漫游,以尽可能的遍历更多的网页点之间的复杂链接关系。

4.1.2 网页索引器

[12]

。而在我们的系统中只要按站点下载即可,不用考虑各个站

索引技术的关键在于元数据的恰当选择,目前的搜索引擎中一般都采用全文检索,即文中每一个词汇都作为索引词,而用词频和位置信息确定索引词的重要性。我们也利用此方式进行网页的索引。而网页的标题,编码等其它信息也可作为索引项。我们也可选用一些更为复杂的技术如W3C的Ontology[13]语义模型来索引网页。

4.1.3 检索接口

检索接口的主要功能是处理检索结果并提供用户接口,如何进行检索结果的排序是此部分的关键所在。在这一层,我们采用基于词频统计的算法进行检索结果的排序。因为在这种情况下采集的网页仅仅限于一个很小的范围内如一个大学,而超链接分析则更适用于大范围上的网页排序。此外针对局域网网页集合的特点,IBM的研究院专门提出了一种名为“rank aggregation”[14]的局域网内网页排序方法,在提高网页检索准确率方面有一定改进。

4.2 第二层:元数据采集系统

此层的检索系统将提供二级域范围的信息检索服务,元数据采集系统用来构建此层的搜索引擎。一个第三层节点如一个大学内的网页数目都不会超过10万个,集中式系统可以很好的管理这种规模的数据。而一个第二层节点如“edu.cn”则包含了国内所有的大学,而网页总数可能超过千万。如果依然采用常规的检索系统就难以保证数据库的覆盖率和更新率,所以我们采用了元数据采集方式。

此层的搜索引擎包含两个部分,网页数据库和检索接口,而没有自己的数据采集器Spider。其数据直接从第三层的节点数据库中获得。如对应于“edu.cn”节点的服务器可从数千个大学中的第三层节点搜索引擎数据库中获得网页数据,而不是直接去下载上百万张网页,这种方法的数据更新效率更高。而由于仅仅采集的是元数据,其总的数据量也不会过大。具体的元数据采集方法将参照OAI系统设计。

一个值得注意的问题就是网页的重复存储问题,在第三层中,Spider下载某个站点的网页时也下载了一些不属于此网站的网页(终止标志链接),那么在采集整合元数据时一些网页可能出现多次。而根据第三层的下载规则,一个网页重复出现的次数就是其它站点指向此网页的链接数目,而这正是超链接分析技术中的网页排名权值。这是超链接分析技术较为直接的一种实现方式。在集中式体系中,出于成本等因素考虑,不可能将位于不同位置的同一个链接全部下载再统计被引用的次数,而在分布式框架下则可用这种简单的方式实现超链接分析技术的基本思想。

显然此层的检索接口应超链接分析的方式进行检索结果的排序。这里仅仅是基本原理的介绍,而如各层之间如何协调,最终的排名算法等问题将在系统的标准协议中制定。 4.3 最高层:分布式检索系统

在最高层将构建覆盖一个国家范围内的网页搜索引擎,如果依然按照第二层那样将全部的网页元数据进

6

行集中存储,那么可能要存储上十亿张网页数据,系统设计依然比较困难。由于第二层的节点一般对应于一个国家的主干网,数目较少,因此可以考虑将最高层的搜索系统将设计成分布式检索系统,那么系统将仅有一个部分,检索接口,没有Spider,也没有索引数据。

设计分布式检索系统一般要解决三个主要问题[15]。1 基本的数据传输协议,如TCP/IP。2 子系统和主系统具体的数据交换协议,如数据结构,检索语法等。3 从各个子系统获得检索结果的合并方式。具体如下所述:

1 传输协议。此系统中以SOAP协议为技术协议,SOAP协议基于HTTP协议设计,但在安全性等方面都有较大改进。

2 检索协议。系统的检索协议设计以Webservice为基础。Webservice以SOAP协议为基础建立了一种高效的分布式系统框架。在设计协议时我们参考了SDLIP[16]和Google的Webservice检索服务用来定义相应的数据格式和检索语法等。采用此方法则要求在第二层的节点都提供统一的Webservice检索服务,而在最高层对这些检索服务进行索引。

3 结果合并。结果合并的关键依然是排序问题。在第二层中我们用数据采集中网页重复的次数当作网页的排名权值,而在最高层依然采用此方法,在执行并行检索时只要把同一个网页在各个子系统的排名值简单相加即可得到一个最终的排名权值。

第三层的搜索引擎工作原理同元搜索引擎基本上是一致的,没有自己的网页数据库,而仅索引其它搜索引擎的检索接口。但在此系统中各个子系统都严格遵循一个相同的协议,而且组织有序,因此性能要比现有的元搜索引擎都要好。此层的搜索引擎将提供一个国家范围内的网页搜索,这已经是本系统的最高级,而由于语言的差异,其已经基本覆盖了大部分的检索请求,如果确要进行多个国家范围的并行搜索,只要设计一个简单的系统,调用多个最高层检索接口即可。 4.4 总体结构和特点分析

该系统的最主要特点就是根据数据量的大小将网页资源分为三个层次,即组织级别,主干网级,国家级,然后针对各自特点采用了不同结构的检索系统,构建了一套完整的网页信息检索系统,其整体结构图如图2所示。

7

Fig.2. whole structure of web search engine based on DNS

图3 系统整体结构

5 系统的应用

由于新系统的每一个节点都是完整的搜索引擎,怎样使用户能够找到需要的搜索引擎是系统应用的关键。作为一个应用软件系统我们一般用面向对象的模型对系进行描述,这里我们也利用此模型来描述此系统。我们为其选择一个了基本的命名空间“DRIS”,整个系统的类树如图3所示:

DRIS namespaceFirst layer classDRIS.ukDRIS.ruDRIS.cnDRIS.fr...Second layerclassThird layer classDRIS.cn.edu.hustDRIS.cn.edu.pku...DRIS.cn.orgDRIS.cn.eduDRIS.cn.com...Fig.3. OO model of web search engine based on DNS

图3 系统面向对象模型

8

所有的系统节点都位于命名空间“DRIS”下并视为其子类.这些子类及其实现都在不同的服务器上实现。为

了整个系统使用和管理的方便,我们定义了一下几个基本规则: 1 所有的节点都通过标准Webservice的形式提供检索服务。

2 所有的检索服务都按照“继承”的关系进行组织,但这种关系的实现和标准的面向对象模型略有不同。低层的节点通过引用高层节点的Webservice的形式进行继承。而对高层节点来说,其各个子类都位于不同的服务器上,高层节点并不知道其子类,因此其将有一个专门的模块用来索引低层节点的检索接口。

3 Webservice通过URL链接来提供服务,对用户来说如何发现相应搜索引擎服务的链接是应用中的关键问题。例如我们如果要找到一个高校的网页信息检索服务,但如何才能发现其URL?为了方便用户,我们对搜索引擎服务器的位置作一规定。每个DRIS服务器都通过链接“DRIS.域名”向外提供标准Webservice检索服务,而此服务器上Webservice的主类名为“DRIS.反顺序域名”。如华中科技大学的域名为 “hust.edu.cn”,则其DRIS服务器通过链接“DRIS.hust.edu.cn”向外提供校内各种资源的检索服务,而此服务的主类名为“DRIS.cn.edu.hust”。

这些针对检索服务的规则基本可以解决系统的使用问题,其事实上是构建了一种分布式的UDDI注册系统。在新系统中域名不仅起到DNS中的“导航”作用,还是资源集合的一种“标识”。

系统提供互联网不同范围的标准信息检索服务,这将为一些个性化信息检索系统提供高质量数据源。这些个性化搜索系统可以根据用户的兴趣爱好等信息自动选择合适的数据源并按照用户需求对检索结果进行相应的整理。由超链接分析等得到的排名权值仅作为一个参考值,检索结果的最终排序会根据不同用户的实际需求信息进行调整。

目前已经有很多关于个人搜索系统的研究。大多数类似的系统的数据一般都来源于商业化的搜索引擎或自行设计的小规模网页数据库。文献[17]中分析器可以根据用户信息来整理综合检索结果。在检索系统[18]中,用户浏览中产生的反馈信息可以用来构造一种有自适应性的网页搜索引擎。基于DNS的网页搜索引擎将为此类研究提供一个高效的基础数据平台。

6 新系统的特点和优势

为了使检索结果更加准确,新的系统完全分成了两个部分:网页信息检索基础平台和个性化搜索系统。而为了建立一个高效的信息检索基础平台,新系统采用了一种类似于DNS的分层式的分布式结构。从新系统的最高层看,其提供的服务和现有的商业搜索引擎一样,但实现方式上却是将搜索引擎的三个部分完全分离,并采用元数据采集等方式有机结合。其网页下载器位于最底层的各个局域网内,索引器位于第二层,而在最高层提供检索接口,整个系统是一种分层的分布式检索系统。事实上新系统的三层上每一个节点都是完整的搜索引擎,提供不同范围内的网页检索服务。一般有三个基本原则来判定一个搜索引擎的优劣。

1 覆盖率。一个搜索引擎包含的网页数目越多,其检索结果就越全面。由于本系统的下载器的工作是按域组织的,因此只要一个站点在域名系统中注册,其所有网页就可被新的系统索引,因而从理论上讲,基于

9

DNS的检索系统可以覆盖所有互联网的网页。

2 更新率。新系统的网页下载和更新都在底层的各个服务器上进行,一般都对应于不同的局域网,其更新时间非常短,而在第二层,元数据上载过程也不用花费很多时间,而顶层由于没有实际的数据,因此不需要更新。所以整个系统的更新速度较现有系统有大幅度的提高。

3 搜索结果的准确率。目前的搜索引擎一般都较少考虑用户的偏好等信息,每个用户的同一个检索获得的检索结果都完全相同,毫无个性化可言。由于新系统三层的每一个节点都是完整的搜索引擎,并可向外提供标准的检索服务接口,这就为很多个性化智能搜索系统提供了很好的数据源。在这样的个性化检索系统中,可以真正做到以用户为核心,这样的搜索结果显然会更精确。 该系统的特点可用下图描述: 对应系统结构 基本搜索范围 技术 第三层 组织集中式 全文检索 级 第二层 主干元数据采超链接分网级 集式 析 第一层 国家分布式 元搜索技级 术 整体中的作用 下载器 索引器 检索接口 存储内容 原始数据 索引元数据 检索接口描述数据 Table1 Characteristic of system

表一 系统特点图示

7 系统的实施和管理

采用DNS的基本结构可以解决分布式检索系统设计的结构确定问题,基本达到了分布式系统提高准确率和更新率的效果,但这并不能确保其实际地实施。先前很多类似的系统也都遇到这样的问题:究竟谁愿意建立这样的系统?发现一些具体的需求是解决此问题的关键。

新系统与众不同的基本框架恰恰保证了它是一个实际中可行的系统。由于系统是按域划分的,而第三层节点往往对应于某个机构组织,如在我们的实验系统中(CERNET范围内),此层节点的系统都对应于校园网范围内的网页搜索引擎,目前已有一些高校购买了一些商业化网页搜索系统,而一旦一个更好的公共免费系统问世,大部分都会采纳此系统。如果底层的系统建成,就有了建立高层节点的良好基础。当然作为一个公共的服务平台,更高层的节点若要顺利建立实施,得到政府和一些公共部门的协调和支持也是必不可少的。以“域”为基本划分单位基本可以解决以往以服务器为基本单位的分布式检索系统的实施激励机制问题。

新系统采用的技术都完全基于现有的成熟技术。系统底层的网页搜索引擎只需在局域网范围内进行网页下载和索引工作,目前的技术已经远远超过这个需求。而第二层的网页元数据采集系统基于OAI系统设计,目前OAI已经在很多图书馆系统中使用多年,并在不断的改进中。第三层采用的分布式系统基于目前已经比较成熟的Webservice分布式技术设计,具体协议的编制则参考了SDLIP等已经有一些实际使用的协议。

作为一个公共的信息检索平台,其管理模式将采用和DNS一样的形式,有各个单位管理自己的检索系统,而由一个公共组织协调整个系统的运行。而这样的管理模式也避免了当前搜索引擎在版权等问题上的纠纷,

10

如一个大学内的建立了自己的网页搜索引擎后可以有选择的向上一级系统提交元数据,这就可以保证涉及版权或保密等方面的要求不便于大范围公开的信息不会通过搜索引擎外漏。

作为一个分布式系统,还有一个关键问题就是协议规范的制定问题,基于DNS的搜索引擎的后续开发和协议制定工作中都将继续加强和IETF、W3C等标准化组织的合作,提高标准的认可度和权威性,事实上本系统的提出过程中就得到了IETF的许多支持和建议。

由于WWW的完全自由、缺乏管理的基本特性使得我们在系统建立时必须因地制宜,灵活地采用该系统的基本规则。例如就在我校,尽管大部分单位院系都采用了本校域名“hust.edu.cn”下的四级域名,但也有一些使用了如“.net”等其它域名,如何严格按照系统的规则,这些其它域名下的网页是不能被本校的搜索系统索引的,但是考虑到实际使用需求,这些网站也都被下载索引,但在向上级服务器提交时加入特定的控制措施,避免上层系统的数据混乱。而在其它域下的实施更应注意到这一点,例如有的国家地区可能所有的网页数据并不是很多,构建一种集中式的搜索引擎就可完全满足要求,但对于如微软这样大的站点,数据量非常大,采用提交检索接口的形式可能比直接地一次又一次下载其网页更加合理些。在保证系统整体完整明晰的条件下,系统的实施中必须能根据实际需要找到一些折中,灵活采用三种不同的系统构建方案。

8 总结

基于DNS的搜索引擎采用了DNS的基本体系,利用三种不同结构的信息检索系统构建了一种结构清晰、体系完整的分布式搜索系统,而且以“域”为基本单位的划分形式也为系统找到了基本的实施需求,基本可以解决分布式网页检索系统设计的两个难题。从理论山讲,该系统在覆盖率、更新率以及检索结果的准确率等方面都较现有的搜索引擎有较大的改进,其基本思路就是认为信息检索应该成为WWW系统的内在功能,而用户则可从个性化信息检索系统中获取信息。此系统还有一个重要特点就是它是一个公共的信息检索系统,而非商业化的搜索引擎,但是一些公司企业却可以利用此公共平台提供更为优质的个性化商业服务。事实上,从TCP/IP到E-mail,几乎所有的Internet技术都是开放式技术,但更好的商业化服务可以以此建立,这一点也正是保证Internet持续发展的重要原则。

9 展望

1 语义网研究。HTML语言用于构建网页非常容易,但在索引检索时搜索却遇到很多困难,因此W3C提出了XML数据集用以解决WWW上信息检索问题。但是XML的实施却有一定的困难,因为XML虽然为搜索引擎设计带来很多便利,但对网页设计者来说却并不是一种很理想的工具。随后W3C又开发了RDF和Ontology等基于XML的更先进的网页数据模型,但是也都很难实施。在网页设计者和网页搜索技术间找到一种折中是解决问题的关键。而基于DNS的网页搜索引擎则为解决此问题提供了一种可行的方法。在系统的最底层我们可以使用基于XML的技术对HTML等多种格式的网页进行索引,这样对网页设计者来说其依然可以用HTML等格式进行网页设计,而对搜索引擎设计者来说,其面对的却是各个服务器提供的标准XML格式数据。但就目前情况而言,用XML格式进行网页索引相对较为简单,但是如何用RDF等更高级的语义模型索引网页依

11

然是一个很难解决的问题。

2 互联网信息基础体系研究。网页仅仅是互联网上的一种数据,普通的互联网用户在信息检索服务方面主要是用Google等网页搜索引擎,虽然现在的网页搜索引擎在覆盖率、更新率以及查询结果的准确率方面存在诸多问题,但还并不是非常严重。如果说Google上万个搜索结果使用户茫然不知所措的话,在图书馆里这还仅仅是一个开始,现有的图书馆中都有上百种各类资源,你可能要去依次查阅几十种各类相关资源,而且要对每种资源的检索规则有充分的认识方可获得全面准确信息,这对大多数用户来说十分困难。但互联网信息资源仍在急剧扩张,检索整个互联网几乎将变成一项不可能的任务。每个人都希望能够在一个系统中获得互联网上所有相关信息,而不用知道信息的所在位置。如何整合互联网上全部的信息资源消除“信息孤岛”已不仅是数字图书馆的研究课题,而是互联网进一步发展所必需解决的基本问题。如同网页资源一种,互联网其它各类资源也分布各地,因此可以考虑利用基于DNS网页搜索引擎的基本结构,建立一种可以有效覆盖连接互联网各类资源的Internet信息基础体系结构。作为基于DNS的网页搜索引擎的一个扩展,我们又提出了“域内资源整合系统,Domain resource integration system(DRIS)”用于此目的,目前已经在IETF[19]对此系统有一些相关的讨论。此项研究的更重要意义还在于为我们的分布式系统找到更为明显迫切的实施需求。 致谢 在此,我们向对本文的工作给予支持和建议的同行,特别是IETF应用层工作组的支持表示感谢 References:

[1] Steve Lawrence, C. Lee Giles. Searching the World Wide Web. Science, 1998,280:98~100 [2] C.M. Bowman, P.B. Danzig, D.R. Hardy, et al. The Harvest information discovery and access system.

Computer Networks and ISDN Systems, 1995,28 (1/2): 119~125

[3] N. Sato, M. Uehara, Y. Sakai, H. Mori. A distributed search engine for fresh information retrieval.

Proceedings of Database and Expert Systems Applications, 12th International Workshop on,2001:211~216

[4] Mark A.C.J. Overmeer. My personal search engine. Computer Networks,1999,31(21):2271~2279 [5] Infobus, http://www-diglib.stanford.edu/diglib/pub/userinfo.html

[6] Garratt, Andrea. A survey of alternative designs for a search engine storage

structure .Information and Software Technology, 2001,43(11):661~677

[7] Sergey Brin. The anatomy of a large-scale hypertextual web search engine. Computer networks

and ISDN system, 1998,30(7):107~117

[8] Henzinger M.R. Hyperlink analysis for the Web. IEEE Internet Computing, 2001,5(1):45~50 [9] Soumen Chakrabati, Dom Byron E. Mining the Web's Link Structure.Computer,1999,32(8):60~67 [10] 雷鸣,王建勇等.第三代搜索引擎与天网二期.北京大学学报(自然科学版).2001, 37(5):734~740 [11] Lei Ming, Wang Jiangyong,Chen Baojue, etc. Improved Relevance Ranking in WebGather, Journal

of Computer Science and Technology, 2001, 16(4):410~417

12

[12] 宋聚平,王永成等.搜索引擎中Robot搜索算法的优化.情报学报,2002,21(2):130~133 [13] Web ontology model,http://www.w3.org/2001/sw/WebOnt/

[14] Ronald Fagin, Ravi Kumar, Kevin S. McCurley, etc, Searching the workplace web, In: Proceedings of the 12th

International WWW Conference (WWW2003) May 20-24, 2003, Budapest, HUNGARY

[15] Liang sun. Implementation of large-scale distributed information retrieval system. Proceedings

of Info-tech and Info-net,2001,3 :7 ~17

[16] SDLIP, http://www-diglib.stanford.edu/~testbed/doc2/SDLIP/

[17] Huang Lieming, Hemmje Matthiasa, Neuhold Erich J, ADMIRE: an adaptive data model for Meta search

engines, Computer Networks. 33(2000)431-447

[18] G.T. Wang, F. Xie, F. Tsunoda, H. Maezawa, A.K. Onoma, Web Search with Personalization and Knowledge,

in: Proceedings of Multimedia Software Engineering, Fourth International Symposium, 2002

[19] IIRI BOF for DRIS, http://www.ietf.org/ietf/04mar/iiri.txt

13

本文来源:https://www.bwwdw.com/article/ylr3.html

Top