因特网上中文搜索引擎的评述

更新时间:2023-12-30 00:20:02 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

因特网上中文搜索引擎的评述

叶中行 葛 勇 叶 蕾

---- 摘自《科学》2001第3期

因特网上的科学信息和电子杂志的总量在持续增长,整个网络可看作是一个可以检索的150亿单词的大电子百科全书。但是这些信息是极其无序的,如何获取和利用因特网上的信息已经成了一个大问题。目前解决这一问题的最佳途径是利用搜索引擎。

因特网上的信息呈几何级数增长,快速有效地查询一项艰巨的任务,这个需求直接导致了广域网信息检索技术的快速发展,各类搜索引擎层出不穷。

所谓搜索引擎,是指因特网上的在万维网 (WWW)中主动搜索信息并能起自动索引、提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建成数据库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。科学家很早就梦想能够快速检索所有的科技文献,现在,搜索引擎使得在数秒钟内取得大量的文献成为可能。

中文搜索引擎概述

中文搜索引擎的出现是最近几年的事情,但发展很快。它的性能究竟如何,能检索到的信息有多少,因特网上的中文信息或网页知多少,这些都是值得关心的问题。

目前中文引擎共有约80多个,可以分为两类,一类是自由词或关键词检索搜索引擎,另一类是分类搜索引擎。由于语言、文化上的差异,中文搜索引擎必然与国外的搜索引擎有所不同。中文搜索引擎有两个特点。

1.内码:由于历史原因,目前世界上使用中文的国家与地区在中文语言的使用上有较大差别,体现在计算机处理上也有很大不同,其中最重要的区别是采用不同的字符集及内码体系,例如祖国大陆用的是GB码,而中国台湾地区则用BIG5码,字符集的大小也不尽相同?

2.分词:西文单词用空格分隔相当清晰,而此法对中文的字词则行不通,因此造成传统上就的不同处理方法。一种是完全单汉字全文检索,即将文章中的每一个汉字都进行索引,而将用户的检索提问根据单汉字匹配的原则去检索。此法查全率高,但查准率低。此处还有一种方法,则是目前绝大多数中文搜索引擎采用的分词方法,即根据一定的原则和手段来对文章进行自动分词,然后按词建库,对检索结果按词汇匹配进行查询。一般来讲,这样既比较准确又能提高整个系统的检索响应效率。但中文的组词十分复杂,常用名词、专用名词、地名、人名、成语等各不相同,目前的中文搜索引擎还没有很好地解决中文名词分词的技术,往往影响了引擎的查准率?

如同因特网上的信息一样,搜索引擎的发展本身也是无序的,如何选择最符合需要的搜索引擎,通过其在因特网上以最小的代价找到所需要的信息,这些涉及到对搜索引擎性能的评价?

中文搜索引擎的评价方式

要有效地评价各中文引擎,首先要选定评价标准。(1)资料全:即查全率高,以免为了某一信息要查询多个搜索引擎;(2)信息准:即搜索得到的信息与用户所要求的信息的相关性高,查准率直接影响到搜索的速度和费用;(3)速度快;(4)费用省。用四个字表述就是:全、准、快、? 劳伦斯和贾尔斯曾对Alta Vista、 Excite、 HotBot、 In-foSeek、 Lycos、 Northern Light以及Alta Vista、 EuroSeek、

中英文集成搜索引擎及网址

Easy Searcher2 Http://www.easysearch..com 英文集成搜索引擎 ByteSearch Http://www.bytesearch.com Mamma Http://ww.mamma.com MetaCrawler Http://www.metacrawler.com Profusion Http://www.profusion.com Search.com Http://www.search.com SavvySearch Http://www.savvysearch.com Dogpile Http://www.dogpile.com 飚凤搜索通 Http://www.pchome..net 万纬搜索引擎 Http://www.widewaysearch.com 中文集成搜索引擎 3721 Http://www.3721.net T500 Http://search..t500.net(163用户访问 Http://longfei.itpc.com/asp/searcj.asp(169用户访问 常用中文搜索引擎及其特点

搜索引擎 Excite 主要特点 支持中西文的高性能检索引擎,拥有现今最大的中文网页数据库,用人工智能法进行切分词和概念分析,搜索跟提问式的概念和含义相关的文献 库容量及响应速度令其他中文引擎难以匹敌。其核心不是为非西文语种准备的,中文检索时不支持高级检索功能,不能运用一些强劲的逻辑检索特性 检索功能非常强劲,引擎的核心是非常成熟的商用软verity。界面清晰明了,但其页面上缺乏对于其检索功能的简单描述和辅助选项按钮 其免费主页、免费EMAIL等具有一定的影响。检索时先在自己的分类库中进行查询,若无结果,系统将提问式转向全文数据库进行检索 主要以CERNET的网页信息为主。系统不仅提供WWW网页的查询,同时也提供对新闻组(Newsgroup)内容的查询,还支持通过EMAIL的检索 考虑到两岸三地的特点,各个网站都有GB与BEG5两种页面,Goyoyo(悠游) 内容考虑到不同用户的需求而有所差异。除网页搜索外,还提供了网址(URL)查询功能 基于汉语语法、词的上下文和语义等中文信息处理技术,智能化地提取摘要和关键词、建立索引、提供查询,监控不良信息、报警功能的网络信息自动发现和查询 可查询面较广泛,包括艺术、教育、宗教、体育等,也可用”或”、”与”、”非”来进行检索 英文主页面同时有四个链接,分别链接至目录服务,WWW网 Alta Vistat(Sina新浪) Cseek(搜索客) Netease(网易) WebGather(天网) Wander(网典搜索) Lotof(好多) Gais(盖世搜索) 页的检索,BBS资料库检索与FTP检索。WWW网页检索与分类库浏览页面是中文的 Tonghua(常青藤) Sohu(搜狐) 作为一个智能的中文搜索引擎,汇集了大陆、港台、澳门、新加坡等中文地域的网络地址 主页上提供了许多相关信息、广告等等,相对于它相当及时的新闻更新来羽,它的库更新间隔就显得稍微长了一些 主要以中国教育和科研计算机网(CERNET)、ChinaNet、中国Compass(指南针) 科技网(CSTNET)、中国金桥网(ChinaGBN)等的信息为主。特色是它的多样化输入方式和多个分类体系 大体上保留了它的英文引擎的特色,并且根据中文的特点作了YahooGB(雅虎) 一些改进。保留了原来的主分类,在细目上又根据中文的特点作了改动,重新规划分类 搜索引擎

注:中文搜索引擎可分为两类,表中上半部分为9个关键词类搜索引擎,下半部分为4个分类

折线及拟合函数f(x)=b(1-e-ax)中文搜索引擎测试中,返回网页数与引擎个数 个数呈指数关系,估计参数b=7.5016×107

Excite、 Google、 HotBot、 InfoSeek 、Lycos、 Microsoft、 North-ern、 Light、 Snap 、Yahoo等英文搜索引擎收集大量的试验数据,利用统计方法进行比较。分析和评价[1,2] 。研究结果宣称,1997年公众搜索引擎包含至少3.2亿个网页,最大的搜索引擎盖率估计为网页总量的三分之一。1999年他们利用随机抽样估计出网络服务器总数为1.6亿个。而公众搜索引擎则为8亿页,两年中翻了2.6倍。他们还估计出万维网上总的影像资料数量约为3*1012字节,公众搜索页面上有1.8亿个图像。同时搜索引擎的搜索结果有重叠部分,引擎的不同覆盖组合之各为3.35亿页,是估计总页数的42%。

中文搜索引擎的评价方法

为简化测试和计算,笔者采用了抽样统计方法,利用上海万纬信息技术有限公司的一个可以同时对多个中英文搜索引擎进行搜索的集成搜索引擎进行测试,首先精选30个关键词对颇有名气的14个中文搜索

引擎进行测试,选择测试结果中返回页总数最大的6个引擎,然后用精选的500个关键词进行测试,搜集检测返回页数的数据,并进一步估计万维网上中文页数总量和单个引擎的覆盖率。

同时用二引擎、三引擎、四引擎、五引擎和六引擎进行测试,每次输入关键词,搜索结果返回各引擎的网页总数,同时要求返回前100、200、300条信息的记录,用这三批信息中的重复数估计被测试的多个引擎返回页的重复数。于是,各引擎的返回网页总数之和减去重复数,即得被测试的几个搜索引擎返回的网页总数。测试的日期从2000年3月18日到5月24日。

同时,随机抽取一些关键词进行手工检查,以便确认所有的检索结果都是从每个引擎中返回,并且是经过正确的语法分析得到的,手工检查的重复数与上述试验中返回的重复数是一致的。通过逻辑查询发现,不同关键词之间检索结果重复率很低,可以忽略不计。

还要指出的是:每个搜索引擎我覆盖的页数每天都会有变化,很小的可以忽略不计,而有的变化很大,如其中一个引擎返回的网页总数在5月12日到5月24日期间比二周前增加了1.675倍。

测试结果的评价

通过上述方法对2000年3月18日到5月15日测试结果进行计算。测试一个、两个、三个、四个、五个、六个引擎返回页数的数据,可以认为返回顺的网页数与引擎个数呈指数关系。用最小二乘法估计参数,500个关键词返回的中文万维网页总数上界为7500万页左右。考虑到所选用的关键词仅500个,因此猜测实际的网页总数应在1亿页以上。 单个引擎的覆盖率

算出了每个引擎返回中文万维网页数和万维网总页数的估计数,就可以计算每个引擎的覆盖率。如考虑覆盖率变化较大的一个引擎的影响,再重新测试,对在3月18日到5月24日测试所得结果进行计算,得到各中文搜索引擎的覆盖率。

由计算结果可知,大多数单个引擎的覆盖面都是有限的,只有一个引擎能够覆盖各类引擎搜索总页数的约60%。还有很大一部分万维网页没有被任何引擎索引过。六个引擎组合的结果是最大引擎覆盖页数的1.67倍,是最小引擎覆盖页数的29.54倍。不同中文搜索引擎可检索信息量的差距非常明显。

造成引擎覆盖面差距的原因是多方面的,如网络带宽、磁盘容量、计算能力等,引擎覆盖面的大小显然是衡量引擎功能的一个重要指标。 中文搜索引擎的查准率

笔者另外的一些试验结果表明,不同引擎对同一个关键词的查准率及同一引擎对选自不同领域的关键词的查准率都有很大差别,查准率的变化范围从0到100%。这表明各个引擎搜集信息的领域各有偏重。 在测试过程中还发现各个搜索引擎搜索的方式各不相同,Yahoo在查询的时候是按目录进行查询的,比如说,在查“上海交通大学”的时候,它首先查询有无与“上海交通大学”有关的目录,如上海,然后再一层一层的往下查,而新浪和Lotof则是在网页中直接按整个词进行查询,比如说在查询“上海交通大学”时,这两个搜索引擎将查询包含“上海交通大学”这个词的网页,而Goyoyo则是按单字进行查询的,如在查“上海交通大学”的时候,它将分别查询与各个字有关的网页,其结果是查全率较高,但查准率相对低一些。 查全率和查准率是有关的,查准率高但查全率低,查到的信息的绝对量就少。反之,查到有用信息的代价就高。为提高搜索的准确度,大多数的英文搜索引擎都支持逻辑查询。用户可以用多个单词,加上适当的逻辑字符来缩小搜索范围,从而显著提高搜索结果的准确度。中文搜索引擎并非都支持控制符。 主要的引擎供应商都声称他们的引擎能够跟上整个因特网的膨胀速度,但是,万维网是分布式的、动态的、快速增长的信息资源,这对于传统的信息收集技术来讲有着不可克服的困难。传统的信息收集技术是为不同环境设计并代表性地用来索引一个静态的、且可以直接访问的文档。而万维网的发展带来一些重要问题,如引擎的集中化架构是否能跟上文档的扩张速度;引擎是否能有规律地及时更新他们的数据库,以便检测那些已修改过的、已删除的、已重新定位的信息。令人遗憾的是,对所有这些问题的回答都和目前最好的引擎技术相冲突,甚至和可预见未来的引擎技术相冲突。

集成搜索引擎

单个的搜索引擎是从数据库提取信息的,具有很大的局限性,因此有必要发展性能更优越的新型引擎搜索技术,集成搜索引擎应运而生。

集成搜索引擎(meta—search engine),也称元搜索引擎、多搜索引擎、索引搜索引擎等,被称为搜索引擎之上的搜索引擎。用户只需递交一次检索请求,由集成搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。它是将整个因特网作为一超大型的动态的数据库。由于采用了一系列的优化运行机制,能够在尽可能短的时间内提供相对全面、准确的信息,即使不能完全满足用户需求,仍可以作为相对可靠的参考源进行扩展搜索,因此成为备受推崇的检索首选入口。

许多人认为,集成搜索引擎不过是多个独立搜索引擎的堆积、简单的集中调用而已。事实上,一个真正的集成搜索引擎由三部分组成,即:检索请求提交机制、检索接口代理机制、检索结果显示机制。“请求提交”负责实现用户“个性化”的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。“接口代理”负责将用户的检索请求“翻译”成满足不同搜索引擎“本地化”要求的格式。“结果显示”负责所有源搜索引擎检索结果的去重、合并、输出处理等。

集成搜索引擎主要分为基于服务器端和基于用户端两大类,基于用户端的根据用户应用模式又可分为基于万维网的免费搜索引擎、可供免费下载的客户端桌面应用型、可共享或授权使用的桌面应用型等。 英文集成搜索引擎涵盖范围较广。Easy Searcher2收录有网上最流行的20余个通用搜索引擎和19个类

别的近400个专业的搜索引擎。 ByteSearch提供最新的20个检索浏览、联机商店等内容方面的服务。 Mamma可同时调用7个最常用的独立搜索引擎。MetaCrawler除支持调用12个独立搜索引擎外,本身还提供了涵盖近20个主题的目录检索服务。Profusion的检索界面支持个性化设置,并自动实现符合特殊检索语

法要求的转换。Search.com是美国著名的 IT站点CNNET下的一个子站,它提供14个类别的搜索引擎。 SavvySearch可调用200多个搜索引擎或指南,一次可并行调用5个搜索引擎,也可以作为一个专用搜索引擎的导航工具使用。SavvySearc同时提供23种语言版本,但其高级功能只适用英文版。Dogpile的特点是能检索新闻组。

中文集成搜索引擎目前还不多见,基于客户端的飚风搜索通,可免费下载具有集成搜索功能的搜索软件。上海万纬信息技术有限公司最新推出的万纬中文集成搜索引擎(基于服务器端)包括8个英文搜索引擎和12个中文搜索引擎,它们分别是AltaVista、 Argos、 DirectHit、 Fast、 Google、 Hotbot、 NorthernLight、 Yahoo,网典、新浪、雅虎(中文)、搜狐、搜索客、天网、悠游搜索、好多、找到啦、欧姆龙、飞华、Excite(中文)。用户可根据需要自由选择其中最多6个引擎进行同步搜索,搜索结果可按相关度、时间、域名和引擎分类。

此外还有的中文网站也提供多个引擎的搜索功能,但不是真正意义上的集成搜索引擎。如3721是一个搜索工具类网站,它可以把用户输入的关键词同时提交到网易、新浪、雅虎(中英文)、搜狐、搜索客、263、悠游搜索7个搜索引擎上,其查找结果是这7个搜索引擎查找结果的大集合。T500网站则集成了国内外近百个搜索引擎,分为网站、软件、MP3、文章、新闻、游戏、硬件等类别,大部分搜索引擎都提供中文信息,着重服务于国内网友。

中文集成搜索引擎的竞争刚刚开始,它将促进中文搜索引擎的进一步完善与提高,加速网络技术的发展。

[1]Lawrence S, Giles G L. Science, 1998, 280 [2]Lawrence S, Giles G L. Nature, 1999,400 关键词:搜索引擎 集成搜索引擎 因特网 作者介绍:

叶中行: 教授; 上海交通大学应用数学系, Email:zxye@sjtu.edu.cn Ye Zhongxing:: Professor

葛 勇: 研究生:上海交通大学应用数学系,上海 20030 Email: freeingman@sina.com

GE Yong: Postgraduate for PhD: Department of Mathematics, Shanghai Jiaotong University, Shanghai 200030

叶 蕾: 上海朗讯科技光网络有限公司,上海 200233 Email: prifzilla@citiz.net Ye Lei: Lucent Technologies Optical Networks (China) Co. Ltd, Shanghai 200233

本文来源:https://www.bwwdw.com/article/9c4x.html

Top