数据库和学术搜索引擎的比较研究

更新时间:2023-10-30 19:59:02 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

《科技创新与实践》课程论文2016.1.4-2016.7.8

物联网工程专业12级

常州工学院-计算机信息工程学院

数据库和学术搜索引擎的比较研究

戴春春 12030804

常州工学院 12物联网

E-mail:1602665297@qq.com

摘要:近几年来中国学术期刊数据库以及各大搜索引擎都发展很快,而且在发展过程中形成了自己的特色。本文选取了中国知网、维普以、万方中学术期刊数据库以及百度、谷歌、必应搜索引擎作为研究对象,从它们各自的适应范围、收录情况,数据库结构以及检索功能及结果等方面进行比较分析,从而得出各类搜索引擎之间的联系与区别。使我们在信息检索中选择了好的搜索引擎,才能快速、准确地找到所需要信息。

关键词:数据库;搜索引擎;比较分析

引言

信息技术的不断发展,特别是互联网应用的迅速普及,深入到了人们生活的各个方面,改变了人们生活方式和思维方式,方便了全球信息资源共享。全球目前的网页超过100亿,每天新增加数百万网页,电子信息爆炸似的丰富起来。要在如此浩瀚的海洋里寻找信息,就像“大海捞针”一样。能有一种工具使我们可以在不到1秒钟的时间就迅速找到我们想要的内容吗?答案是“有”,这就是搜索引擎。今天,搜索引擎已成为人们在网络信息海洋中自如冲浪必不可少的利器。与此同时,各种类型的期刊数据库以其方便快捷的特点为广大读者所接受。目前国内学术文献信息服务市场上利用率最高,影响范围最广,市场份额最大的中文期刊全文数据库有中国期刊网CNKI、重庆维普科技期刊VIP和万方数据——中国数字化期刊群。

那么,在多个数据库和学术搜索引擎中进行检索,又会出现怎样的异同?本文就是我用不同的搜索引擎和专业数据库对智能推荐系统进行的检索结果。

一、搜索引擎的简介

1.1 搜索引擎的概述 用户输入所需查询条件后,根据此查询条件在网络或者其他数据来源中按照某种方式在数据源中检索并搜集信息,同时对所获取到的信息进行一系列的处理,例如分析和存储等,并将处理后的结果返回给用户,这种能够为用户提供信息导

1

2 《科技创新与实践》

航作用的系统称为搜索引擎。

全文搜索引擎、元搜索引擎,以及目录索引类搜索引擎是当前主要的搜索引擎分类,这三类搜索引擎的差别,主要是按照其工作方式的不同进行划分的。

1.2全文搜索引擎 此类搜索引擎中,索引和检索等关键性的操作都是基于全文检索的方法和模式,为用户提供全文检索服务。当用户需要检索时,这类搜索引擎从索引数据库中查询与检索条件匹配的条目,并对相匹配的记录进行排序,将排序后的信息作为查询结果返回给用户。因此,全文搜索引擎是真正意义上的搜索引擎。

1.3元搜索引擎 这种搜索引擎可调用其他搜索引擎来完成自身的搜索服务,从而使用户能够通过元搜索引擎从其他独立搜索引擎中进行网络搜索。通过元搜索引擎,用户可以只进行一次查询,从多个预先设定的独立搜索引擎中得到查询结果。这个过程中,元搜索引擎对用户提交的查询条件进行相应处理后,提交给多个独立的搜索引擎,并将搜索结果集进行处理后返回给用户。相对于单个搜索引擎,元搜索引擎通过综合利用多个搜索引擎的搜索服务,在一定程度上提高了搜索的查全率和查准率。但是,由于需要综合査询结果,因此要等待全部所调用的搜索引擎完成搜索提交结果并综合后,才能为用户返回最终结果,因而元搜索引擎通常搜索速度比较慢。元搜索引擎中比较著名的有Vivisimo、InfoSpace等。

1.4目录索引类搜索引擎 该类搜索引擎是通过人工浏览各网站的信息,按照一定的分类规则或分类体系,对网站进行分类。总体上说,错误相对较少、结构条理清晰、较为符合人们的阅读方式是这类搜索引擎的优点。这类搜索引擎的缺点则是需要的工作人员多、信息整理耗时、速度慢、需要人工进行处理,无法适应网络信息的发展,除此之外,如果检索的信息为进行分类处理,则无法进行搜索。目录索引类搜索引擎虽然有搜索功能,但其只算是按目录分类网站链接列表。

二、各大搜索引擎的特点

2.1百度搜索引擎的特点 百度搜索到相关结果约55,300,000个。百度作为全球最大的中文搜索引擎,在查找资料时更显方便,不但有输入提示,网页快照,而且百度百科在解释术语方面还比较详细。搜索时间也很快,稳定性强,搜索结果与谷歌比也不相上下,而且更新较快。

《数据库和学术搜索引擎的比较研究》 3

图1 百度搜索

2.2谷歌搜索引擎的特点 谷歌搜索到1,270,000条结果,用时0.34秒。“Google”搜索特点是速度快而且提供了最丰富的高级搜索功能。但是死链率比较高是Google最大的问题,稳定性不够高。特别是“网页快照”功能,有却出现不可访问的问题并且内容更新不是很及时。

图2谷歌搜索

4 《科技创新与实践》

2.3必应搜索引擎的特点 与传统搜索引擎只是单独列出一个搜索列表不同,微软还会对返回的结果加以分类。另外,侧边栏还会显示一组相关的搜索关键词。必应网站是收录最慢的一个搜索引擎,一般都是要一个月进行收录,同时收录的内容也是比较少。但是,它对英语网站的收录量和速度很快。

图3必应搜索

三、专业数据库的简介 3.1三种中文全文数据库基本情况概述 中国期刊全文网(简称“CNKI”)是由清华同方光盘股份有限公司、光盘国家工程研究中心和中国学术期刊(光盘版)电子杂志社共同研制出版的综合性全文数据库。创建于1994年,1996年12月正式发行,是我国第一个连续出版的大型集成化学术期刊全文数据库。通过建立镜像站点、互联网远程访问等方式提供服务。

中文科技期刊数据库(简称“维普”)由科技部西南信息中心主办,重庆资讯有限公司制作,收录了1989年以来的文献资料,2001年正式出版发行。其前身为《中文科技期刊篇名数据库》,是目前我国收录期刊最全的综合性全文期刊文献数据库。

《数据库和学术搜索引擎的比较研究》 5

万方数据资源系统数字化期刊(简称万方)是万方数据库资源系统三大组成部分之一,由中国科技信息研究所属下的北京万方数据股份有限公司创办。它是国家九五重点科技攻关项目“科技期刊网络服务系统”的组成部分,由万方数据网络中心具体运行。

3.2万方数据库的特点 万方数据资源系统搜索到654条记录。万方数据资源系统包括多个数据库资源,针对不同的数据库特点设计了不同的检索入口,在选定的数据库中输入检索词或构建的检索式,即可在系统默认的简单检索界面上通过单击“检索”按键进行相应的查询。

图4万方检索

3.3维普数据库的特点 维普检索到837篇相关文献。其特点是:全球著名的中文信息服务网站,以及中国最大的综合性文献服务站。有5种检索方式:快速检索、传统检索、高级检索、分类检索和期刊导航。

6 《科技创新与实践》

图5维普检索

3.4中国知网的特点 中国知网(CNKI)系列源数据库检索到2394条结果。知网收录时间是1994年至今,主要收集学术性期刊,其特点是“专而精”,它有题录库和全文库,其中全文库是整刊收录,期刊的原版显示,比较适合搞学术研究工作者使用。目前已收录6600种核心与专业特色中英文期刊的全文,占国内全部7000多种学术期刊的93%,内容包括:数学、物理、生物工程、化学、材料科学、农业科学、医学、卫生保健学、文学、艺术等方面。网上的数据每日更新,光盘数据每月更新。

《数据库和学术搜索引擎的比较研究》 7

图6知网检索

综上:从检索方式比较,三个库都可进行简单检索高级检索专 业 检 索,检索策略都可以编辑、保存,三者检索方式基本一致,但维普的检索功能更为全面。从检索界面分析,三个库都可以进行简单检索、二次检索、高级检索等,检索策略都可以编辑、保存。三者检索方式基本一致,但维普的检索功能更为全面。

四、总结

学完这门课程,我了解到了更多搜索方式,在写论文或者查找资料的时候更加方便,且对于文献检索有更升入的了解,能够较为准确地查找到自己所要查找的内容。同时,发现在多个数据库和学术搜索引擎中进行检索结果存在很大的不同。

从搜索方式上看,搜索引擎使用起来要方便简单易用,信息更新快,只需要输入关键词

就可搜索,而且搜索引擎大多是免费的查找网络上已有的网页,是一种人人可用的检索方式。

专业数据库的使用就比较的麻烦复杂,需要具有一定的相关知识才可以运用。专业数据库是收费的,需要专门购买,但是专业性强,节省时间。

从搜索结果来看,搜索引擎能够搜索到网络上已经存在的大量文章,搜索的结果是比较宽泛的,可能搜到的更多的是类似的内容。这其中既有专门的论文也有相关的新闻或者一些网友的看法,很多真正有用的数据都是被加密而不会被搜

8 《科技创新与实践》

索引擎搜索到的,相关性和权威性较差。如中国知网,万方等数据库能搜索到的期刊论文,百度等搜索引擎上是查不到的。专业数据库则只是收录了各类学术期刊中的论文以及一些学生的毕业论文,信息覆盖面要小一些,结果却很精确,搜出来的可能是比较专业,比较有效的信息。因此专业数据库的文章的相关性权威性要较搜索引擎高。

所以,我觉得专业数据库的文章的数据一般都是可靠地,而且在搜索时可以根据一些特定条件来搜索从而满足自己要求,而免费搜索引擎搜到的真实性和可利用性较差,只能作为参考。

参考文献

[1]贾文静.中文期刊全文数据库检索功能比较研究[J].情报探索,2012

[2]谭捷,张李义,饶丽君.中文学术期刊数据库的比较研究[J].图书情报知识,2010 [3]龚丽萍 .搜索引擎分析.百度文库

本文来源:https://www.bwwdw.com/article/eai2.html

Top