常用中文文献数据库收录资源对比分析

更新时间:2024-04-14 22:51:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

常用中文文献数据库收录资源对比分析

对常用中文数据库中国知网(CNKI)、维普资讯(VIP)和万方数据知识服务平台数据库(WANGFANGDATA)和国家科技图书文献中心(NSTL)的收录资源进行比较。方法 分别从上述数据库的官方网站获取其收录期刊目录,并与统计源期刊(2010版)、核心期刊(2008版)和高被引期刊(2010版)收录资源做对比分析。结果 CNKI、VIP、WANFANG和NSTL收录中文期刊分别为8 058、15 030、6 537、9 226种。统计源期刊(2010版)、核心期刊(2008版)和高被引期刊(2010版)所涵盖期刊分别为1 723种、1 983种和5 212种,常用数据库对重要核心期刊的收录超过80%。结论 数据库十分重视对重要核心期刊的收录,收录资源既有重复,也存有差异,各有特色。

目前,常用中文文献资源最具代表性和受欢迎的有中国知网(CNKI)、维普资讯(VIP)、万方数据知识服务平台(WANGFANG)和国家科技图书文献中心(国家科技数字图书馆,NSTL)等几大数据库。由于每个数据库厂商都在都在一味地追求大而全,过分强调收录文献的数量,导致中国的数字出版面临着一个严重的问题就是收录的期刊重复率较高,即同一篇文章,同一种期刊,可以在中国知网、重庆维普和万方数据同时被找到[1]。同时又由于各数据库所采用的分类体系不同,存在将同一种期刊放入不同学科的情况,造成数据库资源标准不一和重复浪费。

虽然中文数据库收录资源重复化的弊端已在文章[2]中详细分析过,但是他们仍然拥有极高的市场占有率[1]。尽管已有文章[1~3]对常用中文数据库做了对比分析研究,但是分析还仅限于在收录范围、文献抽样比较、检索功能与界面、用户服务、更新延迟等方面。现从量化的视角,清晰刻画各数据的收录特征,对提高信息检索质量,以及选择购买和使用都有直接的借鉴和现实的指导意义。 1 材料与方法

从各数据库官方网站收集整理收录的期刊目录资源(数据采集时间为2010-09),整理统计源期刊(2010版)、核心期刊(2008版)和高被引期刊(2010版)所涵盖期刊目录。首先做数据预处理,清理不规则数据并统一格式规范,然后将规范的数据导入到SQL SERVER的自建数据库中,利用数据库SQL(Structured Query Language)结构化查询语言,对各数据库的收录期刊和统计源期刊(2010版)、核心期刊(2008版)和高被引期刊(2010版)收录资源两两比较,做统计分析,描绘出数据库的收录特征并得出结论。 2 结果

2.1中文数据库收录类别对比 中文数据库的收录资源范围和类别不同,决定了各数据库收录内容差异,见表1。

各数据库收录中文期刊、统计源、核心、高被引期刊数量汇总对比情况见(表6)。CNKI数据库收录统计源和高被引期刊数量超过统计源和高被引期刊目录自身实际收录数量的原因主要是同一期刊被CNKI数据库不同专辑收录情况存在,即存在交差学科期刊被分为两个乃至多个专辑中。

3 讨论

如表1所述,各数据库都收录了全文期刊和外文期刊,可见它们对于搜集国内外科技文献的重视。在收录类别中,VIP的收录类别相对较少,但其收录的期刊数量却最多(表6)。其余几个库的收录类别相差无几,除中外文期刊外,还涵盖了学位论文、会议论文、标准法规、专利文献、方志年鉴等与科技文献紧密相关的内容。 统计源期刊(2010版)、核心期刊(2008版)和高被引期刊(2010版)所涵盖期刊分别为1 723种、1 983种和5 212种。由表2至表6信息分析可以得出,CNKI、VIP、WANGFANGDATA和

NSTL数据库虽然对收录期刊专辑划分标准不同,收录期刊数量也相差许多,但基本覆盖了科学技术和社会科学的各个领域。各数据库的同一学科专辑所收录的统计源期刊与核心期刊数量几乎相当。总体来看,都对社会科学、经济管理、哲学政法类核心期刊普遍收录较少,而对医药卫生、工业技术和基础研究方面的期刊收录相对丰富。

VIP数据库的收录量占有绝对优势,达15 030种期刊,收录了大量内部发行期刊,几乎覆盖了现出版的所有中文期刊,收录的自然科学和工程技术方面的期刊量比CNKI多出近50%,收录期刊总数比CNKI或WANGFANGDATA多出一倍多。因此,VIP适合用户进行科技文献的回溯性检索。而WANGFANGDATA的收录期刊数量为3者中最少,但核心期刊比率很高[4]。CNKI则重点收录了国内公开出版的核心期刊与具有专业特色的中西文期刊,收录统计源、核心和高被引期刊达到98%以上,收录高质量期刊方面做得最好,质量最高。之所以CNKI收录的统计源和高被引期刊数量之和超过统计源和高被引期刊自身的收录数量,主要原因是存在同一期刊被多个专辑重复收录情况。

NSTL是我国工程技术领域科技文献信息资源收藏、开发和服务的核心机构,系统收藏工程技术、高技术各个学科领域的科技文献,覆盖国内出版的所有科技期刊和覆盖所有国外工程技术类核心期刊。NSTL累计收藏各类科技文献500余万册,是国内会议论文、学位论文、科技报告收集规模最大、最完整的机构;是收藏美国政府科技报告年代最早的机构;收藏两院院士学术专著特色文献资源3 300余部。同时NSTL以国家授权方式购买的国外网络版电子期刊(包括现刊和回溯期刊)、综合文献和事实型数据库等采取IP地址认证方式为我国大陆有需求的学术型、非商业机构用户提供免费在线使用。 尽管各数据库努力宣传自身优势,但是通过所收录期刊目录的详细比对,很容易得出这样的结论:①各数据库对高质量的核心期刊的收录几乎相当,没有显著差异,他们对统计源、核心和高被引期刊目录所收录的期刊均作了较全面的收录。②CNKI收录的高被引期刊最多,其次是WANFANGDATA,这也说明了CNKI和WANFANG十分注重所收录期刊的质量,而VIP的收录覆盖范围广。③因为统计源与核心期刊对选刊标准不同,显示数据库的同一专辑中,统计源与核心期刊的收录数量相差悬殊,而对高被引期刊的专辑收录数量和总量都几乎相当。譬如,在医药卫生专辑的收录中,CNKI、VIP和WANFANGDATA收录的高被引期刊数量分别为888、850和865种。所以用高被引指数期刊[5]这一指标来比较各数据库的收录质量更趋合理和客观。综合表6数据来看,CNKI做的较好。④对于从事工程技术领域的广大科技工作者和创新主体而言,要充分利用NSTL的文献信息资源。

根据上述分析,对于科技创新主体、终端用户和科研工作者而言。科技查新活动担负着科技管理工作的支撑引领作用,对于数据库的选择和查全、查准率对于科技查新、查引都有着决定性的影响,对用户合理选择上述数据库有重要参考价值。

各数据库要走特色创新之路,办出各自产品的鲜明特色。要注重收录期刊的数量和质量。剔除非法期刊,做到回溯期刊收录文献的全覆盖。注意查缺补漏补齐收录文献。开发独具特色的信息处理方案和信息增值产品,大规模集成整合知识信息资源,为用户提供从数据、信息到知识的全面解决方案。在数据更新上做文章,保证信息的及时更新,确保数据的权威和有效。

对于目前而言,跨库检索检索平台的建立非常必要。文献库并不能仅是单纯的数字化复制活动,更重要的是要以全新的方式向用户提供信息资源,是极具创造性的再生产过程。各文献库主办单位应更注重提供知识的深层次挖掘,避免是大而全的一个复制品。 该文虽没有涉及到具体被收录的某一种期刊,毋庸置疑,各数据库存在对同一期刊收录文献年限和数量的差异,并且网络出版文献量会小于等于原纸质出版期刊文献载文量,出现未收录刊期情况也非常普遍,原因主要有:①作者未授权/保密。②获得的网络出版授权问题。③时间久远,找不到原刊。这些都需要用户在选择、购买或使用数据库时注意比较。综上所

述,CNKI在文献收录方面占有一定的优势,从量化的角度分析,收录高质量期刊方面做得最好,质量最高,应该成为用户的首选中文参考数据库,VIP则可以充当很好的资源补充。 尽管该文分析了各数据库的本质收录特性,但是还没有涉及资源重复收录情况。目前各数据库面临着激烈的竞争,各数据库的宣传攻势又大大超出了用户的甄别能力,也为用户的选择和使用带来的极大的负担。有必要细化各数据库收录资源的重复情况进行统计,以期能得出更有借鉴和参考价值的信息,这将在后续的深入研究中加以探讨。本文通过对各数据库所收录的期刊与统计源期刊、核心期刊和高被引期刊目录做了比较,通过两两数据库之间对比分析,找出了他们的异同,清晰的刻画了各数据库的本质收录特征,对用户如何选择、购买和使用上述几种中文文献库都有直接的借鉴和现实的指导意义。 4 参考文献 [1] 谭捷,张李义,饶丽君. 中文学术期刊数据库的比较研究[J].图书情报知识,2010,(4):6-15. [2] 温芳芳. 试论中文电子期刊数据库资源重复建设问题——以VIP、CNKI、万方三大全文数据库为例[J].新世纪图书馆,2008,(2):69-71.

[3] 姜琳. 合理选择中文电子期刊数据库[J].科技情报开发与经济,2006,(6):7-9. [4] 彭骏. 三大中文期刊全文数据库的比较研究[J].中国索引,2005,3(2):11-14. [5] 曾建勋. 2010年版中国期刊高被引指数[M]. 北京:科学技术文献出版社, 2010. 〔作者简介〕谷景亮(1975-), 男,山东莘县人,硕士,助理研究员,为主获省科技进步三等奖1项、省软科学成果奖2项,发表论文10余篇。

本文来源:https://www.bwwdw.com/article/7rlp.html

Top