09年下学期现代信息检索讲义(1)

更新时间:2023-05-29 03:04:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

现代信息检索

编辑作者:赵晓燕

电子邮件:tsgyz@

现代信息检索讲义

古人云:授人以鱼,不如授之以渔

云南师大商学院

图书馆

2009年9月

现代信息检索

目 录

上篇 图书馆概述

第一章 图书馆概述

第二章 数字图书馆

第三章

第四章

第五章

第六章

第七章

第八章 下篇 信息检索 信息检索基础知识 数据事实检索 特种文献检索 网络信息资源检索与利用 学术论文撰写及发表

国外部分重点检索工具

现代信息检索

第一章 现代图书馆概述

一、图书馆史略

文字的产生和文献的出现,是人类社会进入文明阶段的重要标志。当人类意识到需要

将经验和知识用文字记录下来以供利用时,最古老的文献便产生了。当人们认识到需要对已产生的文献进行连续不断的收集,并将收集到的、有一定数量的文献有序地存放在一起以便长久保存和利用时,最早的图书馆便诞生了。

考古发现,在约公元前3000年的河南安阳的殷墟的一个窖穴里,有2万多块甲片整

齐地摆放在一起,这是已知最早的图书馆。

中国最早的文献形态,是公元前14~前11世纪,商代后期的甲骨文献和金文文献。商代设有史官,掌管记录统治者的言行及重大事件的图书档案。周代除王室有收藏文献的库室外,各诸侯国也有本国的文献库室,因为最晚在春秋战国时已流行以竹木和缣帛为载体的文献,记录文字较前便利得多。在以上这段时期,图书和档案工作是结合在一起的。隋唐写本书盛行,推动了图书馆事业的发展。唐代发明的雕版印刷术,至宋代得到普遍推广,文献的生产更加方便,五代十国曾一度凋敝的图书馆事业又迅速复兴起来,并且出现了新的图书馆类型—书院藏书。金、元两代图书馆没有重大发展。明代又掀起高潮,以私人藏书成绩最为可观,成了图书馆事业的主流。清代无论是官府藏书还是私家藏书在数量和规模上都大大超越了前代。鸦片战争以后,封建时代的图书馆事业逐渐向近代公共图书馆事业过渡。1902年,浙江绍兴的徐树兰以一己之力筹建古越藏书楼,于1904年正式开放。湖南图书馆和湖北图书馆也先后成立。北京图书馆的前身京师图书馆1910年开始筹建,1912年正式开放。

近代大学图书馆的产生,在时间上要早于近代公共图书馆。1902年由中国人自己创办的京师大学堂(北京大学前身)图书馆为最早;由外国人在中国创办的教会大学图书馆,以1894年成立的上海圣约翰大学图书馆为最早。

中国封建社会图书馆经过漫长演进而兴盛、发达,成为一种成熟的精神文化形态,为人类积有累世不断的、浩如烟海的文献。除甲骨文献、简牍文献、缣帛文献等仍在陆续出土外,现在保存在各大图书馆里的唐末以来的纸质古籍,据不完全统计约有十万种以上。这是中华民族对整个人类文明所做的特殊的、卓越的贡献。

古埃及最迟在约公元前23世纪前的古王国时期,就有了王室图书馆和寺院图书馆。

古代希腊、罗马时期也都有为奴隶主阶级,及其贵族知识分子保存资料的图书馆。特别值得一提的是在希腊化时代(公元前四~前一世纪)托勒密王朝曾建立了规模宏大的亚历山大图书馆。

图书馆作为一种社会机构,对人类社会文明的贡献是巨大的。早在17世纪德国的莱布尼茨就称誉它是“人类灵魂的宝库”。凡历史上为各个学科领域的发展提供了某种新思想,做出某种创造性的贡献的人,无一不是利用图书馆博览群书,而成为知识渊博的一代伟人的。图书馆无论在历史上、现实社会和未来社会中,都对人类文明的进步和发展起着不可替代的作用。

现代信息检索

二、图书馆的基本含义及类型

1.定义

图书馆是系统搜集、整理、保存、传播和利用书刊资料,为一定社会的政治、经济和

文化服务的科学、教育、文化机构。具有保存人类文化遗产、社会教育、传递科学情报、开发智力资源等四大基本职能。

图书馆是为人们利用知识创造便利的机构。它是知识的聚散地,是社会的记忆装置和

扩散装置。

图书馆是知识与知识利用者之间的桥梁和中介。

聚(采访)→序(管理)→散(服务)

根据国际图联和国际标准化组织的定义,图书馆大致可以分为国家图书馆、公共图书

馆、学校图书馆、专业图书馆等四类。不同类型的图书馆在职能、服务方式、服务对象等方面都有所区别。

2.图书馆的类型

目前,我国现代图书馆大致分为三大类:公共图书馆、高等院校图书馆、科学和专业

图书馆。

a.公共图书馆

公共图书馆是指那些业务上由文化部负责协调指导、地方政府提供财政支持、为一个

团体或区域的公众提供服务的图书馆,是一种公益性事业。其目标是满足公众的教育需求、情报需求、研究需求、文化需求和娱乐需求。公共图书馆,特别是对社区图书馆来说,是读者身边的图书馆,因此其服务方式以到馆服务为主,服务的对象主要是本地区的用户。如中国国家图书馆、美国国会图书馆、广州市图书馆、越秀区图书馆等。

b.高校图书馆

高等学校图书馆主要为教师、学生和科研人员以及其他相关人员提供服务,学术性很

强,它既是一个服务性的部门,同时又是一个学术性的机构。由于高校图书馆拥有丰富的学术性文献资源,因此,在发挥情报职能和教育职能方面具有相当优势。如清华大学图书馆、北京大学图书馆、中山大学图书馆等。

c.科学和专业图书馆

科学和专业图书馆是由各种研究机构、政府部门、学会、协会、博物馆、商业公司、

企业商会或其他组织机构所支持的图书馆,通常以其所属机构的目标为目标,为用户提供非常个性化的深层服务。如中国科学院图书馆、中国医学科学院图书馆、中国社会科学院图书馆。

三、馆藏书刊资源检索

(一)、《中国图书馆分类法》(简称《中图法》)

1、《中图法》概述

图书分类是根据图书内容的学科属性或外表特征,依据一定的分类法,将图书分门别

类地、系统地组织起来,同时给以与之相适应的标记符号,即分类号,以便按分类号分类组织藏书和编制分类目录。

《中国图书馆分类法》,简称《中图法》。是以科学分类为基础,结合图书资料的内容

现代信息检索

特点,分门别类组成的分类法。

我国公共图书馆和大学图书馆多以《中图法》为图书分类的依据。另外,多数编辑部

也要求作者投稿时提交学术论文的《中图法》分类号。

2、《中图法》的体系结构

《中图法》整体结构分为5大部类,22个基本大类(一级类目),下分二、三、四……

级类目,类目级别越多,分类越细,类目所表达的内涵越丰富。

(1)部类是整个分类法逻辑体系的反映,不用于类分图书。这5个部类分别是:

第一部类:马克思主义、列宁主义、毛泽东思想、邓小平理论

第二部类:哲学

第三部类:社会科学

第四部类:自然科学

第五部类:综合性图书

(2)22个一级类目列举如下:

A马克思主义、列宁主义、

毛泽东思想、 邓小平理论

B哲学、宗教

C社会科学总论

D政治、法律

E军事

F经济

G 文化、科学、教育、体育

H 语言、文字

I文学

J艺术

K历史、地理

N自然科学总论

O 数理科学和化学

P 天文学、地球科学

Q生物科学

R医药、卫生

S农业科学

T工业技术

U交通运输

V航空航天

X环境科学、安全科学

Z综合性图书

(3)类目级别

基本大类是类分图书的第一级类目,随着内容的细分,在一级类目下还有二级类目、

三级类目、四级类目......如:

R 医药、卫生 一级类目

现代信息检索

R5 内科学 二级类目

R51 传染病 三级类目

R511 病毒传染病 四级类目

R511.1 麻疹 五级类目

3.分类号

(1)编码方法:《中图法》采用大写英文字母与阿拉伯数字相结合的混合制号码,用

一个字母标识一个大类,以字母的顺序反映大类的序列,在字母后用数字表示大类下类目的划分。为方便读写,分类号中的阿拉伯数字部分由左至右每隔3位加一个圆点“.”,如

G252.7

(2)含义(举例略)

(3)复分号:按学科分类的图书,有时会有不同的文献类型,如教材、词典、图谱

等。为了进一步细分每类图书的不同文献类型,而又不增加分类表的篇幅,在《中图法》中采用了复分处理。

复分的方法是将带有连字符的复分号加于基本分类号之后,形成新的更专指的分类

号。

学生常用的复分号有:

-43 教材

-44 习题、试题及题解

-61 名词术语、词典、百科全书(类书)

-64 表解、图解、图册、地图等

例: R5-43 内科学教材

R654.2-64 心脏外科学解剖图解

H310.42-44 英语水平考级试题

(二)、书刊排架的基本原理

排架就是将已经加工整理的文献按照一定的依据和次序存放在书架上的过程。

1、索取号

索取号是图书馆对书、刊进行排架和索取的依据,因此通常也称为排架号。对于图书

又可称为索书号,对于期刊则又可称为索刊号。

索取号的构成一般至少分为两段号码,第一段号码是书、刊排架的主要依据,第二段

号码是第一段号码相同时进一步区分和排架的次要依据。因此,索取号的编码方法与各图书馆的排架方法是一致的。总之,索取号的任何编码方法,其目的就是为了科学地组织书

刊的排架,尽量使每一本书或刊在书架上都有其唯一的位置和次序,方便馆员管理和读者索取。

2、图书的排架方法

图书排架的方法有多种,比较科学、并被多数图书馆采用的是分类排架法,而分类排

架的直接依据是索取号,这时索取号的构成=分类号+书次号。

分类排架时,首先按分类号顺序排,如果分类号完全相同时,再按书次号顺序排。

图书分类号:使同一学科主题的图书相对集中地排列在书架上,起到方便管理和读者

查找的作用,多以《中图法》为分类依据。

书次号:使同类号的图书再按其它的方法区分并排列,各图书馆的编号方法有所不同,

现代信息检索

有编年法、图书入馆流水号、著者号等等。如我馆采用编年法,中山大学图书馆采用入馆

流水号。

索书号位于图书书脊标签上。如:我馆收藏的《圣经的故事》一书,书脊标签上有

“B971/7”索书号,其中“B971”为分类号,“7”为书次号。

到书库索取图书时,读者可根据图书的索取号到书库中相应的排架位置快速查找。

3、期刊的排架方法

各馆对期刊排架的方法不尽相同,大体包括分类法、字顺法和年代法等等。因此期刊

的索取号构成也不尽相同,主要取决于各馆的排架方法。另外,中文、外文,现刊、过刊也有不同的排架习惯。读者到每个图书馆查找期刊时应注意咨询该馆的排架方法,提高查找效率。

我馆的排架方法。目前我馆的中、外文现刊、过刊排架方法已统一:主要先按分类排,

再按书次号排,然后再按期刊年份排序。

(三)、馆藏目录及相关概念的含义

1.馆藏目录的定义

是将文献的外部信息和内容特征著录下来,按照一定的顺序编排而成的一种揭示和报

导文献的工具。

2.机读目录的定义(MARC)

是一种以代码形式和特定结构记录在计算机存贮载体上的,能够被计算机识别和编辑

输出书目信息的目录。

3.联合目录

是采用图书馆之间相互协作的形式,为提示和报导全国或某一地区内若干图书馆收藏

文献(多为外文期刊)的情况而编制的统一目录,其特点是能够反映某一期刊被收藏的多

个馆所。

4.全国性联合目录

是指由国家级单位牵头,各地图书馆参加协编,基本能够反映全国收藏情况的联合目

录。如《全国西文连续出版物联合目录数据库》、《中西文期刊联合目录》等。

5.地区性联合目录

是指能反映某一地区各图书馆收藏情况的联合目录。如《华东地区西文期刊联合目录》

等。

(四)、馆藏机读目录检索途径

1.题名检索途径

是指以书、刊名称或其中的任一关键词为入口检索书刊信息的途径。如:检索《希氏

内科学》一书,既可以“希氏内科学”为检索入口,也可以“希氏”或“内科学”等书名中所含的关键词为检索入口。若了解图书馆有无收藏“中华医学检验杂志”这一期刊,可

以直接键入刊名进行查找。

2.著者检索途径

一般是指以图书的著者或编者为入口来检索获取图书。如:检索人民大学王长喜编写

的英语参考书,可以“王长喜”为检索入口。

3.分类号检索途径

是指以图书或期刊的分类号为入口来检索书刊的途径。如:检索计算机类的图书,可

现代信息检索

以“TP3”为检索入口。

4.主题检索途径

是指以图书的主题词为入口检索书刊的途径。如:检索有关哮喘方面的图书,可以“哮

喘”为检索入口。

(五)、网上馆藏目录查询

1.登录各大公共图书馆馆目检索

国家图书馆、云南省图书馆等。

2.登录各大科研院所图书馆馆目检索

中国科学院系列图书馆、中国医学科学院图书馆等。

2.登录本地各大高校馆目检索

云南大学图书馆、云南财经大学图书馆、云南师范大学图书馆等。

3.登录外地各大高校馆目检索

北京大学图书馆、清华大学图书馆、复旦大学图书馆、上海第二医科大学图书馆等等。

(六)、馆藏书刊检索举例(略)

第二章 数字图书馆

一、 数字时代的图书馆

据不完全统计,国内在线图书馆已达到了数百家,尤其是实体图书馆的馆藏文献的数

字化,为数字图书馆提供了坚实的资源基础。

1.定义

数字图书馆(Digital Library)是指对文本、图像、语音、视频、软件和科学数据等不

同载体、不同地理位置的信息资源经过数字化存储、组织,以计算机网络的方式提供给本

地和远程用户存取,以实现资源共享的系统。

2.特性

通俗地讲,数字图书馆就是数字化的信息资源库(或者叫信息数据库),它应有以下

几个特性:

(1)资源的数字化,存取的网络化

可以分散,但在统一的标准下建设。

(2)资源的丰富性

(3)资源的共享性

3.数字图书馆的历史

1)1945年,美国著名科学技术管理学家布什(V.Bush)先生在《大西洋月刊》上发表

了《诚如我们想象的那样》(As We May Think)一文。文中,他首次提出将传统的图书馆馆藏文献的储存、查找机制与计算机结合起来,构思并描述了他所设想的一种能存贮书、记录和通讯的装置。

2)1948年,美国数学家维纳(N.Wiener)成为第一个指出电子计算机将能够在图书馆运作中大显身手的学者。

3)1978年,美国著名图书馆学家兰卡斯特(F.W.Laneaster)发表了《走向无纸的

现代信息检索

时代》和《电子时代的图书馆员》两部论著,第一次向世人详细描述了电子图书馆的前景。 4)1979年,英国不列颠图书馆的哈利(A.J.Harley)提出了“虚拟图书馆”的概念。 5)1988年,美国国家科学基金会(NSF)的伍尔夫(W.Wulf)撰写国际合作白皮书,正式提出了数字图书馆的概念。

与此同时,在一些发达国家,如英国、加拿大、日本等国对此极大关注。由于Internet

的迅猛发展彻底地改变了传统信息服务的格局,引发了信息采集、加工、传输及获取方式

的根本改变,数字图书馆应运而生。我国在1999年也将数字图书馆纳入国家、大学和科研机构的三至五年发展重点之列,并先后涌现出了一批重大成果。

通过网络传输的信息资源是按统一标准规范加工整合过的数字化信息资源,它包括:图书、戏曲、音乐、舞蹈、电影、文化旅游、农业科技、科普知识、法律知识、文化新闻等。它超越了人们意识中图书的概念。

通俗地说,数字图书馆就是虚拟的、没有围墙的图书馆,虽然称之为“馆”,但并不是

图书馆实体。是基于网络环境下共建共享的可扩展的知识网络系统,是超大规模的、分布

式的、便于使用的、没有时空限制的、可以实现跨库无缝链接与智能检索的知识中心。

4.数字图书馆的类型

美国数字图书馆先导研究计划第一期的成功和第二期的实施,对美国国内乃至世界各国的数字图书馆的建设起到了极大的推动作用。充分利用因特网的便利条件,信息公开,依靠技术提高信息的可获得性。该领域的绝大多数研究资料都可以通过因特网直接得到,例如IEEE的早期数字图书馆会议录全文,部分可能要通过付费方式,例如ACM(美国计算机协会)的技术报告等。

目前国外目前数字图书馆计划和项目大致可分为三种类型:技术主导型、资源主导型

和服务主导型,基本区分见下表:

现代信息检索

5.数字图书馆教育的目的

(1) 让学生了解和掌握数字图书馆各类知识;

(2) 让学生掌握网络检索各类资源的基本技能;

(3) 帮助学生选择最合适的信息检索工具;

(4) 引导学生利用网络重组信息资源和完成相关或非相关的学习、研究任务;

(5) 指导学生对各类信息进行合理利用和正确评价;

(6) 提高学生的社会意识、法律意识和心理行为意识。

6.数字图书馆的结构

不论计算机技术怎样发展,网络结构多么复杂,图书馆信息服务的基本模型始终如一,这就是“信息源—图书馆—读者”构成的三角架构,图书馆充当一个知识整理的中间人的

角色。新时代图书馆的信息服务能够更为全面、及时、准确、高效,使信息社会中图书馆得到的作用和效益发挥到极限。

数字图书馆的基本结构图示如图:

二、中国国家数字图书馆

中国国家图书馆是中国的国家图书馆,中国国家图书馆旧称北京图书馆,一般简称“国图”。

中国国家图书馆馆藏宏富,品类齐全,古今中外,集精撷萃。作为国家藏书机构,中国国家图书馆依法接收中国大陆各出版社

送缴收藏的出版样书,此外还收藏中国大陆的非

现代信息检索

正式出版物,例如各高校的博士学位论文均在中国国家图书馆的收藏之列。是图书馆学专业资料集中收藏地和全国年鉴资料收藏中心。从藏书量和图书馆员的数量看,中国国家图书馆(即北京图书馆)是亚洲规模最大的图书馆,世界上最大的国家图书馆之一,是世界著

名的国家图书馆。

中国国家图书馆的藏书可上溯到700多年前的南宋皇家缉熙殿藏书,最早的典藏可

以远溯到3000多年前的殷墟甲骨。国家图书馆的馆藏文献中珍品特藏包括善本古籍、甲骨金石拓片、中国古旧舆图、敦煌遗书、少数民族图籍、名人手稿、中国少数民族文献、革命历史文献、家谱、地方志和普通古籍等260多万册(件)。外文善本中最早的版本为1473-1477年间印刷的欧洲“摇篮本”。这部分藏品极为珍贵,闻名遐迩,世界瞩目。截至到2005年,中国国家图书馆的藏书容量达2500多万册,其中价值连城的古籍善本就有200余万册,著名的《》、《》等举不胜举。 其中尤以“四大专藏”即“敦煌遗书”、“赵城金藏”、“永乐大典”和“文津阁四库全书”最受瞩目。2007年6月8日,中国国家图书馆获得国家文化部颁布的首届文化遗产日奖。

三、超星数字图书馆及使用

1. 概况及特点

北京世纪超星信息技术发展有限责任公司成立于1993年,长期致力于纸张图文资料

数字化技术及相关应用与推广,是国内外数字图书馆和档案自动化方面最重要的整体解决方案提供商和图文资料数字化加工服务商,是国内数字图书资源最丰富的商业化数字图书馆和加工能力最强的纸张资料数字化加工中心。2000年1月,超星数字图书馆正式开通,标志着世纪超星全面转向基于互联网的数字图书业务。

2.超星阅览器(Superstar Reader)

超星阅览器(SSReader)是超星公司拥有自主知识产权的图书阅览器,是专门针对数

字图书的阅览、下载、打印、版权保护和下载计费而研究开发的。可以阅读网上由全国各

大图书馆提供的、总量超过100万册的PDG格式数字图书,并可阅读其它多种格式的数字图书。超星阅览器具有文字识别、个人扫描功能是国内外用户数量最多的专用图书阅览器之一。

3.超星数字图书馆的使用

购买超星数字图书馆有两种方式:镜像方式和个人流量计费方式。

(1)镜像方式

比较有经济实力的实体图书馆很多都以镜像的方式引进超星数字图书馆全部或部分

图书的使用权。

(2)个人流量计费方式

这种阅读方式适合个人购买超星数字图书馆的使用权的用户,或者一个单位内使用电

子图书频率不高的单位,读者通过购买超星读书卡的方式成为超星数字图书馆的会员

现代信息检索

第三章 信息检索基础知识

第一节 关于信息

一、信息 知识 文献

1、 信息是由客观世界一切事物发出的、体现它存在和运动状态的信号和消息。信息

是普遍存在于自然界、人类社会和人类思维活动中,并随着自然界和人类社会的发展而不断产生新信息。信息具有存储性、传递性、共享性、开发性、时效性。

信息无时无处不在,与人类发展历史须臾不可离,从结绳记事到人上月球,从日常生

活到科学研究,人们都在自觉不自觉地利用信息。信息是普遍存在的,一切信息来源于自

然界,来源于人类社会,人们的生产、生活、学习、科研以及社会活动都是信息产生的来

源。

2、知识是人类社会实践的总结,是人的主观世界对客观世界的概括和反映。人类在

社会实践中通过信息对自然界和人类社会发展的运动规律的认识,再通过大脑的重新组合和系统化,就获得知识。

3、 文献两个古代概念连在一起使用最早见于《论语·八佾》。

宋代朱熹注:“文,典籍也;献,贤也。”《尔雅·释言》解释说:“献,圣也。”

《中华人民共和国国家标准·文献著录总则》(GB3792.1-83):文献是“记录有知识的一

切载体。”

文献有三个要素:要具有一定的知识内容;记录方式;记录知识的物质载体。

二、信息源

信息源既信息的来源。信息源可以积累信息,因此信息源和吸收源之间就形成了信息

位差,也称信息势。信息势的存在是信息流和信息交流活动产生的前提。常见的有:口头

信息源、实物信息源、文献信息源。

三、各类信息源及其特征

掌握按出版类型划分的十种类型信息及其主要特征。

1、图书 ( Book ):是一种常用的重要信息源,有单卷本、丛书、专著等版本形式,图

书内容丰富、全面、可靠、理论性强、论据充分,提供较为直观的第一手资料。

2、期刊 ( Journals/Magazine/Periodical ):又称杂志,是指定期或不定期连续出版,并

刊载时序号或数序号的出版物。

3、科技报告 ( Science & Technical Report ):科技报告是有关某一专题研究成果或科研

工作记录的报告。

4、会议文献 ( Conference Document/Conference Paper ):指国内外各种重要会议上发

表的论文和报告。

5、学位论文 ( Dissertation/Thesis ):是高校、科研机构的毕业生为获取某种学位而撰

写的论文,包括学士论文、硕士论文和博士论文。

6、政府出版物 ( Government Publication ):指各国政府部门及其专设机构所发表出版

的文献。一般分为行政性文件和科技文献。

7、专利文献 ( Patent Document ):指专利形成过程中产生的一系列官方文件和有关出

现代信息检索

版物的总称,如专利公报、专利文摘、分类表、检索工具、说明书以及与专利有关的法律文献等。

8、标准文献 (Standard Literature ):是对工农业产品和工程建设的质量、规格及其检

验方法等方面所作的技术规定。

9、科技档案 ( Science and Technology Record ):是生产单位或研究部门在技术活动中

形成的技术文件、图纸、图片、原始技术记录等资料,包括任务书、协议书、技术指标、审批文件、研究计划、技术措施、生产工艺等。

10、产品样本(Promotion Material):是对产品的性能、构造、原理、用途、使用方法、

操作规程、产品规格等所作的具体说明。

第二节 信息检索的含义及类型

一、信息检索的含义

信息检索通常是指从以任何方式组成的信息集合中,查找特定用户在特定时间和条件

下所需信息的方法和过程。

信息检索的原理就是将检索提问标识与存贮在检索工具中的标引标识进行比较,凡是

双方标识一致的或信息标引的标识包含着检索提问标识的,则将具有该标识的信息从检索工具中输出,输出的信息就是检索命中的信息。

二、信息检索的类型

由于用户的信息需求多种多样,信息检索技术也在不断发生变化,进而产生了多种类

型的信息检索。

1、根据检索的内容和查找的对象,信息检索可分为:

① 文献检索(Document Retrieval):以文献(包括文摘、題录或全文)为检索对象。

② 数据检索(Data Retrieval):以各类数值性数据为检索对象。

③ 事实检索(Fact Retrieval):以从文献中的事项为检索内容,又称事项检索。

2、根据检索(组织)方式分:信息检索分手工信息检索和机器(计算机)信息检索。

① 手工检索 (Manual Retrieval) :以手工的方法,利用纸质检索工具,包括图书、期

刊、目录卡片等来检索信息资料。

② 计算机检索(Computer-based Retrieval):利用计算机检索系统,从存储在计算机里

的大量数据中检出用户所需要的信息的一种检索手段。

3、按照检索的运行性质,信息检索分为定题检索和回溯检索。

4、按信息组织方式划分

① 全文检索(Full-text Retrieval):检索系统中存储的是具有完整内容的著作、文章等,

用户可根据检索需求从中获取有关的章、段、句、节等信息。

② 超文本检索 (Hypertext Retrieval):超文本是一种按信息之间关系非线性地存贮、

组织、管理和浏览信息的计算机技术。超文本检索是以超文本信息资源为检索对象。

③ 多媒体检索 (Multimedia Retrieval) :以文字、图像、声音等多媒体信息为检索内

容的检索。

④ 超媒体检索 (Hypermedia Retrieval):用超文本技术管理多媒体信息,即就是超媒体。

超媒体检索是以超文本与多媒体两种技术结合的超媒体信息资源为检索对象。

现代信息检索

第三节 信息检索语言和工具

一、信息检索语言

1、信息检索语言的概念

语言是一种人们用以交流沟通的重要工具。人与计算机对话,需要有计算机语言,

人与检索系统对话来实施检索,则需要有检索语言(retrieval language)。

检索语言是用于描述检索系统中信息的内部及外部特征和表达用户信息提问的

一种专门语言。

检索的匹配正是通过语言的比较匹配来实现的。检索语言也称索引语言,后者是

从检索系统的标引角度出发的,而前者是从用户的信息检索角度出发的。

2、信息检索语言的作用

信息检索语言的作用表现在两个层次上,见下图

3、信息检索语言的种类

现代信息检索

4、信息检索语言的构成及其要求

二、检索途径

检索点(access point)是检索的出发点和匹配的依据。

从文献的特征出发,将其特征值与检索系统中标目数据进行计算比较,通过匹配

达到检索目的。

每件文献均有内部特征及其相关的外部特征。

反映文献内容特征:分类号和主题词等;

反映文献外部特征:作者、名称和号码检索等。

1.分类检索(classification)途径

分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可

参照的分类体系(classification system)。

分类体系按文献内容特征的相互关系加以组织,并以一定的标记(类号)作排

序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。

较权威的图书分类法有:

《中国图书馆图书分类法》

《美国国会图书馆分类法》

《杜威十进分类法》

2.主题检索途径

主题(subject)检索是从反映文献内容的有关主题词出发来检索文献,主题

是检索点,它对应文献主题概念。检索按主题词的音或形的字顺进行,其方式如

查字典、词典。主题词有多种类型:有规范词和自由词,有单元词和多元词,有

先组结构和后组结构等。主题词的合理选择与使用对检索结果的优劣直接相关。

3.作者检索途径

作者(author)检索是从文献的作者姓名出发来检索其文献。 “作者”广义上

还应包括:汇编者(compiler)、编者(editor)、主办者(sponsoring body)、译者

(translator)等

此外,还有代表机构、单位的团体作者(corporate author),包括作者所在单

位(author's affiliation)。

现代信息检索

4.题名检索途径

题名(title)检索是从各种事物的名称出发来检索文献信息。 这些名称包括:

书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人

名和机构名。检索的对象既包括对应的文献,也包括有关的信息、事项等。比如

个人电话簿(white pages)或公司电话簿(yellow pages),查找的是号码信息。

5.号码检索途径

号码包括文献的编号(number)、代码(code)等,它们是文献信息的一些特

有的外部标识,号码检索以号码特征来检索文献信息。号码多种多样,通常用数

字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。

如科技报告有报告号,还有其合同号、拨款号等;

如专利文献有专利号、入藏号、公司代码等;

如分类号也是号码(特殊的号码检索),等等。

它们各自按号码顺序,或以数序、或以字序、或以混合序列检索。

三、检索工具

即检索性工具书刊,是指积累、报道和查找文献线索的书刊,它是在一次文献的基

础上,按照规划和需要编制的二次文献,主要包括书目、索引、文摘和工具书指南。

(一)书目

1、定义

书目即图书目录,是著录一批相关的图书或报刊文献的基本特征,按照一定次序编排

而成的揭示和报道书刊文献的工具。

我国古代书目:按经、史、子、集四部分类编排;

现行书目:大多按《中国图书馆分类法》分类编排;

机读书目都能提供分类、主题、标准书号、题名、著者、出版社、出版时间等多种检

索途径。

2、书目的类型

古典书目:有官修书目、史志目录、私家书目、版本目录、推荐书目等。

汉朝刘向在典校古籍时,撰有《别录》。后来,他的儿子刘歆以《别录》为基础撰成

《七略》,这是我国第一部分类目录。

现代书目:

(1)登记书目、通报书目、新书目录、推荐性书目、书目之书目

(2)综合性书目、专题(学科)书目、地方文献书目、个人著述目录

(3)馆藏目录、联合目录

现代信息检索

(4)现行书目、回溯性书目、新书预告目录、古籍目录

(5)图书目录、报纸目录、期刊目录、丛书目录、方志目录、乐谱目录、非书资料

目录

(6)印刷型书目、机读目录、网络版书目

3、书目的作用

(1)揭示和报道文献信息

(2)指引读书治学门径

(二)、索引

1、索引概述

索引是将报刊书籍中某些重要的或有意义的信息,如书名、刊名、篇名、主题、人

名、地名等分别摘录出来,按一定方式编排,并注明出处,以供检索的工具。

索引旧称“韵编”、“通检”、“备检”、“引得”(英语Index音译),报刊论文篇名索引

也称为“题录”。

2、索引的类型

(1)书籍索引:摘取书籍中的具体内容编制的检索书刊。有字、词、句索引,有人

名索引,有地名索引,有篇目索引,有书目索引等。

(2)报刊索引:摘取报刊中论文篇目并注明出处的检索书刊。

(3)书刊索引:把图书文献和报刊论文篇目混合编制的检索工具,多用于专题性索

引。

(4)会议录索引:是专门揭示会议文献的检索工具。

(5)引文索引:是以文献资料后所附的参考文献的作者、题目、出处等项目,按照

引证与被引证的关系编排而成的索引。

①《史记人名索引》②《唐诗鉴赏辞典》③《唐诗鉴赏辞典》名句索引部分④《现代英

语语法》⑤《现代英语语法》索引部分

3、索引的作用

(1)查询论文资料线索

(2)了解学科学术动态

(3)多途径提供深层次的信息

(4)检索工具的辅助补充

(三)、 文摘

1、文摘概述

文摘是用简明扼要的文字摘录文献内容的精华,如论点、论据、数据、结论、提要等,

现代信息检索

按照一定方式编排的检索工具。文摘一般都要注明原文出处,因而它同时兼有索引功能。

2、文摘的类型

A.按文摘内容范围划分:综合性文摘、专业性文摘。

B.按文摘编写目的划分:

⑴ 指示性文摘:主要揭示文献的主要内容和基本观点,也称为“简介”、“提要”。

⑵ 报道性文摘:是在忠实于原作基础上进行浓缩编写的摘要。它一般用500~800字

揭示原文的基本内容、观点、方法、数据、结论、推理的结果等。

⑶ 题录性文摘:主要著录文献的外表特征,有时作少量的说明和注释。

⑷ 摘录式文摘:读者在阅读过程中对原文中的妙语佳句、精彩段落、公式数据进行

原样摘抄,同时注明出处,以便事后引用的摘录方式。

C.按文摘出版形式划分:期刊式文摘、附录式文摘和卡片式文摘。

3、文摘的特点及作用

(1)通报最新科学文献

(2)节省阅读时间

(3)逾越语言障碍了解学科动态

(4)文摘和索引相互补充

最右图像为《读者文摘》(1922年创刊号)

(四)、工具书指南

工具书指南是收录、报导、评论工具书的工具书,是一种专题注释和评介工具书的书

目,也称为工具书举要、工具书选录、工具书简介、工具书使用方法、工具书手册。

国外的工具书指南通常是综合性的,往往大范围地收录工具书,主要反映本国出版的

各类工具书。

我国工具书指南既有综合性的,也有社会科学和科学技术各大部类的,还出现了大量

单一学科的工具书评介著述。

工具书指南多数是书本式,也有连续出版介绍新工具书的“年报”,还出现了、磁带

版、光盘版和网络版等。

《美国工具书年报(ARBA)》以及一些工具书辞典、概论、指南等

以上多为手工检索工具,除此还有机械检索工具(是手工检索工具向计算机检索系统

过渡的中间检索工具)、数据库、计算机检索系统等。

(四)检索工具(数据库)的构成

现代信息检索

四、信息检索方法

1.常用法:检索工具法

顺查法:由远到近的顺时间查找,可以提高查全率。

倒查法:由近到远的查法,重点是放在近期文献。

抽查法:根据课题研究的特点,抓住该课题研究发展迅速,出版文献较多的年代,

抽取一段时间(几年或十几年)或一段时间内的几个点,再进行顺时查找的检索方法。

2.追溯法:从已有的文献后列参考文献入手,逐一查找原文,从查到的文献后

面的参考文献在逐一查找,直到找到。

3.分段法(循环法):即分段查找法,实际上是两种查找方法的结合。

第四节 信息检索技术与策略

一、信息检索技术

信息检索技术是指利用现代信息检索系统,如联机信息检索、光盘数据库检索和网络

信息检索.全文检索等有关的信息采用相关技术,主要包括布尔逻辑检索技术、位置逻辑

检索技术、截词检索技术和限制检索技术。

①布尔逻辑检索技术

利用布尔逻辑算符进行检索词的逻辑组配,是常用的一种检索技术。在联机检索中,

按照所研究课题的要求,虽然已选定检索词,但是这些单项检索词,尚不能准确地表达用

户对课题提问的语法要求。这时利用布尔逻辑运算符进逻辑组配,才能满足要求。

布尔逻辑组配符有:AND(*)、OR(+)、NOT(-)

★逻辑与:用“AND”或“*”算符表示,

是一种具有概念交叉或概念限定关系的组配。如要检索“对虾养殖”方面的有关

信息,它包含民“对虾(Shirmp)”“养殖

(culture)”两个立概念。“对虾 AND

现代信息检索

殖”或“Shirmp AND culture”表示两个

概念同时包含在一条记录中。如左图对虾

与养殖交叉阴影部分。使用逻辑与检索技

术,缩小检索范围,增强了检索的专指性,

可提高检索的查准率。

★逻辑或:用“OR”或“+”算符表示,

是一种具有概念并列关系的组配。如上述

“对虾”可用“Shirmp”和“penaeus”

两个词来表达,采用”shirmp OR

penaeus”,表示这两个并列同义概念在

一条记录或同出现在一条记录中出现。如

左图示“shirmp”与“penaeus”的全部。

使用逻辑或技术,扩大了检索范围,能提

高检索信息的查全率。

★逻辑非:用“NOT”或“-”表示,是一

种具有概念排除关系的检索词组配。如检

索“不包含核能的能源”方面的有关信息,

检索词“Energy”。“Nuclear”采用逻辑

非组配为“Energy NOT Nuclear” ,表示

从“Energy”.检索出的记录中排除含有“Nuclear energy”的记录。如左图示。使用逻辑非可排除不必要的概念,能提高

信息检索的查准率,但也会将相关信息剔

除,影响信息检索的查全率。

用布尔逻辑算符组配检索词构成的检索提问式,逻辑算符AND、OR、NOT的运算次序,

在不同的检索系统有不同的规定。检索人员要先了解检索系统的规定,避免逻辑运算次序处理不当造成错误的检索结果。

②位置逻辑检索技术

位置逻辑检索持续术是以数据库原始记录中的检索词之间的特定位置关系为对象的

运算,又称全文检索。它是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术。这种检索技术增强了选词的灵活性,采用具有限定检索词之间位置关系功能的位置逻辑符进行组配运算,可弥补布尔检索技术只是定性规定参加运算的检索词在检索中的出现规律满足检索逻辑即为命中结果,不考虑检索词词间关系是否符合需求,而易造成误检的不足。在不同的检索系统中,位置逻辑算符的种类和表达形式不完全相同,使用位置逻辑检索技术时,注意所利用系统的使用规则。

在位置逻辑符中,常用的位置逻辑算符有(W)与(nW)、(N)与(nN)、(S)、(F)。

★邻词位置逻辑算符:(W)与(nW)和(N)与(nN)

(W):表示两个词间不得插有其他词或字母,但允许有一空格和标点符号,词序不能

颠倒。即使用(W)算符连接的检索词,已构成一个固定的词组。如:GAS (W)CHROMATOGRAPH

表示检索结果为GAS CHROMATOGRAPH和GAS—CHROMATOGRAPH形式才为命中。

(nW):是由(W)衍生而来,表示两个词间允许插入0至n个字母,但前后的词序不

许颠倒。如:LASER(1w)PRINTER表示检索结果中具有“LASER PRINTER”、“LASER COLOUR PRINTER”和“LASER AND PRINTER”形式的均为命中记录。

(N):表示两词间不能插入任何词,但两词词序可以颠倒。如:“WASTEWATER (N)

TREATEMENT”表示检索结果中具有“WASTEWATER TREATEMENT”和“TREATEMENT WASTEWATER”形式的均为命中记录。

现代信息检索

(nN):表示两词间允许插入n个词,且两词词序可以颠倒。

★子字段位置逻辑符:(S)表示两词必须在同一检索字段中,两词的词序可变,中间插入词的数量不限。如:“HIGH (w) STRENGTH (S) STEEL”表示只要在同一个句子中检索出含有“HIG STRENGTH ”和“ STEEL”形式的均为命中记录。

★字段位置逻辑符:(F)表示两个词必须同时出现在同一个字段中,词序可以变化。如:“AIR (W) POLLUTION (F)CONTROL”,表示只要在同一字段中检索出含“AIR POLLUTION” 和“CONTROL”形式均为命中记录。

③截词检索技术

截词检索技术是预防漏检提高查全率的一种常用检索技术。截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,可节省输入的字符,又可达到较高的查全率。尤其在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。在截词检索技术中,较常用的是后截词和中截词。按所截断的字符数分,有无限截词和有限截词两种。

★后截词,从检索性质上,是满足前方一致的检索。

无限后截词:主要用于同根词。如solubilit用solub?处理,可检索出含有solubilize,solubilization,soluble等同根词的记录。由此可知,在词根后加一个“?”,表示无限截词符号。

有限后截词:主要用于词的单、复数,动词的词尾变化等。如book 用 book? ?处理,表示截一个词,可检索出含有book和 books的记录; acid???表示截两个词,可检索出含有acid,acidic 和acids的记录。由此可知,“?”为截词符,截几个词就在词根后加几个“?”。

中截词:中截词也称屏蔽词。一般来说,中截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。如organi?ation可检索出含有organisation和organization的记录。由此可知,中截词使用的符号为“?”,即用“?”代替那个不同拼写的字符。

从以上各例可知,使用截词检索具有隐含的布尔逻辑或(OR)运算的功能,可简化检索过程。

④限定检索技术

使用截词检索,简化了布尔逻辑检索中的逻辑或功能,并没有改善布尔逻辑检索的性质。使用位置逻辑检索,只能限制检索词之间的相对位置,不能完全确定检索词在数据库记录中出现的字段位置,特别在使用自由词进行全文检索时,需要用字段限制查找的范围。常用的字段代码有标题(TI)、文摘(AB)、叙词或受控词(DE或 CT)、标识词或自由词(ID或 UT)、作者(AU)、语种(LA)、刊名(JN)、文献类型(DT)、年代(PY)等。这些限制符在不同的系统有不同的表达形式和使用规则,在进行字段限制检索时,应参阅系统及有关数据库的的使用说明,避免产生检索误差。

二、信息检索策略

(一)、检索策略的制定

检索策略就是在分析课题内容的基础上,确定检索系统、检索途径和检索词,并科学安排各词之间的位置关系、逻辑联系和查找步骤等。

(二)、检索步骤

信息检索步骤

信息检索步骤也是检索的过程,它是通过分析检索课题,选择检索工具或者检索系统, 按照一定的方法和途径查找信息的过程。包括分析课题、选择检索工具或者检索系统、选择检索方法、确定检索途径、索取原始文献信息。

本文来源:https://www.bwwdw.com/article/vzp4.html

Top