信息检索原理与技术

更新时间:2023-07-18 00:22:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

图书馆资源

信息检索原理与技术

图书馆资源

第一节、检索的基本原理信息检索基本原理的核心是用户信息需求与 文献信息集合的比较和选择, 是两者匹配 (match)的过程。 一方面是用户的信息需求, 一方面是组织有序的 文献信息集合,检索就是从用户特定的信息需求 出发,对特定的信息集合采用一定的方法、技术 手段,根据一定的线索与规则从中找出(search, locate, hit) 相关的信息。 匹配有其匹配标准,这里涉及到两者一致性、 相关度等问题,按一定的标准筛选出符合要求的 信息。

图书馆资源

信息检索的过程往往需要一个评价反馈途径, 多次比较匹配,以获得最终的检索结果。其图 示如下:

图书馆资源

1、信息的特征一篇文章、一本书、一份报告等一般都有以下 特征: 一、外表特征:题目、作者、作者工作单位,专 利和科技报告还有专利号或报告号等,这些可以 表征一篇特定文献的特征可以在文献的封面或扉 页,即不打开书本,或不看文献的具体内容就可 以确定一篇文献。

二、内部特征:假如我们深入到文献内容中间, 则可以发现还可用另外两种方法来表征它:

图书馆资源

a.一般,一篇文献都是论及某一方面的特定问题的,也就是说,与论题相关的词出现的频率较大。以前的 研究表明,无论哪一种类型的文献,若对文献中出现 的词进行频率统计的话,会发现所有的词可分为三类

i.文献中出现频率最高的词是冠词、介词和连词等, 即其本身没有具体含义的词,如a、an、the、this、that、 or、and、in、on、with等; ii.绝大部分词在文献中出现的频率较低;

iii.在文献中出现的频率既不高也不低的词,在文 献中约3-20个之间,这些词恰恰是与文献的主题相关 度较大的词,我们称之为文献的主题词或关键词。

图书馆资源

b.另外,一篇文献还可以按照各种自然科学和社会科学的分类方法进行归 类,如《中图法》: O 数、理、化

O1 数学O12初等数学

O123初等几何

图书馆资源

2、特征对应关系特 外表特征 主题特征 内容特征 分类特征 征 标 标题、作 主题词、 文摘、说 分类号 明、全文 者、作者 关键词 识 工作单位

对 精确对应 模糊对应 模糊(精 模糊对应 应 确)对应

图书馆资源

3、检索语言的概念语言是一种人们用以交流沟通的重要工具。人与计算 机对话,需要有计算机语言,人与检索系统对话来实施 检索,则需要有检索语言(retrieval language)。

检索语言是用于描述检索系统中信息的内部 及外部特征和表达用户信息提问的一种专门语言, 检索的匹配正是通过语言的比较匹配来实现的。 检索语言也称索引语言,后者是从检索系统的标 引角度出发的,而前者是从用户的信息检索角度 出发的。

图书馆资源

不同的检索语言

构成不同的标目及其索引系统,提供各种检索点。

图书馆资源

人工语言 (规范语言) 和自然语言(非规范 语言)artificial language:受信息检索的控制,使用控制、规范词(controlled term)。人工语言的规范处理重 在两个方面:一是使一个概念只用一个词汇来表达,这 样就避免了多词一义的情况;二是使一个标引词只能表 达一个概念,这样就排除了一词多义现象。

natural language :自然语言是取其自然形态,不受控,使用非规范词(uncontrolled term)或称自由 词(free term)。自然语言极其丰富、复杂和多样, 存在着一词多义、多词一义及词义交叉的现象。常见的 有同义词、近义词、同型异义词等。

图书馆资源

分类语言和主题语言分类语言也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映 它们的相关、从属、派生等关系,从总体到局部分层、分 面展开,形成分类体系。由类目号码及名称作为检索语言, 构成分类类目表,如前述图书分类表、专利分类表用的都 是分类语言。

主题词语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概 念本身,在主题词表中通过参照系统来指示词汇之间的关 系。

图书馆资源

它是用分类号来表达各种概念,将各种概念按学 科性质进行分类和系统排列,包括它等级体系分类语 言,又称等级列举式分类法或体系分类法。体系分类 法主要应用概念划分与概括的方法,具有列举式类目、 分类符号(标识)、等级制结构、直线性序列等特点。 等级体系分类法的表现形式为分类表分类文献及 其索引系统,是根据一定的观点,以科学分类为基础, 运用概念划分和概括的方法,按照知识门类的逻辑次 序,从总到分,从简单到复杂,层层进行概念划分, 则产生许多不同等级的 类目。上位类包括下位类的总 合,下位类隶属于其上位类,同级类互不相容,构成 一个严格有序的层磊式结构系。

图书馆资源

国内外常用的分类法有:(1)、人民大学图书馆图书分类法(人大法) 该分类法从1953起陆续在全国各图书馆试用,后经过多次修订 再版,目前仍有许多图书馆采用该分类法。 (2)、中国科学院图书馆图书分类法(科图 法) 该分类法目前主要用于中国科学院图书馆及其所属各科研单位 的图书馆(室)的文献分类。 (3)、 杜威十进制分类法(Decimal Classification)简称为杜威法 该分类法是目前世界上使用最广泛、影响最大的图书分类法, 已用于130多个国家的图书馆,许多分类法均是借鉴于杜威分类法 产生的。 (4)、美国国会图书馆图书分类法(Library of Congress

classification)简称为LC分类法 目前美国大多数图书馆采用的分类法。 (5)、国际十进分类法(Universal Decimal Classification)简称 UDC分类法等。 (6)、 国际专利分类法(International Patent Classification )简称 IPC

图书馆资源

(1)体系分类语言 《中国图书馆分类法》:分五大部22大类。 A 马克思主义、列宁主义、毛泽 东思想、邓小平理论 B 哲学、宗教 C 社会科学总论 D-K 社会科学各学科 N 自然科学总论 O-X 自然科学各学科 Z 综合性图书

图书馆资源

其中文学类类目展开情况如下:

I I2 I24 I247 I247.4 I247.5 I247.7 I247.8 I25 I313

文学 中国文学 小说 建国后作品 章回小说 新体长篇、中篇小说 新体短篇小说 故事、微型小说 报告文学 日本文学

图书馆资源

分类标引方法: 崔文风著

1.心理与人生-发展心理 教子成长 2.心理与人生-完善心理 事事成功 3.心理与人生-调节心理 强身治病 分类好分别分: G78、 B848.4 和R395.6

图书馆资源

(2)关键词语言:关键词是从文题、文摘或

正文中抽出,具有实质意义,能够代表文献 内容主题的名词术语。关键词可直接用于文 献标引。 (3)主题词语言:主题词是表达一定概念主 题的规范化的名词术语。主题标引须有专门 的主题词表。

图书馆资源

主题词表: ①字顺表computerized industrial control USE industrial computer control Computerized instrumentation UF computerized instruments NT automatic test equipment computerized monitoring computerized spectroscopy computerized tomography BT computer applications TT computer applications RT astronomy computing astrophysics computing biology computing chemical engineering computing

图书馆资源

②词族表

computer applications .administrative data processing ..distributive data processing .computerized signal processing puterized pattern recognition puterized picture processing puter-generated holography

图书馆资源

第二节、检索途径检索点(access point)是检索的出发点,以 前常用“检索途径”(approach)这一术语。 每件文献均有内部的(信息内容)特征及其相关 的外部特征,在检索系统中检索点是标目的总称。

从文献的特征出发,将其特征值与检索系统中标 目数据进行计算比较,通过匹配达到检索目的。反映文献信息内容特征:分类检索和主题检索; 反映文献外部特征:作者、名称和号码检索等。

图书馆资源

一、学术论文的基本格式 1.题名(Title,Topic)

题名即题目或标题,是以最恰当、最简明的词语反 映论文最重要的特定思想内容的逻辑组合。 题名 (1)简洁明了:所谓简洁,就是指用语要简明、洁 净、雅致和精当,惜字如金,用最少的文字精当地概括 论文内容。有人根据人们对语言的一般记忆特点

,提出 标题最好控制在12个字以内(题名规范的要求是一般不 超过20字,必要时可加副题名) 。

本文来源:https://www.bwwdw.com/article/tw81.html

Top