信息检索原理与技术
更新时间:2023-07-18 00:22:01 阅读量: 实用文档 文档下载
图书馆资源
信息检索原理与技术
图书馆资源
第一节、检索的基本原理信息检索基本原理的核心是用户信息需求与 文献信息集合的比较和选择, 是两者匹配 (match)的过程。 一方面是用户的信息需求, 一方面是组织有序的 文献信息集合,检索就是从用户特定的信息需求 出发,对特定的信息集合采用一定的方法、技术 手段,根据一定的线索与规则从中找出(search, locate, hit) 相关的信息。 匹配有其匹配标准,这里涉及到两者一致性、 相关度等问题,按一定的标准筛选出符合要求的 信息。
图书馆资源
信息检索的过程往往需要一个评价反馈途径, 多次比较匹配,以获得最终的检索结果。其图 示如下:
图书馆资源
1、信息的特征一篇文章、一本书、一份报告等一般都有以下 特征: 一、外表特征:题目、作者、作者工作单位,专 利和科技报告还有专利号或报告号等,这些可以 表征一篇特定文献的特征可以在文献的封面或扉 页,即不打开书本,或不看文献的具体内容就可 以确定一篇文献。
二、内部特征:假如我们深入到文献内容中间, 则可以发现还可用另外两种方法来表征它:
图书馆资源
a.一般,一篇文献都是论及某一方面的特定问题的,也就是说,与论题相关的词出现的频率较大。以前的 研究表明,无论哪一种类型的文献,若对文献中出现 的词进行频率统计的话,会发现所有的词可分为三类
i.文献中出现频率最高的词是冠词、介词和连词等, 即其本身没有具体含义的词,如a、an、the、this、that、 or、and、in、on、with等; ii.绝大部分词在文献中出现的频率较低;
iii.在文献中出现的频率既不高也不低的词,在文 献中约3-20个之间,这些词恰恰是与文献的主题相关 度较大的词,我们称之为文献的主题词或关键词。
图书馆资源
b.另外,一篇文献还可以按照各种自然科学和社会科学的分类方法进行归 类,如《中图法》: O 数、理、化
O1 数学O12初等数学
O123初等几何
图书馆资源
2、特征对应关系特 外表特征 主题特征 内容特征 分类特征 征 标 标题、作 主题词、 文摘、说 分类号 明、全文 者、作者 关键词 识 工作单位
对 精确对应 模糊对应 模糊(精 模糊对应 应 确)对应
图书馆资源
3、检索语言的概念语言是一种人们用以交流沟通的重要工具。人与计算 机对话,需要有计算机语言,人与检索系统对话来实施 检索,则需要有检索语言(retrieval language)。
检索语言是用于描述检索系统中信息的内部 及外部特征和表达用户信息提问的一种专门语言, 检索的匹配正是通过语言的比较匹配来实现的。 检索语言也称索引语言,后者是从检索系统的标 引角度出发的,而前者是从用户的信息检索角度 出发的。
图书馆资源
不同的检索语言
构成不同的标目及其索引系统,提供各种检索点。
图书馆资源
人工语言 (规范语言) 和自然语言(非规范 语言)artificial language:受信息检索的控制,使用控制、规范词(controlled term)。人工语言的规范处理重 在两个方面:一是使一个概念只用一个词汇来表达,这 样就避免了多词一义的情况;二是使一个标引词只能表 达一个概念,这样就排除了一词多义现象。
natural language :自然语言是取其自然形态,不受控,使用非规范词(uncontrolled term)或称自由 词(free term)。自然语言极其丰富、复杂和多样, 存在着一词多义、多词一义及词义交叉的现象。常见的 有同义词、近义词、同型异义词等。
图书馆资源
分类语言和主题语言分类语言也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映 它们的相关、从属、派生等关系,从总体到局部分层、分 面展开,形成分类体系。由类目号码及名称作为检索语言, 构成分类类目表,如前述图书分类表、专利分类表用的都 是分类语言。
主题词语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概 念本身,在主题词表中通过参照系统来指示词汇之间的关 系。
图书馆资源
它是用分类号来表达各种概念,将各种概念按学 科性质进行分类和系统排列,包括它等级体系分类语 言,又称等级列举式分类法或体系分类法。体系分类 法主要应用概念划分与概括的方法,具有列举式类目、 分类符号(标识)、等级制结构、直线性序列等特点。 等级体系分类法的表现形式为分类表分类文献及 其索引系统,是根据一定的观点,以科学分类为基础, 运用概念划分和概括的方法,按照知识门类的逻辑次 序,从总到分,从简单到复杂,层层进行概念划分, 则产生许多不同等级的 类目。上位类包括下位类的总 合,下位类隶属于其上位类,同级类互不相容,构成 一个严格有序的层磊式结构系。
图书馆资源
国内外常用的分类法有:(1)、人民大学图书馆图书分类法(人大法) 该分类法从1953起陆续在全国各图书馆试用,后经过多次修订 再版,目前仍有许多图书馆采用该分类法。 (2)、中国科学院图书馆图书分类法(科图 法) 该分类法目前主要用于中国科学院图书馆及其所属各科研单位 的图书馆(室)的文献分类。 (3)、 杜威十进制分类法(Decimal Classification)简称为杜威法 该分类法是目前世界上使用最广泛、影响最大的图书分类法, 已用于130多个国家的图书馆,许多分类法均是借鉴于杜威分类法 产生的。 (4)、美国国会图书馆图书分类法(Library of Congress
classification)简称为LC分类法 目前美国大多数图书馆采用的分类法。 (5)、国际十进分类法(Universal Decimal Classification)简称 UDC分类法等。 (6)、 国际专利分类法(International Patent Classification )简称 IPC
图书馆资源
(1)体系分类语言 《中国图书馆分类法》:分五大部22大类。 A 马克思主义、列宁主义、毛泽 东思想、邓小平理论 B 哲学、宗教 C 社会科学总论 D-K 社会科学各学科 N 自然科学总论 O-X 自然科学各学科 Z 综合性图书
图书馆资源
其中文学类类目展开情况如下:
I I2 I24 I247 I247.4 I247.5 I247.7 I247.8 I25 I313
文学 中国文学 小说 建国后作品 章回小说 新体长篇、中篇小说 新体短篇小说 故事、微型小说 报告文学 日本文学
图书馆资源
分类标引方法: 崔文风著
1.心理与人生-发展心理 教子成长 2.心理与人生-完善心理 事事成功 3.心理与人生-调节心理 强身治病 分类好分别分: G78、 B848.4 和R395.6
图书馆资源
(2)关键词语言:关键词是从文题、文摘或
正文中抽出,具有实质意义,能够代表文献 内容主题的名词术语。关键词可直接用于文 献标引。 (3)主题词语言:主题词是表达一定概念主 题的规范化的名词术语。主题标引须有专门 的主题词表。
图书馆资源
主题词表: ①字顺表computerized industrial control USE industrial computer control Computerized instrumentation UF computerized instruments NT automatic test equipment computerized monitoring computerized spectroscopy computerized tomography BT computer applications TT computer applications RT astronomy computing astrophysics computing biology computing chemical engineering computing
图书馆资源
②词族表
computer applications .administrative data processing ..distributive data processing .computerized signal processing puterized pattern recognition puterized picture processing puter-generated holography
图书馆资源
第二节、检索途径检索点(access point)是检索的出发点,以 前常用“检索途径”(approach)这一术语。 每件文献均有内部的(信息内容)特征及其相关 的外部特征,在检索系统中检索点是标目的总称。
从文献的特征出发,将其特征值与检索系统中标 目数据进行计算比较,通过匹配达到检索目的。反映文献信息内容特征:分类检索和主题检索; 反映文献外部特征:作者、名称和号码检索等。
图书馆资源
一、学术论文的基本格式 1.题名(Title,Topic)
题名即题目或标题,是以最恰当、最简明的词语反 映论文最重要的特定思想内容的逻辑组合。 题名 (1)简洁明了:所谓简洁,就是指用语要简明、洁 净、雅致和精当,惜字如金,用最少的文字精当地概括 论文内容。有人根据人们对语言的一般记忆特点
,提出 标题最好控制在12个字以内(题名规范的要求是一般不 超过20字,必要时可加副题名) 。
正在阅读:
信息检索原理与技术07-18
数控理论题11-19
20句日常用语09-13
外贸英文网站建设注意事项及建议07-17
大国质量观后感12-11
水文水资源学试题(A卷)01-07
毕业设计(东方)论文河南城建学院06-09
质量保证措施07-12
第一次独自睡觉作文400字07-06
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 原理
- 检索
- 技术
- 信息
- 台湾地区特殊教育法律的特点及启示
- 2014考研西安建筑科技大学《815技术经济学》基础提高 (4)
- 当代英国概况unit14
- 合同法试题及答案解析
- 中国现当代作家1
- 【金版新学案】2015高考英语(人教版)大一轮复习讲义必修4Unit5Themeparks
- 2010年福建省龙岩市中考真题
- 医院劳动合同协议书
- 2013操作系统课程大作业
- 南京师范大学历年数学专业数分高代真题7
- 北京百荣世贸商城招商策划书
- 韩国语高级必备俗语大全
- 房山区2013—2014学年度第一学期化学终结性检测试卷
- 会计学原理第2章 账户和复式记账
- 便携式充电器实物报告
- 湘教版数学七年级上册教学教案 3.2 等式的性质
- 电主轴基本检测方法
- 高中化学必修1、2复习提纲及习题
- 模拟盗取工行卡全过程
- 中国近现代史纲要 读书报告