信息组织名词解释

更新时间:2024-06-18 12:26:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

信息组织 名词解释

信息组织名词解释

1. 2. 3. 4. 5. 6. 7. 8. 9.

检索语言:般称为情报检索语言(Information Retrival Language,IRL),随着信息检索范围的扩大以及信息概念的更加普及,也有称之为信息检索语言;其他的概念名称还有标引语言、索引语言、信息表示语言、信息组织语言或知识组织语言等。张琪玉教授系统建立了情报检索语言及其相关概念的体系,并使其规范化,统一了概念名称。他对情报检索语言的定义是:“根据情报检索的需要而创制的,专门用于各种手工的和计算机化的文献情报存贮检索系统,能够唯一地表达各种概括文献情报内容的概念(主题概念),能够显示概念之间的相互关系,并便于进行系统排列,便于将标引用语和检索用语进行相符性比较的人工语言”。

10. 计算语言学:是在语言学、数学、计算机科学、自动化技术和认知科学的基础上发展起来的。是一门

通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器模拟人的部分乃至全部语言能力的目的的学科。计算语言学应用于许多领域,例如:机器翻译、文本分类、信息检索、信息提取、语音合成、语音识别和人机接口等。

11. 句法结构:按某一语言的句法规则把自由形式的词放在一起的结果称为句法结构 。句法结构有

关系意义和外部形式。关系意义就是句法结构的语法意义,分为显性意义和隐性意义。检索语言句法既研究句法结构的显性意义,更注重对句法结构隐性意义的研究。例如句法手段的运用,即引用次序和控制符号,就是在对句法结构隐性意义分析的基础上确定的。

12. 引用次序:引用次序(Citation Order),或称组配次序 (Combination Order),和语言学中的词序这

一术语相对应。引用次序是检索语言重要句法手段之一。引用次序主要有四类,即“显著性引用次序”、信息标引:信息标引即对信息内容进行分析并充分而有效地予以揭示。从学科揭示信息内容就是分类标引,从主题特征揭示信息内容就是主题标引。

信息描述:广义的信息描述包括信息标引,狭义的信息描述是指对信息的外部特征的描述,即不包括对信息内容的揭示性标引。信息描述是信息组织的重要环节和前提。

计算机检索:把检索标识转换成二进制编码,存储在磁性或激光载体上,由计算机根据程序进行查找和输出。

光电检索:即把检索标识变成黑白点矩阵或条形码,存储在缩微介质上,利用光电效应,通过检索机进行查找的一种检索方式。

机械检索:利用探针或检索器件,对代表检索标识的穿孔卡片进行选取的一种检索方式。

“梅特卡夫定律”:梅特卡夫针对网络资源的增长特点,指出,随着上网人数的增长,网上资源将呈几何级数增长。

“指数增长规律”:美国科学家普赖斯对科技文献增长规律进行了研究,提出了著名的“指数增长规律”,即科学文献增长与时间成指数函数关系。

信息超载:指系统或个人所接受的信息超过其自身的处理能力或信息未能有效利用的状况。

第1页

信息组织 名词解释

“范畴职能引用次序”、“概念关系引用次序”和“上下文从属引用次序”。

13. 显著性引用次序:简称显著性次序(Significance Order),是按各成分的重要性排列的次序,或者说是

按具体性递减的顺序排列。

14. 范畴职能引用次序:是用范畴这种思维形式认识主题,把一切主题都看作一系列的范畴组成,并根据

范畴职能的具体性递减原则构成范畴职能引用次序。阮冈纳赞就提出本体、物质、动力、空间、时间五个范畴。

15. 概念关系引用次序:是对一个复合主题进行概念分析,然后根据概念间的各种关系确定其引用次序。

概念之间的关系一般都用符号表示,即用预先设计代表一定关系的符号来连接概念,概念关系引用次序比较抽象。

16. 上下文从属引用次序:这是一种更接近自然语言的检索语言,这些语言相比于叙词语言最大的特点就

是尽可能地保留了自然语句的特征,而其中最有意义的特征就是保留了部分自然语言句法手段(虚词)和自然语序。如关键词语言(尤指KWIC和KWOC)、词串式语言(如ASI和PRECIS等)。

17. 手工信息检索系统:是指以人工查找和提供信息的系统。其特点是人直接参与检索过程。所使用的信

息检索工具包括书本式目录、文摘、索引以及各种卡片检索系统等。手工检索系统具有操作简单,费用低廉、查准率高等优点,但耗时较多,效率较低。

18. 联机信息检索系统:是指信息用户利用终端设备,通过国际通信网络与世界上的信息检索系统,进行

直接的人机对话,从检索系统的数据库中查找出用户所需信息的全过程。一个联机信息检索系统,通常由检索服务机构、国际通 信网络和终端组成。联机信息检索系统的信息资源丰富且经过严格的加工、处理和组织,质量较高。在信息组织方面多数采用了规范化的检索语言,标引质量较高。

19. 光盘信息检索系统:光盘信息检索系统是单机信息检索系统的一种,它解决了单机检索系统数据存储

量少的缺点,是目前应用较为广泛的一种计算机信息检索系统。光盘信息检索系统的数据库基本与联机信息检索系统相似,绝大多数就是联机信息检索系统的数据库的不同表现形式。

20. 网络信息检索系统:网络信息检索系统一般由计算机服务器、通信网络、通信协议、网络信息检索服

务器、用户终端等构成。网络信息检索系统有以下主要特点:可供检索的信息资源空前丰富;超文本检索;界面友好;良好的反馈能力和快速响应能力。

21. 检索效率:对信息检索效果满意程度的表示。主要指查全率和查准率。广义的检索效率包括查全率、

查准率、检索速度、检索方便性、检索成本效益比(全、准、快、便、省)。

22. 查全率:查全率(Recall ratio,R)是衡量某一信息检索系统从特定文献信息集合中检出相关文献信

息成功的一项指标。查全率(R)=被检出相关的文献信息量 /相关文献信息总量。

23. 查准率:查准率(Pertinency ratio,p)是衡量某一信息检索系统的信号噪声比的一种指标。查准率

(P)=被检出相关的文献信息量/被检出文献信息总量。

第2页

信息组织 名词解释

24. 培根的知识分类体系:培根从人类的心理特征出发,将知识分为三类:历史(记忆知识)、诗歌(想象

知识)、哲学(理性知识),并在其下分出细纲。

25. “倒转培根分类法”:1870年美国哲学家和教育学家哈利斯(W.T.Harris)根据美国公共图书馆和高等学

校课程的设置情况首次利用倒转培根知识体系来编制图书分类法,称之为“倒转培根分类法”(Inverted Baconian Scheme)。培根原来的分类是“历史——诗歌——哲学”,倒转后即为“哲学——诗歌——历史”。哈利斯根据培根的知识大纲将其分类编排为:科学、哲学、宗教、社会科学、政治学、自然科学、应用科学、美术、诗、小说、其他文学著作、地理与游记、历史、传记、附录、杂录,然后再细分为100个小类。这部分类法从根本上突破了神学分类法的体系,它的出现为培根知识分类在图书分类法中的应用开辟了道路。哈利斯分类法奠定了《杜威十进分类法》(DDC)体系基础。

26. 概念的内涵与外延:概念的含义及适用的范围就是一个概念的内涵与外延。明确概念实际上就是明确

其内涵与外延。概念的外延和内涵之间是互相依存而又互相制约的。在一个概念中,当它的内涵扩大(加深)时,则它的外延就缩小;当它的内涵缩小(变浅)时,则它的外延就扩大。

27. 概念的限定:概念的限定是指通过增加概念的内涵以缩小概念的外延,即由属概念过渡到种概念的逻

辑方法。对一概念进行限定,从语言上说一般是增加限制词,如定语、状语等,增加的限制词应是恰当的,不能与原概念矛盾或重复。

28. 概念的概括:概念的概括是与概念的限定相反的一种逻辑方法,它是通过减少概念的内涵从而扩大其

外延,由外延较小的种概念过渡到属概念。概括的方法可以使我们的认识上升到一定高度,加深对事物本质的了解。

29. 概念的划分:概念的划分就是以事物的某种属性为分类标准,将一个属概念的外延划分成若干个种概

念的方法。事物有各种各样的属性,根据不同的属性就可做不同的划分。概念的划分的基本规则是:划分得到的子项的外延之和应当等于母项的外延;划分得到的子项的外延必须相互排斥;每次划分应当使用同一标准进行;划分必须是按层次逐级进行。

30. 概念的分析与综合方法:概念的逻辑方法是编制信息分类法的基本方法。考察各个知识领域的要素及

其属性,从众多的知识领域依据它们共同的属性概括出分类法的基本大类,这就是分析与综合的方法。对每一个类目通过选取适当的分类标准进行逐级地划分,一层层展开就构成一个等级并列关系分明、概念内涵外延清晰的类目体系,这个过程始终是概念逻辑方法的运用。在这个严密的类目体系中,各种知识、各个学科、各种事物都依据其内在的联系排列并固定位置。

31. 信息分类法:信息分类法是一个广义的概念,按其处理的对象,可以分为文献分类法、学科分类法、

网络信息分类法、事物分类法等不同的类型。

32. 文献分类 :信息整序的一种方法,是按照文献的内容特征对众多的文献进行划分,并分门别类地系统

组织。文献分类工作包括编类(编制文献分类表)及归类(即分类标引)两部分。

33. 文献分类法:文献分类法是信息分类法中最重要的类型,因为文献是人类知识最完整、最系统的记录,

对它的整序要求也最高。文献分类是各种分类法中最复杂、最庞大的,包括图书分类法、档案分类法、专利分类法、标准分类法、资料分类法、公文分类法等。

第3页

信息组织 名词解释

34. 学科、专业和科研项目分类法:学科分类法的对象是“学科”,其作用主要是用于国家宏观科技管理、

科技统计等。学科分类法能很好地体现现有学科的知识联系,但不能处理大量的非学科信息,一般也不适用于文献的整序。

(1) 专业(课程)分类法的对象是高等学校的专业,其主要作用是用于高等学校的专业设置、课

程建设、学位管理、招生等方面。专业(课程)分类法与学科分类法很相近,因为学科与专业是紧密联系的,但专业(课程)分类法更实用化,也比学科分类更概括。根据专业设置的需要常将相关的学科加以归并。由于学校专业具有很高的稳定性,很多研究机构的设置也与专业有关,因此它对信息分类法有重要的参考价值。

(2) 科研项目分类法主要作用在于科研的管理、申报、统计等,一般与学校的专业分类有一定的

对应关系,但其稳定性不如专业分类法,经常要突出一个时期的重点研究方向。

35. 网络信息分类法:网络信息分类法是处理信息面最广的分类法,不仅包括一般的文献信息,还包括商

品信息、贸易信息、金融信息、组织机构信息、新闻,以及软件、游戏、多媒体信息、各类动态信息等。网络信息分类法一般多以搜索引擎“分类导航”的形式出现,并且“分类法—检索系统和界面—信息数据库”是一个统一的整体。

36. 事物分类法:事物分类法是以实体的事物为主要分类对象,而不是抽象的知识,根据事物之间的异同

按一定的分类标准聚类和划分,依据事物关系的亲疏远近排列而成的分类法。

37. 等级体系分类法:也称枚举分类法、等级分类法、体系分类、展开式分类法、层次分类法等。列举式

分类法有两个基本特点:首先是有一个严密的类目等级结构;其次是代表信息与知识概念的类目以详尽列举的方式直接展现。

38. 组配式分类法:也称分面分类法、组面分类法、分析—综合式分类法,是根据概念的分析与综合的原

理,将概括文献、信息、事物的主题概念组成“知识大纲—分面—亚面—类目”的结构,按一定的规则、通过各个分面内类目之间的组合来表达文献主题的一种分类法。

39. 分面引用次序:就是由类目合成新主题时的组配次序,不同的知识领域的主题构成形式不同,组配次

序也不尽相同,将组面的引用次序加以固定就是分面公式或组配公式。

40. 体系-组配式分类法:这是一种在等级体系分类法的基础上,引入分面分析和组配技术所形成的分类

法结构模式。以等级体系分类为基础,是确保分类知识系统性的前提,也是满足文献工作诸多环节所需要的。引入分面分析和组配技术是为了提高体系分类对新主题、复杂主题的描述能力和灵活的检索能力,因此这种分类法兼有体系分类法和组配式分类法的长处。

41. 分类法的宏观结构:是指分类法的基本组成部分及其联系,各个组成部分一般是一个独立的模块,具

有特定的功能。分类法的宏观结构一般包括编制说明、基本类目表、分类法主表、分类法辅助分类体系、分类法附表、分类法索引、分类法使用手册及附录等。

42. 基本类目表:也称分类法简表,是由分类法的一级大类(基本大类)进一步区分出来的二、三级类目

所组成(部分知识领域可能包括四级类目),是分类法的类目体系框架,分类法基本知识结构与划分规则等通过基本类目表清晰地展现出来,通过基本类目表可以迅速了解分类法的概貌、把握分类法的编制与知识结构脉络、把握各个知识领域的联系。

43. 分类法主表:也称分类法的详表,是由各级类目组成的一览表,分类法编制的理论、技术、规则等都

第4页

信息组织 名词解释

贯穿在其中,是文献、信息分类标引的依据。主表按其功能又可以分为术语(类名)系统、标记系统、注释与参照系统。

44. 辅助分类体系:是分类法的次要分类体系,提供从主要分类体系聚类标准以外的检索途径,主要用于

网络信息分类系统,也可以用于电子分类法。

45. 分类法附表:也称分类法的辅助表、通用复分表,是一组组配有编号的标准子目表,单独编列在分类

法主表之后,用于对主表中列举的类目进行细分。辅助表按适用的范围和内容可分为总论复分表、时间复分表、空间复分表、民族复分表、体裁复分表、人物复分表、材料复分表等。分类法附表的设置与主表类目细分方法密切相关并紧密配合。

46. 分类法索引:是分类法从字顺途径按类目名称、事物主题查找类目的工具。按索引的编制方法主要有

直接索引和相关索引两种。直接索引是将分类法类目和注释中有检索意义的语词按其名称字顺排列、并注明相应的分类号而编成的索引,直接索引编制简单但功能较差;相关索引是根据标题法的原理,将类目及其注释中有检索意义的语词改成标题形式,按字顺排列而成的索引,能将分类法分散在各类的相关知识加以集中。

47. 分类法使用手册:分类法使用手册详细阐述分类法的编制理论与技术,各类文献、信息分类规则与方

法,是指导用户学习和正确使用该分类法的权威性工具。

48. 复分表:也称为附表、辅助表,是文献分类法的重要组成部分。它是将主表中按相同标准划分某些类

所产生的一系列相同子目抽出来,并配以特定号码,单独编制成的,供主表有关类目作进一步复分用的类目表。

49. 专类复分表:是供分类表中某大类或某大类中的部分类目作进一步区分用的复分表。是根据各类图书

资料分类的需要而编制的,相对于通用复分表而言,专类复分表的使用范围比较狭窄,它只供某大类或某大类中的有关类目复分用,其他类不能依此表复分。

50. 分类法的微观结构:分类法的微观结构,是指分类法的类目结构。

51. 类目:类目(包括复分表的子目)是一个个表达文献、信息内容的概念,每个类目都代表具有某种共

同属性的文献、信息集合。类目是构造分类法的最基本要素,是构成分类检索语言的细胞,分类法的整体功能是通过类目及其联系实现的。一个类目是由类号、类名、类级、注释和参照组成的,其中类号、类名、类级是必须的。

52. 类级:是指类目的级别,代表该类目在分类体系中的等级(划分的层次)、显示类目间的等级关系。

53. 类目注释和参照:是对类目含义及内容范围、分类方法、复分方法、特殊书次号编制方法、该类与其

他类目的关系等进行的说明。

54. 文献保证原则:是编制文献分类法的基本原则。即编列类目时要切合文献出版和收藏的实际情况,也

就是要有足够的文献作为保障。这条原则由英国学者休姆(E.W.Hulme)1911年在《分类法原则》一文中提出的。

第5页

信息组织 名词解释

55. 文献分类标准:对一批文献进行划分时所依据的某种属性或特征,也称作分类特征。应选择具有科学

认识意义的、相对稳定的内容特征作为分类标准。一般文献分类均以文献内容的学科属性作为主要分类标准;必要时以有检索意义的文献外表特征,诸如类型、载体、时代、地域等作为辅助分标准。

56. 引用次序:即分类标准使用次序,是等级体系分类法类目划分时使用分类标准的先后次序。一个类在

连续划分过程中,需要分别使用该类事物的若干属性作为分类标准。这些分类标准的使用次序,决定着文献、信息聚合成类的次序和按某种属性集中的程度,决定着分类法局部的类目体系结构。

57. 类目“横向展开”与“纵向深入”:在类目划分时,总是伴随着横向展开与纵向深入这两个方面。横向

展开是以某类事物的共性问题为分类标准,按事物某方面的属性聚类,划分的结果是形成一组组关于某类事物各个方面的类目;纵向深入是以事物的个性差异为分类标准,沿着“属→种”的方向进行个性化区分,划分的结果是形成一组组关于某事物细分种类的类目。

58. 多重列类法:分类法在编列类目时,同时采用几个分类标准,分别建立几组平行的子目的方法,是分

面技术在等级分类法中的应用。

59. 双表列类法:是体系分类法的一种编列类目的方法。为了增强对专业图书馆或情报机构需要的适应能

力,综合性分类法的某些大类,有时可以同时列出两个(有时还可以多个)体系不同的类目,供用户选择。

60. 仿分:是统一类目和简化类表的方法之一。即在一些类目下不列出具体的下位类的名称,而仅仅指明

仿效、按照另一类进行细分。仿分可以避免在分类表中重复出现相同或相似的复分细目,节省篇幅,增强类目的助记性。仿分分为三类,一是仿临近类目分;二是仿总论性类目分;三是仿全部类目分。

61. 交替类目:为了处理具有多重等级关系的概念而在分类表中专设的一种类目。有些学科主题概念具有

多重属分关系,即同时隶属于两个或两个以上的学科或主题。为了使它们多向成类,一般同时在分类表的有关位置设置类目上。可视需要选择其中之一作为正式使用类目,其他非正式使用的类目就叫做交替类目。

62. 参见类目:表示类目与类目之间有着相关关系的参照叫做类目参照。分类表除了采用隶属、并列等方

式以外,往往还采用设立参照的方式来表示相关类目之间的联系。被 参见的类目,叫做参见类目。

63. 类目的等级关系:类目的等级关系是一种纵向的隶属关系,反映类目之间的亲缘关系,包括从属关系

和并列关系,主要使用等级结构来显示,层累制分类标记的数位基本能反映类目的级位,在分类表中还同时使用不同的字号、字体和排列的缩格来表示。

64. 类目的相关关系:类目的相关关系是一种横向联系的关系,指类目间虽不存在等级关系,但内容上相

互关联,如理论与其应用、设备与相关的制造工艺等。等级体系分类法主要通过类目的参见注释和类目的内容范围注释,揭示类目间的关联性并把它们连接起来,从而实现非等级关系类目的语义控制。

65. 类目的同一关系:类目的同一关系即类目的交替关系,使用交替类目来显示,它既能揭示非一个类系

内的从属关系,也能通过跨类的指引起到揭示相关关系的作用,因为使用类目与交替类目所在的类目一定存在某种联系。

第6页

信息组织 名词解释

66. 类目注释:注释是类目的重要组成部分,对正确了解类目的含义和使用分类法有着重要的指引作用,

类目注释主要有以下几种类型:(1)类目内容注释;(2)类目关系注释;(3)分类方法注释;(4)类目沿革注释。

67. 分类号组配:将两个简单的(表示单一主题概念或主题因素)类号组合成为一个复合的类号,以表达

一个分类表中未列出的复杂概念,这种标引方法就叫做分类号组配或组配编号法。

68. 标记符号:又称分类号或分类标记,系类目的代号。它起着固定类目在分类表中的位置,表示类目次

序的作用,有时还可从标记上识别类目之间的关系,有助于进行排架、流通、标引、检索等多项工作。

69. 标记制度:分类法的标记制度也称编号制度、配号制度,是编制分类标记的根本方法,决定着分类标

记系统的类型和性能。最常使用的是层累标记制、顺序标记制、混合标记制和分面标记制,不同的标记制度产生不同的标记符号类型。

70. 单纯号码:凡只采用一种有固定次序的符号编制成的标记符号就称为单纯号码。单纯号码中又有单纯

数字号码与单纯字母号码两种类型。

71. 混合号码:采用两种或两种以上有固定次序的符号系统编制的分类标记称为混合制号码。这种号码是

汲取了单纯数字和单纯字母号码的优点,既易识读又有较大的容量。混合制号码一般使用阿拉伯数字和拉丁字母组合,并且通常使用字母标记一级类目或一、二级类目,用数字标记其他各级类目。

72. 层累标记制:又称等级标记制、展开标记制、树型标记制。是一种类号位数与类目等级相适应、层次

分明的标记制度,它属于结构型标记制的类型。一般用一位符号标记一级类,用两位符号标记二级类,如此层层累加,表示类目的层层划分。

73. 顺序标记制:是一种不按照类目的级别,只按照类目排列的先后次序分配号码的方法。它只反映类目

排列的先后次序,不显示类表的结构特点,从类号上无法判断类目之间可能存在的关系,因而又称作非结构型标记制。顺序制分数字顺序制和字母顺序制两种。

74. 小数标记制:又称作十进制或小数制,是将全部数字标记视为小数的标记制度。它采用0至9十个数

字。小数标记制以小数值的升值次序排列类目的先后,具有较强的容纳性,可以随着类目的深入细分无限地扩充和延伸,而且一般无需发动原有的分类号。

75. 分面标记制:也称分段标记制,是用若干节段符号的组合来表达主题概念的标记制,它能显示类目的

组配结构。分面标记制采用特定的符号或组配方式表示复杂主题各个主题因素所属的分面,使号码不仅揭示类目的次序和等级,也能显示类目的分面结构,其特点是灵活的组配性能可以充分揭示文献主题。

76. 起讫标记制:又称扩充编号法,是用一个号码或一个起讫号码表示一类,用起讫范围内的若干个号码

(包括起讫号码)标记某个起讫类号所在类目的下位类。起讫标记制有一定的容纳性和表达性,号码比较简短和便于扩充。

77. 回归标记制:也称回溯标记制,是一种适用于分面组配式分类的标记制。其配号的方法是直接将位置

第7页

信息组织 名词解释

在前的组面类号加在位置在后的组面类号上。

78. 借号法:所谓的借号,是指同位类展开时比常规列类多出一、二个类目(包括不占用为了今后扩充需

要预留的号码),而其前面的同位类展开后子目较少,剩余了若干号码(除去为了今后扩充需要预留的号码和进行复分预留的号码),这时就借用前面类目的下位类号为该类目配号,这种情况号码的长度已经与类级不相对应。选择借号的类目一般是重要性较低的类目。

79. 八分法:又称“扩九法”,是为了适应类列不断扩充而采用的一种编号方法。也可表述为:是用阿拉伯

数字“9”作为空位号来扩展同位类的号码的一种编号方法。其编号方式:用数字1-8表示8个同位类;当同位类超过8个时,从第9到第16个类目分别用91、92、93??98来表示;当同位类超过16个时,从第17个至第24个类目分别用991、992、993??998来表示,以此类推。

80. 双位制:也称百分法,是用于同位类数量相当多时的一种扩号技术。基本的编号方法是:1-9本身不

使用,每个号码直接扩充为双位号,为同位类配号,这样在同一个类列中号码的位数与类目的等级是相对应的。

81. 空号法:在分类标记系统设计和实际配号中,为了给类目扩充或修订留有余地,或为了编号的逻辑性、

或为了编号的对应性等目的,预留一定数量的空号,以便将来增补新类。

82. 《中国图书馆分类法》:《中图法》是我国建国后编制出版的一部具有代表性的大型列举式等级体系综

合性分类法,是我国应用最广泛的分类法。主要供大型综合性图书馆及情报机构类分文献、编制分类检索工具、组织文献分类排架使用,同时也可供其他不同规模和类型的图书情报单位根据自己的需要调整使用。

83. 《中图法》基本序列:《中图法》以自然科学、社会科学、哲学作为人类知识领域的基本构成建立基本

序列。并将作为社会主义分类法编制指导思想的“马列宁主义”(具有特藏性质)和结合文献特殊性设置的“综合性图书”作为部类,形成五个部类的基本序列。

84. 《中图法》宏观结构与微观结构:《中图法》的宏观结构包括:编制说明,基本大类表,基本类目表,

主表,附表,字顺索引,使用手册等,这些部分共同构成《中图法》的整体。

85. 类目:是构造分类法的最基本要素,每个类目代表具有某种共同属性的文献集合。《中图法》的类目结

构由类号、类名、类级、注释和参照组成。

86. 《中图法》通用复分表:《中图法》共有八个通用复分表,即“总论复分表”、“世界地区表”、“中国地

区表”、“国际时代表”、“中国时代表”、“中国民族表”、“世界种族与民族表”、“通用时间、地点表”。通用复分表只对主表类目起复分作用,不能单独使用。

87. 《中图法》专类复分表:第四版《中图法》的主表共编列专类复分表67个,此外,在“总论复分表”

和“中国地区表”中还各编列一个专类复分表。专类复分表的标记符号采用阿拉伯数字,自然科学各类的专类复分号前一律冠“0”,专类复分表的两侧用竖线标记,以示醒目。

88. 《中图法》索引:索引是《中图法》的重要组成部分,是从类目名称(主题概念)查找分类号的工具。

它是将《中图法》全部类目名称及注释包含的主题概念按其名称的字顺排列起来,并分别指明其相应的分类号。它为标引人员和检索用户提供一条按照字顺查找、利用分类表和分类目录的途径。《中图法》

第8页

信息组织 名词解释

索引开始编于第二版,是主题标目式的相关索引,第三版未编制索引,第四版是题内关键词轮排索引。

89. 电子分类法:电子分类法,是指分类法的类目以及类目之间的关系以特定的数据格式记录在数据库上,

通过软件程序实现分类表的显示、浏览、类号及语词检索、统计等功能,在计算机上进行使用的分类法。实现电子分类法的设计功能,分类法的数据格式是关键。

90. 主题检索:主题检索有广义和狭义两种所指,在国外多采用其广义所指,我国则多取其狭义。 广义的

主题检索是指用与内容有关的属性查找未知的文献或信息资源,以解答特定的问题或满足特定的信息需求。因此,广义的主题检索既包括用叙词、标题词、单元词进行的检索,用题名、文摘、正文中的词(关键词)进行的检索, 还包括用分类号、被引文献进行的检索。狭义的主题检索是指用叙词、标题词、单元词、关键词等表达信息需求而进行的检索。我们所说的主题检索是指这种狭义的主题检索。

91. 主题法 :一般是指直接以表示文献主题的语词作标识,提供字顺检索途径,并主要采用参照系统揭示

词间关系的标引和检索文献的方法。它是分类法之外,另一种从内容角度标引和检索文献的主要方法。从检索语言的角度来说,主题法也就是主题检索语言,或称主题语言,它是用自然语言语词或受控的自然语言语词直接表达主题概念,按语词字顺排列主题概念,主要用参照系统显示概念之间关系的检索语言。按照表达主题概念的语词标识的构成原理和特征的不同,主题法一般分为标题法、单元词法、叙词法、关键词法。

92. 标题法:标题法是用规范化的自然语言语词作标题,直接表达文献主题概念,按照标题字顺排列,并

用参照系统显示标题之间关系的一种主题法。

93. 单元词法:单元词法,又称元词法,它是以取自自然语言,经过规范化处理的单元词作标识,通过单

元词的字面组配来表达主题概念的一种主题法。

94. 叙词法:叙词法,在我国又称主题词法,它是以规范化的自然语言语词为叙词,作为文献主题的标识,

通过叙词的概念组配表达主题概念的一种主题法。

95. 关键词法:关键词法,是直接以文献中能够表达主题概念的关键词作标识的一种准主题法。或者说,

关键词法是由计算机或人工从文献中抽取关键词作标识,并按字顺排列,提供主题检索途径的方法。

96. 概念组配:概念组配要求以表达基本概念的语词为标识,用于概念组配的语词既可以是单词,也可以

是词组。概念组配本质上是在概念分析的基础上进行概念综合,是符合概念逻辑的组配。概念组配所表达的概念与参加组配的各方所表达的概念在逻辑上是有联系的,往往表现为下位概念(种概念、部分概念、方面概念)与上位概念(属概念、整体概念、事物概念)的关系。

97. 字面组配:字面组配只要求参与组配的词与组配构成的词在字面形式上的一致,强调参与组配语词的

单元性,因此要求采用最小的词汇单位-单词,而不用词组。字面组配是利用构词法进行词的分拆和组合,它符合构词规律,但是,不一定符合概念逻辑。

98. 交叉组配:是指使用两个或多个具有交叉关系的叙词进行组配。由于参加组配的叙词所表达的概念具

有交叉关系,组配所表达的概念正是交叉的那个部分。因此,交叉组配所产生的概念肯定是各个参与组配概念的种概念。

第9页

信息组织 名词解释

99. 方面组配:也称为限定组配,是指将表示某一事物的叙词与表示事物方面(部分、属性、状态、过程、

条件、关系等方面)的叙词进行组配。参与方面组配的叙词不是同性质的词,它们所表达的概念,在外延上并不相交。但是,它们所代表的文献内容或文献集合却有交叉部分。方面组配产生的新概念是一个下位概念,但是,它只是其中一个参与组配概念的种概念,与参加组配的另一概念的关系则是部分与整体关系,或方面与事物的关系,或过程与主体的关系等之中的一种。

100. 特称组配:是指用一个表示事物类称的属概念叙词与表达“种差”(待表达种概念比参与组配的那个属

概念多出某种特征)的叙词进行组配。一般来说,表示事物的叙词与用来区分事物、并表示事物的形状、形式、度量、材料等属性的叙词之间的组配属于特称组配。

101. 词类控制:可以作为叙词的主要是表示文献主题中涉及的事物及事物特征的各学科领域名词术语,包

括简单名词(单纯词和合成词)和名词性词组。有的叙词表还收入少量的形容词。此外,根据标引需要,可以使用数量词(如表示年代)作叙词,但不在叙词表中列举。

102. 词形控制:叙词法的词形控制主要是指对同义不同形的词优选其中的一种形式作叙词(正式叙词),以

避免信息分散而降低检全率,有利于字顺排列。

103. 词组控制:叙词法中,选择一定的词组作叙词可以提高标引的一致性,保证较高的检准率。但是,词

组过多或先组程度过高的词组,一方面会增加叙词数量,使词表体积庞大;另一方面,会减少检索途径和多向成族的机会,从而降低检全率。因此,在叙词法中,必须对词组(叙词先组度)进行适当控制。

104. 词义控制 :叙词法的词义控制,主要是对多义词(同一词形表示的多个词义有相关性)、同形异义词

(同一词形表示的多个词义之间不相关)和词义含糊而导致理解不一的词,进行处理,使叙词的词义具有单一性和明确性。 叙词词义控制主要采用两种措施:一是加限定词或限义符号;二是用注释。

105. 叙词法参照系统:参照系统是叙词法显示词间关系的主要方法,它用规定的参照符号,将词间的语义

等同关系、等级关系和相关关系予以显示,将依字顺排列而分割的词间联系揭示出来。

106. 等同关系:等同关系,是指叙词与非正式叙词之间的关系,亦即在词形控制过程中被选作叙词的词与

落选且保留在叙词表中作入口词的词之间的关系,又称用代关系或同一关系。 汉语叙词表的词间等同关系用字母“Y”和“D”表示。

107. 等级关系:等级关系,是指上位叙词和下位叙词之间的关系,亦称属分关系。 汉语叙词表中,叙词之

间的等级关系参照符号有三种:“S”、“F”和“Z”。

108. 相关关系:具有相关关系的叙词所表达的概念有着一定的联系,在叙词之间建立这种联系,不仅方便

标引人员在相关叙词的比较中选准标引用词;更重要的是方便检索者从相关叙词中选准和选全表达检索课题的叙词,从而提高检索效率。相关关系的显示是双向的,在汉语叙词表中用“C”表示相关关系。

109. 叙词表的宏观结构:是指叙词表的基本组成部分及其联系,各个组成部分一般是一个独立的模块,具

有特定的功能。以汉表为例,叙词表的宏观结构一般由以下十大部分组成:字顺系统部分(字顺表、专有叙词表、轮排索引、字顺索引、入口词表、双语种对照索引);逻辑系统部分(范畴索引、词族索

第10页

信息组织 名词解释

引、叙词关系图、分类表)。

110. 字顺表:字顺表,是将众多叙词款目和非正式叙词款目按字顺排列的词汇表。在传统叙词表中,字顺

表含有叙词或非正式叙词的最完整信息,是标引和检索的主要依据,是叙词表的主体。因此,一般称为叙词表的主表。

111. 专有叙词表:是将专有名称叙词或非正式叙词款目按字顺排列,单独集中展示的词汇表。它是字顺表

的组成部分,微观结构与字顺表没有差别。单独设立专有叙词表的目的主要有两个:一是压缩字顺表的篇幅,方便从字顺表查词;二是便于用户迅速查到所需的专有叙词,不必去词量较多的主表中查找。

112. 轮排索引:又称轮排表,是将叙词按其词素的字顺轮流排列到检索入口,使含有相同词素的词集中在

一起的索引。轮排索引利用字面成族原理揭示叙词之间的联系,可以发挥两个功能:一是提供查找词组叙词(包括非正式叙词)的多个字顺入口;二是将含有相同词素的词集中一处,增加发现叙词间的联系和区别的机会,便于用户在比较中选择叙词。

113. 双语种对照索引:是将全部或大多数叙词和非正式叙词与其外语译名相对应,按外语译名字顺排列的

索引。我国的叙词表多编制英汉对照索引。

114. 字顺索引:是将叙词(或包括非正式叙词)按字顺排列,而不包含叙词款目中的其他项目(非叙词含

“用”参照)的一种索引。它是对字顺表的简化,一般是在叙词表的词汇量较大时,为提高查词速度而编制。

115. 入口词表:是将非正式叙词按字顺排列,并指出其对应叙词的索引。

116. 范畴索引:又称分类索引、范畴表,是按叙词表全部叙词和非正式叙词所属学科或范畴编制的词汇分

类索引。一般首先设立若干大类(范畴),大类之下再分出若干二级或三级小类,在小类之下,才将所属的叙词和非正式叙词按字顺排列。

117. 词族索引:也称等级索引、族系表,是将字顺表中具有等级关系的叙词按属分等级构成词族,并按各

词族的族首词字顺排列词汇索引。

118. 叙词款目:在字顺表中,对一个叙词及其相关项目的著录就构成一条叙词款目,一般都由款目词项、

标注项和参照项组成,其中参照项可以包括Y、D、S、F、C、Z等多项参照项。

119. 非正式叙词款目:对一个非正式叙词及其相关项目的著录就构成一条非正式叙词款目,一般都由款目

词项、标注项和参照项组成,其中参照项中只有“用”参照项。

120. 目标性原则:词汇收集应紧扣词表的使用目标,即围绕目标而收词汇。

121. 文献保证原则:收集词汇时的文献保证原则,是指应以语词在表达文献主题概念时的出现频率为重要

依据。根据将要标引的文献数量及其发展趋势而收词,是文献保证原则的必然要求。

122. 用户保证原则:是要求将用户表达检索课题的用词及其倾向作为收词的最重要依据。

第11页

信息组织 名词解释

123. 组配优先原则:叙词主要是用来组配表达文献主题的,因此,收词时不能无控制地收集词组。凡是可

以用基本名词术语组配表达的词组,应尽量不收词组。因为词组太多,不利于发挥叙词组配的优异性能。

124. 分类主题一体化:分类法系统和主题法系统作为信息组织的两种重要工具,在它们各自的修改和完善

过程中,为充分吸收对方的优势来弥补自身功能的不足,分类法的编制原则和方法被逐渐渗透到主题法,以提高主题法的族性检索功能;同时主题法的编制原则和方法也被逐渐渗透到分类法,以提高分类法的特性检索功能。要真正实现分类主题一体化,就必须从二者在结构上的差异性和相通性入手,实现二者结构上的求同存异及有机结合,从而也实现二者功能上的互补。

125. 自然语言与受控语言混合系统:指同时在一个检索系统中采用规范化的控制术语和自由词对同一篇文

献进行标引和检索。这种混合系统通常同时包括受控词、自由词、篇名词、文摘词等多种类型,可以同时使用不同类型的语词组合进行检索操作。

126. 主动式兼容:指在词表的编表阶段采取兼容化措施,可使两种或多种检索语言间具有较大程度的兼容

性。

127. 被动式兼容 :是指在现有的两种或多种检索语言的条件下采取兼容化措施,不及在编表阶段采取兼容

化措施的兼容程度高,具有很大的局限性,这种兼容称为被动式兼容。

128. 中介词典:中介词典是一种转换方法或交换语言,而不是一种专供特定情报中心标引和检索的词表。

英国柯茨把中介词典定义为:一种能把任何一个情报系统中标引文献时给出的标引词或分类号转换成任何其他情报系统中的概念等价词的软件。

129. 叙词词库:叙词词库是将多数叙词表的词汇汇集存于计算机。从严格意义上说,它是叙词表库。叙词

词库兼具前述四种模式的主要特点,即:词汇转换功能;宏观词表与微观词表兼容;生成集成词表。

130. 《分面叙词表》:1969年英国的艾奇逊和戈默索尔(A.Gomersall)等首次将《英国电气分面分类法》

成功地改编为一部《分面叙词表:工程及相关学科的叙词表和分面分类法》。该部《分面叙词表》包含有分类表和叙词表两大部分,每个叙词(即类目)同时出现在两大部分之中,两部分之间用分类号相联系,真正做到了分类法和主题法的一体化。在这部词表中,叙词表实际上成了分类表的字顺索引,分类表则成了叙词表的范畴索引和词族索引。由于这种词表具有多种功能,可以同时用于手检和机检,可以同时用于分类标引和主题标引,因而受到图书馆界的极大重视和好评。许多著名专家和学者专门撰文予以称赞,指出《分面叙词表》的功绩在于“首次建立了一个真正实现了分类法和主题法两者合一的系统”,是对标引理论和实践的一大贡献,“将有可能成为标引和检索所用受控词表的楷模”。

131. 分面叙词表:是以世界上编制的第一部分类主题一体化词表——艾奇逊(J.Aitchison)等的《分面叙

词表》命名的类型,是最典型、影响最大的分类主题一体化检索语言。

132. 这种类型的一体化词表的基本结构包括分类表和叙词表两大部分,有些还编有轮排索引、化学式索引

或专有叙词索引等。由于对这两部分的词汇实施了统一的词形、词义和词间关系控制,使两者能够一一对应,等值兼容。加之用一个详细的分类表代替了范畴索引和词族索引后,使叙词之间的等级关系、相关关系和等同关系得到完整、详尽、集中的显示,用户因而可以迅速、全面地浏览某一学科或专业的主题,选择合适的叙词。因此,这种类型的一体化词表的整体功能大于传统叙词表中各个部分(如字顺表、范畴索引、词族索引、轮排索引等)功能的总和。

第12页

信息组织 名词解释

133. 分类表-叙词表索引:这种对照索引是分类检索语言和主题检索语言兼容、互换的工具,通常用作情

报检索查词选类的辅助工具,便于分类标引数据和主题标引数据之间的转换。如果在这种对照索引的分类号(以及类名)和叙词下加上原有的注释项和参照项,就可以同时用于分类标引和主题标引。从这种意义上说,分类表—叙词表对照索引也可视为一种特定类型的分类主题一体化词表。

134. 综合词表:它是将特定主题领域的若干分类表和叙词表汇编而成的。往往是以一部分类表或叙词表为

主,列出与某一分类号或叙词对应的其他分类法或叙词表中的分类号或叙词。这种 135. 词表可用来进行书目数据库之间的转换,或用于在联合分类和标引活动中实现分类系统和叙

136. 《中国分类主题词表》:《中国分类主题词表》是在《中图法》编委会的主持下,从1987年开始由全国

40个图书情报单位共同参加编制,1994年出版的一部大型文献标引工具书。它是在《中图法》第三版(包括《资料法》第三版)和《汉语主题词表》(以下简称《汉表》)的基础上,为实现分类主题一体化标引,为机助标引、自动标引提供条件,降低标引难度,提高检索效率和标引工作效率,编制而成的分类检索语言和主题检索语言兼容互换的工具。

137. 《中国分类主题词表》分类号-主题词对应表:“分类号-主题词对应表”部分,是《中国分类主题词

表》从分类到主题、从类号到叙词的对照索引体系,包含了《中图法》、《资料法》所有类目和对应的叙词款目、对应的注释。该卷分左右两栏编排,左栏是《中图法》的类表,右栏是相对应的主题词和主题词串构成的先组式标题。其主要功能是文献分类标引和通过分类的途径查找主题词,进而进行主题标引。

138. 《中国分类主题词表》主题词-分类号对应表:“主题词-分类号对应表”部分,是《中国分类主题词

表》从主题词到分类号,从标题到分类号的对照索引体系。它按主题词款目和主题词串标题的字顺排列,其后列出对应的分类号。主题词款目结构与《汉表》大体相同,但在族首词下进行全显示。其主要功能是文献主题标引和通过主题查找相关的分类号,作分类标引的辅助手段。

139. 信息主题:信息主题或文献主题, 我国的国家标准《文献叙词标引规则》(GB/T 3860-1995),将主题

定义为:文献所具体论述与研究的对象和问题。

(1) 国际标准《文献工作─文献审读、主题分析与选定标引词的方法》(ISO 5963-1985(E) )定

义文献主题为:表达文献中心论题的一个概念或若干个概念的组合。

140. 信息主题结构:信息主题结构是指构成信息主题概念的各个基本概念因素以及它们之间的相互关系。

构成主题概念的基本概念因素称为主题因素,少数信息主题只有一个主题因素,大多数信息主题有多个主题因素。

141. 单因素主题:又称单元主题,是只有一个主题因素,表现为简单概念的主题。

142. 多因素主题:它是由多个主题因素组成,结构较为复杂的主题。

143. 复合主题:复合主题,是由两个或两个以上主题因素结合构成的主题,它的一个主题因素是事物因素,

其他的一个或多个主题因素是事物的特称因素、部分因素、方面因素。

第13页

信息组织 名词解释

144. 联结主题 :联结主题,是反映研究对象之间某种联系的主题,其中一个对象为事物因素,另外的对象

为关联因素。对象之间常见的联系有比较、影响、作用、因果、应用关系等。

145. 专业主题:是指与检索系统的学科专业范围相一致的主题。在专业检索系统中,对专业主题的标引应

该力求全面专指。

146. 相关主题 :是指与检索系统的学科专业范围不一致,但有一定联系的主题。在专业检索系统中,一方

面要注意对相关主题的选取,另一方面又不要与专业主题那样标引得全面专指。

147. 整体主题:是概括某一文献全部内容或基本内容的主题。每一文献只能有一个整体主题,但也可能没

有整体主题。

148. 局部主题:是概括某一文献部分内容的主题。每一文献可以有多个局部主题,但是,是否标引或标引

多少局部主题要根据局部主题的价值和检索系统的性质而定。

149. 主要主题:主要主题是概括作者在文献中重点论述内容的主题,也可以称为中心主题。每一文献至少

有一个主要主题,但可能不只一个主要主题。一般来说,主要主题是标引的重点,但是,根据检索系统的专业性质也可能不需要标引主要主题。

150. 次要主题 :次要主题是概括作者在文献中有所论述,但不是重点内容的主题。必要时需要标引次要主

题。

151. 显性主题:是文献明显论述的主题,即根据文献内容的字面表述能够直接概括出的主题。它一般不易

被标引者遗漏。

152. 隐性主题 :是指文献中没有表述,却隐含在字面形式中的主题。标引隐性主题的难度较大,需要标引

人员有较深厚的学科知识。

153. 信息标引:又称文献标引,是根据文献的特征,赋予文献检索标识的过程。信息标引所根据的文献特

征以内容特征为主,外部(形式)特征为辅。信息标引过程包括两个主要环节:一是主题分析,即在了解和确定文献的内容特征及某些外部特征的基础上,提炼出主题概念;二是转换标识,即用专门的检索语言(标引语言)中的标识表达主题概念,构成检索标识。

154. 分类标引 :又称文献分类或信息分类,是依据特定的分类语言,赋予文献分类标识的过程。

155. 主题标引:是依据特定的主题语言,赋予文献主题标识的过程。由于主题标引所依据的主题语言可以

是标题语言、叙词语言、关键词语言等,因此主题标引赋予文献的主题标识可能是标题、叙词或叙词标目、关键词等。

156. 整体标引 :是一种概括揭示文献内容的标引方式,它只针对文献整体内容提取主题予以标引。这种标

引方式往往用一个主题概括文献的整体内容或主要内容,但是,当无法将整体内容或主要内容概括为一个主题时,也可以标引出一个以上的主题。

第14页

信息组织 名词解释

157. 全面标引:是一种充分揭示文献内容的标引方式,它深入揭示文献中的各部分内容,全面提取局部主

题予以标引。这种标引方式要求对文献内容进行分解,详细标引文献中有检索和参考价值的各部分内容。

158. 对口标引 :是一种只揭示文献中符合专业检索系统需要的部分内容的标引方式,既只提取个别局部主

题予以标引,亦称重点标引。对口标引有较强的针对性和筛选性,主要适用于专业单位或检索系统对部分内容与本专业相关的文献进行标引。

159. 综合标引:是一种以整套(部)丛书、多卷书、论文集、会议录等为单位,概括揭示其内容的标引方

式,是一种特殊的整体标引。综合标引除了揭示内容特征外,一般还应标引出表示文献类型的主题因素。

160. 分散标引 :是一种以丛书、多卷书、论文集、会议录等文献中的每一种、一册、一篇文献为单位,揭

示其内容的标引方式。

161. 分析标引:是一种在整体标引或综合标引基础上,进一步深入揭示文献的部分内容,提取个别或若干

局部主题的标引方式,亦称补充标引。

162. 互见标引:是从不同角度多次揭示同一文献内容的标引方式,即对已经从一个角度或学科标引了的文

献内容,再从其他角度或学科出发予以标引。这也是一种补充标引,其目的是从不同角度或学科提示同一文献内容。

163. 深标引 :这是赋予文献较多标识,详细揭示文献内容的标引方式。全面标引必然是一种深标引。深标

引主要适用于计算机检索系统和学术论文的标引。

164. 浅标引:这是赋予文献较少标识,粗略揭示文献内容的标引方式。整体标引必然是一种浅标引。浅标

引主要适用于手工检索系统和图书的标引。

165. 专指标引 :是指所选用的一个标识表达的概念与被标引主题概念完全或基本相符的标引方式,亦称相

符性标引。

166. 组配标引:是指选用两个或多个标识共同表达一个主题概念的标引方式。

167. 上位标引 :是指所选用标识表达的概念是被标引主题概念的上位概念的标引方式。

168. 依附标引:是指所选用标识表达的概念与被标引主题概念相近或相关的标引方式。亦称靠类标引或靠

词标引。

169. 暂定标引 :是指所用标识在类表或词表中没有收录,但建议增加的标引方式。亦称增类标引或增词标

引。

170. 先组标引:是指标引时要将组配表达主题概念的若干标识组合起来的标引方式。先组标引主要用于手

工检索系统。

第15页

信息组织 名词解释

171. 后组标引 :是指标引时并不将组配表达主题概念的多个标识组合起来的标引方式。后组标引多用于计

算机检索系统。

172. 受控标引:是一种采用受控语言(检索语言)中的标识表达主题概念的标引方式。

173. 自由标引:是一种采用自然语言语词作标识表达主题概念的标引方式,又称非控标引。它是主题标引

的一种特殊形式。

174. 人工标引:是一种完全由标引人员亲自思考和操作而完成的标引方式,亦称手工标引。

175. 自动标引:是一种基本由计算机及其自动化、智能化系统完成判断和操作的标引方式,又称机器标引。

它又分为自动抽词标引和自动赋词标引,前者为自由标引,后者为受控标引。

176. 联合标引 :是各机构开展合作,各自只对一部分文献进行标引,相互共享标引成果的标引方式,亦称

合作标引。在网络环境中,以联机标引为主的联合标引将会有更大的发展。

177. 在版标引:是在文献出版或发表前就完成标引,并将标引成果记录在文献之中的标引方式。

178. 标引查重 :-主要是指查复本,即查看待标引文献(图书)是不是本单位收藏并标引过的文献复本。

如属复本或内容变化不多的不同版本,可以使用原先的检索标识;如系新的,则进行标引。查重的目的是避免重复标引,防止同一文献的标引不一致。查重的方法是在公务目录或机读目录中进行查对,以确定待标文献是否为已标引文献的复本或不同版本。

179. 主题分析:无论是分类标引还是主题标引,人工进行的主题分析可以细分为四个紧密联系甚至多次循

环的环节,即:了解文献内容及其表现形式;选择标引所针对的各个内容单元;概括单元内容,形成自然语言表述的主题概念;分析主题概念的结构、类型、学科属性。

(1) 自动标引的主题分析则表现为从文献中抽取表达主题概念的自然语词的方法运用,如词频统

计分析,语词位置加权等。

180. 分类法使用本:分类法的使用本,是指具体单位根据自己的文献情况和用户需要,在允许的范围内,

对通用分类法作些适当的调整、补充、说明后,确定下来作为分类标引最后依据的本子。

181. 图书改编:如果作为分类标引依据的分类法经过修订出了新的版本,甚至有的单位想放弃原来使用的

分类法,新采用一种分类法,就需要用新的分类法版本或新的分类法对已经分类标引过的图书重新进行分类标引,这就是图书改编问题。

182. 书次号:对同类书中特定图书的个别化编号,就是同类书的区分号,简称为书次号

183. 主题概念分解转换:主题概念的分解转换是要先将一个复杂主题概念分解成若干个简单概念或概念因

素,然后选用与各简单概念或概念因素对应的叙词,按照一定的规则组配起来表达这个复杂的主题概念。主题概念分解转换的关键是概念的分解,主题概念分解正是采用叙词进行主题标引(简称叙词标引)的难点,掌握主题概念分解的方法有助于提高叙词标引的效率和质量。

184. 交叉关系概念分解法:是指将复杂概念分解成两个或两个以上外延部分相交的属概念(作为概念因素

第16页

信息组织 名词解释

的简单概念)的方法。

185. 事物与方面关系概念分解法:是指将复杂概念分解成表达事物和方面的两个或两个以上的简单概念。

186. 事物与“种差”关系概念分解法:是指将一个复杂概念分解成表示事物的属概念和表示该属概念与被

分解的种概念之间相差属性的简单概念。

187. 概念概括分解法:是逐渐减少复杂概念内涵、不断扩大复杂概念外延,根据词表收词情况进行概念分

解的方法。

188. 概念限定分解法:是从被分解的复杂概念中找出最上位的属概念,然后从这个概念入手,利用词表中

的等级关系显示,逐一找出能表达被分解概念中最专指因素的叙词,进行概念分解。

189. 自然语言:“自然语言”,是人类在社会生活中发展起来的用来互相交际的声音符号系统。从信息检索

角度来理解,自然语言是指文献作者所使用的书面用语,在信息检索中包括关键词、自由词和出现在文献题名、摘要、正文或参考文献中的具有一定实质意义的词语。

190. 自然语言处理:自然语言处理是自然语言得以应用所要解决的首要的核心问题。自然语言处理是人工

智能领域的一个重要分支,它主要研究计算机对输入的自然语言文本的分析、理解和生成,旨在建立人与计算机之间友好的交流通道,实现更高层次的信息交互。自然语言处理(Natural Language Processing,简称NLP)是实现自然语言理解的核心基础,是语言信息处理的一个重要分支。一般认为,自然语言处理主要有以下4个应用领域:机器翻译、信息检索、人机接口、篇章理解。因此,这4个方面的技术构成了其研究内容的应用技术部分。

191. 汉语自动分词:汉语自动分词是任何中文自然语言处理系统都难以回避的第一道基本“工序”,其作用

怎么估计都不会过分。具体来说,自动分词是机器翻译、信息标引、智能检索、自然语言处理等必不可少的基础,也是制约中文信息处理飞跃的“瓶颈”之一。

192. 交集型歧义:如果AB和BC都是词典中的词,那么如果待切分字串中包含“ABC”这个子串,就必然会

造成两种可能的切分:“AB/C/” 和 “A/BC/”。这种类型的歧义就是交集型歧义。比如“网球场”就可能造成交集型歧义(网球/场/:网/球场/)。

193. 多义组合型歧义:如果AB和A、B都是词典中的词,那么如果待切分字串中包含“AB”这个子串,就

必然会造成两种可能的切分:“AB/” 和“A/ B/ ”。这种类型的歧义就是组合型歧义。比如“个人”就可能造成组合型歧义((我)个人/ :(三)个/人/)。

194. 未登录词:未登录词即未包括在分词词表中但必须切分出来的词,包括各类专名(人名、地名、企业

字号、商标号等)和某些术语、缩略词、新词等等。未登录词的识别对于各种汉语处理系统不仅有直接的实用意义,而且起到基础性的作用。

195. 词典分词法:又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词

典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。

196. 基于理解的分词方法:其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息

第17页

信息组织 名词解释

来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。

(1) 这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将

各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

197. 基于统计的分词方法:对语料中相邻共现的各个字的组合的频度进行统计,计算它们的同现信息。同

现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。

198. 这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词

方法。

199. 自然语言标引:是指采用原文中的信息作为标引源,从中选取能够有效表征信息内容的特征词的过程。

自然语言标引分为:人工标引方式(包括自由标引和自由词补充标引)和计算机自动标引。

200. 计算机自动标引:是指利用计算机从各种文献中自动提取相关标识引导的过程。“狭义”的自动标引包

括主题标引的自动抽词标引和自动赋词标引两种方式。“广义”的自动标引还指在主题自动标引基础上的自动赋分类号标引。

201. 自由标引 :即人工关键词标引。是指将那些出现在文献的标题(篇名、章节名)以及摘要、正文中,

对表征文献主题内容具有实质意义的语词,亦即将对揭示和描述文献主题内容来说是重要的、带关键性的(可以作为检索入口的)那些语词抽取,抽取时不加规范或只做少量规范化处理。自由标引主要适用于报纸文献、期刊文献的大型篇名数据库等的标引。

202. 西文自动标引:就西文而言,利用计算机抽取西文关键词,需要完成的是从文本(标题、文摘或全文)

中剔除虚词(又称非用词或停用词),获取关键词,最后分析关键词,确定标引词。

203. 自动抽词标引:是指直接从原文中抽取词或者短语作为标引词来描述文献的主题内容。这是最早出现

的一种自动标引方式,主要指从文献中自动抽取出能表征文献主题的关键性语词作为标引词,所以自动抽词标引也常常称为关键词标引。汉语信息的自动抽词也即汉语自动分词的过程。

204. 自动赋词标引:自动赋词标引是在自动抽词的基础上,引入预先编制的词表来规范自动抽取的词,利

用计算机的自动换词功能,将关键词转换成规范词,赋予文献主题概念,然后建立倒排索引文档。

205. 自动标赋分类号标引:自动赋分类号必须以自动抽词为基础。在自动抽词的基础上,根据自然语言词

与分类号的对应表和自动分类规则,利用计算机的自动换词功能,将关键词转换成分类号,建立倒排索引文档。按其实质来说,也是自然语言与受控语言的结合,一般将它归入自动分类的范畴。

206. 单汉字索引:是对每个单字的出现位置进行索引,并依据单字的位置信息进行检索的文本检索方法。

单汉字索引库的主要部分是每个字的位置信息

207. 自然语言检索系统:就是指对文献作者或文摘提要的编写者原来使用的语言进行一定的序化组织、处

理并提供自然语言检索接口供用户查询使用的检索系统。自然语言检索系统的两个关键性技术:文本信息的自动标引和索引技术和自然语言检索技术。

第18页

信息组织 名词解释

208. 自然语言检索:自然语言检索可以从以下三个层面来理解:从检索语言来讲,自然语言检索就是在为

文献检索标识时,使用文献作者、文摘编写者原来所用的语词或标引人员自拟的语词,而不是取自受控词表中的语词;从技术上讲,就是将自然语言处理技术应用于信息检索系统的信息组织、标引与输出;从用户方面讲,就是用自然语言作为提问输人的检索方式。

209. 关键词检索:是指用户提交的检索词是用户认为对表达其检索需求至关重要的关键性语词。关键词检

索可用在经自然语言标引组织的自然语言检索系统中,同时关键词检索也是基于全文索引的全文检索系统最主要的检索输入形式。

210. 全文检索 :所谓全文检索(Full-Text Retrieval),是指以全部文本信息作为检索对象的一种信息检

索技术。全文检索的核心技术就是维护一个高效的索引(主要是倒排文档)。

211. 位置检索:位置检索是全文检索系统中特有的检索技术,最能体现全文检索系统的优势。

212. 字表法:以单个汉字为基本索引单元的索引方法,即单汉字索引。字表法是以单字为基础进行检索的

方法,其缺点是生成的索引库庞大,检索速度低,误检率高;其优点是适应性强,应用范围广,索引的生成简单,比较适用于内容复杂、新词汇和特殊词汇多的文档的检索。

213. 词表法:以词或词组为索引单元的也称为词表法。词表法是以能表达一定意义的词为基本检索单位,

并根据词的出现位置进行索引和检索的文本检索方法。词表法索引的建立较字表法复杂,漏检率较高,且不能进行单字和任意字符串的检索;其优点是对于大规模应用,索引库规模小,检索的处理速度快,同义、反义等概念检索的实现较为简单,因而比较适用于特定领域中或内容相对固定的文档的全文检索。

214. N-Gram法:N-Gram法,即采用n元语法的切分统计方法来自动发现相关概念,对提取出来的词建立索

引。N-gram法无需任何词典支持;对输入文本所需的先验知识少;无需进行分词处理。但是,N-gram法在抽取信息时,会产生非常大的数据冗余,占用很大的内存空间,相比基于词典分词获取文本特征的方法,其实现效率比较低,要花费较长的时间来处理文本,查准率比较差。

215. 词索引+Bi-Gram法:词索引+BI-Gram实际上是一种字词混合的索引方式。基于词典分词与N-gram信

息相结合的特征获取方法,结合两种文本特征提取技术的优点以达到优化系统性能的目的。首先采用基于词典的分词技术将汉语中的常用词切分出来,在此基础上,对于那些没有出现在词典中的未登录词采用基于N-gram的技术进行提取,这样做,既可以大大减少N-gram信息提取所需处理的信息量,又可以弥补词典因为语言的领域相关性和时间相关性所带来的词汇不足的问题,保证达到相对较好的分词标引效果。

216. 简单提问式输入检索:指系统在“用户-检索接口”层面上支持用户以简单自然语言提问的方式输入

检索式。

217. 后控制模式:即“标引不控制+检索控制”模式。这种模式是在标引(输入)阶段使用自然语言,不对

标引进行严格控制,而在检索(输出)阶段才对检索词进行控制的自然语言检索优化技术。

218. 后控词表:后控制词表是利用受控语言的基本原理和方法编制的自然语言检索用词表,它主要是对自

然语言中大量存在的等同关系、等级关系和大部分相关关系进行控制和揭示,具有自学习功能,可根

第19页

信息组织 名词解释

据检索的需要将新概念和新术语及时地加入词表中,因此,后控词表是一个动态词表。

(1) 后控词表的性质类似于入口词表,它是一种转换工具,一种扩检工具,一种罗列自然语言检

索标识供选择的工具。

(2) 用户在检索时通过浏览词表选用检索词,或者由系统自动执行调整(扩缩减)检索式,这样

既减轻了用户负担,又提高了系统的易用性和检索效率。

(3) 后控词表兼有自然语言与人工语言的性质和优点,因此,后控制词表是“自然语言检索和人

工受控语言结合的最佳范例”。

219. 网络信息:广义而言,网络信息是指在网络中蕴藏着的各种形式的信息的集合。它包括信息内容本身、

记录信息的载体、信息的表达形式、信息组织的结构,信息传播的手段等要素。狭义而言,指包含特定内容的网上信息。从网络信息物理存放位置分,有本地资源、导航资源和泛在资源。

220. 本地信息资源:本地信息资源是指存放在本地服务器或计算机上的信息资源。

221. 导航信息资源:导航信息资源是通过目录的形式完成非本地资源的信息代理工作,主要有以标题的形

式组织代理信息资源的 P2P导航资源, 以站点到站点、通过超链接的方式代理的S2S导航资源。

222. 泛在信息资源:泛在信息资源是那些没有做过任何信息代理的非本地信息资源,包括大型网站的搜索

引擎,以及其他广泛存在的网络信息资源。

223. 网络信息分类法:网络信息分类法是处理信息面最广的分类法,不仅包括一般的文献信息,还包括商

品信息、贸易信息、金融信息、组织机构信息、新闻,以及软件、游戏、多媒体信息、各类动态信息等。网络信息分类法一般多以搜索引擎“分类导航”的形式出现,并且“分类法—检索系统和界面—信息数据库”是一个统一的整体。

224. 传统分类组织范式:就是以文献的学科主题内容为主要分类标准,同时结合其他的标准辅助使用,如

文献类型、人物、时间、空间等。

225. 自动分类:自动分类分为自动归类和自动聚类。

(1) 自动归类分析被分类对象的特征,使之与各种类别中对象所具有的共同特征进行比较,然后

将对象划归为特征最接近的一类并赋予相应的分类号。

(2) 自动聚类是从待分类对象中提出特征,然后将提出的全部特征进行比较,再据一定的原则将

具有相同或相近特征的对象定义为一类,并设法使各类中包含的对象大致相等。

226. MeSH《医学标题表》:《医学标题表》(Medical Subject Heading, MeSH)是由NLM于1960年编制出版

了。MeSH表由字顺表、树形结构表、副主题词表三个部分组成。字顺表是将MeSH表所收主题词、入口词全部按字顺关系排列,并通过词下的树状结构号码、注释及参照揭示表中词与词之间的关系,帮助用户选词。树状结构表是一种分类体系,它将字顺表中的主题词,按照每个词的词义范畴及学科属性,分门别类地归入15个大类,逐级划分,分类深度最多达9级。副主题词表共有82个副主题词,对同一主题词下不同研究方面的文献进行限定,每个副主题词根据其特定的含义和使用范围与不同的主题词组配使用。

227. UMLS 《统一医学语言系统》:UMLS是NLM主持研究开发的生物医学检索语言系统。系统包括四个部分:

超级叙词表(Metathesaurus)、语义网络(Semantic Network)、情报源图谱(Information Sources Map)

第20页

信息组织 名词解释

和专家词典(SPECIALIST Lexicon)。超级叙词表是生物医学概念、术语、词汇及其等级范畴的广泛集成,这些概念和词汇来自MeSH等40多个生物医学受控词表、术语表、分类表、专家系统中的词汇、词典及工具性词表等。超级叙词表是依据概念组织起来的,其目的是将相同概念的交替名称和不同形式联系在一起,并表达同不同概念之间的关系;语义网络是为建立概念、术语间错综复杂的关系而设计的,为超级叙词表中所有概念提供了语义类型、语义关系和语义结构;情报源图谱是一个关于生物医学机读情报资源的数据库,可以利用超级叙词表和语义网络测度情报源与特定提问的相关性,为用户提供特定情报源、自动连接相关情报源、提供自动检索并自动组织检索的结果;专家词典是一个包含众多生物医学词汇的英语词典。

(1) UMLS目前已广泛应用于词表的编制、概念表达、电子病案系统的创建、临床数据的获取、课

程分析、自然语言的处理、自动索引和生物医学信息检索等。

228. PDVT《垂直设计视觉叙词表》:PDVT是一种特殊的叙词表,提供了新颖的视觉模式,但这种模式可能不

太实用。PDVT中的主题词在屏幕上迅速地移动,用户只要点击一个特定主题词,该主题词词就会移动到屏幕中心,其相关词环绕在周围。此外,PDVT允许用户通过检索对话框查找感兴趣的主题词。

229. 主题网关 :科赫将主题网关定义为:基于因特网的支持系统化资源发现服务。其显著特征是,提供某

种知识结构如叙词表和分类系统,通过因特网对资源(文献、对象或服务)进行浏览和检索。

230. 万维网(Web):World Wide Web本质的特性便是其广泛性全球性。超文本链接的威力在于“任何事物之

间都可以相链接”。一个在Web中,资源通过极有限的语义相互链接(如:具有表达意义的文件名),一个资源所在系统无法自动判定其他系统中的资源含义。

231. 语义网(Semantic Web):语义网是一种能理解人类语言的智能网络,可以使人与计算机之间的交流变

得像人与人之间交流一样轻松。语义网并非独立的另一个Web,而是现在的Web的一个延伸。在其中,信息有定义完好的含义,更利于人机之间的合作。在语义网中,每个资源有清晰的定义;各个概念之间的关系有清晰的定义。

232. 网络本体语言(OWL):把以本体为核心的网络信息组织的语言工具称之网络本体语言(Web Ontology

Language, 简称OWL),有时可称为本体语言。网络本体语言(OWL)主要成分是一整套对某一领域里的知识进行表述的词和术语,编制者根据该知识领域的结构将这些词和术语组成等级类目,同时规定类目的特性及其之间的关系。

233. 文件方式:文件是有序组织的数据的集合。引入文件概念后,计算机有一整套成熟的文件处理的理论

与技术,在组织网络信息资源时可以非常容易地利用这些现成的技术和方法,用户不再需要了解文件存放的物理位置和物理结构,实现了“按文件名进行存取”,而由文件管理程序根据用户给出的文件名自动完成数据传输操作。自从计算机出现以来,文件方式一直是重要的信息资源组织方式。

234. 数据库方式:数据库是对大量的规范化数据进行管理的技术。数据库是指大量的长期存储在计算机内、

有组织的、可共享的数据集合。数据库技术利用严谨的数据模型对信息进行规范化处理,利用成熟的关系代数理论进行信息查询的优化,从而大大提高了信息管理的效率。

235. 主题树方式:主题树方式组织信息资源的方法是将信息资源按照某种事先确定的概念体系分门别类地

逐层加以组织,用户先通过浏览的方式层层遍历,直到找到所需要的信息线索,再通过信息线索连接到相应的网络信息资源。网络信息资源通过树型主题目录层级组织体系,可以达到实现浏览――导航

第21页

信息组织 名词解释

的功能,用以通过引导网络用户的查询概念(而不是确切的词条)来找到所需的网络资源。主题目录式检索工具尤其适合那些“希望了解某一方面的信息,并不严格限于查询关键字”的用户群。

236. 网络主题目录:也称为主题目录树(subject trees),它是按照一定的主题分类体系,层层细分,就

像分类表的类目一样,是一个等级体系结构。目录结构一般按:总目—专题目录—链接—文本信息链(subject categories-topics-subtopics-records)的序列组织。

237. 搜索引擎方式

238. :搜索引擎是目前因特网对信息资源进行组织的主要方式。所谓搜索引擎(Search Engine),指采用自

动化技术对万维网站点资源和其他网络资源进行采集、标引和检索的一类检索系统机制;是提供给用户进行关键词、词组或自然语言检索的工具,是目前网络信息资源的组织和检索的主流方式和工具。

239. 网络蜘蛛;Robot(或Crawler或Spider或Wanders)实际上是一个在网络上检索文件且自动跟踪该文件

的超文本结构并循环检索被参照的所有文件的软件。

240. 信息资源可得性开发:是指包括建网与联网以及网上信息资源从无到有、从有到优化的开发。

241. 信息资源可用性开发:主要包括免费资源深度与广度的挖掘、镜像资源的开发、收费资源的代理服务、

局域网、区域网资源的组织和服务等。

242. 网络资源高水平利用状态的开发:这种基于提高网上资源利用的量与质,内容的开发主要包括对现有网

上信息资源再加工,如重组、浓缩、定量定性处理,新用途的开辟,产品促销以及各类咨询与服务,以挖掘其利用深度的开发可算为二次开发。

243. 信息重组:所谓信息重组是在根据对源信息所含知识内容对其进行分析解构的基础上,运用一定的科学

方法将源信息或解构所得信素进行重新组合,从而得到新的信息产品,实现信息增值的过程。信息重组是实现信息资源二次开发或深层开发的重要途径,这其中凝聚着信息工作者的增值劳动,是一种高层次的信息资源开发活动。

244. 指引库;也称为导航库,是指所建立的信息库,从物理上讲并不存储各种实际的信息资源,它存放的是

有关主题的数据库或服务器的地址等信息,可指引用户到特定的地址获取所需的信息。

245. 网络电子出版物:网络电子出版物,是指以电子全文形式在网上发行的出版物,包括电子图书、电子

期刊、电子报纸等。网上电子图书是专业学习、科学研究的较好、较新的辅助资料。

246. 虚拟图书馆;美国学者卡耶将虚拟图书馆定义为:“利用电子网络远程获取信息与知识的一种方式”,

其实质是在计算机网络上对分布于各地的各种信息资源进行动态搜寻联结。并将虚拟图书馆视为用户获取信息的一种方式而非一种形态。

247. Web挖掘:Web挖掘是指从大量的万维网文档集合中发现蕴涵的、未知的、有潜在应用价值的、非平凡

的模式。它所处理的对象包括:静态网页(文字、多媒体信息等)、Web数据库、Web页面的内部结构、Web结构、用户使用记录等信息。通过对这些信息的挖掘,可以得到仅通过文字检索所不能得到的信息。 Web数据挖掘大致分为3类:内容挖掘(Content Mining)、结构挖掘、用户使用记录挖掘。

第22页

信息组织 名词解释

248. Web内容挖掘:Web内容挖掘(Web Content Mining,Web CM)是指对Web上大量文档集合的“内容”进

行总结、分类、聚类、关联分析以及利用万维网文档进行趋势预测等,是从Web文档内容或其描述中抽取知识的过程。

249. Web结构挖掘:Web结构挖掘(Web Structure Mining,Web SM)主要是从Web组织结构和链接关系中推

导信息、知识。挖掘页面的结构和Web结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能:同时还可以用来指导网页采集工作,提高采集效率。

250. Web用户使用记录挖掘:Web用户使用记录挖掘(Web Usage Mining,Web UM) 主要是想从用户的访问

日志中抽取感兴趣的模式。分析这些日志数据可以帮助理解用户的行为,从而改进站点的结构或为用户提供个性化的服务。这方面的研究主要有两个方向:一般的用户访问模式跟踪(General Access Pattern Tracking)和个性化的使用记录跟踪(Customized Usage Tracking)。

251. 信息推送技术:信息推送技术(Push技术),即个性化信息服务,是网络信息组织和检索一个非常重要

的发展模式。从技术上看,Push技术是一个基于Internet/Intranet网络环境的高度专业化、智能化的网络专题信息服务系统。基于Push技术的系统不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,经过筛选、分类、排序后,按照每个用户的特定需求,主动推送给用户。

252. Web访问日志:Web上每一个提供信息资源的服务器上都有一个结构比较好的记录集,即万维网访问日

志(Web access log)。它记录了关于用户访问和交互的信息。

253. 数字图书馆:Digital Library,DL,含义有两层:数字图书馆和数字资源库。一般认为,数字图书馆

是采用现代高新技术的超大规模、分布的、可以跨库检索的数字信息资源系统。它的特征是,“有组织的信息馆藏及相关服务,信息以数字化形式保存,并通过网络进行访问。”“信息在计算机内得以组织并通过网络加以利用,并带有选择信息、组织信息、存储信息和发布信息的程序。”

254. 数字图书馆系统 :数字图书馆系统从逻辑结构来看主要由对象数据库、元数据库、数据加工子系统、

查询子系统、调度子系统等组成。

255. 元数据库和对象数据库:元数据库和对象数据库是数字图书馆的资源库,存储和管理数字对象的数据

体、元数据及其他信息。资源库常常分布于不同地点。

256. 数字加工子系统:数据加工子系统负责对数字信息(数字化的文本、图片、声音、影像等)进行加工

整理,并将描述数字信息的元数据(即数字对象的元数据)归入元数据库,将数字信息本身(即数字对象的数据体)归入对象数据库。

257. 查询子系统 :查询子系统负责为用户提供查询服务。用户通过网络连接到数字图书馆的查询子系统提

出查询要求,查询子系统通过元数据库和调度系统查得初步的相关信息并提供给用户,经用户确认后,再利用元数据中所包含的数据对象的句柄,通过调度子系统到对象数据库中取出用户所需的相关数字信息。

258. 调度子系统:调度系统是一个为数字图书馆资源提供分布式目录服务的计算机系统。通过调度系统可

第23页

信息组织 名词解释

以自由地存取分布在不同的资源库中的信息,实现无缝跨库检索。

259. 数字对象:一个数字对象由3个要素组成:数字对象的句柄(Handle);数字对象的元数据;数字对象

的数据体。

260. 数字对象句柄:这是数字对象的全球唯一的标志符,由能够标识数字对象的字符串组成,例如索书号、

国际标准书号(ISBN)、数字对象标识符(DOI)等都可以作为数字对象的句柄。句柄独立于信息的存储位置,是定位数字对象的依据。也就是说,无论数字对象的存储位置(如URL)如何变化,句柄是固定不变的,人们总能够通过句柄找到相应的数字对象。

261. 数字对象的元数据:元数据是关于数字对象的数据,是描述数字对象的属性的集合。为了定位数字对

象,数字对象的元数据中必须包含句柄。

262. 数字对象数据体:是数字对象内容的载体,例如一篇论文的PDF文件、一部电影的MPEG文件等。一个

数字对象可以有多个数据体副本,例如一篇论文可以有一个HTML格式的文件,同时也有一个PDF格式的文件,不同数据体的内容是相同的。

263. 数字图书馆信息的标引与整合:所谓数字图书馆信息的标引与整合,是在对其数字信息从知识的角度

予以揭示,将不同类型的数字信息重新整合、组织时所做的一系列工作的总称。数字信息的标引与整合的目的是建立起一个有序化的、可跨库、可互操作的、能够满足用户不同的信息需求的数字信息资源检索系统。

(1) 从具体的操作过程来看,标引与整合主要包括以下三个方面的内容:(1)分析内容特征;(2)

标引内容特征; (3)从知识的角度整合,建立起一个有序化的、可跨库、可互操作的、能够满足用户不同的信息需求的数字信息资源检索系统。

264. 从数字信息组织所使用的方法来看,数字信息资源标引与整合的主要可以分为两大类型:一种是分类

标引与整合;另一种是主题标引与整合。

265. 数字信息资源的分类标引与整合:就是根据分类的原理与方法对数字信息资源进行整合。分类标引与

整合的结果是信息资源根据其内容属性被归类、聚类,具有相同属性的信息资源被放在一起,并通过一定的分类体系与其他的信息资源联系起来,形成了一个结构化文档——分类导航系统。其作用主要有两个方面,一是通过归类和聚类,把原本分散在各个资源库中的多媒体信息资源按类组织,实现了信息资源的重组,并通过链接实现了不同资源库间的无缝跨库检索;二是为用户提供结构向导型浏览服务。

266. 数字信息资源的主题标引与整合:是从主题的角度对信息资源进行整合的方法。在数字图书馆中,主

题标引与整合的对象为分布在各个资源库中的所有数字信息资源,其结果是建立一个提供跨库主题检索的检索工具,从而满足用户从主题查找信息资源的需要。

267. 多维揭示原则:指对于数字信息要从多角度予以揭示,以满足用户从不同途径检索信息的需要,提高

检索效率。

268. 非线性组织原则:一般将信息组织成一个网状的结构,在这个信息网中,任何一个信息单元都有一组

与其相关联的信息点连接着。对任何一个信息单元的搜寻都可带动其他若干信息单元的搜寻。超媒体信息是这种信息组织方式的现实模式。

第24页

信息组织 名词解释

269. 知识组织原则:要以知识点作为信息的组织单元,将各种媒体的信息,如文本信息、图像、音频、视

频等信息整合成一个完整的有机整体。

270. 数字图书馆数据加工子系统:数据加工子系统负责对数字信息(数字化的文本、图片、声音、影像等)

进行加工整理,并将描述数字信息的元数据(数字对象的元数据)归入元数据库,将数字信息本身(数字对象的数据体)归入对象数据库。

271. 数字资源加工:资源加工,对所组织的素材,一般情况下,要改变原有载体的形式,用专门的设备处

理,例如:文字扫描、图片处理、音频处理、视频处理。加工成为数字型资源,使之在计算机上可以阅读与保存。

272. 元数据:元数据一般被定义为“关于数据的数据(data about data)”。在数字图书馆中,元数据被用

来描述一个信息对象的内容和位置,它的一个用途是信息检索;元数据的另一个用途是数据管理。

273. DC:DC(Dublin Core)一般翻译为“都柏林核心”,是“都柏林核心元数据元素集”(Dublin Core Metadata

Element Set,DCMES)的简称。它是由OCLC等组织于1995年联合发起、共同研究制定的一种网络资源描述规范。

(1) DC一共设立了15个元素(DCMES Element)用于描述数字信息资源。这15个元素依据其所描

述内容的类别和范围可以分为以下三种类型:

(2) 关于信息资源内容方面的元素有7个:题名(Title)、 主题 (Subject)、 描述(Description)、

来源(Source)、 语种 (Language)、 关联(Relation)、 覆盖范围(Coverage)。

(3) 关于信息资源知识产权方面的元素有4个:创建者(Creator)、 出版者(Publisher)、 其他

责任者(Contributor) 、版权管理(Rights)。

(4) 关于信息资源外形描述的元素也有4个:日期(Date)、 类型(Type)、 格式(Format) 、资源

标识(Identifier)。

274. MODS:MODS(Metadata Object Description Schema)一般翻译为“元数据对象描述模式”。这是美国

国会图书馆下属的网络发展与MARC标准机构(Library of Congress’ Network Development and MARC Standards Office)正在研制的一种采用XML模式的书目记录元素集。MODS采用XML描述书目数据,克服了现有的MARC21记录数据难以转换,无法直接汇入网络信息资源体系的缺点,并且MODS所设置的元素既能够兼容现有的MARC21记录数据,又能够创建原始的资源描述记录。

(1) MODS是一个主要为图书馆界的书目数据而制定的元素集,它是在对现行图书馆目录中最为普

遍的MARC21格式中的上百个字段、子字段进行了归类合并的基础上制定而成的。MODS元素集主要由元素(Top Level Element)、子元素(Subelements)及其相关的属性(attributes)三部分组成,其中元素是MODS的最高级别的描述项目,一共有19个;子元素是对元素的进一步描述,根据不同元素的需要设置;元素或子元素的某些特性通过属性来描述。

275. XML:XML是SGML的一个子集,是针对因特网这一应用领域而开发的标记语言。

276. RDF:RDF采用SGML(Standard Generalized Markup Language,通用标记语言标准)的子集——XML

(eXtensible Markup Language, 可扩展标记语言) 来表述,是一种人与机器都能理解的描述框架。RDF的核心定义比较简单,用文字来表述的话就是:任何一个可被标识的“资源”(resource)都可以被一些可选择的“属性”(properties)描述,每一个属性的描述都有一个值(value)。它提供了一种强有力的表述、交换与利用元数据的机制,使得各种不同元数据体系之间具有互操作性。

第25页

本文来源:https://www.bwwdw.com/article/d5l3.html

Top