Word排版素材_长文档草稿

更新时间:2023-04-08 16:20:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

1绪论

1.1课题的背景和意义

1.1.1研究的背景

本课题源于国家863高技术研究发展计划:“面向教育的海量知识资源组织、管理与服务系统”,该项目旨在研究一套区别于搜索引擎和现有数字文献管理系统的,支持用户多层次、多粒度知识获取,能够体现知识资源内在关联的导航与互动学习,并支持用户个性化查询和结果呈现的知识资源管理与服务系统。系统的体系结构包括:1、知识资源的组织与管理;2、知识资源的处理;3、个性化多模式三个层次。

相似性度量算法的关键技术是词汇、句子间语义相似度计算算法。语义相似度计算的准确性直接影响到主题图最后融合的效果,因此语义相似性度量的研究在主题图融合过程有着很重要的作用。

1.1.2研究的目的和意义

扩展主题图的数据格式用于描述信息资源组织、管理的结构,具有独立性和通用性,展示形式为“主题--知识元—资源”。相对于传统的基于元数据的资源组织方式,扩展主题图在物理资源实体上架构了一层语义网,实现了资源实体和抽象概念之间的语义组织和衔接,能提供知识的多层次,多粒度的语义搜索与导航。

现有的语义相似性度量的方法主要有基于词典和基于语料库两种。词典有着丰富的语义信息,但存在着未登录词的严重问题。目前发布的实用的词典:英文的WordNet(词网)、中文的HowNet(知网)[2],均是封闭的系统,在计算未登录词时效果很差。

1.2国内外研究现状

863课题组针对传统主题图无法提供多粒度知识组织管理的问题,提出了扩展主题图标准。当前关于扩展主题图的研究较少,本文在此只介绍传统主题图的相关研究。

1)主题图和主题图融合研究现状

主题图(Topic Maps)的概念最初是由W3C(World Wide Web Consortium全球万维网联盟的简称)提出的,并由国际标准组织SGML(Standard Generalized Markup Language)委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是ISO/IEC 13250:2000[3],这项国际标准定义出了Topic Maps的完整数据模型。2001年,基于可扩展标记语言(Extensible Markuo Language,XML)的XML主题图—XML Topic Maps(XTM)[4]成为ISO/IEC 13250的一部分。同年,ISO委员会又提出主题图查询语言TMQL(ISO/IEC18048)和主题图约束语言TMCL (ISO/IEC1975)。

主题图融合方面,在国外,2004年Lutz Maicher等人提出了SIM算法[5]和2007年由Jung-Mn Kim[6]提出了TM-MAP算法。SIM算法的本质是字符统计法,TM-MAP算法较之有很大的改进,一定程度上涉及到主题图本身所蕴含的语义信息,但核心思想还是基于字符统计。在

国内,2006年,由南京航空航天大学的吴笑凡等人提出了基于主题和资源合并的TOM算法[7],TOM算法与SIM算法类似,基于字符统计,涉及到主题图三要素中的两个。

2)词汇相似性度量研究现状

国内比较突出的是中国科学院计算技术研究所的刘群[8]等人提出的基于《知网》的词汇语义相似度计算。刘群等的语义相似度计算方法以《知网》为计算依托,充分利用了《知网》中的义原(描述一个“概念”—词语的最小意义单位)通过上下位关系组成的一个树状义原层次体系。为了计算用知识描述语言表达的两个概念的语义表达式之间的相似度,该算法采用了“整体的相似度等于部分相似度加权平均”的做法。该算法在同义、近义词语间的相似度计算结果上测试效果良好,但仅仅利用《知网》中义原间的上下位关系,所以对对义、反义的词语测试应用不佳,测试结果不利于进行词语的极性识别分析。

国外较为突出的是美国的蒙大拿州立大学的Shen Wan 和Rafal A.Angryk提出了基于WordNet(词网)的上下文向量的语义相似度计算算法[9],该算法将一个概念的认知感觉定义为直接语义关联与与其相关的间接语义关联的综合体,然后利用wordnet的层次关系建立上下文的空间,及向量,最后通过计算两个概念对应向量的余弦值得到相似度的值。该算法理解简单,实用,可操作性强,在测试结果上有一定的准确度。但由于其仅仅利用了词网中概念间的上下文关系,计算公式也没考虑到概念的权重问题,因此在一些基准词间的测试效果不理想。美国卡耐基梅隆大学的Satanjeev Banerjee[10]等提出了扩展注释重叠语义相似度计算算法,每一对概念都被赋予和每个词注释相关的重叠词序列的一个关联值,在计算比较过程中不仅仅比较两个词语义注释词序列的串重合程度,而且通过关系间的属性及相似性来综合分析语义间的上位、下位、部分和整体的关联关系,该算法利用了概念间的多种关联关系,属性间的联系进行多次字符串间的匹配,在进行加权整合计算,测试效果很好,在一定程度上接近了认知效用,但空间、时间复杂度很高。

3)句子相似性度量研究现状

目前,国内外存在着很多句子相似性度量的方法。在国外,Niladri[11]提出了一种基于线性模型的相似度度量模式,其相关系数由多重回归技术确定,句子的相似性(或者说是非相似性)由一系列决定句子不相似成分共同作用的结果组成。Nirenburg[12]等提出了两种串匹配的方法,即:“切块+匹配+重组”方法和整句级匹配的方法。这两种方法所采用的相似性度量原理都是词组合法。Lambros等提出同时依据句子的表层结构和content计算相似度的方法[13], 方法使用了两级动态规划技术,应用动态规划算法允许在两个长度不同的句子之间计算语句相似度。

国内研究汉语句子句子相似度的学者也较多。李素建[14]基于知网和同义词词林,提出了语句相关度的定量计算模型;陈利人[15]等提出了句子相似度包括结构相似度和语义相似度两个概念,认为句子相似度计算包括两个步骤:首先,使用词结构相似度计算,得到句子的结构相似度;然后,在句子结构相似度的基础上,再进行句子语义相似度计算。吕学强[16]等考虑词形与词序相似度两个因素,提出了句子相似模型与最相似句子的查找算法;秦兵[17]等使用向量空间模型的TF~IDF法和基于语义本体的方法,面向常见问题集计算问句间的语义相似度;杨思春[18]等使用具有部分格语义的语法功能句型计算模式来实现句子相似度计

算等等。

上面的方法大部分是简单的的使用语义词典,没有考虑到句子的内部信息和词语间的相互作用和联系,没有考虑到句子蕴含的一些特征,因此准确率并不高。

1.3本文的研究content

1.3.1研究content

本文在对扩展主题图融合中的语义冲突进行研究分析基础上,详细研究解决冲突的关键技术—语义相似性度量技术。首先分析扩展主题图融合中主题间的语义冲突问题,提出一种基于本体和语料库的综合词汇相似度计算方法。然后针对扩展主题图融合中知识元间的语义冲突问题,结合课题中知识元的特点(知识元的资源来源是单个句子),提出基于全信息理论的句子相似度计算方法。最后,对所提的两种相似性度量算法进行综合测试分析,并融合到扩展主题图融合模块,整合到整个863系统中进行实际应用。本文的研究content包括以下几个方面:

1)扩展主题图融合研究:在研究扩展主题图的融合原则及过程基础上,分析融合过程中所产生的语义冲突,研究其产生原因,并对其进行分类。

2)提出一种基于本体和语料库的综合词汇相似性度量算法:为解决扩展主题图融合过程中主题元素间的融合问题,设计实现了一个结合本体与语料库,辅以规则和同义词计算的权重参数自适应调节的综合词语相似性度量算法。

3)提出一种基于全信息理论的句子相似性度量算法:研究常见的句子语义表示模型,综合句义三维模型和全信息理论,从语法,语义和语用三个方面对待融合知识元的资源来源—句子进行综合度量。

4)算法的测试与分析:在专业领域和公共领域对所提相似性度量算法进行多领域的实验测试,并将其与其他算法进行对比分析,研究分析其性能指标。

5)算法与系统的整合:将所提相似性度量算法融合到扩展主题图融合模块,并整合到863计划系统中进行实际使用,测试其功能和性能。

1.3.2研究方法及技术路线

本文的研究方法从以下几个方面进行阐述:

1)扩展主题图融合与语义冲突:通过对扩展主题图融合过程的分析,确定可能出

现的语义冲突,并分析解决冲突的关键技术—语义相似性度量的具体使用场景。

2)词汇相似性度量的研究:综合研究已有的词汇相似性计算算法,进行分类与对

比分析。建立一个与课题相关简易的计算机领域的语料库,使用网络搜索双检验模型进行相似度计算,并将其与基于页空间数的语义相似度计算结合起来,形成一种基于语料库的语义相似度计算算法。对已有的基于《知网》的方法进行改进,同时引入规则分析和同义词词典计算,提出一种利用本体和语料库的综合词语相似度算法(A new word similarity computation algorithm based on HOWNET and Corpus—HCSC)。

3)句子相似性度量的研究:分类已有的句子相似度计算方法,分析各自的优缺点。

研究已有的句子语义计算模型,并将其与全信息理论结合起来,分析全信息理论在模型中的使用。综合句义三维模型与全信息理论,提出基于全信息理论的句子相似度计算方法。4)算法的测试与应用:综合测试提出的语义相似性度量算法,并将算法应用到课

题的Yotta系统中,实现算法与实际工程的结合。

总体上,本文拟采用“发现扩展主题图融合中的语义冲突—解决冲突,提出算法

—算法实现与测试—应用到实际系统”的技术路线,如图1-2所示:

图2-2 本文的技术路线

1.4论文组织结构

论文按照以下content进行组织:下面的文字的缩进是不是有点怪

第1章绪论。简述了课题的研究背景、研究的意义和价值,然后介绍了相关理论和技术的国内外研究现状,最后简介自己的研究content和研究思路。

第2章扩展主题图融合及语义冲突。介绍主题图和扩展主题图的概念和描述,详述扩展主题图融合的原则和过程;研究融合过程中产生的语义冲突,分析其产生的原因和种类;研究语义相似度在扩展主题图融合中的具体使用。

第3章基于本体和语料库的综合词语相似度算法。分析已有的计算算法,建立计算机领域的简易语料库,融合同义词辞典、规则、知网和语料库,提出一种基于本体和语料库的综合词语相似度计算算法。

第4章基于全信息理论的句子相似度算法。分类介绍现有的句子相似度计算算法,研究句子语义计算模型,融合句义三维模型和全信息理论,提出一种基于全信息理论

的句子相似度算法。

第5章算法的实验与分析。首先介绍两类实验数据的准备,然后进行多领域、多层次的算法测试与分析及相关算法对比测试;最后将提出的语义相似性度量的算法应用到课题系统(Yotta系统)中进行综合测试。

第6章结论与展望。对本文的工作进行总结,然后提出本文工作中的不足和需要改进的地方,以及将来研究的方向。

2 扩展主题图融合及语义冲突

本章首先详述主题图和扩展主题图的概念及描述语法XTM,并举例说明。然后研究扩展主题图融合的原则和过程,分析融合过程中产生的语义冲突。最后介绍解决语义冲突关键技术—语义相似性度量及其在扩展主题图融合中的具体使用。

2.1主题图与扩展主题图

2.1.1主题图概念及描述

1)主题图的概念

主题图(Topic Maps)的概念最初是由W3C(World Wide Web Consortium全球万维网联盟的简称)提出的,并由国际标准组织SGML(Standard Generalized Markup Language)委员会第

三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是ISO/IEC 13250:2000,这项国际标准定义出了Topic Maps的完整模型[3]。主题图标准建设了知识和信息间的桥梁,实现信息快速查找,提高信息的可现性,最终实现知识的共享和重用。主题图实际上在信息资源的上层构建了一个结构化的语义网,其独立于技术平台,描述主题之间的关系及主题与具体资源的联系,通过揭示概念之间的关系,将用户引领到相关的资源。

一个主题图就是一个由主题、关联性以及资源实体组成的集合体。如图2-1所示主题图的架构可分为3部分,即TAO[19]。不知道你的这个“TAO”在这句话中指什么主题(Topic):指主题图中用来代表具体实体或抽象概念的符号表示,能在计算机中表示、存储、检索等,在现实世界中能表示人、事、时、地、物等。关联(Association):指连结两个或两个以上主题间的关系,主题间的关联性可以独立于信息资源而存在。主题图的关联性是主题间的双向关联,并且可实现多个主题间复杂关联。资源实例(Occurrence):代表一个主题与信息资源之间的联系。一个主题可以被链接到一个或多个信息资源,被关联的信息资源可能是关于某个主题的一篇专论、文章或为一段简述以表达此主题的资源等,该资源可位于主题图的外部,通过URL来指向具体信息资源。

图2-1这块的空格与上面图的个数不一样主题图体系结构

2)主题图的描述与实例

基于ISO13250标准的XML Topic Maps(XTM)[4],是使用XML的语法形式描述主题图的各个元素。根据XTM的DTD标准,XTM定义了19个标签元素。如表2-1所示:

表2-1 XTM元素表

元素含义

主题图的根元素

主题

主题关联

说明范围引用到的主题

引用表示类型的主题

主题标识

主题基名

和主题相关的资源

主题基名的字串content

主题基名以外的名称,即别名

别名

别名的上下文

关联成员,指出在关联中,扮演某种角色的主题

指明在关联中,成员扮演的角色

引用主题元素

引用项目标识符

提供待引用资源的URI

资源数据,只能容纳字符数据

与其它主题图合并用

下面展示一个具体的实例,来描述XTM的三要素:主题、关联和资源出处。实例描述的是:在福建泉州有一个郑成功纪念馆,里面有郑成功的各种资料,泉州盛产水果龙眼。首先定义四个主题:福建泉州、郑成功纪念馆、郑成功和龙眼,然后定义位于、生产和地方与人物三种关系,最后将资源出处与主题关联起来。XTM描述如下:

福建泉州

郑成功纪念馆

龙眼

郑成功

将上述XTM展示为图的模型,如图2-2所示:

图2-2主题图概念实例图同上

2.1.2扩展主题图概念及描述

1)扩展主题图的概念

在《面向教育的海量知识资源组织、管理与服务系统》863课题中为了更好的进行教育领域的知识组织、知导航是“知导航”还是知识导航和学习,引出了知识元的概念。知识元是指具备完整知识表达的最小知识单位(如计算机网络的定义、局域网的组成、路由表的属性等),从资源文件内部抽取并以隐式方式与资源文件存在前序、整体、部分和上下位等依存关系。基于TAO结构的主题图仅支持概念—资源间的导航,粒度较大、层次单一,不能反映出知识元之间的关联关系,因而不能按照知识元之间的关联关系进行导航学习。

课题组提出一种扩展主题图结构(图2-3)这里的图2-3应该以这样的方式给出吧:如图2-3所示,核心思想为:在主题与资源出处之间,引入知识元及其关联关系,并建立“概念(主题)—知识元—资源实体”三者间的联系。这种扩展的主题图结构包括6种元素,除了传统TAO 三元素外,还包括知识元、知识元关联关系、主题(概念)与知识元的联系,不仅能够支持主题导航,而且还支持基于知识元关联关系的导航。基于扩展主题图的知识资源组织模型可以更好的体现知识管理的灵活性、透明性和内在关联特性。该模型为海量知识资源组织管理、知识协同构建和多模式知识服务的研究奠定了基础。

主题层

资源层

知识元层

图 2-3 扩展主题图结构

2)扩展主题图的描述

在基于ISO13250标准的XTM 语法定义中,课题组新增加了四个自定义标签元素,分别表示知识元、知识元引用、知识元间关联关系和知识元与主题间关联关系。四个标签及子标签的描述如下:

:一个知识元元素的引用;:知识元元素,其子标签包括

:知识元间的关系,其子元素包括

:主题和知识元间的关系,其子元素包括

扩展主题图XTM 的全部标签及其各自的含义详见附录。

2.2 扩展主题图的融合

2.2.1 扩展主题图融合定义及原则

1)扩展主题图融合的定义

扩展主题图融合是将相同或者不同领域知识资源的局部扩展主题图按照一定的规

则进行合并,形成一个集中统一的全局扩展主题图,扩展主题图融合的定义如公式(2-1): :()A B C ETMM ETM ETM ETM ?→ (2-1)

扩展主题图融合可以消除冗余的主题图结构,将同一或不同知识领域的局部扩展主题图合并为全局扩展主题图,形成具有众多主题的全局导航扩展主题图。另外可以将在分布式环境中的异构知识资源集中起来,发挥扩展主题图强大的导航、知识管理的优势。

主题图融合中,确定不同主题图中的合并项是难点问题。现有的主题图设计模型采用的是OASIS [20](Organization for the Advancement of Structured Information Standards)制订的公共项

目标识符(Published Subject indicators,PSI[21])作为主题的统一标识,PSI相同的主题均可合并[22]。但是PSI尚未完全形成规范,也没有完全覆盖主题图设计的应用领域,仅在某些非常通用的领域(如语言、国家和地区名称)中才定义了PSI。因此,基于PSI目前还无法完全实现主题图的融合。而综合使用相似性度量技术计算主题图的元素,根据计算结果实现主题图的融合。

2)扩展主题图融合原则

扩展主题图源于主题图,扩展主题图的融合原则也借鉴了主题图的融合原则。在

主题图的标准中,规定了主题图融合的方法及应该遵循的原则,如下所述:(1)相等原则

相等原则定义了一个完整的主题图处理程序必须保证主题图结构的一致性,其具体包括:字符串相等原则、主题名称相同原则、关联相同原则、作用范围(scope)相同原则、主题资源相同原则、URL相同原则,补充知识元名称相同原则和知识元资源相同原则。

(2)等价原则

等价原则用来识别主题图结构的等价语法描述,相同的主题或知识元由于描述方式的不同,其描述语法存在着不同,等价原则就是辨别、处理这些不同。

(3)变量处理原则

元素定义的变量名称,其处理范围由该元素的参数和其所属的双亲或上位的元素联合定义决定。

(4)合并原则

描述了主题图中主题间合并的原则,补充知识元的合并原则。

(5)重复处理原则

对主题图中主题指示符、主题资源和主题间的关联关系进行删除、精简去除重复的原则,补充知识元指示符、知识元资源和知识元间关联关系的删除、精简原则。

2.2.2扩展主题图融合过程

为了减小扩展主题图XTM文件的容量,以适应课题展示的需要,课题组对扩展主题图的元素进行了删减。保留了主题、主题关系、知识元,知识元关系,主题与知识元关系五大元素,主题和知识元子元素中仅保留基本名、资源。扩展主题图的融合就是比较各主题及知识元间的基名及资源,判定是否需要合并;如合并,则需要对其各自对应的关联关系进行合并,否则直接将两个扩展主题图的XTM合并。合并后的XTM文件要符合标准DTD的定义,具有完备性。

扩展主题图的融合过程的步骤如下:1)对融合前的局部扩展主题图文档预处理,消除其不一致及冗余的元素;2)将预处理后的两个局部扩展主题图文档中的主题、知识元两两比较,确定合并项;3)将融合判决的元素进行融合,同时处理其各自对应的关联关系;4)对融合后的扩展主题图进行冲突检测,检查全局扩展主题图中冗余的元素,确保其一致性及准确性。融合流程如图2-4所示:

图2-4 扩展主题图融合过程

2.3语义冲突

2.3.1语义异构的原因

数据的含义就是语义。简单的说,数据就是符号。数据本身没有任何意义,只有被赋予含义的数据才能够被使用,这时候数据就转化为了信息,而数据的含义就是语义。语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。语义具有领域性特征,不属于任何领域的语义是不存在的。

由于信息概念具有很强的主观特征,目前还没有一个统一和明确的解释。我们可以将信息简单的定义为被赋予了含义的数据,如果该含义(语义)能够被计算机所“理解”(指能够通过形式化系统解释、推理并判断),那么该信息就是能够被计算机所处理的信息。自然语言源于信息理论,自然语言是由语言、语法和语义构成的。生活中,语义往往由于信息的不确定性产生不一致性。计算机所处理的信息,由于领域、理解角度、表示方法的不同也会产生语义的不一致性。语义异构则是指对同一事物在解释上所存在不一致性,也就体现为同一事物在不同论域中理解的不一致性。同时同一数据在不同的数据源上的表示也存在着不同,产生语义异构。

导致语义异构的具体原因[23]如下:

(1)不同的信息使用多种术语(词汇)表示同一概念;

(2)同一概念在不同的信息中表达不同的含义;

(3)各信息使用不同的结构来表示相同(或相似)的信息;

(4)各信息中的概念之间是存在着各种联系,但因为各信息的分布自治性,

这种隐含的联系不能体现出来。

2.3.2语义冲突的定义及类型

语义异构是语义冲突的前提与基础,语义冲突是指当描述同一现实世界事物时,两个对象在描述方式、结构上和content上的不同造成的语义不一致性。

在扩展主题图融合过程中,有很多方面的原因会产生语义冲突:扩展主题图各个元素是经过

数据标注或者知识资源文档的自动抽取产生的,其中难免会产生冗余的信息,比如冗余的主题或知识元、冗余的关系等等;在标注过程中由于标注者的认知问题,可能对同一主题或知识元进行不同形式的标注,也可能会出现相同的主题、知识元间标注出自相矛盾的关系;同时由于中英文的差异,会出现中文术语与其英文翻译、英文简写的语义冲突。

本文根据扩展主题图的元素结构和语义冲突形式的不同,将融合中的冲突分为四大类:数据冲突、结构冲突、规则冲突和临时性冲突。冲突的具体分类如图2-5所示:

图 2-5 扩展主题图融合中冲突分类图

其中数据冲突和结构冲突属于扩展主题图融合过程中的语义冲突,下面对其进行详细介绍:

1)数据冲突:是指对相同概念的不同感知所引起的冲突。具体又蕴含ID 冲突和命名冲突。

(1)ID 冲突是指两个局部扩展主题图中,相同元素的ID 不同,或者相同ID 对

应不同的元素。

定义2-1:ID 冲突。i C ,j C 表示概念。

a )如果i j C C =,但..i j C id C id ≠,则为ID 冲突。

b )如果i j C C ≠,但..i j C id C id =,则为ID 冲突。

(2)命名冲突是指两个局部扩展主题图中,相同概念使用不同名字或者不同概念

使用相同的名字。

定义2-2:命名冲突。i C ,j C 表示概念。

a )如果i j C C =,但..i j C name C name ≠,则为命名冲突。

b )如果i j C C ≠,但..i j C name C name =,则为命名冲突。

2)结构冲突:相同的概念群在不同主题图中采用不同的逻辑结构进行表达所造成的冲突。具体又划分为层级结构冲突、属性冲突。

(1)属性冲突是指相同元素,其属性集合不相同。相同概念的属性名相同,属性

值不同时,出现属性值冲突。相同概念的属性值相同,属性名不同时,出现属性名冲突。

定义2-3:属性冲突。i C ,j C 表示两个概念。

a )如果i j C C =,..i j C AttrName C AttrName =,但..i j C AttrVal C AttrVal ≠,

则为属性值冲突。

b )如果i j C C =,..i j C AttrVal C AttrVal =,但..i j C AttrName C AttrName ≠,

则为属性名冲突。

(2)层级结构冲突是在不同主题图中,对概念描述的层次结构不同引起的。

定义2-4:结构冲突。i C ,j C 表示两个概念。如果i j C C =,

..i j C structure C structure ≠ ,为结构冲突。

2.4 语义相似度在扩展主题图融合中的使用

扩展主题图的元素来自于不同或相同的资源文件,即主题、知识元出自异构的封闭系统。融合过程中产生的冲突处理步骤是:检测语义冲突和消除语义冲突。消除语义冲突可以依靠元素的合并处理,而检测语义冲突的关键技术即是语义相似度度量。语义相似度计算可以判别在多个系统内是不同概念表示同一事物,还是同一概念表示的是不同事物,是扩展主题图融合的第一步。此后的元素合并、属性保留都是基于相似性计算的结果。相似性计算算法的关键技术是词语、句子间语义相似度计算算法。语义相似度计算的准确性直接影响到主题图最后融合的效果,因此语义相似性度量研究在主题图融合过程有着很重要的作用。

2.4.1 简单文本分类的应用

语义相似性度量的计算是将两个扩展主题图XTM 文件中的元素两两对比计算,如XTM 文件元素个数为n ,则需计算的时间复杂度为2()O n 。为减少计算量,必须精简元素的比较计算。文本分类就是根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文本自动确定一个类别,涉及数据挖掘、计算语义学、信息学、人工智能等个学科,是自然语言处理的一个重要应用领域。将文本分类技术应用到扩展主题图融合中的目的是根据文本分类的结果,如两个XTM 文件属于同一类别,则进行N N ?的元素计算,否则直接进行两个文

件的合并。

1)文本分类及文本分类技术

文本分类:按照事先定义的类别来决定一篇文本的归属的过程被称为文本分类。其类别可

以通过概念进行定义,也可以通过标注学习得到,同样也可以通过预先认为设定。当前,随

着信息存储技术的迅猛发展,大量的文字信息开始以计算机可读的形式存在,而且其数量每

天仍在急剧增加。在这种情况下,基于机器学习的文本分类使用越来越广泛。贝叶斯分类器、支撑向量机(SVM)、自组织映射(SOM)、粗糙集、k 近邻(KNN)、决策树、关联规则、分类

器集成以及向量相似度等模型得到了广泛使用[24]。这些方法大致可以分为三大类:基于统

计模型的方法(如贝叶斯分类器、KNN 、向量相似度等)、基于连接的方法(如SOM)和基于规

则的方法(如决策树、关联规则等)。

课题的知识资源主要指计算机学科资源,共有七个课程:计算机网络、计算机组成原理、数

据结构、JA V A 语言、平面几何、计算机系统结构和操作系统。本文的文本分类的目的是将

指定的XTM 文件划分到七个课程中某一具体课程。

2) 扩展主题图融合中的文本分类技术应用

扩展主题图XTM 文件具有特定的结构,元素管理方便。本文采用基于Bayes 公式和投票法

相结合的综合文本分类技术。

朴素贝叶斯分类算法[25]是一种最常用的有指导意义的方法,它以贝叶斯理论为基础,是一

种在已知先验概率与条件概率的情况下的模式识别方法。 朴素贝叶斯分类算法基于独立性

假设,即一个属性对给定类的影响独立于其它属性。算法的核心是贝叶斯公式(2-2):

1

(|)()(|)(|)()

i i i j j j P B A P A P A B P B A P A ==

∑ (2-2)

i=1,2,…,n,且1()1n

i i P A ==∑。

贝叶斯分类器在文本分类经常使用。假设文本实例d 可由n 个属性值12,,...,n w w w <>描述。L 是目标属性集合(,1,2,...,)i C i L =。则对于给定的类i C ,d 属于类i C 的概率为(|)i P C d 。对于待分类样本d ,我们使用贝叶斯分类器将其划分为最可能的类别(如公式2-3所示):这

里公式的给出与上面的不一致

1212arg max (|,,...,)arg max ()(,,...,|)MAP i n i n i i L i L

H P C w w w P C P w w w C ∈∈== (2-3) 在贝叶斯分类器中,()i P C 为先验概率,很容易计算,但12(,,...,|)n i P w w w C 的计算比较

困难,特别是在特征项的数量n 较大,且特征项之间相依程度较高时,其计算将是极其费时

间的。为了简化计算,一般引入了条件概率独立假设,即假定各特征项之间是相互独立的,这就是朴素贝叶斯分类器。

假定对于给定的类i C ,任意的特征项(1,2,...,)k w k n =之间相互独立,则式2-3可转化为公式2-4:

arg max ()(|)NB i k i i L

k

H P C P w C ∈=∏ (2-4)

投票法又称为打分法,其核心思想是:将文档的特征与已有的类型特征相比,分别进行打分,分数最高的类型即为该文档的类型。投票算法常使用Bagging 算法:训练R 个分类器i f ,i=1,2,…,R ,分类器之间只是类型元素不同。其中i f 是通过从训练集(N 篇文档)中随机取(取后放回)N 次文档构成的训练集合训练得到的。对于新文档D ,用这R 个分类器去打分,得到的分数最高的那个类别作为D 的最终类别。

基于Bayes 公式和投票法相结合的综合文本分类技术在扩展主题图融合过程中的具体应用步骤为:(1)输入的两个扩展主题图的XTM 文件;(2)取出其各自的主题集(Topics);(3)主题集与七大课程的概念集比较打分(Score);(4)判断打分是否都为零;(5)如为零,则两个XTM 文件都属于其他类;(6)否则计算各自打分最高者,得出其所属类别;(7)如类别不同则直接合并;否则两两相似度计算。单个XTM 文件的分类流程如图2-6所示:

图 2-6 XTM 文件分类流程图

2.4.2 主题融合与词语语义相似度

扩展主题图中Topic 元素的主要属性有baseNameString 、instanceOf 、scope ,课题组为了减小扩展主题图XTM 文件的容量,保证显示的质量,仅保留baseNameString 子元素。故判断两个主题(Topic)是否可以融合,仅需比较两个主题的基名(baseNameString)。主题的基名表现为一个个学科术语,如图2-7所示,学科术语映射到自然语言上是词汇或短语。主题间基名的

比较即词汇间的语义相似度计算,根据计算结果的大小判定其隶属两个主题是否融合。

词汇语义相似度度量在主题融合过程中的计算方法如下:

a)

输入两个待融合的扩展主题图XTM 文件A XTM 和B XTM ; b)

取出XTM 文件的主题集()topics A Set XTM 和()topics B Set XTM ; c) 对()topics A Set XTM 中主题(1,2,...,)i topic i n =的基名与()

topics B Set XTM 主题(1,2,...,)j topic j m =的基名两两进行语义相似度计算;

d) 设定融合阈值(threshold)Value ,如计算结果(threshold)Value Value >=,则融

合为一个主题;否则直接合并两个主题;

e) 输出融合处理后的扩展主题图文件C XTM 。

图 2-7 XTM 中主题(topic)的表示

主题融合后将主题的基名合并,指向同一个主题id ,形成一个主题簇,如图2-8所示:

图 2-8 主题簇示意图

2.4.3 知识元融合与句子语义相似度

课题组对知识元KnowledgeElement 元素的主要属性scope 、baseNameString 和occurrence 进行

精简,保留了基名(baseNameString)、资源(occurrence)两个子元素。在XTM 文件中基名展现

为短语,资源为一个句子或指向句子的超链接,基名来源于资源,如图2-9所示。判决两个

知识元的融合,要综合比较基名和资源句子。基名间的计算使用词汇语义相似度度量技术,资源句子的互计算使用句子语义相似度度量技术。综合二者的计算结果,判定其隶属的知识元是否要融合。

图2-9 XTM中知识元(knowledgeElement)的表示上面这个图可能会看不清

语义相似度度量技术在知识元融合过程中的使用方法如下:取出两个XTM文件的知识元列表,对知识元两两进行基名的词汇语义相似度计算和资源句子的句子相似度计算,根据计算结果,判决融合。具体的计算流程如图2-10所示:

图2-10 知识元融合过程中语义相似度计算流程

2.5本章小结

本章首先详述了主题图和扩展主题图,并对扩展主题图融合过程中产生的语义冲突进行定义、分类。然后针对语义冲突的解决技术语义相似度度量进行概述,同时将文本分类技术应用到扩展主题图融合中。最后,详细介绍了词汇语义相似度计算在主题融合中的应用和句子相似度计算在知识元融合中的使用。

3 基于本体和语料库的综合词语相似度算法

词语语义相似性度量是扩展主题图主题融合的判决依据,其计算结果的精度直接决定融合的

质量,是保证全局扩展主题图一致性和质量的关键。本章首先介绍已有的词语语义相似度算

法,并进行归类,分析其优缺点。然后介绍课题相关的简易语料库的构建过程并详述基于语

料库的语义相似度计算算法。最后提出一种利用本体和语料库的综合词语相似度算法

—HCSC 算法,并进行详细论述。

3.1 词语语义相似度算法概述

自然语言的词语之间有着非常复杂的关系,在实际的应用中,有时需要把这种复杂的关系用

一种简单的数量用“数量”描述好吗?还是用“数据”来度量,而语义相似度就是其中的一

种。语义相似度计算在很多领域中都有广泛的应用,例如信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等等。

3.1.1 词语语义相似度概念

词语语义相似度是语义相似度中的一个关键部分,词语与词语之间的关系是非常复杂的,很

难使用一个统一的概念标准来度量。由于人们的认知、语言的使用场景不同,词语间的关系

表现也不同。因此词语相似度是一个主观性很强的概念,在一个语境里,两个词汇非常相似,但在另一个语境,两者可能差异很大。例如“病毒”在生物领域就表示一种单细胞生命体,而在计算机领域则代表存在威胁的程序代码。所以,我们谈论的词语语义相似度一般是应用

到特定领域,这样词语相似度的含义就比较明确。例如,在自动回答系统中,相似度的计算

主要体现在计算用户问句和预定义的领域文本content 的相同程度上;在基于实例的机器翻译

中,词汇相似度主要用于衡量文本中词汇的可相互替换操作的程度;在文本检测领域,词汇

相似度是度量文本相似的基础,表示文本间词汇的语义相关等等。

词语相关性[8]是度量两个词语关系的另一个重要指标,词语的相关性和相似性是一对紧密联

系的概念。词语的相关性是对两个词语共现频率的定性描述,在主观上指人们对词语之间联

系的紧密程度的感受。词语的相关性一般使用统计大规模文本库中词语的共现频率的方法来

得到。如果两个词语与其他词语的相关程度很大,那么这两个词语所代表的概念也会比较接

近,其相似度也会比较高—即二者成正比例关系。

Dekang Lin [26]定义任何两个事物的相似度取决于它们的共性(Commonality)和个性

(Differentces),然后从信息论的角度给出任何两个事物相似度的通用公式(3-1):

log ((,))(,)log ((,))

p common A B Sim A B p description A B (3-1)

其中分子式描述A 、B 共性所需要的信息量的大小;分母是完整的描述出A 、B 所需要的信

息量大小。

刘群这有上标吗定义两个词语的相似度是它们在不同的上下文中可以相互替换且不改变文

本的句法语义结构的可能性大小[8]。这种描述是Dekang Lin 定义的具体化,是基于实例的机

器翻译的研究背景。

在本文中,我们用一个浮点数来表示两个词语语义相似度的大小。假设有两个词汇1W 和

2W ,其语义相似度用12(,)Sim W W 来表示,取值范围为[0,1]。一个词汇与它本身的语义关

系单一,其相似度值是1。如果两个词语是一对反义词,即二者存在着对义、反义的语义关

系,相似度值我们定义为0。两个词汇的语义关系和它们的词汇相似度存在着紧密的联系,

从数学角度看,是一个反比关系。语义关系数值越大,其相似度数值越小;反之,语义关系

数值越小,其相似度数值越大。

3.1.2 词语语义相似度方法分类

现有的词语语义相似度计算方法一般可分为两类:

一类是基于某种世界知识(如语义词典、本体等)的计算方法,该方法利用世界知识中概念之

间的上下位、同义和反义等关系,计算两个概念的语义距离从而得到概念间的语义相似度,接着用概念间的相似度来衡量两个词语间的语义相似度。基于世界知识的方法前提是两个词

语并非相互独立而是具有一定的语义相关性,并且两个词语在语义词典的结构层次网络图中

存在一条通路将二者联系到一起。如存在通路则可以计算二者的相似度值,如不存在则认为

二者相似度为0。

另一类是根据大规模语料库统计的方法,该方法基于文本中可以观察的语言事实—语境,假

设一个理论基础“两个词语在语义上相似当且仅当两个词语处于相似的上下文使用环境”,

基于大规模语料库用词语的上下文信息来度量语义相似度。方法的本质是用词语的上下文信

息的概率分布来度量词语间的语义相似度—信息墒(信息统计)的方法。

3.1.3 词语语义相似度算法研究现状分析

1)基于世界知识的词汇相似度计算算法

基于语义词典的词语相似度计算方法建立在大规模语义词典的基础之上,在汉语语义词典方

面,具有代表性的有《知网》(HowNet)、《同义词词林》等;英文方面的语义词典有WordNet ,FrameNet ,MindNet 等。

世界知识不是在线的词汇数据库,而是一个由词汇组成的语义网(如图3-1同义词词林

语义分类树),组织方法是:将所有的词组织在一棵或几棵树状的层次结构网络中,层次结

构网络图中任意两个词语之间存在且只存在一条路径。那么就可以用路径的长度来度量两个

概念间的相似度,从而得到词语的相似度。

O

A

B L a

b a I 01

020101 (0101)

02010101.........010*******.........……………………......01...

图 3-1 《同义词词林》语义分类树形图

在国内,王斌有上标吗采用节点间路径长度来衡量其语义距离的方法,利用《同义词词林》来计算汉语词语之间的相似度[27]。刘群[8]等人提出一种基于《知网》的词汇语义相似度计算

方法。该方法使用“整体的相似度等于部分相似度加权平均”的度量技术,计算两个概念的

语义表达式之间的相似度,对于两个义原的相似度,使用根据上下位关系得到语义距离进行

转换。北京信息科技大学的江敏[28]等提出了一种改进的基于《知网》的词语语义相似度计

算算法,在原算法基础上进一步考虑义原的深度信息,并充分发掘使用《知网》义原间的反

义、对义关系等关系来计算词语的相似度,得出词语相似度和它们所在层次总和成正比关系,和它们的层次差成反比关系。该算法在计算对义,反义关系的词对时,效果较为理想。在国

外美国的蒙大拿州立大学的Shen Wan 和Rafal A.Angryk [9]提出了基于WordNet(词网)的上下

文向量的语义相似度计算算法,该算法将一个概念的认知感觉定义为直接语义关联与与其相

关的间接语义关联的综合体,通过计算两个概念对应上下文的空间向量的余弦值得到相似度

的值。美国卡耐基梅隆大学的Satanjeev Banerjee [10]等提出了扩展注释重叠语义相似度计算算

法,该算法利用了概念间的多种关联关系,属性间的联系进行多次字符串间的匹配,在进行

加权整合计算相似度值。

基于语义词典的词语相似度计算方法直观、简单有效且易于理解,但是语义词典的完备与否

对其影响较大,受未登录词问题的影响,而且受人的主观影响也比较大,有时不能反映客观

事实。

2)基于大规模语料库统计的词汇相似度计算算法

语料库是基于大规模语料库统计的词汇相似度计算方法的基础,在国内很多研究机构建立了

一些汉语语料库,如北京大学计算语言学研究所,中国科学院软件研究所,中国科学院自动

化所和《人民日报》光盘数据库等等。但这些语料库语料规模小,不能涵盖特定领域的语料

资源,缺少专业领域的语料。在国外,具有代表性的有:1960年初,由London 大学R.Quirk

建成的LLC 语料库;1970年初,英国Lancaster 大学,挪威Oslo 大学和Bergen 大学共同建立了

当代英国英语的LOB 语料库;20世纪80年代,由英国Birmingham 大学与collins 出版社共同合

作,建立了规模达2000万词次的COBUILD 语料库。这些语料库语料资源较为丰富,且涵盖

面很广,但其针对的是非中文语言,对中文词语的相似度计算理论意义胜过实际使用。

基于大规模语料库统计的词语相似度计算采用上下文语境的统计描述方法,该方法建立在

“词语的上下文可以为词语定义提供足够信息”的论断基础之上。在国外如Dagan [29]使用了

本文来源:https://www.bwwdw.com/article/dnol.html

Top