长文档

更新时间:2024-06-04 20:30:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

1.1 课题的背景和意义............................................................................................. 3 1.1.1 研究的背景.................................................................................................. 3 1.1.2 研究的目的和意义...................................................................................... 3 1.2 国内外研究现状................................................................................................. 3 1.3 本文的研究content ............................................................................................ 5 1.3.1 研究content ................................................................................................. 5 1.3.2 研究方法及技术路线.................................................................................. 5 1.4 论文组织结构..................................................................................................... 6 2 扩展主题图融合及语义冲突.................................................................................... 7 2.1 主题图与扩展主题图......................................................................................... 7 2.1.1 主题图概念及描述...................................................................................... 7 2.1.2 扩展主题图概念及描述............................................................................ 11 2.2 扩展主题图的融合........................................................................................... 12 2.2.1 扩展主题图融合定义及原则.................................................................... 12 2.2.2 扩展主题图融合过程................................................................................ 13 2.3 语义冲突........................................................................................................... 14 2.3.1 语义异构的原因........................................................................................ 14 2.3.2 语义冲突的定义及类型............................................................................ 14 2.4 语义相似度在扩展主题图融合中的使用....................................................... 16 2.4.1 简单文本分类的应用................................................................................ 16 2.4.2 主题融合与词语语义相似度.................................................................... 18 2.4.3 知识元融合与句子语义相似度................................................................ 19 2.5 本章小结........................................................................................................... 20 3 基于本体和语料库的综合词语相似度算法.......................................................... 21 3.1 词语语义相似度算法概述............................................................................... 21 3.1.1 词语语义相似度概念................................................................................ 21 3.1.2 词语语义相似度方法分类........................................................................ 22 3.1.3 词语语义相似度算法研究现状分析........................................................ 22 3.2 基于语料库的语义相似度计算算法............................................................... 24 3.2.1 语料库的抽取、去噪、生成.................................................................... 24 3.2.2 网络搜索双检验模型与基于语料库的语义相似度度量........................ 25 3.2.3 基于页空间数和语料片段的语义相似度计算........................................ 26 3.3 一种利用本体和语料库的综合词语相似度算法—HCSC算法 ................... 28 3.3.1 基于规则和同义词词林的语义相似度计算............................................ 28 3.3.2 一种改进的基于HowNet(知网)的语义相似度计算 .............................. 30 3.3.3 HCSC算法设计思想 ................................................................................. 32 3.3.4 HCSC算法设计框架 ................................................................................. 33

3.3.5 HCSC算法详述 ......................................................................................... 34 3.3.6 算法中参数权重的确定............................................................................ 36 3.4 本章小结........................................................................................................... 39 4 基于全信息理论的句子相似度算法...................................................................... 40 4.1 句子相似度概念............................................................................................... 40 4.2 句子相似度计算的相关方法........................................................................... 41 4.2.1 基于相同词汇的句子相似度计算方法.................................................... 41 4.2.2 基于语义信息的句子相似度计算方法.................................................... 41 4.2.3 基于向量空间的句子相似度计算方法.................................................... 43 4.2.4 结合句法结构信息的句子相似度计算方法............................................ 44 4.3 基于全信息理论的句子相似度计算............................................................... 46 4.3.1 全信息理论概述........................................................................................ 46 4.3.2 句子语义计算模型.................................................................................... 47 4.3.3 全信息理论与句义三维模型.................................................................... 48 4.3.4 算法的设计思想........................................................................................ 49 4.3.5 算法的设计框架及详述............................................................................ 50 4.4 本章小结........................................................................................................... 53 5 算法的实验与分析.................................................................................................. 54 5.1 评价标准........................................................................................................... 55 5.2 HCSC算法的测试与评价 ................................................................................ 55 5.2.1 测试数据的准备........................................................................................ 55 5.2.2 多领域测试与分析.................................................................................... 56 5.2.3 相关算法对比测试.................................................................................... 58 5.2.4 HCSC算法测试小结 ................................................................................. 61 5.3 基于全信息理论的句子相似度计算算法的测试........................................... 61 5.4 语义相似性度量在yotta系统中的测试......................................................... 63 5.5 本章小结........................................................................................................... 65 6 结论与展望.............................................................................................................. 66 6.1 工作总结........................................................................................................... 66 6.2 展望................................................................................................................... 67

1绪论

1.1 课题的背景和意义

1.1.1 研究的背景

本课题源于国家863高技术研究发展计划:“面向教育的海量知识资源组织、管理与服务系统”,该项目旨在研究一套区别于搜索引擎和现有数字文献管理系统的,支持用户多层次、多粒度知识获取,能够体现知识资源内在关联的导航与互动学习,并支持用户个性化查询和结果呈现的知识资源管理与服务系统。系统的体系结构包括:1、知识资源的组织与管理;2、知识资源的处理;3、个性化多模式三个层次。

相似性度量算法的关键技术是词汇、句子间语义相似度计算算法。语义相似度计算的准确性直接影响到主题图最后融合的效果,因此语义相似性度量的研究在主题图融合过程有着很重要的作用。

1.1.2 研究的目的和意义

扩展主题图的数据格式用于描述信息资源组织、管理的结构,具有独立性和通用性,展示形式为“主题--知识元—资源”。相对于传统的基于元数据的资源组织方式,扩展主题图在物理资源实体上架构了一层语义网,实现了资源实体和抽象概念之间的语义组织和衔接,能提供知识的多层次,多粒度的语义搜索与导航。

现有的语义相似性度量的方法主要有基于词典和基于语料库两种。词典有着丰富的语义信息,但存在着未登录词的严重问题。目前发布的实用的词典:英文的WordNet(词网)、中文的HowNet(知网)[2],均是封闭的系统,在计算未登录词时效果很差。 1.2 国内外研究现状

863课题组针对传统主题图无法提供多粒度知识组织管理的问题,提出了扩展主题图标准。当前关于扩展主题图的研究较少,本文在此只介绍传统主题图的相关研究。 1)主题图和主题图融合研究现状

主题图(Topic Maps)的概念最初是由W3C(World Wide Web Consortium全球万维网联盟的简称)提出的,并由国际标准组织SGML(Standard Generalized Markup Language)委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是ISO/IEC 13250:2000[3],这项国际标准定义出了Topic Maps的完整数据模型。2001年,基于可扩展标记语言(Extensible Markuo Language,XML)的XML主题图—XML Topic Maps(XTM)[4]成为ISO/IEC 13250的一部分。同年,ISO委员会又提出主题图查询语言 TMQL(ISO/IEC18048)和主题图约束语言TMCL (ISO/IEC1975)。

主题图融合方面,在国外,2004年Lutz Maicher等人提出了SIM算法[5]和2007年由Jung-Mn Kim[6]提出了TM-MAP算法。SIM算法的本质是字符统计法,TM-MAP算法较之有很大的改进,一定程度上涉及到主题图本身所蕴含的语义信息,但核心思想还是基于字符统计。在

国内,2006年,由南京航空航天大学的吴笑凡等人提出了基于主题和资源合并的TOM算法

[7]

,TOM算法与SIM算法类似,基于字符统计,涉及到主题图三要素中的两个。

2)词汇相似性度量研究现状

国内比较突出的是中国科学院计算技术研究所的刘群[8]等人提出的基于《知网》的词汇语义相似度计算。刘群等的语义相似度计算方法以《知网》为计算依托,充分利用了《知网》中的义原(描述一个“概念”—词语的最小意义单位)通过上下位关系组成的一个树状义原层次体系。为了计算用知识描述语言表达的两个概念的语义表达式之间的相似度,该算法采用了“整体的相似度等于部分相似度加权平均”的做法。该算法在同义、近义词语间的相似度计算结果上测试效果良好,但仅仅利用《知网》中义原间的上下位关系,所以对对义、反义的词语测试应用不佳,测试结果不利于进行词语的极性识别分析。

国外较为突出的是美国的蒙大拿州立大学的Shen Wan 和Rafal A.Angryk提出了基于WordNet(词网)的上下文向量的语义相似度计算算法[9],该算法将一个概念的认知感觉定义为直接语义关联与与其相关的间接语义关联的综合体,然后利用wordnet的层次关系建立上下文的空间,及向量,最后通过计算两个概念对应向量的余弦值得到相似度的值。该算法理解简单,实用,可操作性强,在测试结果上有一定的准确度。但由于其仅仅利用了词网中概念间的上下文关系,计算公式也没考虑到概念的权重问题,因此在一些基准词间的测试效果不理想。美国卡耐基梅隆大学的Satanjeev Banerjee[10]等提出了扩展注释重叠语义相似度计算算法,每一对概念都被赋予和每个词注释相关的重叠词序列的一个关联值,在计算比较过程中不仅仅比较两个词语义注释词序列的串重合程度,而且通过关系间的属性及相似性来综合分析语义间的上位、下位、部分和整体的关联关系,该算法利用了概念间的多种关联关系,属性间的联系进行多次字符串间的匹配,在进行加权整合计算,测试效果很好,在一定程度上接近了认知效用,但空间、时间复杂度很高。 3)句子相似性度量研究现状

目前,国内外存在着很多句子相似性度量的方法。在国外,Niladri[11]提出了一种基于线性模型的相似度度量模式,其相关系数由多重回归技术确定,句子的相似性(或者说是非相似性)由一系列决定句子不相似成分共同作用的结果组成。Nirenburg[12]等提出了两种串匹配的方法,即:“切块+匹配+重组”方法和整句级匹配的方法。这两种方法所采用的相似性度量原理都是词组合法。Lambros等提出同时依据句子的表层结构和content计算相似度的方法[13], 方法使用了两级动态规划技术,应用动态规划算法允许在两个长度不同的句子之间计算语句相似度。

国内研究汉语句子句子相似度的学者也较多。李素建[14]基于知网和同义词词林,提出了语句相关度的定量计算模型;陈利人[15]等提出了句子相似度包括结构相似度和语义相似度两个概念,认为句子相似度计算包括两个步骤:首先,使用词结构相似度计算,得到句子的结构相似度;然后,在句子结构相似度的基础上,再进行句子语义相似度计算。吕学强[16]等考虑词形与词序相似度两个因素,提出了句子相似模型与最相似句子的查找算法;秦兵[17]等使用向量空间模型的TF~IDF法和基于语义本体的方法,面向常见问题集计算问句间的语义相似度;杨思春[18]等使用具有部分格语义的语法功能句型计算模式来实现句子相似度计

算等等。

上面的方法大部分是简单的的使用语义词典,没有考虑到句子的内部信息和词语间的相互作用和联系,没有考虑到句子蕴含的一些特征,因此准确率并不高。 1.3 本文的研究content

1.3.1 研究content

本文在对扩展主题图融合中的语义冲突进行研究分析基础上,详细研究解决冲突的关键技术—语义相似性度量技术。首先分析扩展主题图融合中主题间的语义冲突问题,提出一种基于本体和语料库的综合词汇相似度计算方法。然后针对扩展主题图融合中知识元间的语义冲突问题,结合课题中知识元的特点(知识元的资源来源是单个句子),提出基于全信息理论的句子相似度计算方法。最后,对所提的两种相似性度量算法进行综合测试分析,并融合到扩展主题图融合模块,整合到整个863系统中进行实际应用。本文的研究content包括以下几个方面:

1)扩展主题图融合研究:在研究扩展主题图的融合原则及过程基础上,分析融合过程中所产生的语义冲突,研究其产生原因,并对其进行分类。

2)提出一种基于本体和语料库的综合词汇相似性度量算法:为解决扩展主题图融合过程中主题元素间的融合问题,设计实现了一个结合本体与语料库,辅以规则和同义词计算的权重参数自适应调节的综合词语相似性度量算法。

3)提出一种基于全信息理论的句子相似性度量算法:研究常见的句子语义表示模型,综合句义三维模型和全信息理论,从语法,语义和语用三个方面对待融合知识元的资源来源—句子进行综合度量。

4)算法的测试与分析:在专业领域和公共领域对所提相似性度量算法进行多领域的实验测试,并将其与其他算法进行对比分析,研究分析其性能指标。

5)算法与系统的整合:将所提相似性度量算法融合到扩展主题图融合模块,并整合到863计划系统中进行实际使用,测试其功能和性能。

1.3.2 研究方法及技术路线

本文的研究方法从以下几个方面进行阐述: 1)

扩展主题图融合与语义冲突:通过对扩展主题图融合过程的分析,确定可能出

现的语义冲突,并分析解决冲突的关键技术—语义相似性度量的具体使用场景。 2)词汇相似性度量的研究:综合研究已有的词汇相似性计算算法,进行分类与对 比分析。建立一个与课题相关简易的计算机领域的语料库,使用网络搜索双检验模型进行相似度计算,并将其与基于页空间数的语义相似度计算结合起来,形成一种基于语料库的语义相似度计算算法。对已有的基于《知网》的方法进行改进,同时引入规则分析和同义词词典计算,提出一种利用本体和语料库的综合词语相似度算法(A new word similarity computation algorithm based on HOWNET and Corpus—HCSC)。

3)句子相似性度量的研究:分类已有的句子相似度计算方法,分析各自的优缺点。 研究已有的句子语义计算模型,并将其与全信息理论结合起来,分析全信息理论在模型中的使用。综合句义三维模型与全信息理论,提出基于全信息理论的句子相似度计算方法。 4)算法的测试与应用:综合测试提出的语义相似性度量算法,并将算法应用到课 题的Yotta系统中,实现算法与实际工程的结合。

总体上,本文拟采用“发现扩展主题图融合中的语义冲突—解决冲突,提出算法 —算法实现与测试—应用到实际系统”的技术路线,如图1-2所示:

扩展主题图融合分析扩展主题图融合中语义冲突分析、扩展主题图融合中的语义相似性度量研究(方法、使用场景等)语义相似性度量研究基于规则和同义词词典改进的基于知网的计算基于语料库的计算句义三维模型全信息理论基于本体和语料库的综合词语相似度计算基于全信息理论的句子相似度计算扩展主题图的相关标准与规范与知识资源管理与服务系统(Yotta系统)的集成

图 2-2 本文的技术路线

1.4 论文组织结构

论文按照以下content进行组织:下面的文字的缩进是不是有点怪 第1章

绪论。简述了课题的研究背景、研究的意义和价值,然后介绍了相关

理论和技术的国内外研究现状,最后简介自己的研究content和研究思路。 第2章

扩展主题图融合及语义冲突。介绍主题图和扩展主题图的概念和描

述,详述扩展主题图融合的原则和过程;研究融合过程中产生的语义冲突,分析其产生的原因和种类;研究语义相似度在扩展主题图融合中的具体使用。 第3章

基于本体和语料库的综合词语相似度算法。分析已有的计算算法,建

立计算机领域的简易语料库,融合同义词辞典、规则、知网和语料库,提出一种基于本体和语料库的综合词语相似度计算算法。 第4章

基于全信息理论的句子相似度算法。分类介绍现有的句子相似度计算

算法,研究句子语义计算模型,融合句义三维模型和全信息理论,提出一种基于全信息理论的句子相似度算法。 第5章

算法的实验与分析。首先介绍两类实验数据的准备,然后进行多领域、

多层次的算法测试与分析及相关算法对比测试;最后将提出的语义相似性度量的算法应用到课题系统(Yotta系统)中进行综合测试。 第6章

结论与展望。对本文的工作进行总结,然后提出本文工作中的不足和

需要改进的地方,以及将来研究的方向。

2 扩展主题图融合及语义冲突

本章首先详述主题图和扩展主题图的概念及描述语法XTM,并举例说明。然后研究扩展主题图融合的原则和过程,分析融合过程中产生的语义冲突。最后介绍解决语义冲突关键技术—语义相似性度量及其在扩展主题图融合中的具体使用。 2.1 主题图与扩展主题图

2.1.1 主题图概念及描述

1)主题图的概念

主题图(Topic Maps)的概念最初是由W3C(World Wide Web Consortium全球万维网联盟的简称)提出的,并由国际标准组织SGML(Standard Generalized Markup Language)委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是ISO/IEC 13250:2000,这项国际标准定义出了Topic Maps的完整模型[3]。主题图标准建设了知识和信息间的桥梁,实现信息快速查找,提高信息的可现性,最终实现知识的共享和重用。主题图实际上在信息资源的上层构建了一个结构化的语义网,其独立于技术平台,描述主题之间的关系及主题与具体资源的联系,通过揭示概念之间的关系,将用户引领到相关的资源。

一个主题图就是一个由主题、关联性以及资源实体组成的集合体。如图2-1所示主题图的架构可分为3部分,即TAO[19]。不知道你的这个“TAO”在这句话中指什么主题(Topic):指主题图中用来代表具体实体或抽象概念的符号表示,能在计算机中表示、存储、检索等,在现实世界中能表示人、事、时、地、物等。关联(Association):指连结两个或两个以上主题间的关系,主题间的关联性可以独立于信息资源而存在。主题图的关联性是主题间的双向关联,并且可实现多个主题间复杂关联。资源实例(Occurrence):代表一个主题与信息资源之间的联系。一个主题可以被链接到一个或多个信息资源,被关联的信息资源可能是关于某个主题的一篇专论、文章或为一段简述以表达此主题的资源等,该资源可位于主题图的外部,通过URL来指向具体信息资源。

主题主题间联系主题到资源的引用数据库资源网页或文档资源

图 2-1 这块的空格与上面图的个数不一样主题图体系结构 2)主题图的描述与实例

基于ISO13250标准的XML Topic Maps(XTM)[4],是使用XML的语法形式描述主题图的各个元素。根据XTM的DTD标准,XTM定义了19个标签元素。如表2-1所示:

表2-1 XTM元素表

元素

含义 主题图的根元素

主题 主题关联 说明范围引用到的主题

引用表示类型的主题

主题标识 主题基名 和主题相关的资源 主题基名的字串content 主题基名以外的名称,即别名

别名 别名的上下文

关联成员,指出在关联中,扮演某种角色的主题

指明在关联中,成员扮演的角色

引用主题元素 引用项目标识符 提供待引用资源的URI 资源数据,只能容纳字符数据

与其它主题图合并用

下面展示一个具体的实例,来描述XTM的三要素:主题、关联和资源出处。实例描述的是:在福建泉州有一个郑成功纪念馆,里面有郑成功的各种资料,泉州盛产水果龙眼。首先定义四个主题:福建泉州、郑成功纪念馆、郑成功和龙眼,然后定义位于、生产和地方与人物三种关系,最后将资源出处与主题关联起来。XTM描述如下:

福建泉州 郑成功纪念馆 龙眼

郑成功

将上述XTM展示为图的模型,如图2-2所示:

图 2-2 主题图概念实例图同上

2.1.2 扩展主题图概念及描述

1)扩展主题图的概念

在《面向教育的海量知识资源组织、管理与服务系统》863课题中为了更好的进行教育领域的知识组织、知导航是“知导航”还是知识导航和学习,引出了知识元的概念。知识元是指具备完整知识表达的最小知识单位(如计算机网络的定义、局域网的组成、路由表的属性等),从资源文件内部抽取并以隐式方式与资源文件存在前序、整体、部分和上下位等依存关系。基于TAO结构的主题图仅支持概念—资源间的导航,粒度较大、层次单一,不能反映出知识元之间的关联关系,因而不能按照知识元之间的关联关系进行导航学习。

课题组提出一种扩展主题图结构(图2-3)这里的图2-3应该以这样的方式给出吧:如图2-3所示,核心思想为:在主题与资源出处之间,引入知识元及其关联关系,并建立“概念(主题)—知识元—资源实体”三者间的联系。这种扩展的主题图结构包括6种元素,除了传统TAO三元素外,还包括知识元、知识元关联关系、主题(概念)与知识元的联系,不仅能够支持主题导航,而且还支持基于知识元关联关系的导航。基于扩展主题图的知识资源组织模型可以更好的体现知识管理的灵活性、透明性和内在关联特性。该模型为海量知识资源组织管理、知识协同构建和多模式知识服务的研究奠定了基础。

T5T1T7T4T2T3T6主题层K7K1K5K6K2K2K8K3K9知识元层K4资源层

图 2-3 扩展主题图结构 2)扩展主题图的描述

在基于ISO13250标准的XTM语法定义中,课题组新增加了四个自定义标签元素,分别表示知识元、知识元引用、知识元间关联关系和知识元与主题间关联关系。四个标签及子标签的描述如下:

:一个知识元元素的引用;:知识元元素,其子标签包括:知识元间的关系,其子元素包括:主题和知识元间的关系,其子元素包括

扩展主题图XTM的全部标签及其各自的含义详见附录。 2.2 扩展主题图的融合

2.2.1 扩展主题图融合定义及原则

1)扩展主题图融合的定义

扩展主题图融合是将相同或者不同领域知识资源的局部扩展主题图按照一定的规 则进行合并,形成一个集中统一的全局扩展主题图,扩展主题图融合的定义如公式(2-1): ETMM:(ETMA?ETMB)?ETMC (2-1) 扩展主题图融合可以消除冗余的主题图结构,将同一或不同知识领域的局部扩展主题图合并为全局扩展主题图,形成具有众多主题的全局导航扩展主题图。另外可以将在分布式环境中的异构知识资源集中起来,发挥扩展主题图强大的导航、知识管理的优势。

主题图融合中,确定不同主题图中的合并项是难点问题。现有的主题图设计模型采用的是OASIS[20](Organization for the Advancement of Structured Information Standards)制订的公共项

目标识符(Published Subject indicators,PSI[21])作为主题的统一标识,PSI相同的主题均可合并[22]。但是PSI尚未完全形成规范,也没有完全覆盖主题图设计的应用领域,仅在某些非常通用的领域(如语言、国家和地区名称)中才定义了PSI。因此,基于PSI目前还无法完全实现主题图的融合。而综合使用相似性度量技术计算主题图的元素,根据计算结果实现主题图的融合。

2)扩展主题图融合原则

扩展主题图源于主题图,扩展主题图的融合原则也借鉴了主题图的融合原则。在 主题图的标准中,规定了主题图融合的方法及应该遵循的原则,如下所述: (1)相等原则

相等原则定义了一个完整的主题图处理程序必须保证主题图结构的一致性,其具体包括:字符串相等原则、主题名称相同原则、关联相同原则、作用范围(scope)相同原则、主题资源相同原则、URL相同原则,补充知识元名称相同原则和知识元资源相同原则。 (2)等价原则

等价原则用来识别主题图结构的等价语法描述,相同的主题或知识元由于描述方式的不同,其描述语法存在着不同,等价原则就是辨别、处理这些不同。 (3)变量处理原则

元素定义的变量名称,其处理范围由该元素的参数和其所属的双亲或上位的元素联合定义决定。 (4)合并原则

描述了主题图中主题间合并的原则,补充知识元的合并原则。 (5)重复处理原则

对主题图中主题指示符、主题资源和主题间的关联关系进行删除、精简去除重复的原则,补充知识元指示符、知识元资源和知识元间关联关系的删除、精简原则。

2.2.2 扩展主题图融合过程

为了减小扩展主题图XTM文件的容量,以适应课题展示的需要,课题组对扩展主题图的元素进行了删减。保留了主题、主题关系、知识元,知识元关系,主题与知识元关系五大元素,主题和知识元子元素中仅保留基本名、资源。扩展主题图的融合就是比较各主题及知识元间的基名及资源,判定是否需要合并;如合并,则需要对其各自对应的关联关系进行合并,否则直接将两个扩展主题图的XTM合并。合并后的XTM文件要符合标准DTD的定义,具有完备性。

扩展主题图的融合过程的步骤如下:1)对融合前的局部扩展主题图文档预处理,消除其不一致及冗余的元素;2)将预处理后的两个局部扩展主题图文档中的主题、知识元两两比较,确定合并项;3)将融合判决的元素进行融合,同时处理其各自对应的关联关系;4)对融合后的扩展主题图进行冲突检测,检查全局扩展主题图中冗余的元素,确保其一致性及准确性。融合流程如图2-4所示:

全局扩展主题图冲突检测知识融合主融题合图原标则准及融合处理相似度计算数据预处理匹配算法SOAP...局部扩展主题图1局部扩展主题图n

图 2-4 扩展主题图融合过程 2.3 语义冲突

2.3.1 语义异构的原因

数据的含义就是语义。简单的说,数据就是符号。数据本身没有任何意义,只有被赋予含义的数据才能够被使用,这时候数据就转化为了信息,而数据的含义就是语义。语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。语义具有领域性特征,不属于任何领域的语义是不存在的。

由于信息概念具有很强的主观特征,目前还没有一个统一和明确的解释。我们可以将信息简单的定义为被赋予了含义的数据,如果该含义(语义)能够被计算机所 “理解”(指能够通过形式化系统解释、推理并判断),那么该信息就是能够被计算机所处理的信息。自然语言源于信息理论,自然语言是由语言、语法和语义构成的。生活中,语义往往由于信息的不确定性产生不一致性。计算机所处理的信息,由于领域、理解角度、表示方法的不同也会产生语义的不一致性。语义异构则是指对同一事物在解释上所存在不一致性,也就体现为同一事物在不同论域中理解的不一致性。同时同一数据在不同的数据源上的表示也存在着不同,产生语义异构。

导致语义异构的具体原因[23]如下: (1) (2) (3) (4)

不同的信息使用多种术语(词汇)表示同一概念; 同一概念在不同的信息中表达不同的含义; 各信息使用不同的结构来表示相同(或相似)的信息;

各信息中的概念之间是存在着各种联系,但因为各信息的分布自治性,

这种隐含的联系不能体现出来。

2.3.2 语义冲突的定义及类型

语义异构是语义冲突的前提与基础,语义冲突是指当描述同一现实世界事物时,两个对象在描述方式、结构上和content上的不同造成的语义不一致性。

在扩展主题图融合过程中,有很多方面的原因会产生语义冲突:扩展主题图各个元素是经过数据标注或者知识资源文档的自动抽取产生的,其中难免会产生冗余的信息,比如冗余的主题或知识元、冗余的关系等等;在标注过程中由于标注者的认知问题,可能对同一主题或知识元进行不同形式的标注,也可能会出现相同的主题、知识元间标注出自相矛盾的关系;同时由于中英文的差异,会出现中文术语与其英文翻译、英文简写的语义冲突。

本文根据扩展主题图的元素结构和语义冲突形式的不同,将融合中的冲突分为四大类:数据冲突、结构冲突、规则冲突和临时性冲突。冲突的具体分类如图2-5所示:

扩展主题图融合冲突数据冲突结构冲突规则冲突临时性冲突ID冲突命名冲突属性冲突层次结构冲突实例冲突包含冲突无引用冲突冗余冲突

图 2-5 扩展主题图融合中冲突分类图

其中数据冲突和结构冲突属于扩展主题图融合过程中的语义冲突,下面对其进行详细介绍: 1)数据冲突:是指对相同概念的不同感知所引起的冲突。具体又蕴含ID冲突和命名冲突。 (1)ID冲突是指两个局部扩展主题图中,相同元素的ID不同,或者相同ID对 应不同的元素。

定义2-1:ID冲突。Ci,Cj表示概念。 a)如果Cib)如果Ci?Cj,但Ci.id?Cj.id,则为ID冲突。 ?Cj,但Ci.id?Cj.id,则为ID冲突。

(2)命名冲突是指两个局部扩展主题图中,相同概念使用不同名字或者不同概念 使用相同的名字。

定义2-2:命名冲突。Ci,Cj表示概念。 a)如果Ci?Cj,但Ci.name?Cj.name,则为命名冲突。

b)如果Ci?Cj,但Ci.name?Cj.name,则为命名冲突。

2)结构冲突:相同的概念群在不同主题图中采用不同的逻辑结构进行表达所造成的冲突。具体又划分为层级结构冲突、属性冲突。

(1)属性冲突是指相同元素,其属性集合不相同。相同概念的属性名相同,属性 值不同时,出现属性值冲突。相同概念的属性值相同,属性名不同时,出现属性名冲突。

定义2-3:属性冲突。Ci,Cj表示两个概念。

a)如果Ci?Cj,Ci.AttrName?Cj.AttrName,但Ci.AttrVal?Cj.AttrVal,

则为属性值冲突。 b)如果Ci?Cj,Ci.AttrVal?Cj.AttrVal,但Ci.AttrName?Cj.AttrName,

则为属性名冲突。

(2)层级结构冲突是在不同主题图中,对概念描述的层次结构不同引起的。

定义2-4:结构冲突。

Ci,Cj表示两个概念。如果Ci?Cj,

Ci.structure?Cj.structure ,为结构冲突。

2.4 语义相似度在扩展主题图融合中的使用

扩展主题图的元素来自于不同或相同的资源文件,即主题、知识元出自异构的封闭系统。融合过程中产生的冲突处理步骤是:检测语义冲突和消除语义冲突。消除语义冲突可以依靠元素的合并处理,而检测语义冲突的关键技术即是语义相似度度量。语义相似度计算可以判别在多个系统内是不同概念表示同一事物,还是同一概念表示的是不同事物,是扩展主题图融合的第一步。此后的元素合并、属性保留都是基于相似性计算的结果。相似性计算算法的关键技术是词语、句子间语义相似度计算算法。语义相似度计算的准确性直接影响到主题图最后融合的效果,因此语义相似性度量研究在主题图融合过程有着很重要的作用。

2.4.1 简单文本分类的应用

语义相似性度量的计算是将两个扩展主题图XTM文件中的元素两两对比计算,如XTM文件元素个数为n,则需计算的时间复杂度为O(n2)。为减少计算量,必须精简元素的比较计

算。文本分类就是根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文本自动确定一个类别,涉及数据挖掘、计算语义学、信息学、人工智能等个学科,是自然语言处理的一个重要应用领域。将文本分类技术应用到扩展主题图融合中的目的是根据文本分类的结果,如两个XTM文件属于同一类别,则进行N?N的元素计算,否则直接进行两个文

件的合并。

1)文本分类及文本分类技术

文本分类:按照事先定义的类别来决定一篇文本的归属的过程被称为文本分类。其类别可以通过概念进行定义,也可以通过标注学习得到,同样也可以通过预先认为设定。当前,随着信息存储技术的迅猛发展,大量的文字信息开始以计算机可读的形式存在,而且其数量每天仍在急剧增加。在这种情况下,基于机器学习的文本分类使用越来越广泛。贝叶斯分类器、支撑向量机(SVM)、自组织映射(SOM)、粗糙集、k近邻(KNN)、决策树、关联规则、分类器集成以及向量相似度等模型得到了广泛使用[24]。这些方法大致可以分为三大类:基于统计模型的方法(如贝叶斯分类器、KNN、向量相似度等)、基于连接的方法(如SOM)和基于规则的方法(如决策树、关联规则等)。

课题的知识资源主要指计算机学科资源,共有七个课程:计算机网络、计算机组成原理、数据结构、JAVA语言、平面几何、计算机系统结构和操作系统。本文的文本分类的目的是将指定的XTM文件划分到七个课程中某一具体课程。 2)

扩展主题图融合中的文本分类技术应用

扩展主题图XTM文件具有特定的结构,元素管理方便。本文采用基于Bayes公式和投票法相结合的综合文本分类技术。

朴素贝叶斯分类算法[25]是一种最常用的有指导意义的方法,它以贝叶斯理论为基础,是一种在已知先验概率与条件概率的情况下的模式识别方法。 朴素贝叶斯分类算法基于独立性假设,即一个属性对给定类的影响独立于其它属性。算法的核心是贝叶斯公式(2-2):

P(Ai|B)??P(B|Aj)P(Aj)j?1ni=1,2,…,n,且

nP(B|Ai)P(Ai) (2-2)

i?1?P(Ai)?1。

?描述。

贝叶斯分类器在文本分类经常使用。假设文本实例d可由n个属性值?w1,w2,...,wnL是目标属性集合(Ci,i?1,2,...,L)。则对于给定的类Ci,d属于类Ci的概率为P(Ci|d)。对于待分类样本d,我们使用贝叶斯分类器将其划分为最可能的类别(如公式2-3所示):这里公式的给出与上面的不一致

HMAP?argmaxP(Ci|w1,w2,...,wn)?argmaxP(Ci)P(w1,w2,...,wn|Ci) (2-3)

i?Li?L在贝叶斯分类器中,P(Ci)为先验概率,很容易计算,但P(w1,w2,...,wn|Ci)的计算比较困难,特别是在特征项的数量n较大,且特征项之间相依程度较高时,其计算将是极其费时间的。为了简化计算,一般引入了条件概率独立假设,即假定各特征项之间是相互独立的,这就是朴素贝叶斯分类器。

假定对于给定的类Ci,任意的特征项wk(k?1,2,...,n)之间相互独立,则式2-3可转化为公式2-4:

HNB?argmaxP(Ci)?P(wk|Ci) (2-4)

i?Lk投票法又称为打分法,其核心思想是:将文档的特征与已有的类型特征相比,分别进行打分,分数最高的类型即为该文档的类型。投票算法常使用Bagging算法:训练R个分类器fi,i=1,2,…,R,分类器之间只是类型元素不同。其中fi是通过从训练集(N篇文档)中随机取(取后放回)N次文档构成的训练集合训练得到的。对于新文档D,用这R个分类器去打分,得到的分数最高的那个类别作为D的最终类别。

基于Bayes公式和投票法相结合的综合文本分类技术在扩展主题图融合过程中的具体应用步骤为:(1)输入的两个扩展主题图的XTM文件;(2)取出其各自的主题集(Topics);(3)主题集与七大课程的概念集比较打分(Score);(4)判断打分是否都为零;(5)如为零,则两个XTM文件都属于其他类;(6)否则计算各自打分最高者,得出其所属类别;(7)如类别不同则直接合并;否则两两相似度计算。单个XTM文件的分类流程如图2-6所示:

扩展主题图XTM文件主题(Topics)计算机系统结构score2计算机网络score1计算机组成原理score3JAVA数据结构score4语言score5操作系统score6平面几何score7Score(i)==0?(i=1,2,..,7)否是Max score(i)(i=1,2,..,7)特定类别其他类别 图 2-6 XTM文件分类流程图

2.4.2 主题融合与词语语义相似度

扩展主题图中Topic元素的主要属性有baseNameString、instanceOf、scope,课题组为了减小扩展主题图XTM文件的容量,保证显示的质量,仅保留baseNameString子元素。故判断两个主题(Topic)是否可以融合,仅需比较两个主题的基名(baseNameString)。主题的基名表现为一个个学科术语,如图2-7所示,学科术语映射到自然语言上是词汇或短语。主题间基名的

比较即词汇间的语义相似度计算,根据计算结果的大小判定其隶属两个主题是否融合。 词汇语义相似度度量在主题融合过程中的计算方法如下: a) b) c)

输入两个待融合的扩展主题图XTM文件XTMA和XTMB; 取出XTM文件的主题集Settopics(XTMA)和Settopics(XTMB);

对Settopics(XTMA)中主题topici(i?1,2,...,n)的基名与Settopics(XTMB)主题topicj(j?1,2,...,m)的基名两两进行语义相似度计算; d)

设定融合阈值Value(threshold),如计算结果Value??Value(threshold),则融

合为一个主题;否则直接合并两个主题; e)

输出融合处理后的扩展主题图文件XTMC。

图 2-7 XTM中主题(topic)的表示

主题融合后将主题的基名合并,指向同一个主题id,形成一个主题簇,如图2-8所示:

NewID001计算机网络NetWorks...NetWork网络 图 2-8 主题簇示意图

2.4.3 知识元融合与句子语义相似度

课题组对知识元KnowledgeElement元素的主要属性scope、baseNameString和occurrence进行精简,保留了基名(baseNameString)、资源(occurrence)两个子元素。在XTM文件中基名展现为短语,资源为一个句子或指向句子的超链接,基名来源于资源,如图2-9所示。判决两个知识元的融合,要综合比较基名和资源句子。基名间的计算使用词汇语义相似度度量技术,资源句子的互计算使用句子语义相似度度量技术。综合二者的计算结果,判定其隶属的知识元是否要融合。

图 2-9 XTM中知识元(knowledgeElement)的表示上面这个图可能会看不清

语义相似度度量技术在知识元融合过程中的使用方法如下:取出两个XTM文件的知识元列表,对知识元两两进行基名的词汇语义相似度计算和资源句子的句子相似度计算,根据计算结果,判决融合。具体的计算流程如图2-10所示:

Value(baseName)Value(Sentence)词汇语义相似度计算句子相似度计算综合值Value>=阈值YSet1(knowledgeElement)XTM12.5 本章小结

本章首先详述了主题图和扩展主题图,并对扩展主题图融合过程中产生的语义冲突进行定义、分类。然后针对语义冲突的解决技术语义相似度度量进行概述,同时将文本分类技术应用到扩展主题图融合中。最后,详细介绍了词汇语义相似度计算在主题融合中的应用和句子相似度计算在知识元融合中的使用。

Set1(baseName)Set2(baseName)Set1(Sentences)Set2(knowledgeElement)XTM2图 2-10 知识元融合过程中语义相似度计算流程

Set2(Sentences)融合处理后的XTM3N直接合并

3 基于本体和语料库的综合词语相似度算法

词语语义相似性度量是扩展主题图主题融合的判决依据,其计算结果的精度直接决定融合的质量,是保证全局扩展主题图一致性和质量的关键。本章首先介绍已有的词语语义相似度算法,并进行归类,分析其优缺点。然后介绍课题相关的简易语料库的构建过程并详述基于语料库的语义相似度计算算法。最后提出一种利用本体和语料库的综合词语相似度算法—HCSC算法,并进行详细论述。 3.1 词语语义相似度算法概述

自然语言的词语之间有着非常复杂的关系,在实际的应用中,有时需要把这种复杂的关系用一种简单的数量用“数量”描述好吗?还是用“数据”来度量,而语义相似度就是其中的一种。语义相似度计算在很多领域中都有广泛的应用,例如信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等等。

3.1.1 词语语义相似度概念

词语语义相似度是语义相似度中的一个关键部分,词语与词语之间的关系是非常复杂的,很难使用一个统一的概念标准来度量。由于人们的认知、语言的使用场景不同,词语间的关系表现也不同。因此词语相似度是一个主观性很强的概念,在一个语境里,两个词汇非常相似,但在另一个语境,两者可能差异很大。例如“病毒”在生物领域就表示一种单细胞生命体,而在计算机领域则代表存在威胁的程序代码。所以,我们谈论的词语语义相似度一般是应用到特定领域,这样词语相似度的含义就比较明确。例如,在自动回答系统中,相似度的计算主要体现在计算用户问句和预定义的领域文本content的相同程度上;在基于实例的机器翻译中,词汇相似度主要用于衡量文本中词汇的可相互替换操作的程度;在文本检测领域,词汇相似度是度量文本相似的基础,表示文本间词汇的语义相关等等。

词语相关性[8]是度量两个词语关系的另一个重要指标,词语的相关性和相似性是一对紧密联系的概念。词语的相关性是对两个词语共现频率的定性描述,在主观上指人们对词语之间联系的紧密程度的感受。词语的相关性一般使用统计大规模文本库中词语的共现频率的方法来得到。如果两个词语与其他词语的相关程度很大,那么这两个词语所代表的概念也会比较接近,其相似度也会比较高—即二者成正比例关系。

Dekang Lin[26]定义任何两个事物的相似度取决于它们的共性(Commonality)和个性(Differentces),然后从信息论的角度给出任何两个事物相似度的通用公式(3-1):

Sim(A,B)?logp(common(A,B)) (3-1)

logp(description(A,B)) 其中分子式描述A、B共性所需要的信息量的大小;分母是完整的描述出A、B所需要的信息量大小。

刘群这有上标吗定义两个词语的相似度是它们在不同的上下文中可以相互替换且不改变文本的句法语义结构的可能性大小[8]。这种描述是Dekang Lin定义的具体化,是基于实例的机器翻译的研究背景。

在本文中,我们用一个浮点数来表示两个词语语义相似度的大小。假设有两个词汇W1和

W2,其语义相似度用Sim(W1,W2)来表示,取值范围为[0,1]。一个词汇与它本身的语义关

系单一,其相似度值是1。如果两个词语是一对反义词,即二者存在着对义、反义的语义关系,相似度值我们定义为0。两个词汇的语义关系和它们的词汇相似度存在着紧密的联系,从数学角度看,是一个反比关系。语义关系数值越大,其相似度数值越小;反之,语义关系数值越小,其相似度数值越大。

3.1.2 词语语义相似度方法分类

现有的词语语义相似度计算方法一般可分为两类:

一类是基于某种世界知识(如语义词典、本体等)的计算方法,该方法利用世界知识中概念之间的上下位、同义和反义等关系,计算两个概念的语义距离从而得到概念间的语义相似度,接着用概念间的相似度来衡量两个词语间的语义相似度。基于世界知识的方法前提是两个词语并非相互独立而是具有一定的语义相关性,并且两个词语在语义词典的结构层次网络图中存在一条通路将二者联系到一起。如存在通路则可以计算二者的相似度值,如不存在则认为二者相似度为0。

另一类是根据大规模语料库统计的方法,该方法基于文本中可以观察的语言事实—语境,假设一个理论基础“两个词语在语义上相似当且仅当两个词语处于相似的上下文使用环境”,基于大规模语料库用词语的上下文信息来度量语义相似度。方法的本质是用词语的上下文信息的概率分布来度量词语间的语义相似度—信息墒(信息统计)的方法。

3.1.3 词语语义相似度算法研究现状分析

1)基于世界知识的词汇相似度计算算法

基于语义词典的词语相似度计算方法建立在大规模语义词典的基础之上,在汉语语义词典方面,具有代表性的有《知网》(HowNet)、《同义词词林》等;英文方面的语义词典有WordNet,FrameNet,MindNet等。

世界知识不是在线的词汇数据库,而是一个由词汇组成的语义网(如图3-1同义词词林语义分类树),组织方法是:将所有的词组织在一棵或几棵树状的层次结构网络中,层次结构网络图中任意两个词语之间存在且只存在一条路径。那么就可以用路径的长度来度量两个

概念间的相似度,从而得到词语的相似度。

OAa01010102...0102...01......01b01a...01...01...01...01...01B??????LI01......02...??

图 3-1 《同义词词林》语义分类树形图

在国内,王斌有上标吗采用节点间路径长度来衡量其语义距离的方法,利用《同义词词林》来计算汉语词语之间的相似度[27]。刘群[8]等人提出一种基于《知网》的词汇语义相似度计算方法。该方法使用“整体的相似度等于部分相似度加权平均”的度量技术,计算两个概念的语义表达式之间的相似度,对于两个义原的相似度,使用根据上下位关系得到语义距离进行转换。北京信息科技大学的江敏[28]等提出了一种改进的基于《知网》的词语语义相似度计算算法,在原算法基础上进一步考虑义原的深度信息,并充分发掘使用《知网》义原间的反义、对义关系等关系来计算词语的相似度,得出词语相似度和它们所在层次总和成正比关系,和它们的层次差成反比关系。该算法在计算对义,反义关系的词对时,效果较为理想。在国外美国的蒙大拿州立大学的Shen Wan 和Rafal A.Angryk[9]提出了基于WordNet(词网)的上下文向量的语义相似度计算算法,该算法将一个概念的认知感觉定义为直接语义关联与与其相关的间接语义关联的综合体,通过计算两个概念对应上下文的空间向量的余弦值得到相似度的值。美国卡耐基梅隆大学的Satanjeev Banerjee[10]等提出了扩展注释重叠语义相似度计算算法,该算法利用了概念间的多种关联关系,属性间的联系进行多次字符串间的匹配,在进行加权整合计算相似度值。

基于语义词典的词语相似度计算方法直观、简单有效且易于理解,但是语义词典的完备与否对其影响较大,受未登录词问题的影响,而且受人的主观影响也比较大,有时不能反映客观事实。

2)基于大规模语料库统计的词汇相似度计算算法

语料库是基于大规模语料库统计的词汇相似度计算方法的基础,在国内很多研究机构建立了一些汉语语料库,如北京大学计算语言学研究所,中国科学院软件研究所,中国科学院自动化所和《人民日报》光盘数据库等等。但这些语料库语料规模小,不能涵盖特定领域的语料资源,缺少专业领域的语料。在国外,具有代表性的有:1960年初,由London大学R.Quirk建成的LLC语料库;1970年初,英国Lancaster大学,挪威Oslo大学和Bergen大学共同建立了当代英国英语的LOB语料库;20世纪80年代,由英国Birmingham大学与collins出版社共同合作,建立了规模达2000万词次的COBUILD语料库。这些语料库语料资源较为丰富,且涵盖面很广,但其针对的是非中文语言,对中文词语的相似度计算理论意义胜过实际使用。 基于大规模语料库统计的词语相似度计算采用上下文语境的统计描述方法,该方法建立在

“词语的上下文可以为词语定义提供足够信息”的论断基础之上。在国外如Dagan[29]使用了复杂的概率模型来计算词语的相似度,Brown[30]的基于平均互信息的方法等等,这些方法建立在两个词汇具有某种程度的语义相似当且仅当它们出现在相同的上下文中这一假设的基础上。也就是说凡是语义相近的词,它们的上下文也应该相似。国内,鲁松[31]利用词语的相关性来计算词语相似度,关毅[32]等提出基于统计的汉语词汇间语义相似度计算,上海交通大学的章志凌[33]等基于Corpus(语义关联库)的词义相似度计算方法充分利用词语空间和关系空间,从而结构化存储了词语和其上下文之间的统计信息。

基于大规模语料库的词语相似度计算算法充分利用了词语在语境中的相互作用的关联关系,能够通过上下文信息得到比较精确的词语语义相似度。但该方法对训练所用的语料库依赖性较大,计算方法比较复杂并且计算量很大—时间复杂度较高,而且易受到数据稀疏和数据噪声的干扰。

3.2 基于语料库的语义相似度计算算法

语料库简单可以理解为语言材料的仓库,本质是指在随机采样的基础上收集的有代表性的真实语言材料的集合,是语言运用的样本。现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本。

语料库具备以下三个基本特征:1)语料库中存放的是在语言的实际使用中真实出现过的语言材料;2)语料库是以电子计算机为载体承载语言知识的基础资源;3)真实语料需要经过加工(分析和处理),才能成为有用的资源。

3.2.1 语料库的抽取、去噪、生成

1)建立特定领域的简易语料库

国内的语料库建立起步较晚,但通过国内学者的不断努力汉语语料库得到了不断发展和完善,语料库成为了研究中文信息处理的基本语言资源。目前的中文语料库还处在实验探索阶段,公开的语料库仅涵盖生活、法律领域,没有计算机领域的语料库。为了课题的需要,运算计算机领域的词汇语义相似度,故建立了一个简易的计算机领域语料库。 本文建立计算机领域简易语料库的流程如图3-2所示: (1) 短语集; (2) 基百科; (3) (4)

取谷歌搜索content的前100页的语料(snippets)片段,并取出其搜索结果Hits,对抽取的去除噪音数据,存档保存形成计算机学科特定的简易专用语料库。 将待计算的词语或短语,转化为标准的URL,通过HTTP协议访问谷歌和维从课题的标注库中取出标注的计算机领域几个学科的概念(术语),形成词语、

取维基百科对该词语或短语的解释片段(fragments);

词语集标注数据库GoogleSnippetsFragments去噪纯化计算机Corpus库短语集Wikipediaba

图 3-2 简易语料库生成流程图

2)语料纯化和中文分词

直接从网络上搜索的语料资源存在着很多的噪音数据,本文采用最大正向匹配和最大逆向匹配结合的分词方法来纯化数据。分词词典采用《知网》,同时引入自定义词集,从而保证待测试基准词不会被切分,例如“计算机网络”不会被分割为“计算机”和“网络”。在分词词典质量较高时,分词的准确率可以满足要求。这种分词方法的过程如下:

(1):预处理:在分词前先要对字符串进行预处理,将其中的数字和英文单词分开,只对中文词串进行切词;

(2):最大正向匹配法(MM):假设MaxLen为分词词典(知网与自定义词集的综合体)中最长的词条的汉字个数,MM法是从目标串STR最左侧选取MaxLen个字符的子串s1。将s1与词典中的词条进行匹配。若匹配成功,则得到一个切分词,然后从STR的MaxLen+1处再选取长为MaxLen的子串进行比较。若不成功,则选取长度为MaxLen-1的子串与词典进行匹配,直至选取的长度为1,此时直接算匹配成功;

(3):最大逆向匹配法(RMM):RMM法与MM法原理相同,只是方向不同。每次从目标串右侧依次选取子串与词典词条进行匹配;

(4):如果MM和RMM切分得到的词块个数相同则用RMM的切分结果,否则使用词块数少的切分结果。

RMM切分的结果较少出现歧义,如对于切分目标“化妆和服装”,MM的切分结果是“化妆\\ 和服 \\装”,RMM的切分结果是“化妆 \\和 \\服装”。因此将MM和RMM结合起来提高精度。

3.2.2 网络搜索双检验模型与基于语料库的语义相似度度量

搜索引擎虽然能提供实时的语料资源,但对每一个网页进行content分析是不现实的工作。因此语料库的生成过程选取了搜索结果页面的前100个snippets(content片段),如输入“路由器”,返回的snippets包括如下所示的一个语料片段(snippet)(图3-3):

图 3-3 一个语料片段示意图

为了获取更好的关于特定领域词汇、短语的语料资源,在此又选取维基百科作为语料资源的补充。

上述的语料资源是多个语料片段的综合体,不具备完整文本的特性,不能使用一些文本相似度方法来计算。本文中我们使用HsinHsi Chen[34]提出的网络搜索双检验计算模型分析计算语料片段。在此模型中,对象X和Y,当能在Y的语料片段中找到X并在X的语料片段中发现Y,则即假定X和Y存在着某种关联关系。

在模型中,对象X和Y的相似度值定义为下面几个公式:

0iff(Y@X)?0orf(X@Y)?0??VariantDice(X,Y)??f(Y@X)?f(X@Y) (3-2)

otherwise?f(X)?f(Y)?VariantCosine(X,Y)?min(f(Y@X),f(X@Y)) (3-3)

f(X)?f(Y)VariantJaccard(X,Y)?min(f(Y@X),f(X@Y)) (3-4)

f(X)?f(Y)?max(f(Y@X),f(X@Y))min?f(Y@X),f(X@Y)? (3-5)

min?f(X),f(Y)?VariantOverlap(X,Y)?0???CODC(X,Y)???f(Y@X)f(X@Y)?log???f(X)f(Y)????eiff(Y@X)?0orf(X@Y)?0 (3-6)

Otherwisef(Y@X)表示对象Y出现在对象X语料中的频率;f(X@Y)表示对象X出现在对象Y语

料中的频率;f(X)表示对象x在其自身语料中出现的频率;f(Y)表示对象y在其自身语料中出现的频率。在公式3-6中,如表明X和Y没有任何关系;如

f(Y@X)=0、f(X@Y)=0,CODC(X,Y)=0,此情况下

f(X@Y)=f(Y)、f(Y@X)=f(X), CODC(X,Y)=1,此情况下

表明X和Y有着强烈的关联关系。

3.2.3 基于页空间数和语料片段的语义相似度计算

1)

页空间数与语义相似性度量

利用已有的商业搜索引擎如:Google、Baidu、Yahoo等,输入待检索的词语或短

语,其能返回命中页数(Hits)。对以“P AND Q”条件输入搜索的页空间数可以认为是P和Q在网络上共现的近似值,输入单个的P和Q同时返回其网络命中页数。利用这些页空间数能反映两个词语或短语在网络上统计信息的相似值[35]。

在此实现了四种有效的页空间共现计算方法,为后续的算法提供参数:

0ifH(P?Q)?C??WebJaccard(P,Q)?? (3-7) H(P?Q)Otherwise?H(P)?H(Q)?H(P?Q)?0??WebDice(P,Q)??2H(P?Q)?H(P)?H(Q)?fH(P?Q)?COtherwise (3-8)

0ifH(P?Q)?C??WebOverlap(P,Q)??2H(P?Q) (3-9)

Otherwise?min(H(P),H(Q))?0ifH(P?Q)?C??H(P?Q)? (3-10) WebPMI(P,Q)??NOtherwise?log2(H(P)H(Q))?NN?上述公式中,H(P?Q)表示P和Q在搜索引擎中命中的页数,H(P)表示P命中的页数,

H(Q)表示Q命中的页数,C=5,N=1011。

2)

基于页空间数和语料片段的相似度计算

仅仅利用页空间数来计算两个词语在网络的共现相似度,存在着一些缺点:页空

间数忽略了该词语在页面内的位置信息,即使两个词语共现在一个页面内,它们也不一定存在着关联;多含义词语的页空间数包括了该词语的所有意思的页数,就会出现很多的噪音数据。而简单的分析语料片段中词语出现的频率,不能充分利用语料片段内的语用、语境信息。整合后的多个语料片段又不具备一个完整文本的特征,没办法利用已有的文本相似度算法。在本文中,我们从语料片段抽取固有的词语模式,再和页空间数结合,形成一个特征向量,在二者加权综合计算,来度量词语间的相似度。计算公式如3-11所示:

Simcopus(X,Y)??1?WebPMI(X,Y)??2?CODC(X,Y) (3-11)

算法的描述如下: GetFeatureVector(A;B)

comment: Given a word-pair A;B get its feature vector F.

D ← GetSnippets(“A B\N ← null

for each snippetd 2 D

do N ←N + GetNgrams(d; A;B) SelPats ← SelectPatterns(N; GoodPats) PF ← Normalize(SelPats)

F ← [PF;WebJaccard;WebOverlap;WebDice;WebPMI] return (F)

3.3 一种利用本体和语料库的综合词语相似度算法—HCSC算法

语义词典蕴含着词语丰富的语义信息,但其完备性不足。语料库含有词语间大量的上下文信息,但存在着一定噪音数据,计算量大。本文提出一种参数自适应调节的基于本体(知网)和语料库的综合词语相似度计算算法(HCSC—Similarity Calculation based on HOWNET and Corpus),充分利用了已有本体库(知网)中词语义原间的语义信息和语料库中词语间的语用、语境信息,解决了《知网》中的未登录词问题,提高了相似度计算结果的精度和准确性,同时辅以规则和同义词词林计算,准确度和精确度更好。

3.3.1 基于规则和同义词词林的语义相似度计算

1)

基于规则的词语语义相似度计算

在本课题中,需要处理的是计算机领域的教育资源,计算机学科的术语有着其特

殊的性质--很多的计算机教材来自于国外,很多的标准是使用英语制定的。在扩展主题图的概念元素中会出现很多专业术语的英文简写,和一些概念的英文表述,如“计算机网络”和“Networks”、“局域网”和“LAN”等。为了度量这种类型的概念对(词语对),本文提出一种基于简易规则的词语语义相似性计算方法。

简易规则库是由一条条规则组成的,本文使用的规则形式化描述为:

True?p?(q?...?s)。此规则库是开放的,即可扩充性的添加规则的条目。建立的简易

规则库涵盖了计算机领域五大学科的常见的中英文对照术语,简写短语等,示例如图3-4所示:

图 3-4简易规则示意图

基于规则的词语相似度计算原理如图3-5所示,规则匹配器将数据集合按照规则匹配算法和规则进行匹配,执行引擎是规则匹配算法的具体实现。

True匹配成功?False词语1规则匹配器规则库词语2执行引擎1执行引擎n?

图 3-5规则使用原理图

基于规则的词汇相似度计算公式定义如下(公式3-11):

?0ifequal(A,B)?0andequal(B,A)?0 (3-12) SimRule(A,B)??1.0ifequal(A,B)?1orequal(B,A)?1?式中equal(A,B)?0表示在规则库中找不到A=B,equal(A,B)?1表示规则库中存在着A=B。 2)

同义词词林与词语语义相似度计算

《同义词词林》是梅家驹先生等人于1983年编纂而成,初衷是希望提供较多的同 义词语,对创作和翻译工作有所帮助。这本词典中不仅包括了一个词语的同义词,也包含了一定数量的同类词,即广义的相关词,收录词条近7万。同义词词林扩展版[36]是哈工大信息检索研究室在《同义词词林》的基础上,参照多部电子词典资源,按照人民日报语料库中词语的出现频度,只保留频度不低于3(小规模语料的统计结果)部分词语。词林按照树状层次结构(如图3-6词条示意图)把所有收录的词条组织到一起,把词汇分成大、中、小3类,大类有12个,中类有97个,小类有1 428个,小类下再划分词群。每个词群中的词语又进一步分成了若干个行,同一行的词语要么词义相同(有的词义十分接近),要么词义有很强的相关性。

图 3-6 同义词词条编录示意图

基于《同义词词林》的词汇语义相似度计算过程为:(1)输入词语A,B;(2)查询词林中A的条目中是否含有B的编号,如有,则为同义词;(3)否则查询词林中B的条目中是否有A的编号,如有则为同义词;(4)如A,B为同义词,则输出其相似度值?(??0.95),否则输出0。

基于《同义词词林》的词汇相似度计算公式定义如下(公式3-12):

?0iffind(A,B)?0andfind(B,A)?0 (3-13) SimThesaurus(A,B)??0.95iffind(A,B)?1orfind(B,A)?1?式中

find(A,B)?0表示在词林A的条目中找不到B的编号,find(A,B)?1表示词林A

的条目中含有B的编号。

3.3.2 一种改进的基于HowNet(知网)的语义相似度计算

1)

传统的基于《知网》的词语语义相似度计算

《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概

念之间以及概念所具有的属性之间的关系基本content的常识知识库。知网中一个词语可以表达为几个概念,而概念则用义原来描述,一个概念可以对应多个义原(图3-7)。刘群[8]等提出的《基于<知网>词汇语义相似度计算》最具代表性:假设W……,1有n个义原C11,C12,

C1n,W2有m个义原C21,C22,……,C2m,刘群定义两个词语W1和W2的语义相似

度是所有义原间相似度值的最大值,如公式3-12所示:

Sim(W1,W2)?i?1...n,j?1...mmaxSim(C1i,C2j) (3-14)

如图3-7所示,义原都处在一个树形结构中,因此将义原在树中的语义距离转化为它们的语义相似度。假设义原P2在树中的距离为dist。则根据公式(3-13)可以得到两个义原的相1和P似度。

Sim(P1,P2)?虚拟根节点?dist?? (3-15)

式中:?--可调节参数。

实体万物物质Dist1=3动物兽鱼生物Dist3=4植物Dist2=2水果

图 3-7知网义原树的一个子片段 2)引入相关性的词语相似度计算

词语相关性与词语相似性两个概念有着密切的关联关系:如果两个词语非常相似,那么这两个词语与其他词语的相关性也非常接近;反之,如果两个词语与其他词语的相关性特点很接近,那么这两个词语一般相似程度也很高。这里考虑将词语的相关性引入到相似度计算中[37],在知网的语义资源中考虑提取词语的相关词汇集合。设计算法步骤如下:

(1)对任意一个词语A的概念表达式DEFA,将其分解成义原的集合SememeA; (2)抽取SememeA中的一个义原Sememei,如果Sememei存在于另一个词语B的DEFB的描述式中,将该词语引入到词语A相关词汇集合中;

(3)在SememeA 的义原抽取过程中,如果发现有重复的词语,将其并入到词语A 的相关词语集合中。

通过提取词语概念义原形成该词语的相关词汇集合,举例说明:对于词语“女人”,它的概念描述式DEF 是“{ human | 人: modifier = {fale |女} ) ”,这里将其分解为“human |人”和“ modifier:{fale |女} ”,对于这两个义原用上述方法形成相关词汇集合{两口子、老俩口、老少配、恩爱夫妻、世家、家室、当家的、太太、爷们}。任意词语对的计算公式如(3-14)所示: 3)

Simrel(W1,W2)?Simrel(Di,Dj)??2Di?DjDi?Dj?2C (3-16) A?B一种改进的基于HowNet(知网)的语义相似度计算方法

传统的基于《知网》的语义相似度计算算法充分利用了《知网》中义原的上下位关系,义原

的相似性计算主要依赖义原的层次体系(树状结构)来计算,相关的算法都是利用义原层次体系计算义原的语义距离。通过对已有算法的分析,本文认为在义原的相似度计算中对于层次信息的考虑应该更加充分和详细。

对于义原相似度的计算公式的确定,本文总结出三个基本原则:

(1)两义原最近公共父节点在树中的深度值Depth越大,则相似度值SEMp越大; (2)两义原间的距离值Dist越大,则相似度值SEMp越小;

(3)义原的相似度遵从相似度计算的基本思想,两事物的相似性是共性和整体(共性+个性)的比值。

基于这三个基本原则计算公式(3-15)为:

SEMp(p1,p2)???Depth (3-17)

??Depth?DistHowNet中除了常用义原外,还有反义义原(如:好对坏,大对小)、对义义原(如:讲道理对不讲道理)。在计算义原相似度时,两义原有可能不属于同一个分类。为了更好的利用这些语义关系,所以本文对于义原的相似度计算补充定义如下: (1)如果两义原不属于同一类,即Depth=1,则SEMp(2)如果两义原是反义义原或对义义原,则SEMp?SEMp?0.1;

?SEMp?0.2。

改进的基于《知网》的语义相似度算法,算出的语义关联度Simrel 和利用反义、对义关系的《知网》相似度算法进行加权计算(公式3-16):

Similarity(W1,W2)??1*SEMp(p1,p2)??2*Simrel(Di,Dj) (3-18)

其中?1,?2是可调节的系数,且?1+?2=1。

3.3.3 HCSC算法设计思想

《知网》是国内一部比较详尽的语义知识词典,但由于汉语词语结构本身的特点,以及由于主题图融合应用中出现的多为特定领域的专业词语或短语,单纯的运用基于《知网》的算法无法解决未登录词的问题。引入基于语料库的词语相似度计算算法,很有效地解决了该问题。HCSC算法的设计思想是将本体与语料库结合起来,同时辅以自定义规则和同义词计算,形成一个参数自适应调节的基于本体(知网)和语料库的综合词语相似度计算算法,充分利用了已有本体库(知网)中词语义原间的语义信息和语料库中词语间的语用、语境信息,解决了《知网》中的未登录词问题,提高了相似度计算结果的精度和准确性。 HCSC算法的基本思想:

(1) 先采用字符串匹配的语法相似度计算对数据进行第一遍处理。这样可以减少一

定的运算量,同时保证执行的时间效率。 (2)

对词语对进行3.3.1的规则和同义词词林的语义相似性度量,如符合则直接返

回一个特定的相似度值。 (3)

对上述处理后的词语对进行3.3.2的改进的基于HowNet(知网)的语义相似度计

算,同时辅以权重参数?1,同时根据计算结果判断其是否为登陆词。 (4) (5)

对词语对进行3.2的基于语料库的语义相似度计算,辅以权重参数?2。 根据(3)中是否为登陆词自动调节权重参数?1和?2。

3.3.4 HCSC算法设计框架

扩展主题图融合中HCSC算法主要包括三大模块:数据预处理、分词切词和相似性计算,HCSC算法框架图如3-8所示。

数据预处理:扩展主题图文件以XML格式显示,数据预处理部分首先将待融合的XML文件解析并转换为对象形式存储在内存中。共有n个元素对,如全部参与相似度计算,会耗费大量的时间降低算法的实用性。因此使用归类算法对这些元素对进行过滤,挑出具有合并可能性的元素对,构成待比较元素对集合。

分词切词:采用3.2.1所述的最大正向匹配和最大逆向匹配结合的分词方法对词语、短语对进行分词处理。

相似性计算:HCSC算法,其主要包括字符匹配的语法相似度计算,基于规则的计算,基于同义词词林的计算,基于改进《知网》的语义相似度计算和基于语料库的语义相似度计算。

2扩展主题图融合相似元素对相似度计算相似度值知网切词分词语法计算规则计算词林计算改进知网计算语料库计算语料库HCSC相似度计算算法归类待比较元素对局部主题图1XTM解释器局部主题图2元素对 数据预处理

图 3-8 HCSC算法框架图

3.3.5 HCSC算法详述

基于本体和语料库的综合相似度计算算法—HCSC算法,有效的利用《知网》概念义原间的语义信息和语料库中词语间的语用、语境信息,同时能根据各自的计算结果,自动调节其自身的加权值。算法的处理流程如图3-9所示,其详细的描述如下: 算法:基于本体和语料库的综合词语语义相似度计算算法—HCSC算法 输入

W1,W2,W1?W,W2?W,W为一词语集或短语集

输出 SEM(W1,W2)?[0,1] 词语W1和W2的相似度值

步骤1:对W1,W2使用最大正向匹配和最大逆向匹配相结合的分词方法,{W11,

W12,?W1i}?W1,{W21,W22,?W2i}?W2,i=0时即自身不可分 i?N;

步骤2:对W如完全匹配则保存其相似度值1.0,1i和W2i进行字符串匹配的语法相似度计算,否则计算步骤3;

步骤3:进行基于规则的语义相似度计算,即带入公式3-12,当计算结果为1.0时,则保存其计算结果为两个词的语义相似度值,否则计算步骤4;

步骤4:进行基于同义词词林的相似度计算,即带入公式3-13,当计算结果为0.95时,则保存其该计算结果为两个词的语义相似度值,否则计算步骤5;

步骤5:进行改进的基于《知网》的相似度计算,即将W1i,W2i带入公式3-18;

步骤6:选择加权参数?1?[0,1];

步骤7:将W1i,W2i进行基于语料库的相似度计算,即公式3-11; 步骤8:选择加权参数?2?[0,1];

步骤9:将公式3-18、3-11和加权参数综合得:

SEM(W1,W2)??(?1?Similarity(W1i,W2i)??2?Simcopus(W1i,W2i))

i?1公式的详解如3-19所示:

SEM(W1,W2)?N?(?1?(?1*SEMp(W1i,W2i)??2*Simrel(W1i,W2i))??2?(?1?WebPMI(W1i,W2i)??2?CODC(W1i,W2i)))i?1N (3-19)

步骤10:如公式3-18计算结果?=0,则自动调节公式3-19的?1=0,?2=1,如?>?(此处取?=0.9,

??[0,1]),则自动调节公式3-19的?1=1,?2=0;否则计算11;

步骤11:如公式3-11计算结果?

步骤12:设定公式3-19中的参数值,保证?1+?2=1,得出计算结果SEM(W1,W2),算法结束。

N语法相似度计算词语对或短语对Y与阈值h比较基于规则的相似度计算基于同义词词林的相似度计算Y规则中?词林中?登陆词?Y改进的基于《知网》的相似度计算算法基于语料库的相似度计算算法提供参数因子1提供参数因子2调整参数Y综合计算保存相似度值

图 3-9 HCSC算法流程图

3.3.6 算法中参数权重的确定

1)确定权重的方法

在公式3-19中有?1,?2,?1,?2,?1,?2六个权重参数,确定它们的值是一个关键问题。权重是一个相对的概念,是针对某一指标而言,是表示在评价过程中,是被评价对象的不同侧面的重要程度的定量分配。某一指标的权重是指该指标在整体评价中的相对重要程度。确定权重的方法总体来说主要有以下几类: (1)

专家评估法:通过访问有经验的专家、学者,以他们在实践中的经验分析

哪项指标项重要、哪项指标项不太重要,从而确定这些指标项的权重系数的大小; (2)

数据统计法:事先设计好一些问卷问题,将各项指标项列出来,以最重要、

重要、次重要的等级让调查对象考擦,根据收回的权重分配结果进行统计计算,以计算出来的排序指数的大小来确定权重系数的大小; (3)

模糊协调决策法:一种求权重分配的近似方法,它将一个事物的评价看成

由多种因素组成的模糊集合,再设定这些因素所能选取的评审等级,分别求出各单一因素对各个评审等级的归属程度,然后通过模糊矩阵合成,得出各指标的定量值。 上述方法通常是根据经验所得,在一定程度上能反映实际情况,评判结果较符合

人的认知。但是凭经验给出权重往往带有主观性,有时会出现何时进相偏差,即评判结果可能“失真”。权重的确定本质上是一种优化过程,也就是找到一组权重(权重参数的具体值)使得我们计算得到的决策贴近度尽可能高。落实到HCSC算法上是寻找一组适当的参数值使公式3-19的计算结果精确性更好,更贴合人们的认知。 2)

遗传算法与参数权重的确定

遗传算法(Genetic Algorithms,GA)是一种概率性搜索算法,也是一种自适应的迭代寻优过程。该算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。它从某一随机产生的或是特定的初始群体出发,按照一定的操作规则,如选择、交叉、变异等,不断地选代计算,并根据每一个个体的适应度值,保留优良品种,淘汰次品,引导搜索过程向最优逼近[38]。 遗传算法与传统的优化算法相比,有以下特点: (1)

遗传算法以决策变量的编码作为运算对象:传统的优化算法往往直接使用

决策变量的实际值本身来进行优化计算,但遗传算法以决策变量的某种形式的编码为运算对象。模拟生物界中生物的遗传和进化机理,方便地应用遗传操作算子; (2)

遗传算法直接以目标函数数值作为搜索信息:传统的优化算法不仅需要利

用目标函数值,而且需要目标函数的导数值,而遗传算法仅使用由目标函数值变换来的适应度函数值,确定进一步的搜索方向和搜索范围。直接利用目标函数值或个体适应度,可以提高搜索效率; (3) (4)

遗传算法从问题解的编码组开始而非从单个解开始搜索,具有并行性; 遗传算法利用选择、交叉、变异等算子不是用确定性规则进行随机操作。

基于上述优点,本文选择了遗传算法来求解权重,遗传算法确定权重的过程如下: (1)

编码与初始权重群体的生成

各类信息的权重的取值范围是

?0,1?中的小数,并且所有的数值之和为1。因此选择

?0,999?。在计算适应度时要用

?0,1?区间中,且要保证和为1,对个体Ui中权重作Wij自然数编码,每个权重的编码用3位数来表示,取值范围为到权重,所以需要将这些整数映射到如下变换:

Wij' Wij? (3-20)

nWiji?1?其中i=1,2,…,n;Wij为个体Ui中第j个权重的编码。 (2)

适度函数的定义

一种权重分配的好坏取决于由这组权重计算出来的综合决策与已知的综合决策的 贴近度。贴近度越大说明这组权重越好,我们的目标就是要找到一种最佳的权重分配。 对应到我们的具体的使用场景是计算的结果和认知的贴近程度,越符合越合理。设一个体

ai,它所对应的权重分配是ui1,ui2,… uin,由ai得出的综合决策为b',b代表已知的

综合决策,而ai的适应度定义为:

f(ai)?i?1mi?1?(b'(k)?b(k)) (3-21)

m?(b'(k)?b(k))'' ?、?分别为取小、取大操作,b(k)代表b的第k个分量,b(k)代表b的第k个分量。

(3)

遗传算子的选择

选择算子,交叉算子和变异算子的选择,作用在适度函数上,能快速的计算出遗

传算法的运行参数。遗传算法确定参数权重的过程分为两个阶段:从当前权重向量群体出发,通过选择生成中间权重向量群体;第二阶段是在中间权重向量群体上进行重组与变异,从而形成下一代新的权重向量群体。遗传算法的详细描述如下,流程图如3-10所示: Procedure SGA begin initialize P(0); t=0;

while(t<=T) do for i=1 to M do

Evaluate fintness of P(t); Select operation to P(t);

Mutation operation to P(t); end for

for i=1 to M/2 do

Crossover operation to P(t); end for for i=1 to M do P(t+1)=P(t); end for t= t +1; end while end

随机初始化权重向量令g=0计算权重向量的适应度值是否满足选中标准NY产生结果i=0g=g+1Yi=NN概率选取遗传操作根据适应度值选取一个权重向量繁殖根据适应度值选取两个权重向量交叉:i=i+1根据适应度值选取一个权重向量变异把新子节点加入群体中把两个新子节点加入群体中把变异后的个体加入群体中i=i+1

图 3-10 利用GA调整权重向量的算法流程图这个图有点小

利用遗传算法得出公式3-19中个权重参数的值为:?1=0.81,?2=0.19,?1=0.8,?2=0.2,

?1=0.89,?2=0.11。

3.4 本章小结

本章针对扩展主题图融合过程中的主题融合判决,详细描述了词汇的语义相似性度量技术。首先对已有的词语相似性计算方法进行研究,归类并分析出其优缺点。然后综合各种计算算法的优点,提出基于本体和语料库的综合词语相似度算法—HCSC算法,该算法以语义词典和语料库为基础,并辅以规则和同义词词林计算。HCSC算法分为:语法相似度计算(预处理)、基于规则的计算、基于同义词词林的计算、改进的基于《知网》的计算和基于语料库的相似性计算五大部分,各个部分相互联系,依次递进,按逐层深入的思想设计实现。预处理能在一定程度上减少算法的计算量;基于规则相似性度量为了处理特定的中英文对照的词语对,同义词词林能判决存在着统一关系的词语组,二则都能减少算法的运算量;基于本体和语料库的相似度计算,充分利用了《知网》中的语义信息和语料库中词语间的语用、语境信息,有效的解决了基于词典算法中的未登录词问题。将词语对放入真实,实时的语料中考察其信息依赖关系,利用统计学知识计算其信息墒,同时算法的加权参数自适应调节。HCSC算法提高了相似度计算结果的精度和准确性,计算结果更符合人的认知。

4 基于全信息理论的句子相似度算法

课题中扩展主题图的知识元来源于句子,在融合过程中,知识元间的融合判决需考虑其各自对应的句子资源。综合度量知识元的基名和资源出处能提高融合的质量,保证融合后全局主题图的一致性。本章首先研究分析已有的句子相似度计算方法,总结其各自的优缺点。然后研究句子计算模型,和全信息理论,并将二者结合起来,提出基于全信息理论的句子相似度计算算法,并加以详细论述。 4.1 句子相似度概念

句子相似度同词语语义相似度概念一样是一个主观性较强的概念,脱离具体的应用背景谈论句子相似度,很难得到一个标准的形式化定义。在实际应用中常常根据应用领域的具体特点,对句子相似度的概念重新解释。句子相似度计算是自然语言处理领域中非常重要的基本问题,在自然语言处理领域的很多方面都有着广泛的应用:例如,在自动问答系统中,对于相似问句的检索以及问句与答案的匹配;在机器翻译中利用句子相似原理进行源语言检索、相互翻译;在信息过滤技术中利用句子模糊匹配来过滤、屏蔽敏感信息;在多文档文摘系统中,利用相似度可以反映局部主题信息的拟合程度等等。句子相似度很难有一个统一的形式化定义,Dekang Lin[26]信息论的角度给出了句子相似度的一个统一的、与应用领域无关的非形

式化定义。他认为,句子A与句子B之间的相似度一方面与它们的共性相关,共性越多,相似度越高;另一方面相似度也与它们的区别相关,区别越大,相似度越低;当A和B完全不同时相似度为0,当A和B完全相同时相似度达到最大值,即数值为1。这种定义形式符合人们的认知,同时充分利用了信息论原理,较有借鉴价值。

中文句子相似度计算有着其独特的难点和特点[39]:1)汉语是大字符集的语言,共有44908个汉字;2)缺少形态变化、属于表意型语言;3)基本语法单位的确定困难,汉语可以分为六级语法单位:语素、词语、组块、短语、句子和句群。在一个句子里,语素、词、组块和短语都是语法单位;4)句子的相似与否不仅与其结构有关,更与语义、语境密切联系;5)词法分析、尤其是句法分析的准确率较低,词法分析、句法分析是自然语言处理的一项基础工作,它的准确与否直接影响着句子相似度的计算。正是由于上面的特点,决定了度量中文句子相似性的复杂性和难点。

本文讨论的句子相似度主要指句子的语义层面的相似性,句子的语义是受句子结构等语法信息影响的。在本文研究知识元对应资源句子的度量中,句子相似度指句子在语义上的匹配符合程度,我们在定量计算中选定句子相似度的取值区间为[0,1],数值越大代表句子越相似,1代表两个句子完全相同,0代表两个句子完全不同。假设Sim表示相似性计算,S1表示句子1,S2表示句子2,则句子相似度的公式如下:

Sim(S1,S2)?? ??[0,1] (4-1)

本文来源:https://www.bwwdw.com/article/mqj6.html

Top