于丽丽先秦汉语词义消歧研究

更新时间:2024-06-22 01:45:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

索取号: H131/3.111 密级: 公开

硕 士 学 位 论 文

先秦汉语词义消歧研究

研究生: 指导教师: 培养单位: 一级学科: 二级学科: 完成时间: 答辩时间:

于丽丽 陈小荷 教授

文学院 中国语言文学 语言学及应用语言学 2009年11月30日 2010年5月9日

学位论文独创性声明

本人郑重声明:

1、坚持以“求实、创新”的科学精神从事研究工作。

2、本论文是我个人在导师指导下进行的研究工作和取得的研究成果。 3、本论文中除引文外,所有实验、数据和有关材料均是真实的。 4、本论文中除引文和致谢的内容外,不包含其他人或其它机构已经发表或撰写过的研究成果。

5、其他同志对本研究所做的贡献均已在论文中作了声明并表示了谢意。

研究生签名: 日 期:

学位论文使用授权声明

本人完全了解南京师范大学有关保留、使用学位论文的规定,学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版;有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅;有权将学位论文的内容编入有关数据库进行检索;有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。

研究生签名: 日 期:

摘要

摘 要

词义消歧一直是自然语言处理中的热点和难点问题,有着重要的理论和实践意义,诸多学者已在现代汉语方面展开了一定研究,而在古代汉语领域,相关研究却很少有人涉足,我们所做的工作就是在古代汉语的词义消歧方面进行一些探索。

本文调研了现代汉语领域的词义消歧研究现状,分析了目前词义消歧所采用的相关技术,考察了古代汉语和现代汉语词义消歧方面的异同,在古代汉语词义特点的基础上,确定出面向古代汉语信息处理的词语义项区分应该遵循的原则和方法。然后在现有的词义消歧理论和技术的基础上,采用机器学习的方法,选择合适的特征,使用广泛应用于信息处理的高效率的CRF分类模型,将统计模型和语言学知识有机结合起来,对“如”、“將”、“我”、“信”、“聞”、“之”、“能”等古代汉语高频、典型词进行了单分类器的词义消歧实验,效果达到86.45%。最后基于NaiveBayes、KNN、RFR_SUM、CRF、Maxent模型进行了古代汉语词义消歧实验,根据单分类器消歧性能,运用乘法法则、均值法则、最大值法则、投票法则等集成法则进行了分类器集成消歧实验。实验表明按照乘法法则得到的集成结果F值最高,达87.17%;各个词的具体实验F值分别为86.59%、87.33%、88.07%、65.31%、92.93%、84.02%、94.33%,分别比其Baseline提高了35.75%,13.7%,46.02%,16.33%,2.02%,48.97%,4.26%,效果显著,可见分类器的集成对古代汉语词义消歧效果良好。

此外,本文在基于单分类器词义消歧结果集成基础上,开发了一个人机交互式半自动词义标校平台,提高了人工标注的效率,减轻了词义标注的负担,保证了标注的一致性。

关键词:中文信息处理,古代汉语,词义消歧,多分类器集成,特征选择

I

Abstract

Abstract

Word sense disambiguation has long been a central concern for natural language processing,which has the important theoretical and practical significance, so in the field of modern Chinese many scholars have carried out much research,however in the field of ancient Chinese, related research rarely involved.And we do some research about the ancient Chinese word sense disambiguation .

This paper firstly analyzes the ancient Chinese word sense and characteristic, inspects the difficulty of the ancient Chinese word sense disambiguation (WSD), and definites the principles and methods that should be followed by sense discrimination for Chinese language processing. Then basing on the existing theory and methods, we make use of methods of machine learning, choose the appropriate characteristic, use the high efficiency CRF model, which was widely used in the information processing, and we combine statistical model and linguistic knowledge, then we test 7 Chinese high frequency and typical words like “如”、“將”、“我”、“信”、“聞”、“之”、“能” etc., which the best average F-score achieved 86.45%. At last, we make use of the high efficiency NaiveBayes, RFR_SUM model, the Condition Random Field as well as the Maximum Entropy model etc, using 4 combining strategies of ensembles of classifiers and study the application of product, average, max, majority voting in the ancient Chinese WSD. Experiments show that according to the principle of product, we achieved the best F-score of 87.17%. And the F-score of the 7 words reached 86.59%、87.33%、88.07%、65.31%、92.93%、84.02%、94.33% respectively. And they are 35.75%, 13.7%, 46.02%, 16.33%, 2.02%,48.97%, 4.26% higher than baseline respectively, which indicates the method of ensembles of classifiers is effective to the ancient Chinese word sense disambiguation.

In addition, basing on the WSD ensemble experiment, a human-computer interaction platform which includes both tagging and correction was established. This platform can accelerate tagging speed, reduce the burden and complexity, and ensure the consistency of tagging.

Key words: Chinese information processing, the ancient Chinese, word sense disambiguation, ensemble of classifiers, feature selection

II

目录

目录

摘 要.............................................................. I Abstract........................................................... II 第1章 绪论......................................................... 1

1.1 课题的提出 .................................................. 1 1.2 面向计算机处理的词义研究 .................................... 2

1.2.1 词义消歧方法研究现状................................... 2 1.2.2 现有词义消歧的难点..................................... 3 1.2.3 现有词义消歧的语言学资源............................... 3 1.3 本文的研究内容 .............................................. 4 1.4 本文的结构 .................................................. 5 第2章 古代汉语词义义项分析......................................... 7

2.1语料的建设................................................... 7

2.1.1 研究对象............................................... 8 2.1.2分词、词性标注 ......................................... 9 2.1.3《春秋左传》高频词汇基本信息的统计...................... 9 2.2古代汉语词义特点与消歧难点.................................. 10 2.3义项区分的颗粒度............................................ 12

2.3.1义项划分的难点 ........................................ 12 2.3.2义项划分的操作原则 .................................... 13 2.3.3具体义项划分实例 ...................................... 14 2.3.4正确对待手工标注结果 .................................. 16 2.4特殊意义的处理.............................................. 17

2.4.1假借字与假借义 ........................................ 17 2.4.2古今字与古今义 ........................................ 17 2.5 消歧方法的探索 ............................................. 17 2.6 本章小结 ................................................... 18 第3章 基于CRF模型的消歧实验...................................... 19

3.1模型概述.................................................... 19 3.2特征的选择提取与特征模板的构造.............................. 20

3.2.1特征的选择提取 ........................................ 20 3.2.2特征模板的构造 ........................................ 22 3.3 实验数据 ................................................... 22 3.4 评测指标 ................................................... 23 3.5 条件随机场实验 ............................................. 23

3.5.1封闭测试时特征模板实验 ................................ 23 3.5.2开放测试时特征模板实验 ................................ 26 3.5.3窗口对实验的影响 ...................................... 28 3.5.4实验分析 .............................................. 29 3.6 本章小结 ................................................... 30 第4章 基于单分类器集成的消歧实验.................................. 31

1

目录

4.1集成学习简介................................................ 31 4.2参与集成的分类器的选择原则.................................. 33 4.3选择的单分类器及其介绍...................................... 33

4.3.1朴素贝叶斯(NaiveBayes)分类器 .......................... 33 4.3.2 K近邻(KNN)分类模型 ................................... 34 4.3.3相对词频比(RFR_SUM)分类模型 ........................... 34 4.3.4最大熵(MaxEnt)模型 .................................... 35 4.4 集成法则研究 ............................................... 36 4.5 实验及分析 ................................................. 38

4.5.1单分类器实验结果分析 .................................. 38 4.5.2集成实验及分析 ........................................ 44 4.6实验总结.................................................... 50 4.7本章小结.................................................... 51 第5章 人机交互词义标校平台........................................ 52

5.1标注平台的设计.............................................. 53

5.1.1 标注方法的探索........................................ 53 5.1.2 结构框架.............................................. 53 5.2 标注过程中的质量控制 ....................................... 55 5.3 本章小结 ................................................... 58 第6章 总结与展望.................................................. 59

6.1全文总结.................................................... 59 6.2未来工作.................................................... 59 参考文献........................................................... 61 附录一:《春秋左传》高频词汇基本信息的统计.......................... 64 附录二:实验标注样例............................................... 68 在读期间发表的学术论文及研究成果................................... 71 致谢............................................................... 72

2

第1章 绪论

第1章 绪论

1.1 课题的提出

词义研究有着悠久的历史,可以粗略地分为语文学时期、传统语义学时期和现代语义学时期。早在汉代时,随着儒家经典的各种注书、辞书的大量涌现,进而逐渐形成了一门以研究词义为出发点和落脚点的具有实用意义的学问。这就是传统的训诂学。两千多年的传统训诂学对上古汉语词义解释、词源考证、同义词辨析等方面进行了深入的分析,取得了丰硕的成果,逐渐成为语言学的一个分支——词汇学的重要内容。

在现代语义学时期,汉语词义系统和汉语语义学模式的建立一直是语言学界和信息处理界研究和关注的热点。在信息处理迅猛发展的今天,训诂学的发展应当从训释一词一语的狭小天地中走出来,改变传统以手工为主的研究方式。要在研究方法上要有新突破,这都有待计算机的参与,以在浩渺的原始文献中,实现快速的检索和校对、考证研究、文白自动翻译等工作。这是语言研究与计算机科学的结合在信息时代的一个突出要求。中文信息处理技术的先进性必能为传统学科的研究提供更为科学的手段,推动训诂研究的现代化。

古籍的词汇考释等整理工作历来是靠人力手工,80年代以来,把计算机引入古汉字考释领域,利用计算机技术进行古籍整理工作等受到越来越多研究者的重视,已经研制出一些古籍整理计算机系统,如四川大学的“中文索引编制”、陕西师大的“十三经词语索引”、台湾东吴大学的“诸子集成系统”等,这些系统普遍具有阅读、检索、统计、排序、打印等功能[1]。目前古籍数字化的工作还刚刚起步,特别是先秦汉语的信息处理大体还处于字处理阶段,以解决古文字的输入输出、文献逐字索引等问题为主要研究内容[2]。文本词汇级别上的古代汉语信息处理包括分词、词性标注等,有了一些尝试性的探索实践。而在词义标注方面研究更是相对比较薄弱,仍是自然语言理解系统面临的最大问题。“词义瓶颈”问题还得需要我们从基础入手,为建立一个大规模、高质量的古代汉语词义标注语料库奠定基础,以推动信息处理中词汇级别上的这一最大难题的解决。简言之,语言研究的发展和语言应用的需求,决定了我们本课题的提出。

1

第1章 绪论

1.2 面向计算机处理的词义研究

1.2.1 词义消歧方法研究现状

所谓词义消歧[3],就是计算机利用推理机制,对出现在一定上下文中的多义词语的义项进行正确的判别和标注。如何模拟人脑思维的过程,建立语言、知识与客观世界之间可计算的逻辑关系,并实现具有高区分能力的词义判别模型,已引起了一些关注。诸多专家学者已在现代汉语词义消歧方法上进行了一定探索。前贤的方法主要分为如下几类:

(1)基于词典的消歧方法:

基于机器可读词典的词义消歧方法是充分利用普通词典中词条的释义文本,通过计算一个多义词各义项的释义文本与当前文本的重叠程度来实现消歧目的,如Lesk[4]提出的词义消歧方法。但当词条的释义文本比较短时,比如只用近义词或反义词来释义,则在该词出现的当前文本中难以找到与释义文本重叠的信息,因而影响了词义消歧的效果。义类词典按照词义将词汇组织成层次结构,提供单词之间的关系,词义消歧的效果要比使用机读词典好,正确率大约在80%。

(2)基于规则的消歧方法:

利用语言学家的语言知识,构造规则库描述语言知识,分析歧义词及其上下文,选择满足规则条件的词义。特别是基于转换的机器翻译系统。如CMU的KANT系统通过词法、语法消歧规则及人机交互方法进行词义消歧。

由于规则通常由专家内省出来,具有很强的主观性,知识不完备,因而难以应付研究领域的变化。如何维持规则库的一致性和可扩充性,也是该方法需要关注的问题。

(3)基于语料库的方法:

以语料库作为知识源,利用机器学习的方法,从标注的或未标注的语料库中自动或半自动地学习词义消歧的知识。例如,统计多义词语用作不同词义时的上下文信息,通常统计的特征有词语之间的搭配,利用这些信息对新输入句子的歧义词进行消解。该方法较基于词典的方法和基于规则的方法有明显的改进。1991 年Brown 率先把统计模型引入词义消歧研究中,目前应用较多的统计模型有:决策树、决策表、朴素贝叶斯、支持向量机、最大熵、条件随机场等。值得注意的是,为了解决训练语料数据匮乏的问题,自举学习(bootstrapping)成为研究的热点。将机器学习领域的多分类器集成引入词义消歧,是我们研究的目标。

(4)多种知识源综合利用的方法:

该方法综合利用多种知识和多种方法,获得更好的消歧效果。知识源的综合利用扩展了消歧可能用到的知识;多种方法的组合可以有针对性地解决不同的歧

2

第1章 绪论

义现象。刘颖[5]等人在不同层面将不同的规则,如配价搭配规则、属性制约规则和结构制约规则等,与基于马尔可夫模型的统计方法结合起来,在现代汉语领域实验效果较好。

词义消歧方法的研究从提出到现在,大体经历了基于理性主义方法到经验主义方法的发展变化过程。近十几年来,随着语料库语言学的兴起,在词义消歧问题研究中基于统计的词义消歧方法也日渐占据上风。这些成果主要是针对现代汉语的,在古代汉语处理领域中展开的研究却寥寥无几。总而言之,它在古代汉语中应有的应用价值还没有被充分地挖掘出来。 1.2.2 现有词义消歧的难点

如何模拟人脑思维的过程,对出现在一定上下文中的多义词语的义项进行正确的判别,这对词义消歧工作提出了严峻考验。词义消歧的工作还面临着诸多困难:

(1)要进行词义消歧,首先就要有一个理想的词义分类体系。而目前汉语词典关于词语的定义多是描述解释性的,很难反映词语在真实语料中的词义情况,表现在词语定义粒度过细,缺少新义等,使得现有的词典无法很好地应用于自然语言处理,成为词义消歧、词汇语义知识库建设等研究的瓶颈[6]。

(2)词义研究所需要的信息复杂多样,不仅取决于上下文环境词语的搭配,更重要的是上下文环境中词语意义的搭配,同时还受到主题的约束和篇章的一致性等诸多因素的影响。不同歧义词处理的难度和策略也因信息的复杂而不同。此外,由于一些语言学知识的缺乏或不易规则化,词义消歧知识的获取也是一大“症结”。

(3)受标注语料库规模的限制等原因,标注语料和测试语料不属于同一个领域,而且一些低频义项往往在语料中都不出现或者很少出现时,因此常导致出现严重的数据稀疏问题。

1.2.3 现有词义消歧的语言学资源

丰富的语言学资源为计算机的词义消歧研究提供了极大的方便,目前面向计算机处理的汉语词汇语义研究主要有:

(1)“八五”期间北京语言文化大学、清华大学等联合研究和开发了《现代汉语语义分析词典》。该词典分析了四万多个词,建立了一个较为复杂的事物类语义分类体系和一个语义特征描写体系[7]。

(2)北京大学计算语言学研究所从1986年起就开始研制《现代汉语语法信息词典》,它是一部供计算机分析与生成汉语句子而使用的机器词典。后来经过不断完善,现已收词7.3万左右。与供人使用的词典相比较,本词典是一部面向中

3

第1章 绪论

文信息处理各个领域的通用性词典,它不依赖于任何特定的语言处理模型及算法。

(3)中文概念词典(CCD)。CCD是WordNet框架下的现代汉英双语概念词典,同时提供汉英双语概念的语义知识表达[8]。在词典的设计上,它继承了WordNet的主要思想和观点,从关系语义学的观点出发,用同义词集合(synset)来描述概念,用概念间的关系(relation)来描述语义;同时,针对中文的特点,CCD也对概念的内容和概念间的关系进行了一定的调整和发展。CCD具有方便的语义关系表示和检索手段。同义词集合(同义关系)、上下位关系、整体部分关系等的描述,有利于实现概念的分级扩展和语义距离的计算,可以直接应用于机器翻译、自动文摘、文本分类、概念检索和信息提取等方面,为其中的语义理解任务提供宝贵的语义知识库资源。

(4)同义词词林。《同义词词林》原版是梅家驹[9]先生等人人工构造的,同义词词林扩展版(以下简称“词林”)是哈工大信息检索研究室在《同义词词林》的基础上,参照多部电子词典资源,按照人民日报语料库中词语的出现频度,编集而成。最终,词林收录的词语共有77343条。词林按照树状层次结构把所有收录的词条组织到一起,把词汇分成大、中、小3类,小类下再划分词群。每个词群中的词语又进一步分成了若干个行,同一行的词语要么词义相同(有的词义十分接近),要么词义有很强的相关性。

(5)董振东先生建立了知网,知网

[10]

以汉语和英语的词语所代表的概念为描

述对象,揭示了概念和概念之间以及概念与所具有的属性之间的关系为基本内容的常识知识库。由于充分的描述了这两层之间的关系,而且这种描述是高度形式化的,成为了计算机处理系统的知识库。

(6)黄曾阳[11]等以概念层次网络理论来建立网络式概念体系和语句的语义表达模式。进而试图建立一种模拟大脑语言感知过程的自然语言表述模式和计算机理解处理模式。

计算语言学处理任务的目标是着重于应用,如机器翻译、自动文摘、文档检索、语料库和语言平台建设等方面。目前的研究水平与应用前景相比,差距在逐渐缩小,但基础理论研究仍落后于形势要求,尤其是深入到语义分析的研究寥寥无几。总而言之,目前可供计算的语言学成果,尤其是计算机最急需的语义学研究还不多。

1.3 本文的研究内容

词义研究在中国语言学界属于比较薄弱的领域,其原因主要有[12]:(一)语义研究本身固有的难度;(二)缺乏相应的理论指导;(三)缺乏一套行之有效的可操

4

第1章 绪论

作的分析方法。随着语言研究的深入以及语言工程实践的推动,词汇语义学成为当今语言学中一个备受关注的研究热点,研究者越来越注重吸收语言学与其他学科领域如句法学、认知语言学、语料库语言学、计算语言学等的相关理论和方法来充实词汇语义研究,也越来越讲究分析过程的可观察性、可操作性及研究成果的客观性和可验证性,尤其强调要在词语的使用环境中观察词义成分的差别,而不是仅仅依赖于内省的直觉判断。从计算的角度来看待汉语词语的多义现象,或许会有一番新的景象[13]。

本文的研究内容主要如下:

1.通过对《春秋左传》语料的词汇、词频等的统计,结合陈克炯[14]《左传详解词典》和《汉语大词典》的义项解释考察,根据相关的词义分类理论,基于上下文特征,重点研究“將”、“我”、“如”、“信”、“聞”、“之”等义项复杂的词语义消歧。

2.在资源建设问题上,以《春秋左传》中的词汇为底本,在考察了该部书的分词、词性标注以及词频统计等工作的基础上,针对词义分布的不同特点,通过抓典型,引入NaiveBayes 、KNN、RFR_SUM、CRF以及Maxent等分类模型进行了消歧实验,并采用多分类器集成的方法,进行了多种集成模式的消歧效果研究。

3.建立了一个人机交互式的平台,通过人机交互的方法,力求使用半自动化技术高效实现古代汉语的部分词义标注。该平台能够提高人工标注的效率,自动维护标注的一致性,检查标注中的错误,进而使得标注者的标注速度、标注正确率和标注一致性得到显著的提高。

[15]

1.4 本文的结构

本文共分6章,各章安排如下:

第1章为绪论,介绍课题的提出背景、前人的研究现状、本文的研究内容及结构。

第2章从语料建设、古代汉语词义特点和消歧难点、消歧方法等方面对古代汉语词义消歧进行了探讨。

第3章介绍了基于条件随机场的词义消歧方法。讨论了特征的选择提取和特征模板的构造,尝试加入不同的语言学特征,进行了CRF在不同特征模板下的封闭和开放测试实验。

第4章介绍了集成分类学习的相关内容和本文所选用的几个分类器:NaiveBayes 、KNN、RFR_SUM以及Maxent分类模型。同时我们还介绍了四种基于带概率输出的分类器的集成法则,在考察了几种单分类器的性能的基础上,运用集成法则,进行了多个不同的集成实验。

5

第1章 绪论

第5章采用多分类器集成的标注方法设计并实现了一个人机交互半自动词义标注平台,实际使用表明该系统可以最大限度地提高词义标注的速度并保证标注的质量,为大规模建设古汉语词义标注语料库提供了一个平台和基础。

最后,对本文的工作进行了总结和展望,概述了论文工作的主要内容,并提出了下一步工作研究的设想。

6

第2章 古代汉语词义义项分析

第2章 古代汉语词义义项分析

词义标注是一项繁杂的任务,涉及语料资源的选择(语料的平衡和规模)、词典选择(词义区分的颗粒度)、标注方法(正确性和一致性如何保证)等方面的工作

[16]

。在具体标注方法上,有手工标注和自动标注之分。而自动标注就涉及到了词

义消歧,词义消歧是在特定的上下文中,让计算机自动为多义词选择正确的义项,是词义标注的一项重要的基础性工作。词义消歧方法的效果直接决定了词义标注的质量和可靠性。词义消歧是大多数自然语言处理任务的一个必不可少的中间层次,推动着语料库的建设多层次地发展。

现代汉语领域的词义消歧工作取得了一定进展,无论在消歧方法的探索方面还是词义资源的建设方面都积累了一些成果;而古代汉语数字化的工作起步较晚,尤其在机读词义资源的建设方面更是滞后了很多。目前,北京师范大学宋继华、王宁[17]等正在构建基于语料库方法的《说文解字》的数字化研究环境,以帮助传统语言学研究者衍生出适应信息时代的数字化研究方式,其所做的工作包括四个主要环节:1、语料的设计与采集;2、语料的切分与标注;3、知识获取与表示;4、知识挖掘与发现。其工作是使计算机技术真正融于人文科学研究的过程,意义重大。为推动词义消歧等工作的展开,我们也将首先围绕语料选择、词典选择、标注规模和标注质量等方面在古代汉语领域展开探讨,以期能够推动古代汉语词义标注语料库的建设。

2.1语料的建设

我们的项目“先秦汉语词汇统计与知识检索”,研究内容是对25种最重要的先秦传世文献进行词语切分、词性标注、个别常用词(包括古今字和通假字)的词义标注,建立先秦文献的词汇知识库以及历史知识库并研制相应的检索系统

[2]

。做好这一项目,首先要面临的就是语料的建设问题。要建设好,首先就主要

考虑语料的质量,具体包括文本中繁简字、古今字、异体字等的规范书写以及语料的代表性等。网上的电子文本也非常多,但常常流于粗糙,校对不精,还存在内码不一、格式不一、出处不详、缺字严重等问题。在这一项目中,我们首先进行了文本与纸质文本一致性的校对,并相应进行了统一内码、统一格式及部分重校等基础工作。

文本词汇级别上的信息处理基础工作主要有分词、词性标注、词义标注等。其中,古代汉语分词技术方面有了一些比较有特色的尝试,如邱冰[18]提出了一种

7

第2章 古代汉语词义义项分析

基于计算机自动分词的词汇处理及量化统计方法,即启发式的混合分词方法。李斌[19]也提出了面向中文陌生文本的人机交互式分词方法,开发出的人机交互式汉语分词系统在古代汉语自动分词处理研究中有重要的应用价值。在词性标注方面,台湾中央研究院[20]制定了约55个词类标记来对古汉语文本进行标注。我们参考了其精华,基于我们具体的语料标注工作基础上,制定了21个词类标记,根据分词和词性标注一体化的思想来对古代汉语文本进行了相应处理。前贤在分词、词性标注方面进行了诸多有意义的探索,而在词义标注方面研究相对比较薄弱。

2.1.1 研究对象

古代汉语的研究对象是传世文献语料,对于这些封闭性语料,可以采用穷尽统计法。在对单部著作进行统计的基础上进行综合的统计、分析。该方法首先需要确定研究对象涉及的范围,然后就这一范围内的有关研究对象的语料进行统计

[21]

。对于义项的研究工作我们更应该重视语料的穷尽性、提倡定量研究和定性研

究相结合。广泛占有材料,将看法建立在翔实的语言事实基础之上。陈克炯[14]指出,“选好有代表性的断代系列专书,全面系统地、一字不漏地研究每部著作的词汇,剖析每个词在书中出现的义位,这是一项十分艰巨的工程,但只有把这项工程做好了,汉语词汇的发展脉络才能清晰的显现出来”,文献的选择对实例库的建设有着重要的意义,我们选取《春秋左传》为研究对象,《春秋左传》是上古汉语语言资料中被公认的最具代表性的材料之一,代表了先秦历史散文的最高成就,居于“散文之宗”的特殊历史地位,是我国两千多年来汉语书面语言基本格局的最大源头,在先秦经籍群体中,字数最多,词汇总量最大。瑞典汉学家高本汉[22]认为:

“支那学”家用来研究古代中国的各种文件,没有一种比《春秋左传》更重要。这是中国古代文化第一次成熟时期的主要史料……对于语言学者,此书很重要,因为(它)是个范围很大的文件,里边用词极丰富而复杂,文章极有力而美妙。总之,《春秋左传》是中国文学的杰作之一,为中国人民所爱读爱研究的。

因而从《春秋左传》入手进行考察,对先秦断代词汇的研究具有重要的价值。我们以此为蓝本,运用计算语言学方法做好先秦汉语词汇的意义标注工作,以期能够推动古代汉语词汇层面处理的信息化进程。

本文所采用的《春秋左传》文本以阮元校勘的《十三经注疏》本为底本,以杨伯峻[23]的《春秋左传注》为主要参照本,在此基础上建立了《春秋左传》电子文本。此外,我们并没有把《春秋经》作为研究对象,因为其自成体例,作者和成书年代都不同于《春秋左传》,是一部和《春秋左传》不同的文献。

8

第2章 古代汉语词义义项分析

2.1.2分词、词性标注

为使所建设的语料库真正成为后续研究的知识库,我们从古代汉语语言学特点出发,对采集到的语料进行了最基本的词汇层面的处理:分词和词性标注。经人工校对后,在词语切分、词性标注方面具有较高的正确率。以下是基本的分词规范和词性标记集,均从古代汉语语言学特点出发,面向信息处理角度而制定。具体标示内容详见表2.1:

表2.1 古汉语词类标注集

序号 1 名词 名称 普通名词 人名 地名 方位名词 时间名词 2 动词 使动用法 意动用法 为动用法 3 4 5 6 7 8 9 10 11 12 13 14 形容词 数词 量词 代词 介词 连词 助词 副词 语气词 拟声词 兼词 标点 标注集 n nr ns f t v sv yv wv a m q r p c u d y s j w 解释 noun首字母 noun首字母+人(ren)首字母 noun首字母+space首字母 “方”的声母 time首字母 verb首字母 “使”的声母+verb首字母 “意”的声母+verb首字母 “为”的声母+verb首字母 adjective首字母 number第2个字母 quatity首字母 pronoun的第2个字母 prepositional的首字母 conjunction的首字母 auxiliary的第2个字母 adverb的第2个字母 “语”的声母 sound的第1个字母 “兼”的声母 参考北大现代汉语标记集 共有21个词性标记,该标记集充分考虑了词的动态功能,如词的使动、意动用法标记的确定,从而也提供了较多的句法信息。 2.1.3《春秋左传》高频词汇基本信息的统计

高频也就意味着有较高的处理价值和必要性,我们以《春秋左传》为底本,在其已分词、词性标注好的前提下,统计了其高频词及其频率、词典释义个数。

(1)《春秋左传》基本字数统计

9

第2章 古代汉语词义义项分析 表2.2 古汉语词类标注集

带标点字数 无标点字数 228269 178596 标点比率 21.76% 单字量 115254 (2)《春秋左传》前150个高频词汇基本信息

具体基本信息包括文本中前150个高频词的出现次数、频率、义项个数等,参见附录一。其中频率是指该词的出现次数占不带标点总字数的比重。之所以采用“不带标点总字数”作为频率计算的分母,主要是考虑到标点的标多标少,见仁见智,断句的处理至今没有统一的答案。对于义项个数的统计主要是针对实词的具体释义的统计,统计的依据是陈克炯的《左传详解词典》中的释义。

2.2古代汉语词义特点与消歧难点

“单音节词占优势”是古代汉语词汇最突出的特点,句子使用的字少,但信息量大,短悍精炼,一字多义现象普遍。针对信息处理方面,我们通过将古代与现代汉语词义相比较,发现古代汉语在词义消歧方面,困难更大,寻求适合古代汉语消歧的策略迫切至极。以下是古代汉语词义方面的特点[24]。

(1)深层语义丰富,常常很难从句子的表层结构明确语义关系。先秦汉语中的词,往往是在比单句更大的整个语言环境中才表现出某种特定的意义,因此在消歧的过程中,简单的上下文窗口是不能解决掉这种歧义的,增加了困难。

(2)词的词汇意义和语法意义是相互依存不可分割的。词汇意义总是和一定的语法意义关联着,语法意义又总是依附在一定的词汇意义上。如“妻”,名词,其主要语法功能做主语和宾语;但如果它在句子中取得动词的语法功能,它的词汇意义就成为“做妻子”或“嫁”。这就要求我们在上下文窗口的大小以及特征选择时,考虑周全,挖掘深层次的语义。

(3)古汉语词义系统本身复杂,具有近义性、通假性等特点。存在着大量的通假字、古今字、避讳字、繁简字等,使得字形与词义关系复杂,尤其是古今字的意义有同有异,不仅人理解困难,计算机更难处理。

(4)古汉语形义关系复杂,突出表现在一形多义上。词类及词的不同用法时常调和在同一个语音、文字形式之中。

在现汉词典中绝大多数为单义词,约占汉语词集合的85%左右,而多义词仅占14.8%[25]。在现代汉语中用几个不同的词来表达的意义,在古代汉语中却往往只用一个词来表达,加大了词形承担的内涵。大量的繁简字、通假字、避讳字等的存在,更使得古代汉语词形与词义的关系庞杂。所以古代汉语中多义词占了绝对优势。我们统计了《春秋左传》中的词汇及其词频,依据陈克炯的《左传详解词典》的释义,分析了词频表中前150个高频词的义项呈现情况。多义词的义项

10

第2章 古代汉语词义义项分析

呈现情况可以通过义项呈现数来考察。呈现数是指多义词在语料库中呈现的义项的实际数目[26]。

通过我们的考察,依据陈克炯的《左传详解词典》的释义,《春秋左传》语料中前150个高频词中,词均义项数为 4.84,义项最高数为16。具体如表2.3:

表2.3 古汉语词类标注集

S R 1 2 25 3 12 4 15 5 28 6 20 7 14 8 5 9 5 10 3 11 2 12 2 13 1 16 2 N 16 10.67 16.67 8.00 10.00 18.67 13.33 9.33 3.33 3.33 2.00 1.33 1.33 10.67 1.33 上表显示:(1)半数左右多义词的义项呈现数集中在2到7之间,共114个词,占150个词的76%。(2) 单义词仅占10.67%,其中多是一些专有名词和虚词。频率越高的词语,往往普遍具有较多的义项。前150个高频词中,多义词占将近90%,其中2-7个义项的占76%,8个以上的占13.33%,这就对进行多分类问题研究提出了更高要求,处理好这些词对词义消歧工作有着较高处理价值和必要性。

通过对语料的分析考察,我们认为古汉语词义消歧处理的难度主要表现在: (1) 频率越高的词语,往往具有的义项个数也较多,增大了词义消歧的难度。 (2) 多义词的各个义项分布往往不平衡,实际文本中只有少数几个义项占据绝对优势,强势义项和弱势义项数量悬殊大。

(3) 词典中义项分类颗粒度比较细,主要是面向人理解服务的,而几乎没有直接适合于古汉语词义消歧研究的理想的词义分类体系,机器可读词义资源匮乏。

(4) 古汉语语料资源有限,语料规模小,对现有的一些算法、模型,往往由于训练语料不足而带来诸多问题。

目前,作为主流的基于统计的现汉词义消歧所关注的是如何从训练语料中尽可能多的学习语言知识再对同质文本进行消歧。适合于机器可读的现汉词义消歧资源丰富,如知网、中文概念词典等,前贤古代汉语词义释义研究等都是面向人理解服务的,适合机器可读的古代汉语词义资源几乎为空白。总之古代汉语的词义消歧研究相对比较滞后,一方面除了古代汉语本身固有的复杂特点,重视程度不够外,还缺少研究方法的深入探索和基础资源的支持,这更需要我们从基础入手,探究理论,根据古代汉语特点,寻找在语料库支持下的适合古代汉语词义消歧的方法。

11

第2章 古代汉语词义义项分析

2.3义项区分的颗粒度

2.3.1义项划分的难点

要进行词义消歧,首先要有个理想的词义分类体系,而这个词义分类体系的构建必须要进行词义区分,因此,面向信息处理的自动词义区分成为解决词义知识获取的首要研究课题。词义区分的精粗多寡——颗粒度的问题该引起广泛重视,词义分类颗粒度对词义分布影响较大,词义分类粒度越小,多义词的平均义项数就越多,因而歧义现象越发明显。

在古代汉语中,形与义、义与义之间的关系更是复杂,怎样进行有效的义项区分,来确定合适的词义颗粒度,多个义项被“叠合”得更粗大还是被“拆分”得更细小,成为更艰巨任务。

古代汉语词汇一词多义现象普遍,词语在用法上又常存在活用现象,可以按习惯临时改变语法功能,用作其他词类,如名词、形容词的使动、意动等用法。因此这些导致义项的建立是否概括、义项的分合是否恰当、释义的表述是否合理等问题亟待解决。使动、意动等特殊用法中义项的显示和确认,要凭借具体的语言材料,即特定的“语境”来完成。而传统词典中,不讲(或很少讲)词语的功能和用法,对那些特殊用法往往并不单列义项。对义项的分合问题,目前人们主要还是从词义的性质本身,如词义的客观性、概括性来进行讨论,“就意义论意义”,主张“在意义联系最薄弱的地方划分义项”,王惠[27]也指出了其缺陷:究竟哪儿是意义联系最薄弱的地方,却没有一个客观的、可观察的衡量标准。Palmer[28]认为,建立在世界知识之上的意义区分是值得怀疑的,只有那些具体有形的标准,诸如论元结构、句法框架或者是选择限制,才能在义项区分中有效地发挥作用。但是这些跟词的义项对接的句法框架、论元结构等从哪儿来?又怎样对框架做出限定呢?在解决的过程中又难免带上很强的主观性。

王惠(2004)[27]强调指出了词语组合对词义义项的划分的重要性。对于是否单列义项,不仅要看内在的词义特征差别,而且还要同时考察它在语言中的具体用法,充分把握目标词的上下文搭配。因此,对于义项的归纳,我们认为理想的研究是考察每一个词在每一部文献中的所有用例,然后通过分析,再归纳出每一个词的用法特点,进而确定出该词的意义。但借助手工,凭借一人之力,难以毕其全功。正如郭小武所指出的那样:统计义项的动态分布是个功德无量的工程,但这首先需要对基础文本进行全面的义项标注,一人一时实难做到。

12

第2章 古代汉语词义义项分析

2.3.2义项划分的操作原则

义项的粗细颗粒度,是个相对的概念,根据概括抽象程度的不同可以有各种不同的结果,义项个数的划分主观性比较强。每个词的义项个数的多少并不是最本质的问题,关键是与特定应用紧密相连,要考虑到特定应用服务的对象与目标

[29]

。信息处理用词语义项区分主要是为计算机服务的,其目标主要是服务于诸如

机器翻译、信息检索、句法分析等,注重实用目的,需要严格建立在语料库实证基础之上[29]。如果完全或者主要依赖于语言学家的智慧和洞察力,那么就会存在严重的构建效率低,内部一致性差等问题,简言之,面向人的义类体系往往对于计算机信息处理要么过于粗糙,要么过于细微,很不完备。实际操作中,如果义项划分得过粗,就不能全面细致地反映这个词汇的意义用法;如果类划分的过细,标注集过于庞大,又往往会增加标注难度,降低标注效率,甚至呈现严重标注不一致现象。平衡这对矛盾,我们根据目的,确定多义词的义项的方法是根据词典资源提供的词义信息,具体针对某一个目标词的上下文语境,在面向人和机器的比较中抽取、概括适于信息处理的义项区分,把握好面向计算机的词义区分的颗粒度。因此,我们以《详解词典》和《汉语大词典》为主要参照,在此基础上依据在语料中的实际出现情况和语言信息处理的实用需求,对目标词的义项进行了适当处理,或删掉、或合并、或细分,确定词义的合适颗粒度。对此,主要遵循如下的原则:

(1)可行性:根据词语义项的区分,操作者(计算机或者人)能够对语料中的每一个目标词标注出义项,即义项区分对所标注的语料具有“完备性”[29]。

(2)区别性:义项之间有毫厘之差的,可以适当归并,前提是要保证义项之间的离散和不相交,能够找到每一个义项都同其它义项的区别之处。

(3)必要性:合并或细分某个义项,要考虑该义项是否有用,用处何在,是否对文本检索与分析有用,各个义项能够满足古代汉语各种检索或分析工作的需要。

(4)兼容性:尽量使义项的分合与已建立的各种资源的表示相一致。兼容性好,以有利于资源共享。

(5)针对性:针对本研究的最终统计结果是为计算机处理规范的古代汉语服务的,我们对极少数具有很浓的方言、口语色彩等的较偏僻义项另单独处理。

清晰的义项划分和描述是语料库标注一致性高的重要前提,制定这些原则,主要目的就是为了保证具体义项标注过程中的规范性、可操作性和内部一致性。

通过内省等方法制定的这些原则,带有一定的主观性,因此我们在这些原则的基础上考虑自动义项区分,自动词义区分是通过对真实文本的处理,利用完全

13

第2章 古代汉语词义义项分析

无指导的机器学习方法,区分和表示词义的过程。我们基于著名的分布假设,充分利用词语周围环境获知词语的词义,自动地从文本中区分出词语,特别是多义词的词义内容,确定词语有多少义项,进而预先定义好词义个数等。本文将这种方法归纳为基于语料中句子上下文相似度的自动义项聚类划分,以辅助人工确定义项个数。具体步骤如下:

(1)抽取多义词上下文语境中的词语,采用向量空间模型(VSM)构建目标词的词义向量。

(2)利用自底向上的凝聚聚类方法对目标词向量聚类,在聚类过程中相似性的判断采用余弦值度量。

向量空间模型将目标词的共现词映射成一个向量的表示形式,在n维空间中,向量可以表示成一个n维的有向线段,通常以两个向量之间夹角的余弦值来度量,公式为:

nCOS(X,Y)?

分别表示向量中第i个元素的值。

?xyi?1ii2y?ii?1n?xi?1n2i (2.1)

设X、Y为两个向量,COS(X,Y)为向量X、Y的相似度,其中xi与yi这种策略是以包含目标词的句子作为原子类,然后将这些原子类进行聚合。逐步聚合成越来越大的类,直到满足终止条件。

凝聚算法的过程为:

(1):初始时,每个句子都组成一个单独的簇 (2): repeat

(3): 把那些相似度满足阈值的簇合并成一个簇 (4): 重新计算每个簇的中心

(5):until直到所有的成员组成一个簇为止或者所有簇的相似度都小于阈值。

2.3.3具体义项划分实例

在实验中,我们依据《详解词典》,对目标词的各个义项按照如上的原则进行了再定义,在真实语料上标注目标词的正确义项,例“如”在《详解词典》中有如下义项:

(1)动词,往。 (2)动词,像;若。

14

第2章 古代汉语词义义项分析

(3)动词,应该,应当。

(4)动词,比得上,比??更??常用在无定代词“莫”的后面。 (5)动词,相当于“奈”,表示“拿什么怎么办”

(6)连词,▲并列连词。相当于“而且”。▲假设连词。相当于“假如”。▲转折连词。相当于“却”。

汉语大词典2.0版对该词的释义更加详尽周全,义项多达26个,我们按照上述原则,将该词义重新归结为: (1)如1:动词:往,去。 十月,鄭伯如楚,子產相。

(2)如2:像,如同。

(3)如3:比得上。“如”作比类动词,此时其一般形式和它的否定形式不同。一般形式表示的是相似性,用现代汉语的“像,如同”去解释比较恰当。其否定形式“不如”、“莫如”表示的是在优劣高下之间的取舍,用现代汉语的“比得上”去解释比较恰当。它们在语义和组合关系上有着明显的标志,所以将“如”分列两个义项:一个是一般形式;另一个是否定形式。实例如下: 思我王度,式如玉,式如金。[像,如同]

唯/d 有 德者能 以/p 寛服 民,其次莫如 猛/a。[比得上]

如2,所带的宾语多由体词性词组充当,可以带指人的名词宾语,但是用例很少。而如3,则有大量的带指人的名词宾语和人称代词宾语的用例。

(4)如4:相当于“奈”。表示“对什么怎么办”。 然明謂子產曰:毀鄉校何如?/w (5)如5:应该,应当。

若求安定,則如與之,以濟所欲。 (6)如6:表假设,假如。 如匪行邁謀,是用不得于道。 (7)如7:表示举例。

如杞梓、皮革,自楚往也。 (8)如8:依据,按照。 王曰:寧如志,何卜焉?

实验中我们主要用到以下词,其经过我们处理后的义项内容及其义项分布情况如表2.4:

表2.4 歧义词义项以及义项分布情况

词 如 比例 50.93 將 表肯定, 将会;必定会 比例 8.31 我 自己集体 的一方 比例 42.18 20.41 义项1 往,去 义项2 像,如同 27.82 表时间,将要 73.33 领位关系 15

第2章 古代汉语词义义项分析

义项3 相当于“奈” 义项4 应该,应当 义项5 比得上 义项6 表假设,如果 义项7 表示举例 义项8 依照,按照

2.87 1.69 表疑问,反诘 10.36 自称单数 带领;侍奉; 护卫 统帅 完成 接受 比例 之 2.13 3.65 93.62 人称代词 指示代词 处所代词 1.44 1.95 3.79 0.41 0.41 37.41 比例 90.56 2.58 0.64 13.32 应该,应当 2.02 0.67 0.67 信 表肯定,确实 连宿两夜 明确 守信用 通“伸”,伸张 相信 信用 真实可信 比例 0.49 7.32 1.22 聞 知名,闻名 听见,听说 名声 比例 能 35.10 14.04 0.47 可能,能够 相得,相宜,和睦 表判断,犹“就是” 有能力,有才干 1.83 接受 0.61 0.61 取独助词 音节助词 结构助词 变为 去,往 0.47 通“耐”,忍受 0.43 34.17 5.79 6.71 20.73 12.80 9.98 1.87 3.90 注:比例为该义项在《春秋左传》语料中各自所占相对比例,可作为区分强势义项和弱势义项的重要标准。 2.3.4正确对待手工标注结果

本文探讨的“词义”,主要是能从大规模真实文本语料中获取的词义。我们在手工标注过程中“随文释义”,对同一个词语根据它在不同的上下文中的不同使用情况做出不同的解释,“观境为训”,因此,这也存在着诸多问题,譬如词义要具有相对的稳定性,而许多比喻用法、使动等特殊用法等都是不稳定的,是否将其列为词义呢?词义会随着具体语用环境的不同而显出差异,这样的词义的界定问题都给我们带来了困难。考虑到这些问题,我们也主要从以下三个方面来联系特定语言环境:

(1)从句义中求词语的具体义。标注出同一词语在不同语言环境中的特有含义。

(2)注意词语在句中的语法特点。往往语法特点不同的,词义也将有差别。 (3)注重词义的概括性与具体性的统一。

我们在对语文辞书释义分析与动态语料库资料考察相结合的基础上,重视词在句法结构中的位置,将语义、语法有机结合来释义。鉴于随文释义的结果,对

16

第2章 古代汉语词义义项分析

义项的分合影响比较大,但明确以下两点:

(1)由传统注疏的说解所体现的、训诂学意义上的随文释义的结果,能作为义项分合的依据。

(2)由古文今译的译文所体现的、现代汉语基础上的随文释义的结果,不能作为义项分合的依据。

在此基础上对义项的分合,是在对《春秋左传》中带有某个目标词的句子实例语料进行了反复考察之后,经过了“归纳—验证—再归纳—再验证”的过程,进而逐渐明确起来。

2.4特殊意义的处理

2.4.1假借字与假借义

假借字和本字相对,即应该写本字时临时写了一个同音替代字。假借字和本

字都是文字现象,不直接涉及词义问题。我们赞成洪成玉[30]所指出的,文字有假借,词义却不存在假借。假借只是文字问题,不是词义问题,词义不存在假借。假借义只不过是被借的字(本字)所记录的词所表示的意义。明确了这一点,也就对我们的消歧并没有带来很大困难。 2.4.2古今字与古今义

训诂学中所说的古今字,是反映文字为适应词义发展而产生的文字现象。一个新的词义的产生,由某个字来担任。随后,为了区别新旧意义,同时为了减轻原字的负担,就以原字为基础,增加或改变偏旁,另造一个新字。古今字所记录的词义不存在古今义的关系。一般说,古字在产生今字前,就兼有今字所记录的词义。这类词的特点是本原字和滋生字之间在意义上存在着一种个别和一般、具体和抽象的关系。滋生字和本原字在意义上并不完全相同,尽管意义联系密切,用字偶有混同,但我们认为还是从两个字的角度出发来消歧。而且当我们研究的是某一部特定书中字的具体意义时,其并无古、今的对立,简单地静态视为一个词形承担了多个意义,这个概念对具体书中的词义消歧并不带来影响。

2.5 消歧方法的探索

词义标注任务的完成,大致要经过两个阶段:词义划分和词义消歧。目前在大规模语料中实现自动词义区分还缺少技术、方法、应用等方面的研究与实践。

17

第2章 古代汉语词义义项分析

而这也不是本文的主要研究任务,我们依据词语在语料中的实际出现情况和语言信息处理的实用需求通过内省的方法确定出了合适的词义颗粒度。进而在语料资源、义项颗粒度大致确定的情况下,关键是选择合适的标注方法。传统的人工标注,因语料繁多,费时费力,并且标注一致性差,总体效率低下。所以必须考虑计算机自动标注,这就要探索词义消歧的方法。自动标注词义虽然不是自然语言处理的最终目的,但却是自然语言处理中必不可缺少的一个环节,具有重要的理论和实践意义。因此,词义消歧长期以来一直是现代汉语信息处理中的热点难点问题,学者们也在这方面进行了大量的研究,积累了丰富的方法。

主要的贡献有:(1)在词义消歧的基础资源建设方面有了很大突破,建立了大量的适合机器可读的语义知识资源,如知网(HowNet)、 中文概念词典(CCD)、同义词词林等,推动了词义消歧工作的研究进展。(2)在消歧的方法上进行了多方位的探讨,Ide和Veronis[31]概括为基于人工智能的方法、基于知识的方法和基于语料库的方法。Mihalcea和Pedersen[32] 概括为基于知识的方法、有指导消歧和无指导消歧。卢志茂[33]等概括为基于人工智能的方法、统计词义消歧(又细分为基于词典的方法、基于实例的方法、基于统计的方法)。

总体而言,在中文信息处理的词汇层面上,自动分词和词性标注已经有了成熟的、经过考验的技术和一般性的方法,如我们对古代汉语采取的分词和词性标注一体化策略处理,分词正确率已达到94.60%,词性标注也已达到89.65%。但在词义消歧方面却显得比较薄弱,在今后相当长的时间内仍是自然语言处理领域内的难题之一。

我们接下来的主要工作是在现有的词义消歧的理论和方法基础上,基于机器自动学习的复杂统计模型,结合古代汉语词义义项个数繁杂、句子短小精练的特点,选择合适的特征建立模板,重点尝试对“將”、“我”、“如”、“信”、“聞”、“之”、“能”等《春秋左传》中的高频词、典型词进行了词义消歧实验。

2.6 本章小结

本章介绍了我们在古代汉语语料上制定的分词和词性标注规范,考察了古代汉语词义的特点和词义消歧的难点,针对古代汉语词义繁杂的特点,我们确定了面向信息处理的义项区分颗粒度。下一章中我们主要讨论如何选择合适的特征和有效的模型进行古代汉语词义消歧实验。

18

第3章 基于CRF模型的消歧实验

第3章 基于CRF模型的消歧实验

上一章我们对古代汉语词义标注语料库建设的语料资源、义项粗细的颗粒度问题进行了探讨,下面两个章节主要是对词义消歧方法进行一定的摸索,以寻求适合的古代汉语词义消歧方法。

刘开瑛[34]曾经指出语言有两个特性:(1)词的意义是在运用中体现出来的,同一个词在不同的搭配环境中具有不同的意义。(2)语言具有较强的重复性,即一个搭配在语料中可能多次出现,这一性质使得排歧过程可以具有自组织能力。语言的这两个特性,词的具体意义的自动消歧,就完全有现实的可能性和理论依据。词义和词的分布之间具有密切的联系,一个词无论包含多少种意义,在一定语境中起作用的往往只是其中的某一个意义。词的不同意义往往会在句法和词汇搭配层面上表现出不同的组合特征,多义词在表现不同意义的时候必定是和不同的词一同出现的,根据和该多义词一起出现的其它词,就可以相对准确地判断出该多义词的真实意义。充分挖掘目标词所在的上下文语境的特征与规律,利用统计和规则的方法,以实现目标词义项的自动消歧,这就是我们所要解决的任务。

简言之,词义消歧就是根据多义词所在上下文为其确定一个最合适的义项,对这一过程,可形式化为一个典型的分类问题,把歧义现象分别作为分类问题的一个类别。词义消歧作为一个典型的分类问题,从机器学习的视角来看,主要分为模型选择和特征选择两个步骤。目前较多的分类的统计模型如:决策树、决策表、朴素贝叶斯、支持向量机、最大熵等应用到这一过程中,取得了良好的分类效果。本章的主要工作是在现有的词义消歧的理论和方法基础上,利用条件随机场模型,选择合适的特征建立模板,重点尝试对一些古代汉语高频词进行词义消歧实验。对消歧词的选取,首先以典型性为基本要求,同时保证高频量上的充足,

鉴于此我们选取了“之”、“如”、“能”、“我”、“信”、“聞”、“將”作为实验对象。

3.1模型概述

条件随机场CRF(Conditional Random Fields)[35],是一个在给定输入节点(观察值)条件下计算输出节点(标记)的条件概率的无向图模型,特别擅长处理序列标记问题。对于输入序列x和输出序列y,可以定义一个线性的CRF模型,形式如下:

P(y|x)?1exp(??kfk(yi?1,yi,x)???kgk(yi,x)) (3.1) Z(x)19

第3章 基于CRF模型的消歧实验

其中每个fk()是观察序列x中位置为i和i-1的输出节点的特征,每个gk()是位置为i的输入节点和输出节点的特征,λ和μ是特征函数的权重,Z 是归一化因子。作为一个无向图模型表现出比HMM(隐马模型),MEMM(最大熵隐马模型)等有向图模型更好的效果。隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择,而最大熵隐马模型解决了这一问题,可以任意地选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏置的问题(label bias),即凡是训练语料中未出现的情况全都忽略掉,而条件随机场则很好地解决了这一问题,它并不在每一个节点进行归一化,而是所有特征进行全局归一化,具有表达元素长距离依赖性和交叠性特征的能力,能方便地在模型中包含领域知识,因此可以求得全局的最优值。

本文的实验使用的CRF模型,具体采用了TakuKudo编写的工具包“CRF++0.50”进行训练和测试(下载地址:http://crfpp.sourceforge.net/)。

3.2特征的选择提取与特征模板的构造

3.2.1特征的选择提取

如何针对特定的任务为模型选择合适的特征集合,是条件随机场模型中一个非常重要的工作。特征选择主要来自多义词出现的上下文,我们的研究仅以多义词所在的句子作为上下文,从中选择和提取特征。以现有的古代汉语资源为基础,目前比较容易获取的特征主要是词法层特征,具体包括局部词、局部词性、局部词与词性、局部共现、词袋和搭配,这些特征往往也是最常用的特征。从语料库中歧义词的大量实例分析可知,上下文中前后几个词及其词性对词义选择具有重要意义。我们用“W,P”分别表示词和词性,从其原子特征和复合特征两个角度出发考察,原子特征只考虑一个观察单元,它包括当前及左右各两个位置的词,即W-2,W-1,W0,W+1,W+2,以及当前及左右各两个位置的词性标记,即P-2,P-1,P0,P+1,P+2。

仅依靠原子特征还不足以表示上下文出现的各种现象。通过对原子特征的组合可以表示出更为复杂的现象,组合后的特征我们称为复合特征。复合特征构造如下: W-2/W-1,W-1/W0,W0/W+1,W-1/W+1,W+1/W+2,P-2/P-1,P-1/P0,P0/P+1,P-1/P+1,P+1/P+2。此外我们还考虑当前及左右一个位置的词与词性的复合特征:W-1/P-1,W0/P0,W+1/P+1,示意如表3.1。

表3.1 CRF模板示例

20

第3章 基于CRF模型的消歧实验

当前位置 ↓ ? ? ? -2 P W -1 P W 0 P W 1 P W 2 P W ? ? ? CRF本身的一个突出优点是可以任意加入与处理的对象有关的语言学特征。一些语言学特征对某些类别的多义词或者多义词的某些义项具有很高的识别率。我们在用CRF进行词义消歧时,增加了以下两个语言学特征:词语长度、词语读音。词的读音与意义常联系在一起,不同的读音,往往处在不同的意义层面,这对词义消歧具有很大的辅助作用。基于此我们考察了目标词的读音,增加了读音这一特征。此外,通过考察训练语料,发现不同的义项联系的上下文的词语长度往往差别很大,所以将上下文词语的长度也作为特征来考察。以下句为例说明:

蔡侯/nr 之/u 如/v 晉/ns 也/y 。/w

其中“如”作为目标词,上下文窗口为2的词的原子特征表示为:W-2=蔡侯,W-1=之,W0=如,W+1=晉,W+2=也。上下文窗口为2的词性的原子特征表示为:P-2=nr,P-1=u,P0=v,P+1=ns,P+2=y。上下文窗口为2的词的复合特征表示为:W-2/W-1=蔡侯/之,W-1/W0=之/如,W0/W+1=如/晉,W-1/W+1=之/晉,W+1/W+2=晉/也。上下文窗口为2的词性的复合特征表示为:P-2/P-1=nr/u,P-1/P0=u/v,P0/P+1=v/ns,P-1/P+1=u/ns,P+1/P+2=ns/y。上下文窗口为1的词与词性的一元复合特征:W-1/P-1=之/u,W0/P0=如/v,W+1/P+1=晉/ns。

根据我们所提取的特征,如此定义token:包含5列,分别是词、词性、词语长度、词语读音、标记。其中为了减少人工标注的工作量,只标记出多义词的读音,其他上下文词的读音均被标成“Other”。标记的定义是:对于句子中的除目标词外的其他词,标注为X,对于目标词,标注为词义。表3.2是实验中使用的“將”的一个训练文件的样本:

表3.2 CRF标记举例

词语 文王 將 死 , 與 之 璧 词性 nr d v w v r n 词语长度 4 2 2 2 2 2 2 词语读音 Other Jiang1 Other Other Other Other Other 标记 X 表时间,将要 X X X X X 21

第3章 基于CRF模型的消歧实验

3.2.2特征模板的构造

根据原子特征、复合特征、再辅之于部分语言学特征可以构造若干特征模板,特征模板的作用就是为特征函数的生成提供一个统一的模式,通过特征模板的使用可以方便地获得我们所需要的所有特征函数。为了考察不同特征的作用,本章设计6个模板(T1-T6),见表3.3(表中的“∪”表示取并集):

表3.3 实验模板

模板 T1 T2 T3 模板的含义 上下文窗口为1的词、词性的原子特征∪词、词性的复合特征∪词与词性的一元复合特征 T1∪当前词的语言学特征 上下文窗口为2的词、词性的原子特征∪上下文窗口为2的词、词性的复合特征∪上下文窗口为1的词与词性的一元复合特征 T3∪当前词的语言学特征 上下文窗口为2的词、词性的原子特征∪上下文窗口为1的词、词性的复合特征∪上下文窗口为1的词与词性的一元复合特征 T5∪当前词的语言学特征 T4 T5 T6 3.3 实验数据

本文使用先秦典型文献《春秋左传》语料作为实验语料,该语料已经过初步的分词和词性标注。选取了“將”、“我”、“如”、“信”、“聞”、“之”、“能”七个高频多义词作为实验对象,首先根据《春秋左传详解词典》提供的词义信息,把握好面向计算机的词义区分的颗粒度,确定出多义词的各个义项,其各个词的义项个数如表3.4:

表3.4多义词义项个数统计

词 义项个数 如 8 將 8 我 3 信 8 聞 4 之 8 能 5 然后抽取包含目标词的句子,人工标注词的具体词义。实验时,划出70%的例句作为训练,余下的30%作为开放测试,具体见表3.5:

表3.5 多义词语的基本统计信息

词语 义项1 义项2 如 302 165 將 81 715 我 248 120 22

信 80 12 聞 7 12 之 225 90 能 422 12 第3章 基于CRF模型的消歧实验

义项3 义项4 义项5 义项6 义项7 义项8 总句数 Baseline(%) 17 10 79 12 4 4 593 101 14 19 37 4 4 975 220 588 2 3 1 11 34 21 164 308 2 329 3 3 219 64 12 25 641 3 2 27 466 50.84 73.63 42.05 48.98 92.93 35.05 90.07 表中Baseline为多义词全部取最高频义项时的标注正确率。 3.4 评测指标

与自然语言处理研究的其他问题一样,系统评测也是词义消歧技术研究的重要环节之一。国际计算语言学联合会(ACL)词汇兴趣小组早在1997年就开始组织关于词义消歧的公共评测任务,即SENSEVAL评测。SENSEVAL评测至今已举办三次,大大推动了词义消歧任务的研究进展。该评测的主要指标为词义消歧的准确率(P)、召回率(R)、覆盖率(COV)和F值。因此我们为与其接轨,借鉴了该各项指标,主要内容计算公式如下:

正确率(P)=系统输出中正确标注词数/系统输出的标注总数量;

召回率(R)=系统输出中标注正确词数/金标语料中全部正确的标注词数; 所谓的“金标语料(gold standard corpus)”是由人工标注或校队的质量很高的评测集的标准答案语料。

F值=2*P*R/(P+R)。

3.5 条件随机场实验

我们分别进行了封闭和开放测试实验。封闭测试,指的是运用从训练语料中获取的数据(模型参数或规则)来处理训练语料本身,目的是对模型的性能有初步了解。而开放测试是运用从训练语料中获取的数据来处理训练集之外的语料,目的是检验知识的覆盖能力。具体实验数据如下。 3.5.1封闭测试时特征模板实验

我们对表3.3中的6个模板进行了实验,模板T1的实验结果如表3.6:

表3.6 T1的实验结果

词语 T1 Total Tagged Correct 23

P(%) R(%) F值(%) 第3章 基于CRF模型的消歧实验

如 將 我 信 聞 之 能 平均 414 683 412 115 230 447 325 414 683 412 115 229 438 325 412 661 397 111 229 430 321 99.52 96.78 96.36 96.52 100.0 98.17 98.77 97.90 99.52 96.78 96.36 96.52 99.57 96.20 98.77 97.52 99.52 96.78 96.36 96.52 99.78 97.18 98.77 97.71 模板T2的实验结果如表3.7: 表3.7 T2的实验结果

词语 如 將 我 信 聞 之 能 平均 Total 414 683 412 115 230 447 325 Tagged 414 683 412 115 230 447 325 Correct 412 663 397 111 230 438 321 T2 P(%) 99.52 97.07 96.36 96.52 100 97.99 98.77 97.94 R(%) 99.52 97.07 96.36 96.52 100 97.99 98.77 97.94 F值(%) 99.52 97.07 96.36 96.52 100 97.99 98.77 97.94 扩大一定的上下文窗口,模板T3的实验结果如表3.8: 表3.8 T3 的实验结果

词语 如 將 我 信 聞 之 能 平均 T3 Total 414 683 412 115 230 447 325 Tagged 414 683 412 115 230 447 325

Correct 414 682 408 115 230 447 325 P(%) 100.0 99.85 99.03 100.0 100.0 100.0 100.0 99.81 R(%) 100.0 99.85 99.03 100.0 100.0 100.0 100.0 99.81 F值(%) 100.0 99.85 99.03 100.0 100.0 100.0 100.0 99.81 模板T4的实验结果如表3.9:

表3.9 T4实验结果

词语 如 T4 Total 414 Tagged 414 Correct 414 24

P(%) 100.0 R(%) 100.0 F值(%) 100.0

第3章 基于CRF模型的消歧实验

將 我 信 聞 之 能 平均 683 412 115 230 447 325 683 412 115 230 447 325 682 408 115 230 447 325 99.85 99.03 100.0 100.0 100.0 100.0 99.81 99.85 99.03 100.0 100.0 100.0 100.0 99.81 99.85 99.03 100.0 100.0 100.0 100.0 99.81 减少一定的复合特征,模板T5的实验结果如表3.10: 表3.10 T5实验结果

词语 如 將 我 信 聞 之 能 平均 T5 Total 414 683 412 115 230 447 325 Tagged 414 683 412 115 230 446 325 Correct 414 677 407 115 230 444 325 P(%) 100.0 99.12 98.79 100.0 100.0 99.55 100.0 99.50 R(%) 100.0 99.12 98.79 100.0 100.0 99.33 100.0 99.47 F值(%) 100.0 99.12 98.79 100.0 100.0 99.44 100.0 99.49 模板T6的实验结果如表3.11:

表3.11 T6实验结果

词语 如 將 我 信 聞 之 能 平均 T6 Total 414 683 412 115 230 447 325 Tagged 414 683 412 115 230 447 325 Correct 414 679 407 115 230 446 325 P(%) 100.0 99.41 98.79 100.0 100.0 99.78 100.0 99.62 R(%) 100.0 99.41 98.79 100.0 100.0 99.78 100.0 99.62 F值(%) 100.0 99.41 98.79 100.0 100.0 99.78 100.0 99.62 注:平均值的计算方法均采用加权平均。

从上面的封闭实验测试可以看出,总体而言,CRF模型的性能是相对很稳定的。模板T3和模板T4,封闭测试取得了最好的实验结果,平均F值达99.81%。通过比较两组模板下的实验标注语料,语料个例的标注正确与错误是相同的,这也说明了在信息充足的情况下,我们所定义的语言学特征不再起作用。比较T1、T3、T5的结果,T3的F值高于T1和T5,说明在考虑相同的上下文词形、词性的特征时,扩大上下文窗口并不能提高识别的效果,反而有所降低。通过对比

25

第3章 基于CRF模型的消歧实验

T1与T2,T5与T6,可以看出,与以往单纯利用上下文词、词性作为特征,我们增加了词语长度和目标词的读音这两个语言学特征后,召回率得到了比较大的提高,分别为:0.42%、0.15%,进而平均F值分别提高了:0.23%、0.13%。 3.5.2开放测试时特征模板实验

我们对表3中的6个模板进行了实验,模板T1的实验结果如表3.12:

表3.12 T1的实验结果

词语 如 將 我 信 聞 之 能 平均 T1 Total 179 292 176 49 99 194 141 Tagged 176 288 168 48 97 175 138 Correct 148 252 142 29 91 151 130 P(%) 84.09 87.5 84.52 60.42 93.81 86.29 94.2 86.51 R(%) 82.68 86.3 80.68 59.18 91.92 77.84 92.2 83.45 F值(%) 83.38 86.9 82.56 59.79 92.86 81.84 93.19 84.95 模板T2的实验结果如表3.13: 表3.13 T2的实验结果

词语 如 將 我 信 聞 之 能 平均 T2 Total 179 292 176 49 99 194 141 Tagged 179 292 176 49 98 194 141 Correct 150 255 148 29 92 160 133 P(%) 83.8 87.33 84.09 59.18 93.88 82.47 94.33 85.65 R(%) 83.8 87.33 84.09 59.18 92.93 82.47 94.33 85.58 F值(%) 83.8 87.33 84.09 59.18 93.4 82.47 94.33 85.61 扩大一定的上下文窗口,模板T3的实验结果如表3.14: 表3.14 T3 的实验结果

词语 如 將 我 信 T3 Total 179 292 176 49 Tagged 174 288 171 43 Correct 147 254 151 29 26

P(%) 84.48 88.19 88.3 67.44 R(%) 82.12 86.99 85.8 59.18 F值(%) 83.29 87.59 87.03 63.04 第3章 基于CRF模型的消歧实验

聞 之 能 平均 99 194 141 97 175 137 91 147 129 93.81 84 94.16 87.37 91.92 75.77 91.49 83.89 92.86 79.67 92.81 85.60 模板T4的实验结果如表3.15: 表3.15 T4实验结果

词语 如 將 我 信 聞 之 能 平均 T4 Total 179 292 176 49 99 194 141 Tagged 179 290 176 49 98 194 141 Correct 147 255 157 30 91 160 132 P(%) 82.12 87.93 89.2 61.22 92.86 82.47 93.62 86.25 R(%) 82.12 87.33 89.2 61.22 91.92 82.47 93.62 86.02 F值(%) 82.12 87.63 89.2 61.22 92.39 82.47 93.62 86.13 减少一定的复合特征,模板T5的实验结果如表3.16: 表3.16 T5实验结果

词语 如 將 我 信 聞 之 能 平均 T5 Total 179 292 176 49 99 194 141 Tagged 176 289 169 47 96 174 139 Correct 145 255 155 29 90 147 131 P(%) 82.39 88.24 91.72 61.7 93.75 84.48 94.24 87.34 R(%) 81.01 87.33 88.07 59.18 90.91 75.77 92.91 84.25 F值(%) 81.69 87.78 89.86 60.42 92.31 79.89 93.57 85.77 模板T6的实验结果如表3.17: 表3.17 T6的实验结果

词语 如 將 我 信 聞 之 能 T6 Total 179 292 176 49 99 194 141 Tagged 179 291 176 49 98 194 141 Correct 146 256 158 30 91 162 133 27

P(%) 81.56 87.97 89.77 61.22 92.86 83.51 94.33 R(%) 81.56 87.67 89.77 61.22 91.92 83.51 94.33 F值(%) 81.56 87.82 89.77 61.22 92.39 83.51 94.33 第3章 基于CRF模型的消歧实验

平均 86.52 86.37 86.45 从上面的开放实验可以看出,模板T6利用上下文窗口为2的词形和词性原子特征,并加入上下文窗口为1的词形的复合特征、词性的复合特征、词形和词性信息的一元复合特征及语言学特征,词义消歧取得了最好的实验结果,平均F值达86.45%。比较T1、T3、T5的结果,T1的F值高于T3和T5,说明在考虑相同的上下文词形、词性的特征时,扩大上下文窗口并不能提高识别的效果,反而有所降低。通过对比T1与T2,T3与T4,T5与T6,可以看出,与以往单纯利用上下文词、词性作为特征,我们增加了词语长度和目标词的读音这两个语言学特征后,召回率得到了比较大的提高,分别为:2.13%、2.13%,2.12%,进而平均F值分别提高了:0.66%、0.53%,0.68%。每个特征都对标注分类有正面和反面的效果,如何选择特征是实际应用中的最重要问题之一。 3.5.3窗口对实验的影响

为了考察在相同的特征下不同的上下文窗口对消歧结果的影响,我们在开放测试时,使用上下文窗口的词、词性的原子特征、上下文窗口的词、词性的复合特征、上下文窗口的词与词性的一元复合特征,上下文窗口从1变化到3进行了实验,结果分别如表3.18~3.19:

表3.18 窗口为1时的实验结果

词语 如 將 我 信 聞 之 能 平均 L=1 Total 179 292 176 49 99 194 141 Tagged 179 292 176 49 98 194 141 Correct 150 255 148 29 92 160 133 P(%) 83.8 87.33 84.09 59.18 93.88 82.47 94.33 85.65 R(%) 83.8 87.33 84.09 59.18 92.93 82.47 94.33 85.58 F值(%) 83.8 87.33 84.09 59.18 93.4 82.47 94.33 85.61 表3.19 窗口为2时的实验结果

词语 如 將 我 信 聞 L=2 Total 179 292 176 49 99 Tagged 179 290 176 49 98 Correct 146 254 160 31 91 28

P(%) 81.56 87.59 90.91 63.27 92.86 R(%) 81.56 86.99 90.91 63.27 91.92 F值(%) 81.56 87.29 90.91 63.27 92.39 第3章 基于CRF模型的消歧实验

之 能 平均 194 141 194 141 160 132 82.47 93.62 86.42 82.47 93.62 86.19 82.47 93.62 86.31 表3.20 窗口为3时的实验结果

词语 如 將 我 信 聞 之 能 平均 L=3 Total 179 292 176 49 99 194 141 Tagged 179 290 176 49 98 194 140 Correct 146 255 147 33 92 153 131 P(%) 81.56 87.93 83.52 67.35 93.88 78.87 93.57 84.99 R(%) 81.56 87.33 83.52 67.35 92.93 78.87 92.91 84.69 F值(%) 81.56 87.63 83.52 67.35 93.4 78.87 93.24 84.84 实验结果比较L1与L2、L2与L3,发现CRF随着窗口的扩大,会带来一定的噪声影响进而影响正确率的提高,当窗口为3时,仅仅多正确标注了4个,但多错标了21个,F值下降了1.47%。这表明消歧的效果随着窗口的扩大而降低,扩大窗口的同时带来了更大的噪声,这与古汉语句子简短、句法组合简单的特点密切相关。 3.5.4实验分析

对于实验结果的分析,CRF的最好效果达到86.45%,这说明CRF在词义消歧方面有较理想的性能,尤其在我们实验中的部分词的义项个数较多的情况下。实验中我们增加了一定的语言学特征,通过不同的实验摸索了不同的特征对消歧效果的影响,并考察了上下文窗口大小对结果的影响。实验中,“信”的F值始终偏低,主要原因如下:(1)从语料方面看,意义的判别需要更大的上下文语境,简单的句子字面信息反映不出该词的实际意义。因此即使是我们在人工标注的过程中,也要不断的回到原文中寻找更大的语境来判别标注词义,对这样的词词义消歧困难更大。(2)由于“信”在语料中复杂的语法特征,语料在经过人工分词和词性标注时,但仍存在一些标注失误,在一定程度上影响了实验结果。

从数据来看,CRF模型对于多分类问题表现出来较好的效果和稳定性,主要在于CRF模型具有表达长距离依赖和组合特征的能力,把所有特征进行全局归一化,进而求得最优值。此外,现代汉语词语消歧往往需要较大的上下文窗口,需考虑更多词的搭配等信息,而古汉语实验窗口的过大往往会产生更多的噪声,导致正确率的下降。

29

第3章 基于CRF模型的消歧实验

3.6 本章小结

CRF是近几年来机器学习领域非常流行的方法,特别擅长处理序列标记问题,善于将所有特征进行全局归一化,具有表达元素长距离依赖性和交叠性特征的能力,能方便地在模型中包含领域知识,进而求得全局的最优值。本章主要介绍了CRF的基本原理、特征模板的设计与选择。实验结果表明,CRF模型取得了较高的词义标注正确率。目前在自然语言处理领域,CRF模型多用于词语切分、词性标记和浅层语义分析等领域,本章尝试引入CRF模型来从实例库自动学习消歧知识,分析了特征选择与模板的构造等一系列细节问题。通过构造六个不同的模板来进行相应的实验,验证了模型在词义消歧任务中的突出表现,效果较理想。基于CRF的消歧方法避免了规则知识库的建造,但毕竟单分类器的性能有限,在下一章中,我们尝试使用多分类器集成的方法来提高消歧效果。

30

第4章 基于单分类器集成的消歧实验

第4章 基于单分类器集成的消歧实验

在第三章中,我们使用CRF模型通过学习消歧知识来自动进行消歧,取得了较好的结果。但一般来说,单从一个侧面描述词性标注知识存在一定的局限性,尤其当训练语料达到一定规模、训练过程达到一定程度之后,标注精度很难再有进一步的提高,甚至有时还会降低。正如郭永辉[36]等指出的,“当某一模型完善到一定程度后,再通过增加训练语料和训练量的办法来提高标注精度已无任何意义。”因此,本章基于机器学习的思想,采用分类器集成学习的方法,对多个分类器进行集成,以增加信息量,充分利用目标词的上下文语境,减少单个分类器的误差,进而提高消歧的效果。本章在《春秋左传》语料上进行了集成测试。通过分类器的集成性研究,使各有所长的几个分类器取长补短,充分发挥各自优势,取得了古代汉语词义消歧的良好效果。

4.1集成学习简介

传统的机器学习方法是在一个由各种可能的函数构成的空间(称为“假设空间”)中寻找一个最接近实际分类函数的分类器。单个分类器模型主要有决策树、人工神经网络、朴素贝叶斯分类器[37]等等。集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类[38],以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。图4.1表示了集成学习的基本思想。图中的集成分类器包括了N个单一的人工神经网络分类器,对于同样的输入,N个人工神经网络分别给出各自的输出(O1,O2,O3?On),然后这些输出通过整合以后得到集成分类器整体的输出结果来作为最终分类[39]。

31

第4章 基于单分类器集成的消歧实验

图 4.1 人工神经网络集成示意

理论证明集成学习方法是非常有效的。Thomas G. Dietterich[40,41]指出了集成学习有效可以归为三个方面的原因:统计上、计算上和表示上

(1)统计上的原因

对于一般的学习任务,往往要搜索的假设空间十分巨大,但是能够用于训练分类器的训练集中实例个数不足够用来精确地学习到目标假设,这个时候学习的结果便可能是一系列满足训练集的假设,而学习算法之能够选择这些假设的其中之一作为学习到的分类器进行输出。然而通过机器学习的过拟合问题[37]我们看到,能够满足训练集的假设不一定在实际应用中有同样好的表现,这样学习算法选择哪个假设进行输出的时候就面临着一定的风险,把多个假设集成起来能够降低这种风险(这可以理解为通过集成使得各个假设和目标假设之间的误差得到一定程度的抵消)。

(2)计算上的原因

已经证明了在人工神经网络学习和决策树学习中,学习到最好的人工神经网络或者是决策树是一个NP-hard问题,其他的分类器模型也面临着类似的计算复杂度的问题。这使得我们只能用某些启发式的方法来降低寻找目标假设的复杂度,但这样的结果是找到的假设不一定是最优的。通过把多个假设集成起来能够使得最终的结果更加接近实际的目标函数值。

(3)表示上的原因

由于假设空间是人为规定的,在大多数机器学习的应用场合中实际目标假设并不在假设空间之中,如果假设空间在某种集成运算下不封闭,那么我们通过把假设空间中的一系列假设集成起来就有可能表示出不在假设空间中的目标假设。关于表示上的原因比较特别,进一步的说明可以参考文献[42,43]。

[42]

32

第4章 基于单分类器集成的消歧实验

4.2参与集成的分类器的选择原则

机器学习领域关于分类的模型和算法很多,对于进行集成的单分类器的选择我们遵循了两个主要原则:(1)单分类器的互补程度要高,其分类结果应具有多样性。因此我们尽量选用了不同类型的分类器进行集成,避免同类分类器犯同样的错误。(2)单分类器的准确率要高。单分类器的学习是集成分类器学习的一部分,对于词义消歧任务而言,更要尽量要求单分类器的准确率要高,否则势必会影响到集成的效果。

本文选用的相对词频比(RFR_SUM)模型充分考虑了上下文词的相对词频的信息,区分前后语境,未考虑到歧义字段前后语境的词性、词形等语言学信息,我们贯彻了第一条原则,使用CRF模型充分考虑利用了目标词前后语境的词性、词形等信息,并增加语言学特征以进行弥补,很明显,对集成分类器的精确度的提高有所帮助。

条件随机场模型(CRF)、最大熵模型、朴素贝叶斯、K近邻分类器等都是经过测试了的高效率模型,已广泛应用于自然语言处理的各项任务中。以上五个模型从精确度和性能上都满足选择分类器的原则,实践也证明了其用于词义消歧实验的优越。

4.3选择的单分类器及其介绍

4.3.1朴素贝叶斯(NaiveBayes)分类器

NaiveBayes算法是基于贝叶斯全概率公式的一种分类算法,它以贝叶斯定理为理论基础,是一种在已知先验概率和条件概率的情况下计算后验概率的模式识别方法。朴素贝叶斯分类算法有一个基本限制:在给定特征条件下的属性值之间必须相互条件独立,即特征项独立性假设。尽管在现实世界中,这种独立性假设经常是不能满足的,但目前许多研究和应用都表明,即使违背这种假定,它也表现出很强的健壮性。它综合考虑多个特征进行消歧,公式如下:

P(Si|C)?P(C|Si) (4.1)

P(C)C表示多义词出现的上下文,Si表示多义词的第i个义项。文献[36]实验了6个英语多义词(duty,drug,land,language,position,sentence),消歧准确率达到90%左右。[37]利用朴素贝叶斯分类器,仅仅使用词袋特征,根据窗口大小,有0,1,2,3,4,5,10,25,50,共计9类81个贝叶斯分类器。根

33

第4章 基于单分类器集成的消歧实验

据窄、中、宽,3种窗口大小,分成9大类。通过交叉验证,把数据按照8:1:1进行划分,8份用来训练,中间1份作为development集,用来对每个分类器进行评测。最后1份作为测试。作者从9类中分别选择出最优的一个分类器,进行组合投票。这样做的效果,优于直接把81个进行投票。Pedersen[44]认为应该尽可能的组合窗口大小差别比较大的分类器。

国际语义评测SemEval-2007的中英文对译选择词消歧任务(SE_CE)中,6个参赛系统有2个使用了NaiveBayes分类器[45],在词义消歧方面就表现出了很好的性能。

4.3.2 K近邻(KNN)分类模型

K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。它的应用十分广泛,包括知识发现与数据挖掘、模式识别与分类、机器学习、数据压缩、多媒体数据库、文档修复以及统计学等。最近邻分类法的最显著优点是分类准确率高、泛化性能好。 4.3.3相对词频比(RFR_SUM)分类模型

曲维光[46]等提出了相对词频的概念,据此建立语境计算模型,充分利用歧义字段前后词语的词频等语境信息对组合型分词歧义进行消解。该模型不仅考虑了语境中存在的词频,而且考虑了语境中出现词语相对于整个语料词频的相对比率,用相对词频来模拟人们判断语境中出现词语对消歧的重要程度;同时又区分了语境的位置,将语境分为前语境和后语境,从而把前后语境出现的词语区分开来,提高了语境信息计算的准确性。将语境的相对词频相加的过程,类似于人们根据语境信息进行综合决策的过程。模型较好地模拟了人类分词消歧的过程,具有本真性。文献中的算法主要针对二值分类,其算法如下:

训练过程描述如下:

步骤1.选择一个大规模的语料库,经过分词系统处理,形成经过分词的语料。

34

本文来源:https://www.bwwdw.com/article/gfh3.html

Top