英语考试翻译自动评分中双语对齐技术的应用

更新时间:2023-05-15 07:55:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

国内外作文评分系统文献

第125期2009年01月

外语电化教学CAFLEC

No.125Jan. 2009

3版权所有 文责自负3

语料库语言学研究

英语考试翻译自动评分中双语

对齐技术的应用

文秋芳,秦,(北京外国语大学 100089)

摘 要:。本文提出了将自然语言

、多词单位对齐等用于翻译自动评分系统的方法,分析了未对齐。实验用训练语料来自学生真实译文,并由专家进行人工评分。结果表明:对齐的数目和翻译得分显著相关,双语对齐数可以作为多元回归构建的翻译评分模型中一项重要的参数。最后讨论了影响对齐数目和得分相关性的因素。

关键词:自动翻译评分;词对齐;多词单位对齐;双语对齐中图分类号:H319.3文献标识码:A文章编号:100125795(2009)012000320005  语言考试主观题自动评分能够降低人工阅卷带来的大量人力物力消耗、提高评分的客观性、可信度和准

确度(陈潇潇,葛诗利,2008;梁茂成,文秋芳,2007)。同时,主观题自动评分系统能够在保持基本模型不变的情况下,经过适当调整就可以适应不同的测试题目,具有良好的可重用性和经济性。因此,语言考试主观题自动评分成为现代语言测试的重要研究方向之一。

主观题常见的题型是作文和翻译。国内外对于作文自动评分的研究已取得了不少成果(Burstein&Chodorow,1999;梁茂成,2005;李亚男,2006),并且已有商用的作文自动评分系统在运作,著名的有PEG,IEA,E-rater等(陈潇潇,葛诗利,2008;梁茂成,文秋芳,2007)。相比之下,对于另一类主观题———翻译,无论是理论研究上(穆雷,2006)还是自动评分实践上都鲜有研究。翻译测试的评分方法可以部分借鉴作文评分,但二者在测试目的和标准上存在不少差异(穆雷,2006)。翻译自动评分必然不能照搬作文自动评分的方法:首先,翻译自动评分涉及至少两种语言信息的处理,作文自动评分一般只需同时处理一种语言;其次,

翻译中原文是译文的约束,译文要和原文实现意义的对等转换,能否忠实于原文是翻译评分的重要依据(穆雷,2006),相比之下,作文的内容要自由得多,文章作者的思想表达和语言运用能力是作文得分高低的评判依据。

对于翻译自动评测,目前的研究角度主要有两个:一个是外语电化教学:在普遍开展的英语网络教学中,利用翻译题库出题,然后对学习者的翻译结果给予评分。如:田艳(2008)介绍了一个课程测试系统Yan2Fa,以人工方式构建翻译数据库,预先标记所有的评分点,并人工为每个评分点搜集4个同义或近义的译文。评分过程中,根据是否和评分点的人工译文相匹配作为得分的依据。建立这种翻译评分系统需要大量的人工干预,不是真正意义的自动评分,系统的可重用性差,难以适应大规模考试的需求。另一个研究角度是在自然语言处理方向对机器翻译系统的自动评测。评测时一般先有一篇标准的人工译文,采用相似度计算方法比较机器译文和人工译文(姚建民etal.2004),实现对机器翻译质量的评测。相似度计算方法采用较

作者简介:文秋芳:女,教授,博士生导师。研究方向:应用语言学、第二语言习得。

秦 颖:女,博士后。研究方向:计算语言学、自然语言处理、机器学习。江进林:女,博士生。研究方向:应用语言学。

收稿日期:2008209220

3

国内外作文评分系统文献

文秋芳,等:英语考试翻译自动评分中双语对齐技术的应用

多的是基于n2gram的各种方法,如BLEU、NIST和openE等(孙连恒,杨莹,姚天顺,2004)。但评测机器翻译性能和语言考试中评测应试者的翻译能力也存在诸多不同点:首先,相对机器译文,人工译文在词语和句式表达上更灵活多变,但译文的长度变化不大(排除对原文不理解,译文不完整的情况),然而机器翻译的结果有时会过长或过短(孙连恒etal.,2004)。第二,评测机器翻译主要是测试系统对于不同文章不同句子的翻译效果,而翻译考试评分是对同一原文不同应试者的译文打分。第三,和人工标准译文的相似性,好坏的评价,几乎无需考al.,2004);和语言理解能力,,。最后,两种评测的目的不同,评分标准也自然不同。可见,语言考试翻译自动评分也不同于机器翻译的自动评测。

多元回归已成为自动作文评分的一项基本技术(梁茂成,文秋芳,2007),同样是主观题评分问题,本文也采用多元回归的思想构建英译汉翻译自动评分系统。回归变量的挖掘是模型构建的重点。作文自动评分中常用的变量有n2gram、词性等文本特征(Burstein&Chodorow,1999)。翻译自动评分同样可以依据这些特征变量衡量译文的质量,除此之外,译文更要考虑译文和原文的翻译对等关系,这是翻译评分和作文的根本的差别。译文是否忠实于原文是翻译评分的重要依据,在翻译评分标准中,误译和漏译都要扣分(刘润清,1991)。自然语言处理双语对齐的任务是提取平行语料中两种语言翻译对等单位,而翻译中误译和漏译都不会在译文中出现对等的部分。因此本文尝试将双语对齐技术应用到翻译自动评分中,考查双语对齐的结果对翻译自动评分的影响。

本文以英译汉自动评分为研究内容,因此采用的是英汉对齐技术。下文内容的安排是:首先介绍自然语言处理中对齐技术以及本文在翻译自动评分中采用的词对齐和多词单位对齐算法。第二部分是对齐技术在翻译评分实验中的结果及未对齐情况的分析。最后为结论部分。

齐。双语对齐在双语语料库建设、词典编撰、机器翻译、跨语言信息检索等领域有着广泛的应用。本文的研究从已经对齐的句对出发(对于篇章翻译,做句子自动对齐后就能得到双语句对,鉴于篇幅,本文不讨论句对齐),讨论词对齐和多词单位对齐。1.1 词对齐

。这、复合、(Xu,Websterand:为每种语言

,又称连接单位(linkunit);有的还可以进一步标注更多信息,如词性赋码等。英语的对齐单位较容易确定,词一般根据空格定界,特殊语块如固定短语、习语等也可利用词典较方便地确定。而汉语的词对齐单位较难确定,句子是由连续的字串构成,没有明确的词边界,需要切分确定词边界。英汉词对齐的情况很复杂,具体形式包括1∶0,0∶1,1∶1,1∶多,多∶1和多∶多等几种对齐情况(刘小虎etal.,1997)。

1∶0表示英语的某个词在汉语译文中没有对等的部

分,代表了未翻译的情况,主要包括以下几种未译情况:

(a.)引导主语从句、宾语从句的连词that,which等;(b.)助词be、冠词the、限定词this,that;

(c.)特定句式中的词语,如:

强调句:itisadj.+todo中的itis;存现句:therebe(d.)部分介词:

如:inrecentyears(近年来)

0:1代表了汉语译文中为使意义完整或句子表达

流畅的需要而添加的词语。在译文中,没有对等的原文。这两类对空的情况反映了两种语言在语法和表达上的差异。

1:1表示英语的单词和汉语某个词的互译关系;1:多、多:1和多:多则反映了两种语言在单个词上对

应关系模糊,需上升到高一级语言单位的翻译对应。例句(1)反映了词对齐的复杂情况

1 双语对齐

平行语料的对齐包括篇章对齐、段落对齐、句对齐、多词单位对齐和词对齐等不同语言粒度的翻译对 4

句中有四个词(一个标点)的对齐情况是1:1,但

this的译文加入了汉语特有的量词“种”,是1:2的情况,而characterize被译为一个长距离多词搭配关系。词对齐中,最复杂的情况是英语和汉语中的分离结构

国内外作文评分系统文献

文秋芳,等:英语考试翻译自动评分中双语对齐技术的应用

的对应(刘小虎etal.,1997),英语中存在多词对齐单位被形容词、限定词等分隔开的情况,汉语更存在离合词的问题。这些都使得词对齐任务十分复杂。

目前用于词对齐的主要算法有:基于词典的方法(刘小虎etal.,1997)、基于统计的方法(Moore,2005)及二者结合的混合方法(吕雅娟,赵铁军,李生,2001)。统计方法中又以有监督的学习方法为主。由于缺乏已经词对齐的语料做训练,统计方法的词对齐不便使用,本文采用了基于词典的词对齐算法。基于词典的词对齐往往有较高的准确率(precision),1.2 词对齐算法描述,对齐:,。英语一个单词和汉语一个词对应的,属于1:1的情况;英文短语和汉语一个词对应的情况,属于多:1的情况。完全词典匹配法就能实现这部分词的对齐。第二步,部分对齐单位的所有词典翻译都不出现在译文中,可能被译为其他同义或近义的词。为了也能对齐这部分词,我们需要对其词典翻译做同义或近义扩展,然后再去对齐。最后一步,处理多:多的对齐情况,即部分单词或短语的词典翻译和多个汉语的词对应。1.2.1 完全词典匹配

采用最大匹配原则(MaximumMatching),在词典中查找英语原文所有对齐单位的所有译文,根据词典检索对应的汉语译文,若该对齐单位的一个词典翻译出现,则对齐成功,提取相应的词对,输出结果;同时从译文中删除该词,继续下一个对齐。1.2.2 同义和近义扩展

对于那些完全词典匹配不成功的词语,我们利用同义词词林,查找所有词典译文的近义词,得到扩展词典翻译集,再到汉语译句中检索,若出现在扩展集中,则对齐成功,提取词对;并删除译文中的该词,继续。1.2.3 多对多对齐词典中的翻译没有经过切分,有的翻译并不是一个词,和经过汉语切分后的译文匹配时,出现对多的情况,例如:

reluctant的词典翻译是“不愿,不愿意”,而“不愿”“不愿意”在译文切分时均被分作两个词。因此,对于前面两步未能对齐的词或短语,在译文更大的连续词串中查找,就可以实现一对多和多对多的对齐。

通过以上三步,完成基于词典的词对齐,除了未译

的情况,尽可能地实现原文和译文在词一级的对齐。1.3 多词单位对齐

在翻译中,译者并不是逐词对原文进行翻译,而是一次处理由多个词组成的语言单位。一般来说,这些多词语言单位的意义比较完整,有研究者将这种多词单位称为翻译单元(translation)(Wang,2007)。”,它们的范围更”。本文的多词单(陈博兴,。做多词单位对齐是为了对比词对齐对。由于目前机器自动识别还有困难,我们人工划分了原文的多词单位,并给出了多种对应的译文。

多词单位对齐的关键问题是多词单位分离现象的对齐。多词单位表的形式如下:

ischaracterizedby以…为特征ashighas和…一样多

其中…可以是1或多个词,没有确定数目。一般情况下,这种分离现象的译文不跨标点符号,即各部分仍在同一个子句中。在这个假定下,本文利用模式匹配解决了分离的多词单位的对齐。例句(2)是多词单位对齐的示例

:

(2)

2 对齐技术在翻译评分中的应用

2.1 语料

本实验使用的语料来自国内三所不同水平层次的高校英语专业三、四年级学生英译汉笔译作业。原文为一篇300字左右的英语说明文,共15个句子,在限定时间内完成译文。最后收集译文310篇。译文收集后,三名评分员对每篇译文逐句进行人工评分。这三名评分员均是有一定高校教学经验的、英语专业的博士生。评分包括形式和语义两个方面。由于对齐技术更有助于翻译自动评分中的语义评分,本研究仅使用人工语义方面的评分,此处暂不探讨人工形式方面的评分。好的人工评分是后期机器评分有效的前提保证。在对每个句子进行评分之前,三名评分员都对评分标准进行了细致深入的探讨。评分员语义评分信度如表1:

5

国内外作文评分系统文献

文秋芳,等:英语考试翻译自动评分中双语对齐技术的应用

表1 人工评分的相关性

评分1&评分2评分2&评分3评分1&评分3评分间alpha系数语义

0.951(33)

0.843(33)

0.876(33)

0.957

注:(33)在0.01水平(双侧)上有显著意义。

可见,语义评分的信度和内部一致性均令人满意。

每篇译文的篇章语义总分为三名评分员所评总分的平均分。本译文中随机选择160篇为训练集,另外150篇为测试集。翻译自动评分模型采用线性多元回归方法构建,将对齐的数目作为模型的一个参数引入,考查该参数和分数的相关性。2.2 词对齐

。在基于词典的词对齐时,。英汉词典包括基本词汇36,655,常用短语46,276,共82,931条。同义词词林使用了哈工大信息检索研究室同义词词林扩展版,共9,994组近义词类。2.2.1 词对齐的性能

义为:“刻画,形容”,没有“表明”这一项,同时词典义

项的近义词在同义词词林中为“描写、描绘、写、状、描摹、勾画、勾勒、勾摹、写照、抒写”,也没有“表明”,因此未能对齐。实际上,译为“表明”是不恰当的。

第二类情况是分离词的译文没有对齐,主要是因,依据词典无。

。这其中也可能alsoquarrelinpublicorputupafa2ofbeingcompatible.

译文:有时他们也会在公共场合争吵,但是也会做出“夫唱妇随”的假相。

Compatible未能和“夫唱妇随”对齐。这也是基于词典的词对齐的不足之处。

第四类情况是未译但合理的词,如:the,a,that等。为了更好的反映译文对齐情况,本文将此类词列入停用词,在词对齐操作前将其过滤掉。停用词表不能包含有意义的实词和起关联作用的连词。本文最终确定的停用词表共有a,an,there,that等11个词。

表2为训练集和测试集译文词对齐的数目和翻译得分的相关性分析(PearsonCorrelation)。“词典”一列为单纯依据词典的词对齐数目和分数的相关性,“词林”一列是根据词林进行意义扩展后的对齐和分数的相关性,“停用”一列是在二者对齐的基础上过滤掉停用词后的相关性。考虑到人工评分标准中相同的词的翻译只评判一次的情况,词对齐的结果也对无重复对齐的数目和分数做了相关性分析,但结果没有提高,见表2“无重复”一列。

表2 词对齐数和翻译评分的相关性

相关性训练集测试集

词典0.5960.621

词对齐系统的性能从准确率(precision)和召回率

(recall)来衡量,定义为:

准确率=召回率=

正确对齐的词数对齐的总数总词数

原文根据词典划分为171个对齐单位,在310篇译文中,最多的对齐了128个单位,其中正确的有120个,对齐的正确率为93.8%,召回率为70.2%。对比类似研究,刘小虎etal.(1997)对6万英汉句对中实词的对齐正确率为79.5%。吕雅娟etal.(2001)的英汉词对齐也是利用了双语词典,并考虑了完全匹配、模糊匹配、语义相似匹配、统计词性匹配、共现统计补充词表以及位置因素等,对初中、高中和大学英语课本中的3万句对进行了对齐研究,包含空对齐的词对齐正确率为80.87%,召回率为78.75%。尽管本文语料规模较小,但词对齐仍达到了较好的性能。2.2.2 译文未对齐情况的分析

词林0.6200.656

停用0.6230.652

无重复0.5670.619

在0.01水平(双侧)上有显著意义

第一类情况是因为译文的漏译和误译造成的未对齐,这个数目和译文质量紧密相关。比如例句(3)

:

结果表明,词对齐的数目和翻译得分显著相关。通过同义词词林扩展义项后,对齐的数目多了,相关度也随之提高。但并不是对齐词的越多越相关,停用词对相关度也有影响。综上,词对齐数可以作为一个重要回归参数用于翻译评分模型。2.3 多词单位对齐

结合评分标准,人工提取了和评分点相关的多词单位共73个,多词单位最长由6个单词组成。人工给出可能的译文,其中包含有分离结构。汉语译文不必

句中characterize没有对齐。characterize的词典意 6

国内外作文评分系统文献

文秋芳,等:英语考试翻译自动评分中双语对齐技术的应用

切分。对齐的数目和翻译得分的相关性如表3。结果表明:人工规定的多词单位,比词语有更大的粒度,语义上更完整,对齐的数目和分数更相关。不计重复的对齐时,相关性更高,这和词对齐的情况不同,可能与词的粒度较小有关。

表3 多词单位对齐数和分数的相关性

相关性训练集测试集

记重复多词单位

0.7440.735

参考文献

[1] Burstein,J.&M.Chodorow.AutomatedEssayScoringfor

NonnativeEnglishSpeakers[A].ProceedingsoftheACL99WorkshoponComputer2Mediated,LanguageAssessmentandEvaluationofNaturalocessing,CollegePark[C],MD,1999.

[2]RobertC.meworkforBilingual

CofHumanLanguage

andConferenceonEmpiricalMethodsinLanguageProcessing(HLT/EMNLP),Vancou2ver,2005,81:88.

[3] ScottSonglinPiaoandTonyMcEnery.Multi2wordunitalign2

mentinEnglish2Chineseparallelcorpora[C].2001,466:475.

[4] WeiqunWang.Corpus2DrivenStudyofTranslationUnitsin

anEnglish2ChineseParallelCorpus[C].ProceedingsoftheCorpusLinguisticsConference,2007.

[5] ZhimingXu,JonathanJ.WebsterandChunyuKit.New

Dictionary-basedWordAlignmentAlgorithm[J].JournalofChineseLanguageandComputing,2006,16(4):225-237.

[6] 陈博兴,杜利民.基于双语语料的单个源语词汇和目标语

InthePro2

ceedingsoftheCorpusLinguistics2001,Lancaster,UK,

不计重复多词单位

0.7460.740

词对齐最佳值

0.6230.652

在0.01水平(双侧)上有显著意义

2.4 ,,但召回率较低以下几方面:第一,译文是否正确,只要有一个词典义项被译出就认为对齐了,这样就会把错误的翻译也纳入对齐的数目。第二,基于词典的词对齐对于非词典中的词无法对齐,例如部分专名就无法找到对等的翻译。第三,词对齐孤立地从词汇一级评价译文的质量,没有考虑语序、搭配关系、上下文环境等因素,更不能以此评价译文的连贯性、地道性等特点,即使所有词都能很好的实现对齐,也不能说明译文的质量就一定高。因此评分模型依然需要其他文本特征参数。第四,实际评分中,得分并不是在各个词上平均分布的,有的词反映句子的核心内容,对测试者的水平有较高的区分度,应该给予较高的分数;有的词很普通,在句子中的语法语义上的作用不大,分数分布较少。但在目前的对齐技术用于翻译评分中,还没有自动赋予不同的对齐词以不同得分,这也是影响对齐数目和分数相关的重要因素之一。最后,多词单位对齐数和分数的相关性明显高于词对齐和分数的相关性,因此在大规模考试翻译评分中,人工进行评分点的选择对于构建高性能的评分模型是有利的。

多词单元的对齐[J].中文信息学报,2003,17(1).

[7] 陈潇潇,葛诗利.自动作文评分研究综述[J].解放军外国

语学院学报,2008,31(5).

[8] 李亚男.汉语作为第二语言测试的作文自动评分研究

[D].北京:北京语言大学博士论文,2006.

[9] 梁茂成.中国学生英语作文自动评分模型的构建[D].南

京:南京大学博士论文,2005.

[10] 梁茂成,文秋芳.国外作文自动评分系统评述及启示

[J].外语电化教学,2007,(117).

[11] 刘润清.语言测试和它的方法[M].北京:外语教学与研

究出版社,1991.

[12] 刘小虎,吴 葳,李 生,等.基于词典和统计的语料库

3 结论

本文对比了考试翻译自动评分和网络课程教学翻译评分及机器翻译自动评测的差异,根据翻译评分的特点,提出将自然语言处理中的双语对齐技术用于翻译自动评分,并给出了基于词典的词对齐的算法。对齐从译文是否存在误译和漏译角度对译文进行评价,通过语料实验结果说明,对齐数目和翻译得分显著相关,可以作为翻译自动评分多元回归模型中一个重要的参数。

词汇级对齐算法[J].情报学报,1997,16(1).

[13] 吕雅娟,赵铁军,李 生.统计和词典方法相结合的双语

语料库词对齐[A].黄昌宁,张 普,编.自然语言理解与机器翻译[C].北京:清华大学出版社,2001.

[14] 穆 雷.翻译测试及其评分问题[J].外语教学与研究,

2006,38(6).

[15] 孙连恒,杨 莹,姚天顺.OpenE:一种基于n2gram共现

的自动机器翻译评测方法[J].中文信息学报,2004,18

(2).

[16] 田 艳.翻译网上自动评分初探[J].中国科技翻译,

2008,21(1):33-36.

7

国内外作文评分系统文献

文秋芳,等:英语考试翻译自动评分中双语对齐技术的应用

[17] 姚建民,周 明,赵铁军,等.基于句子相似度的机器翻

2004,41(7):1258-1265.

译评价方法及其有效性分析[J].计算机研究与发展,

ApplicationofBilingualAlignmentTechnologytoAutomatic

TranslationScoringofEnglishTest

WENQiu2fang,QINYing,JIANGJin2lin

(NationalResearchCenterforForeignLanguageEducation,BeijingForeignStudies100089,China)

Abstract:Automatictranslationscoringisafocusedresearchissueandcomputertechnology.Thepaperprovidesanapproachofapplyinglanguageprocessing,includingwordalignmentandmulti2unitalignment,to.Casesofun2alignedwordsandmulti2unitsareanalyzedintranslations.Corporarealtranslationsfromstudentswhicharemanuallyscoredbyexperts.Experimmberofalignmentissignificantlycorrelatedwiththescores,stly,theeffectsontheofalignmentandtranslationscoresarediscussed.

Keywords:TranslationScoring;WordAlignment;Multi2UnitAlignment;BilingualAlignment

本刊会讯

2009 全国计算机信息技术与英语测试学

暨英语专业四、八级考试专题研讨会(1号通知)

为了加强全国英语测试学界的交流与沟通,教育

部高等学校外语专业教学指导委员会英语专业四、八级测试工作组决定联袂上海外语音像出版社《外语电化教学》杂志编辑部,于2009年11月召开全国“计算机信息技术与英语测试学 暨英语专业四、八级考试专题研讨会”。会议旨在介绍当前国内、国际最新语言测试学理论,尤其是英语测试学领域的理论探索;交流语言测试领域最新研究成果,着重探索计算机信息技术在语言测试过程前后的应用;在突出学术性、实用性的同时,研讨和展望语言测试的学科发展趋势,并交流和发布本年度四、八级考试的相关信息。

大会具体议题分为三大部分:一、当代语言测试理论研究二、当代语言测试实践及其计算机应用三、英语专业四、八级测试(TEM)专题研究

1.计算机信息技术与TEM命题研究2.计算机信息技术与TEM施考研究3.计算机信息技术与TEM评分研究4.计算机信息技术与TEM考试效度研究

本次大会拟设立由外语界知名专家组成的学术委

员会(学术委员会成员名单以及组委会组成人员名单等将在2号通知公布),会议确定邀请北外、广外、上外、北大(文秋芳、刘建达、邹申、俞士汶、曾用强、梁茂成等)知名学者莅临大会作主题报告。

本次大会由暨南大学外国语学院及深圳旅游学院承办,报到及开会地点:深圳,2009年11月18-22日(暂定,详细报到时间和地点届时另行通知)。

欢迎英语测试学界以及相关领域的专家学者参会,自本日起大会接受网上论文提交,并将进行优秀论文有奖评选。会议注册等信息请登陆网址/(右下角友情链接),或者直接登陆注册地址/Registry/index.ht2ml。联系及咨询方式请一律通过电子信箱:wydhjx@。

2009 全国计算机信息技术与英语测试 

 暨英语专业四、八级考试专题研讨会

组 委 会

200921216

8

本文来源:https://www.bwwdw.com/article/dlue.html

Top