基于维基百科的双语语料挖掘技术研究

更新时间:2023-06-09 06:21:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

应用科技

基于维基百科的双语语料挖掘技术研究

孟桂国

(苏州大学江苏省计算机信息处理技术重点实验室,江苏苏州

215006)

睛要】双语句段是机嚣翻译的重要资源,目前句段级语料库数量有限且集中在特定领域,很难适应真实的应用。本文介绍了利用维基百

科上存在的海量多语言文本资源,采用乙玎u,命名规则、HTML网页结构相似性、词语对齐和最大熵分类器技术。研究了一个双语语料自

动挖掘方法。实验结果表明挖掘到的双语平行或可比较句段的召回率为8b%,准确率为99%o

【关键圃维基百科;双语句段;平行或可}匕较网页

双语语f-4库E经成为机器翻译、翻译知识获取等研究不可缺少的重要资源。互联网的普及和迅猛发展,越来越多的网站成为双语或多语网站,且具有很好的时效性和覆盖性,是多语种语料库信息源。维基百科是—个多语言的、动态的、可自由访问、编辑、复制、修改的网络百科全书。如何从中挖掘双语句段为解决双语语料库的获取和实用化具有重要的意义。本文目的就是研究基于维基百科的双语语料挖掘,提出自动获取的方法。首先介绍步骤和模块;其次详细描述各模块的实现方法;最后给出总结和下—步工作。

1相关工作

基于Web的双语平行资源自动获取的研究,目前大多集中在翻译

词典获取方面。如加拿大蒙特利尔大学聂建云开发的系统PTMiner.美国马里兰大学Resnik开发的系统STRAND和基于内容实现方法的BITS系统等。大部分获取双语网页的规模小,得到的双语句对的互翻译效果也不佳,没有真正用于建立大规模双语资源库。本文采用基于DOM树和HTML结构一致性、词语对齐和最大熵分类器技术:其步骤:1)采集维基百科上中文网页URL:2)基于URL命名规则从获取的中文网页URL中,抽取配对的英文网页URL:3)利用DOM树和HTML结构一致性,从配对的中英文网页中挖掘平行或可比较句段。

1.1中英文双语网页I琅I获取

维基百科的中英文网站URL命名有一定的规律。如中文网页

URL

http://zh.wikipedia.org/zh—cn/南京,其中http://zh.

wikipedia.org/zh—cn/为pathnarne,南京为basename:配对的英文网页URLhttp://en.wikipedia.org/wiki/Nanjing,其中http://en.wikipedia.org/wiki/为pathname,Nanjing为basename,pathname是一致,basename中文网页URL是汉字,配对的英文网页URL是该汉字的汉语拼音全拼。利用这个规则获取配对的中英文网页URL。

12中英文双语平行或可比较网页确认

采用网页DOM树、词语对齐特征,把双语网页HTML结构相似

性作为—个有力的特征,从双语句段的内容上去衡量一对双语平行网页中那些句段是真正互翻译的,过滤掉不平行或不可比较的网页,从而保证句段的互为翻译性。

121网页DOM树

抽取出网页的HTML朽记,组肛个标记序歹4,构建_威DOM树o

DOM树是研究网页布局结构的主要依据,更好的对网页进行分析研

究、准确地描述元素的相对位置关系,找中英文网页的最大相同子树,

再根据树的路径得到相对应的中英文信息。

122词语对齐特征

假如某一对中英文网页不是~一对应互为翻译的,但在HTML结构、内容互翻译词上都有很大的相似性,称之为可比较网页。引入词语对齐特征来区分平行和可比较网页,采用基于词典的方法:1)将每个

中文词cj链接到具有最大中英互译中翻译概率的英文词ei上,即选择

max惦(ei/cc),P(cj/ei))的英文词ei;2)对应的英文词ei在英文句段中存在多个中文词cj,在添加一条c、e链接时,使得当前存在的交

叉连接最少;>经过两遍添加链接后就得到了一组词语对齐。

2双语平行或可比较句段挖掘

从中英文平行或可比较网页句段中抽取~些特征,送入分类器进

万方数据

行分类,判断当前句段是否平行或可比较。分类将减小因网页内容不完全一致、HTML结构混乱带来的抽取难度,最大限度地挖掘网页中的句段资源。

2.1生成双语句段集合

采用DOM树来描述网页,然后对齐两棵DOM树从而得到对应的平行或可比较句段,需做到文本块对齐。先将每一个网页解析成一个由“HTML开始标记+句段+HTML结束标记”结构组成的句段序列,去掉相应的HTML标记后,得到中英文句段序列。这两者序间对照关系是

非常严格的、肯定存在着互为翻译的关系。最后计算每一对句段为平行

和可比较的概率,依概率大小进行分类,从而得到句段级双语语料库。

22最大熵分类器

最大熵分类器是要找到既满足所有已知的事实,且不受任何未知因素影响的概率分布。特点是不要求具有条件独立的特征,可以任意地

加入对最终分类有用的特征,也能够容易地对多分类问题进行建模,给各个类别输出—个相对客观的概率值,便于后续推理步骤使用。

3实验结果与分析

3.1配时的中英文网页ImI荻取

从维基百科中找到城市列表“中国城市列表”,根据pathnarne和

Parser解析定义在<a>超链接</a>之内的所有URL超链接,得到各个城市的中文网页URLo再利用得到的所有中文网页URL,运用HTMLParser解析定义在“其他语言<liclass=interwiki—en><ati—tie=”城市名”href=”httpJ/en.wikipedia.org/wiki/城市名”>Eng—lish</a><月.>”的所有配对英文网页URLo

32双语平行或可比较句段的挖掘结果

从维基百科挖掘中国城市列表,县级以上共计3229个,挖掘到的双语语句段2851个,含有中英文双语平行和可比较平行的句段2825个,取得了88%的召回率与99%准确率。实验结果贡献来源:一是采用URL命名规则从过滤后的中文网页URL中解析得到配对的英文网页URL;二是采用网页结构特征、词语对齐和最大熵分类器的技术。

4总结

本文研究的双语语料自动获取方法融合现有方法的优点并进行改进,取得了较好的效果。利用URL命名相似性获取中英文配对网页URL,采用网页HTML结构一致性、词语对齐和最大熵分类器的技术进行挖掘,有效地提高了挖掘质量。下—步将进一步研究挖掘的中英文句段,去除重复句对、将平行和可比较句段分开,使其更加有效的运用

于获职大规模双语语料。

【参考文献】

f1】Jmng

Chen

and

Jian—Yun

Nie.Automaticcons臼Ⅵction

ofP3豫:uel

e“g—

lish—cbJnec,ecorpusforCI'O《一languageinformadonretrieval[A].In:Proceedingsof

the

Intermtion.alConference

on

ChineseLanguage

Computing[q.San

Francis—

co。pages2.1口28,2000.121

PhilipRemik

Parallelc,tl:ands:apreliminary,investigation

into

miningtheweb

forbilingualtext[A].In‘Proceeding

oftheTbirdConferenceofthe^黛ocia60nfor

Machine

Traralaoon[C].America.page‘72口82,1998.

11梵H∞“)GYll咖255

。basename的规则,过滤掉URL结构不一致的网页,运用HTML

基于维基百科的双语语料挖掘技术研究

作者:作者单位:刊名:英文刊名:年,卷(期):

孟桂国

苏州大学江苏省计算机信息处理技术重点实验室,江苏苏州,215006科技风

TECHNOLOGY WIND2010(18)

参考文献(2条)

1.Jiang Chen;Jian-Yun Nie Automatic construction of parallel english-chinese corpus for cross-language information retrieval 2000

2.Philip Resnik Parallel strands:a preliminary investigation into mining the web for bilingual text1998

本文读者也读过(10条)

1. 梁冰.乔晓东.Liang Bing.Qiao Xiaodong 从维基文化看我国词表建设[期刊论文]-图书情报工作2007,51(7)2. 徐睿.刘春荣 Wiki:构建反思的学习共同体[期刊论文]-信息技术教育2005(8)3. 匡茜 维基:一种集体备课的新途径[期刊论文]-教学与管理(理论版)2008(12)4. 马特·马霍尼 犯错的权利[期刊论文]-科技创业2010(8)5. 黄昌宁 聚焦 Bakeoff[会议论文]-2006

6. 张磊 基于语料库的语言教学模式探析[期刊论文]-时代文学2008(18)

7. 李小明.王亚莉.易立夫.杨静.孙金城 自动分词中的单字虚词处理[会议论文]-2001

8. 李向农.田源.王宇波.LI Xiang-nong.TIAN Yuan.WANG Yu-bo 独词句使用的性别差异——基于网络媒体监测语料库的研究[期刊论文]-安徽师范大学学报(人文社会科学版)2011,39(2)

9. 刘金哲 辨析"幸亏"与"好在"——基于国家语委语料库的研究[期刊论文]-现代语文(语言研究)2009(7)10. 许博 基于OCB视角的互联网知识创造与传播问题研究[期刊论文]-江苏科技信息(学术研究)2010(9)

本文链接:/Periodical_kjf201018229.aspx

本文来源:https://www.bwwdw.com/article/0w21.html

Top