基于维基百科的双语语料挖掘技术研究
更新时间:2023-06-09 06:21:01 阅读量: 实用文档 文档下载
- 战双帕弥什维基百科推荐度:
- 相关推荐
应用科技
基于维基百科的双语语料挖掘技术研究
孟桂国
(苏州大学江苏省计算机信息处理技术重点实验室,江苏苏州
215006)
睛要】双语句段是机嚣翻译的重要资源,目前句段级语料库数量有限且集中在特定领域,很难适应真实的应用。本文介绍了利用维基百
科上存在的海量多语言文本资源,采用乙玎u,命名规则、HTML网页结构相似性、词语对齐和最大熵分类器技术。研究了一个双语语料自
动挖掘方法。实验结果表明挖掘到的双语平行或可比较句段的召回率为8b%,准确率为99%o
【关键圃维基百科;双语句段;平行或可}匕较网页
双语语f-4库E经成为机器翻译、翻译知识获取等研究不可缺少的重要资源。互联网的普及和迅猛发展,越来越多的网站成为双语或多语网站,且具有很好的时效性和覆盖性,是多语种语料库信息源。维基百科是—个多语言的、动态的、可自由访问、编辑、复制、修改的网络百科全书。如何从中挖掘双语句段为解决双语语料库的获取和实用化具有重要的意义。本文目的就是研究基于维基百科的双语语料挖掘,提出自动获取的方法。首先介绍步骤和模块;其次详细描述各模块的实现方法;最后给出总结和下—步工作。
1相关工作
基于Web的双语平行资源自动获取的研究,目前大多集中在翻译
词典获取方面。如加拿大蒙特利尔大学聂建云开发的系统PTMiner.美国马里兰大学Resnik开发的系统STRAND和基于内容实现方法的BITS系统等。大部分获取双语网页的规模小,得到的双语句对的互翻译效果也不佳,没有真正用于建立大规模双语资源库。本文采用基于DOM树和HTML结构一致性、词语对齐和最大熵分类器技术:其步骤:1)采集维基百科上中文网页URL:2)基于URL命名规则从获取的中文网页URL中,抽取配对的英文网页URL:3)利用DOM树和HTML结构一致性,从配对的中英文网页中挖掘平行或可比较句段。
1.1中英文双语网页I琅I获取
维基百科的中英文网站URL命名有一定的规律。如中文网页
URL
http://zh.wikipedia.org/zh—cn/南京,其中http://zh.
wikipedia.org/zh—cn/为pathnarne,南京为basename:配对的英文网页URLhttp://en.wikipedia.org/wiki/Nanjing,其中http://en.wikipedia.org/wiki/为pathname,Nanjing为basename,pathname是一致,basename中文网页URL是汉字,配对的英文网页URL是该汉字的汉语拼音全拼。利用这个规则获取配对的中英文网页URL。
12中英文双语平行或可比较网页确认
采用网页DOM树、词语对齐特征,把双语网页HTML结构相似
性作为—个有力的特征,从双语句段的内容上去衡量一对双语平行网页中那些句段是真正互翻译的,过滤掉不平行或不可比较的网页,从而保证句段的互为翻译性。
121网页DOM树
抽取出网页的HTML朽记,组肛个标记序歹4,构建_威DOM树o
DOM树是研究网页布局结构的主要依据,更好的对网页进行分析研
究、准确地描述元素的相对位置关系,找中英文网页的最大相同子树,
再根据树的路径得到相对应的中英文信息。
122词语对齐特征
假如某一对中英文网页不是~一对应互为翻译的,但在HTML结构、内容互翻译词上都有很大的相似性,称之为可比较网页。引入词语对齐特征来区分平行和可比较网页,采用基于词典的方法:1)将每个
中文词cj链接到具有最大中英互译中翻译概率的英文词ei上,即选择
max惦(ei/cc),P(cj/ei))的英文词ei;2)对应的英文词ei在英文句段中存在多个中文词cj,在添加一条c、e链接时,使得当前存在的交
叉连接最少;>经过两遍添加链接后就得到了一组词语对齐。
2双语平行或可比较句段挖掘
从中英文平行或可比较网页句段中抽取~些特征,送入分类器进
万方数据
行分类,判断当前句段是否平行或可比较。分类将减小因网页内容不完全一致、HTML结构混乱带来的抽取难度,最大限度地挖掘网页中的句段资源。
2.1生成双语句段集合
采用DOM树来描述网页,然后对齐两棵DOM树从而得到对应的平行或可比较句段,需做到文本块对齐。先将每一个网页解析成一个由“HTML开始标记+句段+HTML结束标记”结构组成的句段序列,去掉相应的HTML标记后,得到中英文句段序列。这两者序间对照关系是
非常严格的、肯定存在着互为翻译的关系。最后计算每一对句段为平行
和可比较的概率,依概率大小进行分类,从而得到句段级双语语料库。
22最大熵分类器
最大熵分类器是要找到既满足所有已知的事实,且不受任何未知因素影响的概率分布。特点是不要求具有条件独立的特征,可以任意地
加入对最终分类有用的特征,也能够容易地对多分类问题进行建模,给各个类别输出—个相对客观的概率值,便于后续推理步骤使用。
3实验结果与分析
3.1配时的中英文网页ImI荻取
从维基百科中找到城市列表“中国城市列表”,根据pathnarne和
Parser解析定义在<a>超链接</a>之内的所有URL超链接,得到各个城市的中文网页URLo再利用得到的所有中文网页URL,运用HTMLParser解析定义在“其他语言<liclass=interwiki—en><ati—tie=”城市名”href=”httpJ/en.wikipedia.org/wiki/城市名”>Eng—lish</a><月.>”的所有配对英文网页URLo
32双语平行或可比较句段的挖掘结果
从维基百科挖掘中国城市列表,县级以上共计3229个,挖掘到的双语语句段2851个,含有中英文双语平行和可比较平行的句段2825个,取得了88%的召回率与99%准确率。实验结果贡献来源:一是采用URL命名规则从过滤后的中文网页URL中解析得到配对的英文网页URL;二是采用网页结构特征、词语对齐和最大熵分类器的技术。
4总结
本文研究的双语语料自动获取方法融合现有方法的优点并进行改进,取得了较好的效果。利用URL命名相似性获取中英文配对网页URL,采用网页HTML结构一致性、词语对齐和最大熵分类器的技术进行挖掘,有效地提高了挖掘质量。下—步将进一步研究挖掘的中英文句段,去除重复句对、将平行和可比较句段分开,使其更加有效的运用
于获职大规模双语语料。
【参考文献】
f1】Jmng
Chen
and
Jian—Yun
Nie.Automaticcons臼Ⅵction
ofP3豫:uel
e“g—
lish—cbJnec,ecorpusforCI'O《一languageinformadonretrieval[A].In:Proceedingsof
the
Intermtion.alConference
on
ChineseLanguage
Computing[q.San
Francis—
co。pages2.1口28,2000.121
PhilipRemik
Parallelc,tl:ands:apreliminary,investigation
into
miningtheweb
forbilingualtext[A].In‘Proceeding
oftheTbirdConferenceofthe^黛ocia60nfor
Machine
Traralaoon[C].America.page‘72口82,1998.
11梵H∞“)GYll咖255
。basename的规则,过滤掉URL结构不一致的网页,运用HTML
基于维基百科的双语语料挖掘技术研究
作者:作者单位:刊名:英文刊名:年,卷(期):
孟桂国
苏州大学江苏省计算机信息处理技术重点实验室,江苏苏州,215006科技风
TECHNOLOGY WIND2010(18)
参考文献(2条)
1.Jiang Chen;Jian-Yun Nie Automatic construction of parallel english-chinese corpus for cross-language information retrieval 2000
2.Philip Resnik Parallel strands:a preliminary investigation into mining the web for bilingual text1998
本文读者也读过(10条)
1. 梁冰.乔晓东.Liang Bing.Qiao Xiaodong 从维基文化看我国词表建设[期刊论文]-图书情报工作2007,51(7)2. 徐睿.刘春荣 Wiki:构建反思的学习共同体[期刊论文]-信息技术教育2005(8)3. 匡茜 维基:一种集体备课的新途径[期刊论文]-教学与管理(理论版)2008(12)4. 马特·马霍尼 犯错的权利[期刊论文]-科技创业2010(8)5. 黄昌宁 聚焦 Bakeoff[会议论文]-2006
6. 张磊 基于语料库的语言教学模式探析[期刊论文]-时代文学2008(18)
7. 李小明.王亚莉.易立夫.杨静.孙金城 自动分词中的单字虚词处理[会议论文]-2001
8. 李向农.田源.王宇波.LI Xiang-nong.TIAN Yuan.WANG Yu-bo 独词句使用的性别差异——基于网络媒体监测语料库的研究[期刊论文]-安徽师范大学学报(人文社会科学版)2011,39(2)
9. 刘金哲 辨析"幸亏"与"好在"——基于国家语委语料库的研究[期刊论文]-现代语文(语言研究)2009(7)10. 许博 基于OCB视角的互联网知识创造与传播问题研究[期刊论文]-江苏科技信息(学术研究)2010(9)
本文链接:/Periodical_kjf201018229.aspx
正在阅读:
基于维基百科的双语语料挖掘技术研究06-09
施工安全技术答案06-12
死亡赔偿金分配民事判决书05-03
花开莫与流年错11-03
2.极坐标和直角坐标的互化03-21
201207国家开放大学(电大)学前儿童卫生与保健试题11-29
雷恩《管理思想史》笔记06-01
测控现代控制理论实验报告11-05
土壤酶活性测定方法06-23
圣诞节的故事作文400字06-26
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 维基
- 语料
- 双语
- 挖掘
- 百科
- 基于
- 研究
- 技术
- 灰土夯扩挤密桩施工工艺总结
- 生态补偿标准确定的主要方法及其应用
- 组讨论的经典面试题目
- 急诊科在突发公共卫生事件中的工作方法
- CVHE_CVHG_CDHG系列_三级压缩离心式冷水机组
- 2012新课标化学选修5第二章章末综合检测
- 雅思阅读题型解题方法指导(六)-智课教育出国考试
- 2013年中考英语语法精讲精练:第十章 主谓一致
- 财务总监实战训练讲义
- 科技创新下的发展战略重要性论文
- 巧布体育家庭作业 促进学生体育素质
- 机械工程材料总复习
- 《〈世说新语〉两则》学案02
- 人教版 七年级上册 期末 练习(word,有答案)
- 学习音乐真能提高大脑认知能力吗
- 人教版高中美术鉴赏教案(quan)
- 《当代国际社会》主题单元设计
- 招标代理费收取标准
- 构建企业级的电网安全生产管理信息系统
- BEC module3 商务英语初级