中英文新闻摘要系统的设计与实现

更新时间:2023-07-17 22:11:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

阐述了新闻摘要系统NewsSumm的设计和实现。其特点是既可以定期快速地从互联网上抓取新闻来源,并为同主题的新闻生成短文摘要,提高读者的阅读效率,也可以根据用户的查询生成面向查询的摘要。NewsSumm采用了基于词汇链的摘要算法,结果表明该算法有效地提高了摘要系统的性能。

中英文新闻摘要系统的设计与实现

叶必浩1,马跃1,周全2

1北京邮电大学计算机科学与技术学院,北京 (100876)

2中国科学院软件研究所中文信息处理中心,北京 (100080)

E-mail:

摘 要:阐述了新闻摘要系统NewsSumm的设计和实现。其特点是既可以定期快速地从互联网上抓取新闻来源,并为同主题的新闻生成短文摘要,提高读者的阅读效率,也可以根据用户的查询生成面向查询的摘要。NewsSumm采用了基于词汇链的摘要算法,结果表明该算法有效地提高了摘要系统的性能。

关键词:文本摘要, IS_SUM, 词汇链

1. 引言

随着传统媒体逐渐向网络靠拢,互联网成为新闻发布的强势平台,不过要了解一些新闻的来龙去脉,用户可能仍需要穿梭于各大门户网站才能得到“百家之言”,费时费力。而最近兴起的新闻聚合网站为上述问题提供了一个很好的解决途径,它采用半人工的方式搜集网络上的热点新闻,并以专题的形式供人阅读。专题通常包括人工拟定的标题以及由计算机推荐的数个来源于各大网站的新闻链接。但是这种方法虽然减少了用户查找新闻的时间,却不能减少用户阅读的时间,而且新闻内容之间相互重叠的地方甚多。

NewsSumm系统的设计思想是将文本摘要技术应用到新闻阅读上,同一个热门话题的相关新闻非常合适作为多文档摘要的输入,利用面向查询的多文档摘要技术可以为新闻专题生成简短的内容摘要。这样用户可以根据感兴趣的内容去阅读对应的新闻,极大地减少了用户的阅读时间。

2. 相关研究工作

可以通过统计方法计算出来的特征称为外部特征;词语及句子本身的特征如词义、句法结构等称为内部特征。根据文本摘要方法所利用的特征,可以将摘要系统分为三类[3]:

1) 基于外部特征

考虑的特征主要是基于文章中标题、段落、句子及词语的外部特征,如词频信息、位置信息、相似度信息,典型的系统有MEAD[6]。

2) 基于简单的语法分析

在模型中引入句法结构、词义等信息。一般用中间结构表示原文,然后再根据摘要

需求生成最后的摘要,典型的方法如词汇链方法(Lexical Chain)。

3) 基于自然语言理解的深度的分析

需要利用各个层次的语言学信息,包括外部知识库,可以看作是Knowledge-Rich类的方法。

这三个类别覆盖了大部分已有的摘要算法,其中第一类方法在实现上较其他两种方法简单,因此最为普及。基于文档外部特征的抽取型摘要算法的优点是可以快速地生成短文摘要,但是随着人们对摘要的精度的要求越来越高,目前这种摘要方法已经不能满足人们的需求,从而研究的热点逐步向第二类和第三类方法转移。第三类方法需要各个层次的语言学知识和外部的知识库,而这些知识目前还不够完备,因此,在具体实现上面临众多难题。

阐述了新闻摘要系统NewsSumm的设计和实现。其特点是既可以定期快速地从互联网上抓取新闻来源,并为同主题的新闻生成短文摘要,提高读者的阅读效率,也可以根据用户的查询生成面向查询的摘要。NewsSumm采用了基于词汇链的摘要算法,结果表明该算法有效地提高了摘要系统的性能。

NewsSumm系统属于第二类方法,采用了词汇链作为系统的基础框架,既可以弥补第一种方法对内容理解不足的缺陷,又可以避免第三类方法所需要的深度分析。

由于词汇链的摘要算法利用了词语的语义特征,对文中出现的在语义上相关的所有词汇加以区分,因此比传统的基于词频统计的方法更加有效,生成的短文摘要也更能符合原文的意思。但是词汇链算法存在局限性:词汇链算法的效率与处理文本的长度成反比,这使得该算法无法处理大量文档。另外传统词汇链算法只能生成短文摘要,不能生成查询摘要。在NewsSumm系统中对传统算法进行了优化,使得算法的效率大大提高,同时为了能够生成查询摘要,还引入了多个查询参数,比如文档的相关度。NewsSumm也实现了对中文的支持。

3. 系统摘要算法

3.1 基本的词汇链摘要算法实现

构建词汇链的基本思路是:1)选择一个候选词;2)判断这个词是否能插入到已有的链中(即判断候选词的词义是否跟已有的词汇链存在关系);3)如果可以插入,那么选择下一个候选词,如果不行,则为这个候选词新建一条词汇链。

在已有的典型词汇链生成算法中,Morris的词汇链算法只能选择每个词语的第一个意思,生成的词汇链准确性很低;Hirst 的算法中对词义判定的策略过于简单,容易引入误差;Brazilay的算法则考虑了候选词的所有词义,这样生成的词汇链中不仅包含该词还包含了该词的准确词义。

下面这个例子可以用来理解Brazilay词汇链算法:假设要处理的段落为“Mr. Kenny is the person that invented an anesthetic machine which uses micro-computers to control the rate at which an anesthetic is pumped into the blood. Such machines are nothing new. But his device uses two micro-computers to achieve much closer monitoring of the pump feeding the anesthetic into the patient.”

1) 获得第一个名词Mr. 并且得到它可能的含义Mr. {Mr., Mister}, 这两个词义属于

同一个概念,所以没有歧义,可以继续处理。

2) 获得第二个名词 Person {person, individual, someone, man, mortal, human, soul} 在

WordNet中都是属于Human being的范畴。另外一个词义是“grammatical category of pronouns and verb forms” (person 2)。

3) 获得第三个名词Machine,在WordNet中发现了Machine的5个词义,分别称为

machine1.. machine5。第一个词义是Effective person.,其它的词义与person的关系

都不存在,则被划为另一个集合,那么此时的Chain集合为:

Chain A : Mr, Person{person1},Machine{machine1}

Chain B : Mr. Person{person2},Machine{machine1}

Chain C : Mr.Person{person1},Machine{machine2-5}

Chain D: Mr,Person{person2},Machine{machine2-5}

4) 显然,每个词语都按照Step3的方式处理,使这个Chain的集合不断增大,最终会

得到一个Chain集合,它包含两个可能的链A与B

5) 计算每个链的分数: Score(Chain)=n∑P(w) Homogeneity i

i=0

其中Homogeneity是指链中出现不同的词的个数。结果Chain B > Chain A。

阐述了新闻摘要系统NewsSumm的设计和实现。其特点是既可以定期快速地从互联网上抓取新闻来源,并为同主题的新闻生成短文摘要,提高读者的阅读效率,也可以根据用户的查询生成面向查询的摘要。NewsSumm采用了基于词汇链的摘要算法,结果表明该算法有效地提高了摘要系统的性能。

图1 基本词汇链算法实现

此时就得到了最优的词汇链的序列,并且确定了词汇链中每个词的确切含义。Brazilay进一步利用这个序列来生成文本摘要,计算每个句子中包含的链的数目得到句子的分值,以此选择合适的句子生成最后的摘要。

由于在生成链的时候考虑的是词语的所有词义,算法带来的时间/空间开销很大, Brazilay的算法在生成链的过程中采用了剪枝的办法,限制当前产生的链的数目,随时剔出长度最短、分数最小的链。

3.2 中文的词汇链摘要算法实现

文本摘要技术国外研究的较多,但中文的文本摘要技术研究起步相对较晚。词汇链算法中利用的是词语之间的语义关系,这在中文中也同样存在,NewsSumm系统参考了上述优化后的英文词汇链算法也应用于对中文的实现。词汇链算法的关键在于词义的获取以及词义关系确定两个方面。对于中文,为了获取词义我们使用了Hownet[7]词典,在确定词义关系时,则参考了基于Hownet的Word Similarity[8]算法。另外,由于中文的分词标注结果准确率要低于英文,因此在标注的过程中还应考虑命名体的作用,使用IS_NER抽取出文中的命名体,并将其并入到候选词中,同时为这些词赋予一个含义,以便计算相似度。

4. NewsSumm的架构及实现

图2所示为NewsSumm的系统架构。系统共分为三个模块,分别是预处理模块、模型构建模块和摘要生成模块。为了加强NewsSumm系统的兼容性与扩展性,我们选用了Java作为系统开发的主要语言。

4.1 预处理模块

NewsSumm从网络上获取某个主题的相关新闻的途径之一是利用同一篇新闻中包含的相关文章,这些文章是指在同一个网站内与新闻中出现的人物或事件类似的新闻,但是有时这些新闻时间相隔较远,或内容也相差较远,不符合文本摘要需要输入的文档都是大致描述同一类事件的前提。另一种途径是通过一些新闻聚合的网站,如Baidu新闻以及Google新闻,它们会将一些主题类似的新闻从各个网站上聚合起来。由于网站上的新闻页面大都是由网站后台生成的,甚至包含了很多广告以及无关信息,这样的内容也是不适合于生成摘要的。因此新闻被抓取下来后首先要进行预处理的工作,剔除掉网页中的无关内容,并保存起来。具体处理过程包括:

阐述了新闻摘要系统NewsSumm的设计和实现。其特点是既可以定期快速地从互联网上抓取新闻来源,并为同主题的新闻生成短文摘要,提高读者的阅读效率,也可以根据用户的查询生成面向查询的摘要。NewsSumm采用了基于词汇链的摘要算法,结果表明该算法有效地提高了摘要系统的性能。

图2 NewsSumm的系统结构

1) 分词/标注

处理英文时使用Stanford Tagger完成英语单词的词义标注,而处理中文则是采用了

中科院计算所的分词程序。

2) 命名体识别

在文档处理中,命名体识别一直是比较特殊的,往往需要把多个词捆绑起来处理。如果不考虑命名体则会造成偏差,所以需要预先将这些命名体识别出来。

3) 词频统计

4) 查询条件分析

这个处理只有在生成查询摘要的时候才会进行。由于查询条件没有足够的上下文可

以利用,NewsSumm同样对其进行词性标注以及提取其中包含的命名体信息。

本模块的另一个重要功能就是要生成在下一阶段词汇链构建时的候选词。这是生成词汇链的基础,理论上所有在文中出现的词都可以作为词汇链的单词,但是通过我们对文本摘要的大量实验表明:只挑选文章中出现的名词,同时加入频率高的命名体,这样生成的词汇链可以比较准确地运用于文

本摘要。 分词/标注

4.2 词汇链构建模块

这个模块主要基于本

文第3部分提到的优化算

法生成词汇链。模块的输

入最小单元是文章,如果

有多个文章,在生成词汇

链后还应调用合并算法,

最后得到文档集的词汇链

表示。 图3 系统处理流程

4.3 摘要生成模块

NewsSumm本质上还是

阐述了新闻摘要系统NewsSumm的设计和实现。其特点是既可以定期快速地从互联网上抓取新闻来源,并为同主题的新闻生成短文摘要,提高读者的阅读效率,也可以根据用户的查询生成面向查询的摘要。NewsSumm采用了基于词汇链的摘要算法,结果表明该算法有效地提高了摘要系统的性能。

依靠原文中的句子来组织最后的摘要。这个模块的功能就是为每个句子赋上一定的分值最后选取分值高的句子作为摘要。不同类型的摘要,评分的公式各不相同。分值会受到多个方面的值的影响,比如句子中包含的词语所在词汇链的分值C、句子中包含的词语与查询条件的相似度S、句子中包含的命名体的个数N、句子所在文档符合查询条件的程度I,将C,S,N,I统一起来得到一个最终的分值(如果生成短文摘要则不需要I,S)。

在升级的NewsSumm中,还包含了摘要压缩功能,用于对抽取出来的句子进行压缩,剔除句子中无关的修饰成分,得到句子的主干。这对于一些限制字数的摘要任务是非常有用的,可以使得在字数相同的情况下包含更多的信息。

4.4 系统流程

图3为系统流程,上半部分循环处理每个输入文档,下半部分利用词汇链生成摘要。

5. 结果评估及性能分析

我们对NewsSumm系统采用DUC 2005的摘要评测训练集,评估程序是ROUGE 1.5[9] 将结果与标准答案做对比,得到下表数据。 System

Highest

Group1

Group2

Group3

Group4 ROUGE-1 ROUGE-20.4040 0.0723 ROUGE-30.0219 ROUGE-L0.3551 ROUGE-SU4 0.1312

可见NewsSumm已经具备了一定的摘要精度。在实用性方面,通过连续将500篇文章输入到系统中,系统保持稳定运行,最后生成25个不同主题的摘要,平均每处理一片文章需要30s。证明系统可以基本满足实际应用的需要。

6. 总结

本文根据目前文本摘要技术研究的趋势,分析了传统的词汇链摘要方法的不足,提出了适合于中文及英文的改进的词汇链构建算法,最后成功地将此算法运用到多文档摘要中,实现了一个具备文本摘要和查询摘要功能的NewsSumm系统,该系统不仅提供了用户的UI输入,而且还提供了输入输出接口以方便其他应用程序调用。

下一步我们将继续提高NewsSumm系统生成的摘要的可读性及准确性,尽管词汇链算法相比传统的摘要抽取性算法增加了词汇的语义信息,但距离生成真正的概要型摘要,达到从中完全获得所需信息的目标还有一定的距离,通过有效利用其他信息,比如句法结构、段落主题等将有可能进一步提高摘要的精度。

阐述了新闻摘要系统NewsSumm的设计和实现。其特点是既可以定期快速地从互联网上抓取新闻来源,并为同主题的新闻生成短文摘要,提高读者的阅读效率,也可以根据用户的查询生成面向查询的摘要。NewsSumm采用了基于词汇链的摘要算法,结果表明该算法有效地提高了摘要系统的性能。

参考文献

[1] Luhn,H P: The automatic creation of literature abstracts, IBM Journal of Research and Development, 1958

[2] DUC 2006

[3] Quan Zhou, Le Sun, Jian-Yun Nie, IS_SUM :A Multi-Document Summarizer based on Document Index

Graphic and Lexical Chains.

[4] Morris, J. and Hirst, Lexical cohesion computed by thesaural relations as an indicator of the structure of text,

Computational Linguistics 17(1): 21.43, 1991

[5] Barzilay R. and Elhadad M, Using Lexical Chains for Summarization. ACL/EACL-97 summarization

workshop Pp 10.18, Madrid, 1997

[6] Dragomir R. Radev, Jahna Otterbacher_, Hong Qi_, and Daniel Tam, MEAD ReDUCs: Michigan at DUC

2003,2003

IS_SUM: A Multi-Document Summarizer based on Lexical

Chains

Bihao Ye1,Yue Ma1,Quan Zhou2

1 College of Computer Science and Technology,Beijing University. of Post &

Telecommunications,Beijing 100876

2 Institute of Software,Chinese Academy of Sciences, Beijing 100080

Abstract

IS_SUM is a new multi-document summarizer . It can generate a short summary rapidly for plenty of documents either in Chinese and English, and can also generate a summary focus on the user’s query. With the analyze of the drawback of current summarization method, IS_SUM adjust the algorithm. DUC result shows the enhance of our summarization system by this algorithm.

Keywords: text summary, IS_SUM , DUC

本文来源:https://www.bwwdw.com/article/qf81.html

Top