一种基于信息熵的web信息提取的方法研究

更新时间:2023-10-20 09:51:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

一种基于信息熵的web信息提取的方法研究

摘要:web页的噪声数据影响了文本提取算法的效率。提出了基于信息熵和DOM树的提取web正文信息的方法,利用文档对象模型技术提取网页包含的内容,将得到的信息融合成信息列表,再利用熵原理从信息列表中识别出网站的真正重复信息和正文信息。实验结果验证了方法的有效性。

关键词:web内容挖掘 信息提取 DOM

随着互联网的飞速发展,web上的网页数目正以指数级的爆炸性趋势增长。面对如此巨大的资源,在web上检索及发现有价值的信息已成为一项重要的任务。在网页中除了表达主题的正文内容外,还有与主题内容无关噪音内容。有效地清除网页噪音并抽取网页正文是提高基于Web的应用程序处理结果准确性的一项关键技术,已成为基于web的信息系统预处理环节中一项必不可少的工作。

包方法是web信息提取的重要方法之一[2]。基于网站结构的信息提取方法是一种比较直接有效的方法,该方法是在特定网站结构的基础上编写相应的包,当网站结构发生变化后,必然导致包的重写,人工创建包是耗时的。文献[3]提出一种包归纳系统,能够自动创建包。文献[4]提出了BWI,使用了增加技术。文献[5]提取层次信息包归纳系统,将网页看成树结构文件。以上包归纳系统都需训练已有标记的网页,自动创建包。包归纳系统用于从半结构化数据中提取结构化数据,

本文来源:https://www.bwwdw.com/article/q6bf.html

Top