一种基于信息熵的web信息提取的方法研究

更新时间：2023-10-20 09:51:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

一种基于信息化网络安全用报警装置anqu推荐度：
相关推荐

摘要:web页的噪声数据影响了文本提取算法的效率。提出了基于信息熵和DOM树的提取web正文信息的方法,利用文档对象模型技术提取网页包含的内容,将得到的信息融合成信息列表,再利用熵原理从信息列表中识别出网站的真正重复信息和正文信息。实验结果验证了方法的有效性。

关键词:web内容挖掘信息提取 DOM

随着互联网的飞速发展,web上的网页数目正以指数级的爆炸性趋势增长。面对如此巨大的资源,在web上检索及发现有价值的信息已成为一项重要的任务。在网页中除了表达主题的正文内容外,还有与主题内容无关噪音内容。有效地清除网页噪音并抽取网页正文是提高基于Web的应用程序处理结果准确性的一项关键技术,已成为基于web的信息系统预处理环节中一项必不可少的工作。

包方法是web信息提取的重要方法之一[2]。基于网站结构的信息提取方法是一种比较直接有效的方法,该方法是在特定网站结构的基础上编写相应的包,当网站结构发生变化后,必然导致包的重写,人工创建包是耗时的。文献[3]提出一种包归纳系统,能够自动创建包。文献[4]提出了BWI,使用了增加技术。文献[5]提取层次信息包归纳系统,将网页看成树结构文件。以上包归纳系统都需训练已有标记的网页,自动创建包。包归纳系统用于从半结构化数据中提取结构化数据,

本文来源：https://www.bwwdw.com/article/q6bf.html

相关文章：

正在阅读：

一种基于信息熵的web信息提取的方法研究10-20

伏天02-18

三角形的分类02-13

熊猫的作文小学生二年级06-13

预防校园拥挤踩踏事故应急预案06-22

汽轮机调速系统检修工试题库09-19

东莞2017年高中英语一师一优课一课一名师优课微课03-06

几种新型荧光分子探针的合成及性能研究07-03

童趣作文500字07-06

初中数学几何概念教学的实践探究 - 图文12-27

上一篇：水城县林业局平安建设工作方案下一篇：简答题整理