一种基于信息熵的web信息提取的方法研究
更新时间:2023-10-20 09:51:01 阅读量: 综合文库 文档下载
一种基于信息熵的web信息提取的方法研究
摘要:web页的噪声数据影响了文本提取算法的效率。提出了基于信息熵和DOM树的提取web正文信息的方法,利用文档对象模型技术提取网页包含的内容,将得到的信息融合成信息列表,再利用熵原理从信息列表中识别出网站的真正重复信息和正文信息。实验结果验证了方法的有效性。
关键词:web内容挖掘 信息提取 DOM
随着互联网的飞速发展,web上的网页数目正以指数级的爆炸性趋势增长。面对如此巨大的资源,在web上检索及发现有价值的信息已成为一项重要的任务。在网页中除了表达主题的正文内容外,还有与主题内容无关噪音内容。有效地清除网页噪音并抽取网页正文是提高基于Web的应用程序处理结果准确性的一项关键技术,已成为基于web的信息系统预处理环节中一项必不可少的工作。
包方法是web信息提取的重要方法之一[2]。基于网站结构的信息提取方法是一种比较直接有效的方法,该方法是在特定网站结构的基础上编写相应的包,当网站结构发生变化后,必然导致包的重写,人工创建包是耗时的。文献[3]提出一种包归纳系统,能够自动创建包。文献[4]提出了BWI,使用了增加技术。文献[5]提取层次信息包归纳系统,将网页看成树结构文件。以上包归纳系统都需训练已有标记的网页,自动创建包。包归纳系统用于从半结构化数据中提取结构化数据,
正在阅读:
一种基于信息熵的web信息提取的方法研究10-20
八年级数学练习题05-29
包装印刷项目可行性研究报告10-16
载货车安全技术操作规程正式样本04-28
贫困证明书02-17
八年级历史说课稿02-19
护肤品新店活动方案(精选14篇)03-31
结题课题研究方案09-15
A6技术支持的课堂讲授 教学反思08-01
牛津英语七年级下册复习资料07-27
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 方法研究
- 信息
- 提取
- 基于
- web
- 2016年上海交通大学新闻与传播硕士考研复试分数线
- 杭州市2018年中考英语模拟试卷12
- 直接登记民办非企业单位名称预核申请书
- 初级会计实务模拟试题及答案解析(10)
- 元旦晚会主持词
- 薄壳结构 - 图文
- 景田万行泉新品传承中国葫芦吉祥文化
- 解剖学知识总结
- 轧钢工艺学复习题 - 图文
- 划线工量具知识教案要点
- 数学儿歌游戏
- 20周Web应用程序设计(ASP.NET)试卷A卷
- 大货车科目二倒杆移库技巧
- 舞蹈《扇妞》道具运用研究
- 新目标八年级全册知识要点(最给力版)
- 桁架钢筋混凝土叠合板叠合板方案
- 中国城市建设史复习资料 -
- 智慧园区管理服务平台开发,智慧园区系统建设
- 如何提高员工安全意识和素质
- QJZ-120、801140(660)N(A)矿用隔爆兼本质安全型可逆真空电磁起动器使用说明书 12.06.15