一种基于信息熵的web信息提取的方法研究
更新时间:2023-10-20 09:51:01 阅读量: 综合文库 文档下载
一种基于信息熵的web信息提取的方法研究
摘要:web页的噪声数据影响了文本提取算法的效率。提出了基于信息熵和DOM树的提取web正文信息的方法,利用文档对象模型技术提取网页包含的内容,将得到的信息融合成信息列表,再利用熵原理从信息列表中识别出网站的真正重复信息和正文信息。实验结果验证了方法的有效性。
关键词:web内容挖掘 信息提取 DOM
随着互联网的飞速发展,web上的网页数目正以指数级的爆炸性趋势增长。面对如此巨大的资源,在web上检索及发现有价值的信息已成为一项重要的任务。在网页中除了表达主题的正文内容外,还有与主题内容无关噪音内容。有效地清除网页噪音并抽取网页正文是提高基于Web的应用程序处理结果准确性的一项关键技术,已成为基于web的信息系统预处理环节中一项必不可少的工作。
包方法是web信息提取的重要方法之一[2]。基于网站结构的信息提取方法是一种比较直接有效的方法,该方法是在特定网站结构的基础上编写相应的包,当网站结构发生变化后,必然导致包的重写,人工创建包是耗时的。文献[3]提出一种包归纳系统,能够自动创建包。文献[4]提出了BWI,使用了增加技术。文献[5]提取层次信息包归纳系统,将网页看成树结构文件。以上包归纳系统都需训练已有标记的网页,自动创建包。包归纳系统用于从半结构化数据中提取结构化数据,
正在阅读:
一种基于信息熵的web信息提取的方法研究10-20
副市长在2023年全市优化营商环境大会上的发言范文03-22
听贲友林老师的课后反思05-24
土方工程计算题09-13
中学教师入党自传模板【三篇】02-22
华为公司战略分析05-28
维生药业PWMIS需求分析05-07
全球化背景下的企业文化与核心竞争优势08-20
- 冀教版版五年级科学下册复习资料
- 微生物学复习提纲
- 2013—2014学年小学第二学期教研组工作总结
- 国有土地转让委托服务合同协议范本模板
- 我的固废说明书
- 企业管理诊断报告格式
- 东鼎雅苑施工组织设计
- 谈谈如何做好基层党支部书记工作
- 浮梁县环保局市级文明单位创建工作汇报
- 管理学基础知识
- 大学物理实验报告23 - PN结温度传感器特性1
- 计算机网络实践
- 酒桌上这四种情况下要坐牢,千万别不当回事……
- 国家康居示范工程建设技术要点
- 中国贴布行业市场调查研究报告(目录) - 图文
- 新课标下如何在高中物理教学中培养学生的创新能力初探
- 营养师冬季养生食谱每日一练(7月4日)
- 关注江西2017年第3期药品质量公告
- 建设海绵城市专题习题汇总
- 10万吨年环保净水剂建设项目报告书(2).pdf - 图文
- 方法研究
- 信息
- 提取
- 基于
- web
- 2016年上海交通大学新闻与传播硕士考研复试分数线
- 杭州市2018年中考英语模拟试卷12
- 直接登记民办非企业单位名称预核申请书
- 初级会计实务模拟试题及答案解析(10)
- 元旦晚会主持词
- 薄壳结构 - 图文
- 景田万行泉新品传承中国葫芦吉祥文化
- 解剖学知识总结
- 轧钢工艺学复习题 - 图文
- 划线工量具知识教案要点
- 数学儿歌游戏
- 20周Web应用程序设计(ASP.NET)试卷A卷
- 大货车科目二倒杆移库技巧
- 舞蹈《扇妞》道具运用研究
- 新目标八年级全册知识要点(最给力版)
- 桁架钢筋混凝土叠合板叠合板方案
- 中国城市建设史复习资料 -
- 智慧园区管理服务平台开发,智慧园区系统建设
- 如何提高员工安全意识和素质
- QJZ-120、801140(660)N(A)矿用隔爆兼本质安全型可逆真空电磁起动器使用说明书 12.06.15