网络舆情监控分析系统 产品介绍 - 图文

更新时间:2024-01-13 13:43:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

互联网舆情监测分析系统

产品介绍

(V 0.2)

1

网络舆情监测分析系统建议方案

版本历史

版本

编制/日期 审核/日期 批准/日期 备注 2 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

目录

1 2

项目背景 ................................................................................................................................... 5 建设目标 ................................................................................................................................... 7 2.1 功能需求 ................................................................................................................... 7 2.2 应用目标 ................................................................................................................... 7 核心技术 ................................................................................................................................... 9 3.1 自然语言处理技术 ................................................................................................... 9 3.2 应用架构 ................................................................................................................... 9 方案设计 ................................................................................................................................. 11 4.1方案概述 ........................................................................................................................... 11 4.2系统架构 ........................................................................................................................... 12 4.3系统功能 ........................................................................................................................... 13

4.3.1 信息采集 ............................................................................................................... 13

4.3.1.1 定向信息采集 ............................................................................................ 13 4.3.1.2 网页内容提取 ............................................................................................ 14 4.3.1.3 全网监控 .................................................................................................... 15 4.3.2 智能分析 ............................................................................................................... 15

4.3.2.1自动关键词提取 ......................................................................................... 16 4.3.2.2自动摘要 ..................................................................................................... 16 4.3.2.3多文档摘要 ................................................................................................. 16 4.3.2.4相关推荐 ..................................................................................................... 17 4.3.2.5自动聚类 ..................................................................................................... 17 4.3.2.6自动分类及分类训练 ................................................................................. 17 4.3.2.7主题检测与追踪 ......................................................................................... 18 4.3.2 信息智能处理 ....................................................................................................... 19

4.3.2.1中文分词 ..................................................................................................... 19 4.3.2.2智能检索 ..................................................................................................... 19 4.3.2.3自动排重与自动过滤 ................................................................................. 20 4.3.3 舆情监管 ............................................................................................................... 22

4.3.3.1超级搜索 ..................................................................................................... 22 4.3.3.2主题过滤 ..................................................................................................... 24 4.3.3.3热点自动发现 ............................................................................................. 25 4.3.3.4专项任务 ..................................................................................................... 25 4.3.3.5网络探针 ..................................................................................................... 26 4.3.4 业务应用 ............................................................................................................... 26

4.3.4.1案件提交 ..................................................................................................... 26 4.3.4.2审核管理 ..................................................................................................... 26 4.3.4.3查处管理 ..................................................................................................... 26 4.3.4.4评论员管理 ................................................................................................. 27 4.3.4.5网站评价 ..................................................................................................... 27 4.3.5 舆情研判 ............................................................................................................... 27

4.3.5.1时间趋势 ..................................................................................................... 27

地址:北京市海淀区成府路298号中关村方正大厦0428室 TEL:(010)82529034 FAX:(010)82529440

3

4

3 北京方正电子政务技术有限公司

网络舆情监测分析系统建议方案

4.3.5.2网站分布 ..................................................................................................... 28 4.3.5.3地域分布 ..................................................................................................... 28 4.3.5.4话题演化 ..................................................................................................... 29 4.3.5.5传播路径 ..................................................................................................... 30 4.3.5.6任务追踪 ..................................................................................................... 30 4.3.5.7统计分析 ..................................................................................................... 30 4.3.5.8舆情简报 ..................................................................................................... 31 4.3.6 基础数据 ............................................................................................................... 31

4.3.6.1敏感词管理 ................................................................................................. 31 4.3.6.2主题管理 ..................................................................................................... 32 4.3.6.3任务管理 ..................................................................................................... 32 4.3.6.4网站备案管理 ............................................................................................. 32 4.3.6.5案件库管理 ................................................................................................. 32 4.3.7 系统管理 ............................................................................................................... 33

4.3.7.1人员及权限管理 ......................................................................................... 33 4.3.7.2日志管理 ..................................................................................................... 33 4.3.7.3界面定制 ..................................................................................................... 33 4.3.7.4参数管理 ..................................................................................................... 33 4.3.7.5存储管理 ..................................................................................................... 34

4.4系统部署 ........................................................................................................................... 35

4.4.1系统部署拓扑图 .................................................................................................... 35 4.4.2系统部署安全建设 ................................................................................................ 35 4.4.3系统运行环境 ........................................................................................................ 36

5典型案例 ...................................................................................................................................... 37 6联系方式 ...................................................................................................................................... 38

4 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

1 项目背景

新闻办是重要的专项内容管理部门,负责互联网上意识形态工作。主要职责是:负责协调、指导、督促有关部门对网上出现的涉及意识形态方面的重大情况进行统一行动,做好应急情况下网上热点敏感问题的处理和舆论引导工作;对新闻网站和商业网站登载新闻进行管理,对网站开办新闻时政类论坛进行前置审批和管理,对报纸等媒体涉及意识形态热点敏感问题内容的网上传播进行管理,对违规登载新闻的网站和传播有害信息的论坛及时通知行业主管部门予以处理,对境外新闻网站进行监控、提出封堵意见并通知互联网行业主管部门实施;指导各省(区、市)落实对互联网上意识形态工作的属地化管理。

据中国互联网络信息中心(CNNIC)第二十一次互联网调查统计,截至2007年12月,网民数已增至2.1亿人。中国网民数增长迅速,比2007年6月增加4800万人,2007年一年则增加了7300万人,年增长率达到53.3%。,在过去一年中平均每天增加网民20万人。目前中国的网民人数略低于美国的2.15亿 ,位于世界第二位。

图 1.1 中国网民规模和年增长率

互联网信息内容庞杂多样,既有大量进步、健康、有益的信息,也有不少反动、迷信、黄色的内容。互联网作为一块正在加速膨胀的思想阵地,加上其虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的人们愿意通过这类渠道表达自己的个人想法,因此网络舆情的爆发将以“内容威胁”的形式逐渐对社会公共安全形成威胁。

但是,从技术上来讲,互联网是完全开放的,每个人都有机会成为网络信息的发布者,每个人都有选择网络信息的自由。根据我国互联网发展现状,在总结

5 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

其他国家经验,加强互联网信息监管的同时,组织力量开展信息汇集整理和分析,对于及时应对网络突发的公共事件和全面掌握社情民意很有意义。

6 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

2 建设目标

2.1 功能需求

应用方正智思网络舆情监测分析系统,XXXX新闻单位要实现一定范围内的网站信息发布进行全面掌控。

要对境内互联网信息(新闻、论坛等)实时监测、采集、内容提取及排重;并且对获取的信息进行全面检索、主题检测、专题聚焦、相关信息推荐,主题演化分析、时间趋势分析、话题传播分析,按照新闻出版单位业务需求定制信息分类规则;为审读工作人员提供辅助分析信息服务,如网络舆情预警、自动形成网络舆情信息报告、追踪已发现的新闻舆情焦点等。

网络舆情监测分析系统应用流程图如下:

图2 系统应用流程图

2.2 应用目标

新闻外宣单位应用方正智思网络舆情监测分析系统可以实现以下功能:

7 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

? 动态的全面的监测舆情信息内容。 ? 过滤违法违规信息、敏感信息。 ? 获得互联网信息热点焦点和趋势分析。 ? 分析网络舆情的峰值

? 发现话题传播关系和演化规律 ? 实时通报内外用户最新情报信息。 ? 更充分了解网络社情民意。 8 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

3 核心技术

3.1 自然语言处理技术

由于汉语的特殊性,中文信息检索存在一些特殊问题,需要进行预处理。 首先汉字编码标准不统一,有GB2312、GBK、BIG5等;其次汉语文本中词与词之间没有明确的分隔标记,而是连续的汉字串;再者汉语的语素和单字词,合成词和短语之间没有清晰的界限。这些都是中文信息检索所面临的问题。方正智思网络舆情监测分析系统在多年中文信息处理技术的基础上,发展出一套快速、准确、高效、支持多编码的分词算法,有效地解决了这一问题。

对半结构化文档集进行文本挖掘的方法针对现有的文本挖掘处理半结构化文档集存在的挖掘效果差的缺陷,提出了一种针对半结构化文档的结构链接向量模型的挖掘方法。它能够综合利用半结构化文档中的字词信息、结构信息与链接信息,并以统一的数学模型进行表示。采用该模型对半结构化文档集进行文本挖掘,由于充分的利用了半结构化文档中的结构信息与链接信息,挖掘效果大大改进。该方法可广泛地应用于智能信息处理。

3.2 应用架构

方正智思系统是一个以知识发现为基础,实现信息的智能分析与处理的系统,它以数据挖掘技术与自然语言处理技术为基础。它融合了方正多年积累的中文信息处理技术、图形图像处理技术和中文自然语言处理技术和在人工智能、信息检索、文本挖掘的最新研究成果,进行严格的产品化开发而形成软件系统。它提供对海量文档、图片、视音频等数字化内容进行智能检索、智能分析及智能化自动处理的功能。在其上可方便地进行应用系统的开发,快速实现具有智能信息挖掘与知识管理功能的应用。

9 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

方正智思核心技术的应用架构图如下:

在海量数据环境下,对数据与知识进行有效的组织是知识共享与利用的重要手段。方正智思提供不同粒度的知识分析与组织的智能手段。在细粒度下,提供主题检测、主题追踪与专题制作功能;在中粒度下,提供关联分析功能以便自动获取数据(知识点)之间的关系;在大粒度下,自动进行知识地图构建,实现对全局知识的有效组织。

智能化的自动处理可减少甚至替代人工劳动,直接提高企业的生产力。方正智思提供多种智能处理手段实现对信息的自动处理。当前版本主要包括三个主要功能模块。自动分类:通过对少量的样例文档的训练后,快速自动地对文档进行分类;自动消重:在文档集合中自动判断是否存在与指定文档相似的文档,可手工或自动调整相关配置参数;自动摘要:在篇章分析与指代消解技术基础上,对文档自动提取关键词与摘要,生成的摘要既有很好的准确性又具有很好的可读性。

10 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

4 方案设计

4.1方案概述

应用方正智思网络舆情监测分析系统,使贵单位能够实现一定范围内(省内、省外)的网站信息发布进行全面掌控。方正智思能够对境内互联网信息(新闻、论坛等)实时监测、采集、内容提取及排重;并且对获取的信息进行全面检索、主题检测、专题聚焦、相关信息推荐、主题演化分析、时间趋势分析、话题传播分析;按照新闻单位业务需求定制信息分类规则;为用户辅助编辑提供信息服务,如信息预警、自动形成网络信息报告、追踪已发现的信息焦点等。

? 网络新闻自动获取

通过网络雷达技术,自动获取网络新闻,并且提取新闻的作者、时间、标题、正文等数据。 ? 网络论坛自动获取

通过论坛获取模块,自动抓取论坛的发贴。并且提取帖子的发贴人名称,发贴时间,主贴,回贴人名称,回贴时间,回贴内容,论坛贴子的人气和热度。

? 智能语言理解和分析处理

互联网信息资讯的分析工作分为对单一信息文档的分析和对文档集合的分析处理。对于单文档的加工,本系统中应用知识管理技术,实现信息的自动消重过滤、自动分类、自动摘要提取与自动关键词提取。 ? 互联网信息搜索

系统支持全文信息检索,检索结果按照相关度排序。系统支持模糊检索,例如:同音词检索、同意词检索。系统支持“以文找文”的方式,通过输入单篇情报信息,检索内容相似的互联网新闻或论坛帖子。

另外,本系统采用界面整和的方式集成通用的网络搜索引擎。

11 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案 4.2系统架构 舆 情 编 辑 普通用户 论坛分析 相关 推荐 自动 聚类 焦点跟踪 信息 分类 联动接口 决策支持 智能 报告 信息服务新闻监测 全文 检索 业务流程 内容管理平台 信息处理自动消重 自动分类 数字化采集 格式转换 标引 上载 自动摘要 自然语言处理技术文本挖掘技术 信息采集RDBM互联网站 互联网站 论坛BBS 舆情库 RDBM 敏感词库 RDBM规则库 网络舆情监测分析系统架构

网络舆情监测分析系统架构:

系统总体架构由多层结构组成,采用最新的基于SOA架构的应用集成技术。 最底层为数据管理层,在硬件环境基础上,采用关系型数据库,建立信息管理平台数据源,包括建立舆情库、敏感词库和规则库。管理各类信息数据,采用成型的内容管理技术、知识管理技术、发布技术等通用技术,建立业务应用的基础平台。

系统通过建立舆情库,匹配敏感词和规则库实现对互联网信息(新闻、论坛等)的实时监测、采集;结合系统自身的内容管理平台,对采集的信息进行自动分类聚类、自动消重、主题检测、专题聚焦等;将采集并分析整理后的信息直接为用户或为用户辅助编辑提供信息服务,如自动形成舆情信息简报、追踪已发现的舆论焦点等。

12 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

系统提供和省级单位舆情监测分析系统联动接口,必要时,可以提供信息的上传和共享。

4.3系统功能

4.3.1 信息采集

根据用户指定的互联网信息源或信息内容的条件描述,利用信息采集技术在互联网采集相关信息,并充分考虑为满足系统将来发展所需采集内部数据提供灵活的扩展性。

本系统采用定向搜集方法,针对与日常业务具有密切关系的网站进行定期监控,使这类网站的任何新的信息能快速及时的被采集。 4.3.1.1 定向信息采集

实现互联网定向信息的搜索、分析和网站的深层挖掘。 定向信息搜索采用客户端配置+服务端的工作模式。

? 可视化属性配置

客户端是采用可视化的配置工具。 ? 特定栏目内容抓取

13 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

针对频道级网页中某个特定栏目进行高级设置。 ? 网络论坛帖子抓取

获取所在网站及版面、帖子作者、发贴时间、回复数、点击数(人气)、标题、内容。 ? 自动网站用户登陆

对于需要订购和登陆的网站,提供配置项支持。 ? 动态和静态网页下载

能够采集目前流行的多种动态和静态网页。 ? 多层下载

支持多层下载。 ? 多线程并发搜索下载

采用多线程并发搜索下载提高搜索下载速度。 ? 智能URL选取

系统根据URL特征及所处网页内容智能判断URL所指内容的有效性,过滤广告和其他无关信息。 ? 支持断点继续抓取

如果下载过程意外终止,抓取服务器在下次启动后,自动继续下载完毕。

4.3.1.2 网页内容提取

网页中通常包含广告、版权信息、脚本描述语言等内容。网页内容智能提取技术能有效地提取网页中的有效信息,区分网页中的标题、正文等信息项,并对内容具有连续性的多个网页内容进行自动合并、网络论坛信息自动提取等。 ? 网页正文提取

自动提取正文就是从一个网页混乱的结构中自动分析并提出正文的部分。

? 多字符集编码转换

一个网站的字符集与这个网站的工作人员采用的系统和网站建立时的设计等因素有关。常见的字符集有gb2132、UTF8等。一些国内的网站为了

14 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

支持全球访问,采用Unicode编码方式,系统自动识别并转换。 ? 多种格式文件下载保存

支持多种文档格式,支持下载图片等多媒体文件。

4.3.1.3 全网监控

元搜索引擎(Meta-search engine)是在搜索引擎基础上建立的可以同时查询多个搜索引擎的WWW站点,它们集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能。利用该功能可实现基于条件的全互联网搜索,大大提高互联网内容采集的针对性和采集范围的广度。

针对本项目的需求,我们推荐采用通用的中文搜索引擎作为后台,来实现全网监控的目的。本系统元搜索采用并行式发送搜索指令,支持自定义选项,可扩展和减少后台引擎的数目,限定反馈结果时间,支持高级检索功能。

元搜索在本系统中提供两种应用:信息收集和互联网信息检索

? 信息收集:根据应用目标数据管理人员或编辑人员通过定义搜索条件(基于关

键词的高级检索条件)。系统定期进行元搜索,将采集到的信息进行自动过滤、消重、分类后进入本系统;

? 互联网信息检索:编辑人员可利用本系统提供的元搜索进行互联网信息的实

时检索,系统将各搜索引擎返回的结果进行消重与分类后,在一个界面分类呈现搜索结果。

本系统中,在进行内容抓取之前先进行URL的排重,自动对多个搜索引擎提供的检索结果进行重新分析整理,排除重复URL,从而既较少网络流量又避免了信息库中出现重复内容。

4.3.2 智能分析

15 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

4.3.2.1自动关键词提取

自动关键词提取是通过智能的手段为文档自动提取关键词的技术。 方正智思的自动关键词提取引擎采用了我们的文档分析与指代消解方面的最新研究成果,大大提高摘要与关键词的准确性与可读性。同时,该引擎提供静态摘要与动态摘要的功能。

实际应用系统中,在该引擎核心上可实现对文本网页等的自动提取摘要(静态摘要)与关键词,对检索结果集提供与检索条件相关的动态自动摘要,从而检索者只需要阅读的少量内容就可判断是否是所需要的文档。

4.3.2.2自动摘要

自动摘要是进行信息抽取的重要形式,其主要包括基于统计与基于理解的两种方式,基于统计的文摘是根据线索词词典、词频、词和句子的统计规律进行模式匹配汲取文摘;而基于理解的方式则是利用句法、语义知识等知识,在对文章的内容进行理解的基础上提取文摘。

? 处理范围

可处理任意文本,不受领域、题材的限制; ? 处理效率

要求建立在统计文摘的基础上,因此,具有很高的处理效率; ? 处理质量

要融合理解文摘的优点,使得文摘的质量更高、效果更好。

4.3.2.3多文档摘要

多文档摘要是可以对多个稳定进行信息抽取的形式,又融合了中文自然语言理解技术和数据挖掘技术得应用。其主要包括基于统计与基于理解的两种方式,基于统计的文摘是根据线索词词典、词频、词和句子的统计规律进行模式匹配汲取文摘;而基于理解的方式则是利用句法、语义知识等知识,在对文章的内容进行理解的基础上提取文摘。

16 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

4.3.2.4相关推荐

相关推荐是综合利用文档的内在特征信息进行智能分析,判断文档的相似性与重复性。

方正智思的相关推荐引擎中又融合了自动消重引擎,采用了我们最新的文章相似度量技术与相似索引技术的研究成果,适合于对海量文档的快速相似判断。

实际应用系统中,在该引擎核心上一方面可实现自动查找相似文本并向检索者推荐的功能,另一方面又可实现对文本的自动消重,降低文章冗余度,避免文章重复发布等。

4.3.2.5自动聚类

本系统支持基于统计的文本信息处理方法来实现信息的自动聚类,具备对信息的概念分析、概念模式识别、相关度计算等能力,从而可以充分挖掘隐含的、内在的信息,起到预警的作用。

自动聚类是将数据集合中的数据划分为具有一定意义的子集,使得不同子集中的数据差别尽可能大,而同一子集中的数据差别尽可能小。信息自动聚类是在对信息进行概念分析、概念模式识别、相关度计算的基础上,根据其内容主题进行自动分组。其区别于自动分类的关键是它没有学习的过程,而是根据数据对象的内在特征实现对对象集的分组。

4.3.2.6自动分类及分类训练

该功能是实现对信息数据的自动标引,分类、发送和存放。为用户提供按需定制的个性化服务,实现同级跨口径的分类,满足用户兴趣偏好。通过自动分类避免用户在浩如烟海的信息资源中,逐条搜索浏览,保证用户手上随时有最准确最相关信息来帮助他们有效地完成工作。

? 先进的分类策略

内置SVM、VSM、kNN等多种先进的分类方法,从而使分类效果从技术上达 到最优化。

17 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

? 分层分类

可实现分类处理上的逐层分类,使分类类别逐级细化 ? 分类类别定制

分类类别可由用户自行定制,以满足自己的不同需要 ? 完善的训练处理机制

在分类处理上,提供优化的训练处理方法,可自动优化训练集合,排除噪 声点、干扰点,从而提高训练样本集的质量,使分类器的分类质量得到改 善。 ? 自我学习能力

提供优异的分类系统自我学习机制,使分类系统在使用中可以进行自我学 习,从而实现分类器的自我优化、自我调整,从而避免分类系统因使用时 间而逐渐退化的现象 ? 高效的分类效率 分类效率达到毫秒级 ? 优良的分类效果

可获得90%左右的分类准确率

4.3.2.7主题检测与追踪

主题检测与追踪是指在各种信息来源中追踪那些与讨论目标主题相关的信息片段(如单个文档,新闻报道等等)。主题检测任务是自动检测信息片断集合中的各个未知主题,并能在线检测出新主题。这一技术是国际学术领域正在研究的最新课题之一。

方正的主题检测/追踪引擎采用了最新的国际研究成果,引入新的时间窗算法,结合我们在中文信息处理方面的优势而实现的引擎核心,它对中英文文章均具有很好实用性能。

实际应用系统中,在该引擎核心上可实现对新闻事件的分析,辅助进行专题报道,快速识别新事件、追踪热点事件。

18 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

4.3.2 信息智能处理

信息资讯的加工工作分为对单一情报信息文档的加工和对情报文档集合的分析处理。对于单文档的加工,本系统中应用知识管理技术,实现信息的自动消重过滤、自动分类、自动摘要提取与自动关键词提取。对于文档集合的智能分析处理,可以实现基于行业分类体系的自动分类、基于语意的自动消重和过滤。 4.3.2.1中文分词

以基于中文分词的混合字词为索引单位,内嵌的分词系统采用以词典为基础的分词算法。系统自带一部通用的系统词典,用户可以通过建立用户词典来定义新的词汇,用户词典一般包含了某个领域的专业词汇。系统在自动分词时将同时参考缺省分词词典和用户词典中的词汇。

为了最大限度地减少索引库的空间膨胀率、加快查询速度,系统中还引入了停用词典的概念。停用词典是按词建索引时不需要建立索引的词的集合,它是由一系列没有检索意义的高频词组成的,如英文文献中的“the”、“of”、“and”、“to”等,中文文献中的“的”、“关于”、“但是”、“而且”等。从相关性方面讲,文献中的这些词没有检索意义,因为这些词出现在多数文献中。在检索系统中,使用停用词典来过滤掉文献中没有检索意义的词。

基于词典的中文自动分词系统,词典采用快速的索引方式进行组织,利用词频、词性信息提高了分词的准确度,通过用户词典、停用词典提高了分词的灵活度。

4.3.2.2智能检索

智能检索是对海量文本数据进行检索的重要而基础的技术手段。一方面随着互联网的发展,WEB搜索技术迅速发展,检索引擎的数据处理能力迅速上升到TB级。另一方面,随着自然语言理解技术与人工智能技术的发展,在传统的检索技术的基础上逐渐发展起智能检索技术。这些技术逐渐在企业全文检索中得以应用。

方正智思全文检索面向企业应用,将WEB搜索技术与企业的全文检索技术相

19 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

结合,提供具有丰富检索手段的高性能全文检索系统。

方正智思全文检索的主要技术手段包括:

? 利用自然语言理解技术对文档数据进行分析并实现以中文分词为基础

的文档信息单元的切分;

? 采用改进的倒排索引技术实现海量信息的存储与索引; ? 利用自然语言理解技术扩展布尔模型以便提供灵活的检索手段; ? 利用文本挖掘技术实现对检索结果的排序过滤与聚类。 方正智思全文检索的主要功能包括: ? 支持多语言; ? 支持多种建索引方式; ? 支持多信息域; ? 支持多种存储索引方式; ? 支持多种数据类型; ? 支持多种数据源; ? 支持自动增量式索引; ? 支持多种智能检索模式;

? 支持多种结果集返回手段;

4.3.2.3自动排重与自动过滤

在互联网中,网页内容的互相转载引用大量存在。在互联网信息采集中,自动排重具有非常重要的作用。

自动排重特色: ? 多特征文档标识策略

从文档中提取多个特征项来标识一篇文档,消除了采用单一特征标识文档的不足,有效地提高了排重的准确性

? 智能的过滤处理

可根据需要对文档前后一些与内容无关的文字信息进行过滤处理,提高特征提取的准确性。

20 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

? 智能判断处理

在文档相似性判断上,模拟人工判断方法,提供智能判别处理,提高信息的利用率

? 动态交互特性

提供动态调整机制,用户可根据需要动态调节文档排重的严格程度,如完全相同、90%相同、80%相同等等;使用户可以发现不同文档间的相关关系,以满足不同的使用需求。

? 减小漏排率

由于采用基于内容的特征提取,因此可更好地降低了系统的漏排率。

自动过滤特色:

信息过滤处理和消重处理有较大的相似性,但侧重点不同。信息过滤主要针对可能存在的一些负面的、消极的报导,必须进行有效的过滤处理。

自动过滤技术特点: ? 支持特征词过滤

可通过提供相应的特征词,将有关的新闻文档过滤出来;支持特征词的布尔组合处理。

? 支持基于事例的过滤

同对用户提供的事例文档进行自动学习,并形成过滤特征,自动对相关文档进行过滤处理

? 基于分类的过滤

可将过滤的按照设置的类别进行分类处理。 ? 过滤范围动态设置

可以人工动态地进行过滤处理数据范围的设置,如新入库数据、历史数据等。

21 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

4.3.3 舆情监管

4.3.3.1超级搜索

1、元搜索

元搜索采用并行式发送搜索指令,支持自定义选项,可扩展和减少后台引擎的数目,限定反馈结果时间,支持高级检索功能。

元搜索在本系统中提供两种应用:信息收集和互联网信息检索

? 信息收集:根据应用目标数据管理人员或编辑人员通过定义搜索条件(基于关

键词的高级检索条件)。系统定期进行元搜索,将采集到的信息进行自动过滤、消重、分类后进入本系统;

? 互联网信息检索:编辑人员可利用本系统提供的元搜索进行互联网信息的实

时检索,系统将各搜索引擎返回的结果进行消重与分类后,在一个界面分类呈现搜索结果。

本系统中,在进行内容抓取之前先进行URL的排重,自动对多个搜索引擎提供的检索结果进行重新分析整理,排除重复URL,从而既较少网络流量又避免了信息库中出现重复内容。准确定位目标,快速返回检索结果。

2、模糊搜索

可以根据拼音搜索、同义词搜索、近义词、上位词、下位词来进行搜索。系统默认的是所有类型的网站的搜索,也可以通过界面上方的导航条,根据需要选择所需要的网站类型进行检索。

模糊搜索结果

22 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

在检索结果列表的上方有一检索的工具条,限定关键词和时间段,点击“二次搜索”按钮可对检索的结果进行过滤,也可点击“搜索”按钮对系统内的信息重新检索。

系统支持传统意义上的检索(关键词、逻辑搜索)。检索过程中,用户可以设定搜索的时间范围、结果数量、搜索的数据源等等。

3、高级搜索

系统支持根据一篇文章的标题、作者、时间、网站、频道或正文的具体描述来进行详细搜索的多种检索模式。

系统提供按相关性排序输出结果集和不排序两种方式,对排序方式又可根据应用需要选用本产品提供的两种方式之一:

? 增量排序(快速响应方式):结果集的开始部分能快速得到,但取结果

的数十万后的记录有时间延迟,适合大结果集的后面数据用处不大的场合。

? 分页排序(快速分页方式):能以同等的时间快速访问结果集的任何一

页,初始查询时间稍长。 4、相似搜索

系统支持基于根据对检索内容的理解来进行搜索,用户可以输入样例文档或样例图片来进行检索。实现“以文找文”的目的。在文档库或图片库查找与某个给定样例“相似”的对象,如,相似的文档、图片、多媒体片断,这种查找技术在数据挖掘领域称为“相似检索”(Similar Search)。其有别于传统的精确匹配,它不是针对对象的某个或几个具体属性,而是针对对象的多种属性的综合特征--相似性。

采用相似搜索引擎可以实现两个应用:为编辑和用户提供基于样例文档的基于内容的检索和提供相关资讯推荐功能。相关资讯推荐是指编辑或用户在浏览信息资讯时系统自动向其推荐与当前资讯相关的信息,有助于使用者对信息的全面深入的了解。

23 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

4.3.3.2主题过滤

主题过滤功能通过配置敏感信息规则和系统自学习功能,对新闻\\论坛网站中的信息内容进行自动过滤以及提示预警。

在信息情报采集、智能分析基础的基础上为编辑和用户提供所需的信息资讯。信息服务将在最短的时间把最相关的信息提供给最需要的人。

以下敏感信息分组可以根据应用需求,增加\\删除或修改。

根据中华人民共和国《互联网新闻信息服务管理规定》的互联网新闻信息管理要求,系统支持按照以下分类原则,配置管理敏感信息分类规则。

(一)违反宪法确定的基本原则的;

(二)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一的; (三)损害国家荣誉和利益的;

(四)煽动民族仇恨、民族歧视,破坏民族团结的; (五)破坏国家宗教政策,宣扬邪教和封建迷信的; (六)散布谣言,扰乱社会秩序,破坏社会稳定的;

24 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

(七)散布淫秽、色情、赌博、暴力、恐怖或者教唆犯罪的; (八)侮辱或者诽谤他人,侵害他人合法权益的;

(九)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序的; (十)以非法民间组织名义活动的;

(十一)含有法律、行政法规禁止的其他内容的。 4.3.3.3热点自动发现

该功能将帮助用户监控关于重大事件的新闻报道,论坛评论,事件发展和分化等专题信息。

主要功能包括:

? 信息主题创建:用户可方便地通过指定信息跟踪的范围、样例信息文档及相似度等相关信息内容创建主题;

? 信息主题训练:信息主题训练即包括主题初始创建时的训练也包括追踪一段时间后的增量式训练,增量式训练既包括:指定正样例的加强训练和指定负样例的削弱训练或者对阈值的简单调整; 4.3.3.4专项任务

系统还提供了基于具体的任务来进行专项任务追踪的功能。

此功能可以更好的丰富舆情监管人员监管手段,并可以提高舆情监管人员监管效率。

此功能主要包括:

? 专项任务的案件基本信息:标题、分类、摘要、违反条例、来源、关键词和链接等。 ? 网站ICP备案信息

? 案件处理意见:指定处理人、处理紧急度和处理意见等。 ? 处理记录查看

25 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

4.3.3.5网络探针

网络探针是通过定向监控的方式,实时扫描违规网站是否已经把违规的信息进行删除等处理工作。

此功能通过实时扫描和定向监控的方式对违规网站进行信息监控,可以有效的减少舆情监管人员的重复工作,提高监管效率。

4.3.4 业务应用

业务应用主要是针对外宣单位的工作流程上制定的特色业务应用,使系统

更加符合外宣行业的特色。 4.3.4.1案件提交

针对违规的案件进行审核提交,上报上级监管人员进行处理。包括案件的标题、摘要、链接等信息。

4.3.4.2审核管理

针对舆情监控系统的管理,系统还具备一套完善的舆情审核流程管理方法。

通过这种审批流程,可以达到审核规范的目的。

? 上报信息初审。

? 上报信息终审。

4.3.4.3查处管理

系统针对敏感信息的查处管理工作,提供以下几种管理手段:

? 敏感信息维护。

? 敏感信息、负面信息归档。 ? 扫描删除服务。 ? 报告生成。 ? 敏感信息统计。 ? 负面信息统计。

26 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

? 按部门统计。

4.3.4.4评论员管理

系统还支持针对舆情评论人员的管理,包括评论权限、评论内容等进行详细

管理。

4.3.4.5网站评价

系统可以针对违规网站进行统计评价,包括统计负面信息的数量、点击率、回帖率等。

4.3.5 舆情研判

4.3.5.1时间趋势

网络信息发布时间趋势曲线

时间分布图是展现敏感、热点、关注信息及专题分析中某类信息在一定时间段内的数量变化曲线。 设定时间段有两种选择:

1、固定时间段——确定截至时间,选择一天、一周、一月,所对应的时间段为 从截止时间上溯一天、一周、一月;

27 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

2、自定义时间段——所对应的时间段为开始时间到结束时间。

? 按照网站类型统计时间曲线(新闻、论坛)

?

根据峰值把握监管力度

4.3.5.2网站分布

网络信息站点分布图 ?

按照网站类型统计专题分布情况

4.3.5.3地域分布

28 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

网络信息地域分布图

? 按照网站地理位置统计专题分布情况

?

统计网站数、信息条数、地域分布、舆情类型等信息。

4.3.5.4话题演化

? 根据历史资料对以往信息指标体系进行理论模拟和数学模型的推导 ? 形成话题分析的主题演化二维图

? 判断话题的聚合和演变趋势

29 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

4.3.5.5传播路径

? 信息专题的传播趋势

传播路径是敏感、热点、关注及专题分析中分析某类信息在各网站之间的转载、传播路径。分析热点信息传出的网站名称,数字分别表示热点信息的传播途径和传播顺序,显示出该热点信息的的传播方向和传播内容。

系统可自动分析出该热点信息的具体传播途径,其中包括传播的顺序、网站名称和信息的标题。

辅助判断网站信息的刊载、编辑加工、转载、传播情况

4.3.5.6任务追踪

? 任务预警条件。 ? 任务信息列表。 ? 任务分析。 ? 任务上报。

4.3.5.7统计分析

系统支持统计分析引擎,包括两中统计方式:定量统计分析和定性统计分析。

30 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

定量统计分析可以统计一天中发生的十大热点信息排行,并会根据热点信息的分布生成各种图表,自动生成统计结果。单项事件的定性分析可以就具体事件进行专项的定性分析,采用人机结合的方式,系统出具统计数字和报告,由人工对事件性质进行判断。 4.3.5.8舆情简报

应用本系统后台集成的模版合成引擎,自动生成舆情信息的简报。简报模版可灵活根据需要定制,可配置多个模版。简报生成格式与OFFICE软件兼容。

系统具备舆情信息的统计分析功能,生成报表和分析图,分析结果支持复制和粘贴至Office文档。

4.3.6 基础数据

4.3.6.1敏感词管理

系统通过关系型数据库建立数据管理平台,支持敏感词库的管理,可以由

监管人员根据每个时期监管的对象自由定义。支持敏感词分类树管理的方式,可分组管理。

31 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

4.3.6.2主题管理

系统通过关系型数据库建立数据管理平台,支持主题管理,可以由监管人

员根据自由定义主题分类,支持分组管理。 4.3.6.3任务管理

系统支持多种案件管理的方式,可以任务名、时间、处理结果等方式进行管理查询。

4.3.6.4网站备案管理

就是面向系统网络管理员,给他们提供一个统一的、方便的备案平台,并支持主管人员进行查询统计等操作。系统信息的录入方式可以手工填写,也支持从TXT、EXCEL中导入。系统支持数据导出。与“网站信息监控、采集模块”结合,能够发现提供非法服务的校园网站点,并能对备案的站点进行“开/关”状态的判断。

网站ICP备案管理系统具备如下功能: ? 域名管理 ? 归属地管理 ? 联系方式管理 ? 违规记录管理 ? 站点导入导出

? 手工录入

4.3.6.5案件库管理

系统提供案件库管理,可支持按网站或标识排序的方式进行检索。通过此功能可以有效的管理违规案件的信息,方便舆情监管人员进行舆情研判和事后审计。

32 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

4.3.7 系统管理

系统管理是用来配置信息系统参数的模块。主要用来设定网络雷达和其他信息源、预警规则、敏感词库、信息分类树管理、文本挖掘配置、模版管理、人员权限管理和信息分析服务管理等。 4.3.7.1人员及权限管理

提供系统管理员相关配置选择。包括人员、日志、系统配置、公告及统计等功能。本系统提供了完善用户和权限管理机制,充分保证情报信息内容的安全性。用户分组、分类,权限分级。在视图管理管理环境下,可以实现对信息资讯库的访问权限的分配,对用户权力定制。通过多层次的权限控制可以达到对用户的身份甄别,对内部资源的安全保护与利用。

? 安全技术:

? 身份验证

? 验证、授权、审核

4.3.7.2日志管理

保存有所有登陆系统人员的浏览和操作历史记录,供需要参考时调用。 4.3.7.3界面定制

系统支持提供个性化的界面定制,符合各单位的办事风格,界面简洁、美观,方便用户操作,并提供直观的操作流程。 4.3.7.4参数管理

系统参数主要用来设定网络采集和其他信息源、预警规则、信息分类树管理、文本挖掘配置、模版管理、信息分析服务等。

? 信息源管理

权限范围内的员工可以选择添加新的站点、频道,或者元搜索关键词。监控

33 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

和搜索参数采用标准配置文件管理,可批量导入。

? 规则管理

本系统中采用多维矩阵式的分类结构,采用多体系分类,系统中需要分别维护各体系的分类体系的分类结构树。对信息分类树做增加,删除,修改名称等操作。

? 文本挖掘参数配置

配置智能分析处理的相关模块参数。包括,自动提取关键词、自动摘要、自动分类、自动聚类、主题检测和追踪、相似检索等参数。 4.3.7.5存储管理 存储系统模型

? 存储系统构成

包括四个存储系统:元数据存储系统、索引存储系统、中心存储系统、备份存储系统。

? 集中管理,分布存储

方正内容管理平台实现了平台管理集中化,存储分布式、多层次的体系结构。

数字内容可分布在Internet网络的多个站点,跨越楼宇、城市、地区,而数字内容的元数据信息可集中在一点进行管理。站点拓扑结构图如下:

分布式存储站点拓扑图 管理中心站点 中心存储站点 备份存储站点 在上图中,每一站点都可配置成为SAN存储或HSM结构。中心存储系统、备份存储系统为分布式的,可构成树形层次逻辑结构。如果不配置备份存储器,该图将演变为一级分布式存储结构。整个系统的存储规模可大可小,配置简便,可伸缩性强。

34 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

4.4系统部署

4.4.1系统部署拓扑图

本系统包括信息管理服务,检索服务,采集服务,分析处理服务,Web服务,上述几项服务也可以分散部署于5台硬件服务器,以降低主服务器的应用负载和网络带宽的占用,提高处理和查询效率。

下图为建议部署结构图:

网络舆情监测分析系统网络舆情监测分析系统控制平台采集服务器数据库服务器分析服务器文本检索服务器 安全FireWallSwitch防毒网关FireWall防护体系FireWall 企业内部网CARouter企业内部网其他服务器群Internet

系统部署图

分析处理服务器根据系统分析处理计算量,调整服务器数量。

数据库服务器根据可以根据需求,增加备份服务器或者磁盘阵列存储设备。

4.4.2系统部署安全建设

根据系统部署需求,为了更好的保证和管理系统中的数据信息安全,需要在

系统边界部署相关的安全产品,从而保障系统边界安全。

35 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

目前,我国计算机信息系统安全专用产品的种类已由单机防病毒产品发展到现在的网络防毒、防火墙、身份鉴别、网络隔离、漏洞扫描、防攻击预警、操作系统、数据库等十几大类信息安全保护产品,产品的功能检测也随着安全保护技术的完善由简单的功能确认发展到分级检验。在选择安全专用产品时应当考虑产品的性价比、特征库的升级与维护费用、最大处理能力、产品的可伸缩性、运行与维护开销、产品是否容易被躲避及响应方法、是否获得安全专用产品销售许可证。

针对操作系统和服务器自身的安全性,我们推荐在网络边界中设置防火墙、杀毒软件和防毒网关。

防火墙是指设置在不同网络(如可信任的企业内部网和不可信的公共网)或网络安全域之间的一系列部件的组合。它通过允许、拒绝或重新定向经过防火墙的数据流,防止不希望的、未授权的通信,并对进、出内部网络的服务和访问进行审计和控制,本身具有较强的抗攻击能力,对网络用户基本上是“透明”的,并且只有授权的管理员方可对防火墙进行管理。目前,市场上有六种基本类型的防火墙,分别是嵌入式防火墙、基于企业软件的防火墙、基于企业硬件的防火墙、soho软件防火墙、soho硬件防火墙和特殊防火墙。

建立多层次全方位的立体防毒系统,需要内部网除了做好桌面/服务器的防毒工作,邮件的防毒工作以外,还需要在网络的边界部署网关防毒设施。其中网关防毒产品一般包括http、smtp、ftp的实时病毒过滤。目前,市场上主流的产品有瑞星、趋势科技和金山等。

在终端用户的操作界面中,需要部署企业版的防火墙和杀毒软件,并保证病毒库的定期更新和升级。

通过这三个层次的部署,可以清晰建立起一套综合的安全防护体系。

4.4.3系统运行环境

1 硬件环境:

? 数据库服务器:Xeon 3.0GHz, 2GBDDR, 2*300G HD 硬盘可扩展 ? Web 服务器:共享数据库服务器

? 采集服务器:Xeon 3.0GHz, 1GBDDR, 2*300G HD 36 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

? 检索服务器:Xeon 3.0GHz, 1GBDDR, 2*300G HD ? 分析处理服务器:2*Xeon 3.0GHz, 2GBDDR, 2*300G HD 2 软件环境:

? 操作系统:Windows 2000 或者 Windows 2003 服务器版本 ? 应用服务器:Tomcat ? 数据库:Oracle 10g 3 网络环境:

? 网络带宽:2M独享带宽或100M共享带宽。

5典型案例

国务院新闻办

中共中央宣传部 上海市委宣传部

山西省人民政府

哈尔滨市政府

江苏省政府新闻办

郑州市政府新闻办

杭州市新闻办

贵州省新闻办

安徽省新闻办

37 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

深圳市委党校

北京师范大学

上海市公安局

北京市公安局

6联系方式

北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室 TEL:(010)82529034 FAX:(010)82529440

38 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

本文来源:https://www.bwwdw.com/article/b04o.html

Top