基于Python-Snownlp的新闻评论数据分析

更新时间：2023-11-19 22:24:01 阅读量：教育文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

python snownlp推荐度：
相关推荐

龙源期刊网 http://www.qikan.com.cn

作者：赵志升靳晓松温童童梁俊花来源：《科技传播》2018年第18期

摘要网上热点新闻的评论不仅反映了民众对社会热点事件的关注程度，也反映了公众所表现出的各类情感价值和思想动态。基于Python-Snownlp经过数据采集，数据预处理，建立向量模型，数据挖掘与分析对新闻评论中用户观点与情绪进行研究，有效实现舆情分析和监控。

关键词 Python Snownlp；网络爬虫；聚类分析；情感分析

中图分类号 G2 文献标识码 A 文章编号 1674-6708（2018）219-0104-02

步入“互联网+”与大数据时代，网络媒体已经成为舆论新格局的重要组成部分，人们更倾向于通过互联网关注社会中的热点问题，并通过网络媒体来发表个人意见和看法。文章从凤凰新闻、新浪新闻、环球网网页入手，使用Python的Scrapy框架来访问网页URL，解析页面评论信息，将抓取的评论信息存储到Mysql数据库中。抽取数据并进行预处理清洗，调用Python开源的分词模块jieba分词对文本进行分词，去除停用词、敏感词，建立相应的语料库。使用TF-IDF算法将语料库中的词语转化成词矩阵模型，使用K-Means算法对评论数据进行聚类分析挖掘，采用Python专为中文文本设计的Snownlp模块对数据进行情感分析。

1 数据采集

采用网络爬虫技术进行数据获取，选取了影响比较大的“造谣伊利董事长失联事件”这一热点事件的新闻评论作为数据集，使用网络爬虫技术从Web端抓取新闻评论数据集。首先，通过访问URL地址获取Web服务器端返回得数据，并解析数据抓取资源。请求模块是向网页URL发送请求，并获取网页源代码。解析模块是对网页源代码的解析，去除源代码中的JS脚本标签，CSS代码、HTML标签等内容，并将解析后的数据下载下来。资源库则是用来存放从网络上抓取下来的数据资源。并进行JS拼接，使用Scrapy模块进行解析，Scrapy模块是Python开发的一个快速、高层次的屏幕抓取和Web抓取框架，用于抓取Web站点并从页面中提取结构化的数据。

Scrapy使用了Twisted异步网络库来处理网络通讯，架构清晰，并且包含了各种中间件接口。引擎（Scrapy Engine），用来处理整个系统的数据流处理，触发事务。然后存储到Mysql数据库。 2 数据预处理

本文来源：https://www.bwwdw.com/article/sbov.html

相关文章：

正在阅读：

基于Python-Snownlp的新闻评论数据分析11-19

莱宁格的跨文化护理理论08-13

精装修设计方案书 - 图文12-16

市场营销策划书（通用4篇）03-23

人事管理系统计算机网络技术毕业论文05-21

上海耀华 XK3190-D2+说明书04-10

词语（熟语）选择练习100题（全）答案01-31

关于兄弟的伤感日志02-10

2015最新信息系统分析与设计综合题库大全 - 图文05-26

未成年人违法犯罪成因及防范01-05

上一篇：浅谈对“绿水青山就是金山银山”理念的理解与体会下一篇：朝阳区中小学幼儿园安全防范工作标准