基于Python-Snownlp的新闻评论数据分析

更新时间:2023-11-19 22:24:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

龙源期刊网 http://www.qikan.com.cn

基于Python-Snownlp的新闻评论数据分析

作者:赵志升 靳晓松 温童童 梁俊花 来源:《科技传播》2018年第18期

摘 要 网上热点新闻的评论不仅反映了民众对社会热点事件的关注程度,也反映了公众所表现出的各类情感价值和思想动态。基于Python-Snownlp经过数据采集,数据预处理,建立向量模型,数据挖掘与分析对新闻评论中用户观点与情绪进行研究,有效实现舆情分析和监控。

关键词 Python Snownlp;网络爬虫;聚类分析;情感分析

中图分类号 G2 文献标识码 A 文章编号 1674-6708(2018)219-0104-02

步入“互联网+”与大数据时代,网络媒体已经成为舆论新格局的重要组成部分,人们更倾向于通过互联网关注社会中的热点问题,并通过网络媒体来发表个人意见和看法。 文章从凤凰新闻、新浪新闻、环球网网页入手,使用Python的Scrapy框架来访问网页URL,解析页面评论信息,将抓取的评论信息存储到Mysql数据库中。抽取数据并进行预处理清洗,调用Python开源的分词模块jieba分词对文本进行分词,去除停用词、敏感词,建立相应的语料库。使用TF-IDF算法将语料库中的词语转化成词矩阵模型,使用K-Means算法对评论数据进行聚类分析挖掘,采用Python专为中文文本设计的Snownlp模块对数据进行情感分析。

1 数据采集

采用网络爬虫技术进行数据获取,选取了影响比较大的“造谣伊利董事长失联事件”这一热点事件的新闻评论作为数据集,使用网络爬虫技术从Web端抓取新闻评论数据集。首先,通过访问URL地址获取Web服务器端返回得数据,并解析数据抓取资源。请求模块是向网页URL发送请求,并获取网页源代码。解析模块是对网页源代码的解析,去除源代码中的JS脚本标签,CSS代码、HTML标签等内容,并将解析后的数据下载下来。资源库则是用来存放从网络上抓取下来的数据资源。并进行JS拼接,使用Scrapy模块进行解析,Scrapy模块是Python开发的一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。

Scrapy使用了Twisted异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口。引擎(Scrapy Engine),用来处理整个系统的数据流处理,触发事务。然后存储到Mysql数据库。 2 数据预处理

本文来源:https://www.bwwdw.com/article/sbov.html

Top