新闻分类器
更新时间:2024-04-29 18:03:01 阅读量: 综合文库 文档下载
import pandas as pd import jieba #pip install jieba
df_news
pd.read_table('./data/val.txt',names=['category','theme','URL','content'],encoding='utf-8') df_news = df_news.dropna() df_news.head()
=
df_news.shape
分词:使用结吧分词器
content = df_news.content.values.tolist() print (content[1000])
content_S = [] for line in content:
current_segment = jieba.lcut(line)
if len(current_segment) > 1 and current_segment != '\\r\\n': #换行符 content_S.append(current_segment) content_S[1000]
df_content=pd.DataFrame({'content_S':content_S}) df_content.head()
stopwords=pd.read_csv(\encoding='utf-8') stopwords.head(20)
def drop_stopwords(contents,stopwords): contents_clean = []
all_words = []
for line in contents: line_clean = [] for word in line:
if word in stopwords: continue
line_clean.append(word) all_words.append(str(word)) contents_clean.append(line_clean) return contents_clean,all_words #print (contents_clean)
contents = df_content.content_S.values.tolist() stopwords = stopwords.stopword.values.tolist()
contents_clean,all_words = drop_stopwords(contents,stopwords)
#df_content.content_S.isin(stopwords.stopword)
#df_content=df_content[~df_content.content_S.isin(stopwords.stopword)] #df_content.head()
df_content=pd.DataFrame({'contents_clean':contents_clean}) df_content.head()
df_all_words=pd.DataFrame({'all_words':all_words}) df_all_words.head()
words_count=df_all_words.groupby(by=['all_words'])['all_words'].agg({\words_count=words_count.reset_index().sort_values(by=[\words_count.head()
from wordcloud import WordCloud import matplotlib.pyplot as plt %matplotlib inline import matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)
wordcloud=WordCloud(font_path=\80)
word_frequence = {x[0]:x[1] for x in words_count.head(100).values} wordcloud=wordcloud.fit_words(word_frequence) plt.imshow(wordcloud)
TF-IDF :提取关键词
import jieba.analyse index = 2400
print (df_news['content'][index])
content_S_str = \
print (\ \
LDA :主题模型
格式要求:list of list形式,分词好的的整个语料 from gensim import corpora, models, similarities import gensim
#http://radimrehurek.com/gensim/
#做映射,相当于词袋
dictionary = corpora.Dictionary(contents_clean)
corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20) #类似Kmeans自己指定K值
#一号分类结果
print (lda.print_topic(1, topn=5))
for topic in lda.print_topics(num_topics=20, num_words=5):
正在阅读:
新闻分类器04-29
期中测评教学文档05-13
基于R-TPBSS的结构模态参数识别方法08-21
山东2018年高校教师资格证-《教师职业道德修养》题库40005-03
基于城市道路功能划分的交叉口指路标志信息分级体系(1)07-29
船舶建造检验指南10-05
广告人必看成都房地产市场回顾及展望04-09
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 分类
- 新闻
- 河南省2015年与2014年高考考试说明对比
- 辽宁省产业指导目录(2008本)
- Tcl脚本语言教程 - 图文
- 中国现代文学专题 国家开放大学学习网
- 触摸式防盗报警器实验报告
- 集中供暖的可行性实践评估
- 材料解析doc
- 初级建构筑物消防员习题集 - 图文
- 统计学模拟试题及答案
- 第八小组--高校学生瓶装饮料消费现状调查研究报告
- 北京市西城区2013年高三二模试卷语文
- 立式原料磨施工方案 - 图文
- 浅谈小学美术课堂纪律的调控策略
- 多媒体在外语教学中的应用分析
- 可口可乐-市场调研案例
- 新编英语语法教程 第27-30讲 练习参考答案
- 马克思主义原理概论总复习资料(全·用)
- 商务英语视听说视听说原文
- 《单片机原理与应用》期末复习
- 泸州十五中2014级第二学月数学试卷