文本分类python代码
更新时间:2023-10-06 05:28:01 阅读量: 综合文库 文档下载
#!/usr/bin/env python # -*-coding:utf8-*-
importos
import codecs
fromsklearn.feature_extraction.text import TfidfVectorizer importnltk
fromsklearn.naive_bayes import MultinomialNB fromsklearn.linear_model import SGDClassifier
def tokenize(text):
tokens = nltk.word_tokenize(text)
# stems = stem_tokens(tokens, stemmer) return tokens
defread_corpus(topics):
print \token_dict = dict() y_train = [] fori in range(6):
dROOT_SUB = u'./data/topic_corpus_cut/' + topics[i].decode(\count = 0
forsubdir, dirs, files in os.walk(dROOT_SUB): for file in files:
file_path = subdir + os.path.sep + file
shakes = codecs.open(file_path, \text = shakes.read()
token_dict[file] = text # no_punctuation count = count + 1
y_train.extend([i] * count)
token_dict_keys = token_dict.keys() returntoken_dict, y_train
# def train
deftrain_model(token_dict): # this can take some time
tfidf = TfidfVectorizer(tokenizer=tokenize, stop_words=None, max_features=400) tfs = tfidf.fit_transform(token_dict.values()) printtfs.shape returntfs, tfidf
if __name__ == '__main__': dROOT = u'./data/topics/'
topics = ['体育', '社会', '管理']
token_dict, y_train = read_corpus(topics) X_train, tfidf = train_model(token_dict)
parameters = {
'loss': 'hinge', 'penalty': 'l2', 'n_iter': 50,
'alpha': 0.00001, 'fit_intercept': True, }
#parameters = {'alpha': 0.01}
#clf = MultinomialNB(**parameters).fit(X_train, y_train) clf = SGDClassifier(**parameters).fit(X_train, y_train)
#X_test_str = u'政府采购好事方向应该支持运行急待改进完善提高专业性数额急需采购东西放权专业技术人员采购人员专业手续繁杂东西差价时间影响工作采购也许腐败'
X_test = tfidf.transform([X_test_str]) pred = clf.predict(X_test) printpred
正在阅读:
文本分类python代码10-06
D8_3全微分06-01
建筑材料习题集(习题、答案部分)01-31
JAVA基础练习110-10
linux下破解wifi密码09-29
存货风险管理08-17
开目KMCAPP上机教程11-22
主题六:我要上小学了03-08
(完整版)医院健康教育工作计划05-07
基于电子政务系统的政府绩效评估系统研究12-25
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 文本
- 代码
- python
- 分类
- 生物工程专业普通生物学试题集
- 配料作业指导书 - 图文
- 西师版小学六年级语文下册教案
- 国际贸易实务名词中英文对译(一)
- 配电网三相潮流计算程序小毅毅哈哈
- 幼儿园认识蔬菜教案
- 学生会勤工助学部个人工作总结
- 双面多轴钻床液压课程设计
- 腹腔镜胆囊切除术并发症的防治体会
- 基于Solidworks和Adams的玩具动力学仿真 毕业论文(胡成骏) - 图文
- 企业新进人员培训记录表范文
- 物理化学实验思考题解答
- SCI 论文投稿全过程(Elsevier在线投递)
- 汽车用高强度钢板发展趋势-图文
- 教科版四年级上册科学实验报告单
- 食品分析与检验复习题包含食品检验员试题(高级)
- 八下语文文言文阅读及古诗词积累专项训练
- A Comparison Between Chinese Etiquette and Western Etiquette
- 温州市瓯海区教育局关于公布2009年区中小学艺术节各项比赛结果的通知
- 高中继承传统文化议论文800字