网络环境下文本自动分类方法研究综述
更新时间:2023-06-08 06:33:01 阅读量: 实用文档 文档下载
- 在网络环境中推荐度:
- 相关推荐
第9卷第5期2009年10月
鸡西大学学报
JOURNALOFJIXIUNIVERS兀Y
V01.9No.5
Oct.2009
文章编号:1672—6758(2009)05-0151—2
网络环境下文本自动分类方法研究综述
吴
波
摘要:介绍了网络环境下文本自动分类的过程,针对文本信息自动分类的研究方法,分析了当前我国文本信息自动分类研究中存在的问题,提出了其未来发展的趋势。
关键词:文本分类;分类方法;分类;网络环境中图分类号I(;254.0一文本分类的过程
文本分类过程是从人工正确分类的语料库起,经过预处理形成便于计算机处理的结构化特征数据,特征数据与分类算法相结合形成分类器,待分类文本经预处理后形成文档特征向量,输入分类器进行判断得出分类结
果。
文献标识码:A
该算法简单,没有学习过程,但分类时要将所有样本都存人计算机中,每次决策都要将待识别样本与全部训练样本之间的距离进行比较,因此存储和计算量较大,同时k值的确定需要进行一系列实验才能确定。
实验证明,基于KNN模型的方法在分类精确度上与C5.0和标准的K—NN相当。新方法还将这种基于KNN模型的方法成功用于文本分类。另外,针对K—NN方法的第一个缺陷,Nong
Ye
andXiangyang
二常见的文本分类方法1.贝叶斯方法。
贝叶斯方法(NaveBayes,NB)是比较经典的文本分类方法。朴素贝叶斯分类器是以贝叶斯定理为理论基础的一种在已知先验概率与条件概率的情况下得到后验概率的模式分类方法,用这种方法可以确定一个给定样本属于一个特定类的概率。目前基于朴素贝叶斯方法的分类器被认为是一个简单、有效而且在实际应用中很成功的分类器。在文本分类领域,贝叶斯定理可以表述如下:
,
..、
Li将聚类方法和
经典的K—NN方法结合起来,提出了一种新的分类方法,称为CCA—S。CCA—S能够处理大规模数据集,可伸缩性好,并且支持增量式学习。但CCA—S只能处理连续属性,而且只针对类别为两类的分类问题。
5.支持向量机--SVM。
支持向量机(Support
Vector
Machines:SVM)理论,
由Vapnik在1995年提出,用于解决二分类模式识别问题。它基于结构风险最小化原则,在向量空间中找到一个决策面,这个面能“最好”地分割两个分类中的数据点。该算法的原理是在给定的训练集上作一个超平面的线性划分,将分类问题转化为一个寻找空间最优平面的问题,再次转化成一个二次规划问题。原因是如果所有的向量都能够被某个超平面正确划分,并且各类向量与超平面的最小距离最大化,则该平面为最优超平面,距离平面最近的异类向量为支持向量,一组支持向量可以唯一确定一个超平面。
三
文本自动分类方法研究的新进展1.多分类器融合(fusion)的方法。
实际应用的复杂性和数据的多样性往往使得单一的分类方法不够有效。因此学者们对多种分类方法的融合(fusion)进行了广泛的研究,取得了一系列研究成果。纵观文献中的研究,可以大致将多分类器的融合技术分为以下几类:投票机制(voting)、行为知识空间方法(Behav.
ior—KnowledgeSpace
pLci/diJ
2——i百丁一
r、ui,
p(Ci)P(dl/ci)
上述公式表示在给定文档d;的条件下,d;属于类别c;的概率(称为后验概率)。所以对文档d;分类的问题就转化为计算p(ejd;)的值,使P(cj/d;)取得最大值的那个类别d;就是所属的类别。
2.决策树方法——Decisi∞Tree。
决策树方法是从训练集中自动归纳出分类树。在应用于文本分类时,决策树算法基于一种信息增益标准来选择具有信息的词,然后根据文本中出现的词的组合判断类别归属。
3.相似度计算方法——R0cchio。
Rocchio是情报检索领域最经典的算法。在算法中,首先为每一个类c建立一个原型向量(即训练集中C类的所有样本的平均向量),然后通过计算文档向量D与每一个原型向量的距离来给D分类。可以通过点积或者Jaccard近似来计算这个距离。这种方法学习速度非常快。
BKS)、证据理论(Dempster—Sharer
programming
theory)、贝叶斯方法和遗传编程(genetic
4.K一近邻方法——K—NN。
K—NN方法是一种基于实例的文本分类方法,由Cover和Hart于1968年提出,是传统的文本分类算法中效果最好的算法之一。KNN用来计算文本间的相似度,找出训练集中与测试文本最相近的k个文本,取k个文档中某一类别相似度之和最大的类别,作为新文本类别。
GP)。采用投票机制的方法主要有装袋(bagging)和推进(boosting)。近两年来,PeterBuhlmann和BinYu提出了boosting的一个新变种L2Boost,L2Boost计算简单,且性能可与其他基于boosting的方法相媲美。另外还有采用BKS进行分类器融合以及用证据理论将四个不同的分类方法(sVM。KNN。KNN
Model—based
approach和Roc.
作者筒介:吴波,馆员,连云港职业技术学院图书馆,江苏 连云港。邮政编码:222000
15l
第5期鸡西大学学报2009年
chio)结合起来,形成融合的分类器。研究人员通过实验度和准确率与最终的分类结果密切相关。尤其是web证明了这种基于依赖的贝叶斯方法比基于BKS的方法上不断出现新词汇,对分词理论的创新和词典的构造都性能好。Langdon等人对基于遗传编程的分类器融合技提出了较高的要求。
术进行了一系列的研究,其中主要研究了同类型分类器3.将自然语言理解和处理技术、语义Web概念、A.的融合(比如多个神经网络分类器的融合)。
gent技术和机器翻译等技术应用于Web文本分类中,进2.基于模糊一粗糙集的文本分类模型。
一步解决中文文本分类的难点,提高文本分类的智能化文本分类过程中由于同义词、多义词、近义词的存在水平。
导致许多类并不能完全划分开来,造成类之间的边界模4.目前存在多种成熟的文本分类算法,大部分分类糊。此外交叉学科的发展,使得类之间出现重叠,于是造系统都是应用某一种分类算法,分类性能受到制约。
成许多文本信息并非绝对属于某个类。这两种情况均会随着全球网络化和信息化的迅猛发展,文本自动分导致分类有偏差,针对上述情形,有学者提出利用粗糙一类作为知识发现的重要分支,已成为众多领域研究者的模糊集理论结合KNN方法来处理在文本分类问题中出热门研究课题,吸引着越来越多研究者的关注。尽管文现的这些偏差。模糊一粗糙集理论有机地结合了模糊集本自动分类方法还存在着不少问题,但是文本分类技术理论与粗糙集理论在处理不确定信息方面的能力,反映有着广泛的应用,逐渐趋于实用。随着人工智能、机器了由于类别之间的重叠体现出的隶属边界的模糊性。
学习、数据挖掘、进化计算、模糊集和粗糙集等领域的发3.潜在语义分类模型。
展,分类方法将向着更加高级、更加综合化和更加多样化潜在语义索引方法,已经被证明是对传统的向量空的方向发展。
间技术的一种改良,可以达到消除词之间的相关性,化简文档向量的目的,然而LSI在降低维数的同时也会丢失一些关键信息。LSI基于文档的词信息来构建语义空间,参考文献
得到的特征空间会保留原始文档矩阵中最主要的全局信1.朱靖波陈文亮:基于领域知识的文本分类[J].东息。但在某些情况下,一些对待定类别的正确分类非常北大学学报,2005,26(8):733—736
重要的特征,因为放在全局下考虑显得不重要,而在维数2.YeNong.LiXiangyang.Amachinelearningalgo-约减的过程中被滤掉;该情况对稀有类别尤为明显。事rithmbasedon
supervisedclusteringandclassification.In:
实上也是,稀有类中出现的词很可能是整个文档集中的“uJ,etal,eds.AMT2001,LNCS2252,2001.327—
稀有词,那么被滤掉的可能性就很大了。这样,就可以得334
到比LSI模型的语义空间更适合文本分类的语义空间。
3.VapnicV.TheNatureofStatisticalLearning
Theory
通过以上分析,可以看出文本分类方法存在以下几[M].New
York:Springer—Verlag,1995
种发展趋势:一是新分类方法不断涌现,比如基于群的分4.JoachimsT.TextCategorizationwithSupportVector
类方法和基于粒度计算的分类方法;二是传统分类方法Machines:LearningwithManyRelevantFeatures[J].Pro—
的进一步发展,比如支持向量机的不断改进和KNN方法ceedingsofthe10thEuropeanConference
on
MachineLearn-
的发展;三是根据实际问题需要,有针对性地综合众多领ing,Lecture
NotesIn
ComputerScience,1998,1398:137
域的技术,以提高分类的性能。
—142
四
当前我国文本信息自动分类研究存在的问题5.JoachimsT.MakingLarge—ScaleSVMLearning
目前在国内也已经开始对中文文本分类方法进行研Practical[A].B.Seh?Lkopfand
c.Burges
and
A.Smo-
究,虽然在研究过程中不断有新的理论和方法产生,但还la,AdvancesinKemdMethodsSupportVeetorLearning
是存在着一些问题有待进一步研究和改进。
[C],eds.,Cambridge,MA,USA:MIT—Press,1999
1.由于中文文本分类起步晚和中文不同于英文的特6.付雪峰王明文:基于模糊一粗糙集的文本分类方性,目前中文Web文本分类还没有标准的、开放的文本法[J].2004年度全国搜索引擎和网上信息挖掘学术研测试集,各研究者大多使用自己建立的文本集进行训练讨会,华南理工大学学报(自然科学版),2004,32:
和测试,其分类结果没有可比性,不利于交流和提高。
73—.76
2.分词是影响文本分类的重要因素之一,分词的速
Review
on
AutomaticTextCategorizationMethodsUndertheNetworkEnvironment
Wn
Bo
Abstract:。11learticleintroducedtheprocessoftheautomatic
text
categorizationunderthenetworkenvironment,especially
thestudyingmethodfor
text
categorization.Itdiscussesthe
current
researchdeficiencyandthedevelopmenttrendinthefuture.
Keywords:textcategorization;categorizemethod;categorization;networkenvironment
ClassNo.:G254.0
DocumentMark:A
(责任编辑:韩新君郑英玲)
152
正在阅读:
网络环境下文本自动分类方法研究综述06-08
02 Acteurs du Fret A&233;rien 2012 02 0106-05
贫困救助申请书朱圣安03-29
数字可视对讲系统方案08-17
汽柴油质量指标含义01-08
地铁消防通讯稿03-15
铁路信号系统发展方向(2012-3)10-02
如何认识和解决中小学生学习困难问题06-24
盘龙网络设计工作室创业计划书07-20
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 方法研究
- 综述
- 文本
- 环境
- 自动
- 分类
- 网络
- 【计算机科学】_标准模型_期刊发文热词逐年推荐_20140722
- JY公司绩效与薪酬相结合的管理体系探讨
- BtoC模式下移动商务消费者信任影响因素研究
- 工程进度计划与措施
- 单片机系统可靠性技术分析与发展
- 高一作文1300字左右:中国梦,我的梦
- EXCEL使用过程中经常遇到的问题及解决办法第一讲
- 城建道桥啄木鸟全国QC小组京开公路平整度研究
- 学校安全工作考核办法
- 国立台湾海洋大学九十五学年度教师发展研讨会
- 机械设计作业集答案 第四版 西北工大版
- 山东省泰安岱岳区年末总人口和城镇居民人均可支配收入3年数据解读报告2019版
- 论文写作 语言学方向
- 小学生心理健康教育教案
- 基于STEP协议的证券行情分析系统(LEVEL-2)的研究与实现
- 方汉奇中国新闻传播史笔记
- 谈公益诉讼的原告适格问题_马婧
- 科技小发明——新款车用雨衣
- 实验四MATLAB在方程求解和级数中的应用
- 2012新建筑面积计算规则