网络环境下文本自动分类方法研究综述

更新时间:2023-06-08 06:33:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第9卷第5期2009年10月

鸡西大学学报

JOURNALOFJIXIUNIVERS兀Y

V01.9No.5

Oct.2009

文章编号:1672—6758(2009)05-0151—2

网络环境下文本自动分类方法研究综述

摘要:介绍了网络环境下文本自动分类的过程,针对文本信息自动分类的研究方法,分析了当前我国文本信息自动分类研究中存在的问题,提出了其未来发展的趋势。

关键词:文本分类;分类方法;分类;网络环境中图分类号I(;254.0一文本分类的过程

文本分类过程是从人工正确分类的语料库起,经过预处理形成便于计算机处理的结构化特征数据,特征数据与分类算法相结合形成分类器,待分类文本经预处理后形成文档特征向量,输入分类器进行判断得出分类结

果。

文献标识码:A

该算法简单,没有学习过程,但分类时要将所有样本都存人计算机中,每次决策都要将待识别样本与全部训练样本之间的距离进行比较,因此存储和计算量较大,同时k值的确定需要进行一系列实验才能确定。

实验证明,基于KNN模型的方法在分类精确度上与C5.0和标准的K—NN相当。新方法还将这种基于KNN模型的方法成功用于文本分类。另外,针对K—NN方法的第一个缺陷,Nong

Ye

andXiangyang

二常见的文本分类方法1.贝叶斯方法。

贝叶斯方法(NaveBayes,NB)是比较经典的文本分类方法。朴素贝叶斯分类器是以贝叶斯定理为理论基础的一种在已知先验概率与条件概率的情况下得到后验概率的模式分类方法,用这种方法可以确定一个给定样本属于一个特定类的概率。目前基于朴素贝叶斯方法的分类器被认为是一个简单、有效而且在实际应用中很成功的分类器。在文本分类领域,贝叶斯定理可以表述如下:

..、

Li将聚类方法和

经典的K—NN方法结合起来,提出了一种新的分类方法,称为CCA—S。CCA—S能够处理大规模数据集,可伸缩性好,并且支持增量式学习。但CCA—S只能处理连续属性,而且只针对类别为两类的分类问题。

5.支持向量机--SVM。

支持向量机(Support

Vector

Machines:SVM)理论,

由Vapnik在1995年提出,用于解决二分类模式识别问题。它基于结构风险最小化原则,在向量空间中找到一个决策面,这个面能“最好”地分割两个分类中的数据点。该算法的原理是在给定的训练集上作一个超平面的线性划分,将分类问题转化为一个寻找空间最优平面的问题,再次转化成一个二次规划问题。原因是如果所有的向量都能够被某个超平面正确划分,并且各类向量与超平面的最小距离最大化,则该平面为最优超平面,距离平面最近的异类向量为支持向量,一组支持向量可以唯一确定一个超平面。

文本自动分类方法研究的新进展1.多分类器融合(fusion)的方法。

实际应用的复杂性和数据的多样性往往使得单一的分类方法不够有效。因此学者们对多种分类方法的融合(fusion)进行了广泛的研究,取得了一系列研究成果。纵观文献中的研究,可以大致将多分类器的融合技术分为以下几类:投票机制(voting)、行为知识空间方法(Behav.

ior—KnowledgeSpace

pLci/diJ

2——i百丁一

r、ui,

p(Ci)P(dl/ci)

上述公式表示在给定文档d;的条件下,d;属于类别c;的概率(称为后验概率)。所以对文档d;分类的问题就转化为计算p(ejd;)的值,使P(cj/d;)取得最大值的那个类别d;就是所属的类别。

2.决策树方法——Decisi∞Tree。

决策树方法是从训练集中自动归纳出分类树。在应用于文本分类时,决策树算法基于一种信息增益标准来选择具有信息的词,然后根据文本中出现的词的组合判断类别归属。

3.相似度计算方法——R0cchio。

Rocchio是情报检索领域最经典的算法。在算法中,首先为每一个类c建立一个原型向量(即训练集中C类的所有样本的平均向量),然后通过计算文档向量D与每一个原型向量的距离来给D分类。可以通过点积或者Jaccard近似来计算这个距离。这种方法学习速度非常快。

BKS)、证据理论(Dempster—Sharer

programming

theory)、贝叶斯方法和遗传编程(genetic

4.K一近邻方法——K—NN。

K—NN方法是一种基于实例的文本分类方法,由Cover和Hart于1968年提出,是传统的文本分类算法中效果最好的算法之一。KNN用来计算文本间的相似度,找出训练集中与测试文本最相近的k个文本,取k个文档中某一类别相似度之和最大的类别,作为新文本类别。

GP)。采用投票机制的方法主要有装袋(bagging)和推进(boosting)。近两年来,PeterBuhlmann和BinYu提出了boosting的一个新变种L2Boost,L2Boost计算简单,且性能可与其他基于boosting的方法相媲美。另外还有采用BKS进行分类器融合以及用证据理论将四个不同的分类方法(sVM。KNN。KNN

Model—based

approach和Roc.

作者筒介:吴波,馆员,连云港职业技术学院图书馆,江苏 连云港。邮政编码:222000

15l

第5期鸡西大学学报2009年

chio)结合起来,形成融合的分类器。研究人员通过实验度和准确率与最终的分类结果密切相关。尤其是web证明了这种基于依赖的贝叶斯方法比基于BKS的方法上不断出现新词汇,对分词理论的创新和词典的构造都性能好。Langdon等人对基于遗传编程的分类器融合技提出了较高的要求。

术进行了一系列的研究,其中主要研究了同类型分类器3.将自然语言理解和处理技术、语义Web概念、A.的融合(比如多个神经网络分类器的融合)。

gent技术和机器翻译等技术应用于Web文本分类中,进2.基于模糊一粗糙集的文本分类模型。

一步解决中文文本分类的难点,提高文本分类的智能化文本分类过程中由于同义词、多义词、近义词的存在水平。

导致许多类并不能完全划分开来,造成类之间的边界模4.目前存在多种成熟的文本分类算法,大部分分类糊。此外交叉学科的发展,使得类之间出现重叠,于是造系统都是应用某一种分类算法,分类性能受到制约。

成许多文本信息并非绝对属于某个类。这两种情况均会随着全球网络化和信息化的迅猛发展,文本自动分导致分类有偏差,针对上述情形,有学者提出利用粗糙一类作为知识发现的重要分支,已成为众多领域研究者的模糊集理论结合KNN方法来处理在文本分类问题中出热门研究课题,吸引着越来越多研究者的关注。尽管文现的这些偏差。模糊一粗糙集理论有机地结合了模糊集本自动分类方法还存在着不少问题,但是文本分类技术理论与粗糙集理论在处理不确定信息方面的能力,反映有着广泛的应用,逐渐趋于实用。随着人工智能、机器了由于类别之间的重叠体现出的隶属边界的模糊性。

学习、数据挖掘、进化计算、模糊集和粗糙集等领域的发3.潜在语义分类模型。

展,分类方法将向着更加高级、更加综合化和更加多样化潜在语义索引方法,已经被证明是对传统的向量空的方向发展。

间技术的一种改良,可以达到消除词之间的相关性,化简文档向量的目的,然而LSI在降低维数的同时也会丢失一些关键信息。LSI基于文档的词信息来构建语义空间,参考文献

得到的特征空间会保留原始文档矩阵中最主要的全局信1.朱靖波陈文亮:基于领域知识的文本分类[J].东息。但在某些情况下,一些对待定类别的正确分类非常北大学学报,2005,26(8):733—736

重要的特征,因为放在全局下考虑显得不重要,而在维数2.YeNong.LiXiangyang.Amachinelearningalgo-约减的过程中被滤掉;该情况对稀有类别尤为明显。事rithmbasedon

supervisedclusteringandclassification.In:

实上也是,稀有类中出现的词很可能是整个文档集中的“uJ,etal,eds.AMT2001,LNCS2252,2001.327—

稀有词,那么被滤掉的可能性就很大了。这样,就可以得334

到比LSI模型的语义空间更适合文本分类的语义空间。

3.VapnicV.TheNatureofStatisticalLearning

Theory

通过以上分析,可以看出文本分类方法存在以下几[M].New

York:Springer—Verlag,1995

种发展趋势:一是新分类方法不断涌现,比如基于群的分4.JoachimsT.TextCategorizationwithSupportVector

类方法和基于粒度计算的分类方法;二是传统分类方法Machines:LearningwithManyRelevantFeatures[J].Pro—

的进一步发展,比如支持向量机的不断改进和KNN方法ceedingsofthe10thEuropeanConference

on

MachineLearn-

的发展;三是根据实际问题需要,有针对性地综合众多领ing,Lecture

NotesIn

ComputerScience,1998,1398:137

域的技术,以提高分类的性能。

—142

当前我国文本信息自动分类研究存在的问题5.JoachimsT.MakingLarge—ScaleSVMLearning

目前在国内也已经开始对中文文本分类方法进行研Practical[A].B.Seh?Lkopfand

c.Burges

and

A.Smo-

究,虽然在研究过程中不断有新的理论和方法产生,但还la,AdvancesinKemdMethodsSupportVeetorLearning

是存在着一些问题有待进一步研究和改进。

[C],eds.,Cambridge,MA,USA:MIT—Press,1999

1.由于中文文本分类起步晚和中文不同于英文的特6.付雪峰王明文:基于模糊一粗糙集的文本分类方性,目前中文Web文本分类还没有标准的、开放的文本法[J].2004年度全国搜索引擎和网上信息挖掘学术研测试集,各研究者大多使用自己建立的文本集进行训练讨会,华南理工大学学报(自然科学版),2004,32:

和测试,其分类结果没有可比性,不利于交流和提高。

73—.76

2.分词是影响文本分类的重要因素之一,分词的速

Review

on

AutomaticTextCategorizationMethodsUndertheNetworkEnvironment

Wn

Bo

Abstract:。11learticleintroducedtheprocessoftheautomatic

text

categorizationunderthenetworkenvironment,especially

thestudyingmethodfor

text

categorization.Itdiscussesthe

current

researchdeficiencyandthedevelopmenttrendinthefuture.

Keywords:textcategorization;categorizemethod;categorization;networkenvironment

ClassNo.:G254.0

DocumentMark:A

(责任编辑:韩新君郑英玲)

152

本文来源:https://www.bwwdw.com/article/edd1.html

Top