网络环境下文本自动分类方法研究综述

更新时间：2023-06-08 06:33:01 阅读量：实用文档文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

在网络环境中推荐度：
相关推荐

第９卷第５期２００９年１０月

鸡西大学学报

ＪＯＵＲＮＡＬＯＦＪＩＸＩＵＮＩＶＥＲＳ兀Ｙ

Ｖ０１．９Ｎｏ．５

Ｏｃｔ．２００９

文章编号：１６７２—６７５８（２００９）０５－０１５１—２

网络环境下文本自动分类方法研究综述

吴

波

摘要：介绍了网络环境下文本自动分类的过程，针对文本信息自动分类的研究方法，分析了当前我国文本信息自动分类研究中存在的问题，提出了其未来发展的趋势。

关键词：文本分类；分类方法；分类；网络环境中图分类号Ｉ（；２５４．０一文本分类的过程

文本分类过程是从人工正确分类的语料库起，经过预处理形成便于计算机处理的结构化特征数据，特征数据与分类算法相结合形成分类器，待分类文本经预处理后形成文档特征向量，输入分类器进行判断得出分类结

果。

文献标识码：Ａ

该算法简单，没有学习过程，但分类时要将所有样本都存人计算机中，每次决策都要将待识别样本与全部训练样本之间的距离进行比较，因此存储和计算量较大，同时ｋ值的确定需要进行一系列实验才能确定。

实验证明，基于ＫＮＮ模型的方法在分类精确度上与Ｃ５．０和标准的Ｋ—ＮＮ相当。新方法还将这种基于ＫＮＮ模型的方法成功用于文本分类。另外，针对Ｋ—ＮＮ方法的第一个缺陷，Ｎｏｎｇ

Ｙｅ

ａｎｄＸｉａｎｇｙａｎｇ

二常见的文本分类方法１．贝叶斯方法。

贝叶斯方法（ＮａｖｅＢａｙｅｓ，ＮＢ）是比较经典的文本分类方法。朴素贝叶斯分类器是以贝叶斯定理为理论基础的一种在已知先验概率与条件概率的情况下得到后验概率的模式分类方法，用这种方法可以确定一个给定样本属于一个特定类的概率。目前基于朴素贝叶斯方法的分类器被认为是一个简单、有效而且在实际应用中很成功的分类器。在文本分类领域，贝叶斯定理可以表述如下：

，

．．、

Ｌｉ将聚类方法和

经典的Ｋ—ＮＮ方法结合起来，提出了一种新的分类方法，称为ＣＣＡ—Ｓ。ＣＣＡ—Ｓ能够处理大规模数据集，可伸缩性好，并且支持增量式学习。但ＣＣＡ—Ｓ只能处理连续属性，而且只针对类别为两类的分类问题。

５．支持向量机－－ＳＶＭ。

支持向量机（Ｓｕｐｐｏｒｔ

Ｖｅｃｔｏｒ

Ｍａｃｈｉｎｅｓ：ＳＶＭ）理论，

由Ｖａｐｎｉｋ在１９９５年提出，用于解决二分类模式识别问题。它基于结构风险最小化原则，在向量空间中找到一个决策面，这个面能“最好”地分割两个分类中的数据点。该算法的原理是在给定的训练集上作一个超平面的线性划分，将分类问题转化为一个寻找空间最优平面的问题，再次转化成一个二次规划问题。原因是如果所有的向量都能够被某个超平面正确划分，并且各类向量与超平面的最小距离最大化，则该平面为最优超平面，距离平面最近的异类向量为支持向量，一组支持向量可以唯一确定一个超平面。

三

文本自动分类方法研究的新进展１．多分类器融合（ｆｕｓｉｏｎ）的方法。

实际应用的复杂性和数据的多样性往往使得单一的分类方法不够有效。因此学者们对多种分类方法的融合（ｆｕｓｉｏｎ）进行了广泛的研究，取得了一系列研究成果。纵观文献中的研究，可以大致将多分类器的融合技术分为以下几类：投票机制（ｖｏｔｉｎｇ）、行为知识空间方法（Ｂｅｈａｖ．

ｉｏｒ—ＫｎｏｗｌｅｄｇｅＳｐａｃｅ

ｐＬｃｉ／ｄｉＪ

２——ｉ百丁一

ｒ、ｕｉ，

ｐ（Ｃｉ）Ｐ（ｄｌ／ｃｉ）

上述公式表示在给定文档ｄ；的条件下，ｄ；属于类别ｃ；的概率（称为后验概率）。所以对文档ｄ；分类的问题就转化为计算ｐ（ｅｊｄ；）的值，使Ｐ（ｃｊ／ｄ；）取得最大值的那个类别ｄ；就是所属的类别。

２．决策树方法——Ｄｅｃｉｓｉ∞Ｔｒｅｅ。

决策树方法是从训练集中自动归纳出分类树。在应用于文本分类时，决策树算法基于一种信息增益标准来选择具有信息的词，然后根据文本中出现的词的组合判断类别归属。

３．相似度计算方法——Ｒ０ｃｃｈｉｏ。

Ｒｏｃｃｈｉｏ是情报检索领域最经典的算法。在算法中，首先为每一个类ｃ建立一个原型向量（即训练集中Ｃ类的所有样本的平均向量），然后通过计算文档向量Ｄ与每一个原型向量的距离来给Ｄ分类。可以通过点积或者Ｊａｃｃａｒｄ近似来计算这个距离。这种方法学习速度非常快。

ＢＫＳ）、证据理论（Ｄｅｍｐｓｔｅｒ—Ｓｈａｒｅｒ

ｐｒｏｇｒａｍｍｉｎｇ

ｔｈｅｏｒｙ）、贝叶斯方法和遗传编程（ｇｅｎｅｔｉｃ

４．Ｋ一近邻方法——Ｋ—ＮＮ。

Ｋ—ＮＮ方法是一种基于实例的文本分类方法，由Ｃｏｖｅｒ和Ｈａｒｔ于１９６８年提出，是传统的文本分类算法中效果最好的算法之一。ＫＮＮ用来计算文本间的相似度，找出训练集中与测试文本最相近的ｋ个文本，取ｋ个文档中某一类别相似度之和最大的类别，作为新文本类别。

ＧＰ）。采用投票机制的方法主要有装袋（ｂａｇｇｉｎｇ）和推进（ｂｏｏｓｔｉｎｇ）。近两年来，ＰｅｔｅｒＢｕｈｌｍａｎｎ和ＢｉｎＹｕ提出了ｂｏｏｓｔｉｎｇ的一个新变种Ｌ２Ｂｏｏｓｔ，Ｌ２Ｂｏｏｓｔ计算简单，且性能可与其他基于ｂｏｏｓｔｉｎｇ的方法相媲美。另外还有采用ＢＫＳ进行分类器融合以及用证据理论将四个不同的分类方法（ｓＶＭ。ＫＮＮ。ＫＮＮ

Ｍｏｄｅｌ—ｂａｓｅｄ

ａｐｐｒｏａｃｈ和Ｒｏｃ．

作者筒介：吴波，馆员，连云港职业技术学院图书馆，江苏连云港。邮政编码：２２２０００

１５ｌ

第５期鸡西大学学报２００９年

ｃｈｉｏ）结合起来，形成融合的分类器。研究人员通过实验度和准确率与最终的分类结果密切相关。尤其是ｗｅｂ证明了这种基于依赖的贝叶斯方法比基于ＢＫＳ的方法上不断出现新词汇，对分词理论的创新和词典的构造都性能好。Ｌａｎｇｄｏｎ等人对基于遗传编程的分类器融合技提出了较高的要求。

术进行了一系列的研究，其中主要研究了同类型分类器３．将自然语言理解和处理技术、语义Ｗｅｂ概念、Ａ．的融合（比如多个神经网络分类器的融合）。

ｇｅｎｔ技术和机器翻译等技术应用于Ｗｅｂ文本分类中，进２．基于模糊一粗糙集的文本分类模型。

一步解决中文文本分类的难点，提高文本分类的智能化文本分类过程中由于同义词、多义词、近义词的存在水平。

导致许多类并不能完全划分开来，造成类之间的边界模４．目前存在多种成熟的文本分类算法，大部分分类糊。此外交叉学科的发展，使得类之间出现重叠，于是造系统都是应用某一种分类算法，分类性能受到制约。

成许多文本信息并非绝对属于某个类。这两种情况均会随着全球网络化和信息化的迅猛发展，文本自动分导致分类有偏差，针对上述情形，有学者提出利用粗糙一类作为知识发现的重要分支，已成为众多领域研究者的模糊集理论结合ＫＮＮ方法来处理在文本分类问题中出热门研究课题，吸引着越来越多研究者的关注。尽管文现的这些偏差。模糊一粗糙集理论有机地结合了模糊集本自动分类方法还存在着不少问题，但是文本分类技术理论与粗糙集理论在处理不确定信息方面的能力，反映有着广泛的应用，逐渐趋于实用。随着人工智能、机器了由于类别之间的重叠体现出的隶属边界的模糊性。

学习、数据挖掘、进化计算、模糊集和粗糙集等领域的发３．潜在语义分类模型。

展，分类方法将向着更加高级、更加综合化和更加多样化潜在语义索引方法，已经被证明是对传统的向量空的方向发展。

间技术的一种改良，可以达到消除词之间的相关性，化简文档向量的目的，然而ＬＳＩ在降低维数的同时也会丢失一些关键信息。ＬＳＩ基于文档的词信息来构建语义空间，参考文献

得到的特征空间会保留原始文档矩阵中最主要的全局信１．朱靖波陈文亮：基于领域知识的文本分类［Ｊ］．东息。但在某些情况下，一些对待定类别的正确分类非常北大学学报，２００５，２６（８）：７３３—７３６

重要的特征，因为放在全局下考虑显得不重要，而在维数２．ＹｅＮｏｎｇ．ＬｉＸｉａｎｇｙａｎｇ．Ａｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｌｇｏ－约减的过程中被滤掉；该情况对稀有类别尤为明显。事ｒｉｔｈｍｂａｓｅｄｏｎ

ｓｕｐｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎｇａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｉｎ：

实上也是，稀有类中出现的词很可能是整个文档集中的“ｕＪ，ｅｔａｌ，ｅｄｓ．ＡＭＴ２００１，ＬＮＣＳ２２５２，２００１．３２７—

稀有词，那么被滤掉的可能性就很大了。这样，就可以得３３４

到比ＬＳＩ模型的语义空间更适合文本分类的语义空间。

３．ＶａｐｎｉｃＶ．ＴｈｅＮａｔｕｒｅｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇ

Ｔｈｅｏｒｙ

通过以上分析，可以看出文本分类方法存在以下几［Ｍ］．Ｎｅｗ