文本分类中不平衡数据的处理

更新时间：2023-04-23 09:04:01 阅读量：实用文档文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

文本分类中不平衡数据的处理

中山大学

硕士学位论文

文本分类中不平衡数据的处理

姓名：骆凯敏

申请学位级别：硕士

专业：应用数学

指导教师：姚正安

20050527

文本分类中不平衡数据的处理

中山大学硕士学位论文：文本分类中不平衡数据的处理

文本分类中不平衡数据的处理

专业：应用数学

硕（博）士生：骆凯敏

指导教师：姚正安教授

摘要

随着计算机软硬件技术的飞速发展，计算机的各种应用已经深入到我们日常生活的每一个角落．生活中大量的电子文本使得人们难以对其进行整理，因为传统的信息检索方法只针对于以纸张存储的信息，对电子文本的存储格式则无用武之地．于是学者开始运用各种机器学习、数据挖掘的方法对电子文本进行处理，以便人们对其进行检索，从中搜寻有用信息．在各种相关的研究中，文本分类（ＴｅｘｔＣａｔｅｇｏｒｉｚａｔｉｏｎ）是学者研究的一个热点．

文本分类的方法很多，诸如朴素贝叶斯分类方法、决策树分类方法、基于实例的分类方法、支持向量机分类方法等．评价分类方法的好坏会使用分准率（Ｐｒｅｃｉｓｉｏｎ）、分全率（Ｒｅｃａｌｌ）、Ｆｌ值或是使用它们的均值．在以往的大部分文本分类论文中，学者倾向于使用Ｆｌ的微观均值．使用Ｆ１微观均值可以从总体上综合评价分类器的分类效果，但是掩盖了少数类分类精度低的翊题．因为在少数类只占很小比重的文本分类应用中，Ｆｌ微观均值与多数类的Ｆ１值只会有很小的差别，而多数类的Ｆ１值往往都是很高的．

本文针对文本分类中少数类分类精度低的问题展开讨论，从处理不平衡数据的角度。运用处理不平衡数据的方法——权重润饰、向下取样，提高少数类的分类精度．关键词：文本分类机器学习权重润饰向下取样

文本分类中不平衡数据的处理

中山大学硕士学位论文：文本分类中不平衡数据的处理

ＩｍｂａｌａｎｃｅｄＤａｔａＰｒｏｃｅｓｓｉＩｌｇｉＩｌＴｅｘｔＣａｔｅｇｏｒｉｚａｔｉｏｎ

Ｍａｊｏｒ：ＡｐｐｌｉｅｄＭａｔｈｅｍａｔｉｃｓ

Ｎ锄ｅ：ＬｕｏＫａｉｍｉｎ

ａｎＳｕｐｅｒｖｉｓｏｒ：ＹａｏＺｈｅｎｇ

ＡＢＳＴＲＡＣＴ

Ｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｃｏｍｐｕｔｅｒ

ｕｓｅｓｃｉｅｎｃｅｈａｓｉｍｐａｃｔｅｄｏｕｒｗａｙｏｆｌｉｖｉｎｇ．Ｅｓｐｅｃｉａｌｌｙｔｈｅｅｘｔｅｎｓｉｖｅ

ｔｏｏｆｏｆｆｉｃｅａｕｔｏｍａｔｉｏｎｓｙｓｔｅｍ，ｉｔｌｅａｄｓａｒｅｔｈｅｇｅｎｅｒａｔｉｏｎｏｆ

ｐｒｏｃｅｓｓｅｎｏｒｍｏｕｓｄｉｇｉｔａｌｄｏｃｕｍｅｎｔｓ，ｗｈｉｃｈｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌｉｎｔｒａｃｔａｂｌｅＯｎｅｔｏｕｓｉｎｇｔｒａｄｉｔｉｏｎａｌ

ｔｏｔｅｃｈｎｉｑｕｅｓ．ｉⅢｐｏｒｔａｎｔｐｒｏｂｌｅｍｉｓｈｏｗ

ｃａｔｅｇｏｒｉｅｓ，ｅｆｆｅｃｔｉｖｅｌｙｃｌａｓｓｉｆｙｄｏｃｕｍｅｎｔｓｉｎｔｏｄｉｆｆｅｒｅｎｔａｓｗｈｉｃｈｉｓｋｎｏｗｎｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎ．

Ａｌｏｔｏｆｍｅｔｈｏｄｓｈａｖｅｂｅｅｎｐｒｏｐｏｓｅｄｔｏｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｉｎｍａｃｈｉｎｅｌｅａｒｎｉｎｇｐａｒａｄｉｇｍ，ｓｕｃｈａｓＮａｉｖｅＢａｙｅｓ

ｓｏＣｌａｓｓｉｆｉｅｒ，ｏｎ．ＤｅｃｉｓｉｏｎＴｒｅｅｔｈｅＣｌａｓｓｉｆｉｅｒ，

ｍｅｔｈｏｄｓｃａｎＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅａｎｄＴｈｅｐｅｒｆｏｒｍａｎｃｅｏｆＦｌｂｅｍｅａｓｕｒｅｄｂｙＰｒｅｃｉｓｉｏｎｖａｌｕｅ，

ＢｅｃａｕｓｅｏｆｔｈｅｓｌｉｇｈｔＲｅｃａｌｌｖａｌｕｅ，ｖａｌｕｅａｎｄｖａｌｕｅｏｆｔｈｅｉｒａｖｅｒａｇｅ．ｄｉｆｆｅｒｅｎｃｅｂｅｔｗｅｅｎＦｌ

ｍａｊｏｒｉｔｙｃｌａｓｓｅｓａｎｄｍｉｃｒｏＦｌｖａｌｕｅ，ｍｏｓｔｏｆｔｈｅｐｒｅｖｉｏｕｓｗｏｒｋｓｐｒｅｆｅｒｒｅｄｔｏｕｓｅｍｉｃｒｏＦ１ｖａｌｕｅｔｏｍｅａｓｕｒｅｔｈｅ９１０ｂａｌｐｅｒｆｏｒｍａｎｃｅｏｆａｃｌａｓｓｉｆｉｅｒ，ｔｈｏｕｇｈ

Ｉｎｔｈｅｙｓｕｆｆｅｒｔｈｉｓｐａｐｅｒ，１０ｗｐｒｅｃｉｓｉｏｎｉｎｍｉｎｏｒｉｔｙｃｌａｓｓｅｓ．ｗｅｐａｙａｔｔｅｎｔｉｏｎｔｏｔｈｅｐｅｒｆｏｒ腿ｎｃｅｏｆｔｈｅｍｉｎｏｒｉｔｙ

ｔｅｃｈｎｉｑｕｅｓｏｆｃｌａｓｓａｎｄａｔｔｅＩＩｌｐｔｔｏｉｍｐｒｏｖｅｔｈｅｉｒｐｒｅｃｉｓｉｏｎｂｙｕｓｉｎｇｓｏｍｅ

ｉｍｂａｌａｎｃｅｄｄａｔａｐｒｏｃｅｓｓｉｎｇ．Ａｗｅｉｇｈｔ—ｒｅｔｏｕｃｈｉｎｇｍｅｔｈｏｄａｎｄｕｎｄｅｒｓａｍｐｌｉｎｇｂａｙｅ６ｅ鲫ｔａｋｅｎｆｎｔＤａｃｃｏｕｎｔ．妒ｅｈａｙｅ

ｃａｕｓｅｓｂ０册ｔｈａｔｔ＾ｅｊｍｂａｊａｎｃｅｄｄａｔａｐｒｏｃｅｓｓｉｎｇ

ｃｌａｓｓ，

ＫｅｙｔｅｃｈｎｉｑｕｅｓｗｉｌｌｉＩＩｌｐｒｏｖｅｍｅｎｔｉｎｐｒｅｃｉｓｉｏｎｏｆｍｉｎｏｒｉｔｙｗｈｉｌｅｉｔｗｏｎ’ｔｂｌｅｍｉｓｈｔｈｅｇｌｏｂａｌＴｅｘｔＣａｔｅｇｏｒｉｚａｔｉｏｎ，Ｍａｃｈｉｎｅｐｅｒｆｏｒｍａｎｃｅ．Ｌｅａｒｎｉｎｇ，Ｗｅｉｇｈｔ—ｒｅｔｏｕｃｈｉｎｇ＇Ｗｏｒｄｓ：

Ｕｎｄｅｒｓａｍｐｌｉｎｇ－ＩＩ．

文本分类中不平衡数据的处理

中山大学硕士学位论文：文本分类中不平衡数据的处理

符号

∥Ｐｃ西ｆＤ，ｚ：分准率

只：第ｆ类的分准率

ｍ口ｃｒｏＰ：分准率的宏观均值

聊ｆｃ阳Ｐ：分准率的微观均值

，口ｃ棚：分全率

ｒ：第ｆ类的分全率

删口ｃ阳Ｒ：分全率的宏观均值

埘ｆ仃。矗：分全率的微观均值

卯：真实正例的数目

跫：第ｉ类真实正例的数目，第，类下标为Ｊ

胛：虚假正例的数目

耻：第ｆ类虚假正例的数目，第－，类下标为，

剧：虚假反例的数目

川：第ｆ类虚假反例的数目，第，类下标为Ｊ

历ｃ：文档集合

吐：第，篇文档

ｃ＝ｋ，ｃ２，．¨，％｝：标签集合，其中ｑ表示第ｊ个标签

肌：为标签集合的基数

Ⅳ：文档集的文档总数

矿：单词频率

∥：文档频率

彬：反向文档频率ｆ：泛指单词，可作为下标使用

文本分类中不平衡数据的处理

中山大学硕士学位论文：文本分类中不平衡数据的处理

爿：单词，与种类ｃ一起出现的文本数

口：单词ｒ出现而种类ｃ没有出现的文本数

Ｅ：种类ｃ出现而单词ｒ没有出现的文本数

Ｄ：单词ｒ与种类ｃ都没有出现的文本数

厅：假设（ｈｙｐｏｔｈｅｓｉｓ）

孤：训练数据或训练集（ＴｒａｉｎｉｎｇＳｅｔ）

Ｔ：单词集合

ｌｒＪ：单词集合的基数

文本分类中不平衡数据的处理

中山大学硕士学位论文：文本分类中不平衡数据的处理

第１章引言

１。１论文背景

过去的十年，基于内容的文档管理，即信息检索在信息系统领域受到了人们的重视．这主要是因为在日常生活中各种电子文档出现得越来越多，人们对于以一种快捷的方法来管理这些文档的需求与日俱增．于是文本分类——用预定义的标签集来标记自然语言文本，便作为管理电子文档的一种方法被人们所关注．

文本分类的提出可以追述到上世纪六十年代初期，但一直到上世纪九十年代初期才成为信息系统领域的一个重要学科．文本分类的重要性得以提高，要归功于人们对于该应用的兴趣以及计算机硬件能力的提升．文本分类已经被应用到很多领域，从基于词汇的文档索引、文档过滤、消除单词歧义、网络资源的层次目录到任何要求文档管理的应用．直到上世纪八十年代晚期，最流行的文本分类方法还是知识工程（ＫｎｏｗｌｅｄｇｅＥｎｇｉｎｅｅｒｉｎｇ），即事先把专家关于如何分类文档的知识编码成一些规则，用这些规则再去分类其他文档．在九十年代，这种方法逐渐失去了人们的吸引力，因为人们越来越多地把精力放在机器学习这个研究框架下面．机器学习的方法主要是用一些分类好的文档并通过归纳方法来构造一个分类器，用分类器分类新的文档．这种方法的好处在于可以获得与专家系统差不多的分类精度却不需要耗费大量的专家劳动（主要是指不需要相关专家的干涉就可以构造分类器）．目前文本分类的方法有：贝叶斯分类方法、决策树分类方法、神经网络分类方法、支持向量机分类方法等。

在信息检索领域，评价分类效果好坏有两个重要的指标，一个是分准率（Ｐｒｅｃｉｓｉｏｎ）、另一个是分全率（Ｒｅｃａｌｌ），

．．

胖删ｏＨ２ｉ万面’即，．、

（１一１）

，ｅｃ鲫＝淼，

ＦＰ（ｆａｌｓｅ（１－２）其中ＴＰ（ｔｒｕｅｐｏｓｉｔｉｖｅ）表示被正确分类（正例分成正例）的某一类样本数目；ｐｏｓ“ｉｖｅ）表示被分成正例的反例样本数目：ＦＮ（ｆａｌｓｅｎｅｇａｔｉｖｅ）表示被分成反例但实际是正例的样本数目．分准率可视为分类器的分类准确率

文本分类中不平衡数据的处理

中山大学硕士学位论文：文本分类中不平衡数据的处理

（被分成正例的样本中真实正例的比重）；分全率可视为测试集中被正确分类的正例比重（测试集中有多少正例被分类器辨认出来了）．两个评价指标从不同的角度反映分类器的分类精度，体现了分类器满足两个基本要求的程度（两个基本要求是：一、分类器应该尽可能不把反例分成正例（Ｐｒｅｃｉｓｉｏｎ）；二、分类器应该尽可能把正例分成正例（Ｒｅｃａｌｌ））．若想把两个指标统一起来，在信息检索中会用到Ｆｌ值，它是分准率和分全率的调和平均值．

Ｆ：垒旦旦空！型堡型！，

ＤｒｅｃｌｓｌＯｎ＋ｒｅｃ口“（１—３）

当上述三个评价指标用在多类问题时，又会引申出分准率、分全率、Ｆ１值的宏观均值和微观均值．他们的定义分别如下：

ｍ删２去善只，ｍ冒（１叫）

删肚去善‘，肌＝（１＇５）

脚甜口Ｅ：垒竺堕生竺丝堕，ｍｄｃｒｏＰ＋ｍ∞ｒｏＲ１（１—６）‘。

ｍｆｃ肿２薯Ａ轰南’

删一喜一舞南’

ｍ衙。Ｅ＝等鬻篆警．７ｍｃｒｏｒ＋ｍｌｃｒｏＫ（１＿７）（１－８）∽。，

分准率和分全率的宏观均值是各类的分准率与分全率的算术平均值，而分准率和分全率的微观均值则是各类的分准率与分全率的加权平均值．

以往关于文本分类的大多数论文的实验，人们都倾向于使用Ｆｌ的微观均值来评价分类结果．使用Ｆｌ微观均值可以对分类结果进行综合地评价，但是掩盖了一个少数类分类精度低的问题．在文本分类应用中，Ｆ１微观均值与多数类的Ｆｌ值差别很小，且多数类的Ｆ１值都很高，从而综合结果看似很好，但少数类的分类精度却不甚理想．虽然少数类在实际应用中出现的概率很小，但少数类的分类效果却

文本分类中不平衡数据的处理

主些奎兰塑主兰垡堡塞！皇奎坌娄！至兰堑墼量塑竺里

是不能忽视的，例如诈骗电话检测［１］、罕见疾病检测［２］、在卫星图片上寻找石油溢出点［３］等．基于这个原因，本文从不平衡数据处理的角度，运用处理不平衡数据的方法，提高少数类的分类精度．

１．２本文的工作

本篇论文针对少数类分类精度低的问题，从不平衡数据处理的角度进行探讨，运用不平衡数据的处理方法来提高少数类的分类精度。主要做了以下三个方面的工作：

第一，一般的特征选择方法并没有考虑数据的不平衡性，从而选出来的特征对于不同类的贡献是一样的．本文在考虑数据不平衡的情况下，提出一个特征修正权重，提高少数类特征的权重，使数据不平衡性在特征中得以体现，借以提高少数类的分类精度；

第二，文本分类所用到的数据集存在不平衡的现象，本文运用支持向量机与ｋ近邻方法进行向下取样（ｕｎｄｅｒｓａｍｐｌｉｎｇ），对不平衡数据进行预处理从而提高少数类的分类精度．

第三，在文本分类的预处理过程中，必须对文本的单词进行词根提取．词根提取的经典方法是波特算法（ＰｏｒｔｅｒａｌｇｏｒｉｔｈⅢ）［４］，该方法可以快速地提取单词的词根，但要基于人为定义的规则进行工作．本文提出新的基于数据集自身，利用索引的词根提取方法，不仅可以有效提取单词词根，还不需使用人为定义的相关规则：

文本的安排如下：第二章介绍文本分类，第三章介绍不平衡数据处理，第四章介绍本文的方法，第五章介绍实验并给出实验结果，附录是本文所使用算法的描述．

文本分类中不平衡数据的处理

主些查兰堡主兰垒堕奎！壅查坌壅！至！堑墼塑堕竺里。

第２章文本分类基础

文本分类——用预定义的标签集来标记自然语言文本，是目前信息检索领域研究的一个热点．本章介绍文本分类的基础知识，主要涉及到文本分类的预处理、特征选择、分类方法．

首先建立文本分类的数学模型．文本分类可以表述为：

赋一个布尔值给（嘭，勺）∈Ｄ。ｃｘｃ，其中ＤＤｃ为文本集而ｃ＝ｋ。ｃ：，¨．．，ｃ旧ｊ为预定义豹标签集合．赋值Ｔ（ｔｒｕｅ）给（ｄ，，ｃ，）表明文档ｄ。被分成ｃ』类赋值Ｆ（ｆａｌｓｅ）给（ｄ，，ｃ，）表明文档ｄ，不被分成ｃ，类．上述过程实质就是构造一个函数ｍ：Ｄ∞×ｃ斗留，Ｆ）尽可能逼近未知的目标函数ｏ：Ｄｏｃ×ｃ。扩，，｝．

在机器学习的框架中，构造一个函数ｏ：Ｄ０ｃ×ｃ斗ｐ，，｝即为用训练数据构造一个分类器．然后用训练好的分类器对新样本进行分类．

２．１预处理

原始的电子文本不能用于构造分类器，因为原始的电子文本包含很多冗余的信息，例如文本中的冠词ａ、ａｎ、ｔｈｅ，代词ｙｏｕ、ｈｅ、ｓｈｅ，动词的不同时态等．若能够消除这些无用的冠词、代词，并把动词的不同时态归一于同一动词的原型，消除单词的后缀提取出单词的词根，将有助于文本分类。这就需要对电子文本进行预处理．电子文本的预处理一般分三个步骤，分别为删除辅助单词＜ｓｔｏｐｒｅｍｏｖａｌ），删除稀有单词（ｒａｒｅｗｏｒｄｗｏｒｄｒ鲫ｏｖａｌ），提取词根（ｗｏｒｄｓｔｅ啪ｉｎｇ）．２．１．１删除辅助单词

电子文本中频繁出现的单词无助于判别文本的种类，研究表明一个在百分之八十文本集中出现的单词对于检索而言贡献锾乎其微［４］．于是在文本分类中把无助于判别文本类别的单词称为辅助单词．一般认为冠词、介词、连词、代词是辅助单词，一些动词、副词和形容词也视为辅助单词，例如ｇｅｔ、ｆｅｗ等．在［５］中Ｆｒａｋｅｓ和Ｂａｅｚａ—Ｙａｔｅｓ列举了４２５个辅助单词，而在［６］中ｓｏｕｓａ使用了

文本分类中不平衡数据的处理

ＤＴＩｃ／ＤＲＯＬｓ辅助单词列表．

删除辅助单词有一个很重要的好处就是可以减少文本的一部分“无用”特征，从而可以减少特征向量的维数，提高分类的速度．然而删除辅助单词亦会降低分类器的分类精度，只是这个影响可以忽略不计而已．举个例子，一个用户想查找与“ｔｏｂｅｏｒｎｏｔｔｏｂｅ”“’相关的文本，在删除辅助单词之后，分类器并不能

ｂｅｏｒ找出相关文本，因为特征中根本不包含有“ｔｏ

用户得不到结果．ｎｏｔｔｏｂｅ”等单词，从而

２．１．２删除稀有单词

删除辅助单词在感性上是删除频繁出现的字眼，这样做是因为在文本分类中假设频繁出现的单词对分类没有贡献．相对的，烈除稀有单词是删除文本中出现次数不多的单词．这样做是因为在文本分类中做了类似的假设，即很少出现的单词对于分类是没有帮助的，只有适当出现的单词是保留的对象．删除稀有单词还可以去除文本数据中错误的单词，从而进一步减少文本的“无用”特征，但与删除辅助单词一样会降低分类器的分类精度，因为某个单词可能对于某一类文本的分类有显著的作用，虽然这个单词出现的次数很少．如何才算是稀有单词呢？当某个单词出现的次数小于某个阈值时，我们认为这个单词是稀有单词．这个阈值是一个经验参数，在［６］中ＴｈｏｒｓｔｅｎＪｏａｃｈｉｍｓ使用三作为阈值．在实验时，本人也使用了［６］的参数．

２．１．３提取词根

在删除辅助单词与删除稀有单词之后，已经消除了一部分的文本特征．但这并不足够，因为还有很踞显的冗余特征还没有处理．比如大量的单词是从同一个词根演变出来的，它们在词形上相似，只是拥有不同的词缀，或是做了一点小改变而已＿若能够把这些单词都归一为它们的词根，将会消除更多的文本特征。进行词根提取可以达到这个目的．

提取词根的基本思想是把从同一词根演变出来的单词归结为相应的词根．具体看个例子，ａｂ０１ｉｓｈ可以衍生出ａｂｏｌｉｓｈｅｓ、ａｂｏｌｉｓｈｅｄ、ａｂｏｌｉｓｈｉｎｇ、１．莎士比亚《哈姆雷特》中王子的台词

文本分类中不平衡数据的处理

ａｂｏｌｉｓｈＪｎｅｎｔ四个单词，若是我们把ａｂｏｌｉｓｈ衍生出的这四个单词都归结为ａｂｏｌｉｓｈ，这样就可以减少数量可观的特征．提取词根最初是在信息检索领域［７］提出的，经典的提取词根算法是波特算法（Ｐｏｒｔｅｒａｌｇｏｒｉｔｈｍ）．

波特算法把一系列消除后缀的规则应用到单词之上从而提取词根．例如下面的规则

Ｊ斗ｏ，

船甜—｝船．（２—１）（２—２）

规则（２一１）用空字符代替单词末尾字符ｓ，从而把单词的一般复数形式转换成单数形式，例如ｒａｂｂｉｔｓ转换成ｒａｂｂｉｔ．规则（２—２）用ｓｓ代替单词末尾的ｓｓｅｓ，当（２—２）与（２一１）结合使用时则可把ｓｔｒｅｓｓｅｓ转换成ｓｔｒｅ．波特算法把所有规则分成五个部分，按先后顺序应用这些规则，使得提取词根可以高效快速地进行．关于波特算法的具体描述，可以查看［７］的附录Ａ．

２．２特征选择

文本的特征就是文本中出现的单词．在进行分类时不会使用整篇文本，只会用一部分单词作为代表，那么应该选择什么样的单词作为特征呢？这就是特征选择所要考虑的问题．选出来的特征应该具有代表性，能够充分代表原始文本；选出来的特征应该具有区分性，能够在分类文本时体现文本之间的差别．

一般情况下我们使用评价函数（ｓｃｏｒｅＦｕｎｃｔｉｏｎ）给不同的单词评分，只有满足阈值要求的单词会被选取作为特征．下面介绍不同的评价函数．

２．２。１单词频率

单词频率考虑的是单词在训练集中出现的频率，当频率大于阈值时，便把单词作为特征确定下来．这种评价方法简单明了，在实际中应用广泛而且有效，在诸如搜索引擎［８］、网页浏览习惯的信息提取［９］、网页分类［１０］等场合皆可看到它的身影，所以其可谓一种简单好用的特征选择评价函数．

下面举个例子，假设训练集中只有两篇文章如下：

文档１：

Ｉａｍａｂｏｖ．

文本分类中不平衡数据的处理

中山大学硕士学位论文：文本分类中不平衡数据的处理

文档２：

Ｓｈｅｉｓａｇｉｒｌ．

则在两篇文章中出现的单词以及它们的单词频率是：

Ｉ：ｌ，ａＩＩｌ：１．ａ：２，ｂｏｙ：ｌ，ｓｈｅ：ｌ，ｉｓ：ｌ，ｇｉｒｌ：１

２．２．２文档频率

文档频率（ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）是包含某一单词的文档的数量．使用时会计算在训练集中出现的每一个单词的文档频率，只有大于阙值要求的单词保留下来作为特征．举个例予，假设训练集中有三篇文章如下：

文档１：

Ｉａｍａｂｏｙ．

文档２：

Ｓｈｅｉｓａｇｉｒｌ．

文档３：

ＳｈｅａｎｄＩａｒｅｇｏｏｄｆｒｉｅｎｄｓ．Ｓｈｅｉｓｂｅａｕｔｉｆｕｌ．

则在三篇文章中出现的单词以及他们的文档频率是：

Ｉ：２，ａｍ：１，ａ：２，ｂｏｙ：１。ｓｈｅ：２，ｉｓ：２，ｇｉｒｌ：ｌ，ａｎｄ：ｌ，ａｒｅ：１，ｇｏｏｄ：ｌ，ｆｒｉｅｎｄｓ：１．ｂｅａｕｔｉｆｕｌ：１

２．２．３单词频率×反向文档频率

单词频率×反向文档频率（ｔｆ×ｉｄｆ）中的单词频率就是２．２．１节的单词频率，而反向文档频率（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）的定义如下：

ｌｏｇ势（２－３）

其中．ｖ是训练集中文本的总数量，够是单词ｔ的文档频率．综合起来单词频率×反向文档频率定义如下：

圻×１。ｇ喏）（２－４）单词频率×反向文档频率希望能体现单词的两点属性：～是单词在训练集中

文本分类中不平衡数据的处理

中山大学硕士学位论文：文本分类中不平衡数据的处理

出现的多少，二是单词是否出现在少量的文本中．基于这两点的考虑单词频率×反向文档频率使出现次数多，但出现在相对少量文本中的单词被挑选出来作为特征，其他的被删除．

２。２．４信息增益

信息增益（ＩｎｆｏｒｍａｔｉｏｎＧａｉｎ）是来自信息论中的概念，在决策树的构建过程中会用到．它之所以作为文本分类中特征提取的评价函数，主要考虑到的因素就是单词的存在与否对分类的作用有多大．～般认为信息增益越大则该单词对于分类的作用就越大．信息增益的定义如下：

Ｇ（ｆ）＝一艺Ｐｒ如）ｌｏｇＰｒＧ）

蚓

＋ＰｒＯ）艺Ｐｒｂｌ，）ｌｏｇＰｒ如ｌｆ）．（２—５）

＋Ｐ《攫ＰｒＧ，１；）ｌ。ｇＰ，Ｇ｝ｉ）

２．２．５爿２统计

肖２统计（ｃＨＩｓｑｕａｒｅ）希望评价的是单词ｆ与种类ｃ的不独立性，它源于统计学中的ｘ２分布．在文本分类中认为单词ｒ与种类ｃ越不独立，则单词ｒ对于文本分类的贡献就越大．ｚ２统计的定义如下：∥（ｆ，ｃ）＝而群卷篙‰，防ｅ）其中Ⅳ是训练集中文本的总数量，４是单词，与种类ｃ一起出现的文本数，丑是单词ｒ出现而种类ｃ没有出现的文本数，Ｅ是种类ｃ出现而单词ｆ没有出现的文本数，Ｄ是单词ｒ与种类ｃ都没有出现的文本数．

当单词ｆ与种类ｃ相互独立时，ｚ２统计的值是零．在使用ｚ２统计作为特征提取的评价函数时，先计算单词ｆ与所有种类的∥统计值，然后取加权平均

文本分类中不平衡数据的处理

中山大学硕士学位论文；文本分类中不平衡数据的处理

ｘ２。Ｏ）＝∑Ｐｒｂ归２０，ｑ），

或是取最大值（２—７）

Ｊｚ一（ｆ）：替讧：¨）｝．Ｉ：ｌＪ２一（ｆ）＝矗缸讧２（ｒ，ｃ，）｝＿（２删（２—８）

作为评价结果．只有ｘ２统计的评价指标大于某一阈值的单词作为特征确定下来．

上面介绍了五个文本分类中特征提取的评价函数，在［１１］，［１２］中有更为详细的介绍．

２．３分类方法

目前进行文本分类的机器学习方法主要有：朴素贝叶斯分类方法、决策树分类方法、决策规则分类方法、神经网络分类方法、基于实例的分类方法、支持向量机分类方法等．下面就这些方法做一个简要的介绍．

２．３．１朴素贝叶斯分类方法

朴素贝叶斯分类方法基于贝叶斯定理：砌㈣＝等，（２＿９）其中Ｐ（乃ｌ＾）为给定假设＾成立时观测到训练数据拈的概率，尸（矗）为在没有训练数据的情况下假设成立的概率，Ｐ（西）为没有确定哪一个假设成立时可观察到训练数据的概率．通过上述数据确定后验概率Ｐ（＾｝如），即观测到数据乃时假设＾成立的概率．

利用贝叶斯定理，可以构造朴素贝叶斯分类器用于分类文本．这时数据集乃是事先已经分好类的文本集，厅为可能种类的集合（按照本章开始的定义即为集合ｃ＝ｋ。，ｃ：，．．，ｃ蚓ｊ）．在真正进行计算时，为了减少计算量还需做出一些假设以简化计算过程．首先假设Ｐ（办）为一常量，即观测到某一训练数据的概率是恒定的，这样只需考虑如下的贝叶斯公式即可．

文本分类中不平衡数据的处理

中山大学硕士学位论文：文本分类中不平锤数据的处理

Ｐ（ｃ。Ｉ嘭）＝Ｐ（ｄ，ｌｃ。）Ｐ（ｃ。）

其次为了估计Ｐ（ｄ，ｈ），有如下的条件独立性假设

ｉ州（２一ｌＯ）

Ｐ（嘭㈤＝丌Ｐ（％㈤（２—１１）

其中我们把文档ｔ表示成单词向量“，屯，…，‰），Ｔ为单词集，Ｉ，Ｉ为单词集中单词个数．做如此假设的好处在于Ｐ（ｄ．１ｃ，）的计算不依赖于文本中单词出现的顺序与位置，且估计单项Ｐ（％Ｉｑ）较Ｐ（ｔｃ。）容易得多

在［１３］，［１４］，［１５］中使用了贝叶斯分类方法

２．３．２决策树分类方法

朴素贝叶斯分类方法是基于概率的方法，对于人类而言不太直观．决策树分类方法则是一种较为直观的方法，其基于符号的表示让人一目了然．

决策树与离散数学中提到树相类似，只是节点与分支的表示含义有了自身的定义而已．在决策树中，内部节点表示单词，分支表示单词的状态（有或无），叶子节点则表示文本的分类结果．图（２—１）是一颗决策树，用以判断一篇文章是否与小麦有关．决策树在构造时要涉及一些问题，诸如确定决策树增长的深度，处理连续的属性，选择一个适当的属性筛选度量标准，处理属性不完整的训练数据，处理不同代价的属性，提高计算效率，避免过度拟合等．对这些问题的处理就演化出决策树算法的不同版本，比较流行的决策树算法有ＩＤ３、ｃ４．５、ｃ５．

∥“、

锄玛皤≥吐ｉ牲ｃ啪ｎｍｏ曲ｙ／４＼人∑／＜ｔ鞲匝二魄ｐ０“

／＜壶豳哑≤谴鲴

者一警

图（２一１）

－１０－

文本分类中不平衡数据的处理

中山大学硕士学位论文：文本分类中不平衡数据的处理

２．３．３决策规则分类方法

基于决策规则的分类方法也是一种较为直观的分类方法，它使用析取范式来进行文本分类．该方法用析取范式作为前件，文本类型作为后件，当文本的关键词满足析取范式时则返回相应的后件作为该文本的所属类型．该方法与决策树分类方法有点类似，如图（２—２）所示．

ｉｆ（岫ｅａｔ＆㈣《－ｌＩ时＆ｃｏ蛐ｏｄｉ啪

（ｂｌＩｓｈｅｌ譬＆ｅ冲ｏｎ）ＯｒＯｆｔｈ吼Ｗｈｅ越ｅｈｅ！Ⅵｍｅａｔ

图（２＿２）

在用基于决策规则的分类方法时，文档ｔ被表示成如下形式．

＾，ｆ２，．．…．，‘．（２一１２）

其中‘为文档ｔ中的单词．用上述的文档向量来训练分类器的时候很容易出现过度拟合的问题，于是很多时候要用类似在构造决策树时用到的剪枝方法来简化决策规则，以达到理想的分类效果．在［１６］，［１７］，［１８］中用到决策规则分类方法．２．３．４神经网络分类方法

神经网络（ＮｅｕｒａｌＮｅｔｗｏｒｋ）提供了一种普遍而且实用的方法从样例中学习实数值、离散值函数．像反向传播（ＢａｃｋＰｒｏｐａｇａｔｉｏｎ）这样的算法，使用梯度下降来调节网络参数以最佳拟合由输入一输出对组成的训练集合．神经网络学习对于训练集中的错误健壮性很好，且已被成功地应用到很多领域，例如视觉场景分析（ｉｎｔｅｒｐｒｅｔｉｎｇｖｉｓｕａｌｓｃｅｎｅｓ）、语音识别以及机器人控制等．

ＩｎｐＬｎ譬ｏｍｐ幢’

图（２—３）．１１．

文本分类中不平衡数据的处理

中山大学硕士学位论文：文本分类中不平衡数据的处理

把神经网络应用到文本分类时，网络输入单元表示文本单词，网络输出单元表示可能分类的权重，单元与单元之间连线上的数值表示单词与相应分类的关系权重．在训练一个神经网络时，一般会用反向传播算法，即把训练文档的单词放入对应的输入单元进行分类，当误分类出现时进行后向的权值修改以达到最小的分类误差．神经网络在训练结束之后，有些单词与分类的关系权重可能很小，这意味着该单词与相应分类关联甚小，于是可以忽略该单词在相应分类中的影响，基于这个原因神经网络可以作为一种“降维”的方法．最简单的神经网络分类方法是神经元分类器，如图（２—３），其是一个线性分类器，非线性的神经网络也有很多，［１９］，［２０］，［２１］都使用神经网络作为分类器．本篇论文的实验就使用了三层的神经元进行文本分类．

２．３．５基于实例的分类方法

基于实例的分类方法与前面叙述的几种方法不同，前面的方法都是用训练数据构造一个分类器用于分类新的文本，基于实例的分类方法则不用构造分类器，而是在训练数据中找出与新文本最相似的实例，并用该实例的类型作为新文本的所属类型．在训练数据中找出与新文本最相似的实例是通过实例的相似性度量来实现的，具体用怎样的度量标准这与文本的特征提取方法有关，最常用的是基于区氏距离的度量．虽然基于实例的分类方法不用构造分类器，但每次分类新文本时要进行大量的相似性度量计算，所以效率较低，分类速度较慢．ｋ近邻方法是一种典型的基于实例的分类方法．在文本分类的应用中ｋ近邻方法是这样分类新文本的：首先在训练数据中找出与新文本最相似的ｋ个文本，然后把ｋ个文本中出现次数最多的类型作为新文本的相应类型．如图（２—４）所示，矗被分类成反例．

＋图（２—４）

文本分类中不平衡数据的处理

中山大学硕士学位论文：文本分类中不平衡数据的处理

２．３．６支持向量机分类方法

图（２—５）

支持向量机（ｓｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）是一种基于统计学习理论的模式识别方法，它由Ｂｏｓｅｒ，Ｇｕｙｏｎ，Ｖａｐｎｉｋ在ＣＯＬＴ一９２“’上首次提出，继而迅速发展．现在已经在许多领域取得了成功的应用，如生物信息学，文本分类和手写识别等．

支持向量机的分类思想是希望找到一个超平面，使该超平面能够尽可能多的将两类数据正确地分开，同时使分开的两类数据点距离分类平面最远，如图（２—５）所示．寻找超平面的过程可以归结为解决一个二次规划问题，假设有一个观测样本Ｇ，Ｍｌｋ，ｎ）……ｋ，儿），要找出最优分类平面１峨一６＝ｏ，只要解决如下问题．

１

ｌｎｉｎ钏ｗｎ二（２一１３）

（２—１４）Ｍ（ｗ ‘一６）≥１（ｆ＝ｌ，２，．．．，一）．

Ｊｏａｃｈｉｍｓ［６］把支持向量机应用到文本分类中并取得了很好的分类效果．支持向量机在最初设计时针对的是两类问题，而文本分类在有的情况下是多类问题，所以在具体应用时要注意两类到多类的扩展．一般有两种扩展方案：

（１）一对多（ＯｎｅＡｇａｉｎｓｔＡ１１）

其基本思想是把某一类的样本当作正例，其余类别的样本当作反例．

（２）一对一（ｏｎｅＡｇａｉｎｓｔＡｎｏｔｈｅｒ）

其做法是在多类别中，任意抽取两类进行两两配对，转化成两类问题进行训练学习．

本篇论文在实验时使用第一种方案．

Ｃｏ唧ｕｔａｔｉ衄ａｌ

Ｌｅａｍｉｌｌ窑ｎ∞ｒｙ

文本分类中不平衡数据的处理

中山大学硕士学位论文：文本分类中不平衡数据的处理

第３章不平衡数据的处理

数据集的不平衡在有监督的模式识别中是常见的问题．数据集的不平衡意味着某些类存在大量的样本而另外一些类存在仅有的一点样本．这使得分类器在少数类上的精度不高．在文本分类中会遇到数据不平衡的问题，例如垃圾邮件的分类．大量垃圾邮件的存在使得分拣出真正有用的邮件很困难．这一节介绍通过取样的方法处理不平衡数据．

３．１向下取样

向下取样方法的思想是减少多数类的样本，从而降低多数类的特征对分类器的影响．经典的向下取样方法是ｗｉｌｓｏｎ’ｓＥｄｉｔｉｎｇ［２２］．该方法运用ｋ近邻分类器，对每一个样本进行分类，若该样本的真实类标与ｋ个样本中占大多数的类不同，则删除该样本．Ｋｕｂａｔ［２３］提出～个方法，消除冗余的或是在少数类边界出现但非少数类的样本，达到向下取样的目的．

向下取样可以消除多数类对分类器分类精度的影响，但是可能会消除多数类的～些有用信息，使得多数类的分类精度有所下降．

３．２向上取样

向上取样（ＯｖｅｒＳａｍｐｌｉｎｇ）的思想是增加少数类的样本，从而增大少数类特征对分类器的影响．一般向上取样是通过对已有数据进行复制或人工生成一些新的样本来实现的．比如在邻近的两个少数类样本中间进行插值［２４］．向上取样可以形式上增加少数类的样本，增加少数类特征对分类器的影响，但是会增加训练分类器时的时间复杂度．

本论文的方法采用了向下取样而没有使用向上取样．这是因为文本分类应用中的每个样本都有实际含义，单纯增加特征向量而不考虑向量自身代表的含义对于分类是毫无意义的。其次由于多数类与少数类在数量上差别悬殊，若要把少数类的数量扩充到与多数类相当，这将大大增加分类器的训练时间．基于上述理由，本文的实验采用了向下取样的方法．

本文来源：https://www.bwwdw.com/article/aztq.html

相关文章：

正在阅读：

文本分类中不平衡数据的处理04-23

车辆油料使用情况分析报告12-18

Word中的域代码01-17

文明礼仪三字歌歌词03-18

海明威心中的完美女性――论《永别了，武器》中的凯瑟琳形象05-25

中海集箱电放保函格式TELEX03-26

EDA仿真作业题及要求-20150304-10

常见的税务风险点04-14

英语单词记忆手册05-25

昆明市情10-01

上一篇：2013年远程教育培训工作总结下一篇：电子记账本v2.16a 现金信用卡合版 excel 2003 (简体中文)