基于分类规则的C4_5决策树改进算法_李孝伟

更新时间:2023-08-10 21:15:02 阅读量: 经管营销 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

2013年12月第34卷 第12期

计算机工程与设计

COMPUTERENGINEERING ANDDESIGN  

Dec.2013

Vol.34 No.12



基于分类规则的C4.5决策树改进算法

李孝伟,陈福才,李邵梅

()国家数字交换系统工程技术研究中心,河南郑州450002

摘 要:为解决大样本数据条件下C4.5决策树算法需要训练集常驻内存、分类精度达不到需求以及如何选取最优分类规则等问题,提出了一种基于分类规则选取的C4.5决策树改进算法。通过数次有放回的随机抽取训练集形成多个分类规则,在多次分类规则内寻找特征的最优取值以建立最优分类规则,以划分相似度为标准进行C4.5决策树最优特征选取,在此基础上利用选定的最优分类规则和最优特征对C4.5决策树算法进行改进。实验结果表明,改进后的算法可有效解决C4.5决策树与初始训练集相关性较大的问题,对大样本数据集的分类识别在识别率上有显著提高,训练时间明显减少。关键词:C4.5决策树;分类规则;属性度量;划分相似度;特征选取

)1中图法分类号:TP391.4 文献标识号:A 文章编号:10007024(20132432105---

ImrovedC4.5decisiontreealorithmbasedonclassificationrules       pg

,,LIXiaoeiCHENFucaiLIShaoei -w - -m

(,)ChinaNationalDiitalSwitchinSstemEnineerinandTechnoloicalRandDCenterZhenzhou450002,China          ggygggg  :U,,Abstractndertheconditionoflaresamledatasetofmemorresidentclassificationaccuracneedtomeetthedemandand         -     gpyy,toselecttheotimalclassificationrulestheimrovedC4.5decisiontreealorithmbasedonclassificationrulesselectinishow               ppgg forward.Thealorithmformsaluralitofclassificationrulesthrouhseveraltimesbackintherandomtraininset.But               pgpyggy  ,,severalartitionclassificationrulestheotimalvalueisfoundinordertoestablishtheotimalclassificationrulesandusesimi                 -ppplaritasstandardtoselectC4.5decisiontreeotimalfeature.Basedontheuseofotimalclassificationrulesandselectedotimal                 yppp ,featureC4.5decisiontreealorithmisimroved.Theexerimentsshowthattheimrovedalorithmcaneffectivelsolvethe             gpppgy ,roblemthatC4.5decisiontreeislarecorrelatedwithinitialtraininsetclassificationrateoflaresamledatasetsissinifi                 -pgggpg cantlincreased.Thetrainintimeissinificantlreduced.   yggy   

:C;;;;artitionKewords4.5decisiontreeclassificationrulesattributemeasuressimilaritfeatureselection     pyy 

0 引 言

[1]

)决策树(是数据挖掘中一个关于分类和decisiontree 

它在以往决策树算法的基础上,增加了对特征为连续值的处理;利用信息增益率来选择特征解决了信息增益偏向于选择特征取值较多的缺点,同时也可以处理缺少特征值的训练样本;通过使用不同的剪枝技术以避免树的不平衡;以及K次迭代交叉验证来选取尽可能优的局部最优解。但是C4.5关于决策树的局部最优解问题、大数据处理的依赖主存问题和效率问题并没有过多的改进。

提高算法运算效率的一个有效途径就是利用尽可能少的训练样本,提取出尽可能优的分类规则。但是盲目的减少训练样本不可能提高运算效率。在不影响分类算法泛化性能的前提下减少训练样本,实现算法的存储需求和时间消耗的减少。为此,针对不同的分类器可以有不同的缩减

预测的快速、有效的算法。它首先选取最优特征作为根节点,然后根据不同特征判断从根节点向下的分支,在决策树的叶节点得到结论。传统的决策树算法大都要求训练集

2]

,这使得算法在可伸缩性、精度和效率方面受常驻内存[

到很大的制约。在面对数据量超过运行主存的情况时,构造决策树需要将数据在主存和缓存中导人或者导出,大大降低了运算效率。

[]

C4.5算法3是决策树中一个经典的算法。Quinlan针

对以往决策树算法的不足,在1993年提出了C4.5算法。

;修订日期:2收稿日期:201304220130625----

)基金项目:国家863高技术研究发展计划基金项目(2011AA010603、2011AA010605

,男,安徽阜阳人,硕士研究生,研究方向为通信与信息系统;陈福才(,男,江西高安人,硕士生导作者简介:李孝伟(19871974-)-),女,湖北钟祥人,博士,讲师,研究方向为通信与信息系统。师,研究方向为通信与信息系统;李邵梅(1982-):E-maillxwei_1987@126.com

·4 322·

计算机工程与设计

2013年

样本策略,如:支持向量机的决策只与决策边界的支持向量有关,重点选择此类样本;C4.5决策树建树的重点是最优特征值样本的选取,在缩减样本提取分类规则时,则以样本是否能很好的反映类内特征取值的情况来进行取舍。缩减样本可以起到降低分类算法的计算代价,加快训练速

4]

,还能有效地精简训练集,度,避免出现“过拟合”现象[

去除相似、冗余、重复的信息以及噪声样本。此外,对于数据集不大的情况,由于C4.5对于初始训练样本的依赖性比较大,若初始训练样本不能很好地表征各特征的取值,可能使得训练结果不理想,此时若采用选择样本提取分类规则的策略,提取尽量最优的分类规则以提高训练精度对于C4.5决策树而言也具有重要意义。

5]

刘鹏等[根据决策树易产生碎片问题,提出了一种合

图1 简单的决策树模型

1.1 C4.5决策树的形成

假定训练数据集中包含m类别,分别为T={t1,,。训练数据集中某属性A可能有(,t...taa..a2,m}1,2,k),,共k种取值,根据属性A的划分为T′={t′t′...t′1,2,r}其他属性类似于属性A。根据训练集可得其理想划分的信息熵为

并分类效果差分枝的R-C4.5模型。该模型未设置连续属性

[]

一对多”处理和缺失值处理。KemalPolat等6将C4.5和“ 

分类模型相结合应用于多类分类问题,取得了很好的效果。

[]

HanJinti等7将C4.5和模糊数学相结合,提出了一种处 -g8]理范围输入的方法。姚亚夫等[根据Fad连续值取值的yy

最佳分割点总在边界点处得原理,只在连续属性分界点处的少数几个分割点中选择最佳分割阈值,构造了C4.5分类器,一定程度上提升了C4.5处理连续属性的性能。周剑锋

9]等[提出了一种改进的信息熵的计算方法,通过减少计算10]

根据函数的复杂度,提高就决策树的构建速度。杨哲等[

H(T)=-∑p(tlotgi)2i)p(

i=1

)(1

(。其中p(t=i)i/i)∑i=1

以属性A对训练集划分获得的信息熵为

T′)= HA(

信息增益率的不确定性,采用Mantaras范式距离来度量属性划分与真实划分的距离,有效避免了增益率的不确定性。现有的改进算法在减少决策树的计算复杂度、特征的优化处理、增益率问题上都有很多的优化。但是对C4.5决策树的局部最优解、大数据处理的依赖主存问题和效率问题一直没有得到很好的解决。

基于上述问题,本文利用多次抽样选择最优分类规则并对C4.5决策树算法进行优化和改进,提出了基于分类规则的C4.5决策树改进算法。实验结果表明,利用改进后的算法处理小样本数据时正确率与C4.5算法相当;而在处理大样本数据的识别分类时,运算效率和精度的提高比较显著。

i=1r

t′)H(t′)∑p(

im

i=1

t′)t|t′)lot|t′)-∑p(gp(()∑p(

j=1

T′)=-∑∑p(t′tt′lott′ HA(gi)i)2i)p(p(j|j|

i=1j=1

T|T′)=H(

其中p(t′′′∑i)=i/(i

i=1r

)(2

),p(t′i)=j|t

′t′i∩i。j/表示划分Ttt′′中属于t′i)i的样本,在理想划分p(j|中属于子集tj的概率。由此可得属性A对于训练集划分的信息增益为

HGT′)=H(T)T′)-HA(ain(

属性A的分割信息熵为

)(3

1 C4.5决策树介绍

决策树作为传统的机器学习算法,其用于分类识别的主要步骤同其他分类算法一致,主要是:一是利用训练数据构建分类模型,二是利用建立的分类模型对待识别样本数据集进行分类。其中主要工作是第一步,对于决策树分类算法而言是建立用于分类的决策树模型。图1所示是一个简单的决策树分类模型,其主要功能是实现根据天气情况来决定是否去户外活动

H(T′)=-∑p(t′lot′gi)2i)p(

i=1

)(4

)、式()可得属性A的信息增益率为由式(34/atio(T′)=HGT′)H(T′)  Rain(

())(

H(T′)

()5

同理可计算其他属性的信息增益率。通过计算所有属性的信息增益率,选出具有最大信息增益率值的属性作为决策树的根节点。然后,以同样的方法确定决策树各层的

第34卷 第12期

李孝伟,陈福才,李邵梅:基于分类规则的C4.5决策树改进算法

 

·4323·

节点,计算方法同以上步骤。1.2 C4.5决策树的剪枝

征对应的划分与理想划分之间的相似度。

C4.5采用的信息增益率如下

C4.5决策树的剪枝策略采用的是后剪枝的方法。后剪枝策略首先需要构造完整的决策树,允许决策树过度拟合训练数据,然后对那些置信度不够的子树节点用叶节点来替代。

C4.5决策树对ID3算法做了改进,取得了不错的效——局部最果。但是C4.5自身仍存在着决策树的共性问题—)可以看出,当分母为零时,分子必优解。此外,从式(5然为零,这时增益率的计算就出现了问题,这就是增益率带来的不确定性问题。大样本数据条件下,减小C4.5决策树的运算复杂度也是一个问题。

Ratio(T′)=

())(

HT′)H(T)H(T,T′)T′)(H(

HT′()10

)与式(比较式(910)可得:H(T′)=0时,H(T′,)不会出现式(910)的0∶0的情况,此时T)≠0,式(

可以解决增益率带来的不确定性问题。式(9)是由Mant-aras范式距离而得来的,故其能很好的表征两个划分之间的相似度。划分相似度方法能有效克服信息增益率方法的缺陷,算法的稳定性好,其构建的决策树规模更小,分类速度更快。

2 基于分类规则选取的C4.5决策树改进算法

本文针对的主要是大样本条件下的分类识别和C4.5决策树与初始训练集相关性较大等问题。运用多次抽样选出最优分类规则,以缩减算法的运算复杂度,提高训练精度。在C4.5最优特征选择上以划分相似度作为选择标准。2.1 最优特征选择

由熵函数的上凸性及詹森不等式有:

i=1q

ogy∑pl

looggii,在计算信息熵的时候,由于lii计算yy∑p∑p

i=1

i=1

结果与looggii的计算结果相差不大,用lii来yy∑p∑p

i=1

i=1

近似代替

本文对Mantaras范式距离进行相应的简化,以减少算法的复杂度和时间消耗。Mantaras范式距离是在各特征中选择与类别划分距离最近的特征作为当前节点的测试条件,用最短距离划分的办法来构建决策树。根据样本集T的理,想划分T={和以属性A作为测试条件所得tt...t1,2,m},,则划分T的划分T′={t′t′...t′′对于理想划分T1,2,r}的条件熵可以由式(2)得到。而理想划分T对于划分T′的条件熵为

i=1

ogy∑pl

。这样式()可以简化为9

())(

d(T′,T)=

H(T′,T)

2lotot′+lgg2i)2i)p(p(∑∑i=1i=1

≈-

HT′Tm

·lott′g2i)i)p(p(()∑∑i=1i=1

(,)dT′T≈-

HT′T()11

)将多次对数运算简化为一次,在一定程度上式(11减小C4.5决策树建树的复杂度。2.2 分类规则的选取

)/)(6H(T′|T)=-∑∑p(t′tlot′ttgi,2(i,p(p(j)j)j)

j=1i=1

划分T′与理想划分T的联合熵为

本文采用的样本选择方法主要是多次提取样本进行决

)(7

策树的拟合,生成相对较优的决策树,将较大量的样本通过随机有放回的抽样,生成多个训练集,利用这些训练集的训练结果回溯生成最优的分类规则。

具体步骤如下:

第一步,对给定的数据集选择合适的训练样本数据,选择的标准是综合考虑训练时间和迭代次数。如果选择的的数据较小,会造成较多的迭代次数,否则会造成较多的训练时间。

第二步,针对选定的训练样本,通过实验确定抽样迭代次数L,理论上L越大越好,但L越大,处理时间也会

H(T′,T)=-∑∑p(t′tlot′tgi,2i,p(j)j)

j=1i=1

因此,划分Tantaras范式距离为′与理想划分T的M

())(

D(T′,T)=

HT′T)+H(),得到=H(T|T′T′

()8

由熵的强可加性,即H(T′,T)=H(T′|T)+H(T)

(,)),))(((

D(T′,T)=HT′T

=2-

())(

HT′T())(

d(T′,T)=

HT′T()9

随之增加,L值的确定依据是当L增加时,对训练样本的精度提升不再产生影响或是影响很小。

第三步,针对L次训练结果产生的L个决策树形成的

定义1 划分相似度d(T′,T)。划分相似度表示为特

·4 324·

计算机工程与设计

2013年

分类规则进行离散取值特征和连续取值特征的处理。具体方法如下:

对于离散数值特征:统计L个规则内,各个取值出现的次数,选取出现次数多的作为新规则内该类别此特征的取值,以此方法建立此类特征的特征取值空间。

对于连续取值特征:每一类的连续取值特征都有相应的区间上限和下限,选取L次规则内的全部上限和下限的算术平均作为新规则内该类别特征的取值上限和下限。

通过上述过程,每迭代一次,形成一个决策树的分类规则,相应的每一类别都对应其具体的特征取值,最优的分类规则则是通过多次建树形成的分类规则回溯得到,通过最优的分类规则可以建立最优的决策树。2.3 剪枝策略

回归、聚类、关联规则等多种机器学习算法,并能够实现交互式界面上的可视化。

本文选用UCI机器学习数据库(machinelearninre -g )中的N、M、BositorurserDatabaseaic04、Letterankpyyg 、PMarketinostureReconstruction等5个数据集来进行实 g验。选择的数据集特征维数都不高,便于运用C4.5算法。各个数据集的大小和特征情况见表1。

表1 数据集样本个数和特征个数

数据集NurserDatabase y 

Maic04 gLetter BankMarketin g PostureReconstruction  

样本12,960 19,020 20,000 48,842 164,860 

特征8 11 17 14 8 

训练集6,4809,51010,00020,00050,000

本文拟采取的剪枝策略与CART算法类似。首先让决策树充分的生长,使得叶节点有最小的不纯度为止,然后,对所有相邻的成对叶节点,考虑是否消去他们。标准是如果消去他们使得不纯度增加的很小,就执行消去。这里的不纯度采用Gini不纯度,多类分类问题的不纯度定义为

3.2 实验结果及分析

本文实验采用的硬件环境是:CPUCore2P9600, 内存42.66G.G,硬盘500G,Window7操作系统。实验首先采用不同的抽样次数来确定最终的抽样次数。然后在选定抽样次数下于C4.5算法进行比较。

图2为数据集BankMarketin g不同抽样次数的正确率对比。由图中可以看出在抽样次数比较少的情况下,本文算法不如C4.5算法。随着抽样次数的增加,本文算法的优势逐渐体现出来,当抽样次数增加到一定数值时,算法的性能也趋于平稳。由图中可以看出,当抽样次数为12和15时,算法性能差别很小,故选择12为最终抽样次数

imN)=p(

w)P(w)=1-∑P∑P(

ij≠

)(12wj)(

其中P(是节点N处属于wwj)j类样本数占总样本数的比例。显然如果所有样本都属于一类,则不纯度为0,否则就是一个大于0的正值。

2.4 基于分类规则选取的C4.5决策树改进算法

本文提出的基于分类规则选取的C4.5决策树改进算法(imrovedC4.5decisiontreealorithmbasedonclassifica      -pg,),在训练阶段以第一节提出分tionrulesselectionCRC4.5  类规则选取策略,在构建决策树选取最优特征上以第二节提出的划分相似度为基础建立C4.5决策树。具体算法流程如下:

()运用划分相似度对训练样本各特征进行排序,选1

择有最大划分相似度的特征作为根节点,以后节点以此类推;

()选定训练样本数目,并对对样本进行有放回的多2

次抽样,运用划分相似度训练分类规则,取多次抽样下分类规则中最优的特征值回溯作为最终分类规则;

)根据最优的分类规则建立最优的决策树,并对测(3

试集进行测试,最后输出分类模型。

3 实验及分析

3.1 实验平台和数据集介绍

图2 不同抽样次数下算法性能比较

经过实验,各数据集下训练集样本迭代次数见表2。C4.5算法和本文算法的模型建立时间和分类正确率对比如图3、图4所示。其中,C4.5采用多次次迭代交叉验证的方法。

本文采用Weka平台对改进的算法和C4.5算法进行对比测试。Weka是由新西兰大学Witten教授等人基于Java编程开发的开源工作平台,它集合了包括对数据进行分类、

第34卷 第12期

李孝伟,陈福才,李邵梅:基于分类规则的C4.5决策树改进算法

 

·4325·

表2 不同数据集抽样次数

数据集NurserDatabase y 

Maic04 gLetter BankMarketin g PostureReconstruction  

抽样次数

8810122

练集相关性大以及信息增益率带来的不确定问题,提出了基于分类规则选取的C4.5决策树改进算法。分类规则选取上以多次抽样训练的分类规则为基础形成最优分类规则,实验表明在选取的最优分类规则下测试的精度同未进行分类规则选择的训练集测试精度有明显提升。对于大样本而言,训练时间也有明显的缩短。在C4.5决策树的特征选择上以提出的划分相似度为基准,克服了信息增益率的不稳定性,并且依据熵函数的上凸性,简化了熵的运算,也带来了运算量的减少。目前,本文提出的分类规则选取策略针对分类规则较复杂的情况还没有进一步的论证实验;此外划分相似度的优越性还缺乏有效的理论证明,这些都需要进一步的研究。

参考文献:

[]F1ENGShaoron.Researchandimrovementofdecisiontreeal       -gp

,2:J].JournalofXiamenUniversit007,46(4)orithm[   yg

)冯少荣.决策树算法的研究与改进496500(inChinese.[- []):]J.厦门大学学报,2007,46(4496500.-

[]F,X2ENGShaoronIAO Wenun.Imroveddecisiontreealo    -gjpg

图3 模型建立时间

对比

rithmbasedonsamlesselection[J].JournalofSouthwest      p,):)冯JiaotonUniversit2009,44(5643647(inChinese.[- gy ]少荣,肖文俊.基于样本选择的决策树改进算法[J.西南交):]通大学学报,2009,44(5643647.-

]T[3hakurD,MarkandaiahN,RaDS.ReotimizationofID3      jp 

/IandC4.5decisiontree[C]/nternationalConferenceon    ,ComuterandCommunicationTechnolo2010:448450.   -pgy[]B,4ramerM.PrincilesofDataMininM].LondonSriner     pg[pg

2013:121136.-

[]L,YAO,Y5IUPenZhenINJunie.Imroveddecisiontreeof      ggjp

],:C4.5[J.TsinhuaScienceandTechnolo2006,46(S1)   ggy

图4 分类正确率对比

从图3和图4中可以看出,CRC4.5与C4.5算法相比,在较小数据集情况下,模型建立时间和分类正确率基本相当。但是随着数据集的加大,本文算法的优势逐渐体现出来。从模型建立时间来看,本文提出的划分相似度相对于信息增益率在数据集较大情况下,运算速度明显加快。从正确率对比可以看出,经过最优分类规则的选择,在较大数据集下,本文算法性能相对于C4.5算法提升比较明显。本文算法从分类规则入手,在多次训练的分类规则中,寻找特征的最优取值本,在数次的局部最优解中寻找最优的分类规则。虽然还是局限于局部最优解,但是尽可能的逼近最优解,体现了全局最优解的特点。

)刘鹏,姚正,尹俊杰.一种有效的9961001(inChinese.[- :C4.5改进模型[J].清华大学学报,2006,46(S1)]9961001.-

[]K,S6emalPolatalihGünes.Anovelhbridintellientmethod      yg

onC4.5decisiontreeclassifierandoneaainstallabased      -- -gp]roachformulticlassclassificationroblems[J.ExertSs  -   -pppy,):temswithAlications2009,33(215871592.  -pp

[]H,7anJintiGuYuia.Studonhandinraninutsmethodson     gjyggp   

/C4.5alorithm[C]/ComuterScienceechnoloandA -T -gpgyp ,lications2009:4749.-p

[]YAO 8Yafu,XINGLiutao.ImrovementofC4.5decisiontree    p

continuousattributessementationthresholdalorithmandits      gg]alication[J.JournalofCentralSouthUniversitofTech     -ppy ):)姚亚夫,刑nolo2011,42(1237723776(inChinese.[- gy,]留涛.决策树C4.5连续属性分割阈值算法改进及其应用[J.):]中南大学学报,2011,42(1237723776.-

4 结束语

本文是基于C4.5决策树在处理较大样本的不足、与训

(下转第4330页)

·4 330·

计算机工程与设计

2013年

()万燕,刘伟.基于低质量图片的两级车牌字inChinese.[ ]:符识别算法[J.计算机应用与软件,2012,29(11)281]284.-

[,GAO12]YANGLunbiaoYini.Princileandalicationof     gyppp

:fuzzmathematics[M].GuanzhouSouthChinaUniversit  ygy ,2)杨纶标,ofTechnoloPress006:3940(inChinese.[ - gy 高英仪.模糊数学原理及应用[M].广州:华南理工大学出]版社,2006:3940.-

[]QU,,,13FuhenCUIGuancaiLIYanfanetal.Fuzzcluste    -gggy 

:Nrinalorithmanditsalication[M].HunanationalDe    -ggpp 

,2)曲福fenceIndustrPress011:140176(inChinese.[ - y 恒,崔广才,李岩芳,等.模糊聚类算法及应用[M].湖]南:国防工业出版社,2011,140176.-

[]L,X,,14IFanfanIAOBenlinJIA Yonhonetal.Imroved   ggggp

SIFTalorithmanditsalicationinautomaticreistrationof        gppgsensedimaerJ].GeomaticsandInformationremotel-   gy[y,):1ScienceofWuhanUniversit2009,34(102451249(in   -y)李芳芳,肖本林,贾永红,等.SChinese.[IFT算法优化]及其用于遥感影像自动配准[J.武汉大学学报信息科学版,):1]2009,34(102451249.-

(上接第4325页)

[]Z,YANG ,9HOUJianfenAiminLIUJicai.Trafficclassification   g

]aroachbasedonimrovedC4.5alorithm[J.ComuterEni     -pppgpg,,):7)周neerinandAlications201248(5174(inChinese.[ - gpp 剑锋,阳爱民,刘吉财.基于改进的C4.5算法的网络流量分类],4):7]算法[J.计算机工程与应用,20128(5174.-

[]Y,,,10ANGZheLILinzhiJIQiinetal.Networktrafficclassifi      -gjg

]cationusindecisiontreebasedonminimumdistance[J.artition       gp ,,):9)JournalofCommunication201233(30102(inChinese.  - [杨哲,李领治,纪其进,等.基于最短划分距离的网络流量],3):9]决策树分类方法[J.通信学报,20123(30102.-

本文来源:https://www.bwwdw.com/article/40ej.html

Top