数据挖掘中关联规则集的优化

更新时间:2023-03-21 06:46:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第31卷第2期2010年3月

吉首大学学报(自然科学版)

JournalofJishouUniversity(NaturalScienceEdition)

V01.31No.2

Mar.2010

文章编号:1007—2985(2010)02—0038—05

数据挖掘中关联规则集的优化

高永惠

(怀化学院计算机系,湖南怀化418008)

摘要:尝试重新定义了正关联规则和负关联规则,并给出它们的兴趣度,从而统一了正、负关联规则的评价标准.在此基础上,采用逻辑的方法查找极小矛盾集以判定关联规则集的一致性,通过修改极小矛盾集中的规则消除关联规则集的不一致,从而优化原有的关联规则集.

关键词:数据挖掘;关联规则;评价中图分类号-TP311。l

文献标识码:A

通常数据挖掘所得到的关联规则都是肯定的规则,否定的关联规则的加入扩充了规则集的表达能力,然而,它可能导致规则集的不一致.类似地,文献[1—2]提到的否定的关联规则buyRuffles---buyPepsi和buy

tea---buy

coffee也可能导致规

则集的不一致.文献E2]已经提到规则的不一致问题,认为也许是“支持度一置信度”框架的缺陷造成的,但他们并没有进一步研究.实际上,即使所有规则都符合正性相关,负规则的引入仍然可能导致规则集的不一致,使得人们无从使用所挖掘出的关联规则.文献[31提出对正关联规则和各种形式的负关联规则分别设置不同的最小置信度;文献[4]提出使用两级支持度来约束正负关联规则的挖掘.更多的是采用对满足最小支持度和最小置信度的规则再进行相关度度量,这些做法不仅繁琐,还容易遗漏一些有价值的关联规则.

笔者对初始关联规则集∑进行尽量少的修改得到一致的规则集合∑M,并进一步扩充关联规则的表达能力.从目前的关联规则价值衡量方法可以看出,客观层面考虑的是单条规则的前件和后件之间的关系,主观层面考虑的是用户的兴趣取向,而整个规则集各规则之间的关系并没有被考虑,所以不可能发现和处理规则之间存在的矛盾.笔者尝试考虑规则之间的相互关系,以解决关联规则集的不一致问题,并且认为这对数据挖掘方法本身以及用户有效地利用关联规则是有积极意义的.

1基本概念

设f={i,,i:,…,厶)是项集,记D为事务T的集合,事务T是项的集合,并且T篁I.对应每一个事务有唯一的标识,如事务号记作订D.设X是f中项的集合,如果X∈T,那么称事务T包含X.

定义l

正关联规则是形如X—y的蕴涵式,其中Xcj,yc,,并且XnY=现负关联规则是形如X一]y的蕴涵式,其中XcJ,ycJ,并且XnY=统

正、负关联规则的兴趣度(interest)是规则前件成立时后件发生的概率与规则前件不成立时后件发生的概率

X)一P(Y

定义2

定义3

的差值,即Int(X—y)=P(Y

X).

I]X),Int(X一]聊=P(7

X)一P(7Y

X)=P(YI]X)一P(Y

可以采用下述方法计算正、负关联规则的兴趣度.其中Count(YUX)表示数据集中同时包含x和y的事务数,Count(X)表示数据集中包含x的事务数,Count(Y)表示数据集中包含y的事务数,Count(D)表示数据集中的事务总数.只要计算出P(Y

P(Y

X)和P(YI]x),就可以计算出正、负关联规则的兴趣度:

f的=Count(YUX)/COunt(X);P(YX)=(Count(y)一Count(YUX))/(Count(D)一Count(X)).

文中定义的兴趣度具有以下性质:

*收稿日期:2010—02—12

作者简介:高永惠(1962一),女,湖南常德人,怀化学院计算机系讲师,主要从事计算机应用及教学研究.

第2期

性质1性质2性质3性质4性质5

性质6

高水惠:数据挖掘中关联规则集的优化

兴趣度(interest)的取值范围是[~1,1].interest—o,规则前件和后件无关.interest>o,规则前件和后件正相关.interest<O,规则前件和后件负相关.

interest=1,规则前件是后件的充分必要条件.interest=一1,规则前件是后件的非的充分必要条件.

39

文中重新定义了肯定、否定的关联规则,并且定义了它们的兴趣度.包含正、负关联规则的规则集是关于兴趣度的全序集,所以可以将兴趣度作为正、负关联规则统一的价值衡量标准.

为了便于考虑规则间的关系。选用命题逻辑[钼语言来描述正、负关联规则.正关联规则x—y可以写为形如i1A

∈Y,is

i2

i3…一“1^妇^“3…的蕴涵式,其中il,iz,i3.. ∈X,“1,谝,i一…

Ai2Ai3…为规则的前件,iHl^i啪^瓴3.. 为规则的后件.

i2

负关联规则x一1y可以写为形如i1Aoz,iM…∈Y,i1A

定义4

i2

i3…一]“1^]“^]03.. 的蕴涵式,其中i1,i2,i。…∈X,“1,

Ai3.. 为规则的前件,]讧1^1如+2^]缸+3…为规则的后件.

规则集∑是矛盾的,当且仅当存在前提x能在∑中推出结论Y和]弘卜6|,即∑u{x}一且∑u

称规则集f是极小矛盾集,当且仅当J’是矛盾的且r的任意真子集都是一致的[7].

{x}hy.如果规则集>:不是矛盾的,那么是一致的.

定义5

定理1

关联规则集≥:是一致的,当且仅当不存在极小矛盾集r互≥:.

优化的解决方法

文中主要解决的问题是找出关联规则集≥:中的每个极小矛盾集.首先是采用纯文字删除法压缩子句集,通过使用支

2.1方法概述

持集策略对压缩后子句集进行归结得到备选矛盾集,进而从备选矛盾集中找出极小矛盾集.为得到一致的关联规则集合,最简单的方法就是在每个极小矛盾集中删除1条规则.因为产生极小矛盾集时删除了一些规则,所以通过扩充修改关联规则集来增强表达能力.

设初始规则集∑的子集∑t,由定义4可知,规则集∑7是矛盾的,当且仅当∑7u{x}FYit∑7

则的前、后件可以写为i。Ai:Ai3.. (称为正事实公式)或7

i1

u{x}卜]y.规

7iz

A]i3.. (负事实公式).本文讨论的规则和事实公式

都可以转换为特定形态的子句集.正关联规则对应的子句集中的子句包含1个正文字和1个或多个负文字,如7i。V

i2

i3V…V

7ik

Vi蚪1.负关联规则对应的子句集中的子句包含2个或2个以上的负文字,如1ilV

i2

V]i3V…

V1讧,.正事实公式对应的子句集中的子句只包含1个正文字,如is.负事实公式对应的子句集中的子句只包含1个负文

字,如7

it.可以借助归结原理判定∑7u{x)卜y且∑7

u{x}卜]y.

为方便说明问题,文中后面讨论的算法均采用下述示例作为辅助说明.例中给出了15条关联规则,并相应地给出了它

们的兴趣度,其中包括3条负关联规则.设关联规则集∑包含15条规则如表1所示.

表1

关联规则集∑包含的15条规则

兴趣度

0.60.50.60.70.60.60.6

关联规则

口A6一d

关联规则|Il一,z咒 0

兴趣度

0.50.6

Ⅱ’c口一ic41de—f氏gf—hg—i^一1

j一五0.7点一f奄一fZ—m研+7砚A]0

0.60.50.60.6

0.6

2.2找出关联规则集∑中的所有极小矛盾集

采用一般归结过程进行归结时,会产生许多无用的和重复的子句,浪费时间和空间.由此,必须考虑压缩初始子句集以

及选择1种合适的归结策略,尽量避免无用的子旬出现.对于文中的问题,∑U{x}中可能存在多个矛盾规则集合,所以归

吉首大学学报(自然科学版)

结过程的停机条件不是出现空子句,必须重新确定程序的终止条件.

第31卷

对于每个事实公式x,首先将∑U{x}中的所有公式转化为子句形式,然后对其进行归结.文中采用纯文字删除

法[”6]对整个子句集进行处理可以非常有效地缩小归结空间,提高效率.

过程1:删除包含纯文字的子旬.

考察文中的例子,假设对∑u

U)进行处理.删除处理前包含17个子句:{J,1JV惫,-3志v

z,]zvm,]mV]行,1,,l

V]o,1五Vf,]fVh,]hV忍,]珂Vo,]hV]f,]eVf,]eVg,]gVi,]口V

c,]c

V]d,]aV]6Vd}.

删除处理后只包含10个子句:{j,]JV正,1可以看出,对子句集的压缩幅度是很大的.

Vz,1zVm,]mV]n,]mV]D,]惫Vf,]fV^,]hV起,1行VD}.

(1)子句集的归结.支持集策略[卜6]是Wos等提出的一种归结策略,它在一般归结过程中引入了某种限制条件,这种限制条件代表一种启发信息,因而有较高的效率.对于文中的问题,可能得到空子句的子句集中必定包含由事实公式所得的子句.可以将事实公式看成目标公式的否定而采用支持集策略进行归结,以便得到备选矛盾规则集.具体由过程2实现.过程2的停机条件是归结过程无法得到与初始子句集和归结过程中已经得到的子句不同的子句.

过程2:支持集策略归结.

对于文中的例子,对所有事实公式测试之后,可得到下述备选矛盾集:{七一Z,Z—mm一],lA]D,七一,,,一^,h一

咒),(惫_’Z,l一研,优一]咒A]o,忌_’厂',斗h,h一竹,行一0},{歹一点,量÷Z,Z啼in,m斗]咒^]D,忌斗厂,,一h,h一行),{j—k,量一Z,Z—m,优一]竹^1o,惫一,',一h,h一,l,雄一0},{g—i,,一h,h一1i},{e一,^g,g—i,,一^,h一

i},{口一c,c一1

d,n

Ab—d}.

(2)极小矛盾集的产生.可以接着从上述备选矛盾集中产生≥:中所有的极小矛盾集.首先将所有备选矛盾集按其基数

由小到大排序.从首个集合开始,逐一比较该集合与其后的集合,如果该集合是后面某集合的子集,就删除后面的这个集合.再从第2个集合开始重复该操作,直到末尾集合.最后余下的集合都是极小矛盾集.具体由过程3实现.

过程3:从备选矛盾集产生芝:中所有的极小矛盾集.

输入:F-Queue(备选矛盾集rI)

输出:F-Queue(∑中所有极小矛盾集rn)

方法:将所有备选矛盾集ri按Iril由小到大排序;j=1;

while(finished=false)

return

{if(rj是队尾)thenfinished=true

else{逐一比较rj与它后面的所有元素rk

if(rJ∈Fk)删除rk;j++;}}

r-Queue

下面给出的算法1将通过调用上述过程对初始关联规则集∑进行处理,产生∑中所有的极小矛盾集.算法1:产生∑中所有的极小矛盾集.输入:∑(初始关联规则集)输出:r(∑中所有的极小矛盾集)方法:p_--∑中所有前,后件构成的集合;置空队列一;

forP中的每个元素X

{call过程2;

过程2的输出加入队列一;})if队列r’非空then{call过程3,

retum过程3的输出r;}

else

return

{call过程1(∑U{X});if过程1的输出非空

NULL;

对于文中的例子,得出≥:中的极小矛盾集包括:{五一z,z—m,m一]咒^]D,忌一,,,一.Il,h—n),{g—i,,一h,

h一1i},{a—c,c一1d,口Ab—d).

2.3修正关联规则集≥:

为得到一致的关联规则集合,最简单的方法就是在每个极小矛盾集中删除1条规则.为了尽可能少地修改初始规则集,

对≥:中所有的极小矛盾集进行预处理,目的是删除最小数目的规则实现在每个极小矛盾集中至少删除1条规则.

先找出1个集合,使得该集合是尽可能多的极小矛盾集的子集。如果该集合存在的话.然后对剩下的极小矛盾集重复上述操作直到所剩的极小矛盾集互不相交.只要在上述方法找到的1组集合和所剩的极小矛盾集中各删除1条规则,就可以

得到一致的关联规则集合∑M.预处理后得到的交集为{,一^),所剩的极小矛盾集为{口^6一d,口一c,c一]d},将规则

集修改为:

口^6一d

口一i

f一]d

第2期高永惠:数据挖掘中关联规则集的优化

41

e—fA^ nk—Z

g’2行4Dk—f

h—+7i

J一是Z÷m

仇’7挖^7

2.4扩充修改关联规则集

可以通过上述方法得到一致的关联规则集合∑M,但却删除了一些规则,从而丢失了这些被删除规则所包含的统计信

息.并且所得结果集的表达能力没有得到扩充.下面将改进上述方法,以便减少信息的丢失,同时,适当地扩充规则的表达能力.如果某规则同时属于2个或以上的极小矛盾集.就认为通过删除该规则而消除2个或以上的极小矛盾集是有效率的.

扩充修改的方法如下:设r是≥:中的极小矛盾集,x是在F中得出矛盾的前提.如果F中存在2条或2条以上的以x

为前件的关联规则,就选取该类型规则中兴趣度最小的2条规则,设其为X—Z,X—W,将它们改成X^]Ⅳ一Z,X^

Z—W,若修改不导致新的矛盾的话,否则通过删除规则修改f;如果存在1条以X为前件的关联规则X—Z和1条以x,

为前件的关联规则X7一w,且{x7}[{X),那么X可以写为y^x,,将X,一w改成X7^]Y—w,若修改不导致新的矛盾的话,否则通过删除规则修改r;如果只存在X,为前件的关联规则,且{x’}c(X),那么X可以写为y^x,,选取该类型规则中兴趣度最小的规则,设其为x,一Ⅳ,将x7一w改成X’^]y一Ⅳ,若修改不导致新的矛盾的话,否则通过删除规则修改J1;其他情况通过删除规则修改r.具体内容包括过程4和算法2.

过程4:扩充修改极小矛盾集.

输入:X,r(极小矛盾集),∑(其中包含极小矛盾集都是独立的)

方法:if(r中存在2条或2条以上的以X为前件的关联规则)then

{选取该类型规则中兴趣度最小的2条规则X—Z,X一W;

∑’=∑一{x.一Z,x.+W};

return;}

elseif(存在X’为前件的关联规则。且{X’)c{X})then{选取该类型规则中兴趣度最小的规则xJ—w;∑7=∑~{X7一W);

∑7=∑’U(X’A7Y+W};//{X’}c{X),则X可以写为Y^X’

call过程1(∑’,X’^]Y);call过程2;

M-Queue=过程2的输出;if(M-Queue为空)then∑=∑’;

else

∑’=∑’U{XAl

W--Z,XA]pW);

call过程1(∑7,XA7W);

call过程2;

M-Queue=过程2的输出;call过程1(∑’,X^]Z);

call过程2;

{选取极小矛盾集r中1条兴趣度最小的规则P;从∑中删除规则P;}

return;)

else

N-Queue=过程2的输出;

if(M-Queueandhi-Queue为空)then

∑;∑7;

else

{选取极小矛盾集r中1条兴趣度最小的规则P;从∑中删除规则P;

return;}

{选取极小矛盾集r中1条兴趣度最小的规则P;从∑中删除规则P;)

对于文中的例子,极小矛盾集{aAb---d,一c,c'1输入:∑(初始关联规则集)输出:∑M(一致的关联规则集)方法:call算法1;

if(算法1的输出为非空)then

{对∑中所有的极小矛盾集进行修改预处理;for(t,-Queue的各元素)各选取其中1条兴趣度对于文中的例子,算法2将规则集修改为:

口Ab—d

c—-1

d}将被修改为{a^卜d,aA]卜c,c.1

d}.

算法2:解决关联规则集∑的不一致问题并扩充规则的表达能力.

最小的规则构成集合;//交集O∑=∑--0;

for(F-Queue的各元素)call过程4;∑M=∑;}

else

ZM=∑;

return∑M;

口^1b÷cn÷£94

e—fA

42

吉首大学学报(自然科学版)

^’1J一愚Z,m

咒●Ok—fm+]nA

第31卷

ih—+1'/k—+l

可以看出,算法2得到的规则集比修正关联规则集得到的规则集少删除了1条规则,从而较多地保留了规则挖掘过程中获得的统计信息.

在文中给出的算法或过程中,支持集策略归结算法的时间耗费是指数级的,其他算法的时间耗费都是多项式,所以支持集策略归结算法是整个系统的性能瓶颈.但是对文中的问题,在一般情况下,可以通过删除纯文字子句较大幅度地缩小参加归结的子句集,从而有效地提高了系统的性能.

3分析和讨论

重新定义了正、负关联规则并给出了它们的兴趣度.由正、负关联规则组成的初始规则集是一个关于兴趣度大小的全序集.在得到了解决关联规则集不一致问题的方法后,通过删除一些兴趣度小的规则使得规则集一致.在此基础上做了改进,采用规则删除和规则修改相结合的方法,在保证规则集一致的情况下,扩充了规则的表达能力并减少了统计信息的丢失.

客观层面的规则评价方法不能发现和解决规则集的不一致问题.在客观层面的规则评价方法的基础上,文中的方法得到了一致的规则集.同时,修改后的规则集更加符合实际情况.由于没有删除规则,因此能减少统计信息的丢失,并且修改的结果较符合人们的思维习惯,可以说是一种人性化的方法.可以看到修改后的规则的前件中出现了负文字,这种规则是不能通过传统的关联规则挖掘方法得到的.对于主观层面的规则评价方法,可以说如果某规则符合用户的兴趣取向,那么该规则经文中方法修改后仍然符合用户的兴趣取向,并且为用户提供更多的信息.

参考文献:

[1]SAVASEREA,OMIECINSKIE,NAVATHE

MiningforStrongNegativeAssociationsin

LargeDatabase

ofCus—

tomerTransactions[J].Proe.1998Int.Conf.DataEngineering,Orlando,FL,Feb.,1998:494—502.

[2]BRINS,MOTWANIR,SILVERSTEINCBeyondMarketBaskets:GenerlizingAssociationRules

ProeeedingsoftheACMs1GM()D,1996:255—276.

to

Correlations[C].

[3]董祥军,陈建斌,崔林,等.正负关联规则间的置信度关系研究I-J].计算机应用研究,2005,22(7):34—35.[4]董祥军,王淑静,宋瀚涛.基于两级支持度的正、负关联规则挖掘口].计算机工程,2005,31(10):16—18.[5]王万森.人工智能原理及其应用[M].北京:电子工业出版社,2000.[6]王永庆.人工智能原理I-M].西安:西安交通大学出版社,2000.

[7]姜云飞,欧阳丹彤.基于模型的诊断——世纪之交的知识工程与知识科学[M].北京:清华大学出版社,2001.

OptimizingAssociationRuleSetofDataMining

GAOYong-hui

(Departmentof

Computer

Science,Huaihua

College,Huaihua

418008,HunanChina)

Abstract:Theconceptsofpositiveassociationruleandnegativeassociationrule

terest

are

redefined,andthein—

nega—

degreeoftherulesisbroughtout.Therefore,theevaluationstandardofthepositiveandthe

tiveassociationrulesiSconformed.Onthebasisoftheabove,theinconsistencyofassociationrulesetiSsolvedtentativelybylogicalmethodanditsexpressivepowerisincreasedfurther.Asoptimizestheoriginalassociationruleset.

Keywords:datamining;associationrule;evaluation

result,theauthor

(责任编辑向阳洁)

本文来源:https://www.bwwdw.com/article/eqtq.html

Top