在数据库中挖掘定量关联规则的方法研究

更新时间:2023-08-31 10:46:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第4卷第4期管 理 科 学 学 报Vol.4No.42001年8月        JOURNALOFMANAGEMENTSCIENCESINCHINA         Aug.,2001

在数据库中挖掘定量关联规则的方法研究

程 岩,卢 涛,(哈尔滨工业大学管理学院,)

摘要:,关联规则是数据挖掘的一个重.,但数据间的定量关联关系

.,离散映射中属性值.本文结合粗集理论提出了一个确定属性值划分粒度的方法,在此基础上设计出一个挖掘定量关联规则的算法:Apriori2,利用

.Apriori2可以挖掘出大量对决策有帮助的定量关联规则

关键词:数据挖掘;智能决策支持系统;关联规则;粗集

中图分类号:TP311   文献标识码:A    文章编号:100729807(2001)0420041208

0 引 言

随着信息系统的建设和发展,许多企业和组织积累了大量的数据,而数据本身不是信息,隐含在数据中的规则、模式等知识才是对决策有帮助的信息.数据挖掘的目的就是发现隐含在数据中对决策有帮助的信息,它是实现智能决策支持系统的一个重要手段[1].

关联规则是数据挖掘的一个重要内容,通常关联规则反映的是数据间的定性关联关系.表1为一个商品交易数据库,一条记录表示用户一次购买的商品种类,每个属性(A,B…)代表一种商品,每个属性都是布尔类型的.一条关联规则的例子是:{A,B}→{D}[2%][60%],规则的含义是“如果用户购买商品A和B,那么也可能购买商品D,因为同时购买A,B和D的交易记录数占总交易数的2%,而购买A和B的交易中,有60%的交易也包含D”.规则中60%是规则的信任度,2%是规则的支持度[3-6].数据挖掘就是要发现所

交易是否包含某商品,而对交易量没有定量描述,

这种布尔类型数据间的关联规则被称为定性关联规则.但数据记录的属性往往是数值型或字符型的,这些数据间也存在对决策有帮助的关联规则,相对于定性关联规则,这些规则被称为定量关联规则[2,7].

表1 商品交易表

ID12

A11

B11

C01

D11

E00

00

…………………

在定量关联规则的挖掘中主要有两个步骤:(1)将属性值按一定的划分区间映射为标准的离散值.这个过程的一个主要问题是如何确定合理的属性值划分区间.

(2)从离散映射后的数据集中挖掘出定量关联规则.由于属性值的划分区间不只有两个,属性值不能仅仅离散映射为0,1两个值,因此不能用传统的定性关联规则的挖掘算法挖掘定量关联规则.

针对上述两个步骤中存在的问题,结合粗集

有满足用户定义的最小信任度和支持度阀值限制的关联规则.表1中的数据只是定性地描述一个

①收稿日期:1999211222;修订日期:2000204218.

基金项目:国家自然科学基金资助项目(70071008).作者简介:程岩(19672),男,博士生.

—42—管 理 科 学 学 报              2001年8月

理论和概念树理论提出了一个确定属性值划分区间的算法,并在挖掘定性关联规则的Apriori算法基础上设计出一个挖掘定量关联规则的算法Apriori2.

是一个k元特征描述,其中Ci∈C,Κi∈V,k元特征描述Xk的表达式中的任一个等式(Ci=Κi)称为Xk的一元子句;令1≤i<j≤k,Xk中的表达

k

式(Ci=Κ.i)∧…∧(Cj=Κj)称为描述X的子句1.2 1 基于粗集理论挖掘定量关联规则

的基本原理

1.1 ,概Y,定量关联规则表示为X→Y[s][c],规则中s,c分别代表规则的支持度和信任度.通过计算特征集[X]的支持度和信任度就可以判断关联规则X→Y是否成立.根据关联规则的定义,特征集[X]的支持度与信任度的计算公式为

 s=,c=

card([U])card([X])

式中运算符card()是求集合中元素的个数.令Α为用户定义的最小支持度阀值,Β为最小信任度阀值.根据关联规则的定义:当s>Α且c>Β时,规则X→Y成立.

1.3 属性值的离散映射

在挖掘关联规则前,首先要将属性的取值映射为标准的离散符号,规定每个离散符号表示一个数据区间.例如在城市供水信息系统的数据库中有属性maximumtemperature和date,可以按区间[-40℃,-35℃],[-35℃,-30℃]…将maximumtemperature的值分别映射为0,1….字符型属性值也可以按一定的区间映射为离散符号,例如按较大的区间可以将属性date的取值按workday,restday分别映射为0,1,也可以按较小的区间将date的取值按Monday,Tuesday…进行映射.称离散映射时属性值区间划分的大小为属性值的划分粒度.通过属性值的离散映射,数据库中的每一条记录都由标准的离散值表示.

在属性值的离散映射过程中,条件属性值的划分区间过小会使特征集包含的元素变少,许多规则因支持度低于阀值而不成立,这类问题称为最小支持度问题;而条件属性值区间的划分粒度过大会使许多规则因信任度过小而不能成立,这类问题称为最小信任度问题.

令DBC,〉库,其中Uu2,uN}是数据记录的集合;系,令C为决定属性的集合,称为条件属性集,D为被决定属性的集合,称为决策属性集,且要求C∩D= ;令A=C∪D;V表示所有属性可取值的集合;f:U×A→V是一个信息函数,该函数为某个数据记录的某个属性赋予一个特定的值,例如f(ui,a)=Κ,表示记录ui在属性a上的取值为Κ.

数据记录间往往存在不分明关系,令BΑA,属性集B上的不分明关系R(B)定义为R(B)={(ui,uj)∈U2 Πa∈B,f(ui,a)=f(uj,a)}.不分明关系是集合U上的等价关系,它将集合U划分为一些等价类.令ui∈U,记录ui在属性集B上的等价类定义为RB(ui)={uj∈U Πa∈B,f(ui,a)=f(uj,a)}.集合U上的等价类又称为基本集,基本集RB(ui)中任一个数据记录在属性集

B上所取的所有属性值称为该基本集的描述

[8,9]

.

区分两种基本集:特征集和概念.

定义1 如果确定基本集RB(ui)的属性集B满足:BΑC,即基本集是条件属性集上的等价类,称这一类基本集为特征集,记为[X],其中X是特征集[X]的描述;如果BΑD,即基本集是决策属性集上的等价类,称该基本集为概念,记为[Y],其中Y是概念[Y]的描述.

定义2 令[X]是不分明关系R(B)确定的一个特征集,BΑC,如果属性集B中有k个属性,那么称[X]为k元特征集,记为[Xk],其中Xk称为k元特征描述.

定义3 令Xk=(C1=Κ1)∧…∧(Ck=Κk)

第4期            程岩等:在数据库中挖掘定量关联规则的方法研究—43—

在其概念树上选取一个合适的节点层次进行属性

2 条件属性值划分区间的确定

2.1 属性概念树

值的离散映射的问题.

首先将每个属性的离散值取它的概念树的最底层节点,然后对属性的离散值进行适当的概念爬升,..,题的可能性也越来越大,下面通过粗集理论定量分析出现最小信任度问题的可能性大小.

对某个属性依其所有取值在层次上进行分类,直到不能再分为止,

这样形成的概念层次结构

称为该属性的概念树.图1是属性date的概念树.

图1属性日期的概念树

属性概念树的形成有三种方式:自动生成、半自动生成和人工定义.在数值型属性的概念树上,每一个节点表示一个数值区间,可以根据数据的分布特征采用统计方法自动生成数值型属性的概念树[10].例如,某城市在某季节的最高气温大部分分布在20℃-30℃间,且历史上的最大值35℃,最小值为10℃,这时可以将数据划分为三个区间:[10℃,20℃],[20℃,30℃],[30℃,35℃],再按同样的方法对每一个区间进行详细的划分,直到形成一个完整的概念树.某些字符型属性可以利用数据库的结构自动形成概念树,例如数据库的结构为:(country,province,city,…),这种结构便体现了属性city的概念层次,通过计算可以很容易形成city的概念树;如果经过统计分析发现属性country的值大多数为“china”,这时可以人为定义一个概念层次“foreign”,然后再通过算法自动形成city的概念树,这种方式便是半自动生成方式[11].有些属性只能由专家根据应用环境的要求进行人工定义.

属性概念树在数据挖掘过程中具有巨大的应用价值,但使用者需要很大的努力才能够生成属性概念树,不过这种工作只需做一次便可以满足以后所有数据挖掘的需要,这是因为属性概念树作为一种背景知识具有稳定性,因此用户的这种努力是值得的[11].

2.2 确定属性值划分区间的算法

在属性概念树上,子辈节点代表的数值区间是对其父辈节点代表的数值区间的详细划分,节点层次越高表示属性值的划分区间越大.属性值离散映射过程中的区间划分问题就是为每个属性

设有数据库DB=〈U,C,D,V,f〉,且card(C)=m,[Y]表示DB中的一个概念,所有其它概念记为[?Y],即[?Y]=U-[Y],[Xm]表示由不分明关系R(C)确定的一个m元特征集.令Β为最小信任度阀值,c表示规则Xm→Y的信任度,ct表示规则Xm→?Y的信任度,根据信任度的计算公式有

mt

c=

card([Xm])

m=

card([Xm])

mm=

card([Xm])m=1-card([Xm])

=1-c

如果Xm→?Y的信任度ct>Β,必有(1-c)>Β,即c<(1-Β).根据规则Xm→Y的信任度c的取值,将数据库中的所有m元特征集划分为三类:(1)c>Β的m元特征集.(2)c<(1-Β)(即t

c>Β)的m元特征集.(3)Β≥c≥(1-Β)的m元特征集(注:在实际应用中0.5<Β<1,所以Β>(1-Β)).

根据这三类特征集,将记录集U划分为三个互不相交的区间,即概念[Y]的Β正例区域,概念[Y]的Β边界区域和概念[Y]的Β反例区域:概念[Y]的Β正例区域是所有第1类m元特征集的并

集,记为POSΒ(Y)=∪{[Xm]ΑU c>Β};概念[Y]的Β反例区域是所有第2类m元特征集并集,

记为NEGΒ(Y)=∪{[Xm]ΑU c<(1-Β)};概念[Y]的Β边界区域是所有第3类m元特征集并集,记为BINDΒ(Y)=∪{[Xm]ΑU Β≥c≥

—44—(1-

Β)}.

管 理 科 学 学 报              2001年8月

因为BINDΒ(Y)中的特征集的信任度都小于阀值,所以如果概念[Y]的POSΒ(Y)很小而

BINDΒ(Y)很大,许多结论为概念描述Y的规则

会因信任度小于阀值而不能成立.可见POSΒ(Y)与BINDΒ(Y)的大小是决定数据挖掘时是否出现最小信任度问题的一个重要因素.用一个数值指标Χ(Y)论为Y(Χ(Y)

1

-显然,Χ(Y)越大

card(POSΒ(Y)∪BINDΒ(Y))

联规则信任度阀值Β,条件属性集C

输出:一个新的属性值经过离散映射的数据库

DB′begin

 用条件属性概念树最底层节点将DB离散映射为DBs

(Y)D的  Χ( Χ的初始值

 S1← ,S2←   {S1,S2为两个临时表, 为

空集}

 While 4≤Γdo

t

(Y)为概念爬升后指标  【Χt(Y)←0  {Χ

Χ(Y)的值,首先将Χt(Y)初始

化为0}

forC中的每个属性Ci do  {通过该循

环找出一个使Χ(Y)的值变化最小的属性进行概念爬升}

  【S2←DB′ {S2是DB′的一个临时备份,以便进行计算.每循环

一次,都将DB′赋给S2}

   if 属性Ci的概念树上有更高层数据

可用于替换当前数据库中的数据then

    【用Ci的概念树上高一层次数据替

换数据库S2中的数据计算S2的指标Χ(Y)的值,记为Χ2(Y)

t

    if Χ2(Y)>Χ(Y)then       【S1←S2 {用临时表S1记载使

Χ(Y)变化最小的属性概念爬升后的数据集}Χt(Y)←Χ2(Y)】

    】    】DB′←S1 {用S1替换DB′,表示DB′进行了一次

越不可能出现最小信任度问题,反之就越可能出现最小信任度问题.

随着概念爬升的进行,Χ(Y)会越来越小,从

而会提高出现最小信任度问题的可能性,用Χ(Y)的变化率 Χ来定量地描述这种可能性的变化情

st况, Χ的计算公式为 Χ=公s

Χ(Y)

s

(Y)为最初用属性概念树最底层节点离散式中Χ

映射后的数据集的指标Χ(Y)的值,Χt(Y)为每次属性概念爬升后的指标Χ(Y)的值.可以根据 Χ的数值判断属性值是否已经爬升到一个合适的概念层次.假设有一个经验数值Γ,Γ表示属性概念爬升到合适概念层次时Χ(Y)的变化率(Γ是接近0的小数,如何确定Γ见后文的实例分析).判断是

否停止概念爬升的标准就是判断 Χ是否大于Γ.为确保每个属性都能找到一个合适的概念层次,属性的概念爬升遵守两个原则:(1)每次属性值都只提升一个概念层次.(2)每次只选择一个使Χ(Y)变化最小的属性进行概念爬升.

根据以上原理设计出通过概念爬升确定条件属性值区间划分粒度的算法:Valuepartition.由于算法是针对每一个概念描述Y依次进行挖掘的,因此针对每一个概念描述Y都用算法Valuepartition输出一个新的属性值经过合适的离散映

射的数据库,再对输出的数据库进行计算,挖掘出结论为概念描述Y的所有关联规则.Algorithm:Valuepartition

概念爬升}sts(Y)-Χ(Y))÷Χ(Y)) {计算属性概 Χ←(Χ

念爬升后DB′的指标Χ(Y)的变化率}   】

End(Valuepartition)

算法时间复杂度:设数据库有N条记录,m个条件属性,每个属性的概念树有H个层次.对每一个属性,用高层概念数据替换低层概念数据

输入:数据库DB,条件属性的概念树H,一个概

念描述Y,允许的Χ(Y)的变化率阀值Γ,关

第4期            程岩等:在数据库中挖掘定量关联规则的方法研究—45—

的计算时间为N,指标Χ(Y)的计算时间为NlogN,对一个属性进行概念爬升并计算

Χ(Y)的计算时间为N+NlogN.因为数据库每进行一次概念爬升前都要分别对m个属性进行概念爬升,选出一个最优的属性进行概念爬升,因此数据库每进行一次概念爬升的计算时间为m×(N+

NlogN).数据库最多可进行H×m次概念爬升,

Apriori2通过多步递推运算排除大量不必

进行计算的特征集,每一步递推运算包括两个阶段:(1)生成候选集:为了减少计算量,在第k步递推运算中利用第k-1步计算的结果,将不能使规则成立的k元特征集判断出来,将剩下的k元特.(2)从Rk中5,并将这些kLk,k,将信任度大于阀值的规则作为知.反复进行递推计算,当Lk为空时算法停止计算.

定义5 令5是关联规则最小支持度阀值,称支持度大于5的特征集为大特征集.令Lk是k元大特征集的集合,Rk是k元特征集的集合,且Rk是Lk的超集,称Rk为k元候选集.定理1 特征集是大特征集的必要条件是其描述的所有子句确定的特征集是大特征集.

证明 设Xk-i是Xk的任一子句,根据特征集的定义有[Xk]Α[Xk-i],因此如果[Xk]的支持度大于阀值5,[Xk-i]的支持度必然大于5;反之,如果[Xk-i]的支持度不大于5,[Xk]的支持度必然不大于5.证毕

1元候选集R1是所有一元特征集的集合,算法通过R1可以计算出L1,再根据L1计算出R2,如此递推.要解决的一个问题是如何根据Lk-1构造候选集Rk,使Rk满足:1)Rk的规模尽量小.2)Rk中包含所有使规则成立的k元特征集,而不包含使冗余规则成立的特征集.

通过对Lk-1中的特征集进行交运算生成候选集Rk,再对Rk进行删除运算使Rk的规模尽量小,同时又不包含使冗余规则成立的特征集.

1)特征集的交运算

设[X1],[X2]是两个特征集,两个特征集进行交运算后生成的特征集的描述X是X1、X2中所有子句的合取范式.例如[(C1=1)]∧(C2=0)]∩[(C3=2)]=[(C1=1)∧(C2=0)∧(C3=2)].

因此总的计算时间为m2×H×(N+NlogN).因为数据库中H,m复杂度为O(3 属性值经过离散映射后,就可以通过计算每个特征集的支持度和信任度发现结论为概念描述Y的所有关联规则,但这种方法有两个缺点:1)计算效率低:这是因为特征集的数量非常大,假设有

m个条件属性,每个属性可取L个离散值,那么一

1

元特征集的数量为Cm×L,k元特征集的数量为

Cm×L,特征集的总数为Cm×L+Cm×L+…+Cm×L.2)计算出的规则解释能力低,数据挖掘

m

m

kk122

的结果包含大量冗余规则.

定义4 设X1→Y,X2→Y是两条结论都为概念描述Y的规则,如果X1是X2的子句,那么

X

2

→Y是一条冗余规则.

例如有如下两条规则:(20℃<maximumtemperature≤30℃)→(600000<waterdemand≤650000ton)(20℃<maximumtemperature≤30℃)∧(60

<

average

humidity≤75 ))→(600000<waterdemand

≤650000ton)如果第一条规则成立,第二条规则必然成立,因此第二条规则就是冗余的.

为了提高计算效率,在Apriori算法基础上设计了一个挖掘定量关联规则的算法:Apriori2.Apriori2的主要原理是:当计算结论为Y的规则

时,不需要计算所有特征描述与概念描述间的支持度与信任度,而是首先从1元特征集开始计算,如果判断出某个特征集描述X与Y间的支持度小于阀值5,那么所有以X为子句的特征描述与Y间的支持度必然小于5,这样就不必对这些特征集进行计算了.

根据定理1,如果一个特征集不是大特征集,

那么该特征集与任何特征集进行交运算所生成的特征集都不是大特征集,因此只需对Lk-1中的特征集进行交运算生成候选集Rk.这里规定:在描述的公式中,一元子句间的排列顺序按属性的字

—46—管 理 科 学 学 报              2001年8月

母顺序排列,例如(C1=1)∧(C2=0)不能写为(C2=0)∧(C1=1).为了使生成的候选集中不会漏掉使规则成立的特征集,又要保证对Lk-1中的特征集进行交运算生成的特征集都是k元的,规定两个特征集进行交运算的条件是:①两个特征集的描述中前(k-2)个一元子句相同.②第(k-1)个一元子句中的描述属性是两个不同的属性.例如有L2如下:

{[(C1=1)]∧(C2=0)],11)]∧2=1)],[(C1=(],[)(2)],[(C2(C3]}

在L2第1个特征集可以和第3个特征集进行交运算形成一个3元特征集:[(C1=1)∧(C2=0)∧(C3=2)].由于不符合交运算的第1个条件,第2个特征集不能与第5个特征集进行交运算,尽管交运算的结果是3元特征集:[(C1=1)]∧(C2=1)∧(C3=3)],这是因为:根据定理1的原理:如果[(C1=1)]∧(C2=1)∧(C3=3)]是大特征集,它的2元子句确定的特征集[(C1=1)]∧(C3=3)]必然在L2中,否则这个3元特征集就不是大特征集.第1个特征集也不可以和第2个特征集进行交运算,这是因为两个特征集的描述中的第2个子句中的属性都是C2,不符合交运算的第2个条件,这两个特征集进行交运算的结果不是3元特征集.L2经过交运算后,生成一个3元候选集R3为{[(C1=1)∧(C2=0)∧(C3=2)],[(C1=1)∧(C2=1)∧(C3=2)]}

2)删除运算

根据定理1的原理,算法对Rk中的每个特征集[Xk]的所有(k-1)元子句进行检查,如果发现有某个(k-1)元子句所确定的特征集[Xk-1]不在Lk-1中,便将该特征集从Rk中删除.

计算出候选集Rk后只需计算Rk中每一个特征集的支持度便可以计算出Rk中的大特征集,并形成Lk.计算Lk中每一个大特征集的信任度,如果信任度大于阀值Β,便挖掘出一个关联规则:Xk→Y.挖掘出一个规则Xk→Y后,为避免产生冗余规则,将该特征集[Xk]从Lk中删除.根据生成候选集的交运算和删除运算的原理,将特征集[Xk]从Lk中删除后就可以确保Rk+1中的特征集

根据以上原理,设计出一个定量关联规则的发现算法Apriori2,如下所示:Algorithm:Apriori2

输入:数据库DB,关联规则的最小支持度阀值Α,

信任度阀值Β,H,4(Y)Λ,条件属性集

CD

 For 每一个概念描述Y do

【valuepartition {生成一个属性值为标准

离散值的数据库DB′用来计算概念[Y]的关联规则}rulemine {挖掘规则,rulemine见下面的过程}将规则库中用离散符号表示的规则转变为用实际属性值表示的规则】

 End{Apriori2}Procedure:rulemine begin

根据DB′的粗集模型计算出所有一元特征集,形成一元候选集R1  k←1

judge←true {用变量judge来标识Lk是否

为空,当judge=false时表示Lk是空集}  Whilejudge≠falsedo{即Lk不是空集时运行以下步骤}  【 计算Rk中每一个特征集的支持度,将支

持度大于Α的特征集存入集合Lk中   for Lk中每个k元大特征集[Xk]do    【 计算[Xk]的信任度

   if [Xk]的信任度大于阀值Β,then      【 将[Xk]从Lk中删除

将Xk→Y存入规则库中】

  】

 if Lk≠ then { 表示空集}      【对Lk中的特征集进行交运算生成

Rk+1

的描述不包含子句Xk,这样就避免了冗余规则的出现.

对Rk+1中的特征集进行删除运

算】

 elsejudge←false   k←k+1  】

第4期            程岩等:在数据库中挖掘定量关联规则的方法研究—47—

End{rulemine}

算法时间复杂度:设数据库中共有N条记录,m个条件属性,h个概念,每个属性可取L个离散值;计算出一个特征集的支持度和信任度的时

12

间复杂度为O(N),数据集共有K=Cm×L+Cm

m×L2+…+Cm个特征集,在最坏情况下计m×L

算某个概念Y的关联规则需要计算K次支持度和复杂度,NlogN,×N+NlogN),L,hN).

为两部分,80 的数据用于挖掘关联规则,20 的数据用于检验数据挖掘结果的质量.用不同的参数进行了8次运算,获得了不同的预测结果,计算结果如表2所示.显然,第5次运算所采用的参数可以获得比较理想的预测结果.

表2 参 33 4 4 6 6 8 7

75 75 80 80 85 85 85

00.050.050.030.030.010.020.01

确61.1 65.3 74.1 81.2 82.3 81.7 79.7 80.5

规则数

131201188173142134129135

4 实例分析

为了降低供水成本,城市生活供水的调度系

统往往根据专家的经验判断每天生活用水量,但仅仅根据主观经验不能保证决策的质量.根据Apriori2的原理,开发了一个挖掘定量关联规则的挖掘工具,并将其应用到城市生活供水的决策支持系统中.

根据专家经验,每天城市生活用水量需要根据如下7个条件属性判断:最高气温、最低气温、平均湿度、平均风速,降雨量,降雪量及日期.根据供水公司实际工作需要,将需水量分为10个级别,分别用0,1,…,9来表示.日期的概念树由专家定义,如图1所示.其它条件属性的概念树通过统计的方法自动获得.在算法Apriori2中关联规则支持度阀值Α,信任度阀值Β和允许的4(Y)的变化率阀值Λ是用户主观输入的经验参数.为了确定合理的参数值以及测量数据挖掘结果的质量,将沈阳市过去几年的天气及用水量数据划分参考文献:

5 结论

知识的自动获取是智能决策支持系统的一个重要环节,Apriori2算法的一个重要优势是:它通过发现属性值间的定量关联关系从粗糙(Rough)数据中获得分类和预测知识.传统的示例学习算法也是获取分类知识的一个重要手段,但这些算法只能从精确数据集中获取知识,这样就限制了它们的应用范围.信息的不完备性是管理领域中半结构化决策问题和非结构化决策问题的共同特点,由于信息的不完备所导致的数据集的粗糙性是普遍存在的现象,因此Apriori2算法在管理决策领域具有更广泛的应用前景.

[1] ChenMS,HanJW,YuPS.Datamining:anoverviewfromadatabaseperspective[J].IEEETransactionson

KnowledgeandDataEngineering,1996,8(6):8662883

[2] Piatetsky2ShapiroG.Discovery,analysisandpresentationofstrongrules[C].InPiatetsky2ShapiroG,Frawley

WJed.KnowledgeDiscoveryinDatabases,AAAI MITPress,Cambridge,1991.2292248

[3] AgrawalR,ImielinskiT,SwamiA.Miningassociationrulesbetweensetsofitemsinlargedatabases[C].

Washington,D.C.,1993.2072216

[4] BrinS,MotwaniR,UllmanJD.Dynamicitemsetcountingandimplicationrulesformarketbasketdata[C].In

In

BunemanP,JajodiaSed.ProceedingoftheACMSIGMODConferenceonManagementofData.ACMPress,

—48—管 理 科 学 学 报              2001年8月

PeckhamJed.ProceedingoftheACMSIGMODConferenceonManagementofData.ACMPress,Tucson,Arizo2

na,USA,1997.2552264

[5] HoutsmaM,SwamiA.Set2orientedminingforassociationrulesinrelationaldatabases[C].InYuPS,ChenAL

Ped.

IEEE11thInternationalConferenceonDataEngineering,IEEEComputerSocietyPress,LosAlamitos,

E,HanJW,

California,1995.25233

[6] SrikantR,VuQ,AgrawalR.Miningassociationrulesithitem].

Press,MenloParkCalif,1997.67273

[7] LentB,SwamiA,WidomJ..

13thInternationalConferenceonData

,P,s,California,1997.2202231

[8] Woonsetmodel[J].ComputerandSystemScience,1993,46(1):39259[9] 刘真,姚立文.ROUGH集理论:现状与前景[J].计算机科学,1997,24(1):125

[10] 刘胜军,杨学兵,蔡庆生.关系数据库中概念层次自动提取算法研究[J].计算机应用研究,1999,16(12):15217[11] HanJW,CaiYD,CerconeN.Data2drivendiscoveryofquantitativeruleinrelationdatabases[J].

TransactionsonKnowledgeandDataEngineering,1993,5(1):29240

[12] HuXH,CerconeN.Miningknowledgerulesfromdatabases:aroughsetapproach[C].InSuSYWed.IEEE

12thInternationalConferenceonDataEngineering.1996.962105

IEEEComputerSocietyPress,LosAlamitos,California,

IEEE

FayyadUed.ProceedingsofSecondInternationalMining,AAAI

Researchonmethodsofminingquantitativeassociationrulesindatabase

CHENGYan,LUTao,HUANGTi2Yun

SchoolofManagement,HarbinInstituteofTechnology,Harbin150001,China

Abstract: Dataminingisanimportantmethodofbuildingintelligentdecisionsupportsystem,associationruleisanimportantcontentofdatamining.Apriori,thetraditionalalgorithm,canonlydiscoverythequalitativeassociatedrelationamongdata,butthequantitativeassociatedrelationismorehelpfulindecision2making.Mappingattribute’svalueintodiscretecharactersisakeystepinminingquantitativeassociationrules,inwhichthepartitiongranularityofattribute’svalueisakeyfactoraffectingthequalityoftheresultofdatamining.

Inthispaper,byintegratingthetheoryof

roughsets,amethodofmappingattribute’svalueintodiscretecharacterwithafinevaluepartitiongranularityisdeveloped,andthenanewalgorithmofminingquantitativeassociationrules,Apriori2,ispresented.Manyruleswhicharehelpfulindecision2makingcanbeminedbyApriori2.Keywords: datamining;IDSS;associationrule;roughset

本文来源:https://www.bwwdw.com/article/3cxi.html

Top