常用数据挖掘算法研究

更新时间:2023-06-03 05:36:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第 l 9卷第 1期 1Vo -9 l 1 No 1 .l

电子设计工程El cr nc De in g e to i sa En

21 0 1年 6月Jn 2 1 u .0 1

常用数据挖掘算法研究王海涛 .陈树宁(丘职业技术学院河南商丘 4 6 0 )商 7 0 0

摘要:了给企业快速、成本构建客户管理系统、 R系统、据挖掘应用系统提供参考与借鉴,究了常用数据为低 C M数研挖掘算法。通过研究数据挖掘算法基本原理、用范围及优点,出可以使用不同的算法来执行同样的业务任务。适得每个算法会生成不同的结果。因此在一个数据挖掘解决方案中,以使用一些算法来研究数据,后使用其他算法,可然基于这些数据预测特定结果。

关键词:数据挖掘;法;据转换算数中图分类号: P 1 .3 T 3 11文献标识码: A文章编号:1 7— 2 6 2 1 ) 1 0 9— 3 64 6 3 (0 1 1- 0 0 0

Re e r h o o s a c fc mm o d t i n l o ih n a a m ni g a g r t mW ANG Ha— o,C ia t HE h— i g N S unn

( h n qu V c t n la d T c nc lC l g,h n qu4 6 0 S a g i o ai a n e h ia ol e S a g i 7 0 0,C ia) o e hnAb t a t I r e o p o ie r fr n e a d x e e c o u i e s fs, w- o t c n tu t n c s me n g me t s r c: n o d r t rv d ee e c n e p r n e f r b sn s a t l c s o s c o u t r ma a e n i o r i o s se, M y tms d t n n p l ai n, i e e ta g r h c n b s d t e f r t e s me b s e s t k b y t ms CR s se, aa mii g a p i t s a d f r n l oi m a e u e o p ro m h a u i s a y c o t n s su y n h a i r cp e f d t n n l o i ms a p iai n a d a v na e,h n e c t o r d c s d f rn t d ig t e b sc p i il s o aa mi i

g ag r h, p l t n d a tg s t e a h me h d p o u e i ee t n t c o e u t T e eo e o a s o l o i r s l . h r fr,y u c n u e s me ag r m o su y t e d t n a d t n n o u in a d t e s t e l o t ms s h t t t d h a a i a mii g s l t n h n u e oh ra g r h a o i b s d o h s aa t r dc p cfcr s l i a n n o u in a e n t e ed t p itas e i e u t n ad t mii g s l t . o e i a o Ke r s a n n lg r h;d t o v rin y wo d:d t mi ig;a o t m a i a ac n e s o

“据挖掘算法”创建数据挖掘模型的机制。为了创建数是模型,法将首先分析一组数据并查找特定模式和趋势。算算法使用此分析的结果来定义挖掘模型的参数。然后,些参这数应用=整个数据集,以便提取可行模式和详细统计信息。 下面是笔者就各种算法的原理及适用范围做的总结。

12决策树 .

决策树是一种分类和回归算法,于对离散和连续属性用进行预测性建模。 决策树的基本原理是递归地将数据拆分成子集。便每以一

个子集包含目标变量类似的状态,些目标变量是可预测这

1各种算法原理及适用范围11贝叶斯算法 .贝叶斯算法是一种分类算法 .于预测性建模。该算法用在假定输入属性互不相关的前提下来计算输入列和可预测列之间的条件概率。该算法的名称 N i ae a eB ys即由这一无 v关性假定而来。

属性I 1一次对树进行拆分。要评价所有的输入属性对可。每都预测属性的影响程度,这个递归的过程结束时,策树也当决就完成了。

对于连续属性 .算法使用线性回归确定决策树的拆分该位置。

当决策树算法根据可预测的连续列生成树时。每个节点都包含一个回归公式。拆分出现在回归公式的每个非线性点处。

与其他算法相比,算法所需的运算量小,而

能够快该因速生成挖掘模型 .发现输入列和可预测列之间的关系。可以

决策树的适用范围有关联分析、回归任务。 1 .时序算法 3

以使用该算法进行初始数据探测,后根据该算法的结果使然用其他运算量较大、加精确的算法创建其他挖掘模型。更 该算法适用于分类任务和预测任务。特别适合于初始的数据挖掘及验证输入列与输出列之间有无关系的任务。

时序算法是一种回归算法,于创建数据挖掘模型以预用测连续列。预测方案中的产品销售额。其他算法创建依靠如给定输入列来预测可预测列的模型 (决策树模型 )而时序如,模型的预测则仅根据算法在创建模型时从原始数据集派生的趋势。

时序算法的一个重要功能就是可以执行交叉预测翻也。收稿日期: 0 1 0一 6 2 1 _ 2 l稿件编号:0 1 2 1 2 10 0 9

就是说,如果使用两个单独但相关的序列为该算法定型。就

基金项目:南省教育厅资助项目( 0 8 5 0 2 )河 2 0 D 20 9

作者简介:海涛 (9 5 )男,南虞城人,王 16一,河高级讲师。研究方向:算机网络技术及数据挖掘研究。 计-

9 - 0

王海涛,等常用数据挖掘算法研究可以使用得到的模型根据其他序列的行为预测一个序列的结果。例如,个产品的实际销售额可能会影响另一个产品一的预测销售额。

更好地表示数据的分类。该算法将循环执行此过程。到它直不能再通过重新定义分类来改进结果为止。 聚类分析算法提供下列两种方法来计算点在分类中的适合程度:xett nMaii t n (M)和 K Men。对于 E pca o x z i E i m ao— as

在微软 V 2 0 S 0 5时序算法预测时,时间序列既可以是整型。可以是 1;时,可以显示历史预测数据,帮助也 3期同也以数据人员来分析算法的正确性 .因为历史数据必然是正确的。一般情况下,序算法只显示 5步,想预测更长时间的时若

E聚类分析,该算法使用一种统计方法来确定分类中存在 M数据点的概

率。对于 K M a s该算法使用距离度量值将数— en,据点分配给其最接近的分类。 生成分类时不使用其用法设置为只可预测的列。在生成分类后,计算这些列在分类中的分布。将 聚类算法的适用范围是分类任务。1 .关联算法 5

产品销售额,只需要调整预测步骤参数即可。 时序算法的适用范围是预测。 14聚类算法 .

聚类算法是一种分段算法。该算法使用迭代技术将数据集中的事例分组为包含类似特征的分类。在浏览数据、识标数据中的异常及创建预测时,些分组十分有用。这 聚类分析模型标识数据集中可能无法通过随意观察在逻辑上得出的关系。例如,逻辑上可以得知,自行车上下在骑

关联模型基于包含各事例的标识符及各事例所包含项的标识符的数据集生成。事例中的一组项被称为“集”项。关联模型由事例中一系列项集和说明这些项如何分组的规则组成。算法标识的规则可用于根据客户购物车中已有的项来

班的人的居住地点通常离其工作地点不远。该算法可以找但出有关骑自行车上下班人员的其他并不明显的特征。在图 l中。类 A表示通常开车上班人员的数据,分类 B表示通分而常骑自行车上班人员的数据。

预测客户将来可能购买的产品。如,果和 y表示购物例如车中可能有的两个项。 sp ot数是数据集中包含和则 up r参 y这两项组合的事例的数目。通过将 sp ot数与用户定 u p r参义的 MI I M S P O T和 M X MU _ U P R参数结 N MU _ U P R A I M S PO T合使用,算法可控制生成的项集数。 r ait数也称为该 po bly参 b i

“信度”表示数据集中既包含也包含 y的一部分事例。置 . 通过将 po ait数与 MI I M P O A IIY参数结 rbJly参 )i N MU _ R B BLT合使用,算法可控制生成的规则数。通过调整支持度可以该获取不同的数据。 关联算法的适用范围是关联任务。骑车上班者

1 .神经网络算法 6

图 1聚类算法实例F g Cl

s e n l o t m n tnc i .1 u t r g ag r h i sa e i i

神经网络算法使用由三层神经元 (感知器 )成的多即组层感知器网络。网络也称为反向传播 D l该 et则网络。些 a法这层分别是输入层、选隐藏层和输出层。在一个多层感知器可网络中,个神经元接收一个或多个输人,生一个或多个每产相同的输出。每个输出都是对神经元的输入之和的简单非线

聚类分析算法不同于决策树算法等其他数据挖掘算法, 区别在于无需指定可预测列便能生成聚类分析模型【聚类引。分析算法严格地根据数据以及该算法所标识的分类中存在的关系定型。

性函数。输入只是从输入层中的节点传递到隐藏层中的节点,后传递到输出层。同一层中的神经元之间没有连接嘲最。 (果没有隐藏层,则输入从输入层中的节点传递到输出层如中的节点。)关多层感知器神经网络的详细探讨不属于本有文档的范围。 使用神经元网络算法构造的挖掘模型可以包含多个网

聚类分析算法首先标识数据集中的关系并根据这些关系生成一系列分类。散点图是一种非常有用的方法,以直观可地表示算法如何对数据进行分组,图 2所示。散点图可以表如示数据集中的所有事例,该图中每个事例就是一个点。分类在对该图中的点进行分组并阐释该算法所标识的关系。

络,取决于用于输入和预测的列的数量,者取决于仅用这或于预测的列的数量。个挖掘模型包含的网络数取决于挖掘一

模型使用的输入列和预测列包含的状态数。 在使用神经网络算法创建的神经网络中,在 3种神经存元类型: 1输入神经元 )图 2聚类算法实例Fg 2 Clse n loih isa c i. u tr gagrt m n tn e i

输入神经元提供数据挖掘模型的输入属

性值。对于离散输入属性,入神经元通常代表输入属性的输单个状态,中包括缺少的值。例如,个二进制输入属性生其一成一个输入节点。节点说明缺少的或现有的状态,指示该并

在最初定

义分类后,法将通过计算确定分类表示点分算组情况的适合程度,后尝试重新定义这些分组以创建可以然

该属性是否存在值。用作输入属性的 B o a ol n列可生成 3个 e一

91 —

《电子设计工程} 0 1年第 l期 21 l输入神经元:一个神经元用于 Tu re值,一个神经元用于 Fl as e值。有一个神经元用于缺少或现有的状态。具有两个还以上状态的离散输人属性可为每个状态生成一个输入神经元,为缺少的或现有的状态生成一个输入神经元。一个连并续的输入属性可生成两个输入神经元:个是针对缺少的或一现有的状态的神经元,个是针对连续属性自身的值的神经一有一个与该数据点与回归线之间距离关联的错误。回归方程式中的系数 a和 b可以调整回归线的角度和位置。以调整可a和 b直到与点关联的错误总数达到最低数目,此获得,以回归方程式。

假定可预测列仅包含两种状态 .但仍希望进行回归分

析,以将输入列与可预测列包含特定状态的概率关联起来。逻辑回归模型必须包含一个键列、一个或多个输入列、一

元。输入神经元可向一个或多个隐藏神经元提供输入。2隐藏神经元隐藏神经元接收来自输入神经元的输 )入,向输出神经元提供输出。并3输出神经元 )输出神经元代表数据挖掘模型的可预测

个或多个可预测列。

回归算法的适用范围是线性回归任务。

属性值。对于离散输人属性,出神经元通常代表可预测属输

2总结 为特定的业务任务选择最佳算法很有挑战性。以使用可不同的算法来执行同样的业务任务,每个算法会生成不同的

性的单个预测状态。中包括缺少的值。如。其例一个二进制可预测属性可生成一个输出节点,节点说明缺少的或现有的该状态,以指示该属性是否存在值。作可预测属性的 B o a用 ol n e列可生成 3个输出神经元:个神经元用于 T e值,个神一 u r一经元用于 Fl as e值,有一个神经元用于缺少或现有的状态。还 具有两种

以上状态的离散可预测属性可为每个状态生成一

结果,某些算法还会生成多种类型的结果,不必单独使而也用算法。在一个数据挖掘解决方案f,以使用一些算法来 7可 1中研究数据,后使用其他算法,于这些数据预测特定结果。然基参考文献:

个输出神经元,为缺少的或现有的状态生成一个输出神经并元。连续可预测列可生成两个输出神经元:个是针对缺少一

【】晓芳 .据挖掘中决策树算法及其应用[.工自动化, 1黄数 J兵]2 o 2 2) 3— 6 0 5,4(: 5 3 .HUANG Xiofn . g rtm fd cso re i aamiig a - gAlo h o e iin t n d t nn a i e

的或现有的状态的神经元 .个是针对连续列本身的值的神一经元。果通过检查可预测列集生成了 5 0个以上的输出神如 o经元,则 A M s ev e n yi Sri s将在挖掘模型中生成一个新的网 s c 络,于代表超出部分的输出神经元。用神经网络算法的适用范围是回归任务和分类任务。17 .回归算法

adi p l ai[ ..A tm t n 20,4 2:5 3 . n s pi t nJOI uo a o, 0 5 2 ()3 - 6 ta c o] . i

【】 2邵峰晶.据挖掘原理与算法[ .京:学出版社 2 0 .数 M】北科 09 [】恒贵,文杰,游华 .据挖掘分类算法综述[.型机 3谈王李数 J微 1与应用,0 5(:— . 2 o 2)4 6

T N H n-u,WA G We-e 3 o-u .R v w o A e ggi N nj,1 Y uh a ei f i e c sict na o tm i dt nn[. coo p t l s a o l rh a mii J Mi cm u r& a f i i gi n a g] r ei piain, 0 5 2) 4 6 t Ap l t s 2 o (:— . s c o’

线性回归算法是决策树算法的变体,其中的MI MUM L A _ A E NI E F C S S参数设置为大于或等于算法为挖掘_

模型定型时所用的数据集中的事例总数[1通过以这种方式 5。 - 6设置该参数,法将绝不创建拆分,而执行线性回归。算

【]罗可,睦纲,东妹 .据挖掘中分类算法综述[.算 4林郗数 J计]机工程, 0 5 1:— O 1 . 2 o ( ) 8 1, 6L , I - a g, n - i ve o ls i c t n UO Ke L N Mu g n XIDo g me. iw fca s ai Re i f o

可以使用线性回归确定两个连续列之间的关系,关系此采用的表示形式是最能代表数据序列的线的公式。例如, 以下关系图中的线是数据最可能的线性表示形式。

l rh tmi g[. a oi msn a nn JC mp t nier g2 0 () g t id a i 1 o ue E g e n,0 5 1: r n i8 0. 6—1 1 .’

[】正喜 .于 C M的数据挖掘应用研究【 . 5石基 R J商场现代化,】2 0 1:9 9 . 0 5(0) 8— OS h n - i Ap l ai n a o td t nn a e i CR HIZ e g x . p i t b u a mi i g b s d Ol c o a M枷鸹

[. re M d ri t n 20 (0:9 9 . JMakt o enz i,0 5 1 )8 - 0】 ao[】海燕,思方, 6王周曾德华 .据挖掘技术在客户管理中的数应用研究[.子设计工程。09 5:9 7 . J电】 2 0 ( )6— 0W ANG Ha- a i h,Z y HOU S - n i a g,Z NG— u . p l ai n f E De h a A p i t c o r s a c f d t mn e h oo y i u tme n g me t e e r h o aa mi g t c n lg n c so r ma a e n输入变量

[. lc o i D s nE g er g 20 ( )6 - 0 J Eet nc ei ni e n,0 9 5:9 7 .] r g n i 【】秀娟, J,欣 .据挖掘分类技术研究与分析【.代 7李田 1冯数 1 J现】电子技术 .0 02 ) 6 8 . 2 1 (0:— 8 8

图 3回归算法实例F g 3 Re r s i n a g rt m n tn e i. g e so l o i h i sa c

表示此关系图中的线的公式采用了 Y=O X+b这个一

1 Xi- a, TA C u n F N Xn R sac o 3 uj n u IN ha, E G i. eerh n

形式,公式称为回归公式。变量 y表示输出变量,示该表输入变量, a和 b是可调整系数。关系图中的每个数据点都

c sict n t h o g i dt mnn[. M d l s a o e n l y n a a f i i c o a ii g J】 oe mE et nc e h iu, 0 0 2 ) 8— 8 lcr isT c nq e 2 1 ( 0: 6 8 . o

-

92 -

本文来源:https://www.bwwdw.com/article/wfs1.html

Top