SQL Server 数据挖掘算法应用实例

更新时间:2024-01-30 09:06:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

SQL Server数据挖掘算法及应用实例

一、算法概述

SQL Server 2005 中AnalysisServices包括了以下算法类型:

分类算法:基于数据集中的其他属性预测一个或多个离散变量。分类算法的一个示例是Microsoft决策树算法。

回归算法:基于数据集中的其他属性预测一个或多个连续变量,如利润或亏损。回归算法的一个示例是Microsoft时序算法。

分割算法:将数据划分为组或分类,这些组或分类的项具有相似属性。分割算法的一个示例是Microsoft聚类分析算法。

关联算法:查找数据集中的不同属性之间的相关性。这类算法最常见的应用是创建可用于市场篮分析的关联规则。关联算法的一个示例是Microsoft关联算法。

顺序分析算法:汇总数据中的常见顺序或事件,如Web路径流。顺序分析算法的一个示例是Microsoft顺序分析和聚类分析算法。

应用算法:

为特定的业务任务选择正确的算法很重要,可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。

算法不必独立使用,在一个数据挖掘解决方案中可以使用一些算法来探析数据,而使用其他算法基于该数据预测特定结果。例如,可以使用聚类分析算法来识别模式,将数据细分成多少有点相似的组,然后使用分组结果来创建更好的决策数模型。可以在一个解决方案中使用多个算法来执行不同的任务,例如,使用回归树算法来获取财务预测信息,使用基于规则的算法来执行市场篮分析。

下表给出了可为特定的任务使用哪些算法的建议。 任务 可使用的Microsoft算法 Microsoft决策树算法 预测离散属性。例如,预测目标邮件活动的收件人是否会购买某个产品。 MicrosoftNaiveBayes算法 Microsoft聚类分析算法 Microsoft神经网络算法(SSAS) Microsoft决策树算法 Microsoft时序算法 Microsoft顺序分析和聚类分析算法预测连续属性。例如,预测下一年的销量。 预测顺序。例如,执行公司网站的点击流分析。 查找交易中的常见项的组。例如,使用市场篮分析来建议客户购买其他产品。 Microsoft关联算法 Microsoft决策树算法 Microsoft聚类分析算法 Microsoft顺序分析和聚类分析算法 查找相似项的组。例如,将人口统计数据分割为组以便更好地理解属性之间的关系。 二、算法应用实例

2.1 分类算法及应用实例

2.1.1 实例背景

AdventureWorks为一自行车销售公司,主营各种类自行车及相关配件的生产、销售。其市场部希望通过向特定客户发送邮件的方式来提高销售量。公司希望通过调查已知客户的特性来找到可应用于潜在客户的模式。公司希望使用已发现的模式来预测哪些潜在客户最有可能购买自己的产品。

此外,市场部还希望在公司数据库的现有客户当中发现所有逻辑分组,例如具有相似的人数统计标准和购买模式的客户。

公司的数据库AdventureWorksDW中包含一个现有客户列表和一个潜在的新客户列表。 在实例中,将创建一个目标邮件方案。完成本实例中的任务之后,您便会具有:

(1)一组挖掘模型,这些模型能够提供潜在客户列表中最有可能购买产品的客户的建议。 (2)当前客户的聚类分析。

本例中的分类算法采用决策树算法、聚类算法、朴素贝叶斯算法三种算法,并通过算法准确度比较,选取准确性最高的算法用于预测潜在客户。

2.1.2 分类算法 2.1.2.1决策树算法

Microsoft决策树算法是一种适合预测性建模的分类算法。该算法支持离散属性和连续属性的预测。对于离散属性,该算法根据数据集中输入列之间的关系进行预测。它使用这些列的值或状态预测指定的可预测列的状态。具体地说,该算法标识与可预测列相关的输入列。例如,在预测哪些客户可能购买自行车的方案中,假如在十名年轻客户中有九名购买了自行车,但在十名年龄较大的客户中只有两名购买了自行车,则该算法从中推断出年龄是自行车购买情况的最佳预测因子。决策树根据朝向特定结果发展的趋势进行预测。

对于连续属性,该算法使用线性回归确定决策树的拆分位置。

如果有多个列设置为可预测列,或输入数据包含设置为可预测的嵌套表,则该算法将为每个可预测列分别生成一个决策树。算法的原理及使用详见附录1。

2.1.2.2聚类算法

Microsoft聚类分析算法运用迭代技术将来自数据集的记录分成多个分类,其中每个分类包含类似的特征。在浏览数据、标识数据中的异常及创建预测时,这些分组十分有用。

聚类分析模型标识数据集中可能无法通过随意观察在逻辑上得出的关系。聚类分析算法不同于 Microsoft 决策树算法等其他数据挖掘算法,区别在于无需指定可预测列便能生成聚类分析模型。聚类分析算法严格地根据数据以及该算法所标识的分类中存在的关系定型。算法的原理及使用详见附录2。

2.1.2.3贝叶斯算法

MicrosoftNa?veBayes算法是一种可以快速生成并且适合预测性建模的分类算法。该算法仅支持离散属性或离散化属性。而且在给定可预测属性的情况下,它将所有输入属性都当作独立属性。

该算法在假定列互不相关的前提下计算输入列和可预测列之间的条件概率。该算法的名称 Naive Bayes 即由这一无关性假定而来,因为基于这种理想化的假定,该算法未将可能存在的依赖关系考虑在内。

与其他 Microsoft 算法相比,该算法所需的运算量小,因而能够快速生成挖掘模型,以发现输入列和可预测列之间的关系。可以使用该算法进行初始数据探测,然后根据该算法的结果使用其他运算量较大、更加精确的算法创建其他挖掘模型。算法的原理及使用详见附录3。

2.1.3实例应用 2.1.3.1 数据源

此例我们选择AdventureWorks公司的AdventureWorksDW数据库中的数据,具体为其中一个现有客户列表和一个潜在的新客户列表。我们通过对现有客户列表数据进行算法应用建模,并预测潜在客户列表中的潜在客户。我们将现在客户列表命名为目标邮件表。

现有客户列表(vTargetMail)所包括的列如下所示。

图1. 现有客户列表

潜在客户表(ProspectiveBuyer)所包括的列如下所示。

图2. 潜在客户列表

在SSAS中创建完本例的数据源及数据源视图后,进行数据挖掘。

2.1.3.2 数据挖掘

1.决策树挖掘

在本例中,首先选择决策树挖掘算法,以vTargetMail为事例表,以CustomerKey列为键列,以BikeBuyer列为输入和可预测列。为分析其他因素与购车者间的关系,以如下列为输入列:

Age

CommuteDistance EnglishEducation EnglishOccupation FirstName Gender GeographyKey HouseOwnerFlag LastName

MaritalStatus NumberCarsOwned NumberChildrenAtHome Region TotalChildren YearlyIncome

在确定好数据的内容类型和数据类型后,进行决策树算法的挖掘。结果如下: (1)决策树

图3. 决策树结果示例

通过更改“背景”为1,可以迅速查看每个节点中现有数目为1的BikeBuyer事例。节点的底纹颜色越深,表示节点中的事例越多。

如图上所示,在全部因素中,与客户购车关系最大的为“车辆拥有量”这一项目,且更主要的关系是直方图中红色条条占比较大的“Number Cars Owned=0”这一项。在这一因素下,年龄是第二关键的因素,且这一因素中更主要的关系是“Age<50”这一项。依次可以找出树中所需相关信息。

(2)依赖关系网络

“依赖关系网络”选项卡可以显示决定挖掘模型预测能力的各个属性之间的关系。 依赖关系网络的中间节点(BikeBuyer)表示挖掘模型中的可预测属性。周围的每个节点各表示一个会影响可预测属性的结果的属性。可使用该选项卡左侧的滑块控制显示的链接的强度。向下移动滑块时,仅显示最强链接。

单击网络中的单个节点,然后参考选项卡底部的颜色图例,可查看所选节点预测哪些节点,它本身又是由哪些节点预测的。

图4. 依赖关系网络结果示例

2.聚类挖掘

在以上已建好的挖掘结构基础上,添加聚类挖掘模型,进行聚类算法的挖掘。结果如下: (1)分类关系图

使用“分类关系图”选项卡,可以浏览算法发现的分类之间的关系。分类之间的线条表示“接近程度”,其明暗度取决于分类之间的相似程度。每个分类的实际颜色表示分类中变量和状态的出现频率。可以在节点顶部的“明暗度变量”和“状态”框中选择变量和状态。如将明暗度变量设为Bike Buyer,状态设为1,则可以看到“分类3”中的自行车购买者比例最高,为63%,因此可为分类3命名为“高购车类组”。

图5. 分类关系图结果示例

通过使用网络左侧的滑块,可筛选掉强度较低的链接,找出具有最接近关系的分类。如上图中分类3中自行车购买者的密度最高,分类4与分类2之间的关系最接近。

(2)分类剖面图

“分类剖面图”选项卡提供TM_Clustering模型的总体视图。在查看器中可以看到,在“分类剖面图”选项卡中,模型中每个分类都有一个对应的列。第一列列出至少与一个分类关联的属性。查看器的其余部分包含每个分类的某个属性的状态分布。离散变量的分布以彩色条显示,最

大条数在“直方图条”列表中显示。连续属性以菱形图显示,表示每个分类中的平均偏差和标准偏差。

图6. 分类剖面图结果示例

(3)分类特征

使用“分类特征”选项卡,可以更加详细地检查组成分类的特征。例如,在本方案中使用“分类”列表显示分类1,则可看到此分类中过去已购买自行车的客户常常具有下列特征:他们的上下班距离仅为0到1英里,没有汽车并且已婚。

图7. 分类特征结果示例

(4)分类对比

使用“分类对比”选项卡,可以浏览区分分类的特征。从“分类1”和“分类2”框中选择两个分类后,查看器会确定相应分类之间的区别,并按各分类最独特的属性排序显示。

例如,将TM_Clustering中的分类3与分类6比较。分类3包含的自行车购买者的密度最高,分类6包含的自行车购买者的密度最低。分类6中的人一般来自北美且更年轻,年龄在34岁到41岁之间;而分类3中的人年龄在42岁以上,已婚,一般来自欧洲且通勤距离较短,在2到5英里之间。

图8. 分类对比结果示例

3.Bayes挖掘 (1)依赖关系网络

“依赖关系网络”选项卡的功能与Microsoft树查看器的“依赖关系网络”选项卡的功能相同。查看器中的每个节点代表一个属性,而节点之间的线条代表关系。在查看器中,您可以查看影响可预测属性(BikeBuyer)的状态的所有属性。

向下滑动滑块时,将只显示对BikeBuyer列影响最大的属性。通过调整滑块,可以发现拥有的汽车数是决定某个人是否购买自行车的最主要因素。

图9. 依赖关系网络结果示例

(2)属性配置文件

“属性配置文件”选项卡说明输入参数的不同状态对可预测属性结果的影响。

在“可预测”框中,确保已选中BikeBuyer。系统在列出影响该可预测属性状态的属性的同时,还列出每个输入属性状态的值及其在可预测属性的每个状态中的分布。

图10. 属性配置文件结果示例

(3)属性特征

使用“属性特征”选项卡,可以选择属性和值,以确定所选值事例中出现其他属性值的频率。 在“属性”列表中,确保已选中BikeBuyer,并在“值”列表中选择1。在查看器中,您将看到,购买自行车的大都是通勤距离在零到一英里之间的人以及居住在北美地区的人。

图11. 属性特征结果示例

(4)属性对比

使用“属性对比”选项卡,可以查看所选可预测属性的两个离散值与其他属性值之间的关系。在本例中,属性框选择Bike Buyer,值1选择1,值2选择0,在查看器中可以看到,没有汽车的人一般会购买自行车,而有两辆汽车的人一般不会购买自行车。

图12. 属性对比结果示例

2.1.3.3 测试挖掘结果的准确性

在上述实例中,应用了三种算法进行自行车购买者的分类,但是结果却不尽相同,因此需要对三种挖掘结果进行预测测试,选出性能最好的挖掘模型并用于后续潜在客户的预测。

在数据挖掘设计器的“挖掘准确性图表”选项卡上,可以计算每个模型的预测精度,还可以将每个模型的结果直接与其他模型的结果进行比较。这种比较方法称为“提升图”。“挖掘准确性图表”选项卡使用输入数据(这些数据与原始的数据集分离)将预测与已知结果进行比较。然后将比较的结果进行排序并绘制成图。同时还要在该图上绘制一个理想的模型,即始终都能准确预测结果的理论模型。可以将实际模型的结果与理想模型的结果进行比较,以查看这些模型的预测准确性。

提升图可以区分同一结构中几乎相同的两个模型,从而确定哪个模型能够提供最佳的预测,因此提升图非常重要。同样,提升图还能显示哪种类型的算法可在特殊情况下执行最佳预测。

在“挖掘准确性图表”的“列映射”选项卡中选择本例中的挖掘结构“Targeted Mailing”,选择用于预测的数据做为输入表,系统自动建立好映射关系后,忽略筛选输入行,将预测设为自行车购买者为1,如下图所示。

图13. 建立挖掘模型与预测输入数据间的关系

经过如上步骤后,在“提升图“选项卡上查询预测结果。

图14. 指定预测状态的提升图结果示例

在自行车购买者预测实例中,当向经过数据挖掘后的客户总体的50%进行产品推销时,预测模型在理想情况下可以保证这50%的客户均会购车,即产品推销达到了100%,即上图中的红色线所示;而如果随机的向客户总体的50%进行产品推销时,则仅有这50%客户中的50%会购车(由购车概率为50%决定),即图中的蓝色线所示。而在这两条线中间的,全部视为提升。如图中分数最高的绿色线为决策树模型,即预测准确度最高。图例中的“预测概率”表示“显示每个概率要捕获显示的目标总体所需的概率分数”。

在创建提升图时,可以特定值作为目标并且仅为该结果测量提升;或者,您可以创建为所有可能的结果测量提升的模型的一般评估。如以下图所示。

图15. 未指定预测状态的提升图结果示例

2.1.3.4 基于所选模型进行预测

由上一节测试挖掘模型的结果来看,决策树在本例中性能好一些,因此在数据挖掘设计器“挖掘模型预测”选项卡的“挖掘模型”中,选择决策树挖掘模型,选择数据库中的潜在客户列表作为输入,自动建立映射后进行预测结果查询。如下图所示。

图16. 建立映射关系及预测设置

进行查询后,结果如下。

图17. 预测查询结果示例

即全部2054个潜在客户中,有1041位用户有较大可能购车,因此可重点向这些用户进行产品推销。

2.2 时序算法及应用实例

2.2.1 实例背景

作为AdventureWorks的销售分析人员,经常需要对下一年各个型号自行车的销售量做出预测。特别是,常常需要对自行车销售量的高峰期做出预测,并且需要了解旺销或滞销与区域的关系。此外,还要求分析人员确定不同型号自行车的销售量在一年中是否随着时间的变化而变化。

为了找到所需的信息,在本课程中您将按月调查公司的数据,并将销售区分为三个区域:欧洲、北美洲以及太平洋地区。

完成本课程中的任务之后,您便能回答下列问题: (1)一年中的销售旺季是什么时候?

(2)不同型号自行车的销售量在一段时期内是如何相互影响的? (3)对于上述三个区域,是否存在一种销售模式? 若要完成本课程中的任务,需要了解Microsoft时序算法

2.2.2时序算法

Microsoft 时序算法是 Microsoft SQL Server 2005 Analysis Services (SSAS) 提供的回归算法,用于创建数据挖掘模型以便对预测方案中的连续列(如产品销售额)进行预测。其他 Microsoft 算法通过创建依赖于输入列的模型(如决策树模型)来预测可预测列,而时序模型的预测则仅依赖于算法在创建模型时从原始数据集派生的趋势。 以下关系图显示了一个典型的用于预测各个时间销售额的模型。

图中所示的模型由两部分组成:图形左侧的历史信息和图形右侧的预测信息。 历史数据表示算法用来创建模型的信息,而预测数据表示模型所做的预测。 历史数据和预测数据组合而形成的线称作一个“系列”。每个预测模型必须包含一个事例序列,事例序列是区分序列列中不同点的列。例如,因为关系图中的数据显示了几个月中自行车的历史和预测销售额序列,因此日期列为事例序列。

Microsoft 时序算法的一个重要功能就是可以执行交叉预测。也就是说,如果使用两个独立但相关的序列为该算法定型,就可以使用得到的模型根据其他序列的行为预测一个序列的结果。 例如,一个产品的实际销售额可能会影响另一个产品的预测销售额。

2.2.3 实例应用 2.2.3.1 数据源

此例我们选择AdventureWorks公司的AdventureWorksDW数据库中的数据,具体为其中的自行车销售历史数据vTimeSeries表。所包括的列如下所示。

图18. 自行车历史销售数据

在SSAS中创建完本例的数据源及数据源视图后,进行数据挖掘。

2.2.3.2 数据挖掘

在本例中,选择时序挖掘算法,以vTimeSeries为事例表,以TimeIndex列和

ModelRegion列为键列,以Amount列和Quantity列为输入和可预测列。在“指定列的内容和数据类型”页中,TimeIndex列自动指定为KeyTime列,ModelRegion列指定为键列。这表示将为ModelRegion列的每个唯一条目建立独立的时序模型。TimeIndex列中的值在ModelRegion列的所有值中必须是唯一的。

选择M200型号自行车在欧洲、北美和太平洋三个区域的销售数据进行预测,如下图所示。

图19. 时序预测结果示例

可通过调整预测步骤来查看不同时段的预测值。 现在根据预测结果来回答实例背景中提到的三个问题。

(1)一年中的销售旺季是什么时候? 销售旺季一般为每年的11月份

(2)不同型号自行车的销售量在一段时期内是如何相互影响的? 不同型号的自行车在同一时段有的为促进关系,有的为抑制关系。 (3)对于上述三个区域,是否存在一种销售模式?

以M200型号的自行车为例,欧洲和北美市场销售模式相似,但与太平洋市场差异较大,不同采用同一种销售模式。

2.3 关联算法及应用实例

2.3.1 实例背景

Adventure Works 的市场部希望改进公司的网站以促进越区销售。在更新网站之前,需要根据客户的在线购物篮中已有的其他产品创建一个可预测客户购买需求的数据挖掘模型。这些预测还有助于市场部将可能被集中购买的项统一放置在网站的一个位置上。

完成本实例中的任务后,会获得一个挖掘模型,该模型可预测可能出现在购物篮中的其他项或客户想要放入购物篮的项。而且,还会获得一个可显示客户历史交易中的项组的完整挖掘模型。

2.3.2关联算法

Microsoft 关联算法是指 Microsoft SQL Server 2005 Analysis Services (SSAS) 提供的关联算法,对建议引擎非常有用。建议引擎根据客户已购买的项或者客户已对其表现出兴趣的项向他们推荐产品。Microsoft 关联算法对市场篮分析也非常有用。

关联模型基于包含各事例的标识符及各事例所包含项的标识符的数据集生成。事例中的一组项称为“项集”。关联模型由事例中一系列项集和说明这些项如何分组的规则组成。算法标识的规则可用于根据客户购物车中已有的项来预测客户将来可能购买的产品。

2.3.3 实例应用 2.3.3.1 数据源

此例我们选择AdventureWorks公司的AdventureWorksDW数据库中的数据,具体为其中的自行车订单客户信息表(vAssocSeqOrders)和自行车订单商品表(vAssocSeqLineItems)。所包括的列如下所示。

图20. 自行车订单客户信息表

图21. 自行车订单商品表

在SSAS中创建完本例的数据源后,在创建数据源视图过程中,由于上述两个表间并没有建立联系,因此还需选中vAssocSeqLineItems表中的OrderNumber列并将该列拖到

vAssocSeqOrders表中的OrderNumber列上,在vAssocSeqOrders和vAssocSeqLineItems表之间创建新的多对一关系。具有这种关系之后,便可使vAssocSeqLineItems成为vAssocSeqOrders的嵌套表,以用于创建模型,进行数据挖掘。

2.3.3.2 数据挖掘

在本例中,选择关联挖掘算法,以vAssocSeqOrders为事例表,以vAssocSeqLineItems为嵌套表,以OrderNumber

列和Model列为键列,以Model列为输入和可预测列。

在模型参数设置里将MINIMUM_PROBABILITY设为0.1,将MINIMUM_SUPPORT设为0.01。

本例进行关联算法数据挖掘后,得到如下如果。 (1)项集

图22. 项集结果示例

“项集”选项卡显示与 Microsoft 关联算法发现的项集相关的三种重要信息:支持度(发生项集的事务的数量)、大小(项集中项的数量)以及项集的实际构成。 根据算法参数的设置方式,算法可以生成大量的项集。

可以使用“筛选项集”框来筛选查看器中显示的项集。 例如,若要仅查看包含有关 Mountain-200 自行车信息的项集,可在“筛选项集”中输入Mountain-200。 您将在查看器中看到,只有包含“Mountain-200”字样的项集被显示。 查看器中返回的每个项集都包含有关销售 Mountain-200 自行车事务的信息。 例如,在“支持度”列中包含值 710 的项集表示:在所有事务中,710 个购买 Mountain-200 自行车的人也购买了 Sport-100 自行车。 (2)规则

图23. 项集筛选结果示例

“规则”选项卡显示与算法发现的规则相关的以下信息。 1)概率:规则发生的可能性。

2)重要性:用于度量规则的有用性,值越高则意味着规则越有用。只看概率可能会产生误解。例如,如果每个事务都包含一个 x 项,规则 y 预测 x 发生的概率为1,即 x 一定会发生。 即使规则的准确性很高,但这并未传达很多信息,因为不管 y 如何,每个事务都会包含 x。

3)规则:规则的定义。

可以筛选规则,以便仅显示最关心的规则。例如,如果只想查看包含 Mountain-200 自行车的规则,可在“筛选规则”框中输入 Mountain-200。 查看器将仅显示包含“Mountain-200”字样的规则。每条规则都可以根据事务中其他项的发生情况来预测某个项的发生情况。 例如,由第一个规则可知:如果一个人购买了 Mountain-200 自行车和水壶,则此人还会购买 Mountain 水壶套的概率为 1。

图24. 规划结果示例

(3)依赖关系网络

使用“相关性网络”选项卡,可以研究模型中不同项的交互。查看器中的每个节点表示一个项;例如,Mountain-200 = Existing 节点表示事务中存在 Mountain-200。 通过选择节点,可以使用选项卡底部的彩色图例来确定模型中的项与其他的项的相互确定关系。

滑块与规则的概率关联。 上下移动滑块可以筛选出弱关联。 例如,在“显示”框中,选择“仅显示属性名称”,再单击Mountain Bottle Cage节点。 查看器显示,Mountain 水壶套预测了水壶和 Mountain-200 自行车,而水壶和 Mountain-200 自行车也预测了 Mountain 水壶套。 这意味着,这些项有可能同时在事务中出现。 也就是说,如果某个客户购买了自行车,则他也可能会购买水壶套和水壶。

图25. 依赖关系网络结果示例

2.4顺序分析和聚类分析算法及应用实例

2.4.1 实例背景

AdventureWorks的市场部需要查看客户浏览AdventureWorks网站的方式。公司认为存在一个顺序模式,客户以这种模式将产品放入其购物篮中。通过使用Microsoft顺序分析和聚类分析算法,可以找到客户将项放入购物篮的顺序。然后可使用上述信息简化网站的流程,这样便可引导客户购买更多的产品。

通过完成本实例中的任务,可获得一个挖掘模型,该模型可预测客户将放入其购物篮中的下一个项。

2.4.2顺序分析和聚类分析算法

可以使用Microsoft 顺序分析和聚类分析算法来研究包含可通过下面的路径或“顺序”链接到的事件的数据。该算法通过将相同的顺序分到一组或一类中来查找最常见的顺序。这些顺序可以采取多种格式,包括:

用来说明用户浏览网站时的点击路径的数据。

用来说明客户将商品添加到在线零售商的购物车中的顺序的数据。

该算法类似于Microsoft 聚类分析算法。不过,Microsoft 顺序分析和聚类分析算法不是查找包含类似属性的事例的分类,而是查找顺序中包含类似路径的事例的分类。

该算法创建的挖掘模型在数据中包含了最常见顺序的说明。您可以使用这些说明来预测新顺序的下一个可能步骤。在对记录进行分类时,该算法还在数据中对与顺序没有直接关系的列进行了说明。因为该算法包括了非相关列,所以您可以使用得到的模型来识别顺序数据和没有出现在顺序中的数据之间的关系。

2.4.3 实例应用 2.4.3.1 数据源

此例我们选择与关联算法实例相同的数据源,不过此例更关注的是订单的顺序跟踪。同样以vAssocSeqOrders为事例表,以vAssocSeqLineItems为嵌套表建立数据源视图,进行数据挖掘。

2.4.3.2 数据挖掘

在本例中,选择顺序分析和聚类分析挖掘算法,以vAssocSeqOrders为事例表,以vAssocSeqLineItems为嵌套表,以OrderNumber列为键列,以LineNumber列为键列和输入列(LineNumber字段将用作嵌套表的标识符,也就是 Sequence Key。必须始终将嵌套表的键用于输入),Model列为输入和可预测列。

本例进行顺序分析和聚类分析算法数据挖掘后,得到如下结果。 (1)分类关系图

此示例和聚类算法挖掘结果示例一致,详情见图5所示。 (2)分类剖面图

此示例和聚类算法挖掘结果示例一致,详情见图6所示。 (3)分类特征

“分类特征”选项卡汇总了分类中各状态间的转换,具体的方法是显示一些以可视化方式表示所选分类的属性值重要性的彩色条。“变量”列指示哪个模型对所选的分类或 Population 非常重要:可能是一个特定值,也可能是几个值之间的关系,称为“转换”。 “值”列提供关于值或转换的更详细信息,“概率”列直观地表示此属性或转换的权重。

1. 仔细查看分类的特征列表,直至找到第一个转换行。

2. 转换行的“变量”列包含了“Transition”文本,“值”列则包含一些序列属性值的组

合。该序列也可以包含起点和缺少值。

例如,假定转换的值为 [Start] -> Road Tire Tube。这意味着此分类中的客户通常首先将 Road Tire Tube 放入购物篮中。这可能表示该产品是客户首先挑选出的受欢迎商品,或者只表示该产品在购物场所容易找到。

3. 滚动浏览该列表,直至找到第一个没有 [Start] 或 missing 的转换。

例如,假定您找到了转换 Touring Tire, Touring Tire Tube。这意味着此分类中的客户通常将这些项一起放入购物篮中,而且是严格按照这个顺序放入。 4. 将鼠标悬停在此转换的阴影条上。此转换的概率以百分比显示。

图26. 分类特征结果示例

(4)分类对比

此示例和聚类算法挖掘结果示例一致,详情见图8所示。 (5)状态转换

在“状态转换”选项卡上,可以选择分类并浏览其状态转换。图中的每个节点都表示一个状态,或试图分析的序列的可能值。节点的背景色表示该状态的频率。一些状态之间用线条连接,指示这些状态之间的转换。可以上下移动滑块,以更改转换的概率阈值。数字与某些节点相关联,指示该状态的概率。

图27. 状态转换结果示例

2.4.3.3 使用嵌套表输入创建大量预测查询

现在,将创建一个映射到外部数据源的预测查询。该数据源将提供表示当前产品的值。您希望创建一个预测查询,以将客户 ID 和产品列表作为输入,因此需要将客户表添加为事例表,将采购表添加为嵌套表。然后像前面那样,您将添加预测函数创建建议。

这与2.1.3.4创建预测使用的是同一过程;不过,在顺序分析和聚类分析模型预测中还需要将顺序作为输入。步骤如下:

1. 在“挖掘模型”窗格中选择Sequence Clustering模型。

2. 在“选择输入表”的“选择事例表”选择 vAssocSeqOrders;“选择嵌套表选择

vAssocSeqLineItems。

3. 为“源”选择 vAssocSeqOrders,为“字段”选择 CustomerKey。

4. 为“源”选择“预测函数”,为“字段”选择PredictSequence,并在“条件/参数”

框中输入:[Sequence Clustering].[v AssocSeq Line Items],2 完成上述设置后在“结果”按钮中查看对每个客户的预测。如下图所示。

图28. 预测结果示例

2.5 神经网络和逻辑回归算法及应用实例

2.5.1 实例背景

Adventure Works 业务部门正在开展旨在提高客户对呼叫中心满意度的计划。他们雇用了一位供应商来管理呼叫中心并报告有关呼叫中心工作效率的指标,同时分析该供应商提供的一些初步数据。他们想知道是否会有任何值得关注的发现。特别是,他们想知道这些数据是否间接显示了人员配备的任何问题或改进客户满意度的方式。

该数据集很小,只包括 30 天内呼叫中心的运转情况。数据跟踪每个班次的操作员新手和有经验操作员的人数、来电数、订单数以及必须解决的问题数、客户等待某人回电话的平均时间。数据还包含基于“挂断率”的服务质量指标,它反映客户不满意的程度。

因为您事先对将显示的数据没有任何期望,您决定使用神经网络模型来探查可能的相关性。神经网络模型通常用于探查,因为该模型能够分析多个输入和输出之间的复杂关系。

在本实例中,将使用神经网络算法生成一个模型,可以用来理解数据中的趋势。并尝试回答下列问题:

哪些因素会影响客户满意度? 呼叫中心如何能够改进服务质量?

2.5.2 神经网络和逻辑回归算法

Microsoft逻辑回归算法是一种适合回归建模的回归算法。该算法是Microsoft神经网络算法的一种,是通过消除隐藏层获得的。该算法支持对离散属性和连续属性进行预测。

Microsoft神经网络算法使用梯度法来优化多层网络的参数,以预测多个属性。它可以用于离散属性的分类和连续属性的回归。

Microsoft线性回归算法是一种适合回归建模的回归算法。该算法是Microsoft决策树算法的一种,是通过禁用拆分(整个回归公式放在单个根节点中)获得的。该算法支持对连续属性进行预测。

附录1:决策树算法

1.算法原理

Microsoft决策树通过在树中创建一系列拆分(也称为节点)来生成数据挖掘模型。每当发现输入列与可预测列密切相关时,算法便会向该模型中添加一个节点。该算法确定拆分的方式不同,主要取决于它预测的是连续列还是离散列。

(1)预测离散列

通过柱状图可以演示Microsoft决策树算法为可预测的离散列生成树的方式。下面的关系图显示了一个根据输入列Age绘出可预测列BikeBuyers的柱状图。该柱状图显示了客户的年龄可帮助判断该客户是否将会购买自行车。

该关系图中显示的关联将会使Microsoft决策树算法在模型中创建一个新节点。

随着算法不断向模型中添加新节点,便形成了树结构。该树的顶端节点描述了客户总体可预测列的分解。随着模型的不断增大,该算法将考虑所有列。

(2)预测连续列

当Microsoft决策树算法根据可预测的连续列生成树时,每个节点都包含一个回归公式。拆分出现在回归公式的每个非线性点处。例如,请看下面的关系图。

该关系图包含可通过使用一条或两条连线建模的数据。不过,一条连线将使得模型表示数据的效果较差。相反,如果使用两条连线,则模型可以更精确地逼近数据。两条连线的相交点是非线性点,并且是决策树模型中的节点将拆分的点。例如,与上图中的非线性点相对应的节点可以由以下关系图表示。两个等式表示两条连线的回归等式。

2.使用算法

决策树模型必须包含一个键列、若干输入列和一个可预测列。

Microsoft决策树算法支持特定的输入列内容类型、可预测列内容类型和建模标志,如下表所示。

输入列内容类型 可预测列内容类型 建模标志 Continuous、Cyclical、Discrete、Discretized、Key、Table和Ordered Continuous、Cyclical、Discrete、Discretized、Table和Ordered MODEL_EXISTENCE_ONLY、NOTNULL和REGRESSOR 所有Microsoft算法均支持一些通用的函数。但Microsoft决策树算法还支持其他函数,如下表所示。

IsDescendantIsInNodePredictNodeIdPredictProbabilityPredictAdjustedProbabilityPredictAssociationPredictHistogramPredictStdevPredictSupportPredictVarianceMicrosoft决策树算法支持使用预测模型标记语言(PMML)创建挖掘模型。

Microsoft决策树算法支持多个参数,这些参数会对所生成的挖掘模型的性能和准确性产生影响。下表对各参数进行了说明: 参数 说明 定义算法在调用功能选择之前可以处理的输入属性数。如果将此值设置为0,则表示关闭功能选择。 默认值为255。 MAXIMUM_INPUT_ATTRIBUTES MAXIMUM_OUTPUT_ATTRIBUTES 定义算法在调用功能选择之前可以处理的输出属性数。如果将此值设置为0,则表示关闭功能选择。 默认值为255。 SCORE_METHOD 确定用于计算拆分分数的方法。可选方法有:Entropy(1)、BayesianwithK2Prior(2)或BayesianDirichletEquivalent(BDE)Prior(3)。 默认值为3。 SPLIT_METHOD 确定用于拆分节点的方法。可选方法有:Binary(1)、Complete(2)或两者(3)。 默认值为3。 MINIMUM_SUPPORT 确定在决策树中生成拆分所需的叶事例的最少数量。 默认值为10。 COMPLEXITY_PENALTY 控制决策树的增长。该值较低时,会增加拆分数;该值较高时,会减少拆分数。默认值基于特定模型的属性数,详见以下列表: ? ? ? 对于1到9个属性,默认值为0.5。 对于10到99个属性,默认值为0.9。 对于100或更多个属性,默认值为0.99。 FORCED_REGRESSOR 强制算法将指示的列用作回归量,而不考虑算法为这些列计算出的重要性。此参数只用于预测连续属性的决策树。 附录2:聚类算法

1.算法原理

Microsoft 聚类分析算法首先标识数据集中的关系并根据这些关系生成一系列分类。散点图是一种非常有用的方法,可以直观地表示算法如何对数据进行分组,如下面的关系图所示。散点图可以表示数据集中的所有事例,在该图中每个事例就是一个点。分类对该图中的点进行分组并阐释该算法所标识的关系。

在最初定义分类后,算法将通过计算确定分类表示点分组情况的适合程度,然后尝试重新定义这些分组以创建可以更好地表示数据的分类。该算法将循环执行此过程,直到它不能再通过重新定义分类来改进结果为止。

Microsoft 聚类分析算法提供下列两种方法来计算点在分类中的适合程度:Expectation Maximization (EM) 和 K-Means。对于 EM 聚类分析,该算法使用一种统计方法来确定分类中存在数据点的概率。对于 K-Means,该算法使用距离度量值将数据点分配给其最接近的分类。

生成分类时不使用其用法设置为只预测的列。在生成分类后,将计算这些列在分类中的分布。

2.使用算法

聚类分析模型必须包含一个键列和若干输入列。还可以将输入列定义为可预测列。 该算法支持特定输入列内容类型、可预测列内容类型和建模标志,如下表所示。 输入列内容类型 可预测列内容类型 建模标志 MODEL_EXISTENCE_ONLY 和 NOT NULL Continuous、Cyclical、Discrete、Discretized、Key、Table 和 Ordered Continuous、Cyclical、Discrete、Discretized、Table 和 Ordered 所有 Microsoft 算法均支持一些通用的函数。但是,Microsoft 聚类分析算法还支持下表中列出的其他函数。 ClusterPredictCaseLikelihoodPredictNodeIdClusterProbabilityIsDescendantIsInNodePredictProbabilityPredictStdevPredictAdjustedProbabilityPredictAssociationPredictSupportPredictVariancePredictHistogram Microsoft 聚类分析算法支持使用预测模型标记语言 (PMML) 创建挖掘模型。 Microsoft 聚类分析算法支持多个参数,这些参数会对所生成的挖掘模型的性能和准确性产生影响。下表对各参数进行了说明: 参数 说明 指定算法要使用的聚类分析方法。有下列聚类分析方法可用:scalable EM (1)、non-scalable EM (2)、scalable K-Means (3) 和 non-scalable K-Means (4)。 默认值为 1。 CLUSTERING_METHOD CLUSTER_COUNT 指定将由算法生成的大致分类数。如果无法基于相应的数据生成该大致数目的分类,则算法将生成尽可能多的分类。如果将 CLUSTER_COUNT 设置为 0,则算法将使用试探性方法最准确地确定要生成的分类数。 默认值为 10。 CLUSTER_SEED 指定在为建模初始阶段随机生成分类时所要使用的种子数字。 默认值为 0。 MINIMUM_SUPPORT 指定每个分类中的最小事例数。 默认值为 1。 MODELLING_CARDINALITY 指定在聚类分析过程中构建的示例模型数。 默认值为 10。 STOPPING_TOLERANCE 指定一个值,它可确定何时达到收敛而且算法完成建模。当分类概率中的整体变化小于 STOPPING_TOLERANCE 参数与模型大小之比时,即达到收敛。 默认值为 10。 SAMPLE_SIZE 如果 CLUSTERING_METHOD 参数设置为其中一个可缩放聚类分析方法,请指定算法在每个传递中使用的事例数。如果将 SAMPLE_SIZE 参数设置为 0,则会在单个传递中对整个数据集进行聚类分析操作,从而导致内存和性能问题。 默认值为 50000。 MAXIMUM_INPUT_ATTRIBUTES 指定算法在调用功能选择之前可以处理的最大输入属性数。如果将此值设置为 0,则指定不限制输入属性的最大数量。 默认值为 255。 MAXIMUM_STATES 指定算法支持的最大属性状态数。如果属性的状态数大于该最大状态数,算法将使用该属性的最常见状态,同时忽略剩余状态。 默认值为 100。 附录3:Native Bayes算法

1.算法原理

在给定可预测列的各种可能状态的情况下,Microsoft Naive Bayes 算法将计算每个输入列的每种状态的概率。使用 Business Intelligence Development Studio 中的 Microsoft Naive Bayes 查看器可以直观地观察算法分布状态的方式,如下图所示。

Microsoft Naive Bayes 查看器可列出数据集中的每个输入列。如果提供了可预测列的每种状态,它还会显示每一列中状态的分布情况。可以利用该视图确定在区分可预测列状态中具有重要作用的输入列。例如,在此图的 Commute Distance 列中,通勤距离为一至二英里的客户购买自行车的概率是 0.387,不购买自行车的概率是 0.287。在本示例中,该算法使用从诸如上下班路程之类的客户特征得出的数字信息来预测客户是否会购买自行车。

2.使用算法

Naive Bayes 模型必须包含一个键列、若干输入列以及一个可预测列。所有列都必须是离散列或经过离散化的列。

Microsoft Naive Bayes 算法支持特定输入列内容类型、可预测列内容类型和建模标志,如下表所示。 输入列内容类型 Cyclical、Discrete、Discretized、Key、Table 和 Ordered 可预测列内容类型 Cyclical、Discrete、Discretized、Table 和 Ordered 建模标志 MODEL_EXISTENCE_ONLY 和 NOT NULL 所有 Microsoft 算法均支持一些通用的函数。但是,Microsoft Naive Bayes 算法还支持其他函数,如下表所示。 IsDescendantPredictNodeIdPredictAdjustedProbabilityPredictAssociationPredictHistogramPredictProbabilityPredictSupport Microsoft Naive Bayes 算法不支持使用预测模型标记语言 (PMML) 创建挖掘模型。 Microsoft Naive Bayes 算法支持对所生成挖掘模型的性能和精度有影响的若干参数。下表对各参数进行了说明:

参数 说明 指定算法在调用功能选择之前可以处理的最大输入属性数。如果将此值设置为 0,则为输入属性禁用功能选择。 默认值为 255。 MAXIMUM_INPUT_ATTRIBUTES MAXIMUM_OUTPUT_ATTRIBUTES 指定算法在调用功能选择之前可以处理的最大输出属性数。如果将此值设置为 0,则为输出属性禁用功能选择。 默认值为 255。 MINIMUM_DEPENDENCY_PROBABILITY 指定输入属性和输出属性之间的最小依赖关系概率。该值用于限制算法生成的内容大小。该属性可设置为介于 0 和 1 之间的值。该值越大,模型内容中的属性数就越少。 默认值为 0.5。 MAXIMUM_STATES 指定算法支持的最大属性状态数。如果属性的状态数大于该最大状态数,算法将使用该属性的最常见状态,并将剩余状态视为不存在。 默认值为 100。 附录4:时序算法

1.算法原理

Microsoft 决策树算法通过使用自动回归决策树来为模型定型。每个模型都包含一个 Key Time 列,该列定义了模型将定义的时间段。 该算法将过去的若干项目关联到要预测的每个当前项目。

可以用两种方式定义 Microsoft 时序模型的输入数据。为了解第一种方法,请考虑下表中的输入事例:

TimeID Product Sales Volume 1/2001 A 1000 600 2/2001 A 1/2001 B 2/2001 B 1100 500 300 500 900 890 表中的 TimeID 列包含一个时间标识符,每一天有两个条目。Product 列定义数据库中的产品。Sales 列说明指定产品一天的毛利润,Volume 列说明仓库中存放的指定产品数量。在本例中,模型将包含两个预测列:Sales 列和 Volume 列。

此外,按下表所示来定义时序模型的输入数据:

TimeID A_Sales A_Volume B_Sales B_Volume 1/2001 1000 2/2001 1100 600 500 500 300 900 890 在上表中,Sales 和 Volume 列分别被拆分成两列,每个列都用产品名称作前缀。 因此,TimeID 列中每天只有一个条目。 该模型将包含四个预测列:A_Sales、A_Volume、B_Sales 和 B_Volume。

尽管这两种定义输入数据的方法都会使模型中显示相同的信息,但是输入事例的格式将改变定义挖掘模型的方式。

2.使用算法

时序算法要求要预测的列必须是连续的。每个模型只允许使用一个事例序列。

Microsoft 时序算法支持特定输入列内容类型、可预测列内容类型和建模标志,这些类型和标志如下表所列。

输入列内容类型 Continuous、Key、Key Time 和 Table 可预测列内容类型 Continuous 和 Table 建模标志 NOT NULL 和 REGRESSOR 所有 Microsoft 算法均支持一些通用的函数。但是,Microsoft 时序算法还额外支持下表所列的函数。

LagPredictTimeSeriesPredictVariance PredictNodeIdPredictStdevMicrosoft 时序算法不支持使用预测模型标记语言 (PMML) 创建挖掘模型。

Microsoft 时序算法支持多个参数,这些参数可影响生成的挖掘模型的性能和准确性。 下表对各参数进行了说明: 参数 说明 指定在每个时序树中生成一个拆分所需的最小时间段数。 默认值为 10。 MINIMUM_SUPPORT COMPLEXITY_PENALTY 控制决策树的增长。 减少该值将增加拆分的可能性。 增加该值将降低拆分的可能性。 默认值为 0.1。 PERIODICITY_HINT 提供算法的有关数据周期的提示。例如,如果销售额按年变化,且序列中的度量单位是月,则周期为 12。此参数采用 {n [, n]}的格式,其中的 n 是任意正数。方括号 [] 中的 n 是可选项,可以按需重复多次。 默认值为 {1}。 MISSING_VALUE_SUBSTITUTION 指定用于填充历史数据空白的方法。 默认情况下,数据中不允许存在不规则的空白或参差不齐的边缘。 以下是可用来填充不规则空白或边缘的方法:使用以前的值、使用平均值或使用特定数值常量。 AUTO_DETECT_PERIODICITY 指定一个介于 0 和 1 之间的数值,用于检测周期。 如果将此值设置为更接近于 1 的数,则允许查找许多接近周期的模式并允许自动生成周期提示。 处理大量的周期提示可能会导致模型定型时间明显加长,但是模型会更准确。 如果将此值设置为更接近于 0 的数,则只检测周期性强的数据的周期。 默认值为 0.6。 HISTORIC_MODEL_COUNT 指定将要生成的历史模型的数量。 默认值为 1。 HISTORICAL_MODEL_GAP 指定两个连续历史模型之间的时间间隔。 例如,如果将此值设置为 g,则以 g、2*g、3*g (依此类推)的时间间隔为被时间段截断的数据生成历史模型。 默认值为 10。 附录5:关联算法

1.算法的原理

Microsoft 关联算法遍历数据集以查找同时出现在某个事例中的项。然后,算法将最少出现了由MINIMUM_SUPPORT参数指定的最少事例次数的关联项分组为项集。例如,项集可以为“Mountain 200=Existing, Sport 100=Existing”,并且支持的数目可以为 710,那么该算法将根据项集生成规则。可以使用这些规则根据是否存在该算法标识为重要项的其他特定项,预测数据库中的某项是否存在。例如,某规则可以为“if Touring 1000=existing and Road bottle cage=existing, then Water bottle=existing”,并且其概率可能为 0.812。在此例中,该算法发现由于购物篮中存在 Touring 1000 轮胎和水壶套,因此预测购物篮中也可能存在水壶。

2.使用算法

关联模型必须包含一个键列、多个输入列以及一个可预测列。输入列必须为离散列。关联模型的输入数据通常包含在两个表中。例如,一个表可能包含客户信息,而另一个表可能包含客户购物情况。您可以使用嵌套表将该数据输入到模型中。

Microsoft 关联算法支持下表中列出的特定输入列内容类型、可预测列内容类型以及建模标志。

输入列内容类型 Cyclical、Discrete、Discretized、Key、Table 和 Ordered 可预测列内容类型 Cyclical、Discrete、Discretized、Table 和 Ordered 建模标志 MODEL_EXISTENCE_ONLY 和 NOT NULL 所有 Microsoft 算法均支持一些通用的函数。但是,Microsoft 关联算法还支持下表中列出的其他函数。 IsDescendantIsInNodePredictHistogramPredictNodeIdPredictAdjustedProbabilityPredictAssociationPredictProbabilityPredictSupportMicrosoft 关联算法不支持使用预测模型标记语言 (PMML) 创建挖掘模型。

Microsoft 关联算法支持数个影响生成的挖掘模型的性能和准确性的参数。下表对各参数进行了说明: 参数 MINIMUM_SUPPORT 说明 指定在该算法生成规则之前必须包含项集的事例的最小数目。将该值设置为小于 1 将指定最小事例数作为事例总计的百分比。将该值设置为大于 1 的整数将指定最小事例数作为必须包含项集的事例的绝对数。如果内存有限,则该算法可能会增大此参数的值。 默认值为 0.03。 MAXIMUM_SUPPORT 指定支持项集的事例的最大数目。如果该值小于 1,则表示事例总计的百分比。大于 1 的值表示可以包含项集的事例的绝对数。 默认值为 1。 MINIMUM_ITEMSET_SIZE 指定一个项集中允许的最小项数。 默认值为 1。 MAXIMUM_ITEMSET_SIZE 指定一个项集中允许的最大项数。将该值设置为 0 将指定对项集的大小没有限制。 默认值为 3。 MAXIMUM_ITEMSET_COUNT 指定要生成的最大项集数。如果没有指定数目,则使用默认值。默认值为 200000。 MINIMUM_PROBABILITY 指定规则为 True 的最小概率。例如,将该值设置为 0.5 将指定不生成概率小于百分之五十的规则。 默认值为 0.4。 OPTIMIZED_PREDICTION_COUNT 定义为进行预测而需要缓存或优化的项目的数目。 默认值为 0。使用默认值时,算法将生成查询中请求的任意多个预测。 附录6:顺序分析和聚类分析算法

1.算法原理

该算法采用期望最大化 (EM) 聚类分析方法来识别分类及其顺序。该算法明确地使用某种概率性方法来确定某个数据点存在于某个分类中的概率。

Microsoft 顺序分析和聚类分析算法使用的输入列之一是一个嵌套表,该表中包含序列数据。此数据是某个数据集(例如产品购买或 Web 点击)中的各个事例的一系列状态转换。为确定哪个顺序列用作聚类分析的输入列,该算法度量该数据集中所有可能顺序之间的差异或距离。在度量完这些距离后,该算法将该顺序列用作聚类分析的 EM 方法的输入。

2.使用算法

顺序聚类分析模型需要一个用来标识记录的键和一个包含顺序相关列(例如标识顺序中的事件的网页标识符)的嵌套表。每个顺序只允许有一个顺序相关列,且每个模型中只允许有一种类型的顺序。若要在本主题前面提到的示例方案中创建一个模型,您需要创建一个包含两个表的数据源。第一个表用来包含订单,第二个表用来包含订单放置到购物车的顺序。

Microsoft 顺序分析和聚类分析算法支持下表中列出的特定输入列内容类型、可预测列内容类型和建模标志。 输入列内容类型 可预测列内容类型 建模标志 MODEL_EXISTENCE_ONLY 和 NOT NULL Continuous、Cyclical、Discrete、Discretized、Key、Key Sequence、Table 和 Ordered Continuous、Cyclical、Discrete、Discretized、Table 和 Ordered 所有 Microsoft 算法均支持一些通用的函数。不过,Microsoft 顺序分析和聚类分析算法支持下表中列出的其他函数。 ClusterPredictHistogramPredictNodeIdClusterProbabilityIsDescendantIsInNodePredictProbabilityPredictSequencePredictStdevPredictAdjustedProbabilityPredictAssociationPredictSupportPredictCaseLikelihoodPredictVarianceMicrosoft 顺序分析和聚类分析算法不支持使用预测性模型标记语言 (PMML) 来创建挖掘模型。

Microsoft 顺序分析和聚类分析算法支持几个影响所得到的挖掘模型的性能和准确性的参数。下表对各参数进行了说明: 参数 说明 指定将由算法生成的大致分类数。如果无法基于相应的数CLUSTER_COUNT 据生成该大致数目的分类,则算法将生成尽可能多的分类。如果将CLUSTER_COUNT 设置为 0,则算法将使用试探性方法最准确地确定要生成的分类数。 默认值为 10。 MINIMUM_SUPPORT 指定每个分类中的最小事例数。 默认值为 10。 MAXIMUM_SEQUENCE_STATES 指定一个顺序可以拥有的最大状态数。将该值设置为大于 100 的数将导致算法创建一个不提供有意义的信息的模型。 默认值为 64。 MAXIMUM_STATES 指定算法支持的非顺序属性的最大状态数。如果某个非顺序属性的状态数大于该最大状态数,则算法将使用该属性最常见的状态并将剩余状态视为不存在。 默认值为 100。

本文来源:https://www.bwwdw.com/article/0a1w.html

Top