SQL Server 2008数据挖掘全过程详解 - 图文

更新时间:2023-12-15 14:02:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

实验三详细步骤讲解

第一部分OLAP讲解

1 目的

针对现在企业存在海量数据,需要对其中隐藏的数据进行分析,从而帮助决策这一事实,我们设计了一个虚拟情景:我们是一家大型连锁超市的技术顾问,我们要分析企业现存的数据,从而了解此超市的运营现状,针对分析出的信息提出企业的改进目标。

2 安装SQL Server 2008

2.1 实验环境:

操作系统:windows 7;

处理器:AMD Turion(tm) x2 Dual-Core MoblieRM-72,2.10GHz; 系统类型:32 位操作系统; 内存:3GB

2.2 步骤详解

选择安装文件中的setup.exe开始安装。

上图为安装主界面,包含了有关 SQL Server 2008 的各种信息,很直观,开始安装选择:全新 SQL Server 独立安装或向现有安装添加功能;

一些必需条件检查;

然后是产品序列号输入,这也是 SQL Server 首次采用此种授权管理方式;从微软网站下载的版本其实和正式版本无异,你如果有正式的序列号,在此输入即可成为正式版;当然在此处你也可以选择安装企业评估版,待以后通过上图的安装中心界面可将试用版升级为其它版本的正式版。这里,我们输入企业版序列号:JD8Y6-HQG69-P9H84-XDTPG- 34MBB;

SQL Server 2008 企业版授权协议;

这里需要一些组件的安装

点击安装过后,有一小段等待的时间

另外一些必要条件的检查

安装组件选择,默认情况下什么也没有选中,根据情况选择即可,一般情况下,不明白的就全选;

配置实例并选择安装路径;从图中可以看出,虽然实例安装到了 D 盘,但只用了 784M,将近 2G 的内容都安装到了 C 盘,因此我们选择直接安装在C盘默认文件夹下;

这里为实例配置,我们只需选择默认的,然后”下一步”;

显示安装后预计战胜的硬盘空间

配置各 SQL Server 服务的帐户名和启动类型,对开发人员来说非常实用;

配置身份验证模式,和以往版本没有什么不同;但新增了一个”指定 SQL Server 管理员”的必填项,该管理员是指 Windows 帐户,你可以新建一个专门用于 SQL Server 的帐户,或点击”添加当前用户”添加当前用户为管理员;同时”数据目录”页可指定各种类型数据文件的存储位置,不过我们这里只需要选择”添加当前用户”,其他的默认就好;

接下来,根据选择项目,会有一些不同的项目要配置,对于非专业人员来说,基本原则就是”添加当前用户”,这样简洁并且不易出错;

Reporting Sevice配置,直接默认,选择”下一步”;

错误和使用情况报告,这里我们不选择向微软发送错误报告,直接”下一步”;

再一次对必要信息进行检查;

安装信息汇总,安装前的最后一步

开始安装并安装完成用时大约 1 小时,当然这取决于你安装的组件。

之后安装成功,从开始菜单中选择相应的程序,Microsoft SQL Server 2008——SQL Server Management Studio单击即可打开。

安装后运行图例

至此SQL Server 2008安装成功

安装中的注意事项:

安装sql server 2008前可能需要安装visual studio,我们建议最好最好安装最新的版本,以免出现一些不必要的问题。

3 OLAP分析

3.1 目的:

联机分析处理(简写为OLAP)是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。决策数据是多维数据,多维数据就是决策的主要内容。OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。

联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。它可用

于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。它并不将异常信息标记出来,是一种知识证实的方法。

总之,OLAP(联机分析处理)是帮助用户理解、分析大量数据并建立模型的一种解决方案,而Microsoft SQL Server 2008中的SQL Server Business Intelligence Development Studio则是完成这一任务的出色工具。

3.2 相关知识介绍:

Microsoft SQL Server 2008中的BI(商业智能)模块集成了一些我们在商业应用领域上的技术,在真正应用时,我们将BI分为五层,即BI 五层模型:

?

? ? ? ?

数据源层 数据转换层 数据存取层 分析层 表示层

我们将BI模块中的Integration services项目对应于数据源层和数据转换层;SQL Server Management Studio对应于数据存取层;analysis services项目对应于分析层;最后将报表模型项目对应于表示层。下面我们将结合我们的案例背景,即我们作为大型超市的技术顾问,为企业决策者提供相应的运营信息。

3.3 具体步骤:

3.3.1 数据源的转换:

开始——Microsoft SQL Server 2008——SQL Server Business Intelligence Development Studio,打开如下图所示界面:

然后单击新建文件——新建——项目,出现如下图所示界面,然后选择integration services项目:

之后出现下图所示界面:

此时选择菜单栏上的项目——SSIS导入和导出向导,单击后选择相应的数据源文件,结果如下图:

单击下一步(注意选择自己的服务器名称):

此时我们要将导入的数据放到一个数据库中,所以单击右下方的新建按钮,我们这里将新建立的数据库命名为DB market,出现的界面如下:

然后单击确定——下一步,来到如下图所示的界面:

因为,我们只是用最原始的表,不需要对表进行额外的操作,所以,选择复制一个或多个表或试图的数据,然后按下一步,选择我们需要的表:

选择之后,按下一步

最后单击完成,如运行成功,则出现下图所示的界面:

然后将解决方案资源管理器中的SSIS包中的package1.dtsx设为启动对象,方法是右击其,选择设为启动对象。然后单击工具栏中的三角按钮,开始调试,结果如下图:

之后单击上图下方的蓝色字“包执行完毕。单击此处以??”,至此我们完成了数据源转换这一步骤。

3.3.2 数据分析准备工作:

接着,我们按照上面的方法新建立一个analysis services 项目,名为AS_market,开始做数据分析的准备工作,之后右击右侧解决方案资源管理器中的数据源,选择新建数据源,出现如下图所示的图:

然后单击,新建按钮,选择相应的服务器和数据库,如下:

按确定,单击下一步,然后,选择使用服务账户,如图:

再单击下一步,最后单击完成,至此数据源选择完成。

然后如上所示,右击数据源视图,也是新建,然后选择关系数据源,如下图:

然后下一步,保持默认选项,如图:

然后选择所有经过之前经过筛选的表,如图:

然后下一步,完成。此时,程序的主界面应该如下图所示:

我们下一步要将这七张表联系起来,使之如下图所示(注意箭头的方向):

之后,我们便可以建立多维数据集,如上右击新建,出现如下图的界面:

保持默认选项,使用现有表,然后下一步,选选择度量值(即数据挖掘中所说的事实):

然后单击下一步,去掉sales fact 1998计数的钩钩,单击下一步:

然后单击下一步,完成。

之后,我们修改维度,便于我们后面查看,具体方法如下:

单击左下角要修改的维度,此时列表会展开,出现一个编辑Store的蓝色文字,如图:

然后单击此蓝色文字,主界面变为:

从右侧的数据源试图中拖动你想要看到的属性列到左侧的属性窗口中,操作结果如下图:

同理,将除了time by day之外的维度,都做类似的操作。至于time by day这个时间维度比较特别,下面做详细介绍:

在time by day上右击,选择浏览数据,出现如下图:

通过观察分析,我们可以知道,the_date指的是年月日时间;the_day指的是星期几;the_month指的是几月份;the_year指的是年份;day_of_month指的是这个月的第几天(这里就列举这么多),然后我们根据这个,给每个属性选择类型,具体操作如下:

右侧下方有the date 的属性列表,其中有一个type选项,我们根据数据的实际含义,选择日期——日历——date。其他的也如法炮制。

所有的维度都修改好后,选择新生成的多维数据集,单击工具条上的小三角,启动调试。 成功后,双击多维数据集,在选择浏览器,出现下图:

现在就可以从左侧拖动相关的属性到中间,从而实现olap分析了。 终于说完了这一部分~~ 大家一定要动手实践。

3.3.3 数据分析:

举个小小例子,领导想查看每个分店的营业情况,那么我们可以建立如下的数据透视图:

行属性为store name;列属性为两级的,一级是store state,一级为store city;这样我们就可以以州或是城市为最小粒度查看各分店的营业情况了。

4 小结

数据分析是企业进行总结和计划的基础操作,SQL Server 2008的BI模块,让我们可以很好的实现这个功能,通过数据分析我们可以为企业的决策者提供很好的总结,从而指导下一步的企业计划。好了,就说这么多,关键还是要动手操作呀!

第二部分Data Mining详解

建立模型

Step1在建立数据挖掘模型前须保证已经建立“数据源”和“数据源视图”,如(Figure 1)所示:

Figure 1

Step2解决方案资源管理器——挖掘结构——右键(新建挖掘结构)——进入数据库挖掘向导(下一步)——选择定义方法(选择从现有关系数据库或数据仓库),下一步——创建数据挖掘结构(以Microsoft 决策树为例),下一步——选择数据源视图(选择自己之前创建的),下一步——指定表类型(以customer为事例表)——指定定性数据(键:Customer_id输入:Member_card可预测:Member_card),然后点建议,之后确定,下一步——指定列的内容和数据类型(点检测)下一步——下一步(默认)——自己命名,完成。 Step3 选中建立的模型,点启动调试,模型建立完毕,(如figure2)所示,大家可以自行查看各个选型卡所表示的含义(注意结合挖掘图例进行理解)

Figure 2

2、挖掘结果分析

挖掘完成之后,可以发现每个挖掘模型都有5个选项卡,“挖掘结构”、“挖掘模型”、:“挖掘模型查看器”、“挖掘准确性图表”、“挖掘模型预测”。“挖掘结构”和“挖掘模型”选项卡是用来核对和修改我们在建立挖掘模型过程中的一系列设置是否正确,同时在“挖掘模型”还可以进行挖掘模型参数的设置;“挖掘模型查看器”主要用来观察挖掘结果;“挖掘准确性图表“用来检测模型的准确性;挖掘模型预测用来用所建立的模型来进行预测。在这里主要讲解“挖掘准确性图表”和“挖掘模型预测”的使用方法。 2.1“挖掘准确性图表”使用方法 Step1选择挖掘准确姓图表选项卡

Step2选择要用于准确性的数据集

若该挖掘结构里只选择了一个挖掘模型,则选第一个 若该挖掘结构中含有多个挖掘模型,则选第二个 若用外来数据集测试,选第三个。 Step3 点“提升图”、“分类矩阵”、“交叉验证”依次进行观察。 2.2“挖掘模型预测”使用方法

Step1 选择挖掘模型预测选项卡(Figure3所示); Step2 选择模型(选择自己建立的模型)——选择事例表(选择Customer),完成后如(Figure3)所示;

Figure 3

Step 3按照(figure4)所示进行选择和设置,注意预测函数的参数设置;

Figure 4

Step 4 选择(Figure 5)所示的结果选项卡,自动运行之后即得到预测结果,如(Figure 6)所示。

Figure 5

Figure 6

3、Data Mining小结

本实验主要用的是决策树模型,以Customer表为例建立数据挖掘模型,大家可以尝试用其他挖掘模型如聚类、关联规则等,自行联系,不断的提高自己关于数据挖掘的技能,谢谢大家的观看。

本文来源:https://www.bwwdw.com/article/bbj5.html

Top