数据仓库与数据挖掘实验指导书--王浩畅

更新时间：2023-11-04 16:16:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

数据仓库与数据挖掘实验心得推荐度：
相关推荐

数据仓库与数据挖掘

实验指导书

东北石油大学计算机与信息技术系王浩畅

实验一 Weka实验环境初探

一、实验名称: Weka实验环境初探二、实验目的：

通过一个已有的数据集，在weka环境下，测试常用数据挖掘算法，熟悉Weka环境。

三、实验要求

1. 熟悉weka的应用环境。 2. 了解数据挖掘常用算法。

3. 在weka环境下，测试常用数据挖掘算法。四、实验平台

新西兰怀卡托大学研制的Weka系统五、实验数据

Weka安装目录下data文件夹中的数据集weather.nominal.arff，weather.arff 六、实验方法和步骤

1、首先，选择数据集weather.nominal.arff，操作步骤为点击Explorer，进入主界面，点击左上角的“Open file...”按钮，选择数据集weather.nominal.arff文件，该文件中存储着表格中的数据，点击区域2中的“Edit”可以看到相应的数据：

选择上端的Associate选项页，即数据挖掘中的关联规则挖掘选项，此处要做的是从上述数据集中寻找关联规则。点击后进入如下界面：

2、现在打开weather.arff，数据集中的类别换成数字。

选择上端的Associate选项页，但是在Associate选项卡中Start按钮为灰色的，也就是说这个时候无法使用Apriori算法进行规则的挖掘，原因在于Apriori算法不能应用于连续型的数值类型。所以现在需要对数值进行离散化，就是类似于将20-30℃划分为“热”，0-10℃定义为“冷”，这样经过对数值型属性的离散化，就可以应用Apriori算法了。Weka提供了良好的数据预处理方法。第一步：选择要预处理的属性temperrature

从中可以看出，对于“温度”这一项，一共有12条不同的内容，最小值为64（单位：华氏摄氏度，下同），最大值为85，选择过滤器“choose”按钮，或者在同行的空白处点击一下，即可弹出过滤器选择框，逐级找到 “Weka.filters.unsupervised.attribute.Discretize”，点击；若无法关闭这个树，在树之外的地方点击 “Explorer”面板即可。

现在“Choose”旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。点击这个文本框会弹出新窗口以修改离散化的参数。

因为这里不打算对所有的属性离散化，只是针对对第2个和第3个属性，故把attributeIndices右边改成 “2,3”。计划把这两个属性都分成3段，于是把“bins”改成“3”。其它文本框里的值不用更改，关于这些参数的意义可以点击“More”查看。点“OK”回到 “Explorer”，可以看到“temperature”和“humidity”已经被离散化成为分类型的属性。若想放弃离散化可以点“Undo”。

可以看到temperature属性信息如下显示：

本文来源：https://www.bwwdw.com/article/itb2.html

相关文章：

正在阅读：

数据仓库与数据挖掘实验指导书--王浩畅11-04

线性代数试题答案及评分细则B卷01-16

武冈论文网职称论文发表网-小学蒙语文写作教学论文选题题目04-12

煤矿作业人员安全站位五十个严禁11-10

输煤专业技术工作总结10-21

最新版四级700核心词汇12-01

建厂计划书05-27

国考报名审核通过人数140余万较上年减少约11万人04-09

设备安装调试方案(推荐文档)05-05

小学音乐课堂教学反思5篇02-21

上一篇：第八章练习题及答案下一篇：关于思政课实践教学的几点思考