数据仓库与数据挖掘实验指导书--王浩畅
更新时间:2023-11-04 16:16:01 阅读量: 综合文库 文档下载
数据仓库与数据挖掘
实 验 指 导 书
东北石油大学计算机与信息技术系王浩畅
1
实验一 Weka实验环境初探
一、实验名称: Weka实验环境初探 二、实验目的:
通过一个已有的数据集,在weka环境下,测试常用数据挖掘算法,熟悉Weka环境。
三、实验要求
1. 熟悉weka的应用环境。 2. 了解数据挖掘常用算法。
3. 在weka环境下,测试常用数据挖掘算法。 四、实验平台
新西兰怀卡托大学研制的Weka系统 五、实验数据
Weka安装目录下data文件夹中的数据集weather.nominal.arff,weather.arff 六、实验方法和步骤
1、首先,选择数据集weather.nominal.arff,操作步骤为点击Explorer,进入主界面,点击左上角的“Open file...”按钮,选择数据集weather.nominal.arff文件,该文件中存储着表格中的数据,点击区域2中的“Edit”可以看到相应的数据:
2
选择上端的Associate选项页,即数据挖掘中的关联规则挖掘选项,此处要做的是从上述数据集中寻找关联规则。点击后进入如下界面:
2、现在打开weather.arff,数据集中的类别换成数字。
3
选择上端的Associate选项页,但是在Associate选项卡中Start按钮为灰色的,也就是说这个时候无法使用Apriori算法进行规则的挖掘,原因在于Apriori算法不能应用于连续型的数值类型。所以现在需要对数值进行离散化,就是类似于将20-30℃划分为“热”,0-10℃定义为“冷”,这样经过对数值型属性的离散化,就可以应用Apriori算法了。Weka提供了良好的数据预处理方法。第一步:选择要预处理的属性temperrature
4
从中可以看出,对于“温度”这一项,一共有12条不同的内容,最小值为64(单位:华氏摄氏度,下同),最大值为85,选择过滤器“choose”按钮,或者在同行的空白处点击一下,即可弹出过滤器选择框,逐级找到 “Weka.filters.unsupervised.attribute.Discretize”,点击;若无法关闭这个树,在树之外的地方点击 “Explorer”面板即可。
现在“Choose”旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。点击这个文本框会弹出新窗口以修改离散化的参数。
因为这里不打算对所有的属性离散化,只是针对对第2个和第3个属性,故把attributeIndices右边改成 “2,3”。计划把这两个属性都分成3段,于是把“bins”改成“3”。其它文本框里的值不用更改,关于这些参数的意义可以点击“More”查看。点“OK”回到 “Explorer”,可以看到“temperature”和“humidity”已经被离散化成为分类型的属性。若想放弃离散化可以点“Undo”。
可以看到temperature属性信息如下显示:
5
正在阅读:
数据仓库与数据挖掘实验指导书--王浩畅11-04
线性代数试题答案及评分细则B卷01-16
武冈论文网职称论文发表网-小学蒙语文写作教学论文选题题目04-12
煤矿作业人员安全站位五十个严禁11-10
输煤专业技术工作总结10-21
最新版四级700核心词汇12-01
建厂计划书05-27
国考报名审核通过人数140余万 较上年减少约11万人04-09
设备安装调试方案(推荐文档)05-05
小学音乐课堂教学反思5篇02-21
- 2012年广州一模数学(理科)试卷(word版,含答案)
- 生化课本知识总结
- 诉权
- 呼叫中心平台项目可行性研究报告(目录) - 图文
- 汽车综合故障诊断作业三及答案
- 怎样写才能拿到中考满分作文
- 《第7章 图结构》习题解答
- 中学物理教学法实验指导书
- 加强教研组建设 走特色教研之路
- 2009年宁夏公务员录用考试《行政职业能力测验》试卷
- 加强校园文化建设 细化制度促发展
- 2020年中国教育发展战略框架 试卷
- 六年级上册数学期末复习资料
- 大工16春《高层建筑结构》大作业答案
- 高分子物理电子教案
- 大学生创业孵化基地建设的理论初探
- 王家寨矿井瓦斯煤尘灾害演习报告
- 2013年中国邮政储蓄银行招聘考试试题
- 浅析绿色用电与生活用电
- 一堂好课的标准
- 王浩
- 指导书
- 数据挖掘
- 仓库
- 实验
- 数据