实验八 关联和决策树 - 图文
更新时间:2023-12-05 06:37:01 阅读量: 教育文库 文档下载
- 实验八存储过程和触发器推荐度:
- 相关推荐
云南大学软件学院
实验 报 告
课程:大数据分析及应用任课教师:蔡莉实验指导教师(签名):
学号:20131120233 姓名:王依 专业:软件工程 日期:2015.12.10 成绩:
实验八关联和决策树
一、 实验目的
1.理解关联分析和决策树的相关知识; 2.掌握使用Modeler进行关联分析的基本过程; 3.掌握利用关联分析的数据建立一个决策树的过程。
二、 实验内容及步骤
(一)使用 Modeler 进行关联分析
实验内容:
对实验文件BASKETS1进行分析,掌握购买数据之间的关联情况。 实验步骤:
1. 打开并查看数据文件。利用“可变文件”节点将“BASKETS1n”添加节点中。然后使用
“输出”选项卡下的“表”查看数据,如图1所示。这里的数据是某商场中的购买记录,共18个字段,1000条记录,在后面的列中,值“T”表示已购买该商品,值“F”表示没有购买该商品。
图1
1
2. 确定关联分析字段。在这里中,需要对购买商品之间进行关联分析,即确定客户购
买商品之间是否存在关联性,也就是说客户在购买一种商品时,购买另一种商品的概率是多少。所以,在这里,将选择记录中能够体现是否购买某商品的字段进行关联分析,其中有fruitveg,freshmeat,dairy,cannedveg,cannedmeat,frozenmeal,beer,wine,softdrink,fish,confectionery,共11个字段。 3. 读入分析字段的类型。在工作区生成“类型”节点,并双击编辑,将上一步骤选出的
11个字段的角色设定为“两者”,如图2。
图2
4. 添加模型节点。分别在“类型”之后添加“Apriori”模型节点和“Crama”模型节点,
如图3所示。其中,“Apriori”模型是基于“最低支持度”和“最小置信度”进行关联性分析。
图3
2
5. 运行并查看“Apriori”关联模型结果。运行“Apriori”模型的数据流,在右上侧生
成数据模型,右键查看,如图4所示。表中可以看出,客户同时购买frozenmeal、beer、cannedveg的概率很高。因此,商家可以将这三种商品放在相邻的位置,以促进销量。
图4
6. 运行并查看“Carma”关联模型结果。运行“Carma”模型的数据流,在右上侧生成数
据模型,右键查看,如图5所示。同样可以看出,客户同时购买frozenmeal、beer、cannedveg的概率很高。
图5
7. 利用“网络”图进行定性关联分析。选定“类型”节点,双击“图形”选项卡下的“网络”,
既可添加“网络节点”。然后,需双击编辑“网络”节点,将步骤(5)中选择的11个字段选定为分析字段。运行该“网络”节点,则右上区域生成关联模型,查看该关联模型,如图6。从图中表明,两点之间的线越粗,表示两者间相关性越强。同时可以通过调节下面的滑动点,查看相关性。
3
图6
(二)建立决策树
实验内容:
在上一步数据关联的基础上,分析哪些顾客是“健康食品购买者”,即同时购买fruitveg和fish。
实验步骤:
1. 如何标志健康食品购买者。点击“字段选项”选项卡下的“导出”增加一个属性
(Healthy)来标识健康食品购买者。编辑“导出”节点,将字段类型设为“标志”,并编辑“fruitveg = 'T' and fish='T'”,该公式表示消费者同时购买fruitveg和fish这两种商品,如图7。
图7
4
2. 查看增加“Healthy”之后的数据表。利用“表”来查看数据表,如图8,可以看到表中
增加了一个“Healthy”字段,描述是否为健康食品购买者。
图8
3. 接入一个“类型”节点。在这里,需要重新编辑字段的角色,如图9所示。其中与用
户相关的信息字段(除cardid外)角色都设定为“输入”,而“Healthy”变为“输出”,其他的选择“无”。
图9
4. 接入C5.0决策树模型。双击“建模”选项卡下的“C5.0”模型,既可以完成添加。如图
10。
5
图10
5. 运行决策树模型。分别运行“决策树”和“规则集”两种形式,查看两者得到的结果
分别如图11和图12所示。两者都分别有不同的表示方式。图中显示哪些类型的顾客是健康食品购买者。
图11
6
图12
6. 其他属性的功能,如图13。“组符号”是指当有多个字段在同一个分支时,将这几个
字段放在一组;“使用boosting”是指使用部分数据作为再次生成决策树,最后综合这些决策树来提高决策树的精度;“交互验证”是指一部分数据用来生成决策树,一部分作为测试;“简单”是指生成决策树的准确度,但是精确度高的决策树的移植性不高;“专家”下的“修剪严重性”是指修剪的程度。
图13
7. 将决策树模型加入数据流。首先选择“字段选项”下的“类型”节点,然后分别双击
右上侧的“tree”和“no-cut”(已重命名),在这之后,分别添加“分析”节点作为输出,得到如图14的数据流。
7
图14
8. 分析“修剪严重性”为75%的正确性。运行“tree”下“分析”节点,在图15中可以看出,
决策树分支的正确率为93.8%。
图15分析“修剪严重性”为75%的正确性
9. 分析“修剪严重性”为0的正确性。运行“no-cut”下“分析”节点后,得到图16,图中
显示决策树分支的正确率为95.1%。由此表明这两者的正确率差别不是十分大,仅为1.3%。但是,一般情况下,会选择简单的模型作为选择对象,即“修剪严重性”为75%的模型。
8
图16分析“修剪严重性”为0的正确性
10. 决策树的另外一个选项——成本,如图17显示。此处的成本主要指决策树将T判为
F,而将F判为T的过程需要成本,同时这个成本一般并不相同,SPSS Modeler 14.2的这两个默认值都是1。在这里,将F判为T的成本改为0.3,将T判为F的成本改为2.0,“修剪严重性”设定为75%,运行该决策树模型,得到图59,共有8层。接下来,将这与原来生成的“tree”模型(F判为T的成本为1.0,T判为F的成本改为1.0,“修剪严重性”为75%)进行比较。
图17
9
图18
11. 添加“输出”选项卡下的“矩阵”节点。将这个模型添加到数据流中,并在此基础上
分别添加“矩阵”节点,如图19所示。
图19
12. 分别运行“矩阵”节点,并分析数据。在运行这两个节点之前,需要将这两个“矩阵”
节点的“行”设为“Healthy”,“列”设为“$C-Healthy”。运行后分别得到图20(左:“tree”,右:“2-0.3cost”)的表格。可以看出,决策树总是朝着成本最低的趋势生成决策树。
10
正在阅读:
实验八 关联和决策树 - 图文12-05
危险化学品安全专项整治工作总结09-22
自编路基填筑方案10-07
(完整版)12月大学英语三级考试A级真题08-05
图表控件MsChart教程12-04
对管道燃气特许经营使用费的思考10-15
那一场大雪后作文600字06-22
高中数学 1.2.2 解三角形应用举例(第3课时)教案 新人教A版必修512-28
“十三五”重点项目-海水珍珠项目申请报告06-14
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 联和
- 决策
- 实验
- 图文
- 人教版高中化学选修四等效平衡专题(6月)
- 苏教版小学数学三年级下册《认识一个整体的几分之一》教学设计
- 岭南版小学二年级下册美术教案
- 浅谈当前高职高专综合素质教育的重要性与实施途径-最新教育文档
- 最新美国TOP 30院校申请要求
- PP塑料碗注塑模设计
- 明思教育小学数学总复习归类讲解及训练
- 2017 - 2018学年八年级数学上册第十四章整式的乘法与因式分解学业水平测试卷扫描版新版新人教版 - 图文
- 小初高学习2017-2018学年高中物理 第五章 交变电流 第2节 描述交变电流的物理量教学案
- 深圳版英语六年级下册各单元知识点总结
- 浙江省安保服务公司名录2018版512家 - 图文
- 基层司法人员学习依法治国心得体会-心得体会模板
- 义务教育课程设置及比例
- 14.自助银行管理办法(修订版)
- 2014年温州市高三学生理科综合知识与能力竞赛一类学校获奖名单(公示文件) - 图文
- 忻州市人民政府办公厅转发市发展改革委市卫生局等部门关于进一步
- 商业银行主要业务(整理)
- 等待槐花开 锦墨阅读答案
- (少先队活动总结)2017年少先队活动总结3篇-推荐下载
- 大型超市(卖场)食品安全隐患与监管对策分析