C5.0算法实验报告模版

更新时间:2023-10-16 14:40:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

湖南工程学院 数据挖掘 实验报告

专业班级 统计学1101 姓名 组别 同组实验人员 无 实验日期 实验名称 实验目的 实验步骤: 2014年11月05日 C5.0算法及应用 掌握C5.0算法的原理及应用 指导老师 刘劲光 评分 第一步:处理数据,由于数据存在在分开的两页表格中,利用append节点将两张表结合起来。 第二步:C5.0基本应用 1、由上面的结果可接入C5,0节点进行分析,接入节点后,如图:

利用C5.0模型对已预处理过的数据进行分析,具体结果如下图 从上图可以看出这是一颗两层决策树,第一层考把家长是否鼓励看做一个最佳分组变量,由此形成二叉树。家长不鼓励节点中有30个样本,则其中不参加的有28人,占93.3%,所以按众数类别,预测为不走读。家长鼓励(39个样本),且在校综合评价指数小于等于48分的(15个样本),不参加社会公益活动,置信度为80%;家长鼓励,切在校综合评价大于48分(24个样本),参加社会公益活动,置信度为83%。 总之家长是否鼓励是决定学生是否参加公益活动的关键因素,其次是学生的在校综合评价指数。 2、预测结果 为观测C5.0对每个样本的预测结果,可在流管理器的Models卡中,鼠标右击C5.0模型结果,选择弹出菜单中的Add To Stream,并将模型结果连到数据流中,然后连接Table节点查看预测结果。如下图:

第三步:C5.0的损失矩阵 损失矩阵,Cost选项卡设置损失矩阵,选中Use misclassification costs选项。 第四步:分类回归树的基本应用 以电信客户数据为例,讨论分类回归树的具体操作。首先,在数据流中添加Partition节点,将样本集划分为训练样本集和检验样本集;然后,选择Modeling卡中C&RT节点并将其连接到数据流恰当位置,右击鼠标,选择弹出菜单中的Edit选项进行参数设置。

由下图可以看到,性别和居住地对客户流失的影响不大,其他因素都有影响。 重新设置参数,选中Use Standard error rule选项并在Multiple框指定参数m为1.5。此时,年龄、收入、教育水平、开通月数等为导致流失的重要因素。 指导教师评语: 签字: 年 月 日

本文来源:https://www.bwwdw.com/article/liff.html

Top