数据挖掘第三次作业0801303吕良
更新时间:2023-10-28 09:33:01 阅读量: 综合文库 文档下载
- 数据挖掘大作业推荐度:
- 相关推荐
第三次作业
1、 请用ID3进行决策树归纳,根据表1给出的14个例子,构造关于天气状况的决
策树。
天气状况的决策树用图形表示为:
2、考虑一个二值分类问题,属性集和属性值如下。 ● 空调 = {可用,不可用}。 ● 引擎 = {好,差}。
● 行车里程 = {高,中,低}。 ● 生锈 = {是,否}。
假设一个基于规划的分类器产生的规则集如下。
(a)这些规则是互斥的吗? (b)这些规则集是完全的吗? 答:
(a)不是互斥的
因为{空调=不可用,行车里程 =低}会触发两条规则
(b)也不是完全的
因为{行车里程 = 中}的记录没有被规则覆盖
3、考虑表2中的一维数据集。
(a)根据1—最近邻、3—最近邻、5—最近邻及9—最近邻,对数据点x=5.0分类(使用多数表决)。
(b)使用距离加权表决方法wi=1/d(x’ , xi)2重复前面的分析。
(a) K-最近邻x 1 3 5 9 (b) X 0.5 y Wi - 0.049 3.0 - 0.25 4.5 + 4 4.6 + 6.25 4.9 + 100 分类y + - + -- 5.2 - 25 5.3 - 11.11 5.5 + 4 7.0 - 0.25 9.5 - 0.049 ∑w- = 36.708
∑w+ =114.25
4、如何评估分类器的准确率?
holdout和交叉验证是两个常用的评估分类器预测准确率的技术,它们均是在给定数据集中随机取样划分数据。
holdout:将所给定的数据集随机划分成两个独立部分:一个座位训练数据集,而另一个作为测试数据集,通常训练数据集包含初始数据集中的三分之二的数据,而其余的三分之一则作为测试数据集的内容。利用训练集数据学习获得一个分类器,然后使用测试数据集对该分类器预测准确率进行评估,由于仅使用初始数据集中的一部分进行学习,因此对所得分类器预测准确性的估计应该是悲观的估计。随机取样是holdout方法的一种变化,在随机取样方法中,重复利用holdout方法进行预测准确率估计k次,最后对这k次所获得的预测准确率求平均,以便获得最终的预测准确率。
k-交叉验证:将初始数据集随机分为k个互不相交的子集,S1,S2,...,Sk,每个子集大小基本相同。学习和测试分别进行k次,在第i次循环中,子集Si作为测试集,其他子集则合并到一起构成一个大训练数据集并通过学习获得相应的分类器,也就是第一次循环,使用S2....Sk作为训练数据集,S1作为测试数据集;而在第二次循环时,使用S1,S3,...,Sk作为训练数据集,S2作为测试数据集;如此下去等等。而对整个初始数据所得分类器的准确率估计则可用k次循环中所获得的正确分类数目之和除以初始数据集的大小来获得。在分层交叉验证中,将所划分的子集层次化以确保每个子集中的各类别分布与初始数据集中的类别分布基本相同。
正在阅读:
数据挖掘第三次作业0801303吕良10-28
中考化学二轮复习 专题七 质量守恒定律11-01
成长路上的一盏灯作文600字07-09
职工思想动态调研报告01-19
纳米粉体的制备01-17
停车场设计总说明11-14
中学生骑“死飞”自行车被撞死案例分析09-21
数据结构--员工管理信息系统代码05-03
开平百格刀和百格刀价格05-18
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 数据挖掘
- 作业
- 0801303