数据挖掘第三次作业0801303吕良

更新时间:2023-10-28 09:33:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第三次作业

1、 请用ID3进行决策树归纳,根据表1给出的14个例子,构造关于天气状况的决

策树。

天气状况的决策树用图形表示为:

2、考虑一个二值分类问题,属性集和属性值如下。 ● 空调 = {可用,不可用}。 ● 引擎 = {好,差}。

● 行车里程 = {高,中,低}。 ● 生锈 = {是,否}。

假设一个基于规划的分类器产生的规则集如下。

(a)这些规则是互斥的吗? (b)这些规则集是完全的吗? 答:

(a)不是互斥的

因为{空调=不可用,行车里程 =低}会触发两条规则

(b)也不是完全的

因为{行车里程 = 中}的记录没有被规则覆盖

3、考虑表2中的一维数据集。

(a)根据1—最近邻、3—最近邻、5—最近邻及9—最近邻,对数据点x=5.0分类(使用多数表决)。

(b)使用距离加权表决方法wi=1/d(x’ , xi)2重复前面的分析。

(a) K-最近邻x 1 3 5 9 (b) X 0.5 y Wi - 0.049 3.0 - 0.25 4.5 + 4 4.6 + 6.25 4.9 + 100 分类y + - + -- 5.2 - 25 5.3 - 11.11 5.5 + 4 7.0 - 0.25 9.5 - 0.049 ∑w- = 36.708

∑w+ =114.25

4、如何评估分类器的准确率?

holdout和交叉验证是两个常用的评估分类器预测准确率的技术,它们均是在给定数据集中随机取样划分数据。

holdout:将所给定的数据集随机划分成两个独立部分:一个座位训练数据集,而另一个作为测试数据集,通常训练数据集包含初始数据集中的三分之二的数据,而其余的三分之一则作为测试数据集的内容。利用训练集数据学习获得一个分类器,然后使用测试数据集对该分类器预测准确率进行评估,由于仅使用初始数据集中的一部分进行学习,因此对所得分类器预测准确性的估计应该是悲观的估计。随机取样是holdout方法的一种变化,在随机取样方法中,重复利用holdout方法进行预测准确率估计k次,最后对这k次所获得的预测准确率求平均,以便获得最终的预测准确率。

k-交叉验证:将初始数据集随机分为k个互不相交的子集,S1,S2,...,Sk,每个子集大小基本相同。学习和测试分别进行k次,在第i次循环中,子集Si作为测试集,其他子集则合并到一起构成一个大训练数据集并通过学习获得相应的分类器,也就是第一次循环,使用S2....Sk作为训练数据集,S1作为测试数据集;而在第二次循环时,使用S1,S3,...,Sk作为训练数据集,S2作为测试数据集;如此下去等等。而对整个初始数据所得分类器的准确率估计则可用k次循环中所获得的正确分类数目之和除以初始数据集的大小来获得。在分层交叉验证中,将所划分的子集层次化以确保每个子集中的各类别分布与初始数据集中的类别分布基本相同。

本文来源:https://www.bwwdw.com/article/l4e2.html

Top