数据挖掘原理与实践 蒋盛益 答案

更新时间:2023-12-08 16:31:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

习题参考答案 第 1 章绪论

1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。

答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以 来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同, 可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的 数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是 Web 数据 信息。

实际生活的例子:

①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所 开通的服务等,据此进行客户群体划分以及客户流失性分析。

②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文 学家发现其他未知星体。

③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。 ④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。 1.2 给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖 掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?

答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。随着各个电子商 务网站的建立,企业纷纷地从“产品导向”转向“客户导向”,如何在保持现有的客户 同时吸引更多的客户、如何在客户群中发现潜在价值,一直都是电子商务企业重要任务。 但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行 一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中 挖掘潜在的价值。而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多 种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服 务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等, 从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。

1.3 假定你是 Big-University 的软件工程师,任务是设计一个数据挖掘系统,分析学校课程 数据库。该数据库包括如下信息:每个学生的姓名、地址和状态(例如,本科生或研究生)、 所修课程,以及他们的 GPA。描述你要选取的结构,该结构的每个成分的作用是什么? 答:任务目的是分析课程数据库,那么首先需要有包含信息的关系型数据库系统,以便查找、 提取每个属性的值;在取得数据后,需要有特征选择模块,通过特征选择,找出要分析 的属性;接下来需要一个数据挖掘算法,或者数据挖掘软件,它应该包含像分类、聚类、 关联分析这样的分析模块,对选择出来的特征值进行分析处理;在得到结果后,可以用 可视化软件进行显示。

1.4 假定你作为一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。通过特定的例子说明, 数据挖掘可以为公司提供哪些帮助,如何使用聚类、分类、关联规则挖掘和离群点检测 等技术为企业服务。 答:

(1) 使用聚类发现互联网中的不同群体,用于网络社区发现; 第 2 页 共 27 页

(2) 使用分类对客户进行等级划分,从而实施不同的服务;

(3) 使用关联规则发现大型数据集中间存在的关系,用于推荐搜索。如大部分搜索了“广 外”的人都会继续搜索“信息学院”,那么在搜索“广外”后会提示是否进进一步搜

索“信息学院”。

(4) 使用离群点挖掘发现与大部分对象不同的对象,用于分析针对网络的秘密收集信息 的攻击。

1.5 定义下列数据挖掘功能:关联、分类、聚类、演变分析、离群点检测。使用你熟悉的生 活中的数据,给出每种数据挖掘功能的例子。

答:关联是指发现样本间或样本不同属性间的关联。例如,一个数据挖掘系统可能发现 的关联规则为:maj or(X, “comput i ng sci ence”)?owns(X, “personal comput er”)

[ support =12%, conf i dence=98%] 其中,X是一个表示学生的变量。该规则指出主修计 算机科学并且拥有一台个人计算机的学生所占比例为 12%,同时,主修计算机专业的学 生有 98%拥有个人计算机。

分类是构造一系列能描述和区分数据类型或概念的模型(或功能),分类被用作预测

目标数据的类的标签。例如,通过对过去银行客户流失与未流失客户数据的分析,得到 一个预测模型,预测新客户是否可能会流失。

聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中 对象相似度最小。例如,通过对某大型超市客户购物数据进行聚类,将客户聚类细分为 低值客户、高值客户以及普通客户等。

数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间 相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括 时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 。 离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。 1.6 根据你的观察,描述一个可能的知识类型,它需要由数据挖掘方法发现,但本章未列出。 它需要一种不同于本章列举的数据挖掘技术吗? 答:建立一个局部的周期性作为一种新的知识类型,只要经过一段时间的偏移量在时间序列 中重复发生,那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技 术解决这类问题。

1.7 讨论下列每项活动是否是数据挖掘任务: (1)根据性别划分公司的顾客。 (2)根据可赢利性划分公司的顾客。 (3)计算公司的总销售额。

(4)按学生的标识号对学生数据库排序。 (5)预测掷一对骰子的结果。

(6)使用历史记录预测某公司未来的股票价格。 (7)监视病人心率的异常变化。 (8)监视地震活动的地震波。 (9)提取声波的频率。

答: (1) 不是,这属于简单的数据库查询。

(2) 不是,这个简单的会计计算;但是新客户的利润预测则属于数据挖掘任务。 (3) 不是,还是简单的会计计算。 第 3 页 共 27 页

(4) 不是,这是简单的数据库查询。

(5) 不是,由于每一面都是同等概率,则属于概率计算;如概率是不同等的,根据历 史数据预测结果则更类似于数据挖掘任务。

(6) 是,需要建立模型来预测股票价格,属于数据挖掘领域中的预测模型。可以使用 回归来建模,或使用时间序列分析。

(7) 是,需要建立正常心率行为模型,并预警非正常心率行为。这属于数据挖掘领域 的异常检测。若有正常和非正常心率行为样本,则可以看作一个分类问题。

(8) 是,需要建立与地震活动相关的不同波形的模型,并预警波形活动。属于数据挖 掘领域的分类。

(9) 不是,属于信号处理。 第 2 章数据处理基础

2.1 将下列属性分类成二元的、分类的或连续的,并将它们分类成定性的(标称的或序数的) 或定量的(区间的或比率的)。

例子:年龄。回答:分类的、定量的、比率的。 (a)用 AM 和 PM 表示的时间。 (b)根据曝光表测出的亮度。 (c)根据人的判断测出的亮度。 (d)医院中的病人数。 (e)书的 ISBN 号。

(f)用每立方厘米表示的物质密度。 答:(a)二元,定量,比率; (b)连续,定量 ,比率; (c)分类,定性,标称; (d)连续,定量,比率; (e)分类,定性,标称; (f)连续,定量,比率。

2.2 你能想象一种情况,标识号对于预测是有用的吗? 答:学生的 I D号可以预测该学生的毕业日期。

2.3 在现实世界的数据中,元组在某些属性上缺失值是常有的。请描述处理该问题的各种方 法。

答:处理遗漏值问题的策略有如下几种。

(1) 删除数据对象或属性。一种简单而有效的策略是删除具有遗漏值的数据对象。然而, 即使部分给定的数据对象也包含一些信息,并且,如果许多对象都有遗漏值,则很 难甚至不可能进行可靠的分析。尽管如此,如果一个数据集只有少量的对象具有遗 漏值,则忽略他们可能是合算的。一种相关的策略是删除具有遗漏值的属性。然而, 做这件事要小心,因为被删除的属性可能对分析是至关重要的。

(2) 估计遗漏值。有时,遗漏值可以可靠地估计。例如,在考虑以较平滑的方式变化的 具有少量但大大分散的遗漏值的时间序列,遗漏值可以使用其他值来估计(插值)。 作为另一个例子,考虑一个具有许多相似数据点的数据集。在这种情况下,与具有 遗漏值的点邻近的点的属性值常常可以用来估计遗漏的值。如果属性是连续的,则 可以使用最近邻的平均属性值;如果属性是分类的,则可以取最近邻中最常出现的 第 4 页 共 27 页 属性值。

(3) 在分析时忽略遗漏值。许多数据挖掘方法都可以修改,忽略遗漏值。例如。假定正 在对数据对象聚类,需要计算数据对象间的相似性;如果对于某属性,两个对象之 一或两个对象都有遗漏值,则可以仅使用没有遗漏值的属性来计算相似性。当然, 这种相似性只是紧邻的,但是除非整个属性数目很少,或者遗漏值的数量很大,否 则这种误差影响不大。同样的,许多分类方法都可以修改,处理遗漏值。 2.4 以下规范方法的值域是什么?

(a) min-max 规范化。 (b) z-score 规范化。 (c) 小数定标规范化。

答:(a)[ new_mi n, new_max] ; (b)(-∞, + ∞); (c)(-1. 0,1. 0)。

2.5 假定用于分析的数据包含属性 age,数据元组中 age 的值如下(按递增序): 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。 (a) 使用按箱平均值平滑对以上数据进行平滑,箱的深度为 3。解释你的步骤。评论对 于给定的数据,该技术的效果。

(b) 对于数据平滑,还有哪些其它方法?

答:(a)已知数据元组中 age 的值如下(按递增序):

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70, 且箱的深度为 3,划分为(等频)箱: 箱 1:13,15,16 箱 2:16,19,20 箱 3:20,21,22 箱 4:22,25,25 箱 5:25,25,30 箱 6:33,33,33 箱 7:35,35,35 箱 8:35,36,40 箱 9:45,46,52 箱 10:70

用箱均值光滑: 箱 1:15,15,15 箱 2:18,18,18 箱 3:21,21,21 箱 4:24,24,24 箱 5:27,27,37 箱 6:33,33,33 箱 7:35,35,35 箱 8:37,37,37 箱 9:48,48,48 箱 10:70;

第 5 页 共 27 页

(b)对于数据平滑,其它方法有:

(1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据;

(2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合 之外的值视为离群点。

2.6 使用习题 2.5 给出的 age 数据,回答以下问题:

(a) 使用 min-max 规范化,将 age 值 35 转换到[0.0,1.0]区间。

(b) 使用 z-score 规范化转换 age 值 35,其中,age 的标准偏差为 12.94 年。 (c) 使用小数定标规范化转换 age 值 35。

(d) 指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。 答:(a)已知最大值为 70,最小值为 13,则可将 35 规范化为: 386 . 0 13 - 70 13 - 35

= ;

(b)已知均值为 30,标准差为 12.94,则可将 35 规范化为: 386 . 0 4 .9 12 30 - 35

= ;

(c)使用小数定标规范化可将 35 规范化为: 35 . 0 100 35

= ;

(d)对于给定的数据,你愿意使用 min-max 规范化。理由是计算简单。 2.7 使用习题 2.5 给出的 age 数据

(a) 画一个宽度为 10 的等宽的直方图。

(b) 为以下每种抽样技术勾画例子:有放回简单随机抽样,无放回简单随机抽样,聚类 抽样,分层抽样。使用大小为 5 的样本和层“青年”,“中年”和“老年”。 答:(a)如下为宽度为 10 的等宽的直方图: (b)已知样本大小为 5 和层“青年”,“中年”和“老年”, (1)有放回简单随机抽样:30,33,30,25,30 (2)无放回简单随机抽样:30,33,33,35,25 (3)聚类抽样:16,25,33,35,46 (4)分层抽样:25,35,52

2.8 以下是一个商场所销售商品的价格清单(按递增顺序排列,括号中的数表示前面数字出现

次数)1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。 请分别用等宽的方法和等高的方法对上面的数据集进行划分。

答:(1)等宽方法:划分为 3个数据集,每个数据集的宽度为价格 10。价格在 1—10之间出

现次数为 13;价格在 11—20之间出现的次数为 24;价格在 21—30之间出现的次数 为 13。

(2)等高方法:划分为 2 个数据集,每个数据集的高度为出现的次数 4。出现次数 1—4 第 6 页 共 27 页

之间的价格为 1、8、10、12、14、21、28、30,共 8 个数据;出现次数 5—8 之间 的价格为 5、15、18、20、25,共 5个数据。 2.9 讨论数据聚合需要考虑的问题。 答:数据聚合需要考虑的问题有:

(1)模式识别:这主要是实体识别问题;

(2)冗余:一个属性是冗余的,即它能由另一个表导出,如果属性或维的命名不一致, 也可能导致冗余,可以用相关分析来检测;

(3)数据值冲突的检测与处理:有些属性因表示比例或编码不同,会导致属性不同。

2.10 假定我们对一个比率属性 x 使用平方根变换,得到一个新属性 x*。作为分析的一部

7

= ? ? = ? = = F A T A E E E

按照属性 B 划分样本集分别得到的两个子集(B 取值 T 和 B 取值 F)的信息熵分别为: 0.8113 4 1 log 4 1 4 3 log 4 3 E

2 2 T B = ? ? = =

0.6500 6 5 log 6 5 6 1 log 6 1 E

2 2 F B = ? ? = =

按照属性 B 划分样本集得到的信息增益为:10 6 10 4

= ? ? = ? = = F B T B E E E

因此,决策树归纳算法将会选择属性 A。

0.2565 (2)

划分前的 Gini 值为 G=1-0.4 2 -0.6 2 =0.48 按照属性 A 划分时 Gini 指标: 0.4898 7 3 7 4 1 G 2 2 T A

? ? = = 0 3 0 3 3 1 G 2 2 F A

?

? = =

Gini 增益 0.1371 10 3 10 7

= ? ? = ? = = F A T A G G G

按照属性 B 划分时 Gini 指标: 0.3750 4 3 4 1 1 G 2 2 T B

? ? = =

0.2778 6 5 6 1 1 2 2

? ? = =F B G

Gini 增益 0.1633 10 6 10 4

= ? ? = ? = = F B T B G G G

因此,决策树归纳算法将会选择属性 B。

3.5 证明:将结点划分为更小的后续结点之后,结点熵不会增加。

证明:根据定义可知,熵值越大,类分布越均匀;熵值越小,类分布越不平衡。假设原有的 结点属于各个类的概率都相等,熵值为 1,则分出来的后续结点在各个类上均匀分布, 此时熵值为 1,即熵值不变。假设原有的结点属于个各类的概率不等,因而分出来的 B=T B=F + 3 1 - 1 5

第 11 页 共 27 页

后续结点不均匀地分布在各个类上,则此时的分类比原有的分类更不均匀,故熵值减 少。

3.6 为什么朴素贝叶斯称为“朴素”?简述朴素贝叶斯分类的主要思想。 答:朴素贝叶斯之所以称之为朴素是因为,它假设属性之间是相互独立的。

朴素贝叶斯分类的主要思想为:利用贝叶斯定理,计算未知样本属于某个类标号值的概 率,根据概率值的大小来决定未知样本的分类结果。

(通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的 概率,选择具有最大后验概率的类作为该对象所属的类。) 3.7 考虑表 3-24数据集,请完成以下问题: 表 3-24 习题 3. 7数据集 记录号 A B C 类 1 0 0 0 + 2 0 0 1 - 3 0 1 1 - 4 0 1 1 -

5 0 0 1 + 6 1 0 1 + 7 1 0 1 - 8 1 0 1 - 9 1 1 1 + 10 1 0 1 +

(1) 估计条件概率 ) | ( + A P , ) | ( + B P , ) | ( + C P , ) | ( ? A P , ) | ( ? B P , ) | ( ? C P 。

(2) 根据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类 标号;

(3) 使用 Laplace 估计方法,其中 p=1/2,l=4,估计条件概率 ) | ( + A P , ) | ( + B P , ) | ( + C P ,

) | ( ? A P , ) | ( ? B P , ) | ( ? C P 。 (4) 同(2),使用(3)中的条件概率

(5) 比较估计概率的两种方法,哪一种更好,为什么? 答:(1) ) | ( + A P =3/5 ) | ( + B P =1/5 ) | ( ? A P =2/5 ) | ( ? B P =2/5 ) | ( ? C P =1

(2) 假设 P(A=0,B=1,C=0)=K 则 K 属于两个类的概率为:

P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K

=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=0.4×0.2×0.2×0.5/K=0.008/K P(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K

=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=0.4×0.2×0×0.5/K=0/K 则得到,此样本的类标号是+。 第 12 页 共 27 页

(3) P(A|+)=(3+2)/(5+4)=5/9 P(A|-)=(2+2)/(5+4)=4/9 P(B|+)=(1+2)/(5+4)=1/3 P(B|-)=(2+2)/(5+4)=4/9 P(C|-)=(0+2)/(5+4)=2/9 (4) 假设 P(A=0,B=1,C=0)=K 则 K 属于两个类的概率为:

P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K =P(A=0|+)P(B|+)P(C=0|+)×P(+)/K =(4/9) ×(1/3) ×(1/3) ×0.5/K=0.0247/K P(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K =P(A=0|-)P(B|-)P(C=0|-)×P(-)/K

=(5/9) ×(4/9) ×(2/9) ×0.5/K=0.0274/K 则得到,此样本的类标号是-。

(5) 当条件概率为 0 的时候,条件概率的预测用 Laplace 估计方法比较好,因为我们不 想整个条件概率计算结果为 0.

3.8 考虑表 3-25 中的一维数据集。 表 3-25 习题 3.8 数据集

X 0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5 Y - - + + + - - + - -

根据 1-最近邻、3-最近邻、5-最近邻、9-最近邻,对数据点 x=5.0 分类,使用多数表决。 答: 1-最近邻:+ 3-最近邻:- 5-最近邻:+ 9-最近邻:-

3.9 表 3-26 的数据集包含两个属性 X 与 Y,两个类标号“+”和“-”。每个属性取三个不同

值策略:0,1 或 2。“+”类的概念是 Y=1,“-”类的概念是 X=0 and X=2。 表 3-26 习题 3.9 数据集 实例数 X Y + -

0 0 0 100 1 0 0 0 2 0 0 100 1 1 10 0 2 1 10 100 0 2 0 100 1 2 0 0 2 2 0 100

第 13 页 共 27 页

(1) 建立该数据集的决策树。该决策树能捕捉到“+”和“-”的概念吗?

(2) 决策树的准确率、精度、召回率和 F1 各是多少?(注意,精度、召回率和 F1 量均是 对“+”类定义)

(3) 使用下面的代价函数建立新的决策树,新决策树能捕捉到“+”的概念么? + = ? = + ?

? = + = = =

j i j i j i j i C , , 1 0 ) , (

如果 实例个数 实例个数 如果 如果

(提示:只需改变原决策树的结点。)

答:(1)在数据集中有 20 个正样本和 500 个负样本,因此在根节点处错误率为 520 20 ) 520 500 , 520 20

max( 1 = ? = E

如果按照属性 X 划分,则: X=0 X=1 X=2 + 0 10 10 - 200 0 300 E X=0 =0/310=0 E X=1 =0/10=0 E X=2 =10/310 520 10 310 10 520 310 0 520 10 0 520 200

= × ? × ? × ? = ? E

X

如果按照属性 Y 划分,则: Y=0 Y=1 Y=2 + 0 20 0

- 200 100 200 E Y=0 =0/200=0 E Y=1 =20/120 E Y=2 =0/200=0 0 120 20 520 120

= × ? = ? E X

因此 X 被选为第一个分裂属性,因为 X=0 和 X=1 都是纯节点,所以使用 Y 属性去 分割不纯节点 X=2。

Y=0 节点包含 100 个负样本,Y=1 节点包含 10 个正样本和 100 个负样本,Y=2 节 点包含 100 个负样本,所以子节点被标记为“—”。整个结果为: 类标记= ? = + 其他 , 1 , X (2)

预测类 + -

+ 10 10 实际类 - 0 500

第 14 页 共 27 页 accuracy: 520 510

=0.9808,precision: 10 10 =1.0 recall: 20 10

=0.5 , F-measure:

5 . 0 0 . 1 0 . 1 5 . 0 2 + ? ?

=0.6666

(3)由题可得代价矩阵为 预测类 + -

+ 0 500/20=25 实际类 - 1 0

决策树在(1)之后还有 3 个叶节点,X=2∧Y=0,X=2∧Y=1,X=2∧Y=2。其中

X=2∧Y=1 是不纯节点,误分类该节点为“+”类的代价为:10 ? 0+100 ? 1=100,误分 该节点为“—”类的代价为:10 ? 25+100 ? 0=250。所以这些节点被标记为“+”类。 分类结果为: ( ) ?

= ∧ = ∨ = + = 其他 类标记 1 2 1 Y X X

3.10 什么是提升?陈述它为何能提高决策树归纳的准确性?

答:提升是指给每个训练元组赋予权重,迭代地学习 k 个分类器序列,学习得到分类器 M i

之后,更新权重,使得其后的分类器 M i+1 “更关注”M i 误分的训练元组,最终提升的 分类器 M*组合每个个体分类器,其中每个分类器投票的权重是其准确率的函数。在提 升的过程中,训练元组的权重根据它们的分类情况调整,如果元组不正确地分类,则它 的权重增加,如果元组正确分类,则它的权重减少。元组的权重反映对它们分类的困难 程度,权重越高,越可能错误的分类。根据每个分类器的投票,如果一个分类器的误差 率越低,提升就赋予它越高的表决权重。在建立分类器的时候,让具有更高表决权重的 分类器对具有更高权重的元组进行分类,这样,建立了一个互补的分类器系列。所以能 够提高分类的准确性。

3.11 表 3-27 给出课程数据库中学生的期中和期末考试成绩。 表 3-27 习题 3.11 数据集 期中考试 期末考试 X Y 72 84 50 63 81 77 74 78 94 90

86 75 59 49 83 79 65 77 33 52 88 74

第 15 页 共 27 页 81 90

(1) 绘制数据的散点图。X 和 Y 看上去具有线性联系吗?

(2) 使用最小二乘法,由学生课程中成绩预测学生的期末成绩的方程式。 (3) 预测期中成绩为 86 分的学生的期末成绩。 答:(1)数据图如下所示: 0 10 20 30 40 50 60 70 80 90 100

0 20 40 60 80 100

系列1

X 和 Y 具有线性联系。 (2)

Y = a + b*X a = Y 0 + b*X 0

b = (∑x i y i -nX 0 Y 0 )/(∑x i 2 -nX 0 2 ) X 0 = (∑x i )/n Y 0 = (∑y i )/n

求得 a = 32.0279,b = 0.5816。

(3) 由(2)中表可得,预测成绩为 86 分的学生的期末成绩为 82.0455。

3.12 通过对预测变量变换,有些非线性回归模型可以转换成线性模型。指出如何将非线性回 归方程 β

ax y = 转换成可以用最小二乘法求解的线性回归方程。 X Y X*Y X^2 预测 Y

1 72 84 6048 5184 73. 9031 2 50 63 3150 2500 61. 1079 3 81 77 6237 6561 79. 1375 4 74 78 5772 5476 75. 0663

答: 离群点是指与大部分其它对象不同的对象,在数据的散布图中,它们远离其它数据点, 其属性值显著地偏离期望的或常见的属性值。(1) 因为离群点可能是度量或执行错误所 导致的,例如相对少的离群点可能扭曲一组值的均值和标准差,或者改变聚类算法产生 的簇的集合。(2) 因为离群点本身可能是非常重要的,隐藏着重要的信息,在欺诈检测, 入侵检测等方面有着广泛的应用。所以离群点挖掘是非常重要的。

6. 2 讨论基于如下方法的离群点检测方法潜在的时间复杂度:使用基于聚类的、基于距离 的和基于密度的方法。不需要专门技术知识,而是关注每种方法的基本计算需求,如 计算每个对象的密度的时间需求。

答:如果使用 K-means 算法,它的时间复杂度就是 ) ( n O ,一般基于邻近度和基于密度的算

法的时间复杂度都是 ) ( 2

n O ,但是对于低维数据,使用专门的数据结构,如树或者 k-d 第 26 页 共 27 页 树,可以把基于邻近度的算法的时间复杂度降低到 ) log ( n n O ,而对基于密度的算法来说, 如果使用基于网格的算法,则可以把时间复杂度降低到 ) (n O ,但这种方法不太精确而 且也是用于低维数据。

6. 3 许多用于离群点检测的统计检验方法是在这样一种环境下开发的:数百个观测就是一 个大数据集。我们考虑这种方法的局限性:

(a) 如果一个值与平均值的距离超过标准差的三倍,则检测称它为离群点。对于 1000000个值的集合,根据该检验,有离群点的可能性有多大?(假定正态分布); (b) 一种方法称离群点是具有不寻常低概率的对象。处理大型数据集时,该方法需要 调整吗?如果需要,如何调整? 答:(a)如果指的是单面的点的距离超过标准差的 3 倍,那么概率就是 0. 00135,则有 1350 个离群点;如果指的是两面的点的距离超过标准差的 3倍,那么概率就是 0. 0027, 则有 2700个离群点。

(b)具有百万个对象的数据集中,有成千上万个离群点,我们可以接受它们作为离群点 或者降低临界值用以减少离群点。

6. 4 假定正常对象被分类为离群点的概率是 0. 01,而离群点被分类为离群点概率为 0. 99, 如果 99%的对象都是正常的,那么假警告率或误报率和检测率各为多少?(使用下面的 定义)

离群点的总数

检测出的离群点个数 检测率 =

被分类为离群点的个数 假离群点的个数 假警告率 =

答: 假警告率=(99%*1%)/ (99%*1%+1%*99%)=50% 检测率=(1%*99%)/ (1%)=99%

6. 5 从包含大量不同文档的集合中选择一组文档,使得它们尽可能彼此相异。如果我们认为 相互之间不高度相关(相连接、相似)的文档是离群点,那么我们选择的所有文档可能 都被分类为离群点。一个数据集仅由离群对象组成可能吗?或者,这是误用术语吗?

答:离群点暗含的意思是稀有的、不常见的,有很多离群点的定义在一定的程度上融合了这 个概念。然而, 在一些情况下, 离群点通常不会普遍发生,举一个相关例子:网络故障,

但有一个具体的定义。这就使得它能够区分这两种情况:纯粹检测一个异常和所要处理 的对象大多数都是异常。同时,如果异常的概念是由数学或由算法定义的,这些定义可 能会导致这样的一种情况:所研究的数据集中大部分或所有的对象都被归类为异常。另 一种观点则可能认为如果不能够定义一种有意义的正常的情形,那么所有的对象都是异 常。(“独特“这一术语通常也是用于这种情况。)总的来说,这可以被看作是哲学问题 或语义问题。一个好的定义(尽管不可能是没有争议的)是能够分辨出当所收集的对象大 多数或全部都是异常这一种情况。

6. 6 考虑一个点集,其中大部分点在低密度区域,少量点在高密度区域。如果我们定义离群 点为低密度区域的点,则大部分点被划分为离群点。这是对基于密度的离群点定义的 适当使用吗?是否需要用某种方式修改该定义?

答:如果密度有一个绝对意义,比如被指定到某一定义域内,那么它可能会非常合理的考虑 第 27 页 共 27 页

把大部分的点作为异常。然而,在很多情况下,为了能够准确使用异常检测技术,通常 会考虑使用相对密度这一概念。

6. 7 一个数据分析者使用一种离群点检测算法发现了一个离群子集。出于好奇,该分析者对 这个离群子集使用离群点检测算法。

(a) 讨论本章介绍的每种离群点检测技术的行为。(如果可能,使用实际数据和算法来 做);

(b) 当用于离群点对象的集合时,你认为离群点检测算法将做何反应?

答:(a)在某些情况下,以统计学为基础的异常检测技术,在离群子集上使用这将是无效的 使用技术,因为这种检测方法的假设将不再成立。对于那些依赖于模型的方法也是 如此。以邻近点为基础或者以密度为基础的方法主要取决于特定的技术。如果保留 原来的参数,使用距离或密度的绝对阈值的方法会将异常归类为一个异常对象的集 合。其他相关方法会将大部分异常归类为普通点或者将一部分归类为异常。

(b)一个对象是否异常取决于整个对象的集合。因此,期望一种异常检测技术能够辨别 一个异常集合,就像原始集合中并不存在这样一个异常集合,这是不合理的。

本文来源:https://www.bwwdw.com/article/lsut.html

Top