数据挖掘作业答案

更新时间：2023-10-18 04:27:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

数据挖掘作业答案推荐度：
相关推荐

数据挖掘作业答案

第二章数据准备

5.推出在[-1,1]区间上的数据的最小－最大标准化公式。

解：标准化相当于按比例缩放，假如将在[minA,maxA]间的属性A的值v映射到区间[new_minA,new_maxA]，根据同比关系得：

(v-minA)/(v’-new_minA)=(maxA-minA)/(new_maxA-new_minA)

化简得：v’=(v-minA)* (new_maxA-new_minA)/ (maxA-minA)+ new_minA

6.已知一维数据集X={-5.0 , 23.0 , 17.6 , 7.23 , 1.11},用下述方法对其进行标准化： a) 在[-1,1]区间进行小数缩放。

解：X’={-0.050 ， 0.230 ， 0.176 ， 0.0723 ， 0.0111} b) 在[0,1]区间进行最小－最大标准化。

解：X’={0 , 1 , 0.807 ， 0.437 ， 0.218 } c) 在[-1,1]区间进行最小－最大标准化。

解：X’={-1 , 1 , 0.614 , -0.126 , 0.564} d) 标准差标准化。

解：mean=8.788 sd=11.523

X’={-1.197 , 1.233 , 0.765 , -0.135 , -0.666} e) 比较上述标准化的结果，并讨论不同技术的优缺点。

解：小数缩放标准化粒度过大(以10为倍数)，但计算简单；最小-最大值标准化需要搜索整

个数据集确定最小最大数值，而且最小最大值的专家估算可能会导致标准化值的无意识的集中。标准差标准化对距离测量非常效，但会把初始值转化成了未被认可的形式。

8.已知一个带有丢失值的四维样本。 X1={0,1,1,2} X2={2,1,*,1} X3={1,*,*,-1} X4={*,2,1,*}

如果所有属性的定义域是[0,1,2]，在丢失值被认为是“无关紧要的值”并且都被所给的定义域的所有可行值替换的情况下，“人工”样本的数量是多少？解：X1 “人工”样本的数量为 1 X2 “人工”样本的数量为 3 X3 “人工”样本的数量为 9 X4 “人工”样本的数量为 9

所以“人工”样本的数量为1×3×9×9＝243

10．数据库中不同病人的子女数以矢量形式给出： C={3，1，0，2，7，3，6，4，-2，0，0，10，15，6}

a) 应用标准统计参数——均值和方差，找出C中的异常点： mean=3.9286 sd=4.4153 在 3个标准差下的阈值：

阈值=均值±3*标准差=3.928±3*4.4153=[-9.318，17.174]

根据实际情况子女数不可能为负数，所以其范围可缩减为：[0，17.174] C中的异常点有：-2

b) 在 2个标准差下的阈值：

阈值=均值±2*标准差=3.928±2*4.4153=[-4.903，12.758]

根据实际情况子女数不可能为负数，所以其范围可缩减为：[0，12.758] C中的异常点有：-2, 15

11．已知的三维样本数据集X：

X=[{1，2，0}，{3，1，4}，{2，1，5}，{0，1，6}，{2，4，3}，{4，4，2}，{5，2，1}，{7，7，7}，{0，0，0}，{3，3，3}]。

a) 在下述条件下用基于距离技术找出异常点：

i) 距离阈值d≥4，非邻点样本的阈值部分p≥3 ii) 距离阈值d≥6，非邻点样本的阈值部分p≥2

X1 X2 X3 X4 X5 X6 X7 X8 X9 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 P(d≥4) 6 4 5 7 4 5 7 9 8 3 P(d≥6) 2 2 1 5 1 3 3 9 3 1 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 4.5826 5.1962 6.1644 3.7417 4.1231 4.1231 10.4881 2.2361 3.742 1.4142 3.6056 3.3166 3.7417 7.7417 7.8102 2.2361 3.6056 4.6904 5.0990 8.0623 4.6904 6.4031 7.1414 9.2736 2.2360 4.1231 7.0711 2.4495 6.5574 8.0623 5.0990 2.236 5.4772 3.0 6.0828 4.690 5.3852 1.414 6.0 1.732 5.4772 3.0 12.124 6.928 5.196 d≥4, p≥3时异常点是X1，X2，X3，X4，X5，X6，X7，X8，X9，X10 d≥6, p≥2时异常点是X1，X2，X4，X6，X7，X8，X9

第三章数据归约 3. 特征的值的子集为：

X10?{2.5,5.6,8.1};X11?{7.2,3.4,4.8,6.3} X20?{1.6,3.6,4.9};X21?{4.3,5.8,7.2,4.8}

X30?{5.9,6.8,8.3};X31?{2.1,1.6,3.1,2.4}

Mean(X10)=5.4;V(X10)=7.87;Mean(X11)=5.425;V(X11)=2.8025 Mean(X20)=3.367;V(X20)=2.76;Mean(X21)=5.525;V(X21)=1.636

Mean(X30)=7;V(X30)=1.47;Mean(X31)=2.3;V(X31)=0.393 SE(X10-X11)=

V（X10）V(X11)?=2.820 n1n2SE（X20?X21）=1.153 SE（X30?X31）=0.767

|mean(X10)-mean(X11)|／SE(X10-X11)=0.014 |mean(X20)-mean(X21)|／SE（X20?X21）=1.872

|mean(X30)|-mean(X31)／SE（X30?X31）=6.13 由上面结果可以看出X1＜X2＜X3

5．(a)用最佳分割点对下面的问题进行值的分箱归约 i)先排序得I3={1.6，2.1，2.4，3.1，5.9，6.8，8.3} 分成两个箱：{{1.6，2.1，2.4，3.1}，{5.9，6.8，8.3}} 用均值代替：{{2.3，2.3，2.3，2.3}，{7.0，7.0，7.0}} ii) 先排序得X2={2.8，3.1，3.4，4.1，5.8，6.2} 分成两个箱：{{2.8，3.1，3.4}，{4.1，5.8，6.2}}

用最邻近边界值代替：{{2.8，2.8，3.4}，{4.1，6.2，6.2}} (b)如用近似值归约I3={2.0，2.0，2.0，3.0，6.0，7.0，8.0} 误差EI3=0.4+0.1+0.4+0.1+0.1+0.2+0.3=1.6

而用均值归约的误差为：E’I3=0.7+0.2+0.1+0.8+1.1+0.2+1.3=4.4>1.6

说明用近似值归约误差比均值小，但因为归约后还有5个值，多于均值的2个值，说明归约数量不如均值归约。 X2的计算同上，略

第五章统计方法

3. 由表5-1中的抽样，用简单贝叶斯分类法预测下面样本的类别 a){2，1，1}

解： P(C=1)=4/7 P(C=2)=3/7 P(A1=2|C=1)=0

出现零概率，为消除该影响，采用拉普拉斯校准，即分类C=1包含4个样本，有0个样本属性A1=2，有2个样本A1=0，有2个样本A1=1 。对这三个量使用拉普拉斯校准，假定每组增加一个样本，即有1个样本属性A1=2，有3个样本A1=0，有3个样本A1=1。则得：

P(A1=2|C=1)=1/7 P(A2=1|C=1)=1/4 P(A3=1|C=1)=1/4 P(A1=2|C=2)=2/3 P(A2=1|C=2)=1/3 P(A3=1|C=2)=1/3 则P(X| Ci)为：

P(X|C=1)= P(A1=2|C=1)* P(A2=1|C=1)* P(A3=1|C=1)=1/112 P(X|C=2)= P(A1=2|C=2)* P(A2=1|C=2)* P(A3=1|C=2)=2/27 可得P(X| Ci)* P(Ci)：

P(X|C=1)* P(C=1)=(1/112)*(4/7)=1/196 P(X|C=2)* P(C=2)=(2/27)*(3/7)=2/63 所以该样本属于类C=2

b){0，1，1}

解： P(C=1)=4/7 P(C=2)=3/7

P(A1=0|C=1)=2/4=1/2 P(A2=1|C=1)=1/4 P(A3=1|C=1)=1/4 P(A1=0|C=2)=0

出现零概率，为消除该影响，采用拉普拉斯校准得：

P(A1=0|C=2)=1/6 P(A2=1|C=2)=1/3 P(A3=1|C=2)=1/3 则P(X| Ci)为：

P(X|C=1)= P(A1=0|C=1)* P(A2=1|C=1)* P(A3=1|C=1)=1/32 P(X|C=2)= P(A1=0|C=2)* P(A2=1|C=2)* P(A3=1|C=2)=1/54 可得P(X| Ci)* P(Ci)：

P(X|C=1)* P(C=1)=(1/32)*(4/7)=1/56 P(X|C=2)* P(C=2)=(1/54)*(3/7)=1/126 所以该样本属于类C=1

4. 已知一组含X和Y的二维数据集，如下表 X Y 1 5 4 2.75 3 3 5 2.5

a)用线性回归方法计算y=α+βx中的参数α和β。 b)用相关系数r估计a)中求得的模型的性能。

mean 解：a) x=3.25

mean y=3.125

nn xβ?[?(xi? i?1?yi? y??i?1xi?2 x

=-0.6357

α? mean ?β?mean yx

=5.3786

nb)

Sxx??i?1(xi?meanx)2

=8.75

nSyy??i?1(yi?meany)2

=3.9219

相关系数：r???(Sxx/Syy)??0.95 表明两个变量间线

性关联强负相关，模型有效。

第6章聚类分析

3.解：（1）MND(A,B)=NN(A,B)+NN(B,A)=1+1=2 MND(A,C)=NN(A,C)+NN(C,A)=2+2=4

MND(B,C)=NN(B,C)+NN(C,B)=1+2=3

A和B比A、B和C具有更高的相似度，A和B为一类，C为一类（2）MND(A,B)=NN(A,B)+NN(B,A)=1+3=4 MND(A,C)=NN(A,C)+NN(C,A)=2+4=6

本文来源：https://www.bwwdw.com/article/c3tf.html

相关文章：

正在阅读：

数据挖掘作业答案10-18

九年级化学第十二单元课题1《人类重要的营养物质》导学案aaa10-15

光学题解203-22

2015网络工程师下半年下午题附答案 - 图文10-23

2013会计继续教育考试及答案医院会计制度05-31

云南省2017年一级建造师《项目管理》：施工成本计划试题05-31

《春节的习俗》作文范文精彩10篇04-02

2017新学期家长寄语02-13

太阳能如何上水-太阳能上水相关常识知识汇总01-02

领带打结方法08-12