数据挖掘作业答案

更新时间:2023-10-18 04:27:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

数据挖掘作业答案

第二章 数据准备

5.推出在[-1,1]区间上的数据的最小-最大标准化公式。

解:标准化相当于按比例缩放,假如将在[minA,maxA]间的属性A的值v映射到区间[new_minA,new_maxA],根据同比关系得:

(v-minA)/(v’-new_minA)=(maxA-minA)/(new_maxA-new_minA)

化简得:v’=(v-minA)* (new_maxA-new_minA)/ (maxA-minA)+ new_minA

6.已知一维数据集X={-5.0 , 23.0 , 17.6 , 7.23 , 1.11},用下述方法对其进行标准化: a) 在[-1,1]区间进行小数缩放。

解:X’={-0.050 , 0.230 , 0.176 , 0.0723 , 0.0111} b) 在[0,1]区间进行最小-最大标准化。

解:X’={0 , 1 , 0.807 , 0.437 , 0.218 } c) 在[-1,1]区间进行最小-最大标准化。

解:X’={-1 , 1 , 0.614 , -0.126 , 0.564} d) 标准差标准化。

解:mean=8.788 sd=11.523

X’={-1.197 , 1.233 , 0.765 , -0.135 , -0.666} e) 比较上述标准化的结果,并讨论不同技术的优缺点。

解:小数缩放标准化粒度过大(以10为倍数),但计算简单;最小-最大值标准化需要搜索整

个数据集确定最小最大数值,而且最小最大值的专家估算可能会导致标准化值的无意识的集中。标准差标准化对距离测量非常效,但会把初始值转化成了未被认可的形式。

8.已知一个带有丢失值的四维样本。 X1={0,1,1,2} X2={2,1,*,1} X3={1,*,*,-1} X4={*,2,1,*}

如果所有属性的定义域是[0,1,2],在丢失值被认为是“无关紧要的值”并且都被所给的定义域的所有可行值替换的情况下,“人工”样本的数量是多少? 解:X1 “人工”样本的数量为 1 X2 “人工”样本的数量为 3 X3 “人工”样本的数量为 9 X4 “人工”样本的数量为 9

所以“人工”样本的数量为1×3×9×9=243

10.数据库中不同病人的子女数以矢量形式给出: C={3,1,0,2,7,3,6,4,-2,0,0,10,15,6}

a) 应用标准统计参数——均值和方差,找出C中的异常点: mean=3.9286 sd=4.4153 在 3个标准差下的阈值:

阈值=均值±3*标准差=3.928±3*4.4153=[-9.318,17.174]

根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,17.174] C中的异常点有:-2

b) 在 2个标准差下的阈值:

阈值=均值±2*标准差=3.928±2*4.4153=[-4.903,12.758]

根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,12.758] C中的异常点有:-2, 15

11.已知的三维样本数据集X:

X=[{1,2,0},{3,1,4},{2,1,5},{0,1,6},{2,4,3},{4,4,2},{5,2,1},{7,7,7},{0,0,0},{3,3,3}]。

a) 在下述条件下用基于距离技术找出异常点:

i) 距离阈值d≥4,非邻点样本的阈值部分p≥3 ii) 距离阈值d≥6,非邻点样本的阈值部分p≥2

X1 X2 X3 X4 X5 X6 X7 X8 X9 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 P(d≥4) 6 4 5 7 4 5 7 9 8 3 P(d≥6) 2 2 1 5 1 3 3 9 3 1 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 4.5826 5.1962 6.1644 3.7417 4.1231 4.1231 10.4881 2.2361 3.742 1.4142 3.6056 3.3166 3.7417 7.7417 7.8102 2.2361 3.6056 4.6904 5.0990 8.0623 4.6904 6.4031 7.1414 9.2736 2.2360 4.1231 7.0711 2.4495 6.5574 8.0623 5.0990 2.236 5.4772 3.0 6.0828 4.690 5.3852 1.414 6.0 1.732 5.4772 3.0 12.124 6.928 5.196 d≥4, p≥3时异常点是X1,X2,X3,X4,X5,X6,X7,X8,X9,X10 d≥6, p≥2时异常点是X1,X2,X4,X6,X7,X8,X9

第三章 数据归约 3. 特征的值的子集为:

X10?{2.5,5.6,8.1};X11?{7.2,3.4,4.8,6.3} X20?{1.6,3.6,4.9};X21?{4.3,5.8,7.2,4.8}

X30?{5.9,6.8,8.3};X31?{2.1,1.6,3.1,2.4}

Mean(X10)=5.4;V(X10)=7.87;Mean(X11)=5.425;V(X11)=2.8025 Mean(X20)=3.367;V(X20)=2.76;Mean(X21)=5.525;V(X21)=1.636

Mean(X30)=7;V(X30)=1.47;Mean(X31)=2.3;V(X31)=0.393 SE(X10-X11)=

V(X10)V(X11)?=2.820 n1n2SE(X20?X21)=1.153 SE(X30?X31)=0.767

|mean(X10)-mean(X11)|/SE(X10-X11)=0.014 |mean(X20)-mean(X21)|/SE(X20?X21)=1.872

|mean(X30)|-mean(X31)/SE(X30?X31)=6.13 由上面结果可以看出X1<X2<X3

5.(a)用最佳分割点对下面的问题进行值的分箱归约 i)先排序得I3={1.6,2.1,2.4,3.1,5.9,6.8,8.3} 分成两个箱:{{1.6,2.1,2.4,3.1},{5.9,6.8,8.3}} 用均值代替:{{2.3,2.3,2.3,2.3},{7.0,7.0,7.0}} ii) 先排序得X2={2.8,3.1,3.4,4.1,5.8,6.2} 分成两个箱:{{2.8,3.1,3.4},{4.1,5.8,6.2}}

用最邻近边界值代替:{{2.8,2.8,3.4},{4.1,6.2,6.2}} (b)如用近似值归约I3={2.0,2.0,2.0,3.0,6.0,7.0,8.0} 误差EI3=0.4+0.1+0.4+0.1+0.1+0.2+0.3=1.6

而用均值归约的误差为:E’I3=0.7+0.2+0.1+0.8+1.1+0.2+1.3=4.4>1.6

说明用近似值归约误差比均值小,但因为归约后还有5个值,多于均值的2个值,说明归约数量不如均值归约。 X2的计算同上,略

第五章 统计方法

3. 由表5-1中的抽样,用简单贝叶斯分类法预测下面样本的类别 a){2,1,1}

解: P(C=1)=4/7 P(C=2)=3/7 P(A1=2|C=1)=0

出现零概率,为消除该影响,采用拉普拉斯校准,即分类C=1包含4个样本,有0个样本属性A1=2,有2个样本A1=0,有2个样本A1=1 。对这三个量使用拉普拉斯校准,假定每组增加一个样本,即有1个样本属性A1=2,有3个样本A1=0,有3个样本A1=1。则得:

P(A1=2|C=1)=1/7 P(A2=1|C=1)=1/4 P(A3=1|C=1)=1/4 P(A1=2|C=2)=2/3 P(A2=1|C=2)=1/3 P(A3=1|C=2)=1/3 则P(X| Ci)为:

P(X|C=1)= P(A1=2|C=1)* P(A2=1|C=1)* P(A3=1|C=1)=1/112 P(X|C=2)= P(A1=2|C=2)* P(A2=1|C=2)* P(A3=1|C=2)=2/27 可得P(X| Ci)* P(Ci):

P(X|C=1)* P(C=1)=(1/112)*(4/7)=1/196 P(X|C=2)* P(C=2)=(2/27)*(3/7)=2/63 所以该样本属于类C=2

b){0,1,1}

解: P(C=1)=4/7 P(C=2)=3/7

P(A1=0|C=1)=2/4=1/2 P(A2=1|C=1)=1/4 P(A3=1|C=1)=1/4 P(A1=0|C=2)=0

出现零概率,为消除该影响,采用拉普拉斯校准得:

P(A1=0|C=2)=1/6 P(A2=1|C=2)=1/3 P(A3=1|C=2)=1/3 则P(X| Ci)为:

P(X|C=1)= P(A1=0|C=1)* P(A2=1|C=1)* P(A3=1|C=1)=1/32 P(X|C=2)= P(A1=0|C=2)* P(A2=1|C=2)* P(A3=1|C=2)=1/54 可得P(X| Ci)* P(Ci):

P(X|C=1)* P(C=1)=(1/32)*(4/7)=1/56 P(X|C=2)* P(C=2)=(1/54)*(3/7)=1/126 所以该样本属于类C=1

4. 已知一组含X和Y的二维数据集,如下表 X Y 1 5 4 2.75 3 3 5 2.5

a)用线性回归方法计算y=α+βx中的参数α和β。 b)用相关系数r估计a)中求得的模型的性能。

mean 解:a) x=3.25

mean y=3.125

nn xβ?[?(xi? i?1?yi? y??i?1xi?2 x

=-0.6357

α? mean ?β?mean yx

=5.3786

nb)

Sxx??i?1(xi?meanx)2

=8.75

nSyy??i?1(yi?meany)2

=3.9219

相关系数:r???(Sxx/Syy)??0.95 表明两个变量间线

性关联强负相关,模型有效。

第6章 聚类分析

3.解:(1)MND(A,B)=NN(A,B)+NN(B,A)=1+1=2 MND(A,C)=NN(A,C)+NN(C,A)=2+2=4

MND(B,C)=NN(B,C)+NN(C,B)=1+2=3

A和B比A、B和C具有更高的相似度,A和B为一类,C为一类 (2)MND(A,B)=NN(A,B)+NN(B,A)=1+3=4 MND(A,C)=NN(A,C)+NN(C,A)=2+4=6

本文来源:https://www.bwwdw.com/article/c3tf.html

Top