数据挖掘作业答案
更新时间:2023-10-18 04:27:01 阅读量: 综合文库 文档下载
- 数据挖掘作业答案推荐度:
- 相关推荐
数据挖掘作业答案
第二章 数据准备
5.推出在[-1,1]区间上的数据的最小-最大标准化公式。
解:标准化相当于按比例缩放,假如将在[minA,maxA]间的属性A的值v映射到区间[new_minA,new_maxA],根据同比关系得:
(v-minA)/(v’-new_minA)=(maxA-minA)/(new_maxA-new_minA)
化简得:v’=(v-minA)* (new_maxA-new_minA)/ (maxA-minA)+ new_minA
6.已知一维数据集X={-5.0 , 23.0 , 17.6 , 7.23 , 1.11},用下述方法对其进行标准化: a) 在[-1,1]区间进行小数缩放。
解:X’={-0.050 , 0.230 , 0.176 , 0.0723 , 0.0111} b) 在[0,1]区间进行最小-最大标准化。
解:X’={0 , 1 , 0.807 , 0.437 , 0.218 } c) 在[-1,1]区间进行最小-最大标准化。
解:X’={-1 , 1 , 0.614 , -0.126 , 0.564} d) 标准差标准化。
解:mean=8.788 sd=11.523
X’={-1.197 , 1.233 , 0.765 , -0.135 , -0.666} e) 比较上述标准化的结果,并讨论不同技术的优缺点。
解:小数缩放标准化粒度过大(以10为倍数),但计算简单;最小-最大值标准化需要搜索整
个数据集确定最小最大数值,而且最小最大值的专家估算可能会导致标准化值的无意识的集中。标准差标准化对距离测量非常效,但会把初始值转化成了未被认可的形式。
8.已知一个带有丢失值的四维样本。 X1={0,1,1,2} X2={2,1,*,1} X3={1,*,*,-1} X4={*,2,1,*}
如果所有属性的定义域是[0,1,2],在丢失值被认为是“无关紧要的值”并且都被所给的定义域的所有可行值替换的情况下,“人工”样本的数量是多少? 解:X1 “人工”样本的数量为 1 X2 “人工”样本的数量为 3 X3 “人工”样本的数量为 9 X4 “人工”样本的数量为 9
所以“人工”样本的数量为1×3×9×9=243
10.数据库中不同病人的子女数以矢量形式给出: C={3,1,0,2,7,3,6,4,-2,0,0,10,15,6}
a) 应用标准统计参数——均值和方差,找出C中的异常点: mean=3.9286 sd=4.4153 在 3个标准差下的阈值:
阈值=均值±3*标准差=3.928±3*4.4153=[-9.318,17.174]
根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,17.174] C中的异常点有:-2
b) 在 2个标准差下的阈值:
阈值=均值±2*标准差=3.928±2*4.4153=[-4.903,12.758]
根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,12.758] C中的异常点有:-2, 15
11.已知的三维样本数据集X:
X=[{1,2,0},{3,1,4},{2,1,5},{0,1,6},{2,4,3},{4,4,2},{5,2,1},{7,7,7},{0,0,0},{3,3,3}]。
a) 在下述条件下用基于距离技术找出异常点:
i) 距离阈值d≥4,非邻点样本的阈值部分p≥3 ii) 距离阈值d≥6,非邻点样本的阈值部分p≥2
X1 X2 X3 X4 X5 X6 X7 X8 X9 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 P(d≥4) 6 4 5 7 4 5 7 9 8 3 P(d≥6) 2 2 1 5 1 3 3 9 3 1 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 4.5826 5.1962 6.1644 3.7417 4.1231 4.1231 10.4881 2.2361 3.742 1.4142 3.6056 3.3166 3.7417 7.7417 7.8102 2.2361 3.6056 4.6904 5.0990 8.0623 4.6904 6.4031 7.1414 9.2736 2.2360 4.1231 7.0711 2.4495 6.5574 8.0623 5.0990 2.236 5.4772 3.0 6.0828 4.690 5.3852 1.414 6.0 1.732 5.4772 3.0 12.124 6.928 5.196 d≥4, p≥3时异常点是X1,X2,X3,X4,X5,X6,X7,X8,X9,X10 d≥6, p≥2时异常点是X1,X2,X4,X6,X7,X8,X9
第三章 数据归约 3. 特征的值的子集为:
X10?{2.5,5.6,8.1};X11?{7.2,3.4,4.8,6.3} X20?{1.6,3.6,4.9};X21?{4.3,5.8,7.2,4.8}
X30?{5.9,6.8,8.3};X31?{2.1,1.6,3.1,2.4}
Mean(X10)=5.4;V(X10)=7.87;Mean(X11)=5.425;V(X11)=2.8025 Mean(X20)=3.367;V(X20)=2.76;Mean(X21)=5.525;V(X21)=1.636
Mean(X30)=7;V(X30)=1.47;Mean(X31)=2.3;V(X31)=0.393 SE(X10-X11)=
V(X10)V(X11)?=2.820 n1n2SE(X20?X21)=1.153 SE(X30?X31)=0.767
|mean(X10)-mean(X11)|/SE(X10-X11)=0.014 |mean(X20)-mean(X21)|/SE(X20?X21)=1.872
|mean(X30)|-mean(X31)/SE(X30?X31)=6.13 由上面结果可以看出X1<X2<X3
5.(a)用最佳分割点对下面的问题进行值的分箱归约 i)先排序得I3={1.6,2.1,2.4,3.1,5.9,6.8,8.3} 分成两个箱:{{1.6,2.1,2.4,3.1},{5.9,6.8,8.3}} 用均值代替:{{2.3,2.3,2.3,2.3},{7.0,7.0,7.0}} ii) 先排序得X2={2.8,3.1,3.4,4.1,5.8,6.2} 分成两个箱:{{2.8,3.1,3.4},{4.1,5.8,6.2}}
用最邻近边界值代替:{{2.8,2.8,3.4},{4.1,6.2,6.2}} (b)如用近似值归约I3={2.0,2.0,2.0,3.0,6.0,7.0,8.0} 误差EI3=0.4+0.1+0.4+0.1+0.1+0.2+0.3=1.6
而用均值归约的误差为:E’I3=0.7+0.2+0.1+0.8+1.1+0.2+1.3=4.4>1.6
说明用近似值归约误差比均值小,但因为归约后还有5个值,多于均值的2个值,说明归约数量不如均值归约。 X2的计算同上,略
第五章 统计方法
3. 由表5-1中的抽样,用简单贝叶斯分类法预测下面样本的类别 a){2,1,1}
解: P(C=1)=4/7 P(C=2)=3/7 P(A1=2|C=1)=0
出现零概率,为消除该影响,采用拉普拉斯校准,即分类C=1包含4个样本,有0个样本属性A1=2,有2个样本A1=0,有2个样本A1=1 。对这三个量使用拉普拉斯校准,假定每组增加一个样本,即有1个样本属性A1=2,有3个样本A1=0,有3个样本A1=1。则得:
P(A1=2|C=1)=1/7 P(A2=1|C=1)=1/4 P(A3=1|C=1)=1/4 P(A1=2|C=2)=2/3 P(A2=1|C=2)=1/3 P(A3=1|C=2)=1/3 则P(X| Ci)为:
P(X|C=1)= P(A1=2|C=1)* P(A2=1|C=1)* P(A3=1|C=1)=1/112 P(X|C=2)= P(A1=2|C=2)* P(A2=1|C=2)* P(A3=1|C=2)=2/27 可得P(X| Ci)* P(Ci):
P(X|C=1)* P(C=1)=(1/112)*(4/7)=1/196 P(X|C=2)* P(C=2)=(2/27)*(3/7)=2/63 所以该样本属于类C=2
b){0,1,1}
解: P(C=1)=4/7 P(C=2)=3/7
P(A1=0|C=1)=2/4=1/2 P(A2=1|C=1)=1/4 P(A3=1|C=1)=1/4 P(A1=0|C=2)=0
出现零概率,为消除该影响,采用拉普拉斯校准得:
P(A1=0|C=2)=1/6 P(A2=1|C=2)=1/3 P(A3=1|C=2)=1/3 则P(X| Ci)为:
P(X|C=1)= P(A1=0|C=1)* P(A2=1|C=1)* P(A3=1|C=1)=1/32 P(X|C=2)= P(A1=0|C=2)* P(A2=1|C=2)* P(A3=1|C=2)=1/54 可得P(X| Ci)* P(Ci):
P(X|C=1)* P(C=1)=(1/32)*(4/7)=1/56 P(X|C=2)* P(C=2)=(1/54)*(3/7)=1/126 所以该样本属于类C=1
4. 已知一组含X和Y的二维数据集,如下表 X Y 1 5 4 2.75 3 3 5 2.5
a)用线性回归方法计算y=α+βx中的参数α和β。 b)用相关系数r估计a)中求得的模型的性能。
mean 解:a) x=3.25
mean y=3.125
nn xβ?[?(xi? i?1?yi? y??i?1xi?2 x
=-0.6357
α? mean ?β?mean yx
=5.3786
nb)
Sxx??i?1(xi?meanx)2
=8.75
nSyy??i?1(yi?meany)2
=3.9219
相关系数:r???(Sxx/Syy)??0.95 表明两个变量间线
性关联强负相关,模型有效。
第6章 聚类分析
3.解:(1)MND(A,B)=NN(A,B)+NN(B,A)=1+1=2 MND(A,C)=NN(A,C)+NN(C,A)=2+2=4
MND(B,C)=NN(B,C)+NN(C,B)=1+2=3
A和B比A、B和C具有更高的相似度,A和B为一类,C为一类 (2)MND(A,B)=NN(A,B)+NN(B,A)=1+3=4 MND(A,C)=NN(A,C)+NN(C,A)=2+4=6
正在阅读:
数据挖掘作业答案10-18
九年级化学第十二单元课题1《人类重要的营养物质》导学案aaa10-15
光学题解203-22
云南省2017年一级建造师《项目管理》:施工成本计划试题05-31
《春节的习俗》作文范文精彩10篇04-02
2017新学期家长寄语02-13
领带打结方法08-12
- 必修一物理寒假作业
- 2019-201X年5月大学生入党积极分子思想汇报-word范文模板(3页)
- 药物分析习题五
- 重拾应用意识 体会数学价值(沈建军)
- 2017全国高校辅导员结构化面试题集及参考答案
- 广东徐闻县实验中学2014届高三第二次月测地理试题
- 今天你共鸣了么?
- 2018-2019正能量读后感1000字-推荐word版(6页)
- 2018年中国截切型盖板针布行业专题研究分析报告目录
- 中国移动业务处理流程大全
- 公文写作常用词汇和句子集锦2016
- ARM课程设计说明书
- 教师资格证教育学论文
- 中考试卷分析
- 环境监测试卷(五)
- 党风廉政建设广播稿1
- 快速制作香香宫煮麻辣烫教程
- 《国际金融学》习题
- 文明施工保障措施方案
- 春兰维修资料故障代码
- 数据挖掘
- 作业
- 答案
- Oracle - 11gR2 - 11.2.0.3 - Installation - Gudie
- 建筑消防设施定期检查记录表
- 张占宇-农民权益如何维护
- 小班语言活动
- 南京大学信息公开目录-国际合作201008.doc
- 哈姆莱特导学案
- 关于开展2012年度高级经济师、高级工程师和正高级工程师评审工作的通知(川经信职改办〔2012〕58号)
- 小学数学远程研修感言
- 毕业设计(wxl)
- 麻城应急库房监理实施细则 - 图文
- 西师大版二年级数学上册第三单元测试卷及答案小学数学试题 - 图文
- 吸引人的餐饮广告语渠道网告诉您餐饮加盟店的广告语可以让陌生人变为忠实顾客
- 水利工程测量在线作业b
- 杜兆泽川:YES,I CAN!
- 浅谈袁世凯一生的成败
- 北外丁往道《英语写作手册》教案
- 数学建模—保姆问题论文
- 数据结构课程设计之八皇后问题
- 基于Libero的数字逻辑设计仿真及验证实验实验报告(实验4到8)
- 管道组对检验批质量验收记录2