数据分析期末题
更新时间:2023-11-08 16:41:01 阅读量: 教育文库 文档下载
数 据 分 析 方 法 课 程 设 计
题目概述:
3、调查美国50个州7种犯罪率,得结果列于表1,其中给出的是美国50个州每100 000
个人中七种犯罪的比率数据。这七种犯罪是:murder(杀人罪),rape(强奸罪),robbery(抢劫罪),assault(斗殴罪),burglary(夜盗罪),larceny(偷盗罪),auto(汽车犯罪)。
表1 美国50个州七种犯罪的比率数据 state 州 ALABAMA ALASKA ARIZONA ARKANSAS CALIFORNIA COLORADO CONNECTICUT DELAWARE FLORIDA GEORGIA HAWAII IDAHO ILLINOIS INDIANA IOWA KANSAS KENTUCKY LOUISIANA MAINE MARYLAND MASSACHUSETTS MICHIGAN MINNESOTA MISSISSIPPI MISSOURI MONTANA NEBRASKA NEVADA NEW HAMPSHIRE NEW JERSEY NEW MEXICO NEW YORK NORTH CAROLINA NORTH DAKOTA OHIO Murder 杀人罪 14.2 10.8 9.5 8.8 11.5 6.3 4.2 6.0 10.2 11.7 7.2 5.5 9.9 7.4 2.3 6.6 10.1 15.5 2.4 8.0 3.1 9.3 2.7 14.3 9.6 5.4 3.9 15.8 3.2 5.6 8.8 10.7 10.6 0.9 7.8 rape 强奸罪 25.2 51.6 34.2 27.6 49.4 42.0 16.8 24.9 39.6 31.1 25.5 19.4 21.8 26.5 10.6 22.0 19.1 30.9 13.5 34.8 20.8 38.9 19.5 19.6 28.3 16.7 18.1 49.1 10.7 21.0 39.1 29.4 17.0 9.0 27.3 robbery 抢劫罪 96.8 96.8 138.2 83.2 287.0 170.7 129.5 157.0 187.9 140.5 128.0 39.6 211.3 123.2 41.2 100.7 81.1 142.9 38.7 292.1 169.1 261.9 85.9 65.7 189.0 39.2 64.7 323.1 23.2 180.4 109.6 472.6 61.3 13.3 190.5 assault 斗殴罪 278.3 284.0 312.3 203.4 358.0 292.9 131.8 194.2 449.1 256.5 64.1 172.5 209.0 153.5 89.8 180.5 123.3 335.5 170.0 358.9 231.6 274.6 85.8 189.1 233.5 156.8 112.7 355.0 76.0 185.1 343.4 319.1 318.3 43.8 181.1 burglary larceny 夜盗罪 1135.5 1331.7 2346.1 972.6 2139.4 1935.2 1346.0 1682.6 1859.9 1351.1 1911.5 1050.8 1085.0 1086.2 812.5 1270.4 872.2 1165.5 1253.1 1400.0 1532.2 1522.7 1134.7 915.6 1318.3 804.9 760.0 2453.1 1041.7 1435.8 1418.7 1728.0 1154.1 446.1 1216.0 偷盗罪 1881.9 3369.8 4467.4 1862.1 3499.8 3903.2 2620.7 3678.4 3840.5 2170.2 3920.4 2599.6 2828.5 2498.7 2685.1 2739.3 1662.1 2469.9 2350.7 3177.7 2311.3 3159.0 2559.3 1239.9 2424.2 2773.2 2316.1 4212.6 2343.9 2774.5 3008.6 2782.0 2037.8 1843.0 2696.8 auto 汽车犯罪 280.7 753.3 439.5 183.4 663.5 477.1 593.2 467.0 351.4 297.9 489.4 237.6 528.6 377.4 219.9 244.3 245.4 337.7 246.9 428.5 1140.1 545.5 343.1 144.4 378.4 309.2 249.1 559.2 293.4 511.5 259.5 745.8 192.1 144.7 400.4 OKLAHOMA OREGON PENNSYLVANIA RHODE ISLAND SOUTH CAROLINA SOUTH DAKOTA TENNESSEE TEXAS UTAH VERMONT VIRGINIA WASHINGTON WEST VIRGINIA WISCONSIN WYOMING 8.6 4.9 5.6 3.6 11.9 2.0 10.1 13.3 3.5 1.4 9.0 4.3 6.0 2.8 5.4 29.2 39.9 19.0 10.5 33.0 13.5 29.7 33.8 20.3 15.9 23.3 39.6 13.2 12.9 21.9 73.8 124.1 130.3 86.5 105.9 17.9 145.8 152.4 68.8 30.8 92.1 106.2 42.2 52.2 39.7 205.0 286.9 128.0 201.0 485.3 155.7 203.9 208.2 147.3 101.2 165.7 224.8 90.9 63.7 173.9 1288.2 1636.4 877.5 1489.5 1613.6 570.5 1259.7 1603.1 1171.6 1348.2 986.2 1605.6 597.4 846.9 811.6 2228.1 3506.1 1624.1 2844.1 2342.4 1704.4 1776.5 2988.7 3004.6 2201.0 2521.2 3386.9 1341.7 2614.2 2772.2 326.8 388.9 333.2 791.4 245.1 147.5 314.0 397.6 334.5 265.2 226.7 360.3 163.3 220.7 282.0 1) 基于变量(Murder,rape,robbery,assault,burglary,larceny,auto)的观测值,求样本协
方差矩阵S和样本相关系数矩阵R; 2) 分别从S和R。出发做主成分分析:
(1) 求样本主成分的贡献率、累计贡献率和各个样本主成分;
(2) 在两种情况下,你认为应该保留几个主成分,其意义如何解释?(提示:要求
累计贡献率达到80%以上)就此题而言,你认为基于S和R的分析结果哪个更合理?
(3) 按第一主成分得分将美国50个州排序,结果如何?
(4) 作以第一主成分得分为横坐标,第二主成分得分为纵坐标的散点图。 3) 对表1的美国50个州七种犯罪的比率数据,分别试用L2.5快速聚类和类平均距离谱系聚
类法将美国50个州分4类,并对聚类结果进行分析和比较。从聚类结果看,你认为哪
种分类方法好?
问题一
采用sas得到样本协方差矩阵S: Murder rape robbery assault burglary larceny auto
Murder Rape robbery assault burglary larceny auto 51.4603 14.9519 25.0138 165.2459 251.4141 645.1653 286.0809 25.0138 115.7696 562.6393 798.5073 3313.586 165.2459 562.6393 7805.469 4934.161 251.4141 798.5073 4934.161 10050.67 645.1653 3313.586 286.0809 24347 4795.56 726.0126 24347 28650.77 10092.42 27006.2 29427.36 5348.142 27006.2 187017.9 248665.3 46664.15 37401.4 4795.56 28650.77 29427.36 248665.3 526943.5 62356.95 51.4603 726.0126 10092.42 5348.142 46664.15 62356.95
样本相关系数矩阵R: Pearson相关系数,N=50 Murder rape robbery assault burglary larceny auto Murder Rape 1 robbery 1 assault burglary larceny auto 0.06881 0.3489 0.59068 0.27584 0.55795 0.44418 1 0.60122 0.59188 0.74026 0.71213 0.61399 0.3489 0.48371 0.59188 1 0.55708 0.63724 0.44674 0.59068 0.64855 0.74026 0.55708 1 0.62291 0.40436 0.27584 0.38582 0.71213 0.63724 0.62291 1 0.79212 0.55795 0.10192 0.61399 0.44674 0.40436 0.79212 1 0.44418 0.60122 0.48371 0.64855 0.38582 0.10192 0.06881 问题二
1、从R进行主成分分析: (1)、求样本主成分的贡献率、累计贡献率和各个样本主成分。 贡献率:
Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 4.11496 2 1.238722 3 0.725817 4 0.316432 5 0.257974 6 0.222039 7 0.124056 2.876238 0.512905 0.409385 0.058458 0.035935 0.097983 0.5879 0.177 0.1037 0.0452 0.0369 0.0317 0.0177 0.5879 0.7648 0.8685 0.9137 0.9506 0.9823 1
(2)累计贡献率到达80%以上,需保留三个主成分,前三个成分的累计贡献率已达到86.9%。
Murder rape robbery assault burglary larceny auto Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7 0.300279 -0.62917 0.178245 -0.23211 0.538123 0.259117 0.267593 0.431759 -0.16944 -0.2442 0.062216 0.188471 -0.77327 -0.29649 -0.0039 0.396875 0.042247 0.495861 -0.55799 -0.51998 -0.11439 0.440157 0.203341 0.396652 -0.34353 -0.06951 0.629804 -0.50665 0.172363 0.191745 -0.2099 -0.05756 0.101033 0.535987 -0.64812 0.60169 -0.0573 0.147046 0.35736 0.402319 -0.53923 -0.23489 0.030099 0.039406 0.295177 0.502421 0.568384 0.419238 0.369753 由此三个主成分:
PRIN1=0.300279murder + 0.431759 rape +0.396875 robbery +0.396652assault +
0.440157 burglary +0.357360arceny +0.295177auto
PRIN2=-0.629174muder-0.169435rape+0.042247robbery-0.343528asault+0.203341bur
glary+ 0.402319larceny+0.502421 auto
PRIN3=0.178245muder-0.2442rape+0.495861robbery-0.06951asault- 0.2099burglary-0.5392larceny+0.568auto
从S进行主成分分析: 贡献率:
Eigenvalues of the Correlation Matrix 1 2 3 4 5 6 7 Eigenvalue Difference Proportion Cumulative 672099.9 63659.67 24216.08 6313.464 3017.65 37.183 5.673 608440.3 39443.59 17902.62 3295.814 2980.468 31.51 0.8736 0.0827 0.0315 0.0082 0.0039 0 0 0.8736 0.9563 0.9878 0.996 0.9999 1 1
特征向量: Murder rape robbery assault burglary larceny auto Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7 0.000864 0.007077 -0.00738 0.022236 0.005032 0.184911 0.982437 0.008773 0.011477 -0.0104 0.051813 -0.00599 0.981012 -0.18595 -0.0536 -0.00917 -0.0039 -0.0021 0.00464 0.056993 0.165921 0.110301 0.457211 0.864522 -0.02224 -0.01101 0.059196 0.174243 -0.15051 0.849046 -0.46866 0.465346 0.774439 -0.34551 -0.25358 -0.00125 0.121384 0.331752 0.917649 0.872863 -0.48178 0.059703 0.049105 0.001277 -0.00361 0.002712 -0.0136 -0.18137 0.005253
累计贡献率:第一个成分贡献率已达到87.36%。主成分表达式:
PRIN1=0.000864muder+0.008773rape+0.056993robbery+0.059196asault+
0.465346burglary+0.872863larceny+0.121384auto
分析:
由于第一主成分对所有变量都有近似相等的载荷,因此可认为第一主成分是对所有犯罪率的总度量。第二主成分在变量auto和larceny上有高的正载荷,而在变量murder和assault上有高的负载荷;在burglary上存在小的正载荷,而在rape上存在小的负载荷。可以认为,这个主成分是用于度量暴力犯罪在犯罪性质上占的比重。第三主成分很难给出明显的解释。在依PRIN1排序的结果表中,排在前面的PRIN1值较小的州犯罪率较低,即北达科他NORTH DAKOTA(PRIN1= -3.96408)州犯罪率最低,PRIN1值较大的州,犯罪率较高,即内华达NEVADA(PRIN1= 5.26699)州犯罪率最高。在依PRIN2排序的结果表35.4中,排在前面的PRIN2值较小州的暴力犯罪性质比重较大。
正在阅读:
数据分析期末题11-08
农村留守老人个案工作方案设计03-23
人间天堂杭州作文500字06-30
西南科技大学大学物理单元练习12-01
汽车零件名称中英文对照 - 图文10-08
装饰工程有限公司经营理念.doc04-08
浅谈电力企业工程建设领域突出问题专项治理02-29
小型采暖热水锅炉定压补水泵的选型计算03-14
给远方同学的一封信700字06-16
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 数据分析
- 期末
- 观看刘延革老师《周长》后的教学反思
- 摄影大师作品 - 图文
- 阿里巴巴 腾讯
- 《C语言程序设计》复习指导
- 岩石可钻性的测定
- 教育学和教育心理学重要人物
- 广西职业技术学2018年招生章程
- 北京理工大学关于选择导师的一点建议
- 屈臣氏品牌市场营销分析
- 关于开展规范津贴补贴工作总结
- 热学电磁学习题答案
- 南宁地铁1号线03标盾构施工各岗位人员安全注意事项
- 网络安全法试题含答案
- 国际金融实务试卷及答案定稿
- 组织协调一一总监工作中的难点与重点1
- 2018年自学考试
- 2018年七年级上册音乐全册教案
- 2019年电大《建筑结构》试题七份汇编附答案备考可编辑
- 北京工业大学物理学(应数院)考研 招生人数 参考书 报录比 复试分数线 考研真题 考研经验 招生简章
- 编排田径运动会竞赛日程的步骤和流程