数据分析期末题

更新时间:2023-11-08 16:41:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

数 据 分 析 方 法 课 程 设 计

题目概述:

3、调查美国50个州7种犯罪率,得结果列于表1,其中给出的是美国50个州每100 000

个人中七种犯罪的比率数据。这七种犯罪是:murder(杀人罪),rape(强奸罪),robbery(抢劫罪),assault(斗殴罪),burglary(夜盗罪),larceny(偷盗罪),auto(汽车犯罪)。

表1 美国50个州七种犯罪的比率数据 state 州 ALABAMA ALASKA ARIZONA ARKANSAS CALIFORNIA COLORADO CONNECTICUT DELAWARE FLORIDA GEORGIA HAWAII IDAHO ILLINOIS INDIANA IOWA KANSAS KENTUCKY LOUISIANA MAINE MARYLAND MASSACHUSETTS MICHIGAN MINNESOTA MISSISSIPPI MISSOURI MONTANA NEBRASKA NEVADA NEW HAMPSHIRE NEW JERSEY NEW MEXICO NEW YORK NORTH CAROLINA NORTH DAKOTA OHIO Murder 杀人罪 14.2 10.8 9.5 8.8 11.5 6.3 4.2 6.0 10.2 11.7 7.2 5.5 9.9 7.4 2.3 6.6 10.1 15.5 2.4 8.0 3.1 9.3 2.7 14.3 9.6 5.4 3.9 15.8 3.2 5.6 8.8 10.7 10.6 0.9 7.8 rape 强奸罪 25.2 51.6 34.2 27.6 49.4 42.0 16.8 24.9 39.6 31.1 25.5 19.4 21.8 26.5 10.6 22.0 19.1 30.9 13.5 34.8 20.8 38.9 19.5 19.6 28.3 16.7 18.1 49.1 10.7 21.0 39.1 29.4 17.0 9.0 27.3 robbery 抢劫罪 96.8 96.8 138.2 83.2 287.0 170.7 129.5 157.0 187.9 140.5 128.0 39.6 211.3 123.2 41.2 100.7 81.1 142.9 38.7 292.1 169.1 261.9 85.9 65.7 189.0 39.2 64.7 323.1 23.2 180.4 109.6 472.6 61.3 13.3 190.5 assault 斗殴罪 278.3 284.0 312.3 203.4 358.0 292.9 131.8 194.2 449.1 256.5 64.1 172.5 209.0 153.5 89.8 180.5 123.3 335.5 170.0 358.9 231.6 274.6 85.8 189.1 233.5 156.8 112.7 355.0 76.0 185.1 343.4 319.1 318.3 43.8 181.1 burglary larceny 夜盗罪 1135.5 1331.7 2346.1 972.6 2139.4 1935.2 1346.0 1682.6 1859.9 1351.1 1911.5 1050.8 1085.0 1086.2 812.5 1270.4 872.2 1165.5 1253.1 1400.0 1532.2 1522.7 1134.7 915.6 1318.3 804.9 760.0 2453.1 1041.7 1435.8 1418.7 1728.0 1154.1 446.1 1216.0 偷盗罪 1881.9 3369.8 4467.4 1862.1 3499.8 3903.2 2620.7 3678.4 3840.5 2170.2 3920.4 2599.6 2828.5 2498.7 2685.1 2739.3 1662.1 2469.9 2350.7 3177.7 2311.3 3159.0 2559.3 1239.9 2424.2 2773.2 2316.1 4212.6 2343.9 2774.5 3008.6 2782.0 2037.8 1843.0 2696.8 auto 汽车犯罪 280.7 753.3 439.5 183.4 663.5 477.1 593.2 467.0 351.4 297.9 489.4 237.6 528.6 377.4 219.9 244.3 245.4 337.7 246.9 428.5 1140.1 545.5 343.1 144.4 378.4 309.2 249.1 559.2 293.4 511.5 259.5 745.8 192.1 144.7 400.4 OKLAHOMA OREGON PENNSYLVANIA RHODE ISLAND SOUTH CAROLINA SOUTH DAKOTA TENNESSEE TEXAS UTAH VERMONT VIRGINIA WASHINGTON WEST VIRGINIA WISCONSIN WYOMING 8.6 4.9 5.6 3.6 11.9 2.0 10.1 13.3 3.5 1.4 9.0 4.3 6.0 2.8 5.4 29.2 39.9 19.0 10.5 33.0 13.5 29.7 33.8 20.3 15.9 23.3 39.6 13.2 12.9 21.9 73.8 124.1 130.3 86.5 105.9 17.9 145.8 152.4 68.8 30.8 92.1 106.2 42.2 52.2 39.7 205.0 286.9 128.0 201.0 485.3 155.7 203.9 208.2 147.3 101.2 165.7 224.8 90.9 63.7 173.9 1288.2 1636.4 877.5 1489.5 1613.6 570.5 1259.7 1603.1 1171.6 1348.2 986.2 1605.6 597.4 846.9 811.6 2228.1 3506.1 1624.1 2844.1 2342.4 1704.4 1776.5 2988.7 3004.6 2201.0 2521.2 3386.9 1341.7 2614.2 2772.2 326.8 388.9 333.2 791.4 245.1 147.5 314.0 397.6 334.5 265.2 226.7 360.3 163.3 220.7 282.0 1) 基于变量(Murder,rape,robbery,assault,burglary,larceny,auto)的观测值,求样本协

方差矩阵S和样本相关系数矩阵R; 2) 分别从S和R。出发做主成分分析:

(1) 求样本主成分的贡献率、累计贡献率和各个样本主成分;

(2) 在两种情况下,你认为应该保留几个主成分,其意义如何解释?(提示:要求

累计贡献率达到80%以上)就此题而言,你认为基于S和R的分析结果哪个更合理?

(3) 按第一主成分得分将美国50个州排序,结果如何?

(4) 作以第一主成分得分为横坐标,第二主成分得分为纵坐标的散点图。 3) 对表1的美国50个州七种犯罪的比率数据,分别试用L2.5快速聚类和类平均距离谱系聚

类法将美国50个州分4类,并对聚类结果进行分析和比较。从聚类结果看,你认为哪

种分类方法好?

问题一

采用sas得到样本协方差矩阵S: Murder rape robbery assault burglary larceny auto

Murder Rape robbery assault burglary larceny auto 51.4603 14.9519 25.0138 165.2459 251.4141 645.1653 286.0809 25.0138 115.7696 562.6393 798.5073 3313.586 165.2459 562.6393 7805.469 4934.161 251.4141 798.5073 4934.161 10050.67 645.1653 3313.586 286.0809 24347 4795.56 726.0126 24347 28650.77 10092.42 27006.2 29427.36 5348.142 27006.2 187017.9 248665.3 46664.15 37401.4 4795.56 28650.77 29427.36 248665.3 526943.5 62356.95 51.4603 726.0126 10092.42 5348.142 46664.15 62356.95

样本相关系数矩阵R: Pearson相关系数,N=50 Murder rape robbery assault burglary larceny auto Murder Rape 1 robbery 1 assault burglary larceny auto 0.06881 0.3489 0.59068 0.27584 0.55795 0.44418 1 0.60122 0.59188 0.74026 0.71213 0.61399 0.3489 0.48371 0.59188 1 0.55708 0.63724 0.44674 0.59068 0.64855 0.74026 0.55708 1 0.62291 0.40436 0.27584 0.38582 0.71213 0.63724 0.62291 1 0.79212 0.55795 0.10192 0.61399 0.44674 0.40436 0.79212 1 0.44418 0.60122 0.48371 0.64855 0.38582 0.10192 0.06881 问题二

1、从R进行主成分分析: (1)、求样本主成分的贡献率、累计贡献率和各个样本主成分。 贡献率:

Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 4.11496 2 1.238722 3 0.725817 4 0.316432 5 0.257974 6 0.222039 7 0.124056 2.876238 0.512905 0.409385 0.058458 0.035935 0.097983 0.5879 0.177 0.1037 0.0452 0.0369 0.0317 0.0177 0.5879 0.7648 0.8685 0.9137 0.9506 0.9823 1

(2)累计贡献率到达80%以上,需保留三个主成分,前三个成分的累计贡献率已达到86.9%。

Murder rape robbery assault burglary larceny auto Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7 0.300279 -0.62917 0.178245 -0.23211 0.538123 0.259117 0.267593 0.431759 -0.16944 -0.2442 0.062216 0.188471 -0.77327 -0.29649 -0.0039 0.396875 0.042247 0.495861 -0.55799 -0.51998 -0.11439 0.440157 0.203341 0.396652 -0.34353 -0.06951 0.629804 -0.50665 0.172363 0.191745 -0.2099 -0.05756 0.101033 0.535987 -0.64812 0.60169 -0.0573 0.147046 0.35736 0.402319 -0.53923 -0.23489 0.030099 0.039406 0.295177 0.502421 0.568384 0.419238 0.369753 由此三个主成分:

PRIN1=0.300279murder + 0.431759 rape +0.396875 robbery +0.396652assault +

0.440157 burglary +0.357360arceny +0.295177auto

PRIN2=-0.629174muder-0.169435rape+0.042247robbery-0.343528asault+0.203341bur

glary+ 0.402319larceny+0.502421 auto

PRIN3=0.178245muder-0.2442rape+0.495861robbery-0.06951asault- 0.2099burglary-0.5392larceny+0.568auto

从S进行主成分分析: 贡献率:

Eigenvalues of the Correlation Matrix 1 2 3 4 5 6 7 Eigenvalue Difference Proportion Cumulative 672099.9 63659.67 24216.08 6313.464 3017.65 37.183 5.673 608440.3 39443.59 17902.62 3295.814 2980.468 31.51 0.8736 0.0827 0.0315 0.0082 0.0039 0 0 0.8736 0.9563 0.9878 0.996 0.9999 1 1

特征向量: Murder rape robbery assault burglary larceny auto Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7 0.000864 0.007077 -0.00738 0.022236 0.005032 0.184911 0.982437 0.008773 0.011477 -0.0104 0.051813 -0.00599 0.981012 -0.18595 -0.0536 -0.00917 -0.0039 -0.0021 0.00464 0.056993 0.165921 0.110301 0.457211 0.864522 -0.02224 -0.01101 0.059196 0.174243 -0.15051 0.849046 -0.46866 0.465346 0.774439 -0.34551 -0.25358 -0.00125 0.121384 0.331752 0.917649 0.872863 -0.48178 0.059703 0.049105 0.001277 -0.00361 0.002712 -0.0136 -0.18137 0.005253

累计贡献率:第一个成分贡献率已达到87.36%。主成分表达式:

PRIN1=0.000864muder+0.008773rape+0.056993robbery+0.059196asault+

0.465346burglary+0.872863larceny+0.121384auto

分析:

由于第一主成分对所有变量都有近似相等的载荷,因此可认为第一主成分是对所有犯罪率的总度量。第二主成分在变量auto和larceny上有高的正载荷,而在变量murder和assault上有高的负载荷;在burglary上存在小的正载荷,而在rape上存在小的负载荷。可以认为,这个主成分是用于度量暴力犯罪在犯罪性质上占的比重。第三主成分很难给出明显的解释。在依PRIN1排序的结果表中,排在前面的PRIN1值较小的州犯罪率较低,即北达科他NORTH DAKOTA(PRIN1= -3.96408)州犯罪率最低,PRIN1值较大的州,犯罪率较高,即内华达NEVADA(PRIN1= 5.26699)州犯罪率最高。在依PRIN2排序的结果表35.4中,排在前面的PRIN2值较小州的暴力犯罪性质比重较大。

本文来源:https://www.bwwdw.com/article/uvu2.html

Top