Spss16.0与统计数据分析

更新时间:2024-05-06 04:53:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

统计调查分析题目

关于我国国内生产总值的统计分析

主要内容(不限于此,可发挥,有加分):

(1)收集我国1980-2011年GDP、人口数、固定资产投资、进出口总额、国家财政支出数据,做GDP与其他指标因素的相关分析和回归分析。

(2)收集1980-2011年中南六省:湖北、湖南、河南、江西、广东、广西的GDP数据,消除物价因素影响后,做方差分析。

(3)收集我国各省(直辖市)2011年GDP数据,做聚类分析。

说明:

1、参考网站:国家统计局网站;

2、独立完成一篇统计调查分析报告,采用统一的封面(见下页),主要表格和图形要截屏粘贴在报告需要的地方,一定要有文字分析,有一定的深度; 3、正文用小四号宋体字;

4、数据处理采用的软件类型不限,欢迎炫酷;

5、请于2013年7月10日前将统计调查报告传到邮箱:hexiaoya113@126.com; 6、如用WORD高版本,请用WORD2003版另存。 7、邮箱“主题”写上:班级+姓名。

将表格数据输入到spss中,用spss进行数据处理。截图如下:

1. 先查看散点图,做大致的判断。点击Graphs→Scatter/Dot。截图如 下:

所得到的散点图如下:

点击Analyze→Correlate→Bivariate,把两个变量都移入Variables框,经过相关设置后,交计算机运行。截图如下:

得到如下表的结果: Correlations GDP Pearson Correlation Sig. (2-tailed) N GDP 1 人口数 .798 .000 32 32 **固定资产投资 .956 .000 32 **进出口总额 .984 .000 32 **国家财政支出 .992 .000 32 ** 人口数 Pearson Correlation Sig. (2-tailed) N .798 .000 32 .956 .000 32 .984 .000 32 .992 .000 32 ********1 .633 .000 **.781 .000 32 .933 .000 ****.729 .000 32 .974 .000 32 .969 .000 ******32 .633 .000 32 .781 .000 32 .729 .000 32 ******32 1 固定资产Pearson Correlation 投资 Sig. (2-tailed) N 进出口总Pearson Correlation 额 Sig. (2-tailed) N 国家财政Pearson Correlation 支出 Sig. (2-tailed) N 32 .933 .000 32 .974 .000 32 ****32 1 32 .969 .000 32 **32 1 32 **. Correlation is significant at the 0.01 level (2-tailed).

从表中我们可以知道:

(1) GDP与人口数之间的相关系数是0.798,双尾检验的概率值为

0,小于0.01,则相关水平是显著的,换句话说,我们有超过99%的把握认为,两者之间存在着比较强的正相关性。 (2) GDP与固定资产投资之间的相关系数是0.956,双尾检验的概

率值为0,小于0.01,则相关水平是显著的,换句话说,我们有超过99%的把握认为,两者之间存在着非常强的正相关性。 (3) GDP与进出口总额之间的相关系数是0.984,双尾检验的概率

值为0,小于0.01,则相关水平是显著的,换句话说,我们有超过99%的把握认为,两者之间存在着比较强的正相关性。 (4) GDP与国家财政支出数据之间的相关系数是0.992,双尾检验

的概率值为0,小于0.01,则相关水平是显著的,换句话说,我们有超过99%的把握认为,两者之间存在着非常强的正相关

性。

对于回归分析,我们可以利用excel中自带的会给分析予以分析。 点击工具→数据分析,截图如下:

点击“回归”截图如下:

在Y值输入区域键入B3:B34,在X值输入区域键入C3:F34,勾选线性拟合图。截图如下:

结果输出表:

回归统计

Multiple R 0.999009 R Square 0.998019 Adjusted R

0.997726

Square 标准误差 6035.224 观测值 32 方差分析

回归分析 残差 总计

df

SS

MS

F

Significance F 4.65521E-36

4 4.96E+11 1.24E+11 3400.95 27 9.83E+08 36423935 31 4.96E+11

RESIDUAL OUTPUT

观测值 预测 Y 残差

1 -2995.89 7541.511 2 -1156.79 6048.348 3 1428.274 3895.077 4 3908.707 2053.944 5 6803.827 404.2251 6 10220.78 -1204.74 7 13444.35 -3169.17 8 16527.14 -4468.52 9 20090.81 -5047.98 10 23419.28 -6426.97 11 27040.55 -8372.72 12 30862.99 -9081.49 13 34973.95 -8050.47 14 41008.56 -5674.63 15 50421.38 -2223.52 16 56700.19 4093.543 17 62100.47 9076.117 18 68679.97 10293.07 19 74784.22 9618.055 20 83728.95 5948.104 21 96349.68 2864.873 22 107115 2540.192 23 121192.1 -859.371 24 139165.9 -3343.17 25 163257.6 -3379.24 26 190386.2 -5448.84 27 221684.4 -5369.94 28 261965.8 3844.511 29 306801.5 7243.928 30 338798.3 2104.52 31 405141.4 -3628.65 32 474924.6 -1820.58

由输出结果可以知道,线性回归方程为:

Y=-149510+1.4495*X1+0.189964*X2+0.427531*X3+2.461343*X4。

根据输出结果中的方差分析可知,Significance F=4.65521E-36<α =0.05,说明果实横径与果重之间回归系数显著。而由结果中的回归系数的t Stat检测可知a:P-value=1.25E-08<α=0.05,b1=2.79E-09< α=0.05,b2=0.031325<α=0.05,b3=2.89E-06<α=0.05,b4=0.000433<α=0.05因此回归方程是有效可靠的。

(2)收集1980-2011年中南六省:湖北、湖南、河南、江西、广东、广西的GDP数据,消除物价因素影响后,做方差分析。

中南六省1980-2011年GDP数据(现价)

国内生产总值

年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991

湖北 151 188.46 199.38 219.75 241.55 262.58 328.22 396.26 442.04 517.77 626.52 717.08 824.38 913.38

湖南 146.99 178.01 191.72 209.68 232.52 257.43 287.29 349.95 397.68 469.44 584.07 640.8 744.44 833.3 997.7 1244.71 1650.02 2132.13 2540.13 2849.27 3025.53 3214.54 3551.49 3831.9 4151.54 4660 5641.9 6596.1 7688.67 9439.6 11555

河南 162.92 190.09 229.16 249.69 263.3 327.95 370.04 451.74 502.91 609.6 749.09 850.71 934.65 1045.73 1279.75 1660.18 2216.83 2988.37 3634.69 4041.09 4308.24 4517.94 5052.99 5533.01 6035.48 6867.7 8553.8 10587.42 12362.79 15012.46 18018.53

江西 87 104.15 111.15 121.26 133.96 144.13 169.11 207.89 230.82 262.9 325.83 376.46 419.54 465.1 559.52 723.04 948.16 1169.73 1409.74 1605.77 1719.87 1853.65 2003.07 2175.68 2450.48 2807.4 3456.7 4056.76 4820.53 5800.25 6971.05 7655.18 9451.26

广西 75.85 84.59 97.33 113.46 129.15 134.6 150.27 180.97 205.46 241.56 313.28 383.44 449.06 518.59 646.6 871.7 1198.29 1497.56 1697.9 1817.25 1911.3 1971.41 2080.04 2279.34 2523.73 2821.1 3433.5 3984.1 4746.16 5823.41 7021 7759.16 9569.85

广东 185.85 209.34 249.65 290.36 339.92 368.75 458.74 577.38 667.53 846.69 1155.37 1381.39 1471.84 1780.56 2293.54 3469.28 4619.02 5933.05 6834.97 7774.53 8530.88 9250.68 10741.25 12039.25 13502.42 15844.6 18864.6 22557.37 26587.76 31777.01 36796.71 39482.56 46013.06

指数 (可比价,1978=100)

100 107.6 116.0081 122.0905 133.1481 147.5987 169.9983 192.8906 209.9544 234.274 260.7014 271.2943 281.7093 307.5672 351.367 400.433 452.8124 502.282 552.553 603.9241 651.2315 700.8543 759.9453 823.0232 897.7707 987.7756 1087.3932 1210.3777 1363.8117 1556.9601 1706.968 1864.2514 2059.0096 2250.3851

1992 1088.39 1993 1325.83 1994 1700.92 1995 2109.38 1996 2499.77 1997 2856.47 1998 3114.02 1999 3229.29 2000 3545.39 2001 3880.53 2002 4212.82 2003 2004

4757.5 5633.2

2005 6590.19 2006 7617.47 2007

9333.4

2008 11328.89 2009 12961.1

13059.69 19480.46

2010 15967.61 16037.96 23092.36

2011 19632.26 19669.56 26931.03 11702.82 11720.87 53210.28

对表格数据进行分析,我们可以知道,此GDP数据没有消除物价因素影响。通过上网查资料我们可以知道:

现价GDP没有消除价格因素影响,可比价GDP消除了价格因素的影响。要对实际GDP消

除价格因素影响,我们只需要知道当年的GDP可比价指数就可以消除价格因素对当年的GDP的影响。

在这里我们可以利用excel的计算功能进行计算,如图,在表格中键入:=(B4/H4)*100既可以算出湖北省1978年消除物价因素后的GDP。同理,其他省份的GDP也可以照着这个方

法来计算,这里就不一一列举。用excel计算过程截图如下:

在G4中键入(B4/H4)*100,回车即可以得到消除物价因素后的GDP,截图如下:

因为其他的计算方法榆次完全相同,故而不一一列举,直接给出消除物价因素影响后的GDP数据表。 下表是消除物价因素影响后的中南六省GDP数据表:

中南六省1980-2011年GDP数据(可比价/单位:亿元)

年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002

湖北

湖南

河南

江西

广西

广东

151 175.15 171.87 179.99 181.41 177.90 193.07 205.43 210.54 221.01 240.32 264.32 292.63 296.97 309.76 331.10 375.63 419.96 452.40 472.98 478.17 460.76 466.53 471.50 469.25 146.99 165.44 165.26 171.74 174.63 174.41 169.00 181.42 189.41 200.38 224.04 236.20 264.26 270.93 283.95 310.84 364.39 424.49 459.71 471.79 464.59 458.66 467.33 465.59 462.43 162.92 176.66 197.54 204.51 197.75 222.19 217.67 234.19 239.53 260.21 287.34 313.57 331.78 340.00 364.22 414.60 489.57 594.96 657.80 669.14 661.55 644.63 664.91 672.28 672.27 87 96.79 95.81 99.32 100.61 97.65 99.48 107.78 109.94 112.22 124.98 138.76 148.93 151.22 159.24 180.56 209.39 232.88 255.13 265.89 264.10 264.48 263.58 264.35 272.95 75.85 78.62 83.90 92.93 97.00 91.19 88.40 93.82 97.86 103.11 120.17 141.34 159.41 168.61 184.02 217.69 264.63 298.15 307.28 300.91 293.49 281.29 273.71 276.95 281.11 185.85 194.55 215.20 237.82 255.29 249.83 269.85 299.33 317.94 361.41 443.18 509.19 522.47 578.92 652.75 866.38 1020.07 1181.22 1236.98 1287.34 1309.96 1319.91 1413.42 1462.81 1503.99

2003 2004 2005 2006 2007 2008 2009 2010 2011 481.64 518.05 544.47 558.54 599.46 663.68 695.24 775.50 872.40 471.77 518.85 544.96 563.76 606.28 676.93 700.53 778.92 874.05 695.27 786.63 874.72 906.49 964.22 1055.59 1044.95 1121.53 1196.73 284.21 317.89 335.16 353.46 372.54 408.39 410.63 459.02 520.04 285.60 315.76 329.16 348.01 374.02 411.31 416.21 464.78 520.84 1604.07 1734.85 1863.66 1949.52 2040.96 2155.68 2117.88 2234.72 2364.50

对于这个问题我们用spss软件对数据进行分析。 录入数据到spss:

由于spss的一些局限性,我们对数据进行一些基本处理。我们湖北、湖南、河南、江西、广西,广东分别用第1、2、3、4、5、6组代替输入到spss软件中、由于数据过大,故截取一部分为例:

下面对数据进行相应的处理用spss操作过程截图如下:

点击Analyze Compare→ Mean→s 0ne-Way ANOVA,截图如下:

将GDP键入Dependent List中,将组别键入Factor中,截图如下:

单击“Contrasts”,勾选Polynomial”复选项,该操作激活其右面的“Degree”参数框。截图如下:

点击Post Hoc,因为不知道方差是否具有齐次性,故而勾选Equal

Varance not assumed中的Tamhane's T2进行均属差异比较,截图如下:

单击Options,勾选Descriptive,截图如下:

结果输出: 1)数据描述表:

下表给出了水稻品种分组的样本含量N、平均数Mean、标准差Std.Deviation、标准误Std.Error、95%的置信区间、最小值和最大值。

2)方差分析表

下表给出了组间变差,组内变差以及总变差等一些数据。第五栏为F值(组间均方与组内均方之比)第六栏为F值所对应的概率值,针对假设Ho:组建均值无显著性差异(即省间GDP均值无显著性差异)。P<0.0001,由此可以认为全国各省市的GDP水平是不同的。

3)组间GDP均值图

4)Tamhane's T2法比较表 Multiple Comparisons GDP Tamhane Mean (I) 组(J) 组别 1 别 2 3 4 5 6 2 1 3 4 5 6 3 1 2 4 Difference (I-J) 8.15562 -160.80813 174.12156* 164.68187* -704.01938* -8.15562 -168.96375 165.96594* 156.52625* -712.17500* 160.80813 168.96375 334.92969* Std. Error 47.81498 63.73943 39.13709 39.53622 1.29382E2 47.81498 64.53202 40.41508 40.80170 1.29775E2 63.73943 64.53202 58.39367 Sig. 1.000 .200 .001 .002 .000 1.000 .160 .002 .005 .000 .200 .160 .000 Lower Bound Upper Bound -137.4496 -356.5572 54.0826 43.5334 -1110.1854 -153.7609 -366.8948 41.8493 31.3465 -1119.2484 -34.9410 -28.9673 153.1403 153.7609 34.9410 294.1606 285.8304 -297.8533 137.4496 28.9673 290.0825 281.7060 -305.1016 356.5572 366.8948 516.7191 95% Confidence Interval 5 6 4 1 2 3 5 6 5 1 2 3 4 6 6 1 2 3 4 5 325.49000* -543.21125* -174.12156* -165.96594* -334.92969* -9.43969 -878.14094* -164.68187* -156.52625* -325.49000* 9.43969 -868.70125* 704.01938* 712.17500* 543.21125* 878.14094* 868.70125* 58.66193 1.36448E2 39.13709 40.41508 58.39367 30.16983 1.26834E2 39.53622 40.80170 58.66193 30.16983 1.26958E2 1.29382E2 1.29775E2 1.36448E2 1.26834E2 1.26958E2 .000 .004 .001 .002 .000 1.000 .000 .002 .005 .000 1.000 .000 .000 .000 .004 .000 .000 143.0383 -966.4953 -294.1606 -290.0825 -516.7191 -101.3094 -1278.5578 -285.8304 -281.7060 -507.9417 -82.4300 -1269.3912 297.8533 305.1016 119.9272 477.7240 468.0113 507.9417 -119.9272 -54.0826 -41.8493 -153.1403 82.4300 -477.7240 -43.5334 -31.3465 -143.0383 101.3094 -468.0113 1110.1854 1119.2484 966.4953 1278.5578 1269.3912 *. The mean difference is significant at the 0.05 level. 从上表我们可以知道:

湖北的年度GDP水平与江西、广西、广东有显著性差异; 湖南的年度GDP水平与江西、广西、广东有显著性差异; 河南的年度GDP水平与江西、广西、广东有显著性差异; 江西的年度GDP水平与湖北、湖南、广东有显著性差异; 广西的年度GDP水平与湖北、湖南、河南、东有显著性差异; 广东的年度GDP水平与湖北、湖南。,河南、西、有显著性差异;

全国各省市2011年GDP数据(现价/单位:亿元)

交通运输、仓储

地区生产

地区 北京 天津 河北 山西 内蒙古 辽宁 吉林

14359.88 1306.3 22226.7

7101.6

936.09 693.53

1040.03 1216.6 420.98

860.47

381.64 205.69

447.46 755.57 207.65

384.76 876.12 238.61

1545.41 2987.66 1746.51

1915.57 10696.54 1455.61 1143.17 1960.33 436.13

总值

农业

工业 3048.79 5430.84 5959.96

建筑业 703.69 497.48 675.3

16251.93 136.27 11307.28 159.72 11237.55 641.42

和邮政业 808.95 632.1 756.29

批发和零售业

住宿和餐饮业

金融业 756.5 746.01 519.32

房地产业 411.46 918.02 224.91

其 他 1760.77 2653.38 1352.37

2215.41 1074.93 5775.82

2139.65 348.42 1463.89 194.52 846.65

261.33

24515.76 2905.73 11770.38 1356.48 2046.22 1780.63 338.91

10568.83 1277.44 4917.95

黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 12582

1701.5

5602.76 7208.59

727.77 719.3

543.81 868.31

1060.26 275.8 3040.99 279.34

350.82 2277.4

465.61

1853.67

19195.69 124.94

1019.68 3657.14

49110.27 3064.77 22280.61 2922.67 2127.93 5341.39 919.13 32318.85 1583.04 14683.03 1872.55 1206.95 3288.53 620.25 15300.65 2015.31 7062 17560.18 1612.24 7675.09 11702.82 1391.07 5411.86

1247.38 589.82 1394.11 963.85 978.69

507.44

1050.61 252.62 1511.29 300.35 831.97

270.29

2600.11 2747.89 7105.77 2730.29 1677.13 4657.08 503.85 862.41 357.44 634.92 911.16 402.51 1944.15 2329.68 1551.55 45361.85 3973.85 21275.89 2741.22 2328.38 5400.19 881.58 1640.41 1838.14 5282.2

河南 26931.03 3512.24 13949.32 湖北 19632.26 2569.3 8538.04 湖南 19669.56 2768.03 8122.75 广东 53210.28 2665.2 24649.6 广西 11720.87 2047.23 4851.37 海南 2522.66

659.23

475.04 重庆 10011.37 844.52 4690.46 四川 21026.68 2983.51 9491.05

贵州 5701.84 726.22 1829.2 云南 8893.12 1411.01 2994.3

西藏 605.83 74.47 48.18 陕西 12512.3 1220.9 5857.92 甘肃 5020.37 678.75 1923.95 青海 1670.44 155.08 811.73 宁夏

2102.21 184.14

816.79

新疆

6610.05

1139.03 2700.2

录入数据到spss:

1477.76 961.5 1277.9

869.48

1239.24 948.82 1797.78 2090.36 823.95 588.2 239.46 119.74 852.58 456.25 1538.08 638.76 365.13 590.91 786.02 217.22 160.61 23.95 1077.67 552.54 453.88 280.33 163.45 67.53 239.36 174.1 525.7

256.72

1586.09 797.99 1512.89 446.52 1662.34 406.87 5681.17 1192.28 803.48 307.88 258.06 89.75 747.3 166.31 1186.58 562.63

448.77 224.4 932.21 278.2 34.25 17.75 1036.35 266.92

351.97 123.61 93.7 18.93 109.99 37.15 371.9

77.87

868.2 987 674.57 634.67 501.09 518.04 2916.13 3321.31 445.37 465.68 105.24 208.71 704.66 396.28 868.15 620.62 297.27 160.3 456.23 222.31 31.7 17.44 432.11 398.03 145.05 134.25 62.56 29.05 134.18 79.01 288.77

176.22

2790.94 3108.89 3502.38 8896.45

1387.72 367.43 1153.01 3137.3 1059.64 1595.62 197.48 1669.86 928.57 268.41 327.49 1073.64

实验操作过程与结果分析: 4.1描述统计分析方法 造作过程截图:

点击Analyze→Descriptive Statistic→Descriptives,截图如下

将个行业键入Variable中,截图如下:

点击Options,勾选Mean、Min、Max、Std,截图如下:

分析结果如下表所示:

Descriptive Statistics N Minimum Maximum Mean Std. Deviation 农业 工业 建筑业 交通运输仓储蓄和邮政业 批发分零售业 住宿和餐饮业 金融业 其他 Valid N (listwise) 31 31 31 31 31 31 31 31 31 74.47 48.18 160.61 23.95 34.25 17.75 31.70 197.48 3973.85 24649.60 2922.67 2328.38 5681.17 1192.28 2916.13 8896.45 1.5306E3 7.4799E3 1.0303E3 8.0067E2 1.5681E3 3.5423E2 8.3555E2 2.5054E3 1099.29507 6296.67453 673.06563 613.84875 1509.48430 277.56833 833.73651 2036.35437 从表中我们可以知道:平均GDP较高的三个行业是工业、交通运输仓储和邮政业、金融业。从GDP的极大值和极小值方面分析,我们可以知道GDP的极小值是住宿和餐饮业的17.75亿元。极大值是工业的24649.60亿元。 3.2聚类分析———系统聚类法

点击Analyze→Classity→Herarchair Cluster,截图如下:

将各行业键入键入Variable中,截图如下:

点击Statistic,勾选Agglomeration schedule、Proximity matrix,截图如下:

点击Method,勾选Ronge 0 to 1 ,取间距“Squared Euclidean distance”

选用组间聚类法,截图如下:

PANG

结果和分析:

注:取用间距Squared Euclidean Distance

(1) 近似矩阵表(由于表格数据很大,故截取一部分作说明) 下表是利用“组间联结”聚类法计算所得的近似矩阵表,其实质是一个不相似矩阵,其中的数值表示各个样本之间的相似系数,数值越小,表示两样本的差距越小。

(2) 聚类表

下表是利用“组间联结”聚类法生成的聚类表。该表表示的是每一个阶

段的聚类结果,系数表示的“聚合系数”,第二列和第三列表示的是聚合的类。

Agglomeration Schedule Cluster Combined Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Cluster 1 26 14 26 17 8 28 21 7 7 4 24 7 6 2 17 7 21 5 Cluster 2 29 27 30 18 20 31 26 25 14 22 28 8 13 4 23 12 24 7 Coefficients .002 .006 .007 .013 .017 .020 .027 .028 .036 .041 .041 .044 .055 .063 .064 .074 .087 .101 Stage Cluster First Appears Cluster 1 0 0 1 0 0 0 0 0 8 0 0 9 0 0 4 12 7 0 Cluster 2 0 0 0 0 0 0 3 0 2 0 6 5 0 10 0 0 11 16 Next Stage 3 9 7 15 12 11 17 9 12 14 17 16 21 20 21 18 22 20

19 20 21 22 23 24 25 26 27 28 29 30 1 2 6 2 6 10 3 10 1 2 1 1 9 5 17 21 16 15 6 19 11 3 2 10 .118 .131 .133 .268 .277 .300 .341 .615 .669 .730 1.212 3.995 0 14 13 20 21 0 0 24 19 22 27 29 0 18 15 17 0 0 23 0 0 25 28 26 27 22 23 28 25 26 28 30 29 29 30 0 (3) 冰柱图(由于数据过大没法全部展示,故而截取一部分)

下图利用“组间联结”聚类法生成的冰柱图。冰柱图是反映样本聚类情

况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样本。

(4) 树状聚类图

下图是利用利用“组间联结”聚类法生成的树状聚类图。如果将样本分为三类的话,如图所示,第一类包括广东、山东、江苏;第二类包括浙江、北京、上海;第三类为其他省市。

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Ctluser Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

西 藏 26 ─┐ 青 海 29 ─┤ 宁 夏 30 ─┤ 海 南 21 ─┼─┐ 甘 肃 28 ─┤ │ 新 疆 31 ─┤ │ 贵 州 24 ─┘ │ 山 西 4 ─┐ ├─────┐ 重 庆 22 ─┤ │ │ 天 津 2 ─┤ │ │ 黑龙江 8 ─┤ │ │ 广 西 20 ─┼─┘ │ 江 西 14 ─┤ │ 陕 西 27 ─┤ │ 吉 林 7 ─┤ ├─────┐ 云 南 25 ─┤ │ │ 安 徽 12 ─┤ │ │ 内蒙古 5 ─┘ │ │ 辽 宁 6 ─┐ │ │ 福 建 13 ─┼─┐ │ │

湖 北 17 ─┤ │ │ ├─────────────────────────────────┐ 湖 南 18 ─┤ ├─┐ │ │ │ 四 川 23 ─┘ │ ├───┘ │ │ 河 南 16 ───┘ │ │ │ 河 北 3 ─────┘ │ │ 北 京 1 ─┬───────┐ │ │ 上 海 9 ─┘ ├─────┘ │ 浙 江 11 ─────────┘ │ 江 苏 10 ───┬───┐ │ 山 东 15 ───┘ ├─────────────────────────────────────────┘ 广 东 19 ───────┘

下面我们把利用其它六种方法生产树状聚类图予以展示: 1)组内联结聚类法

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Average Linkage (Within Group)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

西 藏 26 ─┐ 青 海 29 ─┤ 宁 夏 30 ─┼─┐ 海 南 21 ─┘ ├───┐ 甘 肃 28 ─┐ │ │ 新 疆 31 ─┼─┘ │ 贵 州 24 ─┘ │ 山 西 4 ─┬─┐ ├─────┐ 重 庆 22 ─┘ │ │ │ 天 津 2 ───┤ │ │ 黑龙江 8 ─┐ │ │ │ 广 西 20 ─┤ ├───┘ │

江 西 14 ─┤ │ ├─────────┐ 陕 西 27 ─┤ │ │ │ 吉 林 7 ─┼─┤ │ │ 云 南 25 ─┤ │ │ │ 安 徽 12 ─┘ │ │ │ 内蒙古 5 ───┘ │ │

北 京 1 ─────┬───────┘ ├─────────────────────────┐ 上 海 9 ─────┘ │ │ 湖 北 17 ─┐ │ │ 湖 南 18 ─┼───┐ │ │ 四 川 23 ─┘ ├─┐ │ │ 辽 宁 6 ───┬─┘ ├─┐ │ │ 福 建 13 ───┘ │ ├───────┐ │ │ 河 南 16 ───────┘ │ ├─────┘ │ 河 北 3 ─────────┘ │ │ 浙 江 11 ─────────────────┘ │ 江 苏 10 ─────────────┬───────┐ │ 山 东 15 ─────────────┘ ├───────────────────────────┘ 广 东 19 ─────────────────────┘

2)最近邻元素聚类法

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Single Linkage

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

西 藏 26 ─┐ 青 海 29 ─┤ 宁 夏 30 ─┤ 海 南 21 ─┤ 甘 肃 28 ─┼─┐ 新 疆 31 ─┤ │ 贵 州 24 ─┘ │ 江 西 14 ─┐ │ 陕 西 27 ─┤ │ 黑龙江 8 ─┤ │ 广 西 20 ─┼─┤ 吉 林 7 ─┤ │ 云 南 25 ─┘ │ 山 西 4 ───┤ 重 庆 22 ───┤ 安 徽 12 ───┤ 天 津 2 ───┤ 内蒙古 5 ───┼───┐ 湖 北 17 ─┬─┤ │ 湖 南 18 ─┘ │ │ 四 川 23 ───┤ ├─────┐ 辽 宁 6 ───┤ │ │

福 建 13 ───┘ │ ├───────────┐ 河 南 16 ───────┘ │ ├─────┐ 河 北 3 ─────────────┘ │ │

北 京 1 ───────┬─────────────────┘ ├─────────────────┐ 上 海 9 ───────┘ │ │ 浙 江 11 ───────────────────────────────┘ │ 江 苏 10 ─────────────────┐ │ 山 东 15 ─────────────────┼───────────────────────────────┘ 广 东 19 ─────────────────┘

3)最远邻元素聚类法

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Complete Linkage

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

西 藏 26 ─┐ 青 海 29 ─┤ 宁 夏 30 ─┤ 海 南 21 ─┼───┐ 甘 肃 28 ─┤ │ 新 疆 31 ─┤ │

贵 州 24 ─┘ ├───────────────┐ 山 西 4 ─┐ │ │ 重 庆 22 ─┼─┐ │ │ 天 津 2 ─┘ │ │ │ 江 西 14 ─┐ ├─┘ │ 陕 西 27 ─┤ │ │ 吉 林 7 ─┤ │ │ 云 南 25 ─┼─┘ │

黑龙江 8 ─┤ ├───────────────────────────┐ 广 西 20 ─┤ │ │ 安 徽 12 ─┤ │ │ 内蒙古 5 ─┘ │ │ 辽 宁 6 ─┐ │ │ 福 建 13 ─┼─┐ │ │ 湖 北 17 ─┤ │ │ │ 湖 南 18 ─┤ ├───────┐ │ │ 四 川 23 ─┘ │ │ │ │ 河 北 3 ───┤ ├─────────┘ │ 河 南 16 ───┘ │ │ 北 京 1 ─┬───┐ │ │ 上 海 9 ─┘ ├─────┘ │ 浙 江 11 ─────┘ │ 江 苏 10 ─┬───┐ │ 山 东 15 ─┘ ├───────────────────────────────────────────┘ 广 东 19 ─────┘

4)质心聚类法

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Centroid Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

西 藏 26 ─┐ 青 海 29 ─┤ 宁 夏 30 ─┤ 海 南 21 ─┼─┐ 甘 肃 28 ─┤ │ 新 疆 31 ─┤ │ 贵 州 24 ─┘ │ 山 西 4 ─┐ ├───┐ 重 庆 22 ─┤ │ │ 天 津 2 ─┤ │ │ 黑龙江 8 ─┤ │ │ 广 西 20 ─┼─┘ │ 江 西 14 ─┤ │ 陕 西 27 ─┤ │ 吉 林 7 ─┤ ├───┐ 云 南 25 ─┤ │ │ 安 徽 12 ─┤ │ │ 内蒙古 5 ─┘ │ │ 辽 宁 6 ─┐ │ │ 福 建 13 ─┼─┐ │ │

湖 北 17 ─┤ │ │ ├─────────────────────────────────────┐ 湖 南 18 ─┤ │ │ │ │ 四 川 23 ─┘ ├───┘ │ │ 河 南 16 ───┤ │ │ 河 北 3 ───┘ │ │ 北 京 1 ─┬───────┐ │ │ 上 海 9 ─┘ ├─┘ │ 浙 江 11 ─────────┘ │ 江 苏 10 ─────┬─┐ │ 山 东 15 ─────┘ ├─────────────────────────────────────────┘ 广 东 19 ───────┘

5)中位数聚类法

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Median Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

西 藏 26 ─┐ 青 海 29 ─┤ 宁 夏 30 ─┤ 海 南 21 ─┼─┐ 甘 肃 28 ─┤ │

新 疆 31 ─┤ ├───────────┐ 贵 州 24 ─┘ │ │ 山 西 4 ─┐ │ │ 重 庆 22 ─┼─┘ │ 天 津 2 ─┘ │ 湖 北 17 ─┐ │ 湖 南 18 ─┼─┐ │ 四 川 23 ─┘ │ │ 辽 宁 6 ─┐ ├─┐ │

福 建 13 ─┤ │ │ ├─────────────────────────────────┐ 黑龙江 8 ─┤ │ │ │ │ 广 西 20 ─┼─┘ │ │ │ 江 西 14 ─┤ │ │ │ 陕 西 27 ─┤ │ │ │ 吉 林 7 ─┤ │ │ │ 云 南 25 ─┤ │ │ │ 安 徽 12 ─┤ ├───────┐ │ │ 内蒙古 5 ─┘ │ │ │ │ 河 南 16 ─────┤ ├─┘ │ 河 北 3 ─────┘ │ │ 北 京 1 ─┬─────────┐ │ │ 上 海 9 ─┘ ├─┘ │ 浙 江 11 ───────────┘ │ 江 苏 10 ─────┬───┐ │ 山 东 15 ─────┘ ├───────────────────────────────────────┘ 广 东 19 ─────────┘

6)ward聚类法

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Ward Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

西 藏 26 ─┐ 青 海 29 ─┤ 宁 夏 30 ─┤ 海 南 21 ─┼───┐ 甘 肃 28 ─┤ │ 新 疆 31 ─┤ │ 贵 州 24 ─┘ │

山 西 4 ─┐ ├─────────────┐ 重 庆 22 ─┤ │ │ 天 津 2 ─┤ │ │ 江 西 14 ─┤ │ │ 陕 西 27 ─┼───┘ │ 吉 林 7 ─┤ │ 云 南 25 ─┤ │ 黑龙江 8 ─┤ │

广 西 20 ─┤ ├─────────────────────────────┐ 安 徽 12 ─┤ │ │ 内蒙古 5 ─┘ │ │ 辽 宁 6 ─┐ │ │ 福 建 13 ─┤ │ │ 湖 北 17 ─┤ │ │ 湖 南 18 ─┤ │ │ 四 川 23 ─┼─────┐ │ │ 河 南 16 ─┤ │ │ │ 河 北 3 ─┘ ├───────────┘ │ 北 京 1 ─┬─┐ │ │ 上 海 9 ─┘ ├───┘ │ 浙 江 11 ───┘ │ 江 苏 10 ─┐ │ 山 东 15 ─┼───────────────────────────────────────────────┘ 广 东 19 ─┘

结果分析讨论

纵观七种聚类方法,比较其聚类结果(分为三类)可总结出如下表:

组间联结聚类法 组内联结聚类法 最近邻元素聚类法 最远邻元素聚类法 质心聚类法 中位数聚类法 Ward聚类法 第一类 广东、山东、江苏 广东 广东、山东、江苏 广东、山东、江苏 广东、山东、江苏 广东、山东、江苏 广东、山东、江苏 第二类 浙江、上海、北京 山东、江苏 浙江 浙江、上海、北京 浙江、上海、北京 浙江、上海、北京 浙江、上海、北京 第三类 其他 其他 其他 其他 其他 其他 其他 3.3聚类分析——K-均值分析(快速聚类法) 点击Analyze→Classity→K-means Cluster,截图如下:

将各行业键入键入Variable中,将数据分为三类,截图如下:

点击Options,勾选Intial、Cluster和Exclude cases listwise截图如下:

点击save,勾选Cluster和Distance,截图如下:

故而得到表中的数据变化如下:

输出结果分析:

下表表示的是初始聚类中心,也就是种子点 Initial Cluster Centers 农业 工业 建筑业 交通运输仓储蓄和邮政业 批发分零售业 住宿和餐饮业 金融业 1 74.47 48.18 160.61 23.95 34.25 17.75 31.70 Cluster 2 2665.20 2.46E4 1797.78 2090.36 5681.17 1192.28 2916.13 3 3512.24 1.39E4 1477.76 961.50 1586.09 797.99 868.20 房产业 其他 17.44 197.48 3321.31 8896.45 987.00 2790.94

下表表示的是迭代的历史记录 Iteration History Change in Cluster Centers Iteration 1 2 1 3.774E3 .000 2 2.924E3 .000 3 4.537E3 .000 aa. Convergence achieved due to no or small change in cluster centers. The maximum absolute coordinate change for any center is .000. The current iteration is 2. The minimum distance between initial centers is 13432.633.

下表表示的是每个个案的类别情况:第三列的“cluster”表示的是该案属于哪一个类别。第四列的“distance”表示的该案例与所属类别中心之间的距离。

Cluster Membership Case Number 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 地区 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 Cluster 1 1 3 1 3 3 1 1 3 2 3 3 3 1 2 3 3 3 Distance 5.056E3 2.352E3 2.505E3 2.625E3 3.191E3 1.114E3 1.662E3 2.464E3 3.752E3 714.670 5.887E3 2.977E3 2.173E3 2.159E3 2.694E3 4.537E3 1.330E3 1.876E3 19 20 21 22 23 24 25 26 27 28 29 30 31 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆 2 1 1 1 3 1 1 1 1 1 1 1 1 2.924E3 1.937E3 3.178E3 1.397E3 1.215E3 1.653E3 791.069 3.774E3 2.596E3 1.633E3 3.052E3 2.983E3 928.110

下表表示的是最终聚类中心,可以看出第二类GDP最高,第三类其次,第一类最小。 Final Cluster Centers 农业 工业 建筑业 交通运输仓储蓄和邮政业 批发分零售业 住宿和餐饮业 金融业 房产业 其他 1 849.88 3374.78 586.13 411.59 728.87 186.17 441.78 300.31 1415.86 Cluster 2 3234.61 2.27E4 2487.22 2182.22 5474.25 997.66 2385.55 2635.78 7094.81 3 2117.84 9663.49 1319.50 1025.17 1799.72 438.48 1021.36 834.74 2937.64 下表表示的三组最终聚类中心的距离,可以看出,第二类与第三类之间的距离要比第一类与第三类之间的距离大。 Distances between Final Cluster Centers Cluster 1 2 3 1 2 2.126E4 2.126E4 6.798E3 1.453E4 3 6.798E3 1.453E4

下表表示的是每个聚类中的案例个数,可以看出,第一类有17个样本,第二类有3个样本,第三类有11个样本。

Number of Cases in each Cluster Cluster 1 2 3 Valid Missing 17.000 3.000 11.000 31.000 .000

分析上表可知,若采用K-均值聚类法分三类,第一类包括广东、山东、江苏,第二类包括河北、内蒙古、辽宁、上海、浙江、安徽、福建、河南、湖北、湖南、四川,第三类那位其他。

5、结论

结论1:不同地业的平均GDP比较

平均GDP较高的三个行业是:工业、交通运输仓储和邮政业、金融业

结论2:不同地区平均GDP比较:

比较系统聚类法和K-均值聚类法输出的结果,其我们可以清楚的看到第一类基本都为广东、山东、江苏,但是第二类却有很大出入,用系统聚类法的几种不同方法所做的分析结果基本相同,故而我们我们这里认为第二类包括北京,上海,浙江,第三类包括其他省市。

统计调查分析报告

题 目:_关于我国国内生产总值的统计分析__ 班 级:____ ____________________ __ 姓 名:____ ___________________ ___ 学 号:____ __________________ ____ 时 间:____ __________________ ____

本文来源:https://www.bwwdw.com/article/1mvg.html

Top