全国各省经济的聚类分析及判别分析

更新时间:2023-10-19 03:55:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

全国各省经济的聚类分析及判别分析

唐鹏钧 (DY1001109)

摘要:利用SPSS软件对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)的主要经济指标进行聚类分析,将其经济分成4种类型,并对浙江、湖南、甘肃进行类型判别分析。通过这两个方法对全国各省进行经济分类。本文选取了7项经济指标作为决定经济类型的影响因素,各项数据均来自2010年国家统计年鉴。分析结果表明:北京市和上海市为第一类经济类型;江苏省和山东省为第三类型; 广东省为第四类经济;其他25个省、直辖市、自治区均属于第二类型。 关键词:聚类分析、判别分析、经济类型

0引言

聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。

判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。

聚类分析与判别分析都是研究分类的,但是它们有所区别:

(1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底有几种类型并不知道。判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本的基础上,对当前的新样本判定它们属于哪个总体。

(2)两类方法的建立的模型不一样,因此在处理某些特定的问题时,就会得

1

出不一样的结果,就本题看来,出现了经济类型上的判别不一致的细微差异,但是作为分类方法来说,两种方法在大部分情况下都能取得一致的效果。

(3)聚类分析与判别分析也是有联系的。如我们对研究的多元数据的特征不熟悉,当然要先进行聚类分析,才能考虑判别分析的问题。

随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增。但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢。因此,基于这种现状,本文对全国各地区的经济进行聚类分析。首先对除浙江、湖南、甘肃三省的其他各省经济进行聚类,然后对浙江、湖南、甘肃三省的经济类型进行判别分析。通过本文的分析研究,可以清楚地认识到我国经济类型构成,以及各地区的发展差异,最终对国家以及各地区的发展及政策制定实施起到指导作用。本文采用多元统计分析方法,对全国31个省、直辖市、自治区的7项经济指标进行聚类分析和判别分析,从而能够比较客观地反映了当前各地区的经济类型。

1实验方案

1.1数据统计

本文根据2010年国家统计年鉴,选取了2009年31个省、直辖市、自治区的7项经济指标[1],如表1所示。其中包括:各省的国内生产总值X1、农业生产总值X2、工业生产总值X3、建筑业生产总值X4、进出口总值X5、批发企业销售额X6和餐饮业X7。

1.2聚类分析

将表1所示的31个省、直辖市、自治区(除浙江、湖南和甘肃) 2009年的各项数据导入SPSS。为了便于分析,在聚类分析前,先对数据进行标准差标准化处理,其过程为:“Analyze→Descriptive Statistics描述性统计→Descriptives频数…”,然后对标准差标准化后的数据进行聚类分析(Hierarchical Cluster Analysis)。其过程为:依次选择“Analyze→Classify分类→Hierarchical Cluster聚类分析”,引入的变量是X1至X7。从而对样品(个案)进行聚类,即Q型聚类分析(对研究对象本

2

身分类)。聚类方法使用Between-groups linkage(类间平均链锁法),距离测量技术选择Squared Euclidean distance(Euclidean距离平方,即两观察单位间的距离为其值差的平方和,该技术用于Q型聚类)。最终得出聚类分析结果。值得注意的是本文选择的聚类类型共分4类。

表1 2009年我国31个省、直辖市、自治区的各项经济指标数据统计

单位:亿元

地区 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆

国内生产总值(X1) 12153.03 7521.85 17235.48 7358.31 9740.25 15212.49 7278.75 8587.00 15046.45 34457.30 22990.35 10062.82 12236.53 7655.18 33896.65 19480.46 12961.10 13059.69 39482.56 7759.16 1654.21 6530.01 14151.28 3912.68 6169.75 441.36 8169.80 3387.56 1081.27 1353.31 4277.05

农业生产总值(X2) 工业生产总值(X3) 建筑业生产总值(X4) 34297216 15641917 23328055 16501463 9129264 28557785 10241235 12351015 32476545 89289353 88614109 19598071 19415838 11853294 40516317 32201197 30468409 23234734 29806043 8758730 1366053 17524046 29003710 5060158 10774227 910274 22052762 5243473 1848156 2323586 7258850

进出口总值 (X5) 5334148 4488051 1343558 163150 108694 3076882 555747 78345 18670215 25969712 6929148 523140 4377455 770607 7559835 376612 703772 182177 38241318 367765 301396 295047 936469 18647 43593 99 252626 10693 19432 22142 27362

315.0 11039.13 281.7 13083.63 3640.9 24062.76 908.7 9249.98 1570.6 10699.44 2704.6 28152.73 1734.3 10026.55 2251.1 7301.60 283.2 24091.26 3816.0 73200.03 1873.4 41035.29 2569.5 13312.59 2001.2 16762.82 1733.8 9783.96 6003.1 4871.5 2985.2 3207.9 3337.6 2377.2 705.0 913.1 875.2 1706.2 93.4 1337.2 876.3 157.3 243.5 1297.6

71209.42 27708.15 15567.02 13507.64 68275.77 6880.04 1057.45 6772.90 3426.69 5197.45 51.60 8470.40 3770.38 1080.35 1461.58 4001.12

3

批发企业销售额(X6) 22558.0 8599.5 2730.6 2705.0 1487.6 6428.7 1049.4 2028.3 20170.8 15364.8 13888.0 2937.0 4617.1 1002.8 7584.4 3083.0 4259.0 1643.9 18599.1 1464.0 517.5 2864.0 2570.6 825.8 2591.0 33.2 1956.2 1205.8 184.2 373.6 2511.8

餐饮业(X7) 341.7 62.6 26.5 44.9 41.1 93.3 18.2 27.4 292.6 205.2 166.5 41.2 80.5 24.7 262.6 98.7 81.4 65.3 384.4 17.6 8.4 73.7 94.2 9.5 17.0 0.4 76.1 12.8 2.6 8.0 7.0

3689.8 18071.68

1.3判别分析

选择SPSS→Analyze→Classify→Discriminant Analysis判别分析,定义分类结果为指标变量X8,采用自变量全进入模型来进行判别分析,由于在聚类分析中将全国各省、直辖市的经济类型分为四类,因此其取值范围为1~4。

2结果分析与讨论

2.1聚类分析

通过SPSS对数据进行标准差标准化,结果如表2所示。从表中的方差结果可以看出,由于方差的数值很大,所以各地区的差异还是相当大的,这也说明各地区发展的不平衡。

表2 Descriptive Statistics

X1 X2 X3 X4 X5 X6 X7 Valid N (listwise)

N 28 28 28 28 28 28 28 28

Minimum

441.36 93.40 51.60 910274.00

99.00 33.20 .40

Maximum

39482.56 6003.10 73200.03 89289353.00 38241318.00

22558.00 384.40

Mean 11638.0746 1942.9821 17499.9321 20091198.8929 4093779.2500 5039.1786 87.1964

Std. Deviation

9892.22609 1519.32615 20393.65336 17672676.52727 8934837.44997

6310.60159 107.59274

Variance 97856137.108 2308351.937 415901097.219 31232349563729

0.000

79831320257392.

700

39823692.455 11576.197

再对标准差标准化后的数据进行聚类分析,结果如表3、4所示。表3显示,进行聚类分析的只有28个省、直辖市、自治区。采用的是组间聚类。

表3 Case Processing Summary(a)

Cases Valid Missing Total 4

N 28 Percent 100.0 N 0 Percent .0 N 28 Percent 100.0 a Average Linkage (Between Groups)

表4说明整个聚类分析过程共进行了27步,而且每一步的合并也有清楚地显

示。通过该表,可以详细地了解每一步的聚类过程。

表4 Agglomeration Schedule

Stage Cluster First Cluster Combined Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27

Cluster 1 26 7 24 8 4 5 19 23 4 5 19 16 5 11 4 3 3 4 3 4 2 1 2 10 10 1 1 Cluster 2 27 13 26 18 20 7 22 28 25 8 24 21 23 12 5 16 6 11 15 19 4 9 3 14 17 2 10 Coefficients .008 .014 .025 .073 .098 .124 .125 .161 .242 .256 .262 .338 .389 .607 .849 .860 1.035 1.232 1.915 2.286 2.812 3.085 6.400 15.752 18.286 21.893 45.393 Appears Cluster 1 0 0 0 0 0 0 0 0 5 6 7 0 10 0 9 0 16 15 17 18 0 0 21 0 24 22 26 Cluster 2 0 0 1 0 0 2 0 0 0 4 3 0 8 0 13 12 0 14 0 11 20 0 19 0 0 23 25 Next Stage 3 6 11 10 9 10 11 13 15 13 20 16 15 18 18 17 19 20 23 21 23 26 26 25 27 27 0 表5显示了28个省、直辖市、自治区在这4种类型中的分布情况。结果为: 第一类:北京市、上海市(2个)

第二类:天津市、河北省、山西省、内蒙古、辽宁省、吉林省、黑龙江省、

5

安徽省、福建省、江西省、河南省、湖北省、广西省、海南省、重庆市、四川省、贵州省、云南省、西藏、陕西省、青海省、宁夏、新疆(23个)

第三类:江苏省、山东省(2个) 第四类:广东省(1个)

表5 Cluster Membership Case 1 2 3 4 5 6 7 8 9 10 11 12 13 14

4 Clusters Case 1 2 2 2 2 2 2 2 1 3 2 2 2 3 15 16 17 18 19 20 21 22 23 24 25 26 27 28 4 Clusters 2 2 4 2 2 2 2 2 2 2 2 2 2 2 图1 聚类分析谱系图

6

从图1可以直观地看出各个省、直辖市、自治区之间的相似程度,聚类的先后顺序,将表4所表达的聚类过程更直观地展现出来。

2.2判别分析

首先对初始数据进行标准差标准化处理,结果如表6所示。

表6 Descriptive Statistics

X1 X2 X3 X4 X5 X6 N 31 31 31 Minimum 441.36 93.40 51.60 Maximum 39482.56 Mean 11783.9900 17687.4648 21924060.8065 3927349.5806 Std. Deviation 9730.40220 1472.72580 19988.82310 21019292.33054 8552969.31774 6270.77712 6003.10 1947.1323 73200.03 89289353.00 38241318.00 31 910274.00 31 31 99.00 33.20 22558.00 5091.4419 7

X7 Valid N (listwise) 31 31 .40 384.40 86.6484 104.05949 描述性統計資料 国内生产总值(X1) 农业生产总值(X2) 工业生产总值(X3) 建筑业生产总值(X4) N 31 31 31 31 31 31 31 最小值 441.36 93.4 51.60 910274.000000000 33.2 .4 最大值 39482.56 6003.1 73200.03 89289353.000000000 22558.0 384.4 平均數 11783.9900 1947.132 17687.4648 21924060.80645161000 5091.442 86.648 標準偏差 9730.40220 1472.7258 19988.82310 21019292.330534670000 6270.7771 104.0595 批发企业销售额(X6) 餐饮业(X7) 有效的 N (listwise)

表7 Analysis Case Processing Summary

Unweighted Cases Valid Excluded

Missing or out-of-range group codes At least one missing discriminating variable Both missing or out-of-range group codes and at least one missing discriminating variable

Total

Total

0 3 31

.0 9.7 100.0

N 28 3 0

Percent

90.3 9.7 .0

表7显示了浙江、湖南和甘肃三省为判别分析的对象。表8显示了各个类型的特征,其中包括均值等。表9为特征值表,表10为Wilks' Lambda值,表11为标准化典型判别函数系数表,表12为典型判别函数系数表,表13显示了SPSS对浙江省、湖南省和甘肃省经济的预测结果,结果显示均为第二类经济类型。图2为散点图,从图中可以看出绝大多数都是第二类型,浙江、湖南和甘肃也属于第二类型。

表8 Group Statistics

Valid N (listwise) result 1.00 Zscore(X1) Mean .1866059 Std. Deviation .21026437 Unweighted 2 Weighted 2.000 8

2.00 3.00 4.00 Total

Zscore(X2) Zscore(X3) Zscore(X4) Zscore(X5) Zscore(X6) Zscore(X7) Zscore(X1) Zscore(X2) Zscore(X3) Zscore(X4) Zscore(X5) Zscore(X6) Zscore(X7) Zscore(X1) Zscore(X2) Zscore(X3) Zscore(X4) Zscore(X5) Zscore(X6) Zscore(X7) Zscore(X1) Zscore(X2) Zscore(X3) Zscore(X4) Zscore(X5) Zscore(X6) Zscore(X7) Zscore(X1) Zscore(X2) Zscore(X3) Zscore(X4) Zscore(X5) Zscore(X6) Zscore(X7)

-1.1190354 -.0061169 .5453476 .9440969 2.5950465 2.2150945 -.3583643 -.1220878 -.3580897 -.3476833 -.3633544 -.4179724 -.4336620 2.3013422 2.0115202 2.7273872 2.0447298 1.5009318 1.0179214 1.4150714 2.8466007 .9441457 2.5308296 .3749880 4.0119363 2.1540645 2.8613595 -.0149958 -.0028180 -.0093819 -.0871990 .0194587 -.0083344 .0052666

.01526828 .46172051 .06124891 1.10254381 .26918598 .33364513 .52859367 .84750555 .40772893 .46349514 .15415181 .32367385 .32129049 .04074235 1.05010264 .07041804 1.64076620 1.52201515 .87733522 .39004543

.(a) .(a) .(a) .(a) .(a) .(a) .(a)

1.01663075 1.03164225 1.02025283 .84078361 1.04464743 1.00635080 1.03395407

2 2 2 2 2 2 23 23 23 23 23 23 23 2 2 2 2 2 2 2 1 1 1 1 1 1 1 28 28 28 28 28 28 28

2.000 2.000 2.000 2.000 2.000 2.000 23.000 23.000 23.000 23.000 23.000 23.000 23.000 2.000 2.000 2.000 2.000 2.000 2.000 2.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 28.000 28.000 28.000 28.000 28.000 28.000 28.000

a Insufficient data

表9 Eigenvalues

Canonical Function 1 2 3 Eigenvalue 53.086(a) 9.804(a) 4.347(a) % of Variance 79.0 14.6 6.5 Cumulative % 79.0 93.5 100.0 Correlation .991 .953 .902 a First 3 canonical discriminant functions were used in the analysis.

9

表10 Wilks' Lambda Wilks' Test of Function(s) 1 through 3 2 through 3 3

Lambda .000 .017 .187 Chi-square 173.009 87.212 36.044 df 21 12 5 Sig. .000 .000 .000 表11 Standardized Canonical Discriminant Function Coefficients

Function Zscore(X1) Zscore(X2) Zscore(X3) Zscore(X4) Zscore(X5) Zscore(X6) Zscore(X7)

1 1.464 .544 -2.034 -1.861 1.790 .392 1.438 2 -1.550 -.674 2.750 .404 -.110 -.822 .112 3 -3.936 1.100 1.971 .912 -.650 .774 .377 表12 Canonical Discriminant Function Coefficients Function Zscore(X1) Zscore(X2) Zscore(X3) Zscore(X4) Zscore(X5) Zscore(X6) Zscore(X7) (Constant) 1 2.883 .649 -5.063 -3.346 4.354 1.083 4.425 -.393 2 -3.051 -.803 6.843 .726 -.267 -2.271 .344 .064 3 -7.749 1.311 4.905 1.640 -1.581 2.137 1.161 .119 Unstandardized coefficients

表13 Casewise Statistics

Highest Group P(D>d | G=g) Case Number Actual Group Predicted Group p df P(G=g | D=d) Squared Mahalanobis Distance to Centroid Function 1 Function 2 Function 3 Discriminant Scores 10

本文来源:https://www.bwwdw.com/article/80of.html

Top