聚类分析和判别分析实验报告

更新时间:2024-05-26 18:19:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

聚类分析实验报告

一、实验数据

2013年,在国内外形势错综复杂的情况下,我国经济实现了平稳较快发展。全年国内生产总值568845亿元,比上年增长7.7%。其中第三产业增加值262204亿元,增长8.3%,其在国内生产总值中的占比达到了46.1%,首次超过第二产业。经济的快速发展也带来了就业的持续增加,年末全国就业人员76977万人,其中城镇就业人员38240万人,全年城镇新增就业1310万人。随着我国城镇化进程的不断加快,加之农业用地量的不断衰减,工业不断的转型升级,使得劳动力就业压力的缓解需要更多的依靠服务业的发展。

(一)指标选择

根据指标选择的可行性、针对性、科学性等原则,分别从服务业的发展规模、发展结构、发展效益以及发展潜力等方面选择14个指标来衡量服务业的发展水平,指标体系如表1所示:

表1 服务业发展水平指标体系 一级指标 服务业发展规模指标 服务业发展结构指标 二级指标 服务业增加值 服务业就业人数 服务业产值比重 服务业就业比重 人均服务产品占有量 服务业发展效益指标 服务密度 服务综合生产率 服务产品外贸进出口总额 服务业贡献率 人均GDP 服务业增长速度 工业化水平 城市化水平 服务业全社会固定资产投资额

单位 亿元 万人 % % 元/人 元/万平方公里 亿元/万人 万美元 % 元 % % % 亿元 1

计算方法 ∑服务业各企事业单位增加值 服务业吸纳劳动力数量 服务业增加值/GDP 服务业就业人数/总就业人数 服务业增加值/地区总人口数 服务业增加值/地区面积 服务业增加值/服务业就业人数 服务产品的进口额+出口额 服务增加值/总人口 国内生产总值/总人口 (报告期不变价服务业增加值/基期不变价服务业增加值-1)*100% 工业增加值/国内生产总值 城镇人口/总人口 ∑服务业各行业固定资产投资额 代码 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 服务业发展潜力指标 (二)指标数据

本次实验采用的数据是我国31个省(市、自治区)2012年的数据,原数据均来自《2013中国统计年鉴》以及2013年各省(市、自治区)统计年鉴,不能直接获得的指标数据是通过对相关原始数据的换算求得。原始数据如表2所示:

表2 2012年各地区服务业发展水平统计数据表 地区 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆 X1 13669.93 6058.46 9384.78 4682.95 5630.50 9460.12 4150.36 5540.31 12199.15 23517.98 15681.13 5628.48 7737.13 4486.06 19995.81 9157.57 8208.58 8643.60 26519.69 4615.30 1339.53 4494.41 8242.31 3282.75 4235.72 377.80 5009.65 2269.61 624.29 982.52 2703.18 X2 837.40 401.00 1258.00 653.10 485.40 1078.00 515.80 662.59 629.84 1737.23 1288.31 1568.30 929.95 922.71 2141.10 1740.18 1266.50 1401.54 2037.88 809.00 193.91 617.82 1573.83 398.68 856.68 81.36 457.60 356.64 121.30 120.50 360.37 X3 0.76 0.47 0.35 0.39 0.35 0.38 0.35 0.40 0.60 0.44 0.45 0.33 0.39 0.35 0.40 0.31 0.37 0.39 0.46 0.35 0.47 0.39 0.35 0.48 0.41 0.54 0.35 0.40 0.33 0.42 0.36 X4 0.76 0.50 0.31 0.36 0.37 0.44 0.38 0.33 0.56 0.37 0.35 0.37 0.36 0.36 0.33 0.28 0.34 0.35 0.34 0.28 0.40 0.38 0.33 0.22 0.30 0.40 0.22 0.24 0.39 0.35 0.36 X5 6.61 4.29 1.29 1.30 2.26 2.16 1.51 1.45 5.12 2.97 2.86 0.94 2.06 1.00 2.06 0.97 1.42 1.30 2.50 0.99 1.51 1.53 1.02 0.94 0.91 1.23 1.33 0.88 1.09 1.52 1.21 X6 8329.97 5071.17 497.08 298.85 47.60 639.20 221.47 117.13 19240.04 2292.20 1540.39 402.03 623.96 268.79 1272.81 548.36 441.56 408.10 1474.95 194.99 378.40 545.42 169.94 186.34 108.61 3.08 243.42 50.02 8.67 148.87 16.28 X7 16.32 15.11 7.46 7.17 11.60 8.78 8.05 8.36 19.37 13.54 12.17 3.59 8.32 4.86 9.34 5.26 6.48 6.17 13.01 5.70 6.91 7.27 5.24 8.23 4.94 4.64 10.95 6.36 5.15 8.15 7.50

2

表2(续) 地区 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆 X8 0.80 0.53 0.44 0.82 0.40 0.50 0.34 0.89 1.07 0.54 0.64 0.34 0.40 0.45 0.56 0.44 0.37 0.44 0.63 0.47 0.57 0.62 0.43 0.44 0.38 0.58 0.34 0.49 0.38 0.50 0.51 X9 87475.00 93173.00 36584.00 33628.00 63886.00 56649.00 43415.00 35711.00 85373.00 68347.00 63374.00 28792.00 52763.00 28800.00 51768.00 31499.00 38572.00 33480.00 54095.00 27952.00 32377.00 38914.00 29608.00 19710.00 22195.00 22936.00 38564.00 21978.00 33181.00 36394.00 33796.00 X10 5.06 4.44 2.95 4.50 6.44 2.80 3.65 2.97 3.03 4.15 3.21 2.86 2.78 3.30 3.65 3.06 3.06 3.41 4.08 3.29 3.93 3.80 3.00 5.86 3.74 2.94 4.30 3.93 2.91 7.13 4.05 X11 0.18 0.47 0.35 0.39 0.35 0.38 0.35 0.40 0.60 0.44 0.45 0.33 0.39 0.35 0.40 0.31 0.37 0.39 0.46 0.35 0.47 0.39 0.35 0.48 0.41 0.54 0.35 0.40 0.33 0.42 0.36 X12 0.86 0.82 0.47 0.51 0.58 0.66 0.54 0.57 0.89 0.63 0.63 0.47 0.60 0.48 0.52 0.42 0.54 0.47 0.67 0.44 0.52 0.57 0.44 0.36 0.39 0.23 0.50 0.39 0.47 0.51 0.44 X13 5341.70 4884.60 9469.90 4335.20 5215.20 11812.60 3970.50 4619.00 3861.10 14804.90 11326.70 8090.90 7597.20 4401.40 15875.70 9582.30 8069.90 7931.40 12348.00 5386.70 1710.20 5503.00 10489.00 4074.60 5082.60 429.00 7215.70 2236.10 921.70 987.90 2685.90 X14 40810731.90 11563427.20 5056305.50 1504310.90 1125898.20 10408999.70 2456300.90 3759029.10 43658695.30 54796148.90 31240135.80 3928454.30 15593795.70 3341382.90 24554432.40 5173880.60 3196375.10 2194873.20 98402046.00 2948446.00 1432209.60 5320358.20 5914359.80 663155.80 2101373.20 342414.30 1479903.20 890075.20 115747.00 221670.60 2517005.90

二、实验步骤

本次实验是在SPSS中分别利用系统聚类法和K均值法进行聚类分析,具体步骤如下:

(一)系统聚类法

⒈在SPSS窗口中选择Analyze—Classify—Hierachical Cluster,调出系统聚类分析主界面,将变量X1-X14移入Variables框中。在Cluster栏中选择

3

Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。

⒉点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。这里选择系统默认值,点击Continue按钮,返回主界面。

⒊点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。选中Dendrogram复选框和Icicle栏中的None单选按钮,即只给出聚类树形图,而不给出冰柱图。单击Continue按钮,返回主界面。

⒋点击Method按钮,设置系统聚类的方法选项。Cluster Method下拉列表用于指定聚类的方法,这里选用Ward’s method,Measure中的Interval中选择Squared Euclidean distance,在Transform Values中的Standardize中选择Z scores,表示对原始数据进行标准化,其他选择默认选项。单击Continue按钮,返回主界面。

⒌点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。这里选用Range of solutions,并在后面的两个矩形框中分别输入3和4,即生产三个新的分类变量,分别表示将样品分为3类、4类和5类时的聚类结果。点击Continue,返回主界面。

(二)K均值法

1.在SPSS窗口中选择Analyze—Descriptive Statistics—Descriptives…,调出Descriptives主界面,将变量X1-X14移入Variables框中,选中Save standardized values as variables复选框,然后点击OK,即对原始数据进行标准化,以消除量纲的影响。

2.在SPSS窗口中选择Analyze—Classify—K-Means Cluster,调出K均值聚类分析主界面,将变量X1-X14移入Variables框中。将标志变量Region移入Label Case by框中,在Method框中选择Iterate classify,即使用K-means算法不断计算新的类中心,并替换旧的类中心。在Number of Cluster后面的矩形框中输入想要把样品聚成的类数,这里输入4,即将31个省、市、自治区分为4类,其他按钮均为系统默认。

⒊点击Iterate按钮,对迭代参数进行设置,这里采用系统默认的标准。单

4

击Continue,返回主界面。

⒋点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量,选中Cluster membership(建立一个代表聚类结果的变量,默认变量名为qcl_1)和Distance from cluster center(建立一个新变量,代表各观测变量与其所属类中心的欧几里得距离),单击Continue按钮返回主界面。

⒌点击Options 按钮,指定要计算的统计量,选中Initial cluster centers和Cluster information for each case复选框,这样在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息,包括分配到哪一类和该观测量距所属类中心的距离,单击Continue按钮返回主界面。

6.点击OK,进行K均值聚类分析程序。 三、实验结果 (一)系统聚类法结果

在结果输出窗口中可以看到分类结果表(表3)和聚类树形图(图1),具体见表1和图2所示:

从表3和图1可以清楚的看到,可将样品分成如下四类: 第一类:北京、天津、上海

第二类:河北、辽宁、安徽、福建、河南、湖北、湖南、四川

第三类:山西、内蒙古、吉林、黑龙江、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆

第四类:江苏、浙江、山东、广东

5

3 3 3 3 3 3 3 3 3 3 4 4 4 待判 待判 待判 待判 广西 海南 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 江苏 浙江 广东 湖南 江西 山东 重庆 4615.30 1339.53 3282.75 4235.72 377.80 5009.65 2269.61 624.29 982.52 2703.18 23517.98 15681.13 26519.69 8643.60 4486.06 19995.81 4494.41 809.00 193.91 398.68 856.68 81.36 457.60 356.64 121.30 120.50 360.37 1737.23 1288.31 2037.88 1401.54 922.71 2141.10 617.82 0.35 0.47 0.48 0.41 0.54 0.35 0.40 0.33 0.42 0.36 0.44 0.45 0.46 0.39 0.35 0.40 0.39 0.28 0.40 0.22 0.30 0.40 0.22 0.24 0.39 0.35 0.36 0.37 0.35 0.34 0.35 0.36 0.33 0.38 0.99 1.51 0.94 0.91 1.23 1.33 0.88 1.09 1.52 1.21 2.97 2.86 2.50 1.30 1.00 2.06 1.53 194.99 378.40 186.34 108.61 3.08 243.42 50.02 8.67 148.87 16.28 2292.20 1540.39 1474.95 408.10 268.79 1272.81 545.42 5.70 6.91 8.23 4.94 4.64 10.95 6.36 5.15 8.15 7.50 13.54 12.17 13.01 6.17 4.86 9.34 7.27 表2(续) 类型 地区 1 北京 1 天津 1 上海 2 河北 2 辽宁 2 安徽 2 福建 2 河南 2 湖北 2 四川 3 山西 3 内蒙古 3 吉林 3 黑龙江 3 广西 3 海南 3 贵州 3 云南 3 西藏 3 陕西 3 甘肃 3 青海 3 宁夏 X8 0.80 0.53 1.07 0.44 0.50 0.34 0.40 0.44 0.37 0.43 0.82 0.40 0.34 0.89 0.47 0.57 0.44 0.38 0.58 0.34 0.49 0.38 0.50 X9 87475.00 93173.00 85373.00 36584.00 56649.00 28792.00 52763.00 31499.00 38572.00 29608.00 33628.00 63886.00 43415.00 35711.00 27952.00 32377.00 19710.00 22195.00 22936.00 38564.00 21978.00 33181.00 36394.00 X10 5.06 4.44 3.03 2.95 2.80 2.86 2.78 3.06 3.06 3.00 4.50 6.44 3.65 2.97 3.29 3.93 5.86 3.74 2.94 4.30 3.93 2.91 7.13 11

X11 0.18 0.47 0.60 0.35 0.38 0.33 0.39 0.31 0.37 0.35 0.39 0.35 0.35 0.40 0.35 0.47 0.48 0.41 0.54 0.35 0.40 0.33 0.42 X12 0.86 0.82 0.89 0.47 0.66 0.47 0.60 0.42 0.54 0.44 0.51 0.58 0.54 0.57 0.44 0.52 0.36 0.39 0.23 0.50 0.39 0.47 0.51 X13 5341.70 4884.60 3861.10 9469.90 11812.60 8090.90 7597.20 9582.30 8069.90 10489.00 4335.20 5215.20 3970.50 4619.00 5386.70 1710.20 4074.60 5082.60 429.00 7215.70 2236.10 921.70 987.90 X14 40810732.00 11563427.00 43658695.00 5056306.00 10409000.00 3928454.00 15593796.00 5173881.00 3196375.00 5914360.00 1504311.00 1125898.00 2456301.00 3759029.00 2948446.00 1432210.00 663156.00 2101373.00 342414.00 1479903.00 890075.00 115747.00 221671.00 3 4 4 4 待判 待判 待判 待判 新疆 江苏 浙江 广东 湖南 江西 山东 重庆 0.51 0.54 0.64 0.63 0.44 0.45 0.56 0.62 33796.00 68347.00 63374.00 54095.00 33480.00 28800.00 51768.00 38914.00 4.05 4.15 3.21 4.08 3.41 3.30 3.65 3.80 0.36 0.44 0.45 0.46 0.39 0.35 0.40 0.39 0.44 0.63 0.63 0.67 0.47 0.48 0.52 0.57 2685.90 14804.90 11326.70 12348.00 7931.40 4401.40 15875.70 5503.00 2517006.00 54796149.00 31240136.00 98402046.00 2194873.00 3341383.00 24554432.00 5320358.00

一、操作步骤

(一)在SPSS窗口中选择Analyze—Descriptive Statistics—Descriptives…,调出Descriptives主界面,将变量X1-X14移入Variables框中,选中Save standardized values as variables复选框,然后点击OK,即对原始数据进行标准化,以消除量纲的影响。

(二)在SPSS窗口中选择Analyze—Classify—Discriminate,调出判别分析主界面,将左边的变量列表中的type变量选入分组变量Grouping Variable中,将X1-X14变量选入自变量Independents中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。

(三)点击Define Range按钮,定义分组变量的取值范围。这里分类变量的范围为1到4,所以在最小值和最大值中分别输入1和4。单击Continue按钮,返回主界面。

(四)单击Statistics…按钮,指定输出的描述统计量和判别函数系数。选中Function Coefficients栏中的Fisher’s(给出贝叶斯判别函数的系数)和Unstandardized(给出为标准化的费希尔判别函数),单击Continue按钮,返回主界面。

(五)单击Classify…按钮,定义判别分组参数和选择输出结果。选择Display栏中的Casewise results,输出一个判别结果表,包括每个样品的判别分数、后验概率、实际组合预测编号等。其余的均保留系统默认选项。单击Continue按钮,返回主界面。

(六)单击Save按钮,指定在数据文件中生成代表判别分组结果和判别得分的新变量,生成的新变量的含义分别为:Predicted group membership(存放判别样品所属组别的值);Discriminant scores(存放费希尔判别得分的值);

12

Probabilities of group membership(存放样品属于各组的贝叶斯后验概率),这里将三个复选框均选中,单击Continue按钮返回主界面。

(七)返回判别分析主界面,单击OK按钮,运行判别分析过程。 二、个案观察结果

表3 Standardized Canonical Discriminant Function Coefficients Zscore(x1) Zscore(x2) Zscore(x3) Zscore(x4) Zscore(x5) Zscore(x6) Zscore(x7) Zscore(x8) Zscore(x9) Zscore(x10) Zscore(x11) Zscore(x12) Zscore(x13) Zscore(x14) 1 -1.077 -.951 17.628 -.862 -26.097 5.976 -1.408 1.183 19.433 .268 -11.585 1.764 .443 .687 Function 2 -2.380 1.143 1.890 -.176 -1.867 .835 1.174 .108 1.796 -.220 -1.507 .030 -.374 .576 3 -1.699 1.285 6.112 -.533 -7.635 2.285 -.992 -.120 6.959 -.279 -3.211 .885 .628 .465 表3为标准化典型判别函数的系数表,由该表可以得到典型判别函数为: Y1=-1.077X1-0.951X2+1.890X3-0.862X4-26.097X5+5.976X6-1.408X7+1.183X8+19.433X9+0.268X10-11.585X11+1.764X12+0.443X13+0.687X14

Y1=-2.380X1+1.143X2+17.628X3-0.176X4-1.867X5+0.835X6+1.174X7+0.108X8

+1.796X9-0.220X10-1.507X11+0.030X12-0.374X13+0.576X14

Y1=-1.699X1+1.285X2+6.112X3-0.533X4-7.635X5+2.285X6-0.992X7-0.120X8

+6.959X9-0.279X10-3.211X11+0.885X12+0.628X13+0.465X14

13

表4 Canonical Discriminant Function Coefficients Zscore(x1) Zscore(x2) Zscore(x3) Zscore(x4) Zscore(x5) Zscore(x6) Zscore(x7) Zscore(x8) Zscore(x9) Zscore(x10) Zscore(x11) Zscore(x12) Zscore(x13) Zscore(x14) (Constant) Unstandardized coefficients 1 -2.698 -2.022 24.885 -1.270 -66.534 10.084 -2.721 1.339 36.454 .273 -10.965 2.926 .986 1.268 .145 Function 2 -5.963 2.429 2.668 -.259 -4.759 1.409 2.269 .122 3.370 -.225 -1.426 .050 -.832 1.062 -.284 3 -4.258 2.730 8.628 -.784 -19.465 3.856 -1.917 -.136 13.053 -.284 -3.039 1.468 1.398 .857 .188 表4为未标准化的典型判别函数的系数表。该表可以得到典型判别函数为: Y1=-2.698X1-2.022X2+24.885X3-1.270X4-66.534X5+10.084X6-2.721X7+1.339X8+36.454X9+0.273X10-10.965X11+2.926X12+0.986X13+1.268X14

Y1=-5.963X1+2.429X2+2.668X3-0.259X4-4.759X5+1.409X6+2.269X7+0.122X8

+3.370X9-0.225X10-1.426X11+0.050X12-0.832X13+1.062X14

Y1=-4.258X1+2.730X2+8.628X3-0.784X4-19.465X5+3.856X6-1.917X7-0.136X8

+13.053X9-0.284X10-3.039X11+1.468X12+1.398X13+0.857X14

14

表5 Casewise Statistics

Predicted Group 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 2 3 4 3 Highest Group Discriminant Scores region Actral Group P(G=q|D=d) Squared MahalanobiFunctios Distance n1 to Centroid .390 3.159 1.336 5.487 .766 6.216 2.745 .534 .234 .400 3.285 2.054 1.698 .373 3.921 .837 4.288 7.779 .236 .178 1.181 4.344 4.961 2.694 1.880 6.371 1.927 6.976 5.647 74.116 3.892 -14.663 -13.657 -14.978 1.433 2.052 3.221 .989 2.618 2.224 1.643 6.444 3.743 5.006 4.229 3.608 4.164 6.800 3.027 4.725 5.033 5.130 6.784 3.985 3.966 -12.407 -12.411 -12.708 -.103 4.583 -5.146 5.154 Function2 Function3 北京 天津 上海 河北 辽宁 安徽 福建 河南 湖北 四川 山西 内蒙古 吉林 黑龙江 广西 海南 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 江苏 浙江 广东 湖南 江西 山东 重庆 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 Ungrouped Ungrouped Ungrouped Ungrouped 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .996 1.000 1.000 .712 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .981 .996 1.000 6.592 4.442 7.029 -2.147 -1.940 .026 -.188 -1.334 -1.478 -1.689 .038 1.401 .873 .368 -.399 1.344 .497 -.611 .711 .946 .647 .884 1.651 1.028 -7.555 -3.738 -7.397 -1.839 -.155 -7.011 .213 .585 .234 .634 1.186 3.805 5.044 2.744 3.686 2.889 3.513 -1.136 -.668 -.100 -1.353 -.158 -1.197 -1.678 .407 -1.846 -1.197 -2.385 -1.814 -3.206 -2.754 -1.409 -1.357 -2.470 1.818 .858 2.647 .498 从上表可知,湖南省属于第二类,江西省和重庆省属于第三类,山东省属于第四类,此结果和聚类分析的结果是相似的。

15

16

本文来源:https://www.bwwdw.com/article/z9p7.html

Top