SAS做的聚类分析

更新时间：2024-01-07 01:34:01 阅读量：教育文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

实验项目二聚类分析

实验目的：通过聚类分析的实验,熟悉聚类分析问题的提出、解决问题的思路、方法和技能，会调用SAS软件聚类分析有关过程命令，根据计算机计算的结果，分析和解决聚类分析问题。

实验原理：解决聚类分析问题的思路、理论和方法。实验设备：

计算机与SAS软件。

实验步骤：调用聚类分析过程命令输入数据得到聚类过程表和聚类图,距离选用欧氏距离,方法选用最短距离法。

实验数据：实验数据：我国西部环境保护的数据一、问题的提出

西部大开发是我国在新世纪提出的一项国家发展战略。基于西部地区特殊的地理位置和生态环境状况，国家在提出西部大开发之初就明确指出，西部开发绝不能以牺牲环境为代价，西部地区生态环境极其脆弱，一经破坏就难以恢复，所以实施西部大开发，环境保护是关键，必须建设一个“山川秀丽的西部”。近几年国家在保护西部地区的环境上也花了大力气，并取得了良好的效果，但并没有从根本上解决在发展西部过程中环境保护的问题。西部环境保护现状、特点怎样？本实验就这一问题用聚类分析进行探索并提出一些看法和建议。

指标选取考虑的因素：（1）指标的选择要能尽量反映西部现时的生态环境状况；（2）数据尽量从统计年鉴等规范、权威的刊物中获取。下面十三个指标和数据符合以上要求。

表1 西部环境保护的原始数据

X 1 X 2 X3 X4 X5 X6 0.553 X7 X8 X9 X10 7.56 X11 26709 X12 28.5 46.3 -38.6 0 -6.1 15.3 7.7 -50.1 -28.7 -7.4 -2.2 20.4 X13 19.1 1020.5 403.5 524.8 552 650 360.2 103.4 46.7 79.7 18.3 58.7 内蒙古 12.14 广西 25.34 重庆 7.79 67.71 78.10 4.23 2.09 1.0446 106 423 3319 312 258 3136 200 245 1793 346 512 5340 158 263 1930 225 386 2889 28 22 180 4.51 83.20 16.57 1.14 6.47 25192.2 9.66 26312.6 13.0 35397.8 2.63 16040 63.23 82.40 43.76 0.60 0.4198 21.09 70.10 20.71 0.64 0.5223 43.05 62.70 37.52 74.30 5.73 0.96 0.6231 9.78 0.78 0.731 四川 20.37 贵州 14.75 云南 24.58 西藏 5.84 7.06 34661.2 33.4 798 9.39 10.00 74.27 0.06 0.0684 67.79 79.90 10.02 0.78 0.6581 67.01 80.80 25.29 46.40 55.83 62.90 64.76 80.30 7.42 1.08 0.4994 5.18 1.62 0.7036 7.96 2.33 0.7655 7.14 1.25 0.4179 陕西 24.15 甘肃青海宁夏新疆 4.33 0.35 1.54 0.97 341 322 4758 168 248 2444 21 67 97 43 683 629 2.89 26589.8 17.7 20737.1 28.6 3858.2 4.43 29121.8 12.8 32008.7 85 208 2096 X1-森林覆盖率（％）；X2-水土流失率(%)；X3-工业废水排放达标率(%)；X4-人均工业废水排放量(万吨/万人)；X5-人均工业废气排放量(亿标立方米/万人)；X6-人均工业固体废物产生量 (万吨/万人)；X7-各地区工业污染治理汇总工业企业数(个)；X8-环保系统机构总数(个)；X9-环保系统人员总数(人)；X10-自然保护区面积占辖区面积比率（%）；X11-污染治理项目本年完成投资（万元）；X12-各地径流深与常年比较（±％）；X13-各地径流深(mm)。原始数据来自《2002年中国统计年鉴》《2001年中国水资源公报》和《2002中国可持续发展战略报告》。

实验结果、实验分析、结论（有关表图要有序号、中文名、表的上下线为粗线、表的内线为细线、表的左右边不封口、表图不能跨页、表图旁不能留空块；表的序号、中文名在表的上方；图的序号、中文名在图的正下方；引用结论要注明参考文献）：

1.给出最短距离法得到的聚类过程表2；

表2：最短距离法聚类过程（Cluster History）

T Min i NCL --Clusters Joined-- FREQ SPRSQ RSQ ERSQ CCC PSF PST2 Dist e

11 OB9 OB12 2 0.0186 .981 . . 5.3 . 2.3052 10 OB3 CL11 3 0.0358 .946 . . 3.9 1.9 2.5236 9 OB5 OB6 2 0.0236 .922 . . 4.4 . 2.6003 8 OB4 CL9 3 0.0465 .875 . . 4.0 2.0 2.6107 7 OB2 CL8 4 0.0434 .832 . . 4.1 1.2 2.774 6 CL7 CL10 7 0.1510 .681 . . 2.6 4.5 2.9925 5 CL6 OB11 8 0.1041 .577 . . 2.4 2.0 3.0587 4 CL5 OB8 9 0.0697 .507 . . 2.7 1.2 3.5453 3 OB1 CL4 10 0.0758 .432 . . 3.4 1.2 3.6559 2 CL3 OB10 11 0.1319 .300 .431 -1.4 4.3 2.1 3.8791 1 CL2 OB7 12 0.2996 .000 .000 0.00 . 4.3 5.4231

2.给出最短距离法聚类图1；

图1：最短距离法聚类图

3.用有关统计量给出最短距离法分类结果；

最短距离法得到的聚类过程表2中，PSF出现峰值4.1所对应的分类数7较合

适、PST2出现峰值4.5的前一行所对应的分类数7较合适，故分为7类。在图1中，取阈值T=2.8，得样品分为七类:

第一类：内蒙古；

第二类：广西、四川、贵州、云南；第三类：重庆、甘肃、新疆；第四类：宁夏；第五类：陕西；第六类：青海；第七类：西藏。

4.用分类结果和原始数据给出西部最好一类环境保护现状的基本结果。

结合分类结果、原始数据找出西部环境保护的基本情况：

表3 七类样品的均值数据 x1 12.14 21.26 4.3633 1.54 24.15 0.35 5.84 x2 67.71 26.5425 65 55.83 67.79 25.29 9.39 x3 78.1 72.575 81.167 62.9 79.9 46.4 10 x4 4.23 13.1975 19.44 7.96 10.02 5.18 74.27 x5 2.09 0.88 0.9767 2.33 0.78 1.62 0.06 x6 1.0446 0.60735 0.4457 0.7655 0.6581 0.7036 0.0684 x7 106 260.25 151 67 341 21 28 x8 423 354.75 233.6666 43 322 97 22 x9 3319 3324 2111 629 4758 683 180 x10 7.56 7.29 13.3867 4.43 2.89 28.6 33.4 x11 26709 27823 26353 29121.8 26589.8 3858.2 798 x12 28.5 13.875 -15.633 -2.2 -50.1 -7.4 7.7 x13 19.1 686.825 169.6333 18.3 103.4 79.7 360.2 第一类第二类第三类第四类第五类第六类第七类从表3的数据得出：

西部环境保护最好的一类是第七类（即西藏）。与西部地区的其他省份相比，西藏的水土流失率X2最小(与其他地区相差2.69-7.2倍)，人均工业废气排放量X5(与最大废气排放量相差38.8倍）、人均工业固体废物产生量X6均为最小，自然保护区面积占辖区面积比率X10最大，各地径流深与常年比较X12和各地径流深X13均位于居中位置，说明西藏在控制人为破坏环境的方面做得很好，可是却在工业废水排放达标率X3做得不够好(只有10%)，人均工业废水排放量X4却达到最大值74.27万吨/万人。但由于西藏的地势决定森林覆盖面积不大，本身的环境保护情况基于良好，所以在工业污染治理汇总工业企业数X7却只有28个(居于倒数第二)，环保系统机构总数X8和环保系统人员总数X9均为倒数第一(分别为22个/180人)，故西藏需要增加工业污染治理汇总工业企业、环保系统机构和环保系统人员；在污染治理项目本年完成投资X11方面是最差的，只有798万元（与其他地区相差4.83-36.49倍），说明西藏在投资污染治理方面还需加强。

实验程序：

Data pgm33b; Input x1-x13; cards;

12.14 67.71 78.10 4.23 2.09 1.0446 106 423 3319 7.56 26709 28.5 19.1 25.34 4.51 83.20 16.57 1.14 0.553 312 258 3136 6.47 25192.2 46.3 1020.5 7.79 63.23 82.40 43.76 0.60 0.4198 200 245 1793 9.66 26312.6 -38.6 403.5 20.37 21.09 70.10 20.71 0.64 0.5223 346 512 5340 13.0 35397.8 0 524.8 14.75 43.05 62.70 5.73 0.96 0.6231 158 263 1930 2.63 16040 -6.1 552 24.58 37.52 74.30 9.78 0.78 0.731 225 386 2889 7.06 34661.2 15.3 650 5.84 9.39 10.00 74.27 0.06 0.0684 28 22 180 33.4 798

7.7 360.2

24.15 67.79 79.90 10.02 0.78 0.6581 341 322 4758 2.89 26589.8 -50.1 103.4 4.33 67.01 80.80 7.42 1.08 0.4994 168 248 2444 17.7 20737.1 -28.7 46.7 0.35 25.29 46.40 5.18 1.62 0.7036 21 97 683 28.6 3858.2 -7.4 79.7

1.54 55.83 62.90 7.96 2.33 0.7655 67 43 629 4.43 29121.8 -2.2 18.3 0.97 64.76 80.30 7.14 1.25 0.4179 85 208 2096 12.8 32008.7 20.4 58.7 ;

Proc cluster standard method=single nonorm nosquare ccc pseudo out=tree;

Proc tree data=tree horizontal spaces=1; run; Data pgm33b; Input x1-x13; cards;

12.14 67.71 78.10 4.23 2.09 1.0446 106 423 3319 7.56 26709 28.5 19.1 ;

Proc corr cov; run;

Data pgm33b; Input x1-x13; cards;

25.34 4.51 83.20 16.57 1.14 0.553 312 258 3136 6.47 25192.2 46.3 1020.5 20.37 21.09 70.10 20.71 0.64 0.5223 346 512 5340 13.0 35397.8 0

524.8

14.75 43.05 62.70 5.73 0.96 0.6231 158 263 1930 2.63 16040 -6.1 552 24.58 37.52 74.30 9.78 0.78 0.731 225 386 2889 7.06 34661.2 15.3 650 ;

Proc corr cov; run;

Data pgm33b; Input x1-x13; cards;

7.79 63.23 82.40 43.76 0.60 0.4198 200 245 1793 9.66 26312.6 -38.6 403.5 4.33 67.01 80.80 7.42 0.97 64.76 80.30 7.14 ;