SAS做的聚类分析
更新时间:2024-01-07 01:34:01 阅读量: 教育文库 文档下载
实验项目二 聚类分析
实验目的:通过聚类分析的实验,熟悉聚类分析问题的提出、解决问题的思路、方法和技能,会调用SAS软件聚类分析有关过程命令,根据计算机计算的结果,分析和解决聚类分析问题。
实验原理:解决聚类分析问题的思路、理论和方法。 实验设备:
计算机与SAS软件。
实验步骤:调用聚类分析过程命令输入数据得到聚类过程表和聚类图,距离选用欧氏距离,方法选用最短距离法。
实验数据:实验数据:我国西部环境保护的数据 一、问题的提出
西部大开发是我国在新世纪提出的一项国家发展战略。基于西部地区特殊的地理位置和生态环境状况,国家在提出西部大开发之初就明确指出,西部开发绝不能以牺牲环境为代价,西部地区生态环境极其脆弱,一经破坏就难以恢复,所以实施西部大开发,环境保护是关键,必须建设一个“山川秀丽的西部”。近几年国家在保护西部地区的环境上也花了大力气,并取得了良好的效果,但并没有从根本上解决在发展西部过程中环境保护的问题。西部环境保护现状、特点怎样?本实验就这一问题用聚类分析进行探索并提出一些看法和建议。
指标选取考虑的因素:(1)指标的选择要能尽量反映西部现时的生态环境状况;(2)数据尽量从统计年鉴等规范、权威的刊物中获取。下面十三个指标和数据符合以上要求。
表1 西部环境保护的原始数据
X 1 X 2 X3 X4 X5 X6 0.553 X7 X8 X9 X10 7.56 X11 26709 X12 28.5 46.3 -38.6 0 -6.1 15.3 7.7 -50.1 -28.7 -7.4 -2.2 20.4 X13 19.1 1020.5 403.5 524.8 552 650 360.2 103.4 46.7 79.7 18.3 58.7 内蒙古 12.14 广 西 25.34 重 庆 7.79 67.71 78.10 4.23 2.09 1.0446 106 423 3319 312 258 3136 200 245 1793 346 512 5340 158 263 1930 225 386 2889 28 22 180 4.51 83.20 16.57 1.14 6.47 25192.2 9.66 26312.6 13.0 35397.8 2.63 16040 63.23 82.40 43.76 0.60 0.4198 21.09 70.10 20.71 0.64 0.5223 43.05 62.70 37.52 74.30 5.73 0.96 0.6231 9.78 0.78 0.731 四 川 20.37 贵 州 14.75 云 南 24.58 西 藏 5.84 7.06 34661.2 33.4 798 9.39 10.00 74.27 0.06 0.0684 67.79 79.90 10.02 0.78 0.6581 67.01 80.80 25.29 46.40 55.83 62.90 64.76 80.30 7.42 1.08 0.4994 5.18 1.62 0.7036 7.96 2.33 0.7655 7.14 1.25 0.4179 陕 西 24.15 甘 肃 青 海 宁 夏 新 疆 4.33 0.35 1.54 0.97 341 322 4758 168 248 2444 21 67 97 43 683 629 2.89 26589.8 17.7 20737.1 28.6 3858.2 4.43 29121.8 12.8 32008.7 85 208 2096 X1-森林覆盖率(%);X2-水土流失率(%);X3-工业废水排放达标率(%);X4-人均工业废水排放量(万吨/万人);X5-人均工业废气排放量(亿标立方米/万人);X6-人均工业固体废物产生量 (万吨/万人);X7-各地区工业污染治理汇总工业企业数(个);X8-环保系统机构总数(个);X9-环保系统人员总数(人);X10-自然保护区面积占辖区面积比率(%);X11-污染治理项目本年完成投资(万元);X12-各地径流深与常年比较(±%);X13-各地径流深(mm)。原始数据来自《2002年中国统计年鉴》《2001年中国水资源公报》和《2002中国可持续发展战略报告》。
实验结果、实验分析、结论(有关表图要有序号、中文名、表的上下线为粗线、表的内线为细线、表的左右边不封口、表图不能跨页、表图旁不能留空块;表的序号、中文名在表的上方;图的序号、中文名在图的正下方;引用结论要注明参考文献):
1.给出最短距离法得到的聚类过程表2;
表2: 最短距离法聚类过程(Cluster History)
T Min i NCL --Clusters Joined-- FREQ SPRSQ RSQ ERSQ CCC PSF PST2 Dist e
11 OB9 OB12 2 0.0186 .981 . . 5.3 . 2.3052 10 OB3 CL11 3 0.0358 .946 . . 3.9 1.9 2.5236 9 OB5 OB6 2 0.0236 .922 . . 4.4 . 2.6003 8 OB4 CL9 3 0.0465 .875 . . 4.0 2.0 2.6107 7 OB2 CL8 4 0.0434 .832 . . 4.1 1.2 2.774 6 CL7 CL10 7 0.1510 .681 . . 2.6 4.5 2.9925 5 CL6 OB11 8 0.1041 .577 . . 2.4 2.0 3.0587 4 CL5 OB8 9 0.0697 .507 . . 2.7 1.2 3.5453 3 OB1 CL4 10 0.0758 .432 . . 3.4 1.2 3.6559 2 CL3 OB10 11 0.1319 .300 .431 -1.4 4.3 2.1 3.8791 1 CL2 OB7 12 0.2996 .000 .000 0.00 . 4.3 5.4231
2.给出最短距离法聚类图1;
2
图1:最短距离法聚类图
3.用有关统计量给出最短距离法分类结果;
最短距离法得到的聚类过程表2中,PSF出现峰值4.1所对应的分类数7较合
适、PST2出现峰值4.5的前一行所对应的分类数7较合适,故分为7类。在图1中,取阈值T=2.8,得样品分为七类:
第一类:内蒙古;
第二类:广西、四川、贵州、云南; 第三类:重庆、甘肃、新疆; 第四类:宁夏; 第五类:陕西; 第六类:青海; 第七类:西藏。
4.用分类结果和原始数据给出西部最好一类环境保护现状的基本结果。
结合分类结果、原始数据找出西部环境保护的基本情况:
3
表3 七类样品的均值数据 x1 12.14 21.26 4.3633 1.54 24.15 0.35 5.84 x2 67.71 26.5425 65 55.83 67.79 25.29 9.39 x3 78.1 72.575 81.167 62.9 79.9 46.4 10 x4 4.23 13.1975 19.44 7.96 10.02 5.18 74.27 x5 2.09 0.88 0.9767 2.33 0.78 1.62 0.06 x6 1.0446 0.60735 0.4457 0.7655 0.6581 0.7036 0.0684 x7 106 260.25 151 67 341 21 28 x8 423 354.75 233.6666 43 322 97 22 x9 3319 3324 2111 629 4758 683 180 x10 7.56 7.29 13.3867 4.43 2.89 28.6 33.4 x11 26709 27823 26353 29121.8 26589.8 3858.2 798 x12 28.5 13.875 -15.633 -2.2 -50.1 -7.4 7.7 x13 19.1 686.825 169.6333 18.3 103.4 79.7 360.2 第一类 第二类 第三类 第四类 第五类 第六类 第七类 从表3的数据得出:
西部环境保护最好的一类是第七类(即西藏)。与西部地区的其他省份相比,西藏的水土流失率X2最小(与其他地区相差2.69-7.2倍),人均工业废气排放量X5(与最大废气排放量相差38.8倍)、人均工业固体废物产生量X6均为最小,自然保护区面积占辖区面积比率X10最大,各地径流深与常年比较X12和各地径流深X13均位于居中位置,说明西藏在控制人为破坏环境的方面做得很好,可是却在工业废水排放达标率X3做得不够好(只有10%),人均工业废水排放量X4却达到最大值74.27万吨/万人。但由于西藏的地势决定森林覆盖面积不大,本身的环境保护情况基于良好,所以在工业污染治理汇总工业企业数X7却只有28个(居于倒数第二),环保系统机构总数X8和环保系统人员总数X9均为倒数第一(分别为22个/180人),故西藏需要增加工业污染治理汇总工业企业、环保系统机构和环保系统人员;在污染治理项目本年完成投资X11方面是最差的,只有798万元(与其他地区相差4.83-36.49倍),说明西藏在投资污染治理方面还需加强。
实验程序:
Data pgm33b; Input x1-x13; cards;
12.14 67.71 78.10 4.23 2.09 1.0446 106 423 3319 7.56 26709 28.5 19.1 25.34 4.51 83.20 16.57 1.14 0.553 312 258 3136 6.47 25192.2 46.3 1020.5 7.79 63.23 82.40 43.76 0.60 0.4198 200 245 1793 9.66 26312.6 -38.6 403.5 20.37 21.09 70.10 20.71 0.64 0.5223 346 512 5340 13.0 35397.8 0 524.8 14.75 43.05 62.70 5.73 0.96 0.6231 158 263 1930 2.63 16040 -6.1 552 24.58 37.52 74.30 9.78 0.78 0.731 225 386 2889 7.06 34661.2 15.3 650 5.84 9.39 10.00 74.27 0.06 0.0684 28 22 180 33.4 798
7.7 360.2
24.15 67.79 79.90 10.02 0.78 0.6581 341 322 4758 2.89 26589.8 -50.1 103.4 4.33 67.01 80.80 7.42 1.08 0.4994 168 248 2444 17.7 20737.1 -28.7 46.7 0.35 25.29 46.40 5.18 1.62 0.7036 21 97 683 28.6 3858.2 -7.4 79.7
4
1.54 55.83 62.90 7.96 2.33 0.7655 67 43 629 4.43 29121.8 -2.2 18.3 0.97 64.76 80.30 7.14 1.25 0.4179 85 208 2096 12.8 32008.7 20.4 58.7 ;
Proc cluster standard method=single nonorm nosquare ccc pseudo out=tree;
Proc tree data=tree horizontal spaces=1; run; Data pgm33b; Input x1-x13; cards;
12.14 67.71 78.10 4.23 2.09 1.0446 106 423 3319 7.56 26709 28.5 19.1 ;
Proc corr cov; run;
Data pgm33b; Input x1-x13; cards;
25.34 4.51 83.20 16.57 1.14 0.553 312 258 3136 6.47 25192.2 46.3 1020.5 20.37 21.09 70.10 20.71 0.64 0.5223 346 512 5340 13.0 35397.8 0
524.8
14.75 43.05 62.70 5.73 0.96 0.6231 158 263 1930 2.63 16040 -6.1 552 24.58 37.52 74.30 9.78 0.78 0.731 225 386 2889 7.06 34661.2 15.3 650 ;
Proc corr cov; run;
Data pgm33b; Input x1-x13; cards;
7.79 63.23 82.40 43.76 0.60 0.4198 200 245 1793 9.66 26312.6 -38.6 403.5 4.33 67.01 80.80 7.42 0.97 64.76 80.30 7.14 ;
Proc corr cov; run;
Data pgm33b; Input x1-x13; cards;
1.54 55.83 62.90 7.96 2.33 0.7655 67 43 629 4.43 29121.8 -2.2 ;
Proc corr cov; run;
Data pgm33b; Input x1-x13; cards;
24.15 67.79 79.90 10.02 0.78 0.6581 341 322 4758 2.89 26589.8 -50.1 103.4 ;
18.3
1.08 0.4994 168 248 2444 17.7 20737.1 -28.7 46.7 1.25 0.4179 85 208 2096 12.8 32008.7 20.4 58.7
5
Proc corr cov; run;
Data pgm33b; Input x1-x13; cards;
0.35 25.29 46.40 5.18 1.62 0.7036 21 97 683 28.6 3858.2 -7.4 79.7 ;
Proc corr cov; run;
Data pgm33b; Input x1-x13; cards;
5.84 9.39 10.00 74.27 0.06 0.0684 28 22 180 33.4 798 7.7 360.2 ;
Proc corr cov; run;
说明:不可改变实验报告项目的具体要求与排版字号,有何不妥之处,欢迎提出意见。
6
Proc corr cov; run;
Data pgm33b; Input x1-x13; cards;
0.35 25.29 46.40 5.18 1.62 0.7036 21 97 683 28.6 3858.2 -7.4 79.7 ;
Proc corr cov; run;
Data pgm33b; Input x1-x13; cards;
5.84 9.39 10.00 74.27 0.06 0.0684 28 22 180 33.4 798 7.7 360.2 ;
Proc corr cov; run;
说明:不可改变实验报告项目的具体要求与排版字号,有何不妥之处,欢迎提出意见。
6
正在阅读:
SAS做的聚类分析01-07
工程博弈论课程作业506-21
针灸学09-25
抗洪救灾标语汇总07-31
A县B镇初级中学一起宋内氏志贺氏菌引起的食物中毒的调查报告10-22
酒小史02-18
我的爸爸作文300字02-05
小学语文五年级第五单元补偿练习12-03
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 分析
- SAS
- 第一至三章 注册会计师审计(答案解析)
- j蒹葭苍苍白露为霜翻译
- 安利手诊
- 4.2.4记录控制程序
- 初一语文《赵普》同步练习一
- 高效仓储管理与库存控制高级研修班
- 2019版高考语文二轮提分复习专题3散文阅读提分攻略2鉴赏技巧品味语言艺术讲义
- 年产20万吨非木材制浆厂碱回收分厂燃烧车间
- 云南林业职业技术学院专业云南林业职业技术学院招生网站-云南林业职业技术学院分数线
- 烯烃总结
- 水果营销策划书范文
- 社团面试常问问题
- 温度传感器实验报告 - 图文
- 最全的家居生活小窍门
- 南大核心2014-2015
- 关于印发《广州地铁110kV线路故障应急处置指引》的通知
- 内部控制与企业价值关系分析
- 年产10万吨醋酸乙烯生产车间工艺设计
- 2017-2018学年高二下学期期末考试数学(文)试卷
- 数字电路试题