课设论文
更新时间:2024-06-05 09:42:01 阅读量: 综合文库 文档下载
学号 0121114410103
武汉理工大学 数据信息处理课程设计
设计题目 2012年昆明市空气质量状况的统计分析 专业班级 信计1101
姓 名 黎 玮 贤 指导老师 吴 海 英
2014年 1月 15 日
课程设计任务书
学生姓名: 黎玮贤 专业班级: 信计1101 指导教师: 吴海英 工作单位: 武汉理工大学 题 目: 初始条件:
随着科技的发展,天气测评技术的改进,越来越多的天气信息数据出现。这里通
过收集2012年昆明市的每月空气质量状况频数数据,分优,良,轻度,中度,重度和严重污染五个等级作为指标,利用SPSS软件,进行统计分析,以期得到2012年昆明市的天气质量状况了解。
通过《数据分析》课程了学习,已经掌握了基本的数据统计分析方法,如描述性统计分析、方差分析、聚类分析、主成分分析等。
要求完成的主要任务:
1、收集数据:通过查阅中国环保部数据中心,收集、筛选2012年昆明市的空气质量状况频数数据;
2、数据的描述性分析:对筛选出来的有效数据进行描述性统计分析,主要是优,良,轻度,中度,重度和严重污染的样本均值,方差,变异系数,折线图,箱线图、直方图等,获得2012年昆明市的空气质量状况的整体信息;
3、方差分析:通过spss软件进行单因素方差分析,包括分析每种空气质量的天数各月有无差异,;同时分析每种空气质量各月份有无差异,以判断该地区空气质量分月份是否明显;
4、聚类分析:利用系统聚类方法,将整体空气质量状况按月分类,分析空气质量状况那几个月差不多.
5、主成分分析: 将整体空气质量状况按月排名.
时间安排:
2014年1月3号
2014年1月3号至2014年1月10号 2014年1月10号至2014年1月17号 2014年1月18号
查阅资料,确定选题
选择方法,输入数据上机计算 效果分析,总结报告 答辩
指导教师签名: 年 月 日
系主任(或责任教师)签名: 年 月 日
I
摘要
本篇文章主要研究了昆明市2012年1-12月空气质量状况并做出相关统计分析。 首先从中国环保部获得了昆明市2012年1-12月份每月不同空气质量等级的频数,绘制各月不同空气质量等级分布图;其次,利用SPSS软件获取每月空气质量数据的相关统计量,对昆明市2012年的空气质量有一个初步了解,通过每个月份空气质量分布条形图,发现每个月的空气质量等级有明显差异。
经过正态性检验,认为每个月份的数据和不同质量等级下的数据近似服从正太分布,从而进一步通过单因素方差分析,发现质量等级因素对空气质量频数有显著性影响,
为了验证月份之间以及质量等级之间的相似程度,我们采用了谱系聚类法对月份进行了聚类分析,发现1、5、6、7、8、9这几个月空气质量较好,而其他月份空气质量一般,与之前空气质量有明显季度划分的猜想吻合;此外,利用谱系聚类法对质量等级下的数据进行聚类分析,两者比较发现结果近似。
最后,将三组空气质量等级数据类型标准化,成为三个评价指标,选用主成分分析法对指标进行主成分分析,利用每个月份在主成分上的综合得分,最终得到 12个月的综合排名情况,其中空气质量最好的是7月,最差为2月。
关键词: 天气数据、描述性分析、方差分析、聚类分析,主成分分析
II
目录
摘要 ........................................................................................................................................... II 1 数据 ........................................................................................................................................ 1 2 描述性统计分析 .................................................................................................................... 2 3 方差分析 ................................................................................................................................ 9 4 聚类分析 .............................................................................................................................. 11
4.1按月聚类 .................................................................................................................... 11 4.2系统聚类 .................................................................................................................... 12 5 主成分分析综合排名 .......................................................................................................... 14 6分析结论 ............................................................................................................................... 16 7 参考文献 .............................................................................................................................. 17
III
1 数据
通过查阅中国环境保护部数据中心历史空气质量数据,得到了2012年昆明市每月不同空气质量等级的频数,绘制如下统计表,如表1所示。
表1 2012年昆明市每月不同空气质量等级的频数
月份 优 良 轻度污染 中度污染 重度污染 严重污染
一月 16 15 0 0 0 0
二月 1 28 0 0 0 0
三月 3 27 1 0 0 0
四月 4 26 0 0 0 0
五月 9 22 0 0 0 0
六月 16 14 0 0 0 0
七月 29 2 0 0 0 0
八月 8 23 0 0 0 0
九月 12 18 0 0 0 0
十月 8 23 0 0 0 0
十一月 7 23 0 0 0 0
十二月 0 31 0 0 0 0
从表1中,我们可以得到以下信息:
(1) 昆明市2012年空气质量总体较好,等级为“中度污染”、“重度污染”、“严重污染”的天数为零,而等级为“轻度污染”的仅有一天。
(2) 全年空气质量等级以“优”和“良”为主,其中七月有29天空气质量为“优”。 由于等级为“中度污染”、“重度污染”、“严重污染”的天数为零,因此后面在对2012年昆明市空气质量进行数据分析时,不再考虑等级为“中度污染”、“重度污染”、“严重污染”的天数。
1
2 描述性统计分析
2.1 统计量分析
为了获得2012年昆明市空气质量状况的整体信息,我们利用SPSS软件,对筛选出来的有效数据进行描述性统计分析。首先获得了优、良、轻度、中度、重度和严重污染的样本均值、方差、标准差,如表2所示:从数据统计分析表我们可以看出,昆明市2012年空气质量等级以良居多,每月平均有21天空气质量达到良等级,有9天达到优,而轻度污染的不足1天。从数据的波动程度来看,空气质量为优和良的天数的波动都较大,说明这两种等级的出现频数较不稳定。从数据的分布来看,空气质量为优、轻度污染的数据偏度大于0,说明这两组数据有右偏态,即处于这两个等级均值右边的月份数据更为分散,而良为左偏,则在均值左边的月份数据更为分散。从极端数据分布情况来看,所有空气质量的峰度值大于0,说明全部等级下数据含有较多远离均值的极端数据。
均值 x=?xi 方差 s2=
i?1_n1(xi?x) 标准差 s=s2??n?1i?1_3n_21?(xi?x) n?1i?1_n2n1偏度 g1=
(n?1)(n?2)s3?(xi?x)i?1n
_n(n?1)1峰度 g2=
(n?1)(n?2)(n?3)s4 3(n?1)2 (xi?x)??(n?2)(n?3)i?1n4表2 各月份空气质量统计数据 优 良 轻度污染 有效的 N (列表状态) N 统计量 12 12 12 12 均值 统计量 9.42 21.00 .08 标准差 统计量 8.073 7.851 .289 方差 统计量 65.174 61.636 .083 偏度 统计量 1.290 -1.293 3.464 标准误 .637 .637 .637 峰度 统计量 2.138 2.125 12.000 标准误 1.232 1.232 1.232 图 1 所示为六个等级数据的箱线图,从图中也可以看出只有轻度污染的数据中存在异常数据,而且轻度污染的箱线图变成了一条线,说明轻度污染的频数大多为0,而只有一个月份出现轻度污染,因此出现了图中唯一一个异常值。优的数据中,中位数在10左右,而最大值接近30,说明优的频数差异比较大。
2
图1 2013 年空气质量各等级频数箱线图
图2所示的是每月空气质量等级状况柱状图,从图中可以看出每月良的天数最多,其次是优,其他空气质量等级在每月出现的天数较少,说明空气质量不错。
图 2 2013 年大连市每月空气质量等级状况柱状图
3
图3所示为每月各种等级空气质量的频数折线图,横坐标表示月份,纵坐标表示天数,用折线走势说明不同等级空气质量有明显的季度变化趋势。从图中可以看出,每月良的天气居多,到了夏秋季节,空气质量好转,优的天数明显增加,污染的天气都比较少。
图 3 2012年每月空气质量变化折线图
由以上图中可以看出,4月到7月这几个月份的空气质量等级优的频数明显增多,而过了7月后优的频数开始下降,说明空气质量从4月开始变好,到了7月达到峰值,然后开始下降,说明空气质量分布有明显的季节性,夏季的天气状况好于其他季度。
2.2 正态性检验
以各种天气状况出现的频数作为因变量,不同天气等级为自变量,给三组数据做正态性检验。以下是各个等级的频数分布图
4
图 4 等级数据频数分布直方图
表 3. 等级数据正态性检验偏度值与峰度值 优 良 轻度污染 有效的 N (列表状态) N 统计量 12 12 12 12 偏度 统计量 1.290 -1.293 3.464 标准误 .637 .637 .637 峰度 统计量 2.138 2.125 12.000 标准误 1.232 1.232 1.232
结合图4以及表3可以发现,轻度污染级别的数据量太小,结果显示数据并没有明显的正态分布特点,但是为了研究起见,我们认为这三组等级的数据都是近似服从正态分布。
再以各种天气状况出现的频数作为因变量,不同月份为自变量,给11组数据做正 态性检验,如图5所示。
5
6
图 5 月份数据频数分布直方图
7
表4 月份数据正态性检验偏度值 一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月 有效的 N (列表状态) N 统计量 3 3 3 3 3 3 3 3 3 3 3 3 3 均值 统计量 10.33 9.67 10.33 10.00 10.33 10.00 10.33 10.33 10.00 10.33 10.00 10.33 偏度 统计量 -1.708 1.724 1.695 1.574 .535 -1.630 1.702 .863 -.935 .863 1.071 1.732 标准误 1.225 1.225 1.225 1.225 1.225 1.225 1.225 1.225 1.225 1.225 1.225 1.225
结合图5以及表4可以发现,部分数据之间与正态分布不吻合,但我们同样认为所有12个月份的数据都是近似服从正态分布。
8
3 方差分析
由于影响每个月不同空气质量等级的自变量是月份以及空气质量等级,属于定性变量,通常称这种变量为因素,通过方差分析可以了解这些因素在不同状态下对因变量取值是否有显著差异。方差分析是建立在假设检验上的统计分析方法,其基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定因素对研究结果影响力的大小。整个方差分析的基本步骤如下:
1、建立检验假设;
H0:多个样本总体均值相等;
H1:多个样本总体均值不相等或不全等。检验水准为 0.05。 2、计算检验统计量 F 值; 3、确定P值并推断分析结果。
总数平方和SST=??(yij?y) 组间平方和SSA=?ni(yi?y)2
2i?1j?1nni?1nn_n__组内平方和SSE=??(yij?yi)2
i?1j?1_采用单因素方差分析的方法,仅以三个指标作为影响因素,12个月份的观测数据可 视为每个月进行一次的12个独立重复试验。 使用SPSS 软件求解,表6所示为方差齐性分析表,其中,显著性值为0.002<0.05,说明方差不具有齐性,从而使用非参数检验的方法。
表6 方差齐性分析表 Levene 统计量 7.532
df1 2 df2 33 显著性 .002 表7所示为方差分析表,得出显著性值0<0.05,说明这三个指标之间是有显著性差异的,换句话说,不同的空气质量等级影响了每个等级出现的频数。 表7 方差分析表 组间 组内 总数 平方和 2635.167 1395.833 4031.000 df 2 33 35 均方 1317.583 42.298 F 31.150 显著性 .000
由于方差不具有齐性,所以可以进行事后检验。利用 SPSS 软件进行 Dunnett T3 非 参数检验。
表8显示了两两比较的结果,发现优与良的差异最大,良与其他等级的差别也比较
9
大,轻度污染与良的差异最大。正是因为这样,才导致方差的非齐次性,通过两两间的比较也可以知道这三类之间的均值不显著相等 表 8 非参数检验分析表
(I) 类别 1 2 3 (J) 类别 2 3 1 3 1 2 均值差 (I-J) -11.583 9.333 11.583 20.917 -9.333 -20.917 ******95% 置信区间 标准误 3.251 2.332 3.251 2.268 2.332 2.268 显著性 .005 .006 .005 .000 .006 .000 下限 -19.95 2.84 3.21 14.61 -15.82 -27.23 上限 -3.21 15.82 19.95 27.23 -2.84 -14.61 10
4 聚类分析
对每个月份的空气质量进行初步分析时我们发现12个月的数据之间有明显的分级,为了了解2012年不同月份的空气质量的分类,可以采用聚类分析法,对12个月进行分类,分析得出那几个月的空气质量类似。聚类分析指将对象的集合分组成为由类似的象组成的多个类的分析过程,一般有两种类型,按样品聚类或按指标聚类。其基本思想是通过定义样本或变量间近似程度的度量,以此为基础,将相近的样本或变量归为一类。在此,我们可以按月份聚类(样本聚类)分析得出空气质量相似的月份,同时也对等级进行聚类(指标聚类),分析哪几个等级之间相似程度较大。
4.1按月份聚类
使用谱系聚类法对月份进行聚类分析。谱系聚类法根据生物学中植物分类思想进行 分类的方法。首先视个样本自成一类,然后把最相近的样本聚为小类,再将已聚合的小 类按其相似性(类间距离度量)再聚合,随着相似性的减弱,最后将一切子类都聚合成 一个大类,从而得到一个按相似性大小聚合起来的谱系图,再进一步根据实际情况确定 合适的分类个数。
利用SPSS软件求解,使用最短距离法定义类间距离,得到月份分类树状图以及冰 柱图。如图 6、7所示。
图 6 月份间聚类树状图
11
图 7 月份间聚类冰柱图
表 9 月份间聚类分析结果
分类个数 分 类 情 况 2类 3类 4类 类别1:1、6 类别2:2、3、4、12 类别3:7 类别4:5、8、9、10、11 类别1:1、6、7 类别1:1、6、9 类别2:2、3、4、5、8、9、类别2:2、3、4、5、8、10、11、12 10、11、12 类别3:7 从树状图和冰柱图得出表9所示聚类结果,与图 2 各月份空气质量分布图对比发现,2、3、4、5、8、10、11、12 这几个月空气质量差不多,没有严重污染天气出现,且出现优等,所以归为一大类;而1、6、9月优良参半,所以聚为一类。其中,7月的优等天数出现最多,空气质量等级分布与其他月份明显不同,所以聚为三类时单独成为一类。
4.2 系统聚类
同样使用谱系聚类法,对六个等级之间进行聚类分析。
12
图 8 等级间聚类树状图
图 9 等级间聚类冰柱图
由于等级数量太少,不利于进行分析,在此不展开讨论。
13
5 主成分分析综合排名
在第一节中,我们已经粗略的了解了12个月中每个月份的空气质量优劣,为了更科学的对12个月份空气质量进行排名,我们将3个等级通过变换,成为三个评价指标,选用主成分分析法对指标进行主成分分析,利用每个月份在主成分上的综合得分进行排名。主成分分析法是一种数学变换的方法它把给定的一组相关变量通过线性变换转成另一组不相关的变量来替代原始变量的信息,可以达到降维的目的。这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分,一次类推。其基本步骤如下: 1 数据标准化;
2 求相关系数矩阵;
3 得相关系数矩阵特征根xi,并按照从大到小的顺序把特征根排列; 4 求各个特征根对应的特征向量;
5 计算每个特征根的贡献率Vi=xi/(x1+x2+........) 6 根据特征根及其特征向量解释主成分物理意义。
我们得到了标准化数据,用spss软件对其做主成分分析,得到的结果如表10所示。
表10 主成分分析结果 初始特征值 成份 1 2 3 提取平方和载入 累积 % 72.772 合计 2.183 .817 方差的 % 累积 % 72.772 72.772 27.228 100.000 合计 2.183 .817 方差的 % 72.772 27.228 100.000 -1.601E-16 -5.337E-15 100.000 当主成分个数为 2 时,累积贡献率已经达到 100%,超过 90%,所以我们取两个 主成分。
相应的主成分得分如表11所示
表11 主成分分析得分结果 优 良 轻度污染
成份 1 .449 -.440 .250
2 -.241 .336 1.026
根据表12的结果计算前3个主成分的得分及加权后的得分进行排名得到表12 加权得分F=V1*F1+V2*F2
14
Fi是第i个主成分的得分 Fi=?ci*xi
i?15Ci是第i个主成分对应的等级得分 xi是对应等级的标准化的数据
表13 月份得分情况统计表
月份 一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月 第一主成分 0.92054603 -1.39016974 -0.84895168 -0.73729134 0.13891431 0.60265133 2.37214464 0.02724948 0.15600081 0.02724948 -0.40230565 -0.86604267 第二主成分 加权总得分 79.02173619 -145.363078 -66.98302889 -60.83539519 35.9876484 12.93748058 158.942017 29.83975358 -11.65364129 29.83975358 -42.39216815 -19.34200032 排名 2 12 11 10 3 6 1 5 7 4 9 8 0.44188925 -1.62324246 -0.19109436 -0.2637443 0.95043985 -1.13554657 -0.5025596 1.0230922 -0.84494389 1.0230922 -0.48169463 1.60429179
根据排名发现与前面所分析的内容比较吻合,1、5、6、7、8、9这几个月的空气质量较好,2、3、4这几个月的空气质量较差。
15
6分析结论
通过分析,我们可以得出以下结论
1、2012年昆明市各个月空气质量有明显不同,其中1、5、6、7、8、9这几个月的空气质量较好,其他月份较为一般。
2、空气质量为“良”的频数最多,其次是“优”,极少为“轻度污染”。
3、空气质量等级对每月每种空气质量出现的频数有显著影响,即不同等级下的频数有显著差异。
4、不同等级的空气质量有明显变化趋势,优的趋势是先增后减,而良的趋势是先减后增。
5、2012年昆明市12个月中,空气质量月份由好到差排名如下:
七月 一月 五月 十月 八月 六月 九月 十二月 十一月 四月 三月 二月
16
7 参考文献
[1] 中国环境保护部数据中心
http://datacenter.mep.gov.cn/report/air_daily/air_dairy.jsp?&lang= [2] 张毅.主成分分析在综合评价中的应用.荆门职业技术学院学报,第20卷
第6期,2005年11月
[3] 刘璐,杨景明,赵慧仁.主成分聚类分析在学生成绩综合评价中的应用.辽宁工
业大学学报,第32卷第3期,2012年6月
[4] 王丽芳. 主成分分析在综合评价中的应用.经济研究导刊,2012年第19期 [5] 主成分分析原理 http://wenku.http://www.wodefanwen.com//
17
本科生课程设计成绩评定表
姓 名 专业、班级 性 别 课程设计题目: 课程设计答辩或质疑记录: 成绩评定依据 评 定 项 目 1.选题合理、目的明确(10分) 2.设计方案正确,具有可行性、创新性(20分) 3.设计结果(例如:硬件成果、软件程序)(20分) 4.态度认真、学习刻苦、遵守纪律(15分) 5.设计报告的规范化、参考文献充分(不少于5篇)(10分) 6.答辩(25分) 评分成绩 总分 最终评定成绩(以优、良、中、及格、不及格评定) 备注:成绩等级:优(90分—100分)、良(80分—89分)、中(70分—79分)、及格(60分—69分)、60分以下为不及格。
指导教师签字:
年 月 日
18
正在阅读:
课设论文06-05
教你如何开好一家药店10-11
博弈论读后感02-27
滚筒式城市道路栅栏清洗机设计04-05
连云港市城市生活垃圾处理费03-15
怀孕检测表-输入怀孕日期即可自动计算08-21
专题二十六 生命活动的物质基础08-07
13建筑工程可行性研究报告11-07
生物化学与检验05-19
实验三 扫描电子显微镜样品制备及观察06-06
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 论文
- 中国尼龙锁扣行业市场前景分析预测年度报告(目录) - 图文
- 畜产品加工学试题库
- GSM优化试题(第三考题)
- 《中层主管核心管理技能》测试题
- 北师大五上书法
- 200万厚礼《深圳冬季攻略》
- 第十一节 闭区间上连续函数的性质
- 畜牧中级职称试题及答案
- 土壤酶活性测定方法
- 2014年春新人教版二年级数学第三单元《图形的运动(一)》
- 四年级语文第一单元测试卷(1)
- 2017—2018学年初一上学期道德与法治阶段考复习提纲
- 钢结构吊装安装专项施工方案-东侨大型农产品综合批发市场二期 -
- 中国工商银行的主要领导人
- 构建社会主义和谐社会第八讲:提高管理社会事务的本领试题与答案
- 大脑功能分区(整理部分)
- 如何在软文中更好的加入关键词
- 2018届高三三模理数试题
- 山岭重丘区四级公路施工组织设计
- 涟水县2008年初中毕业生理化实验考查