气象观测站的优化调整

更新时间:2023-11-13 12:06:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

代号:145

观测站的优化问题

摘要

本文是为了解决有关观测点的优化问题,即为达到减少观测站同时既可以节省开支,又可以使得该市年降水量的信息量损失较小的目地。本文采用层层推进的方法,对问题逐一求解,具体如下:

针对问题1,本文先将观测点7,8的数据通过SPSS做相关性分析,得出其具有显著正相关的结论,并以观测点8为自变量,7为因变量,构建线性回归模型,用matlab解得到观测点7的回归方程,得出观测点7可以减少,其数据可由观测点8得到的结论。

针对问题2,本文先用分层聚类法,以各类间欧氏距离尽可能远,组内距离尽可能近为原则将剩余9个观测点分组,再以组内成员多于一个的组剔除一个成员为准则,在分别构建回归函数,并用SPSS里的F检验验证回归方程是否显著,最终得到可以去掉观测点2,6,7的结论。

针对问题3,本文先通过EXCEL处理数据,利用问题1,2中得到的回归方程计算出减少观测点前后的误差绝对值。然后本文基于假设建立误差绝对值的正态分布模型,用极大似然估计法给出正态分布均值和方差的点估计值,并用ttest对假设显著性进行检验,组后得出假设成立的结论。最后通过正态分布累计概率计算公式算得误差绝对值小于10mm的概率约为0.777,大于20mm的概率为0.0555。

最后,本文对模型中分组问题作了讨论,并结合实际做了的优缺点进行了评价,提出了细化分组的改进方案,对模型进行了简单的推广。

关键词:回归分析,相关性分析,分层聚类,极大似然估计

1

代号:145

一、 问题的提出与重述

问题的提出:

某市有10个县,每个县有一个气象观测站,每个气象观测站测得的年降水量即为该县的年降水量。30年来各观测站测得的年降水量如附表1。为了节省开支,想要适当减少气象观测站,但希望减少观测站同时既可以节省开支,又可以使得该市年降水量的信息量损失较小。请你选出这些观测站。

问题的重述:

1.第7个观测站和第8个观测站观测到的数据之间可能有相关关系,所以第7个观测站可以减少,第7个观测站的年降水量信息可以从第8个观测站观测到的数据中获取,问如何得出,并予以讨论。

2.除了观测点7还有哪些观测站可以减少,减少的观测站的年降水量信息如何获取。 3.如果以10个县年降水量的平均值为该市年平均降水量。在减少观测站以前,每个县年降水量都是观测数据。在减少观测站以后,被减少的观测站的年降水量只能从其它观测站观测到的数据中获取。减少观测站以前和减少观测站以后是用两种不同测量计算方法得到该市年平均降水量。两种不同测量计算方法得到的该结果会有误差,试预测误差的绝对值小于10mm的概率是多少?误差的绝对值大于20mm的概率是多少?

一、 问题的分析

本题是希望选取一些作用不大的观测站,并予以淘汰。要求既可以节省开支,又可以使得该市年降水量的信息量损失较小。本文需要做的是找出哪些观测点间相关性大并发现相关观测点间的降雨量关系。

针对问题1本文先通过SPSS中的相关性检验来验证两观测点间是否相关性较大,然后通过构建回归模型得到观测点7的回归方程,从而可以通过观测点8得出观测点7的降雨量数据。

针对问题2本文先用分层聚类法对剩下9个观测点进行分组,初步得出分为4组和每组的成员,然后在多于一个成员的组任意选出一个要剔除的观测点,通过构建回归模型通过每组中留下的点得出除去的观测点的回归方程,并用F法检验其是否服从原假设(是否舍去)。

针对问题3 本文列出未减少观测站时的年平均降水量。再用减少后的观测站得出年平均降水量,求其差,得到误差绝对值。然后假设误差绝对值服从正态分布,通过matlab数据分析检验假设的正确性,最后通过正态分布累计概率公式计算出题中要求结果。

二、 模型假设

(1)假设这段时间内该地区没有洪涝灾害,干旱等自然灾害的影响;

(2)假设每个观测点成本都是一样的,不存在拆除观测点时成本不一的问题; (3)不考虑其他地区对该地区的影响。

2

代号:145

三、 符号及变量说明

xi:第i个观测点的实际降雨量(i=3,8,10);

yj:第j个观测点估测的降雨量(j=2,4,6,7);

?i:回归拟合得到的系数(i=1,2); 其他符号会在文中说明

四、 模型的建立与求解

5.1.1对于问题一的模型建立

根据题意,本人先用SPSS对观测点7、8测得的年降水量数据进行相关性分析,分析结果如表1:

表1

相关性 7 Pearson 相关性 1 显著性(双侧) 平方与叉积的和 509175.467 协方差 17557.775 N 30 Pearson 相关性 .952** 显著性(双侧) .000 平方与叉积的和 451818.667 协方差 15579.954 N 30 **. 在 .01 水平(双侧)上显著相关。 8 .952** .000 451818.667 15579.954 30 1 442122.667 15245.609 30 7 8 结果分析:从表1可以看出Pearson 相关性为0.952,可以认为两者的相关系数为.952,属于正相关关系,显著性(双侧)为0.000<0.01,具备显著性,从而得出观测点7和8的测量数据具有显著正相关关系。

于是本文以观测点8测得的降雨量数据为自变量,以观测点7测得的降雨量数据为因变量建立线性回归模型,以检验第7个观测站的年降水量信息是否可以从第8个观测站观测到的数据中获取:

?y??0??1x?? ?2?E??0,D??? 其中?为随机误差,固定的未知参数?0、?1为回归系数,自变量x为回归变量。 5.1.2对于问题一模型的求解和检验

本文利用MATLAB统计工具箱中的命令regress求解,设置置信水平为0.05,得到回归

3

代号:145

残差图:

图1初步回归残差图

从图1可知有两个异常点,即第9个和第19个数据点,剔除以后再做线性回归得到新的残差图:

图2第二步回归残差图

由残差图可知,调整后的数据第十个点还是异常点,将第十个点数据剔除再次做线性回归得到回归图:

4

代号:145

图3观测站7,8线性回归图

从图2中可以直观看出,回归拟合度较好。

表2相应参数

参数 ?0 ?1 R=0.942 22参数估计值 53.254 1.034 F=405.432 参数置信区间 [7.477 99.032] [0.929 1.1409] P<0.0001 由R=0.942可知y有94.2%的数据可模型确定,F值远远超过F检验的临界值,p远小于置信度0.05,因而该模型从整体上来说是可用的。 于是得到线性回归方程:

y7=53.254+1.034x8

因此观测站7可以去除,其数据是可以通过观测站8得到的。 5.2.1对于问题二模型的建立

本人采用分层聚类法中的Q型聚类分析将10个观测站进行合理分组。通过SPSS分类

5

代号:145

Step3 由命令normfit()预测出均值和方差:

??6.2362 ??3.9076

Step4 由命令ttest做均值为6.2362显著性水平为0.05的检验:

h?0

表示不拒绝原假设,说明原假设误差绝对值的均值??6.2362是合理的。

15.2693) 从而得到误差绝对值?~N(6.2362,所以预测误差的绝对值小于10mm的概率为 P(x<10)=F(10)=0.777。误差的绝对

值大于20mm的概率是P(x<20)=1-F(20)=0.0555。

五、 模型的评价与改进

在处理问题2时本文利用分层聚类法对观测站进行了分组,采用主观化分组,误差较大。且初步分为4组,在模型求解时发现组内观测站2和3有显著相关性,而观测站4和观测站10却与观测站2无显著相关;观测站5和观测站9也无显著相关性。于是本文提出改进方案将分组细化,分为六组,分别为:6,7,8一组,2,3一组,4,10一组,9一组,5一组,1一组。

11

代号:145

参考文献

[1] 司守奎 孙玺箐.《数学建模算法与应用》.国防工业出版社,2011 [2] 姜启源 谢金星.《数学模型》.高等教育出版社,2011

[3] 韩中庚. 数学建模方法及其应用. 北京 高等教育出版社. 322-343 .2005

附录一:减少观测站前后年均降雨量及误差绝对值

年份 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987

前均值 后均值 451.2 461.6 534.4 513.6 497.6 468 570.4 548 496 475.2 532 467.2 459.9533 468.9471 538.6287 525.7999 504.4871 474.7425 574.6156 532.7545 485.1002 467.0926 537.8846 460.3274 差绝对年份 值 8.7533 7.3471 4.2287 1991 1992 1993 前均值 后均值 528.8 565.6 459.2 523.2 440.8 624.8 580 577.6 484 474.4 432 527.2 536.9702 550.3062 462.9872 515.6078 449.4079 622.3646 582.5592 577.0086 476.3362 479.2778 426.9714 527.0842 差绝对值 8.1702 15.2938 3.7872 7.5922 8.6079 2.4354 2.5592 0.5914 7.6638 4.8778 5.0286 0.1158 12.1999 1994 6.8871 6.7425 4.2156 1995 1996 1997 15.2455 1998 10.8998 1999 8.1074 5.8846 6.8726 2000 2001 2002 12

代号:145

1988 1989 1990 420 589.6 551.2 419.842 0.158 581.1915 8.4085 2003 2004 2005 516 464 555.2 549.734 1.466 518.9181 460.3362 561.562.9181 3.6638 6.3636

附录二:

x=load('5.txt'); y=load('9.txt'); plot(x,y,'o') hold on

X=[ones(30,1) x];

[b,bint,r,rint,stats]=regress(y,X); b bint r rint stats

plot(x,y,'o',x,b(1)+b(2)*x,'r'); xlabel('观测站8的年降雨量数据') ylabel('观测站7的年降雨量数据') figure

rcoplot(r,rint)

x=load('误差分析.txt') normplot(x) figure

histfit(x)

[u,s,uci,sci]=normfit(x)

36 13

本文来源:https://www.bwwdw.com/article/m1ev.html

Top