数理统计第一次大作业——回归分析

更新时间:2024-05-31 15:30:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

北京市农业经济总产值的逐步回归分析

姓名: 学号:

摘 要:农业生产和农村经济是国民经济的基础,影响农村经济总产值的因素有多种,主要包括农林牧渔业。本文以北京市农业生产和农村经济总产值为对象,首先分析了各种因素的线性相关性,建立回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。以SPSS 17.0为分析工具,给出了实验结果,并用预测值验证了结论的正确性。

关键词:农业生产和农村经济,线性回归模型,逐步回归分析,SPSS

1. 引言

农林牧渔业统计范围包括辖区内全部农林牧渔业生产单位、非农行业单位附属的农林牧渔业生产活动单位以及农户的农业生产活动。军委系统的农林牧渔业生产(除军马外)也应包括在内,但不包括农业科学试验机构进行的农业生产。

在近几年中国经济快速增长的带动下,各地区农林牧渔业也得到了突飞猛进的发展。以北京地区为例,2005年的农业总产值为1993年的6倍。因此用统计方法研究分析农业总产值对指导国民经济生产,合理有效的进行产业布局,提高生产力等有着重要意义。

表1 北京市农业经济产值及各产品产量统计数据

年 份1999200020012002200320042005200620072008农林牧渔业总产值(亿元)180.6188.6202.2213.5224.7234.9239.3247.2261.3273.9粮 食(万吨)5870.282.394.9102.1104.9109.2125.5144.2161棉 花(万吨)0.20.20.30.30.30.80.20.20.20.1油 料(万吨)2.83.84.32.63.32.92.52.22.22.2蔬 菜(万吨)321.3340.1341.2373.1419.8444.1466.3486.7511527.4干鲜果品(万吨)60.26671.978.784.190.993.988.791.189.8猪牛羊肉(万吨)25.926.927.130.230.931.7333437.239.1禽蛋产量(万吨)15.81615.615.216.215.91615.215.615.2水产品(万吨)7.67.57.47.47.16.76.45.466.1 本文以北京市农生产为对象,分析了农业经济总产值与粮食产量、棉花产量、油料产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量、禽蛋产量、水产品产量的关系,并建立农业经济总产值的回归模型。表1中列出了1999年至2008年间的统计数据(数据来源于北京统计信息网http://www.bjstats.gov.cn)。

2. 线性回归模型的建立

2.1 线性回归模型的假设

为了研究农业经济总产值与各种农生产量的关系,必须要建立二者之间的数学模型。数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。而实际生活中,影响农业经济总产值的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立农业经济总产值的数学模型往往是很难的。但是为了便于研究,我们可以先

假定一些前提条件,然后在这些条件下得到简化后的近似模型。

以下我们假定两个前提条件:

1) 农产品的价格是不变的。这样我们可以认为每一种农产品的总产值将与产品的总产

量成正的线性关系。 2) 每一种农产品的总产值对于农业经济总产值的贡献都是很大的。因此可以根据每种

产品的总产值预测农业经济总产值。即农业经济总产值与每种产品的总产值成正的线性关系。 由以上两个假设,我们可以建立农业经济总产值与各种农产品生产量的线性回归模型,模型如下:

Y??1X1??2X2??3X3??4X4??5X5??6X6??7X7??8X8 (1)

其中,Y是因变量, Xi是自变量,?i是各个自变量的系数。各变量符号的定义见表2。

表2 线性回归模型中各变量的含义

Y X1 粮 食 X2 棉 花 X3 油 料 X4 蔬 菜 X5 X6 X7 X8 水产品 农林牧渔业总产值 干鲜果品 猪牛羊肉 禽蛋产量 2.2 线性回归模型的验证

以上,我们通过假设两个前提条件得到了农业经济总产值与各种农生产量的线性回归模型。然而这些假设是否合理,模型又是否能很好的近似实际的经济情况,我们需要进一步的验证。作数据散点图,观察因变量与自变量之间关系是否有线性特点。散点图结果如图1所示。

(a) (b)

(c) (d)

(e) (f)

(g) (h)

图1 因变量与各自变量的散点图

(a)农业总产值与粮食产量散点图;(b)农业总产值与棉花产量散点图;(c)农业总产值与油料产量散点图; (d)农业总产值与蔬菜散点图;(e)农业总产值干鲜果品产量散点图;(f)农业总产值与猪牛羊肉产量散点图;

(g)农业总产值与禽蛋产量散点图;(h)农业总产值与水产品产量散点图

从图1中不难发现,农业经济总产值与粮食产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量具有良好的线性关系,而与棉花产量、油料产量和禽蛋产量没有明确的线性关系。水产品产量虽然与农业经济总产值呈现较强的线性关系,但是二者是负相关的,即布产量越大,农业经济总产值越小,这样不符合我们建立线性回归模型的初衷,也与建立模型的两个假设相背。

经分析,某些变量与农业经济总产值不呈正的线性相关的原因主要有两个:

1) 与第一个假设相背。即这些农产品的价格并不是一个常数,而会随着时间的推移、

生产工艺的改进、产品的淘汰等原因产生变动。当价格变动范围较大时,产品的总产值和总产量就不是线性关系了,应当用别的模型来近似。 2) 与第二个假设相背。即这些农产品的总产值对于农业经济总产值的贡献非常小,以

至于某种农产品总产值的变化不足以引起农业经济总产值的变化。如图1,可以明显发现最后三种轻农产品的产量与农业经济总产值都不具有良好的正的线性关系,而前六种重农产品中有五种与农业经济总产值呈现强的线性关系,说明重农在农业经济中占的比重比轻农要大。 在后来的逐步回归分析结果中我们可以看到,这些不符合假设条件,与农业经济总产值呈弱的或者负的线性关系的自变量都被排除到回归模型之外了。但是并不是说所有与因变量呈强线性关系的自变量都在回归模型中,在最终确定回归方程之前还应当应当用逐步回归方法进行分析。

3.逐步回归分析

3.1 线性回归的方法

线性回归是描述一个因变量Y与一个或多个自变量X之间的线性依存关系。根据一批样本值来估计这种线性关系,建立回归方程,用回归方程进行预测和控制。在多元线性回归分析中,选择“最优”回归方程的方法有强行进入法、消去法、向前选择法、向后剔除法和逐步回归法。

1) 强行进入法:选择的自变量全部进入回归模型。

2) 消去法:建立回归方程时,根据设定的条件剔除部分自变量。

3) 向前选择法:从模型中无自变量开始,然后设定判据,每次将一个最符合判据的变

量引入模型,直至所有符合判据的变量都进入模型为止。 4) 向后剔除法:先建立全模型,然后设定判据,每次剔除一个最不符合进入模型判据

的变量。 5) 逐步回归法:向前选择法和向后剔除法的结合,先设定判据,选择符合判据且对因

变量贡献最大的自变量进入回归方程,然后根据向后剔除法,将模型中贡献最小的且符合剔除判据的变量剔除出模型,重复进行直到回归方程中的自变量均符合进入模型的判据,模型外的都不符合进入模型的判据为止。本实验采用逐步回归法。 3.2 线性回归的结果及分析

利用表1中的数据建立回归模型,用SPSS软件的线性回归分析功能,得到以下数据。

表3中可以看出粮食产量、蔬菜产量和干鲜果品产量这三个自变量经过逐步回归过程被选择进入了回归方程。选择的判据是变量进入回归方程的F的概率不大于0.05,剔除的判据是变量进入回归方程的F的概率不小于0.10。选择的过程是,最先引入了变量X1,建立了模型1;接着引入变量X5,没有变量被剔除,建立了模型2(含有X1、X5);最后引入变量

X4,没有变量被剔除,建立了模型3,故最终的模型中含有变量X1、X5、X4。

表3 引入或从模型中剔除的变量

输入/移去的变量a 模型 1 2 3 输入的变量 粮 食 干鲜果品 蔬 菜 移去的变量 方法 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。 a. 因变量: 农林牧渔业总产值

表4 拟合过程小结

模型汇总 模型 1 2 3 R .986a .998b .999c R 方 .972 .996 .998 调整 R 方 标准 估计的误差 .969 .994 .997 5.4267 2.2761 1.6835 a. 预测变量: (常量), 粮 食。 b. 预测变量: (常量), 粮 食, 干鲜果品。 c. 预测变量: (常量), 粮 食, 干鲜果品, 蔬 菜。

表4显示各模型的拟合情况,模型3的复相关系数R=0.999,可决系数R=0.998,调整可决系数为0.997,估计值的标准差为1.6835。可见模型3的拟合度较高,变量X1、

2X5、X4的作用显著。

表5显示各模型的方差分析结果。方差分析结果表明,当回归方程为模型1、2、3时,其显著性概率值均小于0.001,即拒绝总体回归系数均为0的原假设。因此,最终的回归方程应当包含粮食产量, 干鲜果品产量, 蔬菜产量这3个自变量,且方程拟和效果很好。

表5 方差分析

Anovad 模型 1 回归 残差 总计 2 回归 残差 总计 3 回归 残差 总计 平方和 8190.902 235.594 8426.496 8390.231 36.265 8426.496 8409.491 17.005 8426.496 df 1 8 9 2 7 9 3 6 9 均方 8190.902 29.449 F 278.136 Sig. .000a 4195.116 5.181 809.766 .000b 2803.164 2.834 989.048 .000c a. 预测变量: (常量), 粮 食。 b. 预测变量: (常量), 粮 食, 干鲜果品。 c. 预测变量: (常量), 粮 食, 干鲜果品, 蔬 菜。 d. 因变量: 农林牧渔业总产值 表6显示方程外各模型变量的有关统计量,即标准化偏回归系数Beta、回归系数显著性检验的t值、P(Sig)值、偏相关系数Partial Correlation、共线性统计的容差Collinearity statistic Tolerance。可见,模型3方程外的各变量偏回归系数经检验,P值均大于0.11,故不能引入方程。

表6 逐步回归过程中不在方程中的变量

已排除的变量d 共线性统计量 模型 1 棉 花 油 料 蔬 菜 干鲜果品 猪牛羊肉 禽蛋产量 水产品 2 棉 花 油 料 蔬 菜 猪牛羊肉 禽蛋产量 水产品 3 棉 花 油 料 猪牛羊肉 禽蛋产量 水产品 Beta In .101a -.054a .497a .277a .426a .094a -.142a .012b -.034 .232b .200b .015b -.059 .027c .000c -.029c -.008 .011c cbbt 1.948 -.654 4.071 6.203 1.030 1.519 -1.367 .351 -1.021 2.607 1.147 .433 -1.273 1.165 -.015 -.158 -.299 .196 Sig. .092 .534 .005 .000 .337 .173 .214 .738 .347 .040 .295 .680 .250 .297 .988 .881 .777 .852 偏相关 .593 -.240 .838 .920 .363 .498 -.459 .142 -.385 .729 .424 .174 -.461 .462 -.007 -.070 -.133 .087 容差 .971 .546 .080 .309 .020 .779 .292 .626 .541 .042 .019 .602 .263 .594 .393 .012 .526 .137 VIF 1.030 1.832 12.542 3.238 49.373 1.284 3.428 1.597 1.850 23.638 51.834 1.660 3.798 1.685 2.544 86.500 1.900 7.293 最小容差 .971 .546 .080 .309 .020 .779 .292 .199 .261 .042 .019 .191 .219 .040 .031 .012 .037 .022 a. 模型中的预测变量: (常量), 粮 食。 b. 模型中的预测变量: (常量), 粮 食, 干鲜果品。 c. 模型中的预测变量: (常量), 粮 食, 干鲜果品, 蔬 菜。 已排除的变量d 共线性统计量 模型 1 棉 花 油 料 蔬 菜 干鲜果品 猪牛羊肉 禽蛋产量 水产品 2 棉 花 油 料 蔬 菜 猪牛羊肉 禽蛋产量 水产品 3 棉 花 油 料 猪牛羊肉 禽蛋产量 水产品 Beta In .101a -.054a .497a .277a .426a .094a -.142a .012b -.034b .232 .200b .015b -.059b .027 .000c -.029c -.008c .011 ccbt 1.948 -.654 4.071 6.203 1.030 1.519 -1.367 .351 -1.021 2.607 1.147 .433 -1.273 1.165 -.015 -.158 -.299 .196 Sig. .092 .534 .005 .000 .337 .173 .214 .738 .347 .040 .295 .680 .250 .297 .988 .881 .777 .852 偏相关 .593 -.240 .838 .920 .363 .498 -.459 .142 -.385 .729 .424 .174 -.461 .462 -.007 -.070 -.133 .087 容差 .971 .546 .080 .309 .020 .779 .292 .626 .541 .042 .019 .602 .263 .594 .393 .012 .526 .137 VIF 1.030 1.832 12.542 3.238 49.373 1.284 3.428 1.597 1.850 23.638 51.834 1.660 3.798 1.685 2.544 86.500 1.900 7.293 最小容差 .971 .546 .080 .309 .020 .779 .292 .199 .261 .042 .019 .191 .219 .040 .031 .012 .037 .022 a. 模型中的预测变量: (常量), 粮 食。 b. 模型中的预测变量: (常量), 粮 食, 干鲜果品。 c. 模型中的预测变量: (常量), 粮 食, 干鲜果品, 蔬 菜。 d. 因变量: 农林牧渔业总产值 表7显示各模型的偏回归系数B、标准差Std. Error、常数Constant、标准化偏回归系数Beta、回归系数显著性检验的t值和P(Sig)值。按照模型3建立的多元线性回归方程为:

Y?84.865?0.576X1?0.507X5?0.094X4 (2)

方程中的常数项?0?84.865,偏回归系数?1?0.576、?5?0.507、?4?0.094,经t检验?0、?1、?5、?4的P值分别为0.000、0.000、0.005、0.040,按α=0.10水平,均有显著性意义。

表7 回归计算过程中各方程系数表 系数a 非标准化系数 模型 1 (常量) 粮 食 2 (常量) 粮 食 干鲜果品 3 (常量) 粮 食 B 127.089 .946 91.864 .725 .717 84.865 .576 标准 误差 6.210 .057 6.248 .043 .116 5.344 .065 标准系数 试用版 t 20.466 .986 16.677 14.704 .756 .277 16.940 6.203 15.879 .600 8.794 Sig. .000 .000 .000 .000 .000 .000 .000 共线性统计量 容差 VIF 1.000 1.000 .309 .309 3.238 3.238 .072 13.846 干鲜果品 蔬 菜 .507 .094 .117 .036 .196 .232 4.323 2.607 .005 .040 .164 .042 6.103 23.638 a. 因变量: 农林牧渔业总产值

表8显示残差统计的结果,标准化残差的绝对值最大为1.286,小于设定值3。如超过3,则显示具体观察单位Case number 的标准化残差,以帮助发现离群点。

表8 残差统计量

残差统计量a 预测值 标准 预测值 预测值的标准误差 调整的预测值 残差 标准 残差 Student 化 残差 已删除的残差 Student 化 已删除的残差 Mahal 距离 Cook 的距离 居中杠杆值 极小值 179.029 -1.557 .632 175.986 -2.1642 -1.286 -1.554 -3.1640 -1.836 .368 .000 .041 极大值 272.737 1.509 1.367 270.603 1.7404 1.034 1.599 4.6143 1.928 5.036 1.239 .560 均值 226.620 .000 1.043 226.168 .0000 .000 .095 .4516 .127 2.700 .280 .300 标准 偏差 30.5678 1.000 .227 30.7402 1.3746 .816 1.098 2.5960 1.206 1.495 .385 .166 N 10 10 10 10 10 10 10 10 10 10 10 10 a. 因变量: 农林牧渔业总产值

图2 农业经济总产值的预测值与其Student化残差散点图

从图2的农业经济总产值的预测值与其Student化残差散点图中可以看到,所有观测量随机地落在垂直围绕±2的范围内,预测值与Student化残差值之间没有明显的关系,所以回归方程应该满足线性与方差齐性的假设且拟和效果较好。 3.3 线性回归的结果及分析

多元线性回归方程为:

Y?84.865?0.576X1?0.507X5?0.094X4

代入2006年的统计数据,得到

Y2006?84.865?0.576?125.5?0.507?88.7?0.094?486.7?247.87372006年农业经济总产值的实际值为8210.0亿元,误差为

e?247.8737?247.2?0.2725% 247.2可见回归模型的预测还是比较准确的。

4.总结与讨论

本文以北京市农业经济总产值为例,分析了农业经济总产值与各种农产品产量的关系。首先分析了农业经济总产值与各种农产量的线性关系,建立了线性回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。以SPSS 17.0为分析工具,给出了实验结果,并用预测值验证了结论的正确性。

从最终的线性回归模型中我们可以看到,农业经济总产值可以由粮食产量,干鲜果品产量,蔬菜产量很好地解释。原因主要有两个方面,首先,粮食、干鲜果品产量、蔬菜产量属于日常消费量很大的基础性农产品,具有良好的价格稳定性,符合前文提到的第一个假设。然后,这三类产品在北京市的农业经济占较大的比重。这三个产业的产量浮动将影响整个北京市农业经济总产值。粮食和蔬菜产量占比重大的主要原因是北京市有大量居民,这些居民的日常饮食所带来的需求量很大,而随着生活质量的提高,对均衡营养的追求使得干鲜果品已成为人们生活中不可缺少的一部分。同时也可以看到,尽管猪牛羊肉的产量与农业经济总产值也具有一定的线性关系,但由于近年来猪肉价格飞涨,并不具有良好的价格稳定性,因而不满足前文的第一个假设,所以逐步回归分析过程中这一变量被剔除了。

然而,最终的结果显示,拟合曲线和实际点还是有一个一定的偏差,而且最终分析得到的自变量个数也比较少,可能还有其他产业较显著的影响了农业经济总产值,有待进一步考察。 参考文献

[1] 孙海燕, 周梦, 李卫国, 冯伟, 应用数理统计, 北京航空航天大学, 2004.9 [2] 周复恭, 黄运成, 应用线性回归分析, 中国人民大学出版社, 1989.8 [3] 北京市统计信息网, 2009 北京市统计年鉴

[4] 倪青山, 刘小丹, SPSS 应用?实验教程, 湖南大学出版社, 2007

本文来源:https://www.bwwdw.com/article/b706.html

Top