北航数理统计回归分析大作业

更新时间:2024-04-16 17:36:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

应用数理统计

第一次大作业

学号: 姓名: 班级:

2013年12月

国家财政收入的多元线性回归模型

摘 要

本文以多元线性回归为出发点,选取我国自1990至2008年连续19年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程:

??578.479?0.199x4?0.733x6 y从而得出了结论,最后我们用2009年的数据进行了验证,得出的结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。

关键词:多元线性回归,逐步回归法,财政收入,SPSS

0符号说明

变 量 财政收入 工 业 农 业 受灾面积 建 筑 业 人 口 商品销售额 进出口总额

符号 Y X1 X2 X3 X4 X5 X6 X7

1

1 引言

中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。

国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数等。文中主要应用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。

2解决问题的方法和计算结果

2.1 样本数据的选取与整理

本文在进行统计时,查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上有线性关系的因素,初步选取这十九年的国内总产值、工业总产值、人口总数、建筑业、农业、受灾面积和商品零售总额等因素为自变量,分析它们之间的联系。

根据选择的指标,从《中国统计年鉴2010》查选数据,整理如表2-1所示。

表2-1 1990-2009年财政收入及其影响因素统计表

工业 (亿元) 农业 (亿元) 受灾面积(千公顷) 建筑业 (亿元) 人口 (万人) 社会商品零售总额(亿元) 财政收入 (亿元) 国民生产总值(亿元) 1990 1991 18689.22 22088.68

7662.1 8157 38474 55472 1345 1564.3 2

114333 115823 8300.1 9415.6 2937.1 3149.48 18718.3 21826.2 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 27724.21 39693 51353.03 54946.86 62740.16 68352.68 67737.14 72707.04 85673.66 95448.98 110776.48 142271.22 201722.19 251619.5 316588.96 405177.13 130260.2 135239.9 9084.7 10995.5 15750.5 20340.9 22353.7 23788.4 24541.9 24519.1 24915.8 26179.6 27390.8 29691.8 36239 39450.9 40810.8 48892.9 33702.0 35226.0 51333 48829 55043 45821 46989 53429 50145 49981 54688 52215 47119.1 54506.3 37106.256 38818.225 41091.41 35972.23 56234.26 50223.51 2174.4 3253.5 4653.3 5793.8 8282.2 9126.5 10062 11152.9 12497.6 15361.5 18527.1 23083.8 27745.3 34552.0 41557.1 51043.7 18743.2 22398.8 117171 118517 119850 121121 122389 123626 124761 125786 126743 127627 128453 129227 129988 130756 131448 132129 132802 133474 10993.7 14270.4 18622.9 23613.8 28360.2 31252.9 33378.1 35647.9 39105.7 43055.4 48135.9 52516.3 59501 67176.6 76410 89210 116032 14894 3483.37 4348.95 5218.1 6242.2 7407.99 8651.14 9875.95 11444.08 13395.23 16386.04 18903.64 21715.25 26396.47 31649.29 38760.2 51321.78 61330.35 68518.30 26937.3 35260.0 48108.5 59810.5 70142.5 78060.8 83024.3 88479.2 98000.5 108068.2 119095.7 135174.0 159586.7 185808.6 217522.7 267763.7 316228.8 343464.7

2.2 模型的建立与分析

将数据录入统计软件excel,建立统计数据库,先建立财政收入与各变量的散点图,如图2-1至图2-7所示。

图2-1 财政收入与工业总产值的散点图

3

图2-2 财政收入与农业总产值的散点图

图2-3 财政收入与受灾面积的散点图

4

图2-4 财政收入与建筑业的散点图

图2-5 财政收入与人口总数的散点图

5

图2-6 财政收入与商品零售总额的散点图

图2-7 财政收入与国内总产值的散点图

从散点图中看出,国内生产总值、工业生产总值、农业、建筑业、商品零售总额这四个变量与财政收入总量基本呈线性分布;而人口总数虽然也与财政收入存在正比的关系,但是从直观上看线性关系不显著,并且人口因素呈现指数关系。受灾面积与财政收入总量的关系不明显。因此为使得到的模型有显著的线性关系,在选取进入回归模型的自变量时,就要进行筛选。下面给出筛选过程。

(1)将国内生产总值、农业、工业生产总值、建筑业和商品零售总额纳入自变量,逐步回归法,输出结果如图2-8(a)(b)所示。

从结果可以看出,该回归的F值为1600.595,查表得F0.95(1,2)?18.5,显而

6

易见,回归的显著性很好;但是由于在这里我们要分析的是影响财政收入的具体产业,而该结果只说明了财政收入与国民生产总值的相关性很好,并不能说明问题的根本所在。所以在下面的分析中我们将剔除国民生产总值这个因素做进一步的分析。

Anovab 模型 平方和 df 1 18 19 均方 7.506E9 4689341.382 F 1600.595 Sig. .000 a回归 7.506E9 1 残差 8.441E7 总计 7.590E9 a. 预测变量: (常量), 国民生产总值 b. 因变量: 财政收入 模型汇总b 模型 R R 方 a调整 标准估计 R 方 的误差 R 方更改 更改统计量 F 更改 1600.595 df1 1 df2 18 Durbin- Sig. F 更改 Watson .000 .200 1 .994 .989 .988 2165.489 .989 a. 预测变量: (常量), 国民生产总值 b. 因变量: 财政收入 图2-8(a)(b) 输出结果

(2)将工业生产总值、农工、建筑业和商品零售总额纳入自变量,逐步回归法,输出结果如图2-9(a)(b)(c)所示。

Anovab 模型 回归 1 残差 总计 平方和 4.757E9 2.834E9 7.590E9 df 1 18 19 均方 4.757E9 1.574E8 F 30.215 Sig. .000 a a. 预测变量: (常量), 农业 b. 因变量: 财政收入

模型 1 模型汇总b 更改统计量 调整 标准估计 R R 方 R 方 的误差 R 方更改 F 更改 df1 df2 Sig. F 更改 .792 .627 .606 12546.807 .627 30.215 1 18 aDurbin -Watson .390 .000 a. 预测变量: (常量), 农业 b. 因变量: 财政收入 7

图2-9(a)(b)(c) 输出结果

从结果可以看出,该回归的F值为30.215,查表得F0.95(1,3)?10.1,显而易见,回归的显著性很好;但是对回归系数的显著性来说,从直方图中可以看出,采用以上三个变量作为自变量得到的线性模型仍不是很好。

这个模型也不是理想中的模型,所以下面我们试图根据我们的判断对样本数据进行筛选,力求得出比较理想的模型。

(3)下面我将农业这个变量暂且剔除,只采用工业、建筑业和商品零售总额作为自变量,采用逐步回归法,输出结果如图2-10(a)(b)所示。

从结果可以看出,该回归的F值为20.219,查表得F0.95(1,2)?18.5,显而易见,回归的显著性很好;但是对回归系数的显著性来说,建筑业的t检验值为0.0002,查表得t0.975(7)?2.3646,显然回归系数的显著性不好。以上检验得到的与利用P值法(图中的Sig值)得到的检验结果相符。因此,采用以上三个变量作为自变量得到的线性模型仍不是很好。

同时可以看出,只对建筑业做回归分析时,F值为20.19,查表得到

F0.95(1,7)?5.59,这证明一元回归模型和回归系数的显著性都很好。

8

Anovab 模型 1 平方和 回归 4.015E9 残差 3.575E9 总计 7.590E9 df 1 18 19 均方 4.015E9 1.986E8 F 20.219 Sig. .000 a a. 预测变量: (常量), 建筑业 b. 因变量: 财政收入 模型汇总b 模型 1 R aR 方 调整 R 方 标准估计 的误差 14092.439 更改统计量 Durbin R 方更改 F 更改 df1 df2 Sig. F 更改 -Watson .529 20.219 1 18 .000 .546 .727 .529 .503 a. 预测变量: (常量), 建筑业 b. 因变量: 财政收入 图2-10(a)(b) 输出结果

(4)只将工业和商品零售总额纳入自变量,输出结果如图2-11(a)(b)所示。

Anova 模型 回归 1 残差 总计 平方和 3.498E9 4.092E9 7.590E9 df 1 18 19 均方 3.498E9 2.273E8 F 15.390 Sig. .001 ab a. 预测变量: (常量), 工业。 b. 因变量: 财政收入

系数 非标准化系数 模型 B (常量) 1 工业 a. 因变量: 财政收入 .132 .034 .679 3.923 .001 1.000 1.000 4994.365 标准 误差 试用版 5206.020 标准系数 t Sig. 容差 .959 .350 VIF 共线性统计量 a 图2-11(a)(b) 输出结果

从上图结果中可以看出,对这两个变量做回归分析时,F值为15.39,证明一元回归模型和回归系数的显著性都很好。 2.3 分析结果

9

由以上筛选和分析过程可以看出,财政收入Y分别对X7国内总产值、X1工业总产值、X4建筑业及商品零售总额X6进行一元回归分析时,其回归的显著性都很好,但是综合为一个多元回归模型时,则出现了某些系数不显著的现象。

综合比较选取的几个多元模型,将X4建筑业和X6商品零售总额纳入自变量时得到的模型效果最为显著,回归方程如下:

??578.479?5.199x4?4.733x6 y其中F?10.99,R2?0.564。

3 结论

本次大作业,根据查阅中国统计年鉴,列举了影响财政收入的7个因素。从直观上考虑,人口总量与受灾面积与财政收入存在线性关系,所以特意把这两个变量列到其中,但是散点图和回归效果显示这2个因素并没有进入逐步回归模型中,由此看来,这两项因素与财政收入存在的关系可能不是严格线性的,或者这种线性关系是长期的线性关系。

另外,在对进入模型的5个因素进行回归时发现,因变量对单独变量的回归性很显著,但是整合成多元回归出现了某些回归系数不显著的现象,具体原因可能是由于数据选取的太少,未能体现出长期线性这一特点。虽然得到的几个模型系数都不是很显著,但经综合比较,选取了一个较为显著的模型作为最“优”解。

对得到的最“优”回归模型做预测,置信度为95%。查阅中国统计年鉴,得到2009年的X4建筑业为22398.8(亿元),X6商品零售总额为14894(亿元),Y财政收入为68518.30(亿元),将自变量带入回归方程:

??578.479?1.199x4?2.733x6y?578.479?1.199?22398.8?2.733?14894 ?68103.9902(亿元)?o??(xo),y???(xo)), 预测区间为(y其中?(xo)?t0.975(7)Qe?2.3646?1087844.087?2674.56(亿元)。 7代入数值得到置信度为95%的预测区间为(65429.43,70778.33),与查得的2009年能源消耗总量68518.30(亿元)比较接近。

10

得到的数据模型显示财政收入与建筑业、商品零售额有着密切的关系,这也很符合目前国家的经济状况。不过由于调研时间有限,上述回归模型存在一些不足,还需要不断查阅资料加以改进。但在一定程度上体现了与选取的自变量之间的线性关系,并能对因变量做出近似的预测。综合来看,数据模型基本达到了预期的目的。

参考文献

[1] 孙海燕,周梦,李卫国,冯伟. 应用数理统计[M]. 北京:北京航空航天大学数

学系, 1999.

[2] 张建同,孙昌言. 以Excel和SPSS为工具的管理统计[M]. 北京:清华大学出

版社,2002.

[3] 国家统计局.2010年中国统计年鉴[M]. 中国统计出版社,2010.

11

本文来源:https://www.bwwdw.com/article/mr1p.html

Top