多元线性回归分析(Eviews论文)
更新时间:2023-11-06 04:55:01 阅读量: 教育文库 文档下载
楚雄师范学院 数学系 09级01班 韩金伟 学号:20091021135
2011—2012学年第二学期《数据分析》期末论文
题 目 影响成品钢材需求量的回归分析
姓 名 韩 金 伟
学 号 20091021135
系(院) 数 学 系
专 业 数学与应用数学
2012年 6 月 19
0
日
题目:影响成品钢材需求量的回归分析
摘要:随着社会经济的不断发展,科学技术的不断进步,统计方法越来越成为人们必不
可收的工具盒手段。应用回归分析是其中的一个重要分支,本着国家经济水平的不断提高,我们采用回归分析的方法对我国成品钢材的需求量进行分析应用。为了使分析的模型具有社会实际意义,我们引用了1980——1998年的成品钢材、原油、生铁、原煤、发电量、铁路货运量、固定资产投资额、居民消费、政府消费9个不同的量来进行回归分析。通过建立回归模型充分说明成品钢材需求量与其他8个变量的关系,以及我国社会经济的实际发展情况和意义。
关键字:线性回归 国家经济 社会发展
社会经济
1
成品钢材多元回归
回归分析 回归模型
目 录
第1章 题目叙述 ............................................................................................................................. 1 第2章 问题假设 ............................................................................................................................. 1 第3章 问题分析 ............................................................................................................................. 2 第4章 数据的预处理 ..................................................................................................................... 3
4.1 曲线统计图 ....................................................................................................................... 3 4.2 散点统计图 ....................................................................................................................... 4 4.3 样本的相关系数 ............................................................................................................... 4 第5章 回归模型的建立 ................................................................................................................. 5 第6章 回归模型的检验 ................................................................................................................. 6
6.1 F检验 ................................................................................................................................ 6 6.2 T检验 ................................................................................................................................ 6 6.3 T检验分析 ........................................................................................................................ 6 6.4 Chow断点检验 .................................................................................................................. 8 6.5 Chow预测检验 .................................................................................................................. 8 第7章 违背模型基本假设的情况 ............................................................................................... 9
7.1 异方差性的检验 ............................................................................................................... 9
7.1.1残差图示检验 ........................................................................................................ 9 7.1.2 怀特(White)检验 ............................................................................................. 9 7.2 自相关性的检验 ............................................................................................................. 10
7.2.1 LM检验 ................................................................................................................ 10 7.2.2 DW检验 ................................................................................................................ 10
第8章 自变量选择与逐步回归 ................................................................................................... 10
8.1 前进逐步回归法 ............................................................................................................. 10
8.1.1 前进逐步回归 ..................................................................................................... 10 8.1.2 前进逐步回归模型预测 ..................................................................................... 11 8.2 后退逐步回归法 ............................................................................................................. 12
8.2.1 后退逐步回归 ..................................................................................................... 12 8.2.2 后退逐步回归模型预测 ..................................................................................... 13
第9章 多重共线性的诊断及消除 ............................................................................................... 14
9.1 多重共线性的诊断 ......................................................................................................... 14 9.2 消除多重共线性 ............................................................................................................. 15 第10章 回归模型总结 ................................................................................................................. 17 参考文献......................................................................................................................................... 18 附录: ............................................................................................................................................ 19
2
楚雄师范学院 数学系 09级01班 韩金伟 学号:20091021135
影响成品钢材需求量的回归分析
第1章 题目叙述
理论上认为影响成品钢材的需求量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。为此,收集了我国成品钢材的需求量,选择与其相关的八个因素:原油产量、生铁产量、原煤产量、发电量、铁路货运量、固定资产投资额、居民消费、政府消费作为影响变量,1980——1998年的有关数据如下表。本题旨在通过建立这些经济变量的线性模型来说明影响成品钢材需求量的原因。 数据来源:易丹辉.数据分析与EViews应用.中国人民大学出版社.2008(教材第85页)。 原始数据(中国统计年鉴): 年份 成品钢材(万吨) 1980 2716.2 1981 2670.1 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 2902 3072 3372 3693 4058 4356 4689 4859 5153 5638 6697 7716 8482 原油(万吨) 生铁(万吨) 原煤(亿吨) 6.2 6.2 6.66 7.15 7.89 8.72 8.94 9.28 9.8 10.54 10.8 10.87 11.16 11.51 12.4 13.97 发电量(亿千瓦时) 3006.2 3092.7 3277 3514 3770 4107 4495 4973 5452 5848 6212 6775 7539 8395 9281 10070.3 10813.1 铁路货运量(万吨) 111279 107673 113495 118784 124074 130709 135635 140653 144948 151489 150681 152893 157627 固定资产投资额(亿元) 910.9 961 1230.4 1430.1 1832.9 2543.2 3120.6 3791.7 4753.8 4410.4 4517 5594.5 8080.1 居民消费(亿元) 2317.1 2604.1 2867.9 3182.5 3674.5 4589 5175 5961.2 7633.1 8523.5 9113.2 10315.9 12459.8 10595 10122 10212 10607 11461.3 12489.5 13068.8 13414 13704.6 13764.1 13830.6 14009.2 14209.7 14523.7 14608.2 3802.4 3416.6 3551 3738 4001 4384 5064 5503 5704 5820 6238 6765 7589 8739 9741 162663 13072.3 15682.4 163093 17042.1 20809.8 165885 20019.3 26944.5 168803 22974 32152.3 1995 8979.8 15004.94 10529.27 13.61 1996 9338.02 15733.39 10722.5 1997 9978.93 16074.14 11511.41 13.73 11355.53 169734 22913.5 34854.6 说明:由于数据是经过人工录入的,经反复对照没有发现错误,因此就采用了此数据做回归模型。但是也不能排除在录入过程中会出现一些小的错误,所以回归模型仅满足上表数据。
第2章 问题假设
为了问题的简洁明了,现对题目中的变量给出以下假设:中国成品钢材的需求量为y(万吨)、原油产量x1(万吨)、生铁产量x2(万吨)、原煤产量x3(亿吨)、发电量x4(亿
1
千瓦时)、铁路货运量x5(万吨)、固定资产投资额x6(亿元)、居民消费x7(亿元)、政府消费x8(亿元)作为影响变量,而且本题收集的数据均为定量变量,其符号和经济意义如下表: 变量 中国成品钢材的需求量为(万吨) 原油产量(万吨) 生铁产量(万吨) 原煤产量(亿吨) 发电量(亿千瓦时) 铁路货运量(万吨) 固定资产投资额(亿元) 居民消费(亿元) 政府消费(亿元) 符号 y x1 x2 代表意义 成品钢材需求总量 原油工业发展水平 生铁工业发展水平 原煤工业发展水平 发电技术水平 运输产业水平 固定资产支出水平 居民支出水平 政府支出水平 x3 x4 x5 x6 x7 x8
第3章 问题分析
在上述问题中,中国成品钢材的需求量y(万吨)的影响因素不只是原油产量x1(万吨),还有生铁产量x2(万吨)、原煤产量x3(亿吨)、发电量x4(亿千瓦时)、铁路货运量、固定资产投资额x6(亿元)、居民消费x7(亿元)、政府消费x8(亿元)等,x5(万吨)
这样因变量y就与多个自变量x1,x2,x3,x4,x5,x6,x7,x8有关。因此,我们就可以采用多元线性回归进行问题的分析。
多元线性回归模型的基本形式:设随机变量y与一般变量x1,x2,?,xp的理论线性回归模型为:
y??0??1x1??2x2????pxp??
其中,?0,?1,?,?p是p?1个未知参数,?0称为回归常数,?0,?1,?,?p称为回归系数。,而x1,x2,?,xp是p个可以精确测量并可控制的一般变量,y称为被解释变量(因变量)
2
称为解释变量(自变量)。?是随机误差,与一元线性回归一样,对随机误差项我们常假定 ?称
E(y)??0??1x1??2x2????pxp?? 为理论回归方程。
?E(?)?0?var(?)??2
第4章 数据的预处理
4.1 曲线统计图
200,000160,000120,00080,00040,000080828486TX3X6Y8890X1X4X792X2X5X8949698 分析:从曲线统计图上我们可以大致的来看,变量x2,x4,x6,x7,x8和因变量y在1980年到1986年的增长速度都相对平稳没有明显的增势;从1986年到1993年,个变量开始缓慢增长;从1993年到1998年,增长的幅度开始加大了。x1,x3的曲线近似为一条水平的直线,这两个变量分别表示原油和原煤的量,可能受到资源和政策的限制,因而增长的速度非常缓慢。从图中可以明显看到随着年限的增加,我国的各种产业和支出水平都随之逐渐增长。
3
4.2 散点统计图
200,000160,000X1X2X3X4X5X6X7X8Y120,00080,00040,00001,9751,9801,985T1,9901,9952,000 分析:从散点统计图上我们可以细致的来看,变量x5(铁路运货量)的变化最为明显,还可以清楚的看到1981年,1991年,1998年,因为一些特殊事件而导致的铁路运输量降低。x2,x4,x6,x7,x8与y在1980年到1986年的增长速度都相对平稳没有明显的增势,从1986
年到1993年,个变量开始缓慢增长;从1993年到1998年,增长的幅度开始加大了。但是x1(原油)与x3(原煤)的产量却始终保持相对平稳的增长趋势,而却增长速度非常的缓慢,这可能是受到了资源的限制和国家政策的影响。从散点图中可以很明显的看到各年的真是数据,还可以看出随着年限的增加,我国的各种产业和支出水平都随之逐渐增长。
4.3 样本的相关系数
4
分析:从样本的相关系数表来看,各变量的相关系数都在0.9以上,说明自变量与因变量y有高度的线性相关性,适合做y与8个自变量的多元线性回归。(说明:本表格是由EViews软件计算得出,但由于不能导出,所以通过保存成图片后经WPS截图工具截得。)
第5章 回归模型的建立
将原始数据导入到Eviews6.0(破解版)的数据框中,然后用Eviews软件做线性回归分析如下:
在Eviews主窗口菜单单击Quick/Estimate Equation,弹出方程估计窗口,再在弹出的窗口清单内填入以下回归方程的书写形式。 整形式 :
y=c(1)+c(2)*x1+c(3)*x2+c(4)*x3+c(5)*x4+c(6)*x5+c(7)*x6+c(8)*x7+c(9)*x8 简化形式 :
y c x1 x2 x3 x4 x5 x6 x7 x8 这里我们采用简化形式执行后得到输出结果为:
Variable Coefficient Std. Error t-Statistic Prob. 0.6846 C -381.4846 912.1465 -0.418227 X1 0.121818 0.107424 1.133993 0.2833 X2 0.124884 0.187062 0.667607 0.5195 X3 -149.1537 121.3537 -1.229083 0.2472 X4 0.653366 0.276937 2.359260 0.0400 X5 0.003058 0.023349 0.130959 0.8984 X6 0.081378 0.042124 1.931870 0.0822 X7 -0.120128 0.046747 -2.569723 0.0279 X8 0.393966 0.239413 1.645552 0.1309 R-squared 0.999009 Mean dependent var 5742.518
Adjusted R-squared 0.998215 S.D. dependent var 2679.609 S.E. of regression 113.1993 Akaike info criterion 12.60169 Sum squared resid 128140.8 Schwarz criterion 13.04906 Log likelihood -110.7161 Hannan-Quinn criter. 12.67740 F-statistic 1259.526 Durbin-Watson stat 2.245475 Prob(F-statistic) 0.000000
2 分析:从模型汇总表中可以看出,决定系数R?0.999009,由决定系数看回归模型高度显著。又由F?1259.526,P值=0.000000,回归模型通过了F检验,表明8个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000000。说明
x1,x2,x3,x4,x5,x6,x7,x8整体上对y有高度显著的线性影响。
表中第二列是我们的回归方程参数估计值,由此可以得到y对8个自变量的线性回归方
5
程为:
???381.4846?0.121818x1?0.124884x2?149.1537x3?0.653366x4 y ?0.003058x5?0.081378x6?0.120128x7?0.393966x8
x3、x7 从回归方程中可以看到,x1、x2、x4、x5、x6、x8对成品钢材需求量起正影响,
对成品钢材需求量起负影响。从实际社会生活来看,原煤生产水平和居民的消费水平提高,
都会促进成品钢材的需求量,应该和成品钢材的需求量成正相关,这与定性分析的结果不一致。为此,我们对它进行更深层次的分析。
第6章 回归模型的检验
6.1 F检验
F-statistic 1259.526
Prob(F-statistic) 0.000000
分析:从表中结果可以看出,Prob(F-statistic)即相伴概率P值,由F?1259 .526 ,P
值=0.000000<0.05,可知此回归方程拒绝零假设,即做出8个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000000,回归方程通过了F检验。
6.2 T检验
Variable t-Statistic Prob. C -0.418227 0.6846 X1 1.133993 0.2833 X2 0.667607 0.5195 X3 -1.229083 0.2472 X4 2.359260 0.0400 X5 0.130959 0.8984 X6 1.931870 0.0822 X7 -2.569723 0.0279 X8 1.645552 0.1309
分析:通过看上面的T检验表可以发现,在显著性水平??0.05时,只有x4,x7,的Prob(收尾概率)小于0.05,通过了显著性检验。
6.3 T检验分析
为了尽可能的保留合理变量,我们就针对逐个变量给以T检验分析,逐步剔除不合理的变量,使回归模型更完善。因此我们首先剔除Prob最大的变量x5,再做回归分析的T检验如下:
6
Prob. Variable Coefficient Std. Error t-Statistic C -274.5262 387.5811 -0.708307 0.4935 X1 0.132601 0.065838 2.014055 0.0691 X2 0.120529 0.175666 0.686125 0.5068 X3 -137.5335 79.00025 -1.740925 0.1096 X4 0.677570 0.196814 3.442693 0.0055 X6 0.082361 0.039555 2.082205 0.0615 X7 -0.123567 0.036909 -3.347908 0.0065 X8 0.387785 0.223983 1.731314 0.1113
分析:剔除x5后,在显著性水平??0.05时,有x1,x4,x7,的Prob(收尾概率)小于0.05,通过了显著性检验。此时我们发现,剔除了x5后,通过T检验的变量增多了,这是一个很好的结果。因此我们再剔除Prob最大的变量x2,再做回归分析的T检验如下: Prob. Variable Coefficient Std. Error t-Statistic 0.4754 C -279.1420 378.8809 -0.736754 X1 0.153961 0.056719 2.714474 0.0188 X3 -151.0344 74.80430 -2.019061 0.0664 X4 0.772202 0.137273 5.625307 0.0001 X6 0.099512 0.029972 3.320207 0.0061 X7 -0.134592 0.032486 -4.143096 0.0014 X8 0.402994 0.217913 1.849332 0.0892
分析:剔除x5,x2后,在显著性水平??0.05时,有x1,x4,x6,x7,的Prob(收尾概率)小于0.05,通过了显著性检验。此时我们发现,剔除了x5,x2后,通过T检验的变量又增多了一个。因此我们再剔除Prob最大的变量x8,再做回归分析的T检验如下: Variable Coefficient Std. Error t-Statistic C -108.8183 400.2650 -0.271866 X1 0.149526 0.061718 2.422751 X3 -248.8000 57.63980 -4.316463 X4 0.977544 0.087907 11.12020 X6 0.126790 0.028416 4.462005 X7 -0.084069 0.019143 -4.391499 R-squared 0.998669 Mean dependent var
Adjusted R-squared 0.998157 S.D. dependent var
7
Prob. 0.7900 0.0307 0.0008 0.0000 0.0006 0.0007 5742.518 2679.609
S.E. of regression 115.0260 Akaike info criterion 12.58028 Log likelihood -113.5127 Hannan-Quinn criter. 12.63076 F-statistic 1951.080 Durbin-Watson stat 1.886506 Prob(F-statistic) 0.000000
分析:剔除x5,x2,x8后,在显著性水平??0.05时,剩余变量x1,x3,x4,x6,x7,的Prob(收尾概率)都小于0.05,全部通过了显著性T检验。以x1,x3,x4,x6,x7,做回归分析的输出表来看,决定系数R2?0.998669,由决定系数看回归模型仍然具有高度的显著性。又由F?1951.080,P值=0.000000,回归模型通过了F检验,表明8个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000000。说明x1,x3,x4,x6,x7,整体上对y有高度显著的线性影响。
表中第二列是我们的回归方程参数估计值,由此可以得到y对5个自变量的线性回归方程为:
???108.8183?0.149526x1?248.8000x3?0.977544x4?0.126790x6?0.084069x7 y从回归方程中可以看到,x1,x4,x6对成品钢材需求量起正影响,x3,x7对成品钢材需求量起负影响。此时回归方程虽然通过了F,T检验,但是增加了不合理变量x3,x7所占回归方程的比重,这也是不合社会实际的。
6.4 Chow断点检验
该检验的思想是对每个子样本单独拟合方程来观察估计方程是否有显著差异。零假设是两个子样本拟合的方程无显著差异。 Chow Breakpoint Test: 1990 Equation Sample: 1980 1998
0.0087 F-statistic 7992.972 Prob. F(9,1)
Log likelihood ratio 212.4876 Prob. Chi-Square(9) 0.0000 Wald Statistic 71936.75 Prob. Chi-Square(9) 0.0000
分析:从检验表中可以看出,由于,检验量的收尾概率分别是0.0087,0.0000,0.0000
,所以回归模型接受原假设,说明模型参数有超样本特性,回归方程没有显著差异,回归模型具有稳定性。
6.5 Chow预测检验
该检验的思想,Chow预测检验先对包含前T1个观测值的子样本建立模型,然后用这个模型对后T2个观测值的自变量进行预测,若实际值与预测值有很大变动,就可以怀疑这两个子样本估计关系的稳定性。
8
Chow Forecast Test: Forecast from 1990 to 1998
F-statistic 7992.972 Prob. F(9,1) 0.0087
Log likelihood ratio 212.4876 Prob. Chi-Square(9) 0.0000
分析:从Chow预测检验表中可以看出,检验量的收尾概率分别为0.0087,0.0000,说明回
归模型的预测值和实际值没有很大的波动,所以就可以认为回归模型是稳定的。
第7章 违背模型基本假设的情况
7.1 异方差性的检验
7.1.1残差图示检验
我们分别以回归标准化残差和因变量y来绘制残差图分析模型是否存在异方差。
15010050RESID0-50-100-1501,9751,9801,985T1,9901,9952,000 分析:从残差的散点图上我们可以看出,回归的标准化残差随因变量y的表变化并没有明显的规律性分布,残差图上的点都是随机散布的,无任何规律,因此我们可以初步判定回归模型不存在异方差。
7.1.2 怀特(White)检验
怀特检验,是把e作为因变量,原先的自变量和自变量的平方项作为新自变量建立线性回归模型,通过这个模型的拟合情况来检验是否有异方差性,检验的零假设是残差不存在异方差性。怀特检验的统计量是LM?n?R,n是样本观测量,R2是辅助回归的拟合优度。本题的怀特检验如下:
22 9
Heteroskedasticity Test: White
F-statistic 1.958884 Prob. F(8,10) 0.1579
Obs*R-squared 11.59867 Prob.Chi-Square(8) 0.1700
Scaled explained SS 1.445422 Prob.Chi-Square(8) 0.9936
2分析:上表中Obs*R-squared即为LM?n?R,检验结果中由于收尾概率远大于显著性水平0.1,0.05或0.01,接收原假设,残差不存在异方差。
7.2 自相关性的检验
7.2.1 LM检验
LM检验是根据决定系数R和F检验值的收尾概率大小来判断是否存在自相关性。原假设:残差不存在从一阶到p阶的自相关。检验统计量为LM?n?R。
Breusch-Godfrey Serial Correlation LM Test:
F-statistic 3.174716 Prob. F(2,8) 0.0966
Obs*R-squared 8.407246 Prob.Chi-Square(2) 0.0149
分析:从LM检验表的收尾概率来看,prob(收尾概率)都大于0.01,F检验的收尾概率大于0.05,但是都小于0.1,。由此来看检验模型存在自相关。 7.2.2 DW检验
对于自相关性我们用DW检验来判断,已知回归估计式的残差et来定义DW统计量,假设有
?),在Eviews中运行结果如下?的关系式为DW?2(1??H0:??0,通过化简后DW值与?22表(只选取了DW的统计值):
Durbin-Watson stat 2.245475
?)=2.245475,因而可以近似的计算分析:从表中的数据我们可以看到,DW?2(1?????0.1227375,通过查表可以判断出误差项的自相关性成轻微的负自相关(由于自相出?关性不是很明显,所以在这里就不做自相关性的消除)。
第8章 自变量选择与逐步回归
8.1 前进逐步回归法
8.1.1 前进逐步回归
10
取显著性水平?entry?0.10,?removal?0.15进行逐步回归检验选变量。
Variable C
Coefficient 196.0980
Std. Error 259.5932
t-Statistic 0.755405
Prob.* 0.4617
X2 0.499933 0.159589 3.132632 0.0068 X4 0.503581 0.170954 2.945705 0.0100 X3 -110.5429 45.39905 -2.434917 0.0279 R-squared 0.997746 Mean dependent var 5742.518
Adjusted R-squared 0.997296 S.D. dependent var 2679.609 S.E. of regression 139.3449 Akaike info criterion 12.89644 Sum squared resid 291254.9 Schwarz criterion 13.09527 Log likelihood -118.5162 Hannan-Quinn criter. 12.93009 F-statistic 2213.770 Durbin-Watson stat 1.041553 Prob(F-statistic) 0.000000
Selection Summary Added X2
Added X4 Added X3
分析:从逐步回归模型的汇总表中我们可以看出,逐步回归最终选取的变量为x2,x4,x3,逐步回归后模型决定系数R?0.997746。逐步回归后的模型保持着回归方程高度的显著性。从表中我们可以看到,F的检验值为2213.770,P值始终是0.000000不变,
由此可见模型犯错的概率始终为0.000000不变,故逐步回归后的回归方程同样具有高度的显著性。从上述表中结果可以看到逐步回归后的 回归方程为
??196.0980?0.499933x2?110.5429x3?0.503529x4 y2由回归方程可以看出,x2生铁的产量和x4发电量的系数都是正数,对因变量y起正相关作用,x3原煤量的系数为负值,对因变量y起负相关作用,而却从数值上看是-11.0543,对y的影响很大,这与实际情况不符,这可能是因变量x3与x4之间有较强的相关性。同时从表中还可以看出,用逐步回归法的选元过程为第一步引入x2,第二步引入x4,第三步引入x3再形成一个符合要求的线性回归方程。
8.1.2 前进逐步回归模型预测
11
12,00010,0008,0006,000Forecast: YFActual: YForecast sample: 1980 1998Included observations: 19Root Mean Squared Error 123.8112Mean Absolute Error 107.1899Mean Abs. Percent Error 2.218047Theil Inequality Coefficient 0.009816 Bias Proportion 0.000000 Variance Proportion 0.000564 Covariance Proportion 0.9994364,0002,0008082848688YF9092949698± 2 S.E. 分析:如图所示是前进逐步回归的模型预测,左边是预测图,两条细线表示预测值的两倍标准误差带,右边是有关预测的一些评价指标。从他的误差带我们可以看出回归模型较为精确,误差带紧随实际曲线变动,再从右边的MAPE值为2.218047可以判定模型的预测精度较高。
8.2 后退逐步回归法
8.2.1 后退逐步回归
取显著性水平?entry?0.05,?removal?0.10进行逐步回归检验选变量。
Variable C X1 X4 X3 X7 X8 X6 R-squared
Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic
Prob(F-statistic)
Coefficient -279.1420 Std. Error 378.8809 t-Statistic -0.736754 Prob.* 0.4754 0.0188 0.0001 0.0664 0.0014 0.0892 0.0061 5742.518 2679.609 12.43479 12.78274 12.49367 2.584581
0.153961 0.056719 2.714474 0.772202 0.137273 5.625307 -151.0344 74.80430 -2.019061 -0.134592 0.032486 -4.143096 0.402994 0.217913 1.849332 0.099512 0.029972 3.320207 0.998964 Mean dependent var 0.998447 S.D. dependent var 105.6149 Akaike info criterion 133854.0 Schwarz criterion -111.1305 Hannan-Quinn criter. 1929.141 Durbin-Watson stat 0.000000
12
Selection Summary Removed X5
Removed X2
分析:采用后退逐步回归法最后选择的变量有x5,x2,从后退逐步回归后模型决定系数R?0.998964,调整决定系数R??0.998447,可知模型仍然具有高度的显著性。表中F
22的检验值为1929.141,P值始终为0.000000不变,由此可见模型犯错的概率始终为0.000000不变。综合考虑后退逐步回归得到的模型比前进逐步回归得到的模型要好一些。对变量
x5,x2与因变量y做线性回归得:
Variable Coefficient Std. Error 476.6925 C -278.8229 X2 0.936983 0.033352 X5 -0.002258 0.004663
由此我们可以写出关于x5,x2的线性回归方程为:
t-Statistic -0.584912 28.09335 -0.484295
Prob. 0.5668 0.0000 0.6347
???278.8229?0.936983x2?0.002258x5 y 从回归的最终模型来看,此回归方程剔除了一些变量后反而变得更加显著,并且更有实际的社会意义,它消除了不合理的变量x3和x7。在回归方程中又新出现了负变量x5(铁路运货量),虽然也是不合实际的,但是它占回归方程的比重很小因此可以不做处理。
8.2.2 后退逐步回归模型预测
12,00010,0008,0006,000Forecast: YFActual: YForecast sample: 1980 1998Included observations: 19Root Mean Squared Error 83.93419Mean Absolute Error 67.52228Mean Abs. Percent Error 1.320141Theil Inequality Coefficient 0.006654 Bias Proportion 0.000000 Variance Proportion 0.000259 Covariance Proportion 0.9997414,0002,0008082848688YF9092949698± 2 S.E.
13
分析:如图所示是后退逐步回归的模型预测,左边是预测图,两条细线表示预测值的两倍标准误差带,右边是有关预测的一些评价指标。从他的误差带我们可以看出回归模型同样较为精确,误差带紧随实际曲线变动,而却紧随的效果要比前进回归模型的要好,贴近实际曲线的效果也前进逐步回归模型的好,再从右边的评价指标RMSE值为83.93419,MAE值为67.52228,MAPE值为1.320141,都比前进逐步回归模型的数值小,从而可以判定模型的预测能力比前进逐步回归模型的预测好,精度高。
第9章 多重共线性的诊断及消除
9.1 多重共线性的诊断
由于Eviews软件无法对模型多重共线作出诊断,因此这里我们就用spss19.0软件对模型做共线性诊断,关键的输出结果见下表(限于篇幅就对表格做出调整,只输出关键的结果)。 模型 VIF 常量 X1 X2 X3 133.044 X4 947.996 X5 329.438 X6 182.413 X7 416.185 X8 701.380 61.091 413.326 分析:从表中的输出结果可以看出,x2,x4,x5,x7,x8的方差扩大因子VIF都很大,远远的超过了10,说明成品钢材需求量的回归方程存在着严重的多重共线性。又因为x1,x2,x3,x4,x5,x6,x7,x8的方差扩大因子都是大于10的,说明回归方程的多重共线性就是
由自变量间的多重共线性引起的。
a共线性诊断 方差比例 条件索(常模型 维数 特征值 引 量) 1 1 2 3 4 5 6 7 8 9 a. 因变量: y 分析:从条件数可以看到,最大的条件数k9?453.668,说明自变量间存在严重的多重共线性,这一判断与上面的方差扩大因子法判断结果一致。表中的方差比例是按从小到大的顺序排列的,不是按自变量顺序排列的,这与方差扩大因子不同。在维数为9的时候,我
14
x1 .00 .00 .00 .00 .00 .26 .07 .02 .65 x2 .00 .00 .00 .00 .02 .02 .30 .53 .11 x3 x4 x5 x6 x7 x8 8.321 1.000 .00 .659 3.553 .00 .011 27.458 .04 .004 43.444 .01 .003 57.552 .00 .001 106.541 .12 .000 157.928 .05 .000 213.430 .01 4.043E-5 453.668 .78 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .01 .00 .00 .00 .01 .00 .00 .00 .00 .31 .08 .00 .04 .01 .00 .11 .06 .05 .08 .02 .00 .05 .00 .02 .05 .02 .00 .03 .50 .69 .39 .36 .03 .41 .01 .18 .43 .60 .97 .09 .35 .05
们可以看到x1,x2,x5,x6的系数都很快的增大要接近1,这也可以说明x1,x2,x5,x6之间存在较强的多重共线性。
9.2 消除多重共线性
在前面多重共线性的诊断中我们看到x4的方差扩大因子VIF4?947.996为最大,因此剔除x4,建立y与x1,x2,x3,x5,x6,x7,x8的回归方程。关键的输出结果见下表(限于篇幅就对表格做出调整,只输出关键的结果)。 模型 VIF 常量 X1 X2 X3 130.880 X5 174.510 X6 133.668 X7 372.202 X8 525.920 38.881 248.129 分析:从剔除了自变量x4的回归模型中我们可以看到x8的方差扩大因子VIF8?525.920为最大,却远大于10,因此再剔除x8,建立y与x1,x2,x3,x5,x6,x7的回归
方程。关键的输出结果见下表(限于篇幅就对表格做出调整,只输出关键的VIF结果)。 模型 VIF 常量 X1 35.514 X2 169.934 X3 108.057 X5 174.510 X6 132.017 X7 101.870 分析:从剔除了自变量x4,x8的回归系数表中我们可以看到x5的方差扩大因子VIF5?174.510为最大,却远大于10,因此再剔除x5,建立y与x1,x2,x3,x6,x7的回归方
程。相关输出结果如下: 模型 VIF 常量 X1 23.178 X2 93.590 X3 23.358 X6 124.084 X7 64.691 分析:从剔除了自变量x4,x8,x5的回归系数表中我们可以看到x6的方差扩大因子VIF6?124.084为最大,还是远大于10,因此再剔除x6,建立y与x1,x2,x3,x7的回归方程。
相关输出结果如下:
模型 VIF 常量 X1 16.425 X2 49.766 X3 23.101 X7 24.008 分析:从剔除了自变量x4,x8,x5,x6的回归系数表中我们可以看到x2的方差扩大因子
VIF2?49.766为最大,还是大于10,因此再剔除x2,建立y与x1,x3,x7的回归方程。相
关输出结果如下: 模型 VIF 常量 X1 15.743 X3 19.226 X7 4.511 分析:从剔除了自变量x4,x8,x5,x6,x2的回归系数表中我们可以看到x3的方差扩大因
15
子VIF3?19.226为最大,还是大于10,因此再剔除x3,建立y与x1,x7的回归方程。相关输出结果如下: 模型 VIF 常量 X1 3.694 X7 3.694 分析:从剔除了自变量x4,x8,x5,x6,x2,x3的回归系数表中我们可以看到,剩下的自变量x1,x7的方差扩大因子分别为VIF1?3.694,VIF7?3.694,都是小于10的,而却回归系数也都有合理的社会经济解释,说明此回归模型不存在较强的多重共线性了,可以作为最终的回归模型。现在我们用Eviews软件建立y与x1,x7的回归模型: Variable Coefficient Std. Error t-Statistic C -2210.934 1272.616 -1.737314 X1 0.439863 0.109724 4.008811 X7 0.161103 0.018294 8.806406 R-squared 0.972630 Mean dependent var
Adjusted R-squared 0.969209 S.D. dependent var S.E. of regression 470.2027 Akaike info criterion Sum squared resid 3537450. Schwarz criterion Log likelihood -142.2374 Hannan-Quinn criter. F-statistic 284.2909 Durbin-Watson stat Prob(F-statistic) 0.000000
y与x1,x7的回归方程为
???2210.934?0.439863x1?0.161103x7 y Prob. 0.1015 0.0010 0.0000 5742.518 2679.609 15.28814 15.43727 15.31338 0.568156
由标准化的回归方程我们可以看到,对成品钢材需求量影响较大的事原油产量和居民消费,从社会经济角度来考虑,这是贴近人民生活的两个量,其中居民消费的系数较大,影响也就较大。从整体上来看,消除多重共线性影响后得回归方程更较为符合社会实际。
R-squared 0.972630
Adjusted R-squared 0.969209 F-statistic 284.2909 Prob(F-statistic) 0.000000
由F?284.2909,P值=0.000,分析:从表中输出结果可以看出,Prob即显著性P值,
可知此回归方程仍然具有高度的显著,即做出2个自变量整体对因变量y产生显著线性影响的判断所犯错误的概率仅为0.000。再从剔除了自变量x4,x8,x5,x6,x2,x3的新回归方程的
16
样本决定系数R2?0.972630,调整样本决定系数Ra?0.969209。而y对8个自变量的全模型的样本决定系数R2?0.999009,调整样本决定系数Ra?0.998215。与全模型相???2210.934?0.439863x1?0.161103x7的拟合优度仍然很高,并且回归系数有合理比y22的经济解释。
第10章 回归模型总结
随着社会经济的不断发展,科学技术的不断进步,统计方法越来越成为人们必不可收的工具盒手段。应用回归分析是其中的一个重要分支,本着国家经济水平的不断提高,我们采用回归分析的方法对我国成品钢材的需求量进行分析应用。为了使分析的模型具有社会实际意义,我们引用了1980——1998年的成品钢材、原油、生铁、原煤、发电量、铁路货运量、固定资产投资额、居民消费、政府消费9个不同的量来进行回归分析。
通过问题分析及假设建立了初步多元线性回归,再借用Eviews软件对数据进行了初步的预处理分析,得出数据符合做多元线性回归的要求。最后我们用Eviews软件给各变量做了初等多元线性回归并得到了回归方程。我了更多的了解多元线性回归方程的特征,我们对回归方程进行了F检验,T检验,将通过T检验的变量在建立回归方程分析。对于初等回归模型的稳定性,我们采用了Chow断点检验和Chow预测检验,最终检验出了模型是稳定的。然后又对初等模型否违背原假设做了异方差性检验,自相关性检验。异方差性的检验我们采用了作残差图和怀特检验法,很好的检验出了初等回归模型没有异方差性;自相关我们采用了DW检验,最终检验出了初等模型有轻微的负自相关性。为了模型更贴近实际,我们又分别进行了前进逐步回归,后退逐步回归的分析,并对两种逐步回归做了模型预测,在两种逐步回归法得到的结论中我们发现采用后退逐步回归得到的回归模型比前进逐步回归得到的模型要好一些,更为接近预测值。并且在分析中我们发现了变量之间存在共线性,因此我们又进一步借助spss软件对变量之间的多重共线性给了诊断,最后确定了确实存在多重共线性,从而又进一步对多重共线性给予了消除,重新建立了符合实际的线性回归方程。
17
参考文献
【1】 易丹辉.数据分析与EViews应用.北京:中国人民大学出版社,2008
【2】 何晓群,刘文卿.应用回归分析(第三版).北京:中国人民大学出版社,2011 【3】 张晓峒.EViews实用指南与案例.北京:机械工业出版社,2007 【4】 百度文库.网址:
(http://www.http://www.wodefanwen.com//s?wd=°ù?è???a&rsv_bp=0&rsv_spt=3&inputT=4144)
18
附录:
1.关于我国原油产量x1(万吨)、生铁产量x2(万吨)、原煤产量x3(亿吨)、发电量x4(亿千瓦时)、铁路货运量x5(万吨)、固定资产投资额x6(亿元)、居民消费x7(亿元)、政府消费x8(亿元)作为影响变量,成品钢材的需求量为y(万吨)各变量的动态曲线。
X118,00012,00010,0008,00014,0006,00012,0004,0002,0008082848688909294969880828486889092949698108680828486889092949698X2161412X316,00010,000X412,00010,0008,000140,0006,0004,0002,00080828486889092949698120,000180,000X530,00025,000160,00020,00015,00010,0005,000100,000808284868890929496980X680828486889092949698X740,00010,0008,0006,00020,0004,00010,0002,000080828486889092949698X812,00010,0008,0006,0004,0002,00080828486889092949698Y30,000080828486889092949698 分析:从图中我们可以明显看出,中国原油产量x1(万吨)与固定资产投资额x6(亿元)的曲线变化相对较大,中途x1快速上升,而x6却有下降部分说明1988年到1990年有相对的国事影响了曲线;我国生铁产量x2(万吨)、发电量x4(亿千瓦时)、居民消费x7(亿元)、政府消费x8(亿元)与成品钢材的需求量为y(万吨)的各变量的曲线始终随时间的
19
增加而逐步增长;我国原煤产量x3(亿吨)、铁路货运量x5(万吨)在1996年突然下降,这可能是我国原煤产量x3受到自然资源和国家政策影响,从而导致了铁路货运量x5的下降,同时也说明了变量x3,x5可能存在相关性或共线性。
2.关于我国成品钢材的需求量为y(万吨)与原油产量x1(万吨)、生铁产量x2(万吨)、原煤产量x3(亿吨)、发电量x4(亿千瓦时)、铁路货运量x5(万吨)、固定资产投资额x6(亿元)、居民消费x7(亿元)、政府消费x8(亿元)的散点图。
17,00016,00010,00015,00014,000X1X212,000161412X38,0006,0004,0002,0000180,0004,000Y8,00012,00013,00012,00011,00010,000012,00010,0008,0004,000Y8,0001086030,00025,0004,000Y8,00012,00012,000160,00020,000X46,0004,0002,00004,000Y40,00010,0008,0006,000X7X8X5140,000X615,00010,000120,0005,000100,0008,00012,00004,000Y8,00012,000004,000Y8,00012,00030,00020,0004,00010,0002,000004,000Y8,00012,00004,000Y8,00012,0000 分析:从因变量y与其他各变量的的散点图来看,他们都存在一定的线性关系,而且线性关系很明显,以此我们可以对他们做多元线性回归。
20
正在阅读:
多元线性回归分析(Eviews论文)11-06
关于中国式过马路罚款问题的研究05-30
唑并嘧啶衍生物的合成及其生物活性05-30
语法(一)动词时态语态(学生版)12-31
2013年青岛市义务教育学校市级三好学生、优秀学生干部和先进班集05-16
投标文件刻盘参考样本(杭州清单格式)04-29
推荐高中化学第四章生命中的基础有机化学物质4.2.2糖类课时测试新人教版选修509-25
理务关卫生院全国爱牙日宣传活动总结08-15
2011年零管系统复赛题库汇总(附答案)01-17
最新国开电大人文英语3形考答案03-23
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 线性
- 多元
- 回归
- 分析
- Eviews
- 论文
- 现代文阅读题答题思路归纳总结
- 岩体力学实验
- 2016 年全国 BIM 应用技能考试试题( B卷)解析 - 图文
- 消化性溃疡习题
- 爆破工程 - 张云鹏 - 露天硐室爆破
- c#Bitmap与c++ Mat 相互转换
- 《装饰装修工程计量与计价》
- 关于研究纸桥结构与强度分析的立项研究申请书
- 振动单位换算表
- 2012秋知识产权法形成性考核册 作业2
- 2020届高三数学(文科)一轮复习通用版4.7正弦定理和余弦定理(二)作业
- 氯化工艺作业安全技术实际操作考试标准
- PDA - TR28 中英 无菌原料药工艺模拟验证(2006年)
- 吉林大学 计算机系统结构题库 第三章
- 2017-2018学年高中语文周末培优(第14周)《诗经》两首(含解析)新人教版必修2
- 卫生统计学 - 赵耐青习题答案
- 武汉大学《水工建筑物》复习题
- 选举产生出席市第十一次党代表大会的代表名单
- 丁苯橡胶课程设计带工艺流程图物料热量恒算
- 行政法中的信赖保护原则研究