多重共线性处理经典例题

更新时间:2023-11-27 10:49:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。为此,收集了中国能源消费总量Y (万吨标准煤)、国民总收入(亿元)X1(代表收入水平)、国内生产总值 (亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费 (千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等在1985-2007年期间的统计数据,具体如表4.2所示。

表4.12 1985~2007年统计数据

年份 能源消费 y 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 76682 80850 86632 92997 96934 98703 103783 109170 115993 122737 131176 138948 137798 132214 133831 138553 143199 151797 174990 203227 223319 246270 265583 国民 国内生 工业 建筑业 交通运输邮电 人均生活 能源加工 总收入 产总值 增加值 增加值 增加值 电力消费 转换效率 X1 X2 X3 X4 X5 X6 X7 9040.7 10274.4 12050.6 15036.8 17000.9 18718.3 21826.2 26937.3 35260 48108.5 59810.5 70142.5 77653.1 83024.3 88189 98000.5 108068.2 119095.7 135174 159586.7 183956.1 9016 10275.2 12058.6 15042.8 16992.3 18667.8 21781.5 26923.5 35333.9 48197.9 60793.7 71176.6 78973 84402.3 89677.1 99214.6 109655.2 120332.7 135822.8 159878.3 183084.8 3448.7 417.9 3967 525.7 4585.8 665.8 5777.2 810 6484 794 6858 859.4 8087.1 1015.1 10284.5 1415 14188 2266.5 19480.7 2964.7 24950.6 3728.8 29447.6 4387.4 32921.4 4621.6 34018.4 4985.8 35861.5 5172.1 4003.6 5522.3 43580.6 5931.7 47431.3 6465.5 54945.5 7490.8 65210 8694.3 76912.9 10133.8 406.9 475.6 544.9 661 786 1147.5 1409.7 1681.8 2205.6 2898.3 3424.1 4068.5 4593 5178.4 5821.8 7333.4 8406.1 9393.4 10098.4 12147.6 10526.1 12481.1 14604.1 21.3 23.2 26.4 31.2 35.3 42.4 46.9 54.6 61.2 72.7 83.5 93.1 101.8 106.6 118.2 132.4 144.6 156.3 173.7 190.2 216.7 249.4 274.9 68.29 68.32 67.48 66.54 66.51 67.2 65.9 66.00 67.32 65.2 71.05 71.5 69.23 69.44 69.19 69.04 69.03 69.04 69.4 70.71 71.08 71.24 71.25 213131.7 211923.5 91310.9 11851.1 251483.2 249529.9 107367.2 14014.1 资料来源:《中国统计年鉴》,中国统计出版社2000、2008年版。

要求:

1)建立对数多元线性回归模型,分析回归结果。

2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线性的问题吗?为什么?

3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。

参考解答:

(1)建立对数线性多元回归模型,引入全部变量建立对数线性多元回归模型如下: 生成: lny=log(y), 同样方法生成: lnx1,lnx2,lnx3,lnx4,lnx5,lnx6,lnx7. 作全部变量对数线性多元回归,结果为:

从修正的可决系数和F统计量可以看出,全部变量对数线性多元回归整体对样本拟合很好,,各变量联合起来对能源消费影响显著。可是其中的lnX3、lnX4、lnX6对lnY影响不显著,而且lnX2、lnX5的参数为负值,在经济意义上不合理。所以这样的回归结果并不理想。

(2) 预料此回归模型会遇到多重共线性问题, 因为国民总收入与GDP本来就是一对关联指标;而工业增加值、建筑业增加值、交通运输邮电业增加值则是GDP的组成部分。这两组指标必定存在高度相关。

解释变量国民总收入(亿元)X1(代表收入水平)、国内生产总值(亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费 (千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等很可能线性相关,计算相关系数如下:

可以看出lnx1与lnx2、lnx3、lnx4、lnx5、lnx6之间高度相关,许多相关系数高于0.900以上。如果决定用表中全部变量作为解释变量,很可能会出现严重多重共线性问题。 (3)因为存在多重共线性,解决方法如下:

A:修正理论假设,在高度相关的变量中选择相关程度最高的变量进行回归建立模型:而对变量取对数后,能源消费总量的对数与人均生活电力消费的对数相关程度最高,可建立这两者之间的回归模型。如

lny?9.932?0.421lnx6 (0.116) (0.026)R2?0.926 R2?0.922 F?261.551

B:进行逐步回归,直至模型符合需要研究的问题,具有实际的经济意义和统计意义。采用逐步回归的办法,去检验和解决多重共线性问题。分别作lnY对

lnX1,lnX2,lnX3,lnX4,lnX5,lnX6,lnX7的一元回归,结果如下:

一元回归结果:

变量 lnX1 lnX2 0.315 14.62 0.911 0.906 lnX3 0.277 9.718 0.818 0.809 lnX4 0.297 13.22 0.893 0.888 lnX5 0.273 11.717 0.867 0.861 lnX6 0.421 16.173 0.926 0.922 lnX7 8.73 4.648 0.507 0.484 参数估计值 0.316 t统计量 可决系数 调整可决系数 14.985 0.914 0.910 其中加入lnX6的方程调整的可决系数最大, 以lnX6为基础, 顺次加入其他变量逐步回归。结果如下表:

变量 lnX6 lnX1 lnX6 lnX2 lnX6 lnX3 lnX6 lnX4 lnX6 lnX5 lnX6 lnX7 lnX1 -0.186 (-0.698) -0.251 (-1.021) 0.061 (1.548) -0.119 (-0.897) -0.623 (-7.127) lnX2 lnX3 lnX4 lnX5 lnX6 0.666 (1.891) 0.753 (2.308) 0.341 (5.901) 0.585 (3.167) 1.344 (10.314) 0.391 (11.071) 0.924 0.977 0.921 0.927 0.922 lnX7 R2 0.920 经比较,新加入lnX5的方程调整可决系数改进最大, 各参数的t检验也都显著,但是lnX5参数

的符号与经济意义不符合。若再加入其他变量后的逐步回归,若剔除不显著的变量和无经济意义的变量后, 仍为第一步所建只包含lnX6的一元回归模型。

如果需要建立多元线性回归模型,则需寻找新的变量或改变模型形式。 例如, 不取对数作全部变量多元线性回归,结果为:

可以看出还是有严重多重共线性。作逐步回归: 分别作一元回归得到: 变量 参数估计值 t 统计量 X1 0.7333 26.4698 0.9709 0.9695 X1 6.6399(0.0022) 0.5512 (0.0000) 0.5040 (0.3356) 1.0516 (0.0000) 1.0075 (0.0088) 0.7499 (0.0000) X2 0.7353 0.9684 0.9669 X2 -5.9308 (0.0054) X3 1.6655 0.9393 0.9364 X3 0.4349 (0.0821) X4 X4 13.1909 25.9636 0.9697 0.9683 X5 X5 10.8980 13.5147 0.8969 0.8920 X6 -255.80 (0.438) X6 678.0058 22.4229 0.9599 0.9580 X7 -813.44 (0.5988) X7 19332.30 4.7024 0.5129 0.4897 25.3627 18.0257 R2 R2 X1,X2 X1,X3 X1,X4 X1,X5 X1,X6 X1,X7 以X1为基础加入其他变量, 结果为: R2 0.9785 0.9726 0.9683 0.9766 0.9690 0.9684 4.1326 (0.6580) -5.0269 (0.013) 注: 括号中为p值. 可以发现加入X2、X5、X6、X7后参数的符号不合理,加入X4后并不显著。只有加入X3后修正的可决系数有所提高,而且参数符号的经济意义合理, X3参数估计值的p值为0.0821,在10%的显著性水平下是显著的。所以相对较为合理的模型估计结果可以为:

本文来源:https://www.bwwdw.com/article/syet.html

Top