岭回归解决多重共线性
更新时间:2023-11-06 16:30:01 阅读量: 教育文库 文档下载
重庆大学硕士课程论文 应用回归分析
一、引言
回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。
二、认识多重共线性
(一)多重共线性的定义
设回归模型y??0??1x1??2x2????pxp为零的数k0,k1,k2?kp使得k0近似的多重共线性。
??如果矩阵X的列向量存在一组不全
?k1xi1?k2xi2???kpxip?0, i=1,2,?n,则称其存在完全共线性,如果k0?k1xi1?k2xi2???kpxip?0, i=1,2,?n,则称其存在
(二)多重共线性的后果
1.理论后果
对于多元线性回归来讲,大多数学者都关注其估计精度不高,但是多重共线性不可
能完全消除,而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果,在理论上称作“微数缺测性”,所以当样本容量n很小的时候,多重共线性才是非常严重的。
多重共线性的理论后果有以下几点:
(1)保持OLS估计量的BLUE性质;
(2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的
情况。所以多重共线性并不是简单的自变量之间存在的相关性,也包括样本容量的大小问题。
(3)近似的多重共线性中,OLS估计仍然是无偏估计。无偏性是一种多维样本或重复抽样
的性质;如果X变量的取值固定情况下,反复对样本进行取样,并对每个样本计算OLS估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值。
(4)多重共线性是由于样本引起的。即使总体中每一个X之间都没有线性关系,但在具体
取样时仍存在样本间的共线性。 2.现实后果
(1)虽然存在多重共线性的情况下,得到的OLS估计是BLUE的,但有较大的方差和协方差,
估计精度不高;
(2)置信区间比原本宽,使得接受H0假设的概率更大;
1
重庆大学硕士课程论文 应用回归分析
(3)t统计量不显著;
(4)拟合优度R的平方会很大;
(5)OLS估计量及其标准误对数据微小的变化也会很敏感。
2(三)多重共线性产生的原因
1.模型参数的选用不当,在我们建立模型时如果变量之间存在着高度的 相关性,我们又没有进行处理建立的模型就有可能存在着共线性。
2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。例如当经济繁荣时,反映经济情况的指标有可能按着某种比例关系增长
3. 滞后变量。滞后变量的引入也会产生多重共线行,例如本期的消费水平除了受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。
(四) 多重共线性的识别
1.直观的判断方法
(1)在自变量 的相关系数矩阵中,有某些自变量的相关系数值比较大。 (2)回归系数的符号与专业知识或一般经验相反
(3)对重要的自变量的回归系数进行t检验,其结果不显著,但是F检验确得到了显著的
通过
(4)如果增加一个变量或删除一个变量,回归系数的估计值发生了很大的变化 (5)重要变量的回归系数置信区间明显过大 2.方差扩大因子法(VIF)
定义VIFj=(1?Rj)其中R2j是以Xj为因变量时对其他自变量的复测定系数。一般认为如果最大的VIFj超过10,常常表示存在多重共线性。事实上VIFj=(1?Rj)>10这说明
21?R2j<0.1即Rj>0.9。
2?12?13.特征根判定法
根据矩阵行列式的性质,矩阵行列式的值等于其特征根的连乘积。因此,当行列式|XX|≈0时,至少有一个特征根为零,反过来,可以证明矩阵至少有一个特征根近似为零时,X的列向量必存在多重共线性,同样也可证明XX有多少个特征根近似为零矩阵,X''?m其中?为最大的特征根,?为其他的特就有多少个多重共线性。根据条件数, miK?i征根,通常认为0
?i(五)多重共线性的处理方法
1.增加样本容量
当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体
2
重庆大学硕士课程论文 应用回归分析
时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中,由于受到各种条件的限制增加样本容量有时又是不现实的。
2.剔除法
对于一些不重要的解释变量进行剔除,主要有向前法和后退法,逐步回归法。理论上这三种方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下,结论的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面,这时如果贸然的删除就不符合现实的经济意义。
3.主成分法
当自变量间有较强的线性相关性时,利用p个变量的主成分,所具有的性质,如果他们是互不相关的,可由前m个主成Z1,Z2,?Zm来建立回归模型。
由原始变量的观测数据计算前m个主成分的得分值,将其作为主成分的观测值,建立Y与主成分的回归模型即得回归方程。这时p元降为m元,这样既简化了回归方程的结构,且消除了变量间相关性带来的影响
4.PLS(偏最小二乘法)
H.Wold在1975年提出的 偏最小二乘法近年来引起广泛的关注,在解决多重共线性方面,它与主成分回归法,岭回归法一样都能很好的达到目的,但偏最小二乘又与前者又有较大的区别,偏最小二乘法集中了最小二乘法、主成分分析法和典型相关分析的的优点克服了两种方法的缺点。偏最小二乘法吸取了主成分回归提取主成分的思想,但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关,因而主成分与因变量在算法上关系不密切,从而导致最后主成分在实际应用中无法更好的进一步拟合因变量,偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便运算的自变量的线性组合。
5.岭回归法.
岭回归分析是1962年由Heer首先提出的,1970年后他与肯纳德合作,进一步发展了该方法,在多元线性回归模型的矩阵形式Y?X???,参数?的普通最小二乘估计为
?=(X'X)?1X'Y, 岭回归当自变量存在多重共线性|X'X|≈0时,给矩阵加上一个正常
系数矩阵kI,那么?=(XX?kI)
'?1X'Y,当时就是普通最小二乘估计。
三、实际的应用
我们对于重庆市1987至2010年的统计数据做一个回归预测模型,选取工业总产值为因变量,固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。
设模型为Y??0??1X1??2X2??3X3??4X4?? (3.1)
(一) 普通的最小二乘法
3
重庆大学硕士课程论文 应用回归分析
对模型进行最小二乘估计得到如下的结果:
表3.1:模型总结 Change Statistics R Model 1 R .998 aAdjusted R Std. Error of R Square Square the Estimate Change F Change df1 4 df2 19 Sig. F Change .000 Square .996 .995 161.9431718 .996 1198.108 表3.2: 方差分析表 Model Regression Residual Total Sum of Squares 1.257E8 498286.227 1.262E8 df Mean Square 4 19 23 3.142E7 26225.591 F 1.198E3 Sig. .000 a 表3.3:系数矩阵表 1 Model B -193.968 Std. Error 311.594 .393 .487 Beta t -.623 1.582 Sig .541 .130 .002 Tolerance VIF 455.510 X1 X2 X3 X4
.622 .025 .016 .188 1.570 .133 .015 68.694 1.202 .743 .349 1.617 .122 .004 224.271 -.030 .117 -.023 -.261 .797 .027 37.372 调整的可决系数R为0.995,F=1198,在置信水平为95%,自由度4,方程通过了显著性的检验,从这里我们可以看出从整体上来说方程得到了很好的拟合, 但是各个系数的检验却并没有通过,而且能源消费的系数为负,这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。
根据方差扩大因子VIF1=455.510, VIF2=68.694, VIF3=224.271, VIF4=37.372.均大于10说明存在多重共线性。
此外我们还可以根据共线性的诊断,来判断多重共线性的存在。为此,利用SPSS软件进行相关处理可以得到下表:
24
重庆大学硕士课程论文 应用回归分析
表3.4: 多重共线性诊断表 Variance Proportions Condition Model Dimension Eigenvalue 1 1 2 3 4 5 4.412 .568 .017 .003 .001 Index 1.000 2.788 16.264 39.288 71.989 (Constant) .00 .01 .13 .25 .61 X1 .00 .00 .00 .00 1.00 X2 .00 .00 .00 .80 .20 X3 .00 .00 .05 .07 .88 X4 .00 .00 .22 .39 .39 从特征值我们可以看到有两个接近于零,条件数我们可以看到最大条件数为71.989,说明存在着共线性,以上的分析说明因变量间存在着多重共线性。
(二)运用岭回归解决多重共线性
用SPSS软件的岭回归功能的语法实现岭回归,做出的结果如下:
表3.5: 岭参数K值表
K RSQ X1 X2 X3 X4 .00000 .99605 .486610 .187544 .349141 -.022974 .05000 .99450 .298761 .231025 .351029 .109212 .10000 .99286 .279395 .234139 .315824 .148780 .15000 .99135 .268288 .234093 .295846 .168122 .20000 .98984 .260456 .232912 .282446 .178951 .25000 .98824 .254302 .231210 .272489 .185418 .30000 .98652 .249140 .229240 .264570 .189368 .35000 .98466 .244625 .227127 .257967 .191744 .40000 .98265 .240562 .224938 .252270 .193079 .45000 .98050 .236833 .222713 .247230 .193695 .50000 .97822 .233363 .220477 .242684 .193798 .55000 .97581 .230101 .218244 .238524 .193528 .60000 .97327 .227009 .216026 .234672 .192980 .65000 .97062 .224062 .213829 .231075 .192222 .70000 .96786 .221240 .211658 .227690 .191305 .75000 .96501 .218527 .209517 .224485 .190265 .80000 .96206 .215912 .207406 .221437 .189132 .85000 .95903 .213385 .205328 .218526 .187927 .90000 .95591 .210938 .203284 .215736 .186667 .95000 .95273 .208564 .201273 .213056 .185366 1.0000 .94948 .206258 .199296 .210473 .184034
5
正在阅读:
岭回归解决多重共线性11-06
病理生理学第十六章肾功能不全07-04
2016最新版第42类商标分类表07-04
人教版小学二年级数学上册期末试题(2)06-04
中国大学网-学科,&gt;&gt;,数学1,&gt;&gt;,数学天地02-08
地球为什么是圆的02-08
锅炉压力容器持证焊工考试项目的合理化06-12
开盘计划手册(标准)05-28
统筹兼顾的近义词及意思02-08
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 线性
- 多重
- 回归
- 解决
- 传播学概论课后思考题 - 图文
- 高等学费标准探讨
- 《人体解剖学》练习题
- 201530年同学聚会策划方案
- 第12章病理练习题
- 云南保山隆阳区哀牢犁耙会参考资料 - 图文
- s7-300考试题及答案
- 加强青年干部党性修养 提高服务科学发展能力(文)
- 医院药房管理复习题(含答案)
- 顶岗实习对师范生从教意愿影响调查研究 - 以广西师范大学外国语学院2009级顶岗实习生为例
- 2013年全国新课标II高考理科综合试题物理部分(精校)带答案
- 2011年全国各高校高招录取分数线参考
- 以情带兵
- 思修期末复习题(附带答案)
- 中国美术馆教案 - 图文
- 决策树法
- 2015华杯赛小高模拟测试卷
- 题库(小学组)(1)
- 关于编制油气输送管道项目可行性研究报告编制说明 -
- 2014年高考复习英语语法专题训练( 标准答案): 讲状语从句