多重共线性的解决方法之——岭回归与LASSO
更新时间:2024-05-31 09:47:01 阅读量: 综合文库 文档下载
多重共线性的解决方法之——岭回归与LASSO
标签:多元线性回归模型 的最小二乘估计结果为
如果存在较强的共线性,即 中各列向量之间存在较强的相关性,会导致的从而引起对角线上的 值很大
并且不一样的样本也会导致参数估计值变化非常大。即参数估计量的方差也增大,对参数的估计会不准确。
因此,是否可以删除掉一些相关性较强的变量呢?如果p个变量之间具有较强的相关性,那么又应当删除哪几个是比较好的呢?
本文介绍两种方法能够判断如何对具有多重共线性的模型进行变量剔除。即岭回归和LASSO(注:LASSO是在岭回归的基础上发展的)思想:
既然共线性会导致参数估计值变得非常大,那么给最小二乘的目标函数加上基础上加上一个对 的惩罚函数 最小化新的目标函数的时候便也需要同时考虑到 值的大小,不能过大。 在惩罚函数上加上系数k
随着k增大,共线性的影响将越来越小。在不断增大惩罚函数系数的过程中,画下估计参数(k)的变化情况,即为岭迹。
通过岭迹的形状来判断我们是否要剔除掉该参数(例如:岭迹波动很大,说明该变量参数有共线性)。 步骤:
对数据做标准化,从而方便以后对(k)的岭迹的比较,否则不同变量的参数大小没有比较性。 构建惩罚函数,对不同的k,画出岭迹图。 根据岭迹图,选择剔除掉哪些变量。 岭回归的目标函数
式中,t为 的函数。越大,t越小(这里就是k)
如上图中,相切点便是岭回归得出来的解。是岭回归的几何意义。
可以看出,岭回归就是要控制 的变化范围,弱化共线性对大小的影响。
解得的岭回归的估计结果为: 岭回归的性质
由岭回归的目标函数可以看出,惩罚函数的系数 (或者k)越大,目标函数中惩罚函数所占的重要性越高。
从而估计参数 也就越小了。我们称系数 (或者k)为岭参数。因为岭参数不是唯一的,所以我们得到的岭回归估计 实际是回归参数 的一个估计族。例如下表中: 岭迹图
将上表中回归估计参数与岭回归参数k之间的变化关系用一
张图来表示,便是岭迹图
当不存在奇异性是,岭迹应该是稳定地逐渐趋于0 当存在奇异性时,由岭回归的参数估计结果可以看出来,刚开始k不够大时,奇异性并没有得到太大的改变,所以随着k的变化,回归的估计参数震动很大,当k足够大时,奇异性的影响逐渐减少,从而估计参数的值变的逐渐稳定。 岭参数选择的一般原则 各回归系数的岭估计基本稳定
不存在有明显不符合常理的回归参数,其岭估计的符号应当要变得合理
回归系数没有不合实际意义的绝对值 残差平方和增大不多 用岭回归选择变量
由于岭回归是已经变量标准化之后的回归,因此岭回归系数的大小是能够互相比较的,可以剔除掉标准化
随着k的增加,回归系数不稳定,震动趋于零的变量也可以剔除
那么,问题来了,趋于0到底是怎样才能看出来呢?能不能程序自动判断呢?如果有好几个回归系数不稳定的,又应该去掉哪个呢?这就需要根据去掉某个变量之后的回归效果来定。这就涉及到扩展的岭回归方法LASSO了。 在此之前,先用R语言运行一个岭回归的例子
R语言中岭回归的包是MASS, 运行岭回归的函数是lm.ridge 1.载入MASS包,使用R内置的longley数据集(宏观经济数据)做为例子。(注:宏观经济数据一般而言都会存在比较严重的共线性问题(
使用传统OLS方法进行回归的结果
发现有几个变量的结果并不显著,那么是否要删除掉这几个变量呢?我们用岭回归进行变量的剔除。 动挑选岭回归参数,给出的结果 观察岭迹图,进行变量剔除
待解决疑问:到底哪个颜色代表了哪个变量啊。。。尼玛 上图可以用肉眼去选择k值,然后放入lambda中(lm.ridge函数中lambda默认是0)
根据不同的方法选择k, 可以发现岭回归参数的选择存在非常大的不确定性Tibshirani(1996)提出了Lasso(The Least Absolute Shrinkage and Selectionator operator)算法
与岭回归不同的是,LASSO构造的是一个一阶的惩罚函数,从而使得模型一 些变量的系数为0(岭回归系数为0的可能性非常)
与岭回归一样,LASSO也是有偏估计 模型形式对比
岭回归: LASSO
可以看出,LASSO的惩罚函数是绝对值形式,其函数形式就更为压缩,用几何意义来说明会更为直观: 下图是LASSO模型的几何表述 下图是岭回归的几何表述
红色是求最小值区域,而蓝色则是约束条件区域。 可以发现,LASSO由于是绝对值形式,其约束条件更为'尖锐'。回归的估计参数更容易为0。
上图左边是岭回归,右边是LASSO。 在每个图中从右往左,k值逐渐增大,可以看到,LASSO在k值增大的过程中, 回归的参数估计经常会有为0的状况,对于这种参数,我们便可以选择对它们进行剔除。便不用我们进行人工选择剔除变量,而可以让程序自动根据是否为0来剔除掉变量了。 现在问题是,LASSO回归由于其惩罚函数是绝对值的形式,难以得到一个确定的估计参数的表达式,如何解决呢? 统计学家们发现,LASSO回归与最小角回归的计算结果是高度相似的,因此可以用最小角回归LAR的结果来对LASSO进行估计。(具体的思路和证明非常复杂,以后有空继续写篇博文进行阐述)。
对LAR模型进行一定的修正后,便能够让LAR的结果与
LASSO基本上一致了。因此,我们用LAR的算法来对LASSO进行计算。包:lars Library(lars) 使用longley数据集
上图的结果是用LAR算法对线性回归进行最小二乘回归的结果。
可以看到Year和Employed这两个变量被反复删除和使用,这两个是应当被删除掉的
在summary的结果中,CP代表的是对共线性的判断,可以看到,模型在第8步的时候
共线性是最小的,结合laa中第8步的状况,所以剔除掉Year和Employed这两个变量是 比较合适的。
多重共线性的解决方法之——岭回归与LASSO标签:
LASSO基本上一致了。因此,我们用LAR的算法来对LASSO进行计算。包:lars Library(lars) 使用longley数据集
上图的结果是用LAR算法对线性回归进行最小二乘回归的结果。
可以看到Year和Employed这两个变量被反复删除和使用,这两个是应当被删除掉的
在summary的结果中,CP代表的是对共线性的判断,可以看到,模型在第8步的时候
共线性是最小的,结合laa中第8步的状况,所以剔除掉Year和Employed这两个变量是 比较合适的。
多重共线性的解决方法之——岭回归与LASSO标签:
正在阅读:
小学英语字母教学教案资料讲解04-28
顾官屯镇联校教师培训规划表105-28
第十二册音乐教案03-11
江西省吉安市吉水中学2017-2018学年高三下学期月考生物试卷(10月份) Word版含解析01-03
大学生专业认同量表04-28
防撞护栏施工总结03-10
我的良师益友作文600字06-28
午觉PK记作文500字07-10
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 线性
- 多重
- 回归
- 解决
- 方法
- LASSO
- 西山煤电专用线施组
- 管理信息系统-考试重点整理
- 组织二
- 塑料果冻盒课程设计
- 最新(苏教版)江苏省泰州市白马中学七年级下册 17《国宝 - 大熊
- 我国烟草物流发展现状与问题
- 世贸东方商住楼施工组织设计
- 16秋北理工《大学英语2》在线作业
- MCGS嵌入版运行环境操作函数
- 文言文趣读
- sql数据库系统原理上机实验(综合版)
- 2017年10月自考02120数据库及其应用试题及答案
- 南方电网设备标准技术标书-110kV - 氧化锌避雷器 - 图文
- 北京师大附中2011-2012学年高一上学期期中考试物理试题(ap班)
- 2016最新冀教版小学数学六年级上册期末复习套题
- 商学院2014届毕业生论文答辩工作安排
- 江苏省扣件式钢管脚手架搭设、拆除工程监理细则标准格式(标准化
- 浙江省住宅工程质量通病防治措施
- 宿迁市司法局机关车辆使用及驾驶员管理规定68
- 2010湖南省教师资格证(中学综合素质)最新考试试题库(完整版)