加权OLS权数确定

更新时间:2023-11-30 12:02:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

浅谈加权最小二乘法及其残差图

——兼答孙小素副教授

何晓群 刘文卿

ABSTRACT

The paper introduces some problems in relation to weighted least square regression ,and answers a question about weighted residual plots.

关键词:异方差;加权最小二乘法;残差图;SPSS

一、引言

好几年没有翻《统计研究》了。最近,有一同行朋友打电话告诉我《统计研究》2005年第11期上刊登了一篇有关我与刘文卿合作编著的《应用回归分析》(2001.6.中国人民大学出版社)教材的文章。赶紧找到这期的《统计研究》,看到其中孙小素副教授的文章《加权最小二乘法残差图问题探讨——与何晓群教授商榷》一文,以下简称《孙文》。认真拜读后感触良多。首先衷心感谢孙小素副教授阅读了我们《应用回归分析》拙作的部分章节,同时感谢《统计研究》给我们提供这样一个好的机会,使我们能够借助贵刊对加权最小二乘法的有关问题谈谈更多的认识。

《孙文》谈到《应用回归分析》教材中有关加权最小二乘法残差图的问题。摆出了与加权最小二乘法相关的三类残差图,指出第三类残差图的局限性。直接的问题是三类残差图的作用,而更深层的原因应该是对加权最小二乘法统计思想的理解和认识上的差异。

二、对加权最小二乘法的认识

1. 加权最小二乘估计方法

拙作《应用回归分析》中对加权最小二乘法有详尽的讲述,这里仅做简要介绍。多元线性回归方程普通最小二乘法的离差平方和为:

Q(?0,?1,?,?p)??(yi??0??1xi1????pxip)2

i?1n (1)

?,??,?,??使式(1)的离普通最小二乘估计就是寻找参数?0,?1,?,?p的估计值?01p差平方和Q达极小。式(1)中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项?i等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。

然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项?i的方差?i2大的项,在式(1)平方和中的取值就偏大,在平方和中的作用就大,因而普通最小二乘估计

的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。

?,??,?,??仍然是?,?,?,?的无偏估计,但不再是最小方差线性由式(1)求出的?01p01p无偏估计。

加权最小二乘估计的方法是在平方和中加入一个适当的权数wi ,以调整各项在平方和

1

中的作用,加权最小二乘的离差平方和为:

Qw(?0,?1,?,?p) ??wi(yi??0??1xi1????pxip)2 (2)

i?1n?,??,?,??使式(2)的离差加权最小二乘估计就是寻找参数?0,?1,?,?p的估计值?0w1wpw平方和Qw达极小。所得加权最小二乘经验回归方程记做

????x?????x (3) ?w??y0w1w1pwp

理论上最优的权数wi为误差项方差?i2的倒数,即

wi?1?2i (4)

误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误差项方差小的项接受大的权数,以提高其在平方和中的作用。由(2)式求出的加权最小二乘估计

?,??,?,??就是参数?,?,?,?的最小方差线性无偏估计。 ?01p0w1wpw一个需要解决的问题是误差项的方差?i2是未知的,因此无法真正按照式(4)选取权数。在实际问题中误差项方差?i2通常与自变量的水平有关,可以利用这种关系确定权数。例如

2时,这时取权数为 ?i2与第j个自变量取值的平方成比例时,即?i2=kxijwi?1 (5) 2xijmm更一般的情况是误差项方差?i2与某个自变量xj取值的幂函数xij成比例,即?i2=kxij,

其中m是待定的未知参数。此时权数为

wi?1 (6) mxij这时确定权数wi 的问题转化为确定幂参数m的问题,可以借助SPSS软件解决。《应用回归》书中和《孙文》中都讲了这个方法,本文不再重述。需要注意的是,在实际问题中比例关系?i2=kxij只是近似的,式(6)确定的权数wi只是式(4)最优权数的近似值,因此所得的参数最小二乘估计也只是近似的最小方差线性无偏估计。 2. 变量变换的加权最小二乘法

《孙文》中谈到:加权最小二乘法的实质是要对原始数据实施变换,获得新的解释变量和被解释变量,变换的方法是:

my??y?xj

?m2

(y?表示变换后的被解释变量) (7)

??xh?xjxh

?m2?是对应于原始变量xh的新解释变量) (8) ,h=0,1,2,??,p (xh?,x1?,?,x?p)重新进行普通最小二成估计(注意,此处的回归对变换后的变量(y?,x0??xj模型不包含常数项,增加了数据变换后派生出的一个新解释变量x0权最小二乘法的经验回归方程:

?m2),即可得到加

????????yw??0wx0??1wx1????pwxp (9)

以上是《孙文》中对加权最小二乘法的解释,其中公式(7)、(8)、(9)分别对应《孙

文》中的公式(3)、(4)、(5)。

2

3. 两种方法的异同

相同之处。显然,式(3)与式(9)两个回归方程是等价的,把式(3)同时乘以w?xj后就转化为式(9)。

?m2????x?????x使用起来比较?w??不同之处。首先,式(3)的回归方程y0w1w1pwp方便,因为利用该回归方程进行预测和控制时,无须按式(8)变换自变量的新值,直接将

自变量的新值代入式(3)即可。对这一点孙小素副教授也是认同的。其实,所有方法的优劣评价根本就在于他是否方便于建模最终的应用。

其次,虽然两种加权回归方法所得的回归方程是等价的,但是对回归效果的拟合优度和检验是不同的,式(3)的加权最小二乘的总离差平方和、回归离差平方和、残差平方和的计算公式和关系为:

?w(yii?1ni2?iw?yw)??wieiw (10) ?yw)??wi(y22i?1i?1nn其中yw是yi用wi加权的算术平均数。

由于式(9)的变换加权最小二乘回归方程不含常数项,所以不满足离差平方和分解式,

而是对直接的平方和满足分解式,总平方和、回归平方和、残差平方和的计算公式和关系为:

????e??y???y2i2iwnnn2iwn (11)

等价于

??wy??wyi2iii?1i?1i?1ni?1ni?12iw2 (12) ??wieiwi?1对不含常数项的普通最小二乘回归,SPSS软件就是用上述公式计算平方和并进而计算判定系数R和做F检验的。然而,这种做法的合理性是有欠缺的,因为总平方和

2?y?ii?12iwn2不

能如实反映因变量的变差,仅是为了满足平方和分解式而这样做,有削足适履的嫌疑。

另外一种做法是以

?(y??y?)i?1n2作为总离差平方和,把

?(y??y?)??e?2ii?1i?1nn作为回

归离差平方和,而不使用

???(yi?1niw?y?)2作为回归离差平方和,Excel软件不含常数项(即

指定常数项为零)的普通最小二乘回归就是采用的这个方法。

对《孙文》所引用的《应用回归分析》例题,有关的计算结果见表1(a)—(d)。从表中可以清楚看出用变换加权最小二乘法计算离差平方和存在明显的问题,判定系数R和检验统计量F严重失真。对同样的数据做变换加权最小二乘估计,市面上流行的不同软件的拟合优度检验却差别很大,SPSS软件计算出的F=442.2,R=0.968;Excel软件计算出的F=74.26,R=0.837。对其他数值就不逐一对比了。

表1(a) 普通最小二乘方差分析表(SPSS) RF 来源 平方和 自由度 均方 显著性 1 18440108 300.7 7.53E-17 0.912 回归 18440108 29 61317 残差 1778202 30 总计 20218311 2 222

表1(b) 加权最小二乘方差分析表(SPSS) 来源 回归 残差 总计 平方和 自由度 6.655 1 0.455 29 7.110 30 RF 均方 显著性 6.655 423.7 7.51E-19 0.936 0.0157 2

3

表1(c) 变换加权最小二乘方差分析表(SPSS) 来源 回归 残差 总计 平方和 自由度 13.891 2 0.455 29 14.346 31 R均方 显著性 F 6.945 442.2 1.88E-22 0.968 0.0157 2

表1(d) 变换加权最小二乘方差分析表(Excel) 来源 回归 残差 总计 RF 平方和 自由度 均方 显著性 2.332 2 1.166 74.26 6.39E-12 0.837 0.4554 29 0.0157 2.788 31 2

针对上述问题,变换加权最小二乘法实际上常用于式(5)成立的情况,即m=2,此时变换后的自变量x?j≡1,回归参数?j就相当于回归常数项了,对变换后的数据就可以用含有常数项的普通最小二乘估计方法,各种统计软件对变换加权最小二乘法回归的拟合优度检验的输出结果就都一致了。遗憾的是,即使是在这种特殊情况下也仍然与直接用加权最小二乘估计方法不一致,这只需仔细比较两种情况的总离差平方和公式

?(y??y?)ii?1n2和

?w(yii?1ni?yw)2的差异即可。

这种通过变换变量求解加权最小二乘估计方法的作用是什么呢?引用文献[1]第180页的一段文字给予解释:“许多回归软件包允许用户有选择地使用具体的权数进行加权最小二乘分析。如果不能选择,通过对观察值的具体变换,使用不加权的最小二乘法,仍能得到加权最小二乘估计量。”

可见通过变换变量求解加权最小二乘估计的方法仅是作为参数估计的一种计算手段而存在的,如果你使用的软件仅具有普通最小二乘功能,就只能用变换变量的方法求解加权最小二乘的参数估计。《应用回归分析》教材是结合SPSS软件编写的,而SPSS软件允许用户直接使用权数进行加权最小二乘分析,不必通过变换变量的方法求解加权最小二乘估计,因此我们在教材中没有给出这种通过变换变量求解加权最小二乘估计的方法。

纵上所述,在拥有像SPSS这种能够直接计算加权最小二乘估计的软件时,就不必使用变换变量求解加权最小二乘估计的方法了。即使使用的是变换变量求解加权最小二乘估计的方法,也应该把式(9)变换回式(3)的形式,用来直接表示出原始变量之间的关系。因此《孙文》把式(9)称为加权最小二乘法的经验回归方程就显然不合适了。我们也没有见到其他的文献用这个称法。

三、三类残差图的作用

?)为横坐标轴画的散点图就是残差图。以残差为纵坐标轴以自变量(或回归值y《孙文》

中的三类残差图如下:

1. 普通残差图。指用原始数据对线性回归模型做普通最小二乘估计所得的普通残差ei所做的残差图,也就是《孙文》中所称的第一类残差图。

2. 加权普通残差图。其残差是用原始数据做加权最小二乘估计所得的普通残差ew(在《孙文》中记做e?,也就是《孙文》中所称的加权派生残差图,或第三类残差图。 w)

3. 加权变换残差图。其残差是用变换数据做加权最小二乘估计所得的普通残差e?w(在

4

《孙文》中记做ew),也就是《孙文》中所称的加权残差图,或第二类残差图。e?w的计算方法有两种,第一种方法是用式(9)的变换加权最小二乘法得到,第二种方法是把加权普通残差ew乘以w?xj?m2得到,即e?w?ew?w?ew?xj?m2。

拙作《应用回归分析》一书中重点讲述的是普通残差图的作用,可以从直观上判断回归模型是否存在异方差性,还可以进一步用普通残差的绝对值与自变量计算等级相关系数,做相关性检验来判断是否存在异方差性。在教材正文中对加权残差图只是给出了软件绘制的方法和图形,并没有对图形结果做任何文字说明和评价。由于考虑有些初学者可能会产生误解,我们在教材第121页“本章小结与评注”中对加权残差图做了简要解释,引述如下:

“从残差图来看,普通最小二乘估计只能照顾到残差大的项,而小残差项往往有整体的正偏或负偏。加权最小二乘估计的残差图,对大残差和小残差拟合的都好,大残差和小残差都没有整体的正偏或负偏。”

以上这段文字指出了加权残差图的作用,如果在普通残差图中小残差有整体的正偏或负偏,而在加权普通残差图中得到明显的改善,这就说明加权最小二乘估计是显著有效的。两种残差图在《应用回归分析》和《孙文》中都已给出,本文就不重复绘制图形了,而是把三种残差的具体数值列在表2中,说明加权普通残差的作用。

表2 三种残差的数值 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 yi 264 105 90 131 122 107 406 503 431 588 898 950 779 819 1222 1702 1578 1654 1400 1829 2200 2017 2105 1600 2250 2420 2570 1720 1900 2100 2300 xi 8777 9210 9954 10508 10979 11912 12747 13499 14269 15522 16730 17663 18575 19635 21163 22880 24127 25604 26500 27670 28300 27430 29560 28150 32100 32500 35250 33500 36000 36200 38200 wi 1.2161E-06 1.1314E-06 1.0069E-06 9.2837E-07 8.6927E-07 7.6917E-07 6.9485E-07 6.3760E-07 5.8669E-07 5.1710E-07 4.6212E-07 4.2599E-07 3.9501E-07 3.6346E-07 3.2481E-07 2.8895E-07 2.6684E-07 2.4408E-07 2.3181E-07 2.1726E-07 2.1005E-07 2.2012E-07 1.9676E-07 2.1173E-07 1.7388E-07 1.7068E-07 1.5110E-07 1.6309E-07 1.4640E-07 1.4519E-07 1.3394E-07 ei eiw 169 -27 -105 -111 -159 -253 -25 8 -129 -78 130 103 -146 -195 78 413 183 134 -195 134 452 343 250 -135 180 317 234 -468 -500 -317 -286 211 14 -66 -74 -124 -221 4 35 -105 -58 146 116 -135 -188 80 409 176 122 -211 115 431 324 225 -156 147 281 190 -507 -546 -364 -340 ? eiw0.233 0.015 -0.066 -0.071 -0.116 -0.194 0.004 0.028 -0.080 -0.042 0.099 0.076 -0.085 -0.114 0.046 0.220 0.091 0.060 -0.102 0.054 0.197 0.152 0.100 -0.072 0.061 0.116 0.074 -0.205 -0.209 -0.139 -0.124

这个例子共有31对数据,把数据分为3组,第1—10对数据为第1组,是小方差组;11—21对数据为第2组,是中等方差组;22—31对数据为第3组,是大方差组。

5

本文来源:https://www.bwwdw.com/article/rrht.html

Top