计量经济学第六讲vvv

更新时间:2024-03-17 01:44:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

浙江工商大学金融学院姚耀军讲义系列

第六讲 多重共线

一、 数学准备:FWL定理

对于多元线性回归模型:

yi?a?b1x1i?b2x2i?b3x3i??i (1)

在OLS法下,各系数估计通过求解四个正规方程而获得。事实上,如果只关注某一个斜率系数的估计结果,则通过构造一系列简单线性回归模型就能获得所关注

?,那么构造的斜率系数的估计。假设我们现在关注b1系列简单线性回归模型的过程是:

第一步:把x1对其他解释变量进行回归(请注意,截距所对应的解释变量为1),即有:

????x???x?vx??? (2)

1i012i23ii第二步:把y也对(2)中的解释变量进行回归,即有:

第三步:把w?对v?与v?进行回归(因为w?其均值都为零,所以该回归模型不必带有截距项),即有:

?0???1x2i???2x3i?wyi???i (3)

?vw?i?e? i (4) ?i??wv?i?i????现在有两个结论,即,结论一:?;?b21v??i

1

浙江工商大学金融学院姚耀军讲义系列

?i。这两个结结论二:残差e?i等于多元回归中的残差?论就是著名的FWL定理(Frisch-Waugh-Lovell theorem)。关于FWL定理的一个简单证明见附录1。附录2涉及到该定理的应用。

笔记:

b1所反映的是,在控制其他因素后x1对y的影响(与“偏导

数”概念对应)。x1与y的相关关系可能是由于它们共同的“亲戚”—— x2与x3所带来的。在控制共同“亲戚”对x1及其y的影响后,我们所发现的x1与y的相关关系被称为偏相关关系。在前述步骤中,第一步与第二步实际上是在剔除共同“亲戚”的影响。

练习:

基于简单线性回归模型:

yi?a?bxi??i

验证FWL定理。

如果我们只需要结论一,则上述三步骤可以被简化为两步骤:首先把x1对其他解释变量进行回归,得

?i,其次把y对v到残差v?进行回归:

? ?*vyi???i??iyiv?i?wv?i?i??,但应该注意此?*??可以验证:?????b122vv???i?i

2

浙江工商大学金融学院姚耀军讲义系列

???时并不能保证?i?i成立。

笔记:

在这里y对v?所进行的是无截距回归。事实上,此时是否增

加截距项并不影响斜率估计结果。这是因为,由于v??0,故

?i?yi(v?i?v?)?yiv,而该等式右边正是有截距情况下斜率的估?22?i?i?v?)?v?(v计结果。

练习:

(1)针对上述例子,利用OLS法的代数知识,证明:

?i?wv?i?i?yiv ?22vv???i?i???并说明此时为何不能保证?i?i成立。

(2)对yi?a?bx?b2x2i??i进行OLS估计,利用前11i述知识证明:

Cov(y,x)?rrVar(y)Var(x)? b1?Var(x)(1?r)在这里,r、r分别是x2与x1及其y的样本相关系数。

1x1x21yx212x1x2x1x2yx2

笔记:

一些有用的结论:

??0。注意,仅仅x1与y样1、当x1与y及其x2样本无关时则b1??0。 本无关不能保证b1 3

浙江工商大学金融学院姚耀军讲义系列

?x?b?x2、当x1与x2样本无关时,多元线性回归y??a??b11i22i?1等于简单线性回归y中的b??m?0?m?1x1i中的m?1,两者皆等于

Cov(y,x1)。

Var(x1)

二、 考察?2 ?b1?的方差是多少呢? b1?i?iyiv(a?b1x1i?b2x2i?b3x3i??i)v???Var()?Var()22?i?i?v?v

?i??b1x1iv?i??b2x2iv?i??b3x3iv?i???iv?iav??Var()2?i?v?i??x3iv?i??x2iv?i?0,因此 OLS法保证了?v2?b?12?b?1?i???iv?ib1x1iv??Var() 2?i?v?i也是非随机的。由于我们假定x1i是非随机的,进而v2,则有: 假定?2???i?2??b12v??i?2

注意到,?v?i2是(2)中的残差平方和,我们已知道:

4

浙江工商大学金融学院姚耀军讲义系列

2?(x2?v2(x?x)?x)???1i1?1i1?i?TSS?ESS? RSS2?(x?x)2?(x2v?x)???i?1i1?1i12(x?x)??[?(x1i?x1)2](1??1i12)

?(x1i?x1)2)?[?(x1i?x1)2](1?R(2)2是根据(2)计算的决定系数。因此有: 其中R(2)?2??b12](1?R2)2[(x?x)v(2)??i?1i1?2??2

2(2)2]通常被称为方差膨胀因子(VIF),而1?R被1/[1?R(2)称为容忍度(Tolerence)。另外,由于1?(x1i?x1)2为

Nx1的样本方差Var(x1),因此有:

2/N?2 ???Va(r)x(1?b112R(2) (6)

)根据(6)式,一个总结是,保持其他影响因素不变,

?))将: ?的方差(或者标准差sd(bb11(1)随着样本容量的增加而减少; (2)随着x样本方差的增加而减少;

1(3)随着R增加而增加;

2(2) 5

浙江工商大学金融学院姚耀军讲义系列

(4)随着误差项方差的增加而增加;

笔记:

样本容量越大则信息越多;x1样本方差越大意味着在解释y时我们掌握的样本覆盖面广,故信息越多。信息越多将提高估计

2越大表示解释变量所蕴含信息的重叠度高,因此有效精度。R(2)信息较少,故降低估计精度。误差项方差大即y的方差大,这意味着被解释对象更加捉摸不定,从而估计面临着更大的困难,估计精度下降。

?的标准误为:?2一般是未知的,需要估计。从而b 1?)?se(b12)[?(x1i?x1)2](1?R(2)?2? 22??e??2??i??i。因此, 其中?1N?4N?42/N(N?4)???)??ise(b2)Var(x)(1?R(2)

考虑初始模型(1),显然有:

2?[(y?y)2](1?R2)?NVar(y)(1?R2) ???i?i因此,有:

?)? se(b1

Var(y)?1?R2?1 (7) Var(x)1?R2N?4(2)6

浙江工商大学金融学院姚耀军讲义系列

?)是随机的(在(7)式中,R2是特别要注意,se(b1?)是随机的,其随机性来源于y的随机性)。既然se(b1随机的,那么我们再也不能像对(6)式那样总结了!然而在大样本下,由于标准误在概率上收敛于标准差,故此时有关标准差的一些结论可以应用于标准误。 思考题:

针对特定的样本,依据(7)式可以计算出一个确定性的值。如果在模型(1)上再增添一个解释变量x4,

2一般是增加的,?的标准差,但一显然R(2)因此将增加b1?的标准误吗? 定会增加b1

三、 多重共线及其后果

2越大,我们称解释变量共线性程度越严重当R(2)2?1,(针对模型(1),这样的判定系数有三个)。当R(2)

x1被1,x2,x3完全拟合,换句话说,存在:

?1x1??2?1??3x2??4x3?0

其中?1不为零。那么根据公式:

2?2 ???22b[?(x1i?x1)](1?R(2))1 7

浙江工商大学金融学院姚耀军讲义系列

有:?2??。此时,我们称解释变量完全共线性。解

?b1释变量完全共线违背了高斯-马尔科夫假定。当解释变量其共线性程度并未达到完全共线性时,我们称解释变量多重共线。

注意,多重共线并未违背高斯-马尔科夫假定,只要其他高斯-马尔科夫假定成立,OLS估计量仍保持所有的良好性质。那么为什么我们还要讨论多重共线呢?显然这是因为,正如前面所讨论的,多重共线程度较高可能导致OLS估计量的标准差或者标准误较大。如果情况确实如此,那么有:(1)t检验的可靠性降低,犯第二类错误的概率较大;(2)置信区间更宽,以致我们不能很好地猜测b1的取值。

思考题:为什么此时t检验犯第二类错误的概率较大?

四、 多重共线一定会带来后果吗? 考虑模型yi?a?bx?b2x2i?b3x3i??i,现在,x211i?与b?的方与x3的相关性很大,因此,在OLS法下,b23差或许很大。但x2与x3的相关性很大并不一定意味着

?的x2、x3及其常变量1能够很好地拟合x1,因此,b1方差并不一定大。总体来看,尽管由于x2与x3的相关

8

浙江工商大学金融学院姚耀军讲义系列

性很大导致模型出现严重的多重共线性,然而由于我

?的方差并不一定大,故们关注的是对b1的估计,而b1就我们的关注点来说,多重性共线或许并未产生严重的后果。

?)?另外从公式se(b11Var(y)?1?R2?1可以看Var(x)1?R2N?4(2)?)的因素很多,因此,即使R2很大也出,影响se(b(2)?)就很大。而按照Klien’s rule of 并不一定使得se(b12大于初始模型的R2时,thumb,当R(2多重共线问题才)值得关注。

当利用估计模型以作预测之用时,我们经常对整个模型的拟合度较为关注,而并不关注个别系数是否显著。此时,多重共线也并不值得我们忧虑。

五、 如何判断多重共线的严重程度?

(一)利用典型症状来判断。这些典型症状是: 1、模型整体拟合较好但很多解释变量不显著。

为理解这种症状出现的逻辑,考虑在初始模型增添一个解释变量。显然,新模型其判定系数一般是更大的(相应的是,新模型F值可能较大)。然而,增加

9

浙江工商大学金融学院姚耀军讲义系列

解释变量很可能导致严重的多重共线性,进而可能导致OLS估计量的标准误很大,结果使得很多解释变量不显著。

2、系数估计的符号不符合理论预期,但往往不显著。

在经典线性模型假定下,OLS估计量服从正态分布。假定按照某种经济学理论,真实参数是一个正分数。如果多重共性严重导致真实参数的OLS估计量标准差很大,则尽管OLS估计量的期望值等于真实参数,但它的概率密度曲线很大一部分将落入第二象限,于是,OLS估计值很可能出现负值,导致估计结果的符号不符合预期(预期的符号是正号)。然而我们知道,如果与很大的标准差相一致,OLS估计量的标准误也很大,则t检验的结果很可能是系数估计与0没有显著差异。

笔记:

系数估计的符号不符合理论预期,且又是显著的,这是解释变量与误差项相关的一个信号。

3、增加样本容量或者删除一些变量导致估计结果发生了很大的变化。

为理解这种症状出现的逻辑,考虑一个简单的极端情况。假定解释变量矩阵是X,而增加一次观测后

10

浙江工商大学金融学院姚耀军讲义系列

解释变量矩阵是X1,删除一个解释变量后解释变量矩阵是X2。其中X、X1、X2如下所示:

??1?1???1??1??1????1?1??1X1???1??1??1?X358794??6??9??8??10???35879114??6??9??8??10??15????1?1?X2??1??1??1??3??5??8? ?7??9???显然,当解释变量矩阵是X时解释变量完全共线,此时我们根本无法获得估计结果。而当解释变量矩阵是X1与X2时,无论如何,我们可以获得估计结果。 (二)考察解释变量两两相关系数。

如果存在取值较大的相关系数,那么这意味着多重共线性程度严重。然而也应该注意到,即使两两相关系数都很小,多重共性性仍可能是严重的。 思考题:

为什么即使两两相关系数都很小,多重共线性仍可能是严重的?

(三)考察VIF或者Ri2。

如果VIF大于10,一般认为存在较严重的多重共线性(当然也可考察容忍度)。按照VIF的定义,显然,当VIF大于10时,必有一个解释变量对其他解释变量回归所得到的Ri2超过90%,而这是一个很高的

11

浙江工商大学金融学院姚耀军讲义系列

判定系数。 (四)特征根检验。

当完全共线时,(X?X)?1不存在,X?X?0,当存

X?0。假设XX在严重的多重共线时,X??的特征根

X???i,因此,是?,?,...,?,根据矩阵代数知识:X?12k?1k?1i?1如果XX?的特征根中至少有一个近似为0,则

X?X?0。因此可以根据XX?的特征根来判断多重共

线的严重程度。

笔记:

在实践中,通常基于标准化变量回归模型(每一个解释变量的每一次观察值都减去样本均值,然后再除以样本标准差,此即变量的标准化处理。标准化变量回归模型再也不含截距。)来利用特征根方法。记标准化变量回归模型的解释变量矩阵为X,

*则

1X?XN?1**即为解释变量的相关系数矩阵(你能够验证吗?)。

接下来我们可以根据这个相关系数矩阵的特征根(特征根个数为k)来判断原模型的多重共线性的严重性。定义病态数CN(Condition Number)=最大特征根/最小特征根、病态指数CI(Condition Index)?CN,当CI大于30或者CN大于1000时,一般认为多重共线程度严重。

六、 多重共线的处理方法

12

浙江工商大学金融学院姚耀军讲义系列

多重共线如果产生了令我们忧虑的后果,我们该怎么办?

(一)无为而治

一般认为,多重共线是一个样本问题,你手中样本恰好有这样的表现!如果多重共线导致了估计精度问题,那说明你掌握的数据所包含的信息含量很低,因此,“遇到多重共线我该怎么办?”这个问题无异于“如果我没有很多的观测值该怎么办?”(Goldberger,1991)。如果你不能增加样本容量,那么采取一些治疗多重共线的方法(如逐步回归等),反而可能带来灾难性的后果(Leamer,1961)(例如,如果采用逐步回归,也许这将导致遗漏一些重要的变量,结果使得OLS估计量不满足一致性)。因此,当无法增加样本容量的情况下,无为而治可能是最恰当的方式! (二)重新建模 例一:

初始模型是一个包含人口变量的多元回归模型,如果初始模型表现出的多重共线性令你不安,那么你可以重新建立一个涉及到人均变量的模型,在该模型中,人口变量并不作为一个单独的解释变量而出现。 例二:

时间序列变量通常具有相似的时间趋势从而共线

13

浙江工商大学金融学院姚耀军讲义系列

性程度可能较高,你或许可以对这些变量取差分,利用差分变量进行建模。 例三:

对一些变量取对数有时也是一种好办法。 例四:

有时在重新建模时会使用相关变量的线性组合作为解释变量,而不是把每个变量单独作为解释变量。问题是如何确定线性组合的权重。主成分分析法是解决这个问题的好办法,见附录3。 (三)使用先验信息

考虑模型yi?a?b假如x3与x?b2x2i?b3x3i??i,11i其他解释变量相关性很高,从而模型多重共线性严重。如果某个理论或者先前的研究表明,b3??,?是一已知常数。那么我们可以试着重新估计一模型:

(yi??x3i)?a?b1x1i?b2x2i?vi

显然,先验信息的可靠性是十分重要的。

(四)其他方法,参见相关教科书,要注意相关方法的缺陷(例如逐步回归法的缺陷)。

附录1:FWL定理的一个简单证明及其推广

由下述三式:

14

浙江工商大学金融学院姚耀军讲义系列

yi?a??b?1x1i?b?2x2i?b?3x3i???i yi???0???1x2i???2x3i?w?i

x1i???0???1x2i???2x3i?v?i 有:

??0???1x2i???2x3i?w?i?a??b(???x

1?0???1x2i???2x3i?v?i)?b22i?b?3x3i???i即:

w?i?(a??b?1??0???0)?(b???????b?)x2i?(b?11121??2???2?b?3)x3i

?b?1v?i???i由于

x2、x3分别与w?、v?、??样本不相关,b?1??1???1?b?2)?(b?1??2???2?b?3)?0。

证明:定义

b?1??1???1?b?2?m2;b?1??2???2?b?3?m3,则 Cov(x2,w?)?m2Var(x2)?m3Cov(x2,x3)?0??Cov(x3,w?)?m2Cov(x0??m2?m3?0?

2,x3)?m3Var(x3)??另外,由于

w?、v?与??其均值都为零,故

(a??b?1??0???0)=0 于是:w?i?b?1v?i???i 推广:

15

浙江工商大学金融学院姚耀军讲义系列

?x?b?x?b?x?b?x?b?x???i 对yi?a??b55i44i11i22i33i必有:

?v?v?v?i w?b?b?i?b?????11i22i33i?、v?1、v?2、v?3分别是y、x1、x2、x3各自对x4、x5进行带截其中w距回归所得到的残差。

附录2:简单相关、偏相关与复相关;有何种联系?

x1与x2具有简单相关系数r12,然而这种相关性可能是由于x1与x2分别与x3相关造成的。在控制了x3(保持x3不变)之后,x1与x2的相关性被称为偏相关。另外,x1与(x2,x3)的相关关系被称为复相关。样本复相关系数的平方就是回归模型

2

的判定系数R。这些基于样本的相关x1i?a?bx?bx??12i23ii系数具有何种联系呢?

一、样本偏相关系数rsample12.3的计算 步骤:

第1步:把x对x进行回归有: 31????x?vx1i???i (1) 023i?1。 记x1的拟合值为x第2步:把x2对x进行回归,即有: 3?0???2x3i?wx2i???i (2)

?2。 记x2的拟合值为x

16

浙江工商大学金融学院姚耀军讲义系列

第3步:计算则有:rsample12.3v?的简单相关系数。 ?与w(w?i?w?)(v?i?v?)??r?samplewv???i?w?)2?(v?i?v?)2?(wsamplesample?2v2?w??i?i?i?i?wv

sample可以证明,r12.3r?r13r12?2(1?r13)(1?rsamplesample2323sample2),见第三讲附录3。

二、R2与简单相关系数与偏相关系数的联系 把

v?进行回归,有: ?对wv?i?ei ?i??w?

而对于回归模型x?a?bx?bx??i,其判定系数是: 1i12i23iR22?Var(v?)?Var(?)FWL定理?)Var(?Var(e?1??1??1?Var(x1)Var(x1)Var(x1)w?)

Var(v?)??1??1?Var(1Cov2(v?,Var(x1)w?)Var(w?)?1?Var(v?)?r1sample212.3sample212.3?)Var(vVar(x1)1

x)?Var(x?)?r1[Var(Var(x1)1x)?Var(x?)]

1sample2Var(x?[Var(1)?r12.3?Var(x1)x)?Var(x?)]

?r13sample2sample2sample2①

?r12.3(1?r13)

?2)/Var(x2)分别是按照判定系数的定义,Var(x?1)/Var(x1)与Var(x回归(1)与回归(2)的判定系数。而在简单线性回归中,判定

根据第一讲无截距回归的代数知识,我们知道,

?

?i?v2?2??(?wi)??2?i,又因为v?,w?,e?皆为0,因此e2(?iv?iCovww?,v?)??)?Var(v???Var(w?Var(e?)???)。另外,?

2?)Var(w?i?w17

浙江工商大学金融学院姚耀军讲义系列

系数等于被解释变量与解释变量(样本)简单相关系数的平方。

sample2从上面的结果可知,R2?r13,这再次表明,当增加解

释变量时,判定系数不会减少!

附录3:主成分分析法

主成分分析是设法将k个具有一定相关性的指标进行线性组合,以重新形成新的综合指标。我们希望这个新的综合指标其方差越大越好,这是因为方差代表了新的综合指标所具有的信息量。假设新的综合指标是F?a1X1?a2X2?...?akXk,则a1,a2,...,ak的选择将使Var(F)取极大值。我们还对权数施加约束:

2?a2???a2?1,我们马上会看到这个约束的含义。在矩阵a12k语言下,有:

F?a?X,a?(a1,a2,...,ak)?,a?a?1,X?(X1,X2,...,Xk)?

Var(F)?Var(a?X)?a?Var(X)a为了选择权数,我们求解一个最优化问题:

Max[a?Var(X)a??(1?a?a)]

a,?利用第一讲中有关矩阵微分知识,有:

Var(X)a?Var?(X)a?2?a?0

注意到方差-协方差矩阵Var(X)是正定且对称的,于是有:

Var(X)a??a

显然,a是Var(X)的特征向量,而?是特征值。由于a?a?1,故特征向量是单位化的。

18

浙江工商大学金融学院姚耀军讲义系列

上述数学推导表明,选择权数即是求解Var(X)这个矩阵的特征向量。

假设各个特征值并不相等,则Var(X)这个对称矩阵的特征向量是两两正交的。于是,基于不同特征向量所构建的k个主成分必然是不相关的,即对于i?j,有:

Cov(Fi,Fj) ?Cov(ai?X,a?jX)?aVar?(X)aj?0 iVar(X)???papa?p。练习:对于i?j,证明aVar提示:?(X)aj?0。ip?1k因为特征向量两两正交,故对于i?j,ai?ap与a? paj必有一个为零。 我们注意到:

Var(Fi)?Var(ai?Xai)?aVar?(X)ai???pai?apa?pai??i ip?1kVar(X)这个矩阵的主对角线上的元素依次是

Var(X1)、Var(X2)、......、Var(Xk)。由于矩阵的迹等于特征根之和,

故有:

Var(X?p?1kp)?Trace[Var(X)]???i??Var(Fi)

i?1i?1kk在实践中,通常是基于标准化变量(指标)进行主成分分析。显然此时X的方差-协方差矩阵就是相关系数矩阵。我们注意到这个矩阵的主对角线元素都为1,故有:

?p??Var(F)?k ?i?1i?1ikk当然X的方差-协方差矩阵需要利用样本数据进行估计。在标准化变量情形下,如果样本数据集是A,则

19

1A?A即为样本N?1浙江工商大学金融学院姚耀军讲义系列

协方差矩阵(相关系数矩阵)。

X1??x11?xA??21????xN1X2?...Xk?

x12...x1k?x22...x2k???????xN2...xNk?为达到简化指标的目的,我们往往并不需要全部的主成分。假设?1??2?...??k,如果最终选择的是前m个主成分,那么一般要求这m个主成分的累计方差贡献率(??i/??i)在85%以上。

i?1i?1mk在确定了m个主成分之后,不难得到各主成分的观测值。

为了处理X1,X2,...,Xk的多重共线问题,现在我们就y的标

准化变量zy对前m(m?k)个主成分进行回归。当特征值相异时,各主成分是两两不相关的,故这样的回归再也不存在多重共线问题了。假定回归结果是是:

?1F1???2F2?...,???mFm??? Zy??由于

?F1?a11X1?a21X2?...?ak1Xk??F2?a12X1?a22X2?...?ak2Xk?......??Fm?a1mX1?a2mX2?...?akmXk??a1i???a2i?其中ai???...????a??ki?

是样本相关系数矩阵的第i个特征向量。因此有:

?ia1i)X1?(???ia2i)X2?...,?(???iaki)Xk??? Zy?(??i?1i?1i?1mmm 20

浙江工商大学金融学院姚耀军讲义系列

???定义:???ia1i??2????ia2i...??k????iaki1i?1i?1i?1mmm,则

?X???X?...,???X??? Zy??1122kk回忆第一讲有关标准化系数的笔记,我们不难反推出非标准变量回归的系数估计。

应该注意,如果利用全部的主成分(共k个)进行回归并反推出非标准变量回归的系数估计,则最终结果与直接对非标准变量进行回归没有任何差别(当然前者没有截距估计而直接对非标准变量进行回归可以得到截距估计)!故从终点又回到了起点,参见Kennedy(2002,p.215)。在进行主成分回归时抛弃k-m个主成分本质上是在施加约束:被抛弃的主成分其影响为零。我们已知道,施加约束一般会增加估计的精度。但这也经常带来巨大的代价。一般来说,利用p个主成分进行回归并反推出非标准变量回归的系数估计并不是一致估计。

除了主成分分析法外,还有岭回归法等方法可以被用来处理多重共线性。但所面临的问题都是一样的,即最终所获得的系数估计一般都是非一致估计。

21

浙江工商大学金融学院姚耀军讲义系列

???定义:???ia1i??2????ia2i...??k????iaki1i?1i?1i?1mmm,则

?X???X?...,???X??? Zy??1122kk回忆第一讲有关标准化系数的笔记,我们不难反推出非标准变量回归的系数估计。

应该注意,如果利用全部的主成分(共k个)进行回归并反推出非标准变量回归的系数估计,则最终结果与直接对非标准变量进行回归没有任何差别(当然前者没有截距估计而直接对非标准变量进行回归可以得到截距估计)!故从终点又回到了起点,参见Kennedy(2002,p.215)。在进行主成分回归时抛弃k-m个主成分本质上是在施加约束:被抛弃的主成分其影响为零。我们已知道,施加约束一般会增加估计的精度。但这也经常带来巨大的代价。一般来说,利用p个主成分进行回归并反推出非标准变量回归的系数估计并不是一致估计。

除了主成分分析法外,还有岭回归法等方法可以被用来处理多重共线性。但所面临的问题都是一样的,即最终所获得的系数估计一般都是非一致估计。

21

本文来源:https://www.bwwdw.com/article/5ch8.html

Top