内生性问题

更新时间：2023-11-26 23:16:01 阅读量：教育文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

内生性问题与工具变量和两阶段最小二乘

一、背景

虽然在OLS的大样本性质中，我们放宽了强外生性的假定，用弱外生条件来进行替代，即E(x??)?0。但是，在实际的问题中，弱外生性的条件往往也是不容易满足的。也就是说，变量的内生性问题总是不可避免的。内生性引起的问题主要是引起参数估计的不一致。可以说，内生性问题是在实际应用中最经常遇到的问题。这个部分讨论的就是如何解决由内生性问题引起的参数估计的不一致。

二、知识要点

1、引起内生性的原因及其对参数估计的影响 2、代理变量法解决内生性问题 3、工具变量法和2SLS的性质三、要点细纲

1、引起内生性的原因及其对参数估计的影响（1）模型设定偏误（遗漏变量）

这主要是因为实际的问题中，一个变量往往受到许多变量的影响，在实际建模过程中无法将解释变量全部列出。在这样的情况下，遗漏的变量的影响就被纳入了误差项中，在该遗漏变量与其他解释变量相关的情况下，就引起了内生性问题。即E(x??)?0。

（2）测量误差

关于测量误差引起内生性的问题要基于测量误差的假设。测量误差可能是对被解释变量y的测量误差，也可能是由于对解释变量x的测量误差。这两种情况引发的结果是不一样的。

A. 被解释变量y的测量误差。

不妨假设y的真实值是y*，测量值为y，则可以将测量误差表示成：

e0?y?y*。假设理论的回归方程为：

y*??0??1x1???kxk??

将测量误差方程带入得到：

y??0??1x1???kxk???e0

??0??1x1???kxk?v

其中v???e0是实际回归方程的残差。显然，由于y的测量误差e0是与xi相互独立的，所以实际回归方程的残差v也与各解释变量相互独立（无关）。外生性条件满足。

B. 解释变量x的测量误差

假设在回归式y??0??1x1???kxk??中，测量误差产生于xk，即实际回归式为：

*y??0??1x1???kxk??

并有ek*?xk?xk

如果假设cov(xk,ek)?0，则将测量误差带入方程得到：

y??0??1x1???kxk????kek??0??1x1???kxk?v

显然，外生性条件满足。

*,ek)?0?cov(xk,ek)?cov(x*ek)??2如果假设cov(xkk?ek,e。该假设条件

称为Classical error-in-variables（CEV）假定。

由上述方程可以看出，此时测量误差会引起内生性问题。 ( 3) 双向交互影响（或者同时受其他变量的影响）

这种情况引起的内生性问题在现实中最为常见。其基本的原理可以阐述为，被解释变量y和解释变量x之间存在一个交互影响的过程。x的数值大小会引起

y取值的变换，但同时y的变换又会反过来对x构成影响。这样，在如下的回归

方程中：

y??0??1x1???kxk??

如果残差项?的冲击影响了y的取值，而这样的影响会通过y传导到x上，

从而造成了x和残差项?的相关。也就是引起了内生性问题。

这里举几个简单、但经常遇到的例子说明。例1：金融发展与经济增长

例2：外商直接投资FDI与经济增长例3：犯罪率与警备投入

2、代理变量(Proxy)法解决内生性问题考虑如下的回归方程

y??0??1x1???kxk??q??

其中，q是不可观测的变量（遗漏），假定z是对q的一个代理，z必须满足下列条件：

（1）E(y|x,q,z)?E(y|x,q) （2）E(q|x,z)?E(q|z)

q??0??1z?r 代理变量的缺点：

A、当有交互效应时会引起异方差问题

B、在实际问题中，通常对遗漏的变量是难以意识到的。 C、约束条件太强。

3、工具变量法和2SLS的性质

这里先讨论简单工具变量法，两阶段最小二乘2SLS是简单工具变量法的一个扩展。

关于工具变量的大样本假设

Ⅰ、plimZ?Z=Qzz是一个有限、可逆的L?L维正定矩阵。

nⅡ、plimZ?X=Qzx是一个有限的L?K的矩阵，并且该矩阵的秩是K。

nⅢ、plimZ?εn=0 （1）简单工具变量考虑如下一个回归方程：

y??0??1x1????kxk??

现在假设xk是内生的，也就是说，xk与残差项?相关。在这样的情况下，得到的参数估计值是有偏的。

再次强调，此时参数估计的偏差不仅仅存在于参数?k上，而是所有的参数估计值都会受到影响。看普通最小二乘的结果：

plimb??E(x?x)?E(x?y)????E(x?x)?E(x?ε)

?1?1其中，不妨设k?2，则有：

?x?x?x??1??x1?x2??1?x12x2????x2x1?x1??x1x2??，x???? 2?x?x2??2??q11?1?(X?X)?plim???E(x?x)???21??n??qq12??X??plim?，?q22??n??x1?1????x?? ??22??q11q12??x1?1??q11x1?1?q12x2?2?则可以看出：?21? ???212222??q??x2?2??qx1?1?qx2?2??q显然，当

现在回到一般的回归方程：

y??0??1x1????kxk???xβ??

仍然假设xk是内生的，如果可以找到一个工具变量z1，使得z1满足如下两条假定：

Ⅰ、E(z1xk)?0 Ⅱ、E(z1?)?0

那么，就可以定义z?(x1,x2,?,xk?1,z1)，方程两边左乘z?，同取期望，得到参数估计值，使得：

plimbIV??E(z?x)?E(z?y)????E(z?x)?E(z?ε)

但是，这样的简单工具变量得到的估计并不是无偏的（特殊的得到无偏估计的情况是：xk与其他外生变量无关，只和z1相关）。正确的做法是，将内生变量xk对所有的外生变量进行投影（回归），也就是按照如下的公式计算：

?1?1xk??0??1x1????k?1xk?1??z1?rk

只要系数??0，该工具变量就是有效的。也就是说，必须保证z1与xk是在扣除了其他外生变量的影响下，仍然是相关的！这样，根据回归得到了xk的估计值

?z ?0???1x1?????k?1xk?1???k??x1?k代替原来的xk，进行OLS估计，就可以得到产生的无偏估用估计出的x计。这实际上是将内生变量分成了内生部分和外生部分，通过投影得到了外生的部分，然后进入回归方程。

（2）多工具变量和两阶段最小二乘（2SLS）

多工具变量是简单工具变量的一个扩展。当我们可以找到的工具变量不只一个的时候，我们可以提高对内生变量的拟合优度。得到一个更好的估计值。另外一方面，如果一个多元回归方程中含有的内生变量个数不只一个，那么我们就必须分别找到它们各自的工具变量。总得来说，需要注意的是，工具变量的个数必须大于方程中内生变量的个数。每一个内生变量，都必须是对所有的外生变量进行投影，这样得到的参数估计才是一致的。

下面用一个具体的例子来说明。为了方便，我们仍然假设回归方程中只含有一个内生变量xk

y??0??1x1????kxk???xβ??

现在假设我们可以找到一组外生变量(z1,z2,?,zL)，正确的做法是：（1）将xk对所有外生变量进行回归：

xk??0??1x1????k?1xk?1??z1????zL?rk?zα?rk

其中z?(x1,?xk?1,z1,?,zL) 于是可以得到：

?k?z?E(z?z)?E(z?xk) x同理，对每一个外生的xi进行投影，也就是如下的回归：

?1xi??0??1x1????k?1xk?1??z1????zL?rk?zα?rk，可以得到如

下的结果：

?i?z?E(z?z)?E(z?xk)?xi x?1??(x?1,x?2,?x?k)?(x1,x2,?x?k) （2）于是定义x??z?E(z?z)?E(z?x)?z?Π x?1??x?2????xX??? ?x???k?得到：

?1??Z(Z?Z)-1Z?X?PX Xz??X)?1(X??Y)?[(PX)?(PX)]?1[(PX)?Y]?(X??X?)?1(X??Y) b2SLS?(Xzzz??Z(Z?Z)-1Z?X，得到：带入X??X?)?1(X??Y)?[(X?Z(Z?Z)-1Z?)(Z(Z?Z)-1Z?X)][X?Z(Z?Z)-1Z?Y]b2SLS?(X

?[(X?Z(Z?Z)-1Z?X)][X?Z(Z?Z)-1Z?Y]

（3）Proxy和IV的区别

Proxy方法是将不可观测的变量用近似的变量进行替代，也就是说，是在残差项中提取出有用的信息，但是并没有对现有的解释变量进行处理。

而IV方法恰恰相反，它是对现有回归式中的内生变量进行的处理，找到另外一个变量对其进行“替代”，但是对于方程的残差项没有进行任何的处理。

IV方法对工具变量有严格的外生假定条件，而Proxy不一定成立。（4）两阶段最小二乘的性质 ①一致性

b2SLS?[(X?Z(Z?Z)-1Z?X)][X?Z(Z?Z)-1Z?Y]

?β?[(X?Z(Z?Z)-1Z?X)][X?Z(Z?Z)-1Z?ε] plim[(X?Z(Z?Z)-1Z?X)][X?Z(Z?Z)-1Z?ε]

??X?Z??Z?Z?-1?Z?X????X?Z??Z?Z?-1?Z?ε???plim????????????????

nnnnnn???????????????????????Q?Q?xz??zz?所以，

-1-1?Z?ε???QQQplim?xz???xz??zz????0

?n?plimb2SLS?β

但是，如果在第一阶段的回归中没有包括方程中原有的外生变量，那么，一致性就不能得到保证。假设有如下回归方程

y1?z1δ1??1y2?u1

其中z1是1?L1的外生变量，y2是内生变量。并且有1?L2维的工具变量

z2。

y1?z1δ1??1y2?u1

如果只是将y2对z2进行投影，得到如下结果：

?Z2)?1(Z2?y2) ?2?Z2(Z2y?2?v y2?y带入原式得到

?2?(?1u1?v) y1?z1δ1??1y令x??z1δ??2?，β??y?1?

??1?由OLS得到参数估计结果如下所示：

??β?(X?X)?1Xu?β?(X?X)?1Xu β?(?1v?u1)?Z1?β?(X?X)?1??y?

??2(?1v?u1)?因为回归中没有扣除z1的影响，所以一般来说，cov(z1,v)?0，从而造成参数估计的有偏。

②有效性

2SLS在第一阶段进行回归得到的结果如下：

??z?E(z?z)?E(z?x)?z?Π x?1假设有另外一个关于x的无偏投影：

?。显然有如下两个结论成立： ??z?Γ，其相应得到的β的两阶段估计为βx?)]??2[E(x??x?)]?1 Asy.var[n(β?β?)]??2[E(x??x)]?1[E(x??x?)][E(x?x?)]?1 Asy.var[n(β?β?)]?Asy.var[n(β?β?)]是一?的方差最小，只有证明Asy.var[n(β?β要证明β??x?)]?[E(x??x)][E(x??x?)]?1[E(x?x?)]是正定矩阵。个正定的矩阵，也就是证明：[E(x??r，因此有：我们有x?x??r)?E(Γ?z?r)?Γ?E(z?r)?0 E(z?r)?0?E(x进而有：

??x)?E[x??(x??r)]?E(x??x?) E(x??x?)]?[E(x??x)][E(x??x?)]?1[E(x?x?)] [E(x??s?) ??x?)]?[E(x??x?)][E(x??x?)]?1[E(x??x?)]?E(s?[E(x?对x?回归的残差。显然，E(s??s?)?0。问题??x-?x?[E(x??x?)]-1E(x??x?)是x其中，s得证。

四、思考题

1、阐述引起内生性的原因及其对参数估计的影响。

2、在两阶段最小二乘中，如果在第一阶段的回归中没有包括原方程中所有的外生变量，会引起参数估计的什么问题，请举例说明。

3、证明在第一阶段回归中将内生变量对所有外生变量进行投影后，利用简

?具有有效性。单工具变量得到的参数估计值β小结

工具变量进行两阶段最小二乘估计的具体步骤

设有模型：gEMPt??0??1gMIN1t??2gPOP??3gGDP1t??4gGDPt??t 认为gMIN可以作为gMIN1t的工具变量使用。

第一，gMIN1t对所有的外生变量进行回归，即建立如下的回归方程：

gMIN1t??0??1gMINt??2gPOPt??3gGDP1t??4gGDPt?et

若系数?1的t值显著，并且方程的整体拟合程度较好（F统计量值大于30），则该工具变量是一个有效的工具变量，可以由上式得到gMIN1t的估计值?gMIN1t。

?第二，将得到的估计值gMIN带入原方程进行回归，即建立回归方程： 1? gEMPt??0??1gMIN1t??2gPOPt??3gGDP1t??4gGDPt??t就可以得到方程参数的无偏估计。设z?(gPOP,gGDP1,gGDP,gMIN)

?1??x?2?????x??(gPOP,gGDPX,gGDP,gMIN)定义x，且有11??? ?x???k???Z(Z?Z)则：X-1Z?X?PzX