第15章 工具变量与两阶段最小二乘

更新时间:2024-05-17 09:47:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第15章 工具变量估计与两阶段最小二乘法

在本章中,我们进一步研究多元回归模型中的内生解释变量(endogenous explanatory variable)问题。在第3章中,我们推导出,遗漏一个重要变量时OLS估计量的偏误;在第5章中,我们说明了在遗漏变量(omitted variable)的情况下,OLS通常是非一致性的。第9章则证明了,对未观测到的解释变量给出适宜的代理变量,能消除(或至少减轻)遗漏变量偏误。不幸的是,我们不是总能得到适宜的代理变量。

在前两章中,我们解释了存在不随时间变化的遗漏变量的情况下,对综列数据如何用固定效应估计或一阶差分来估计随时间变化的自变量的影响。尽管这些方法非常有用,可我们不是总能获得综列数据的。即使能获得,如果我们的兴趣在于变量的影响,而该变量不随时间变化,它对于我们也几无用处:一阶差分或固定效应估计排除了不随时间变化的变量。此外,迄今为止我们已研究出的综列数据法还不能解决与解释变量相关的随时间而变化的遗漏变量的问题。

在本章中,我们对内生性问题采用了一个不同的方法。你将看到如何用工具变量法(IV)来解决一个或多个解释变量的内生性问题。就应用计量经济学中线性方程的估计而言,两阶段最小二乘法(2SLS或TSLS)是第二受人欢迎的,仅次于普通最小二乘。

我们一开始先说明,在存在遗漏变量的情况下,如何用IV法来获得一致性估计量。此外,IV能用于解决含误差变量(errors-in-variable)的问题,至少是在某些假定下。下一章将证明运用IV法如何估计联立方程模型。

我们对工具变量估计的论述严格遵照我们在第1篇中对普通最小二乘的推导,其中假定我们有一个来自基本总体的随机样本。这个起点很合人意,因为除了简化符号之外,它还强调了应根据基本总体来表述对IV估计所做的重要的假定(正如用OLS时一样)。如我们在第2篇中所示,OLS可以应用于时间序列数据,而工具变量法也一样可以。第15.7节讨论IV法应用于时间序列数据时出现的一些特殊问题。在第15.8节中,我们将论述在混合横截面和综列数据上的应用。

15.1 动机:简单回归模型中的遗漏变量

面对可能发生的遗漏变量偏误(或未观测到的异质性),迄今为止我们已讨论了三种选择:(1)我们可以忽略此问题,承受有偏、非一致性估计量的后果;(2)我们可以试图为未观测到的变量寻找并使用一个适宜的代理变量;(3)我们可以假定遗漏变量不随时间变化,运用第`13与14章中的固定效应或一阶差分方法。若能把估计值与关键参数的偏误方向一同给出,则第一个回答是令人满意的。例如,如果我们能说一个正参数(譬如职业培训对往后工资的影响)的估计量有朝零偏误 ,并且我们找到了一个统计上显著的正的估计值,那么我们还是学到了一些东西:职业培训对工资有正的影响,而我们很可能低估了该影响。不幸的是,相反的情况经常发生,我们的估计值可能在数值上太大了,以致我们要得出任何有用的结论都非常困难。

第9.2节中讨论的代理变量解也能获得令人满意的结果,但并不是总可以找到一个好的代理。该方法试图通过用代理变量取代不可观测的变量,来解决遗漏变量的问题。

另一种方法是将未观测到的变量留在误差项中,但不是用OLS估计模型,而是运用一种承认存在遗漏变量的估计方法。这便是工具变量法所要做的。

举例来说,考虑成年劳动者的工资方程中存在未观测到的能力的问题。一个简单的模型为:

log(wage)??0??1educ??2abil?e,

其中e是误差项。在第9章中,我们说明了在某些假定下,如何用诸如IQ的代理变量代替能力,从而通过以下回归可得到一致性估计量

log(wage)对 educ, IQ回归

1

然而,假定不能得到适当的代理变量(或它不具备足以获取一致性估计量所需的性质)。这样一来,我们将

abil放入误差项中,留下来的就是简单的回归模型:

log(wage)??0??1educ?u, (15.1)

其中u包含了abil。当然,如果用OLS估计方程(15.1),若是educ与abil相关,得到的结果将是?1的有偏、非一致性估计量。

最后证明是,假如我们能为educ找到一个工具变量,我们仍可以根据方程(15.1)来进行估计。为描述该方法,将简单回归模型写成:

y??0??1x?u,

其中我们认为x与u相关:

(15.2)

Cov(x,u)?0. (15.3) 工具变量法无论x与u相关与否都行得通,但是,如果x与u不相关,我们应该使用OLS,其原因我们将

在后面看到。

为了获得x与u相关时?0和?1的一致性估计量,我们还需要一些另外的信息。这些信息由一个满足某些性质的新变量给出。假定我们有一个可观测到的变量z,它满足两个假定:(1)z与u不相关,即,

Cov(z,u)?0. (15.4) (2)z与x相关,即,

Cov(z,x)?0. (15.5)

我们则称z是x的工具变量(instrumental variable)。

有时候,人们把所需条件(15.4)概括为“z在方程(15.2)中是外生的”。从遗漏变量的角度看,这意味着z应当对y无偏效应,也不应当与其它影响y的因素相关。方程(15.5)意味着z必然与内生解释变量x有着正的或负的关系。

对工具变量的两个要求之间有一个非常重要的差别。因为(15.4)是z与不可观测的误差u的协方差,我们无法对它进行验证或哪怕是检验:我们必须求助于经济行为或内心感受来维持这一假定。相比之下,给定一个来自总体的随机样本,z与x相关(在总体中)的条件则可加以检验。做到这一点最容易的方法是估计一个x与z之间的简单回归。在总体中,我们有

x??0??1z?v. (15.6) 从而,由于?1?Cov(z,x)Var(z),(15.5)中的假定当且仅当?1?0时成立。因而我们就能够以充分小(习惯说充分高——译者)的显著水平(5%或1%)拒绝虚拟假设

H0: ?1?0 (15.7) 并接受双侧对立假设H0: ?1?0。如果真是这样,我们能相当有把握肯定(15.5)是成立的。

对于(15.1)中的log(wage)方程,educ的工具变量z必须:(1)与能力(以及其它影响工资的不可观测的因素)不相关,(2)与教育相关。诸如一个人的社会福利登记号的最后一位数字之类的变量,几乎一定满足第一个必需条件:与能力不相关,因为它是随机决定的。然而,该变量与教育不相关,因而是educ

2

的一个低劣的工具变量。

我们所谓的用于遗漏变量的代理变量因相应的原因成为低劣的IV。例如,在遗漏能力的log(wage)例子中,abil的代理变量应该尽可能地与abil高度相关。而工具变量必须与abil不相关。因此,尽管IQ是abil的一个好的代理变量候选者,它却不是educ的好的工具变量。

对其它可能的工具变量候选者,这些必需条件更加不确定。劳动经济学家已在工资方程中使用家庭背景变量作为教育的IV。例如,母亲的教育(motheduc)与孩子的教育是正相关的,这一点通过收集劳动者数据样本并做educ对motheduc的简单回归便可以看出来。因此,motheduc满足方程(15.5)。问题是,母亲的教育也可能与孩子的能力相关(通过母亲的能力和可能通过孩子幼年所受的教养的质量)。

(15.1)中educ的另一个IV选择是成长过程中兄弟姊妹的数目(sibs)。一般地说,较多的兄弟姊妹与较低的平均教育水平相联系。这样,如果兄弟姊妹的数目与能力不相关,它可以 充当educ的工具变量。

再举一个例子,考虑估计逃课对期末考试成绩的因果影响的问题。在一个简单的回归框架中,我们有

score??0??1skipped?u, (15.8) 其中score是期末考试成绩,skipped是该学期逃课的总数目。当然,我们可能担心skipped与u中其它因素相关:较好的学生可能逃课较少。因而score对skipped的简单回归可能不会给我们一个对逃课的因果影响的好的估计。

什么可能是skipped的好的IV?我们所需要的是对score无直接效应,且与学生能力不相关的IV。同时,该IV必须与skipped相关。一个选择是利用住宿区与学校之间的距离。一所大规模的大学中将有部分学生乘车去学校,这也许会增加逃课的可能性(由于恶劣的天气、睡过头等等)。因而,skipped可能与distance正相关;这一点可通过skipped对distance的回归并作一个t检验得以验证,正如前面所描述的。

distance是否与u不相关?在简单回归模型(15.8)中,u中的一些因素可能与distance相关。例如,低收入家庭的学生可能不住在学校;如果收入影响到学生的行为,可能会导致distance与u相关。第15.2节说明如何在多元回归的情况下使用IV,以便其他影响score的因素能直接地包含在模型中。那么,distance也许是skipped的一个好的IV。如果学生能力有一个好的代理,例如以往学期的累积GPA,IV法可能根本就不需要。

现在我们来证明可得到的工具变量能够用于进行方程(15.2)中的一致性参数估计。特别地,我们将说明(15.4)与(15.5)[等价地,(15.4)与(15.7)]中的假定足以识别参数?1。在这一点上,参数的识别(identification)意味着我们可以根据总体矩写出?1,总体矩可用样本数据来估计。为了根据总体协方差写出?1,我们利用方程(15.2):z与y之间的协方差为

Cov(z,y)??1Cov(z,x)?Cov(z,u).

现在,在(15.4)中Cov(z,u)?0与(15.5)中Cov(z,x)?0的假定下,我们可以解出?1为: ?1?Cov(z,y). (15.9)

Cov(z,x)[注意到如果z与x不相关,即Cov(z,x)?0,该简单代数式不成立。] 方程(15.9)表明?1是z、y之间的总体协方差除以z、x之间的总体协方差的商,这说明了?1被识别。给定一个随机样本,我们用对应样本量来估计总体的量。在分子和分母中约去样本容量后,我们得到?1的工具变量(IV)估计量(instrumental

3

variables (IV) estimator):

?? ?1?(z?(zi?1i?1nni?z)(yi?y). (15.10)

?z)(xi?x)i??y???x,给定x、y和z的样本数据,很容易获得(15.10)中的IV估计量。?0的IV估计量就为:?01?现在为IV估计量,它看起来就像OLS中的截距估计量。 除了其中的斜率估计量?1当z?x时,我们获得?1的OLS估计量决不是偶然的。换句话说,当x是外生的时,它可用作自身的IV,IV估计量等同于OLS估计量。

大数定律的一个简单应用表明,如果满足(15.4)和(15.5)中的假定,?1的IV估计量具有一致性:

?)??。如果任一个假定不成立,IV估计量都将是非一致性的(这一点后面将进一步地研究)。IVplim(?11估计量的一个特点是:当事实上x与u相关——以致确实需要工具变量来估计——它实质上绝不是无偏的。

在小样本中,这意味着IV估计量可能有相当大的偏误,这就是为什么希望有大样本的一个原因。

用IV估计量做统计推断

已知IV和OLS具有类似的结构,我们无需惊讶在大样本容量的情况下IV估计量近似服从正态分布。为了对?1进行推断,我们需要一个可用于计算t统计量和置信区间的标准误,通常的方法是增加一个同方差性的假定,这和在OLS的情况下一样。不过现在,同方差性的假定是以工具变量z,而不是以内生解释变量x为条件来表述的。除了前面关于u、x和z的假定之外,我们增加

22 E(uz)???Var(u). (15.11)

?的渐近方差为: 可以表明,在(15.4)、(15.5)和(15.11)中的假定下,?1?2 , (15.12)22n?x?x,z2其中?x是x的总体方差,?是u的总体方差,?x,z是x与z之间的总体相关系数的平方,它告诉我们在

22总体中x与z是怎样的高度相关。如同运用OLS估计量一样,IV估计量的渐近方差以

1的速度降为0,这n里n是样本容量。

方程(15.12)引起人们兴趣的原因有两点。第一,它提供了一种获得IV估计量的标准误的方法。(15.12)

2中的所有的量均可以在给定一个随机样本的情况下进行一致性的估计。为估计?x,我们简单地计算出xi的

样本方差;为估计?x,z,我们可以做xi对zi的回归来获得R,即Rx,z。最后,为估计?,我们可以运用IV残差,

4

2222????x, i?1, 2, ...,n. ?i?yi??u01i?与??是IV估计量。?的一致性估计量看起来就像从简单OLS回归中得出的?估计量: 其中?10221n2???i, ??un?2i?12其中用自由度进行纠正是标准的做法(即使随着样本容量的增加,这样做几乎不起什么作用)。

?的(渐近的)标准误是所估计的渐近方差的平方根。这个渐近的方差由下式给出: ?1

?2?2SSTxRx,z , (15.13)

其中, SSTx是xi的总平方和。回忆xi的样本方差是SSTxn,因而约去样本容量我们得到(15.13)。所

?也有一个标准误,得到的标准误可用于构造t统计量,以检验关于?1的假设,或者是?1的置信区间。?0我们在此不提。任何现代计量经济学的软件包都会计算出任一IV估计后的标准误。

在我们给出例子之前,比较IV和OLS估计量(当x与u不相关时)的渐近方差是有用处的。在高斯-马尔科夫假定下,OLS估计量的方差为?2SSTx,而IV估计量类似的计算式为?222SSTx?Rx,z;两者的

2区别仅在于IV的方差的分母中出现了Rx,z。由于R总是小于1,这个2SLS的方差总是大于OLS的方差

(当OLS有效时)。如果Rx,z很小,IV的方差会比OLS的方差大得多。记住,Rx,z衡量的是样本中x与z之间的线性关系的大小。如果x与z只是轻度相关,Rx,z会很小,而这将转化为IV估计量的一个非常大的抽样方差。z越是与x高度相关,Rx,z越是接近于1,IV估计量的方差就越小。在z?x的情况下,Rx,z?1,我们得到OLS的方差,这正是所预期的。

前面的讨论突出了当x与u不相关时进行IV估计的一个重要代价:IV估计量的渐近方差总是大于——有时大得很多——OLS估计量的渐近方差。

例15.1 对已婚女性进行教育的回报估计

我们用MROZ. RAW中关于已婚职业女性的数据来估计以下简单回归模型的教育回报,

log(wage)??0??1educ?u. (15.14) 为了比较,我们首先得到OLS估计值:

22222?ge)??.185log(wa ? .109educ (15.15) (.185) (.014) n?428, R2?.118.?1的估计值表明,再受一年的教育可得到约11%的回报。

5

接下来,我们用父亲的教育(fatheduc)作为educ的工具变量。我们必须认为fatheduc与u不相关。第二个必需条件是educ与 fatheduc相关。做一个educ 对fatheduc的简单回归(样本中只有职业女性),我们可以非常容易地验证这一点:

?uc?10.24 ? .269fatheduced (0.28) (.029) (15.16)

n?428, R2?.173.fatheduc的t统计量为9.28,说明educ与 fatheduc之间存在统计上显著的正相关。(实际上,fatheduc

解释了样本中educ的变异中约17%的部分。)用fatheduc作为educ的IV,得:

?ge)??.441log(wa ? .059educ (15.17) (.446) (.035) n?428, R2?.093.教育回报的IV估计值为5.9%,大约是OLS估计值的12。这表明OLS估计值过高,且与遗漏的能力变量的偏误相一致。但我们应该记住,这些都是仅从一个样本中得出的估计值:我们根本不知道0.109是否高于真正的教育回报,或者0.059更接近真正的教育回报。其次,IV估计量的标准误是OLS标准误的21倍。2(这是我们预期到的,原因已在前面表明)。运用OLS得出?1的95%置信区间比运用IV要狭窄得多;事实上,IV的置信区间确实包含了OLS估计值。因此,尽管实践中(15.15)与(15.17)之间的差异很大,我们不能说该差异在统计上显著。第15.5节中我们将说明如何对此进行检验。

在前面的例子中,运用IV估计出的教育回报小于运用OLS的估计结果,这符合我们的预期。以下的例子将表明这个结果不是必然的。

例15.2 估计对男性进行教育的回报

现在我们再用WAGE2. RAW来对男性估计教育的回报。我们用sibs(兄弟姊妹的数目)作为educ的工具变量。它们是负相关的,对此我们可以从以下简单回归中来证实:

?uc?14.14 ? .228sibsed (0.11) (.030) n?935, R2?.057.该方程意味着,每多一个兄弟姊妹,相关联的是一年内所受的教育平均比原来减少约0.23。如果我们假定

sibs与(15.14)中的误差项不相关,那么IV估计量就具有一致性。用sibs 作为educ的工具变量估计方程(15.14),得:

?ge)?5.13 ? .122educlog(wa (0.36) (.026) n?935.(R计算出为负数,因而我们没有予以报告。后面将从IV估计的角度对R进行讨论。)相比之下,?1的

22

6

OLS估计值是.059,标准误是.006。与前面的例子不同,现在IV估计值比OLS估计值大得多。尽管我们不知道该差异是否在统计上显著,但它不会与OLS中遗漏的能力变量所造成的偏误相混淆(mesh with)。有可能sibs也与能力相关:较多的兄弟姊妹意味着平均起来受父母的照料较少,这可能导致较低的能力。另一个解释是,由于educ中的测量误差,OLS估计量有朝零偏误。该解释不能完全令人信服,因为educ未必满足经典的含误差变量模型,这一点我们已在第9.3节中讨论过。

在前面的例子中,内生解释变量(educ)与工具变量(fatheduc,sibs)均有数量含义。然而,这两类都可以是二值变量。Angrist和Krueger(1991)在他们最简单的分析中,利用美国的男性人口调查数据,提出了educ的一个巧妙的二值工具变量。如果该男性是在第一季度出生的,令frstqrt等于1,否则为0。(15.14)中的误差项——特别是能力——似乎应该与出生季度不相关。但是,frstqrt还要与educ相关。事实表明,在基于出生季度的总体中,教育年数确实有系统性差异。Angrist和Krueger认为是缘于在各州实行的义务就学法,这很有说服力。简单地说,年初出生的学生往往入学较晚。因此,他们在达到义务教育年龄时(大部分州定为16岁),所受的教育略少于入学较早的学生。Angrist和Krueger证实了,对于已完成高中学业的学生来说,受教育年数与出生季度并无关系。

2因为教育年数在各出生季度之间的变化仅仅是微乎其微的——这意味着(15.13)中的Rx,z非常小——

Angrist和Krueger需要很大的样本容量来得到一个合理而准确的IV估计值。利用1920至1929年之间出生的247,199位男性的数据,得出教育回报的OLS估计值为.0801(标准误为.0004),IV估计值为.0715(.0219);见于Angrist和Krueger的论文中的表III。注意到OLS估计值的t统计量那么大(约为200),然而IV估计值的t统计量仅为3.26。因而IV估计值在统计上不为0,但其置信区间比基于OLS估计值的置信区间宽得多。

Angrist和Krueger有一个有趣的发现:IV估计值与OLS估计值相差并不多。实际上,利用下一个十年中出生的男性的数据,得出IV估计值稍微高于OLS估计值。对此可以这样解释:说明在用OLS估计工资方程时不存在遗漏能力的偏误。可是,Angrist和Krueger的论文在计量经济学界受到了非难。如同Bound,Jaeger和Baker(1995)讨论的那样,它不能明显地判断出生季节与影响工资的诸因素不相关,纵然这些因素没有被人观测到。我们在下一小节中将解释,即使z与u之间有少量的相关,也会导致IV估计量存在严重的问题。

对于政策分析,内生解释变量往往是二值变量。例如,Angrist(1990)研究了,参加越南战争的老兵,其终身收入因参加越战而受到的影响。一个简单模型为:

log(earns)??0??1veteran?u, (15.18) 其中veteran是二值变量。疑问在于,用OLS估计该方程时,可能存在一个自我选择(self-selection)的问题,这一点我们在第7章中提到过:也许人们因为能从军队中得到最多的收入而选择参军,或者参军的决策与其他对收入有影响的特征相关。这些问题将导致veteran与u相关。

Angrist指出,越南战争的征兵抽签提供了一个自然试验(natural experiment)(亦参见第13章),从而产生了veteran的一个工具变量。年轻人被分给的征兵抽签号决定了他们是否会被征召去服役于越南战争。因为所分给的号码(毕竟)是随机分配的,征兵抽签号与误差项u不相关似乎是可信的。而得到号码足够小(指号码小于某个数——译者)的人必须服役于越南战争,使得成为老兵的概率与抽签号相关。如果以上两点都是正确的,征兵抽签号是veteran的一个好的IV候选者。

问题15.1

如果某些被分给小的征兵抽签号的人,获得了更多的学校教育以减少了 被征兵的概率,抽签号仍是(15.18)中veteran的好的工具变量吗?

7

还有可能遇到一个二值的内生解释变量与一个二值的工具变量的情况。作为一个例子,参见习题15.1。

低劣的工具变量条件下IV的性质

我们已经看到,尽管当z与u不相关,而z与x存在着正的或负的相关时,IV是一致性的,但当z与x只是弱相关时IV估计值可能有大的标准误。z与x之间的弱相关可能产生甚至是更加严重的后果:即使z与u只是适度相关,IV估计量也会有大的渐近偏误。

当z与u可能相关时,通过对IV估计量的概率极限的分析,就可以看到这一点。利用总体相关和标准差,可以推出:

?? plim?1?1?Corr(z,u)?u . (15.19)

Corr(z,x)?x其中?u和?x分别代表总体中u和x的标准差。该方程中引起人们兴趣的是包含相关项的部分。它表明,即使Corr(z,x)很小,如果Corr(z,u)也很小,IV估计量的非一致性会非常大。因此,即使我们只考虑一致性,如果z与u之间的相关小于x与u之间的相关,使用IV不一定比OLS更好。由于

~Corr(x,u)?Cov(x,u)/(?x?u),连同方程(5.3)一起,我们可以将OLS估计量的plim——称之为?1—

—写为

plim?1?~?1?Corr(x,u)?u . (15.20)

?x比较两式,说明当Corr(z,u)/Corr(z,x)?Corr(x,u)时,IV就渐近偏误而言比OLS更可取。

在前面提到的Angrist和Krueger(1991)的例子中,x是学校教育的年数,z是一个指示出生季度的二值变量,z与x之间的相关非常小。Bound,Jaeger和Baker(1995)讨论了出生季度与u可能有些相关的原因。从方程(15.19)中,我们看到这将会导致IV估计量有相当大的偏误。

当z与x完全不相关时,无论z是否与u不相关,事情尤其糟糕。接下来的例子说明了为什么我们应当时常检查内生解释变量是否与备选的IV相关。

例15.3 估计吸烟对出生体重的影响

在第6章中,我们估计了吸烟对婴儿出生体重的影响。没有其他的解释变量,模型为:

log(bwght)??0??1packs?u, (15.21) 其中packs是母亲每天吸烟的包数。我们会担心packs与其它健康因素或者获得良好的产前护理的可能性相关,以致packs与u可能相关。packs的一个可能的工具变量是所居住州的香烟价格cigprice。我们将假定cigprice与u不相关(即使州政府对健康护理的支持可能与香烟税相关)。

如果香烟是典型的消费品,基本的经济理论表明packs与cigprice负相关,所以cigprice可用作packs的IV。为验证这一点,我们利用BWGHT. RAW中的数据,做packs对cigprice的回归:

?ck?.067?.0003 pacigprice (.103) (.0008) n?1,388, R2?.0000, R2??.0006.

8

这说明怀孕期间吸烟与香烟价格之间没有关系。考虑到吸烟有使人上瘾的特性,该结论可能不会太令人惊讶。

因为packs与cigprice不相关,我们不应该在(15.21)中用cigprice作为packs的IV,但如果我们用了会怎么样?IV的结果将为:

?ght)?4.45?2.99packs log(bw (0.91) (8.70) n?1,388.(所报告的R为负数)。packs的系数极大,而且有一个意想不到的符号。标准误也非常大,因此packs不是显著的。可是估计值是没有意义的,因为cigprice不满足我们总可以检验的IV的一个必需条件,即

(15.5)中的假定。

IV估计后计算R

大多数回归软件包运用标准公式R2?1?SSRSST计算IV估计之后的R,其中SSR是IV残差的

222SST是y的总平方和。平方和,与OLS中的情况不同,由于IV的SSR实际上可能大于SST。IV估计中R22的可能为负数,尽管报告IV估计的R不会有什么害处,但也不很有用。当x与u相关时,我们不能将y的方差分解成?12Var(x)?Var(u),因此对R没有合理的解释。另外,正如我们将在第15.3节中讨论的,这些R不能以通常的方法用于计算联合约束的F检验值。

如果我们的目标是要得出最大的R,我们将总是用OLS。IV法是打算当x与u相关时,为x在其余条件不变情况下对y的影响提供更好的估计值;拟合优度不是考虑的因素。如果我们不能对?1进行一致性估计,从OLS中得出高的R也不会让人感到欣慰。

222215.2 多元回归模型的IV估计

简单回归模型的IV估计量容易延伸至多元回归的情形。我们从仅有一个解释变量与误差相关的情形开

始。实际上,考虑两个解释变量条件下的标准线性模型:

y1??0??1y2??2z1?u1. (15.22) 我们称之为结构方程(structural equation),以强调我们的兴趣在于?j ,这仅仅意味着此方程应该测量一个因果关系。在此我们用一个新的符号来区分内生变量与外生变量(exogenous variables)。因变量y1显然是内生的,它与u1相关。变量y2和z1是解释变量,u1是误差。通常,我们假定u1的期望值为0:E(u1)?0。

9

我们用z1表示该变量在(15.22)中是外生的(z1与u1不相关)。我们用y2表示该变量被怀疑与u1相关。我们没有详细地说明为什么y2与u1相关,但现在最好认为u1包含一个与y2相关的遗漏变量。方程(15.22)中的符号源自于联立方程模型(我们将在第16章中讨论),但我们把它更广泛地用于多元回归模型中,目的是容易区分外生变量和内生变量。

(15.22)的一个例子是: log(wage)??0??1educ??2exper?u1, (15.23) 其中y1?log(wage),y2?educ,z1?exper。换句话说,我们假定exper在(15.23)中是外生的,但我们允许educ——由于通常的原因——与u1相关。

我们知道,如果用OLS估计(15.22),所有的估计量将是有偏而非一致性的。这样,我们采用前一节中建议的策略,寻找y2的工具变量。因为假定了z1与u1不相关,我们能否假定y2与z1相关而将z1用作y2的工具呢?答案是不能。既然z1自身作为解释变量出现在(15.22)中,它就不能用作y2的工具变量。我们需要另外一个外生变量——称之为z2——它不出现在(15.22)中。因此,关键的假定是z1、z2与u1不相关;我们还假定u1具有零均值,当方程包含截距时,这并不失普遍性。

E(u1)?0, Cov(z1,u1)?0, 和Cov(z2,u1)?0. (15.24) 给定零均值的假定,后两个假定等价于E(z1u1)?E(z2u1)?0,因而按照矩法的意思是求解(15.24)的对

?、??和??: 应样本方程来获得?120?(yi?1nni1????y???z)?0??01i22i1

?zi?1ni1????y???z)?0 (15.25) (yi1??01i22i1????y???z)?0.(yi1??01i22i1?zi?1i2?、??和??的三线性方程组,给定y、y、z和z的数据,它很易于求解。这些这是关于三个未知量?2112120估计量叫做工具变量估计量。如果我们认为y2是外生的,并选择z2?y2,方程(15.25)恰恰是OLS估计量的一阶条件;参见方程(3.13)。

我们仍需要工具变量z2与y2相关,可是这两个变量必须相关的含义因(15.22)中存在z1而变得复杂。我们现在需要从偏相关的角度来表述这一假定。表述该条件最容易的方法是将内生解释变量写成关于外生变量和误差项的一个线性函数:

10

本文来源:https://www.bwwdw.com/article/xqq7.html

Top