计量经济学第7章 含有定性信息的多元回归分析

更新时间:2023-12-13 20:41:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第7章 含有定性信息的多元回归分析:

二值(或虚拟)变量

在前面几章中,我们的多元回归模型中的因变量和自变量都具有定量的含义。就像小时工资率、受教育年数、大学平均成绩、空气污染量、企业销售水平和被拘捕次数等。在每种情况下,变量的大小都传递了有用的信息。在经验研究中,我们还必须在回归模型中考虑定性因素。一个人的性别或种族、一个企业所属的产业(制造业、零售业等)和一个城市在美国所处的地理位置(南、北、西等)都可以被认为是定性因素。

本章的绝大部分内容都在探讨定性自变量。我们在第7.1节介绍了描述定性信息之后,又在第7.2、7.3和7.4节中说明了,如何在多元回归模型中很容易地包含定性的解释变量。这几节几乎涵盖了定性自变量用于横截面数据回归分析的所有流行方法。

我们在第7.5节讨论了定性因变量的一种特殊情况,即二值因变量。这种情形下的多元回归模型具有一个有趣的含义,并被称为线性概率模型。尽管有些计量经济学家对线性概率模型多有中伤,但其简洁性还是使之在许多经验研究中有用武之地。虽然我们在第7.5节将指出其缺陷,但在经验研究中,这些缺陷常常都是次要的。

7.1 对定性信息的描述

定性信息通常以二值信息的形式出现:一个人是男还是女;一个人有还是没有一台个人计算机;一家企业向其一类特定的雇员提供还是不提供退休金方案;一个州实行或不实行死刑。在所有这些例子中,有关信息可通过定义一个二值变量(binary variable)或一个0-1变量来刻画。在计量经济学中,对二值变量最常见的称呼是虚拟变量(dummy variable),尽管这个名称并不是特别形象。

在定义一个虚拟变量时,我们必须决定赋予哪个事件的值为1和哪个事件的值为0。比如,在一项对个

人工资决定的研究中,我们可能定义female为一个虚拟变

问题7.1 量,并对女性取值1,而对男性取值0。这种情形中的变量

假设在一项比较民主党和共和党候选人之间选举结名称就是取值1的事件。通过定义male在一个人为男性时果的研究中,你想标明每个候选人所在的党派。在这种取值1并在一个人为女性时取值0,也能刻画同样的信息。情形中,名称party是二值变量的一个明智选择吗?更好这两种情况都比使用gender更好,因为这个名称没有指出的名称是什么? 虚拟变量何时取值1:gender=1对应于男性还是女性?虽然

怎样称呼变量对得到回归结果而言并不重要,但它总有助于

选择那些使方程和阐述都更清晰的变量。

表7.1 WAGE1.RAW中的局部数据列表

个人编号 1 2 3 4 5 wage 3.10 3.24 3.00 6.00 5.30 educ 11 12 11 8 12 exper 2 22 2 44 7 female 1 1 0 0 0 married 0 1 0 1 1 ? 525 526 ? 11.56 3.50 ? 16 14 ? 5 5 ? 0 1 ? 1 0 1

假设我们在工资的例子中已选择了female来表示性别。此外,我们还定义了一个二值变量married,并在一个人已婚时取值1,而在其他情况下取值0。表7.1给出了可能得到的一个数据集的部分列表。我们看到,第1个人为女性并且未婚,第2个人为女性并且已婚,第3个人为男性并且未婚,等等。

我们为什么要用数值0和1来描述定性信息呢?在某种意义上,这些值是任意的:用任意两个不同的数值都是一样的。使用0-1变量来刻画定性信息的真正好处,像我们将看到的那样,在于它导致回归模型中的参数有十分自然的解释。

7.2 只有一个虚拟自变量

我们如何在回归模型中引入二值信息呢?在只有一个虚拟解释变量的最简单情形中,我们只在方程中增加一个虚拟变量作为自变量。比如,考虑如下决定小时工资的简单模型:

wage??0??0female??1educ?u. (7.1) 我们用?0表示female的参数,以强调虚拟变量参数的含义;以后,无论如何,我们还是使用最方便的符号。

在模型(7.1)中,只有两个被观测因素影响工资:性别和受教育水平。由于对女性female=1,而对男性female=0,所以参数?0具有如下含义:给定同等受教育程度(和同样的误差项u),?0是女性与男性之间在小时工资上的差异。因此,系数?0决定了是否对女人存在歧视:如果?0<0,那么在其他因素的相同水平下,女人总体上挣得要比男人少。

用期望的术语来讲,如果我们假定了零条件均值假定E(u?female, educ)=0,那么

?0= E(wage?female=1, educ)? E(wage?female=0, educ).

?0= E(wage?female, educ)? E(wage?male, educ). (7.2)

由于female=1对应于女性和female=0对应于男性,所以我们可以更简单地把这个模型写成

这里的关键在于,在两个预期中,受教育水平是相同的;差值?0只是由于性别所致。

这种情况可以在图上描绘成男性与女性之间的截距迁移(intercept shift)。在图7.1中,给出了?0<0的情形,从而男人比女人每小时都多挣一个固定的数量。这个差距与受教育水平无关,这就解释了为什么女人和男人的工资-受教育变化关系是平行的。

图7.1 wage??0??0female??1educ?u.在?0<0情况下的图示

2

这里,你可能想知道为什么我们没有在(7.1)中还包括一个虚拟变量male,它对男性取值1和对女性取值0。原因在于,这样做是多余的。在(7.1)中,男性线的截距是?0,女性线的截距是?0+?0。由于只有两组数据,所以我们只需要两个不同的截距。这意味着,除了?0之外,我们只需要一个虚拟变量;我们已经选择了针对女性的虚拟变量。由于female+male =1意味着male是female的一个完全线性函数,所以使用两个虚拟变量将导致完全多重共线性。包括两个性别的虚拟变量是所谓虚拟变量陷阱(dummy variable trap)中最简单的例子,当使用过多的虚拟变量来描述一定组数的数据时,就会掉进这种虚拟变量陷阱。我们以后还要讨论这个问题。

在(7.1)中,我们已经选择了男性为基组(base group)或基准组(benchmark group),即与之进行比较的那一组。这就是为什么?0表示了男性的截距,而?0为女性与男性之间在截距上的差异。通过将模型写成

wage??0??0male??1educ?u,

我们就能选择女性为基组,其中女性的截距是?0,而男性的截距是?0+?0;这意味着?0=?0+?0和?0+?0 =?0。在任何一个实际应用中,我们如何选择基组都不重要,但重要的是,要保持基组不变。

有些研究者喜欢将模型中的总截距去掉,而将每一组的虚拟变量都包括进来。那么,这里的方程就是

wage??0male??0female??1educ?u,其中男人的截距是?0,女人的截距是?0。在这种情形下,

因为没有总截距,所以不存在虚拟变量陷阱。但由于检验截距的差值更困难,而且对不含截距项的回归怎样计算R平方没有一个一致同意的方法,所以这个表达式很少有人使用。因此,我们将总是引进一个总的截距项作为基组的截距。

当解释变量更多时并没有什么大的改变。取男性那一组为基组,除了控制受教育水平之外,还控制工作经历和现职任期的一个模型是

wage??0??0female??1educ??2exper??3tenure?u. (7.3) 如果educ、exper和tenure都是相关的生产力特征,那么男人与女人之间没有差别的虚拟假设是H0:?0=0。对立假设是,对女人存在歧视H1:?0<0。

我们怎样才能对工资歧视进行实际检验呢?回答很简单:完全像从前那样用OLS来估计模型,并使用通常的t统计量。当某些自变量被定义为虚拟变量时,在OLS的操作和统计理论方面都没有任何改变。迄今为止,唯一的改变是我们对虚拟变量系数的解释。 例7.1 小时工资方程

利用WAGE1.RAW中的数据,我们估计模型(7.3)。目前,我们还是使用wage而不是log(wage)作为因变量:

?ge??1.57?1.81female?0.572educ?0.025exper?0.141tenure wa (0.72) (0.26) (0.049) (0.012) (0.021) (7.4)

n=526, R2=0.364.

3

负的截距(这里是男人组的截距)不是很有意义,因为样本中没有一个人具有接近于零年的educ、exper和tenure。female的系数则很有意思,因为它度量的是;在给定相同水平的educ、exper和tenure的情况下,一个女人和一个男人之间每小时在工资上的平均差距。如果我们找到受教育水平、工作经历和现职任期相同的一个女人和一个男人,那么平均来看,女人每小时比男人要少挣1.81美元。(要记住,这可是用1976年的工资水平来度量的呀!)

重要的是记住,由于我们已经进行了多元回归并控制了educ、exper和tenure,所以这1.81美元的工资差距不能由男人和女人之间在受教育水平、工作经历和现职任期水平上的平均差距来解释。我们可以断定,这1.81美元的差别,是由于性别或我们在回归中没有控制的与性别相关的因素所导致的。

将方程(7.4)中female的系数,与把所有其他解释变量都从方程中去掉时所得到的系数估计值相比,是颇有意义的:

?ge?7.10?2.51female wa (0.21) (0.30) (7.5)

n=526, R2=0.116.

(7.5)中的系数具有一个简单的解释。这个截距就是样本中男人的平均工资(令female=0),所以男人平均每小时挣7.10美元。female的系数为女人和男人之间平均工资的差距。因此,样本中女人的平均工资是7.10? 2.51=4.59,或每小时4.59美元。(顺便提一下,样本中有274个男人和252个女人。)

方程(7.5)为男人和女人这两组之间进行均值比较检验提供了一个简单的方法。估计差别?2.51的t统计量?8.37在统计上是十分显著的(当然?2.51在经济上也相当大)。一般而言,对一个常数和一个虚拟变量进行简单回归,是比较两组均值的直接方法。要通常的t统计量生效,我们还必须假定同方差性,这就意味着,对男人和对女人而言,工资的总体方程是相同的。

由于方程(7.5)没有控制受教育水平、工作经历和现职任期上的差异,而且总体上说,在这个样本中,女人的受教育水平、工作经历和现职任期比男人要低些,所以估计出来的男女工资差异比(7.4)要大。方程(7.4)给出了性别工资差距在其他条件不变情况下更可靠的估计值;它仍显示出一个很大的差别。

在许多情形下,虚拟自变量都反映了个人或其他经济单位的选择(而不是诸如性别等预先决定的变量)。对于这种情形,因果关系的问题再度成为一个核心议题。在下面这个例子中,我们想知道,是否拥有个人计算机将导致更高的大学平均成绩。 例7.2 拥有计算机对大学GPA的影响

为了决定拥有计算机对大学平均成绩的影响,我们估计了模型 colGPA??0??0PC??1hsGPA??2ACT?u,

其中虚拟变量在学生拥有一台计算机时取值1,而在其他情况下都取值0。出于各种原因,拥有PC对colGPA可能具有影响。一个学生的工作在计算机上完成的质量可能会更高一些,而且还因为不必在计算机房等待而节省了时间。当然,如果一个学生拥有一台PC,他或她也可能会更热衷于电脑游戏或在网上冲浪,所以

?0并不明显为正。变量hsGPA(高中时的GPA)和ACT(能力测验分数)都是控制变量:能力越强的学生(用

高中GPA和ACT分数来度量),越可能拥有一台计算机。我们控制这些因素是因为,我们想知道,如果我们随即抽取一个学生并给他一台个人计算机,那么拥有这台计算机对其colGPA的平均影响。

利用GPA1.RAW中的数据,我们得到

?GPA?1.26?0.157PC?0.447hsGPA?0.0087ACT col

4

(0.33) (0.057) (0.094) (0.0105) (7.6) n=141, R2=0.219. 这个方程意味着,一个拥有一台PC的学生,预计其GPA比一名条件相当但没有一台PC的学生要高出0.16分(记住,colGPA和hsGPA都是以四分制度量的)。这个影响也是十分显著的,其tPC=0.157/0.57?2.75。 如果我们从方程中去掉hsGPA和ACT会怎么样呢?显然,由于ACT的系数和t统计量都很小,所以去掉它几乎没有什么影响。但是hsGPA十分显著,所以去掉它会影响到?PC的估计值。将colGPA对PC进行

?及其t统计量不会改变太多。回归,给出PC的系数估计值约为0.170,而标准误为0.063;在此情形下,? PC 在章末的习题中,要求你在方程中控制一些其他因素,以看拥有计算机的影响十分会消失,或至少大

大变小。

前面的每一个例子都可视为有政策分析(policy analysis)的含义。在第一个例子中,我们对工作中的性别歧视感兴趣。在第二个例子中,我们考虑了拥有计算机对大学成绩的影响。项目评价(program evaluation)是一种特殊的政策分析,我们在项目评价中想了解的,是某些经济或社会项目对个人、企业、邻居、城市等的影响。

在最简单的项目评价中,把对象分为两组。对照组(control group)不参加这个项目,而试验组(experimental group)或处理组(treatment group)则参加。这些名称来自试验科学的文献,不应该从字面上进行理解。除非在极少数情形中,对对照组和处理组的选择都不是随机的。但在某些情况下,为了估计项目中的因果效应,可以使用多元回归分析来控制足够多的其他因素。 例7.3 培训津贴对培训小时数的影响

利用JTRAIN.RAW中密歇根州制造企业在1988年的数据,我们得到如下估计方程:

?mp?46.67?26.25grant?0.98log(sales)?6.07log(employ hrse)

(43.41) (5.59) (3.54) (3.88) (7.7)

n=105, R2=0.237.

因变量是在企业的水平上,对每个雇员进行培训的平均小时数。变量grant是一个虚拟变量,1988年得到在职培训津贴的企业取值1,否则取值0。变量sales和employ则分别表示了企业的年度销售额和雇员人数。因为变量hrsemp对回归中所用到的105个企业中的29个都取值0,所以它不能以对数形式进入回归方程。 变量grant在统计是十分显著的,tgrant=4.70。在控制了销售额和就业的情况下,得到津贴的企业平均对每个工人多培训26.25个小时。由于样本中平均每个工人培训的小时数约为17,最大值也只有164,所以grant像预期的那样对培训具有很大的影响。

log(sales)的系数很小而且极不显著。log(employ)的系数意味着,如果一个企业扩大10%,那它对其工人的培训约减少0. 61个小时。其t统计量为?1.56,只是处在统计显著的边缘上。

就像所有其他的自变量一样,我们需要知道,对一个定性变量所度量的影响是不是因果性的。在方程(7.7)中,得到津贴和没有得到津贴的企业之间在培训上的差异,是由于津贴的原因吗?接受津贴会不会只是其他什么情况的一种标示呢?那些得到津贴的企业可能在没有得到津贴的情况下,一般也会更多地培训其工人。这个分析中并没有哪里告诉我们,所估计的是一种因果效应;我们必须知道,企业得到津贴是如何决定的。我们只能希望,对于那些与企业是否得到津贴及其培训水平相关的因素,我们已经尽可能多地加以控制。

5

本文来源:https://www.bwwdw.com/article/gge5.html

Top