倾向得分分析

更新时间:2024-01-06 07:28:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

二、倾向得分分析

来源:2013-10_农民工自我雇佣与收入:基于倾向得分的实证分析_曹永福-杨梦婕-宋月萍_中国农村经济_一类

1、问题:利用2010年全国流动人口动态监测调查数据,考察了农民工自我雇佣对其收入水平的影响。 2.数据:

数据来自国家人口和计划生育委员会2010年流动人口动态监测调查。

3、实证分析方法:

(1)收入决定方程

为了分析农民工自我雇佣对其收入的影响,本文首先建立如下收入决定方程:

Y代表劳动者平均月收入的自然对数(若为自我雇佣者,则指其营业净收入的自然对数;若为受雇者,则指其工资收入的自然对数);

?为常数项;

W代表被调查者是否自我雇佣的二分类就业方式变量;

?为是否自我雇佣的边际收入效应;

xj代表第j个影响农民工收入的解释变量;?j是相应解释变量的系数;

?为误差项。

劳动者的收入主要取决于人力资本以及人力资本积累,因此方程纳入了受教育程度、年龄、培训和技术职称、本次工作年限、本次流动年限、工作类型等变量;

方程纳入工作强度、流动范围变量,以反映流动人口付出的劳动以及因流动付出的成本;

此外方程还纳入性别、婚姻状况、户籍地区域和流入区域型等控制变量。 本文先直接对收入进行普通最小二乘回归,得到各个解释变量对农民工月收入的影响情况。

线性回归模型是定量分析中最常用的识别因果关系的方法,但它是有适用前提的,其中最重要的一个前提就是:回归模型中的解释变量必须是外生的,即与误差项不相关 。一旦模型中的某个解释变量具有样本选择偏差,那么,采用普通最小二乘回归得到的系数估计将会是有偏的。

(2)倾向得分分析

根据以往的研究经验,上述收入决定方程中的自我雇佣决策变量很可能具有样本选择偏差。外在环境、家庭和自身禀赋均会影响到农民工的自我雇佣决策。例如,从事自我雇佣往往需要一定的初始资本,个人的家庭经济资源将起到一定的作用;同时,劳动者的创业精神、风险偏好等也会影响其自我雇佣决策,但这些因素难以度量。因此,在现实的劳动力市场上,每一名劳动力选择自我雇佣的可能性并不是完全相同的。也就是说,在农民工群体中,是否从事自我雇佣具有选择偏差。这意味着,一个农民工选择成为受雇者或者自我雇佣者的概率不是随机的,因而收入决定方程中的就业方式就变成了一个内生解释变量。此时,直接通过普通最小二乘回归得到的自我雇佣决策对收入的影响就会是有偏的。为解决

这个问题,本文采用倾向得分分析方法来纠正样本选择偏差。

倾向得分分析

是一种基于观测数据

析变量间因果关系并且能够有效控制样本选择偏差的数据处理方法

。在本文中,倾向得分可以理解为在给定一系列可能影响因

素的情况下农民工选择某种就业方式(自我雇佣或受雇)的条件概率。 本文想要探究的是自我雇佣对农民工收入的影响,最理想的办法是获得每一名农民工分别作为自我雇佣者和受雇者时的收入值,这两个收入之间的差值就是自我雇佣的收入效应。然而,现实中只能观测到每个农民工作为自我雇佣者或作为受雇者的其中一个收入值,简单地用一名自我雇佣者和另一名受雇者之间的收入差异来衡量自我雇佣的收入效应,将会带来较大的误差。这是因为二者不仅就业方式不同,而且在年龄、受教育程度、流动经历等诸多因素上都可能存在很大差别,这些差异会在不同程度上影响他们的就业选择。只有在控制了这些差异后,样本中存在的选择偏差才有望被控制住。倾向得分分析法将这些因素转化为接受干预

的条件概率?,依据这个倾向得分,该方法在整体样本中为每一个

自我雇佣者样本匹配一个与之相似?的受雇者样本作为对照,这就使本文通过测量二者之间的收入差异来估计自我雇佣的收入效应成为可能。通过回归得到每一个劳动者从事自我雇佣的倾向得分,这样可以将自我雇佣者和受雇者在解释变量上的差异通过一个倾向得分展现出来,而后将每一名自我雇佣者和与其倾向得分最接近的那些受雇者做对比,就可以最大限度地消除样本中存在的选择偏差。

农民工自我雇佣与否是一个二分类变量,本文使用

回归模型来预测每

概率分

一个农民工选择自我雇佣的条件概率,即每一个样本的倾向得分,布函数的具体公式如下 :

(2)式和(3)式中,Pi为第i个农民工选择自我雇佣的条件概率; β为估计系数;

为纳入模型的解释变量,这里包括性别、年龄、婚姻、受教育程度、培训、技术职称或资格、本次工作年限、本次流动年限、流动范围、户籍地区域、流入地区域和工作类型;

为误差项 。

对于一名农民工,有很多潜在因素影响其自我雇佣决策。本文提取出尽量多的能够表述这些因素的变量,把它们作为解释变量纳入自我雇佣的型中。

本文认为,个人特征、地域背景和所处环境都会影响农民工从事自我雇佣的可能性。

在本文中,个人特征用性别、年龄、婚姻、受教育程度、流动范围来衡量。 同样,地域环境也会影响个人自我雇佣的偏好。如果从小生长的地方和现今生活的城市拥有良好的经济制度环境和鼓励个人自主创业的社会氛围,那么,这种大环境也会给农民工选择自我雇佣提供更多的可能。此处,地域环境分别用户籍地区域和流入地区域变量来衡量。

在获得倾向得分后,常见的处理方法有两种:一是卡尺匹配法,即基于所估计的倾向得分对干预组(自我雇佣者)和控制组(受雇者)进行匹配,使每个自

回归模

我雇佣者都有一个倾向 得分大致相同的受雇者与之对应,这样,自我雇佣的选择偏差将在很大程度上被消除,就可 以像在随机实验中那样进行上述的普通最小二乘回归

;二是倾向得分加权法,其原理是不直接进行匹配,

而使用倾向得分作为权重进行多元回归分析,将农民工自 我雇佣的条件概率作为权重纳入收入回归模型中,这样做也可以起到消除样本选择偏差的作用,并且避免卡尺匹配法只纳入部分样本的缺陷,能更好地利用样本总体。

卡尺匹配法的优点在于,可以对匹配后的样本使用几乎所有类型的多元分析方法进行后续分析。

但是,由于卡尺匹配是按照倾向得分对干预组和控制组实行一对一匹配而纳入分析,部分样本会因未成功匹配而丢失。

倾向得分加权法可避免卡尺匹配法的样本删失问题 ,在倾向得分加权法中,依据权重

对每个案例进行加权后再进行回归,将权重定义如下

卡尺匹配法和倾向得分加权法是两类原理完全不同的倾向得分分析方法,二者在各种数据条件下的适用性也并不相同

中将分别应用这两个方法,以印证模型估计结果的可靠性。

。本文在实证分析

(3)数据平衡性检验

在进行倾向得分分析之前,有必要对样本数据进行平衡性检验。数据平衡性是与样本选 择偏差密切相关的一个概念。如果干预组(自我雇佣者)和控制组(受雇者)在可观测变量 上均没有显著差异,即数据是平衡的,可认为样本不存在选择偏差,此时,倾向得分分析就无实施的必要。如果二者在可观测变量上存在显著差异,即数据是不平衡的,就可认为样本存在选择偏差,此时,就需要对数据进行一定的处理,以改善数据的平衡性,从而消除选择偏差。同时,在做卡尺匹配及倾向得分加权之前检验数据的平衡性,可以了解样本是否存在选择偏差;在做卡尺匹配及倾向得分加权之后再次检查数据平衡性,可以看出消除样本选择偏差的效果。

在卡尺匹配中检验数据的平衡性,通常是用所关注的干预变量(即是否自我雇佣)分别与其他各解释变量进行双变量卡方检验(如果该解释变量为分类变)或独立样本 t 检验(如果该解释变量为连续变量),若P值或t值较小,则存在样本选择偏差。在倾向得分加权中检验数据的平衡性,则是将干预变量(是否自 我雇佣)作为解释变量,分别与原各解释变量进行单变量回归(即自我雇佣

回归模型中的解释变量为被解释变量):对连续型解释变量(例如年龄)使用普通最小二乘回归,对二分类解释变量(例如婚姻状况)使用二元归,对多分类解释变量(例如受教育程度)使用多项

回归。然后,以各个

回归中自我雇佣变量的显著性(P值)来判断数据的平衡性,如果自我雇佣变量不显著,则加权后自我雇佣样本和受雇者样本在该解释变量上不存在显著差异。 3.变量的设置

本文来源:https://www.bwwdw.com/article/5gpx.html

Top