计量经济学4_一元线性回归

更新时间:2023-06-08 02:04:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!

一元线性回归 Chapter 4Linear Regression with One Regressor一元线性回归

一元线性回归使我们可以估计、推断总体回归线的斜率系数。我们的最终目标是估计自变量 X发生一个单位的变化,会导致因变量Y发生多少的变化。 为使问题简化,下面我们分析只有两个变量的 Y和X之间为线性关系的情形。

2

总体回归线(The population一般意义上讲,对均值或者两个均值间进行的统计推断,与对线性回归的统计推断是类似的。

regression line)Test Score=β0+β1STR

估计

如何从数据中得到一个直线以用来估计总体回归线的斜率:使用普通最小二乘(ordinary least squares )。使用 OLS的好处与不足有哪些?如何检验斜率是否为零。如何构建关于斜率取值的置信区间。

β1=总体回归线的斜率=

假设检验

ΔTest scoreΔSTR= STR变化一单位导致 test score发生的变动2.我们希望知道总体参数β1的具体数值。 3.然而,我们并不知道β的数值是多少,因此要根

1.为何β0和β1被称为总体参数?

置信区间

据数据对它进行估计。3 4

一元线性回归模型的术语Yi=β0+β1Xi+ ui, i= 1,…, n X是自变量(independent variable)或回归变量

7个学区的假想观测值 Yi=β0+β1X为总体回归线 ui为第i个观测的总体误差项

( regressor)或右边变量。 Y是因变量(dependent variable)从属变量

(regressand)或左边变量。 β0:总体回归的截距(intercept) β1:总体回归的斜率(slope) ui:误差项(error item)

误差项构可能因遗漏因素或 Y的测量误差引起。遗漏因素指那些除了变量 X之外的能够对 Y产生影响的因素。5 6

计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!

如何利用数据估计β0和β1?——普通最小二乘估计量前面讨论过,Y是总体均值μY的最小二乘估计量,即在所有可能的估计量 m中, Y使估计误差总平方和最小:

将 OLS估计量这种思想应用于线性回归模型。令 b0和 b1分别表示β0和β1的某个估计量,则基于这些估计量的回归线为:b0+b1X,于是由这条线得到 Yi的预测值为:b0+b1Xi。因而,第 i个观测的观测误差为:Yi-b0-biXi,n个观测的观测误差平方和为:

min m∑ (Yi m )i=1

n

2

∑ (Y bi=1 i

n

0

bi X i ) 2

4.6

称最小化 4.6式中误差平方和的截距和斜率估计量为β0和β1的普通最小二乘(OLS)估计量。7 8

OLS估计量、预测值和残值斜率β1和截距β 0的OLS估计量分别为 β1=

OLS预测值和残值 OLS预测值Yi和残差ui分别为: Y=β+β X, i= 1, 2, ni 0 1 i

∑(Xi=1 n i=1

n

4.9 4.10

i

X )(Yi Y )i

∑(X

=

X )2

s XY 2 sX

4.7

ui=β1i Yi 估计的截距β 0和β1和

残差ui是利用X i和Yi, i= 1, 2 n的n组样本观测值计算得到的。它们分别是未知总体截距

β 0= Y β1 X

4.8

β 0、β1和ui真值的估计。

9

10

例:测试成绩和学生/教师比关系的 OLS估计值

截距和斜率估计值的经济含义TestScore= 698.9– 2.28×STR -2.28表示:每个教师对应的学生人数增加 1时,学区测试成绩平均下降 2.28分。ΔTest score 即,=–2.28ΔSTR

698.9表示:对于这个回归线,每个教师对应 0个学生的

β1=– 2.28 β 0= 698.9TestScore= 698.9– 2.28×STR11

学区,预计测试成绩为 698.9分。

注意:截距的取值没有经济含义。

12

计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!

例:预测值和残差

利用STATA做OLS回归输入命令:regress testscr str, robust命令的含义 Regression with robust standard errors Number of obs F( 1, 418) Prob> F R-squared Root MSE===== 420 19.26 0.0000 0.0512 18.581

对于数据中的 Antelope学区,其 STR= 19.33,与之相应的 Test Score= 657.8,则 Antelope学区的成绩预测值:残差:

------------------------------------------------------------------------| Robust testscr| Coef. Std. Err. t P>|t|[95% Conf. Interval] --------+---------------------------------------------------------------str| -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671 _cons| 698.933 10.36436 67.44 0.000 678.5602 719.3057 -------------------------------------------------------------------------

TestScore= 698.9– 2.28×STR

YAntelope= 698.9– 2.28×19.33= 654.8

u Antelope= 657.8– 654.8= 3.013 14

拟合优度( Measures of Fit )所得到的回归线描述数据的效果如何评价?回归变量说明了大部分还是极少部分的因变量变化?观测值是紧密地聚集在回归线周围还是很分散? 回归的 R2是指可由 Xi解释(或预测)的 Yi样本方差的比例。回归的 R2的取值范围为 0到 1.

回归的R2回归的 R2是指可由 Xi解释(或预测)的 Yi样本方差的比例。 Yi= Yi+ ui= OLS预测值+ OLS残差 sample var (Y)= sample var(Yi )+ sample var( ui ) (why?) 总平方和(TSS)=被解释平方和(ESS)+剩余平方和(SSR)

ESS TSS SSR SSR== 1 TSS TSS TSS R2= 0表示 ESS= 0 R2= R2= 1表示 ESS= TSS 0≤ R2≤ 1

回归标准误差(standard error of the regression,SER)是回归误差 ui的标准差估计量。

Y关于一元变量 X回归的 R2是 Y与 X的相关系数平方。16

15

回归标准误差(The Standard Error of the Regression, SER)回归标准误差是回归误差 ui的标准差估计量。因为 ui的单位和 Yi的单位一样,所以 SER是用因变量单位

为何用 n–2代替 n–1?SER=

1 n 2 ∑ ui n 2 i=1

度量的观测值在回归线附近的离散程度。SER=

除以 n–2是进行自由度修正。类似于计算样本方差的公式中除

以 n–1,是由于计算时用到一个参数的估计量 (,用Y估计μY)。在计算回归标准误差的时候,用到两个参数的估 计量(用β和β估计β0,β1)。0 1

1 n ∑ (ui u )2 n 2 i=1 1 n 2 ∑ ui n 2 i=1

当 n很大时,除以 n, n–1, or n–2的差距不大。

=

(其中第二个等式用到 u=

1 n ∑ ui= 0). n i=117 18

计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!

例:R2和 SER

最小二乘假设我们希望 OLS估计量具有无偏、较小方差的特性。但是在什么样的前提之下,OLS估计量才是总体参数的无偏估计量呢?为此,我们需要对 Y和 X是如何相互关联以及有关数据是如何收集(抽样方案)的进行一定的假设。共有三个基本假设。

TestScore= 698.9– 2.28×STR, R2= 0.05, SER= 18.6从 R= 0.05看,STR仅仅揭示了测试成绩变动中的一小部分。这个结论有意义么?是否可以认为 STR在政策制定中不重要呢?19 20

2

最小二乘假设之1Yi=β0+β1Xi+ ui, i= 1,…, n零条件均值给定 Xi时,ui,的条件分布均值为零。该假设是关于包含在 ui中的“其他因素”的规范数学表示,表明在 Xi取值给定时,其他因素分布均值为零,也就是说, 这些“其他因素”与 Xi无关。这意味着β1是无偏

E(u|X= x)= 0.给定 Xi时,ui的条件分布均值为零。

的。

表示为: E(ui|Xi= x)= 0简单记为 E(u i|Xi)= 021

例: Test Scorei=β0+β1STRi+ ui, ui=其他因素 其他因素可能包括哪些内容? 对于其他因素而言, E(u|X=x)= 0这个条件是否可信呢?22

随机对照试验中u的条件均值在随机对照试验中,试验对象被随机分配到处理组(X=1)或者对照组(X=0)中。其中随机分配通常采用与试验对象无关的计算机程序进行,这样就能确保 X的分布与试验对象的所有个体特征独立。随机分配使 X和 u相互独立,这就意味着给定 X时,u的条件均值为零。23

相关系数和条件均值给定一个变量时另一个变量的条件期望为零,则这两个变量的协方差为零。因此,条件均值假设 E(ui|Xi)=0,意味着 ui和 Xi不相关,或 corr(Xi,ui)=0.由于相关系数是线性关系的度量,,上述结论反过来不成立;即使 ui和 Xi不相关,给定 Xi时,ui的条件均值也可能不为零。但是如果 ui和 Xi相关,则 E(ui|Xi)必定不为零。

24

计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!

最小二乘假设之2Yi=β0+β1Xi+ ui, i= 1,…, n (Xi,Yi), i=1,…,n,的观测独立同分布 (iid).(随机抽样) 这是关于如何抽样的表述。 如果观测是从单个较大总体中通过简单随机抽样得到的,则(Xi,Yi)独立同分布。

最小二乘假设之3Yi=β0+β1Xi+ ui, i= 1,…, n不太可能出现大异常值 Xi和(或)Yi的观测中远落在一般数据范围之外的大异常值是不大可能

出现的。 表述为:X和 Y具有非零有限四阶距:即 0< E ( X )<∞, 0< E (Y )<∞ 或表述为:X和 Y具有有限峰度。 该假设说明 OLS对异常值是很敏感的。4 i 4 i

25

26

出现异常值情况举例OLS估计量的抽样分布 OLS估计量β 0和β1是由随机抽取的样本计算得到的,抽取的 样本不同,得到的β 0和β1的取值也不同。这些估计量本身就

是随机变量,具有描述在不同可能随机样本中取值情况的概率分布,即抽样分布。

图中孤立点表明 X和 Y哪个取值异常?

实践中,出现异常值的一种可能是数据登录错误。画数据散点图是简单有效的检查方法。27 28

线性回归分析的概率框架模型总体所关注对象的集合 (例如:所有可能的学区)

β1抽样分布 类似于Y,β1具有抽样分布 E(β )=? (即它的中心是什么?)1

随机变量 Y, X例如:测试成绩(testsore),学生教师比(STR) (Y, X)的联合分布总体模型为线性。即线性于参数β 0,β1。 E(u|X)= 0 (最小二乘假设之一) X, Y具有有限四阶距 (最小二乘假设之三)

如果 E(β1 )=β1,则 OLS是无偏的。一很好性质。 var(β )=? (衡量抽取样本的不确定)1

小样本情况下β1的分布?

简单随机抽样{(Xi, Yi)}, i= 1,…, n,为 i.i.d. (最小二乘假设之二)

一般情况下非常复杂。 大样本情况下β的分布?1

大样本情况下,β1近似于正态分布。30

29

计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!

β1抽样分布的均值和方差Yi=β0+β1Xi+ ui Y=β0+β1 X+ u Yi– Y=β1(Xi– X )+ (ui– u ),带入下式中

β1=β 1

∑( Xi=1 n

n

i

X )( X i X )i

∑( Xi=1

+

∑( Xi=1 n i=1

n

i

X )(ui u )i

X )2

∑( X

X )2

可得

β1

=

∑( Xi=1 n i=1

n

i

X )(Yi Y )i

∑( X

X )2

=

∑ ( X i X )[β1 ( X i X )+ (ui u )]i=1

n

得到

β1–β1=

∑( Xi=1 n i=1

n

i

X )(ui u )i

∑( Xi=1

n

i

X )2

∑( X

X )2

31

32

∑( Xi=1

n

i

X )(u i u )=n

∑( Xi=1

n

i

X )u i带入β1–β1表达式

又∑( Xi=1

n

i

X )(u i u )

=∑( Xn i=1

i

X )u i

– ∑ ( X n

i=1

i

X ) u

=∑( Xn i=1n

i

X )u i X )u i

n ∑ X i nX u i=1

β1–β1=

∑( Xi=1 n i=1

i

X )(ui u )i

=∑( Xi=1

∑( X∑( Xi=1 n i=1 n

X )2

i

可得到 β1–β1=i

X )u ii

∑( X

X )2

33

34

计算E (β1 ) n ∑ ( X i X )u i )–β1= E i=1 E(β1 n ( X X )2 ∑ i i=1 根据期望的迭代法则: E(Y)= E[ E(Y| X)] 2.20

计算Var (β1 ) β1–β1=

∑( Xi=1

n i=1

n

i

X )u ii

∑( X

X )2

1 n∑ vi n i=1= n 1 2 sX n n 1≈ 1,可得 n

n ∑ ( X i X )u i 1= E E i=n X 1,..., X n ∑ ( X i X )2 i=1 = 0由最小二乘假设一,E(ui|Xi=x)= 0

2令 vi= (Xi– X )ui.如果 n取值大,则 s 2≈σ X且 X

β1–β1≈

1 n∑vi n i=12σX

,

因此,假设 1意味着 E(β1 )=β1,即β1是β1的无偏估计量。 具体参考: App. 4.335

其中 vi= (Xi– X )ui (见 App. 4.3).于是有,36

计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!

β1–β1≈

1 n∑vi n i=1

σ

2 X

β的抽样分布是很复杂,依赖于(Y, X)总体分布情况。当1

β1抽样分布

so

var(β1–β1)= var(β1 )

n较大时,可以认为近似有以下结论: (1)因为 var(β1 )∝ 1/n和 E(β1 )=β1,有β1→β1p

= so

var( v )/ n 2 (σ X )2

(2)当 n够大,β1的抽样分布可以较好地近似为正态分布。 (CLT)假设{vi}, i= 1,…, n为 i.i.d.且满足 E(v)= 0和 var(v)=σ2.那

1 var[( X i μ x )ui] var(β1–β1)=× . 4 nσX总结 β1是无偏的: E(β1 )=β1–如同 Y ! var(β )与 n为反比关系–如同 Y !137

么,当 n够大时,

1 n∑ vi近似地服从 N(0,σ v2/ n ). n i=1

38

β1的大样本分布1 n 1 n∑ vi n∑ vi n i=1 ≈ i=1,其中 vi= (Xi– X )uiβ1–β1= 2σX n 1 2 sX n 当 n够大, vi= (Xi– X )ui≈ (Xi–μX)ui,为 i.i.d. (why?),同时 var(vi)<∞ (why?).因此,根据 CLT,态分布 N(0,σ v2/ n ). 因此,当 n够大,β近似服从1

X的方差越大,β1的方差越小由式 var(β1–β1)=

1 var[( X i μ x )ui]× 4σX n

2 其中σ X= var ( X i ),β1的方差与X i的方差平方成反比。

1∑ vi近似服从正 n i=1n

启示如果 X有更多的变化,则拥有更多的信息可以用来拟合回归线。

σ2 β1~ N β 1, v 4 nσ X

,其中 vi= (Xi–μX)ui 39 40

举例:X的方差越大,β1的方差越小

关于β1抽样分布的总结如果最小二乘的三个假设成立,则 β 1的抽样分布: E(β )=β1 (β是无偏的)1 1

1 var[( X i μ x ) ui] 1 ∝ . var(β 1 )=× 4 nσX n β 1的真实分布是复杂的,依赖于(X,u)分布情况 β 1→β1 (β 1是一致的) β E (β1 )~ N(0,1) (CLT) 当 n够大, 1 var(β )1

p

图中黑色点和蓝色点数量相等。黑色点表示方差较大的 Xi的集合,蓝色点表示方差较小的 Xi的集合。通过黑色点估计的回归线比用蓝色点估计的更精确。41 42

计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!

Exercises 1(a) The predicted average test score isTestScore= 520.4 5.82× 22= 392.36

(b) The predicted

change in the classroom average test score isΔTestScore= ( 5.82× 19) ( 5.82× 23)= 23.28

43

44

Exercises 6 (c) Using the formula forβ 0 in Equation (4.8), we know the sample average of the test scores across the 100

classrooms is

TestScore=β 0+β 1× CS= 520.4 5.82× 21.4= 395.85.

Using(d) Use the formula for the standard error of the regression (SER) in Equation (4.19) to get the sum of squared residuals:SSR= ( n 2) SER 2= (100 2)× 11.52= 12961.

E (ui|Xi )= 0,

we have

E (Yi|Xi )= E (β 0+β1 Xi+ ui|Xi )=β 0+β1E ( Xi|Xi )+ E (ui|Xi )=β 0+β1 Xi .

Use the formula for R 2 in Equation (4.16) to get the total sum of squares:TSS=2 The sample variance is sY=TSS n 1

SSR 12961== 13044. 1 R2 1 0.082

2= 13044= 131.8. Thus, standard deviation is sY= sY= 11.5. 99

45

46

Empirical Exercises 1(a)AHE= 3.32+ 0.45× Age

作业

习题1,2,3,7

Earnings increase, on average, by 0.45 dollars per hour when workers age by 1 year. (b) Bob’s predicted earnings= 3.32+ 0.45× 26=$11.70 Alexis’s predicted earnings= 3.32+ 0.45× 30=$13.70 (c) The R2 is 0.02.This mean that age explains a small fraction of the variability in earnings across individuals.

. reg ahe age Source Model Residual Total ahe age _cons SS 13631.8133 598935.455 612567.269 Coef. .4519313 3.324185 df 1 7984 7985 MS 13631.8133 75.0169658 76.7147487 t 13.48 3.32 P>|t| 0.000 0.001 Number of obs= F( 1, 7984)= Prob> F= R-squared= Adj R-squared= Root MSE= 7986 181.72 0.0000 0.0223 0.0221 8.6612

Std. Err. .0335255 1.00223

[95% Conf. Interval] .3862126 1.359552 .5176501 5.288817

47

48

本文来源:https://www.bwwdw.com/article/l9d1.html

Top