计量经济学4_一元线性回归
更新时间:2023-06-08 02:04:01 阅读量: 实用文档 文档下载
计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!
一元线性回归 Chapter 4Linear Regression with One Regressor一元线性回归
一元线性回归使我们可以估计、推断总体回归线的斜率系数。我们的最终目标是估计自变量 X发生一个单位的变化,会导致因变量Y发生多少的变化。 为使问题简化,下面我们分析只有两个变量的 Y和X之间为线性关系的情形。
2
总体回归线(The population一般意义上讲,对均值或者两个均值间进行的统计推断,与对线性回归的统计推断是类似的。
regression line)Test Score=β0+β1STR
估计
如何从数据中得到一个直线以用来估计总体回归线的斜率:使用普通最小二乘(ordinary least squares )。使用 OLS的好处与不足有哪些?如何检验斜率是否为零。如何构建关于斜率取值的置信区间。
β1=总体回归线的斜率=
假设检验
ΔTest scoreΔSTR= STR变化一单位导致 test score发生的变动2.我们希望知道总体参数β1的具体数值。 3.然而,我们并不知道β的数值是多少,因此要根
1.为何β0和β1被称为总体参数?
置信区间
据数据对它进行估计。3 4
一元线性回归模型的术语Yi=β0+β1Xi+ ui, i= 1,…, n X是自变量(independent variable)或回归变量
7个学区的假想观测值 Yi=β0+β1X为总体回归线 ui为第i个观测的总体误差项
( regressor)或右边变量。 Y是因变量(dependent variable)从属变量
(regressand)或左边变量。 β0:总体回归的截距(intercept) β1:总体回归的斜率(slope) ui:误差项(error item)
误差项构可能因遗漏因素或 Y的测量误差引起。遗漏因素指那些除了变量 X之外的能够对 Y产生影响的因素。5 6
计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!
如何利用数据估计β0和β1?——普通最小二乘估计量前面讨论过,Y是总体均值μY的最小二乘估计量,即在所有可能的估计量 m中, Y使估计误差总平方和最小:
将 OLS估计量这种思想应用于线性回归模型。令 b0和 b1分别表示β0和β1的某个估计量,则基于这些估计量的回归线为:b0+b1X,于是由这条线得到 Yi的预测值为:b0+b1Xi。因而,第 i个观测的观测误差为:Yi-b0-biXi,n个观测的观测误差平方和为:
min m∑ (Yi m )i=1
n
2
∑ (Y bi=1 i
n
0
bi X i ) 2
4.6
称最小化 4.6式中误差平方和的截距和斜率估计量为β0和β1的普通最小二乘(OLS)估计量。7 8
OLS估计量、预测值和残值斜率β1和截距β 0的OLS估计量分别为 β1=
OLS预测值和残值 OLS预测值Yi和残差ui分别为: Y=β+β X, i= 1, 2, ni 0 1 i
∑(Xi=1 n i=1
n
4.9 4.10
i
X )(Yi Y )i
∑(X
=
X )2
s XY 2 sX
4.7
ui=β1i Yi 估计的截距β 0和β1和
残差ui是利用X i和Yi, i= 1, 2 n的n组样本观测值计算得到的。它们分别是未知总体截距
β 0= Y β1 X
4.8
β 0、β1和ui真值的估计。
9
10
例:测试成绩和学生/教师比关系的 OLS估计值
截距和斜率估计值的经济含义TestScore= 698.9– 2.28×STR -2.28表示:每个教师对应的学生人数增加 1时,学区测试成绩平均下降 2.28分。ΔTest score 即,=–2.28ΔSTR
698.9表示:对于这个回归线,每个教师对应 0个学生的
β1=– 2.28 β 0= 698.9TestScore= 698.9– 2.28×STR11
学区,预计测试成绩为 698.9分。
注意:截距的取值没有经济含义。
12
计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!
例:预测值和残差
利用STATA做OLS回归输入命令:regress testscr str, robust命令的含义 Regression with robust standard errors Number of obs F( 1, 418) Prob> F R-squared Root MSE===== 420 19.26 0.0000 0.0512 18.581
对于数据中的 Antelope学区,其 STR= 19.33,与之相应的 Test Score= 657.8,则 Antelope学区的成绩预测值:残差:
------------------------------------------------------------------------| Robust testscr| Coef. Std. Err. t P>|t|[95% Conf. Interval] --------+---------------------------------------------------------------str| -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671 _cons| 698.933 10.36436 67.44 0.000 678.5602 719.3057 -------------------------------------------------------------------------
TestScore= 698.9– 2.28×STR
YAntelope= 698.9– 2.28×19.33= 654.8
u Antelope= 657.8– 654.8= 3.013 14
拟合优度( Measures of Fit )所得到的回归线描述数据的效果如何评价?回归变量说明了大部分还是极少部分的因变量变化?观测值是紧密地聚集在回归线周围还是很分散? 回归的 R2是指可由 Xi解释(或预测)的 Yi样本方差的比例。回归的 R2的取值范围为 0到 1.
回归的R2回归的 R2是指可由 Xi解释(或预测)的 Yi样本方差的比例。 Yi= Yi+ ui= OLS预测值+ OLS残差 sample var (Y)= sample var(Yi )+ sample var( ui ) (why?) 总平方和(TSS)=被解释平方和(ESS)+剩余平方和(SSR)
ESS TSS SSR SSR== 1 TSS TSS TSS R2= 0表示 ESS= 0 R2= R2= 1表示 ESS= TSS 0≤ R2≤ 1
回归标准误差(standard error of the regression,SER)是回归误差 ui的标准差估计量。
Y关于一元变量 X回归的 R2是 Y与 X的相关系数平方。16
15
回归标准误差(The Standard Error of the Regression, SER)回归标准误差是回归误差 ui的标准差估计量。因为 ui的单位和 Yi的单位一样,所以 SER是用因变量单位
为何用 n–2代替 n–1?SER=
1 n 2 ∑ ui n 2 i=1
度量的观测值在回归线附近的离散程度。SER=
除以 n–2是进行自由度修正。类似于计算样本方差的公式中除
以 n–1,是由于计算时用到一个参数的估计量 (,用Y估计μY)。在计算回归标准误差的时候,用到两个参数的估 计量(用β和β估计β0,β1)。0 1
1 n ∑ (ui u )2 n 2 i=1 1 n 2 ∑ ui n 2 i=1
当 n很大时,除以 n, n–1, or n–2的差距不大。
=
(其中第二个等式用到 u=
1 n ∑ ui= 0). n i=117 18
计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!
例:R2和 SER
最小二乘假设我们希望 OLS估计量具有无偏、较小方差的特性。但是在什么样的前提之下,OLS估计量才是总体参数的无偏估计量呢?为此,我们需要对 Y和 X是如何相互关联以及有关数据是如何收集(抽样方案)的进行一定的假设。共有三个基本假设。
TestScore= 698.9– 2.28×STR, R2= 0.05, SER= 18.6从 R= 0.05看,STR仅仅揭示了测试成绩变动中的一小部分。这个结论有意义么?是否可以认为 STR在政策制定中不重要呢?19 20
2
最小二乘假设之1Yi=β0+β1Xi+ ui, i= 1,…, n零条件均值给定 Xi时,ui,的条件分布均值为零。该假设是关于包含在 ui中的“其他因素”的规范数学表示,表明在 Xi取值给定时,其他因素分布均值为零,也就是说, 这些“其他因素”与 Xi无关。这意味着β1是无偏
E(u|X= x)= 0.给定 Xi时,ui的条件分布均值为零。
的。
表示为: E(ui|Xi= x)= 0简单记为 E(u i|Xi)= 021
例: Test Scorei=β0+β1STRi+ ui, ui=其他因素 其他因素可能包括哪些内容? 对于其他因素而言, E(u|X=x)= 0这个条件是否可信呢?22
随机对照试验中u的条件均值在随机对照试验中,试验对象被随机分配到处理组(X=1)或者对照组(X=0)中。其中随机分配通常采用与试验对象无关的计算机程序进行,这样就能确保 X的分布与试验对象的所有个体特征独立。随机分配使 X和 u相互独立,这就意味着给定 X时,u的条件均值为零。23
相关系数和条件均值给定一个变量时另一个变量的条件期望为零,则这两个变量的协方差为零。因此,条件均值假设 E(ui|Xi)=0,意味着 ui和 Xi不相关,或 corr(Xi,ui)=0.由于相关系数是线性关系的度量,,上述结论反过来不成立;即使 ui和 Xi不相关,给定 Xi时,ui的条件均值也可能不为零。但是如果 ui和 Xi相关,则 E(ui|Xi)必定不为零。
24
计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!
最小二乘假设之2Yi=β0+β1Xi+ ui, i= 1,…, n (Xi,Yi), i=1,…,n,的观测独立同分布 (iid).(随机抽样) 这是关于如何抽样的表述。 如果观测是从单个较大总体中通过简单随机抽样得到的,则(Xi,Yi)独立同分布。
最小二乘假设之3Yi=β0+β1Xi+ ui, i= 1,…, n不太可能出现大异常值 Xi和(或)Yi的观测中远落在一般数据范围之外的大异常值是不大可能
出现的。 表述为:X和 Y具有非零有限四阶距:即 0< E ( X )<∞, 0< E (Y )<∞ 或表述为:X和 Y具有有限峰度。 该假设说明 OLS对异常值是很敏感的。4 i 4 i
25
26
出现异常值情况举例OLS估计量的抽样分布 OLS估计量β 0和β1是由随机抽取的样本计算得到的,抽取的 样本不同,得到的β 0和β1的取值也不同。这些估计量本身就
是随机变量,具有描述在不同可能随机样本中取值情况的概率分布,即抽样分布。
图中孤立点表明 X和 Y哪个取值异常?
实践中,出现异常值的一种可能是数据登录错误。画数据散点图是简单有效的检查方法。27 28
线性回归分析的概率框架模型总体所关注对象的集合 (例如:所有可能的学区)
β1抽样分布 类似于Y,β1具有抽样分布 E(β )=? (即它的中心是什么?)1
随机变量 Y, X例如:测试成绩(testsore),学生教师比(STR) (Y, X)的联合分布总体模型为线性。即线性于参数β 0,β1。 E(u|X)= 0 (最小二乘假设之一) X, Y具有有限四阶距 (最小二乘假设之三)
如果 E(β1 )=β1,则 OLS是无偏的。一很好性质。 var(β )=? (衡量抽取样本的不确定)1
小样本情况下β1的分布?
简单随机抽样{(Xi, Yi)}, i= 1,…, n,为 i.i.d. (最小二乘假设之二)
一般情况下非常复杂。 大样本情况下β的分布?1
大样本情况下,β1近似于正态分布。30
29
计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!
β1抽样分布的均值和方差Yi=β0+β1Xi+ ui Y=β0+β1 X+ u Yi– Y=β1(Xi– X )+ (ui– u ),带入下式中
β1=β 1
∑( Xi=1 n
n
i
X )( X i X )i
∑( Xi=1
+
∑( Xi=1 n i=1
n
i
X )(ui u )i
X )2
∑( X
X )2
可得
β1
=
∑( Xi=1 n i=1
n
i
X )(Yi Y )i
∑( X
X )2
=
∑ ( X i X )[β1 ( X i X )+ (ui u )]i=1
n
得到
β1–β1=
∑( Xi=1 n i=1
n
i
X )(ui u )i
∑( Xi=1
n
i
X )2
∑( X
X )2
31
32
将
∑( Xi=1
n
i
X )(u i u )=n
∑( Xi=1
n
i
X )u i带入β1–β1表达式
又∑( Xi=1
n
i
X )(u i u )
=∑( Xn i=1
i
X )u i
– ∑ ( X n
i=1
i
X ) u
=∑( Xn i=1n
i
X )u i X )u i
–
n ∑ X i nX u i=1
β1–β1=
∑( Xi=1 n i=1
i
X )(ui u )i
=∑( Xi=1
∑( X∑( Xi=1 n i=1 n
X )2
i
可得到 β1–β1=i
X )u ii
∑( X
X )2
33
34
计算E (β1 ) n ∑ ( X i X )u i )–β1= E i=1 E(β1 n ( X X )2 ∑ i i=1 根据期望的迭代法则: E(Y)= E[ E(Y| X)] 2.20
计算Var (β1 ) β1–β1=
∑( Xi=1
n i=1
n
i
X )u ii
∑( X
X )2
1 n∑ vi n i=1= n 1 2 sX n n 1≈ 1,可得 n
n ∑ ( X i X )u i 1= E E i=n X 1,..., X n ∑ ( X i X )2 i=1 = 0由最小二乘假设一,E(ui|Xi=x)= 0
2令 vi= (Xi– X )ui.如果 n取值大,则 s 2≈σ X且 X
β1–β1≈
1 n∑vi n i=12σX
,
因此,假设 1意味着 E(β1 )=β1,即β1是β1的无偏估计量。 具体参考: App. 4.335
其中 vi= (Xi– X )ui (见 App. 4.3).于是有,36
计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!
β1–β1≈
1 n∑vi n i=1
σ
2 X
β的抽样分布是很复杂,依赖于(Y, X)总体分布情况。当1
β1抽样分布
so
var(β1–β1)= var(β1 )
n较大时,可以认为近似有以下结论: (1)因为 var(β1 )∝ 1/n和 E(β1 )=β1,有β1→β1p
= so
var( v )/ n 2 (σ X )2
(2)当 n够大,β1的抽样分布可以较好地近似为正态分布。 (CLT)假设{vi}, i= 1,…, n为 i.i.d.且满足 E(v)= 0和 var(v)=σ2.那
1 var[( X i μ x )ui] var(β1–β1)=× . 4 nσX总结 β1是无偏的: E(β1 )=β1–如同 Y ! var(β )与 n为反比关系–如同 Y !137
么,当 n够大时,
1 n∑ vi近似地服从 N(0,σ v2/ n ). n i=1
38
β1的大样本分布1 n 1 n∑ vi n∑ vi n i=1 ≈ i=1,其中 vi= (Xi– X )uiβ1–β1= 2σX n 1 2 sX n 当 n够大, vi= (Xi– X )ui≈ (Xi–μX)ui,为 i.i.d. (why?),同时 var(vi)<∞ (why?).因此,根据 CLT,态分布 N(0,σ v2/ n ). 因此,当 n够大,β近似服从1
X的方差越大,β1的方差越小由式 var(β1–β1)=
1 var[( X i μ x )ui]× 4σX n
2 其中σ X= var ( X i ),β1的方差与X i的方差平方成反比。
1∑ vi近似服从正 n i=1n
启示如果 X有更多的变化,则拥有更多的信息可以用来拟合回归线。
σ2 β1~ N β 1, v 4 nσ X
,其中 vi= (Xi–μX)ui 39 40
举例:X的方差越大,β1的方差越小
关于β1抽样分布的总结如果最小二乘的三个假设成立,则 β 1的抽样分布: E(β )=β1 (β是无偏的)1 1
1 var[( X i μ x ) ui] 1 ∝ . var(β 1 )=× 4 nσX n β 1的真实分布是复杂的,依赖于(X,u)分布情况 β 1→β1 (β 1是一致的) β E (β1 )~ N(0,1) (CLT) 当 n够大, 1 var(β )1
p
图中黑色点和蓝色点数量相等。黑色点表示方差较大的 Xi的集合,蓝色点表示方差较小的 Xi的集合。通过黑色点估计的回归线比用蓝色点估计的更精确。41 42
计量经济学九章讲解,内容详细,讲解细致,一定让你看的过瘾,搞定计量经济不再难!!
Exercises 1(a) The predicted average test score isTestScore= 520.4 5.82× 22= 392.36
(b) The predicted
change in the classroom average test score isΔTestScore= ( 5.82× 19) ( 5.82× 23)= 23.28
43
44
Exercises 6 (c) Using the formula forβ 0 in Equation (4.8), we know the sample average of the test scores across the 100
classrooms is
TestScore=β 0+β 1× CS= 520.4 5.82× 21.4= 395.85.
Using(d) Use the formula for the standard error of the regression (SER) in Equation (4.19) to get the sum of squared residuals:SSR= ( n 2) SER 2= (100 2)× 11.52= 12961.
E (ui|Xi )= 0,
we have
E (Yi|Xi )= E (β 0+β1 Xi+ ui|Xi )=β 0+β1E ( Xi|Xi )+ E (ui|Xi )=β 0+β1 Xi .
Use the formula for R 2 in Equation (4.16) to get the total sum of squares:TSS=2 The sample variance is sY=TSS n 1
SSR 12961== 13044. 1 R2 1 0.082
2= 13044= 131.8. Thus, standard deviation is sY= sY= 11.5. 99
45
46
Empirical Exercises 1(a)AHE= 3.32+ 0.45× Age
作业
习题1,2,3,7
Earnings increase, on average, by 0.45 dollars per hour when workers age by 1 year. (b) Bob’s predicted earnings= 3.32+ 0.45× 26=$11.70 Alexis’s predicted earnings= 3.32+ 0.45× 30=$13.70 (c) The R2 is 0.02.This mean that age explains a small fraction of the variability in earnings across individuals.
. reg ahe age Source Model Residual Total ahe age _cons SS 13631.8133 598935.455 612567.269 Coef. .4519313 3.324185 df 1 7984 7985 MS 13631.8133 75.0169658 76.7147487 t 13.48 3.32 P>|t| 0.000 0.001 Number of obs= F( 1, 7984)= Prob> F= R-squared= Adj R-squared= Root MSE= 7986 181.72 0.0000 0.0223 0.0221 8.6612
Std. Err. .0335255 1.00223
[95% Conf. Interval] .3862126 1.359552 .5176501 5.288817
47
48
正在阅读:
计量经济学4_一元线性回归06-08
安全演讲稿之一07-05
合同抵押登记复习题及参考答案08-17
语文专业术语集锦03-23
道路桥梁施工裂缝的成因及防治12-22
水文地球化学习题08-07
医学统计学试题及答案04-06
房地产销售管理培训05-19
2010年普通话水平测试考试模拟测试试题03-13
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 计量经济学
- 线性
- 一元
- 回归
- 医疗器械类企业名单汇总
- 公司精益成本管理LCM应用案例研究
- 插件作业指导书模板-精
- 武汉市电动自行车登记上牌合格目录
- 从_德伯家的苔丝_的环境描写看哈代的乡土精神
- 白岩松 我们能走多远
- 简谐运动的图象及公式上课用吕佑丞
- 经尿道前列腺电切术156例诊治体会
- TCP-IP基本原理与UNIX网络服务第4章
- 电池性能测试以及分析
- 机械制图的空间思维能力训练
- 3.1.2复数的几何意义
- 远程登陆cofax传真服务器的实施
- 工程造价的全过程管理探究-论文
- 2015-2020年中国锌阳极产业发展现状及发展前景报告
- 第五章侵犯公民人身权利
- 青少年男性性腺功能减退与胰岛素抵抗关系的初步研究
- 钢筋加工安全技术交底
- 《继续医学教育》系列教材和培训“1+2”方案试卷(一)
- 长沙市城市中小学校幼儿园规划建设管理条例(2004年修正本)