第6讲 线性回归分析

更新时间:2023-11-07 02:11:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第6讲 线性回归分析

regress — Linear regression(线性回归)

一、概述

regress执行线性回归,包括普通最小二乘法OLS和加权最小二乘法WLS。对于线性回归的一般讨论,请参阅Draper and Smith (1998),Greene (2012),或Kmenta (1997)。此外,谢宇《回归分析》(社会科学文献出版社,2012)。

参见伍德里奇(Wooldridge,2013)对线性回归模型的估计,推断,解释和设定检验所做的出色处理(treatment)。这篇报告澄清了统计问题而不是代数问题,因而独具特色。参见伍德里奇(Wooldridge,2010,第4章)沿着同样的思路展开的更高深的讨论。

参见汉密尔顿(Hamilton,2013,第7章)、卡梅隆和特里维迪(Cameron & Trivedi ,2010,第3章)介绍了使用Stata进行线性回归分析。Dohoo,Martin和Stryhn(2012,2010)使用来自流行病学的实例讨论线性回归,并且提供了论文中使用的Stata数据集和do-files。卡梅伦和特里维迪(Cameron & Trivedi,2010)使用Stata与计量经济学的例子讨论了线性回归分析。Mitchell (2012)使用图形和后续检验命令来理解拟合的回归模型。

查特吉和哈迪(Chatterjee & Hadi,2012)使用包含典型问题的例子解释回归分析,在进行探索性数据分析时可能遇到这些典型问题。韦斯伯格(Weisberg,2005)强调线性回归假设条件以及由这些假设条件引起的问题的重要性。Becketti (2013)着重利用时间序列数据讨论回归分析。安格里斯特和皮施克(Angrist & Pischke,2009)把回归方法作为探索关系,评估处理效应,回答公共政策问题的工具。对模型选择技术和探索性数据分析的讨论,参见Mosteller & Tukey (1977)。一个严格的数学处理(treatment),请参阅Peracchi(2001,第6章)。最后,如果你对回归分析的历史有兴趣,请参看Plackett(1972)。最小二乘法,其历史可以追溯到18世纪90年代,是由勒让德(Legendre)和高斯(Gauss)各自独立发现的。

二、扩展学习

1

0.一些常用的其他回归命令

命令 条目 命令描述

areg arch arima boxcox cnsreg eivreg

[R] areg [TS] arch [TS] arima [R] boxcox [R] cnsreg [R] eivreg

具有很多虚拟变量的回归 具有ARCH误差的回归模型 ARIMA模型 Box–Cox回归模型 有约束条件的线性回归 自变量带有测量误差的回归模型 具有内生处理效应的线性回归 随机前沿模型 广义矩估计 Heckman选择模型 区间回归

单方程工具变量回归 具有内生变量的tobit回归 具有Newey–West标准误差的回归 非线性最小二乘估计 非线性方程组估计

分位数(包括中位数)回归 三阶段最小二乘(3SLS)回归 稳健回归 广义结构方程模型 线性结构方程模型

相依回归(seemingly unrelated regression) tobit回归 截断数据回归

Arellano–Bond线性动态面板数据估计 线性动态面板数据估计 面板数据GLS模型

误差成分模型的Hausman–Taylor(豪斯曼–泰勒)估计 面板数据区间回归模型 面板数据工具变量(2SLS)回归 具有面板校正标准误差的线性回归 固定效应和随机效应线性模型

具有AR(1)扰动项的固定效应和随机效应线性模型 面板数据tobit 模型

etregress [TE] etregress frontier [R] frontier gmm heckman intreg ivtobit newey nl nlsur qreg reg3 rreg gsem sem sureg tobit xtabond xtdpd xtgls

[R] gmm [R] heckman [R] intreg [R] ivtobit [TS] newey [R] nl [R] nlsur [R] qreg [R] reg3 [R] rreg [SEM] intro 5 [SEM] intro 5 [R] sureg [R] tobit [XT] xtabond [XT] xtdpd [XT] xtgls

ivregress [R] ivregress

truncreg [R] truncreg

xtfrontier [XT] xtfrontier 面板数据随机前沿模型 xthtaylor [XT] xthtaylor xtintreg [XT] xtintreg xtivreg xtpcse xtreg xtregar xttobit

[XT] xtivreg [XT] xtpcse [XT] xtreg [XT] xtregar [XT] xttobit

1.估计命令的完整列表 help estimation commands

2

2.网络学习视频(Video example)

http://www.youtube.com/user/statacorp Simple linear regression in Stata 3.参考书

(1)Adkins, L. C., and R. C. Hill. 2011. Using Stata for Principles of Econometrics. 4th ed. Hoboken, NJ: Wiley.

(2)Angrist, J. D., and J.-S. Pischke. 2009. Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton, NJ:Princeton University Press.

(3)Becketti, S. 2013. Introduction to Time Series Using Stata. College Station, TX: Stata Press.

(4)Cameron, A. C., and P. K. Trivedi. 2010. Microeconometrics Using Stata. Rev. ed. College Station, TX: Stata Press.

(5)Chatterjee, S., and A. S. Hadi. 2012. Regression Analysis by Example. 5th ed. New York: Hoboken, NJ.

(6)Davidson, R., and J. G. MacKinnon. 1993. Estimation and Inference in Econometrics. New York: Oxford University Press.

(7). 2004. Econometric Theory and Methods. New York: Oxford University Press. (8)Dohoo, I., W. Martin, and H. Stryhn. 2010. Veterinary Epidemiologic Research. 2nd ed. Charlottetown, Prince Edward Island: VER Inc.

(9). 2012. Methods in Epidemiologic Research. Charlottetown, Prince Edward Island: VER Inc.

(10)Draper, N., and H. Smith. 1998. Applied Regression Analysis. 3rd ed. New York: Wiley.

(11)Gould, W. W. 2011a. Understanding matrices intuitively, part 1. The Stata Blog: Not Elsewhere Classified.

http://blog.stata.com/2011/03/03/understanding-matrices-intuitively-part-1/.

(12). 2011b. Use poisson rather than regress; tell a friend. The Stata Blog: Not Elsewhere Classified.

http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/. (13)Greene, W. H. 2012. Econometric Analysis. 7th ed. Upper Saddle River, NJ:

3

Prentice Hall.

(14)Hamilton, L. C. 2013. Statistics with Stata: Updated for Version 12. 8th ed. Boston: Brooks/Cole.

(15)Hill, R. C., W. E. Griffiths, and G. C. Lim. 2011. Principles of Econometrics. 4th ed. Hoboken, NJ: Wiley.

(16)Kmenta, J. 1997. Elements of Econometrics. 2nd ed. Ann Arbor: University of Michigan Press.

(17)Kohler, U., and F. Kreuter. 2012. Data Analysis Using Stata. 3rd ed. College Station, TX: Stata Press.

(18)Mitchell, M. N. 2012. Interpreting and Visualizing Regression Models Using Stata. College Station, TX: Stata Press.

(19)Peracchi, F. 2001. Econometrics. Chichester, UK: Wiley.

(20)Weisberg, S. 2005. Applied Linear Regression. 3rd ed. New York: Wiley. (21)Wooldridge, J. M. 2010. Econometric Analysis of Cross Section and Panel Data. 2nd ed. Cambridge, MA: MIT Press.

(22). 2013. Introductory Econometrics: A Modern Approach. 5th ed. Mason, OH: South-Western.

三、补充学习:因子变量(Factor variables)

因子变量是现有变量的扩展,例如: i.varname

i.varname#i.varname

i.varname#i.varname#i.varname i.varname##i.varname

i.varname##i.varname##i.varname

因子变量从分类变量中创建指标变量,而且大多数估计命令和后续检验命令以及其他一些命令都允许因子变量。

考虑变量group取值为1、2和3。命令list允许因子变量,所以我们可以看

4

到因子变量是如何扩展的: list group i.group in 1/5

我们的数据中没有变量1b.group,2.group和3.group,只有变量group。然而,当我们输入i.group,Stata遵循变量1b.group,2.group和3.group存在的方式运行。1b.group,2.group和3.group称为虚拟变量(virtual variables)。 11.4.3.1 Factor-variable operators 因子变量算子

i.group被称为因子变量,更准确的说法是,group是一个已经应用了因子变量算子的分类变量。有五种因子变量算子:

Operator Description

i. 一元算子,设定指标,针对分类变量 c. 一元算子,针对连续型变量

o. 一元算子,省略一个变量(连续型变量)或指标(分类变量) # 二元算子, 设定交互项 ## 二元算子, 设定两两交互项

举例说明:

5

Factor specification Result

i.group 针对分类变量group的所有情况设定指标

i.group#i.sex 针对group和 sex的 每个组合设定指标, 两项交互项 group#sex 和i.group#i.sex相同

group#sex#arm 针对group、 sex和arm 的每个组合设定指标,三项交互项 group##sex 等同于i.group i.sex group#sex

group##sex##arm等同于i.group i.sex i.arm group#sex group#arm sex#arm group#sex#arm

sex#c.age 得到两个变量— 男性年龄,否则为0;女性年龄,否则为0。如果年龄也在模型中,那么两个虚拟变量之一将成为基准 sex##c.age 等同于 i.sex age sex#c.age c.age 等同于age

c.age#c.age age的平方项 squared c.age#c.age#c.age age的立方 cubed o.age 省略连续变量age

o2.group 省略针对group = 2的指标

group#c.age (or i.group#c.age) 分类变量group 的每一种情况和连续变量age的交互项。我们已经知道 i.group 扩展为虚拟变量1b.group, 2.group, and 3.group,因此group#c.age 形成的变量集是1b.group*age,2.group*age 和3.group*age. 1b.group*age 为0,因为1b.group 为zero。当group = 2时,2.group*age 等于age ,否则为0。当group = 3时,3.group*age等于age,否则为0。在y 对 age和group#c.age的线性回归中,1b.group*age 将省略,2.group*age将测量group = 2 ,年龄系数相对于基准组的变化,3.group*age道理同上。

再看一个例子:

regress y i.sex i.group sex#group age sex#c.age 等同于

regress y sex##group sex##c.age

6

三、普通最小二乘法OLS

例1:基本线性回归

拟合模型:mpg??0??1weight??2foreign?? use auto,clear

regress mpg weight foreign

例2:方法1:改变因变量

作图观察mpg和weight的关系(scatter mpg weight或twoway(scatter mpg weight) ),我们会发现这种关系很明显是非线性。这是可以预料的,因为单位距离的油耗应该随着重量而线性增加,但mpg测量的是每单位油耗的行驶里程。我们可以通过创建一个新的变量gp100m=100/mpg,获得一个更好的模型:(解释说明:移动2000磅1英里与移动1000磅1英里相比,应该消耗两倍的能量。也就是说,重量和能量是线性关系,而英里(每加仑英里数(Miles per gallon))和重量不是线性关系,所以每英里加仑数(gallons per mile)是重量的线性函数。) 拟合模型:

gp100m??0??1weight??2foreign??

generate gp100m = 100/mpg (汽车每百英里油耗,单位是加仑/百英里) regress gp100m weight foreign

例3:方法2:自变量的平方项

regress mpg weight c.weight#c.weight foreign

四、处理常数项

例4:处理常数项

regress weight length bn.foreign, hascons (模型/回归设定已经有常数项(直接或间接),所以不再加常数项)

regress weight length bn.foreign, noconstant (取消常数项)

五、稳健标准误差

7

例5:异方差与稳健标准误差(本例研究外国车和本国车的相对能量效率) gen gpmw = ((1/mpg)/weight)*100*1000 (汽车每百英里·千磅的油耗,单位是加仑/百英里·千磅。mpg表示油耗标准,英里/加仑,即每加仑燃油可行驶英里数) summarize gpmw summarize mpg

regress gpmw foreign (传统的标准误差)

regress gpmw foreign, vce(robust) (指定vce(robust)选项等同于要求怀特修正标准误差检验异方差)

tabulate foreign, summarize(gpmw) (gpmw具有显著的异方差,因此,这里我们赞成稳健标准误差。稳健估计的优点是,我们不必检查假设条件。)

例6:集群数据的标准误差

use regsmpl, clear (tenure表示保持工作的回报率)

regress ln_wage age age2 tenure (我们有理由确信报告的标准误差没有意义。一般来说,工资在某一年高于平均水平通常在其他年份也高于平均水平,因此残差不是独立的。处理这个问题的方法之一是应用随机效应模型,但我们首先使用指定vce(cluster id)的回归方程来拟合模型,这种方法只把具有不同ID的观测值看作真正独立。)

regress ln_wage age age2 tenure, vce(cluster id) xtreg ln_wage age age2 tenure, re estimates store random

xtreg ln_wage age age2 tenure, fe hausman . random

六、加权回归

例7:使用均值作为回归变量

我们有人口普查数据记录的每个州的死亡率(drate)和年龄中位数(medage),数据还记录了每个州所在的地区和每个州的总人口:

8

use census9,clear describe

regress drate medage i.region [w=pop] (我们可以使用因子变量作为地区虚拟变量。因为在回归中,变量反映整体均值而不是个体观测值,所以合适的估计方法是利用加权最小二乘法,其中权重是总人口。)(4.region统计显著,但2.region和3.region不显著。使用test检验地区虚拟变量的联合显著性)

test 2.region 3.region 4.region (结果表明地区变量联合显著)

regress drate medage i.region [fweight=pop] (统计错误。Stata把数据看作代表2.26亿个关于死亡率与年龄中位数的独立观测值。实质上,它们代表50个州的平均观测值。)(指定aweights或fweights不会改变参数估计值,但会改变相应的显著性水平。指定aweights,Stata把该进程中的观测值数目看作数据中观测值的数目。当指定fweights,Stata把观测值数目看作等于权重的总和)

9

本文来源:https://www.bwwdw.com/article/pug2.html

Top