第6讲 线性回归分析
更新时间:2023-11-07 02:11:01 阅读量: 教育文库 文档下载
- 盖马三锤第6讲推荐度:
- 相关推荐
第6讲 线性回归分析
regress — Linear regression(线性回归)
一、概述
regress执行线性回归,包括普通最小二乘法OLS和加权最小二乘法WLS。对于线性回归的一般讨论,请参阅Draper and Smith (1998),Greene (2012),或Kmenta (1997)。此外,谢宇《回归分析》(社会科学文献出版社,2012)。
参见伍德里奇(Wooldridge,2013)对线性回归模型的估计,推断,解释和设定检验所做的出色处理(treatment)。这篇报告澄清了统计问题而不是代数问题,因而独具特色。参见伍德里奇(Wooldridge,2010,第4章)沿着同样的思路展开的更高深的讨论。
参见汉密尔顿(Hamilton,2013,第7章)、卡梅隆和特里维迪(Cameron & Trivedi ,2010,第3章)介绍了使用Stata进行线性回归分析。Dohoo,Martin和Stryhn(2012,2010)使用来自流行病学的实例讨论线性回归,并且提供了论文中使用的Stata数据集和do-files。卡梅伦和特里维迪(Cameron & Trivedi,2010)使用Stata与计量经济学的例子讨论了线性回归分析。Mitchell (2012)使用图形和后续检验命令来理解拟合的回归模型。
查特吉和哈迪(Chatterjee & Hadi,2012)使用包含典型问题的例子解释回归分析,在进行探索性数据分析时可能遇到这些典型问题。韦斯伯格(Weisberg,2005)强调线性回归假设条件以及由这些假设条件引起的问题的重要性。Becketti (2013)着重利用时间序列数据讨论回归分析。安格里斯特和皮施克(Angrist & Pischke,2009)把回归方法作为探索关系,评估处理效应,回答公共政策问题的工具。对模型选择技术和探索性数据分析的讨论,参见Mosteller & Tukey (1977)。一个严格的数学处理(treatment),请参阅Peracchi(2001,第6章)。最后,如果你对回归分析的历史有兴趣,请参看Plackett(1972)。最小二乘法,其历史可以追溯到18世纪90年代,是由勒让德(Legendre)和高斯(Gauss)各自独立发现的。
二、扩展学习
1
0.一些常用的其他回归命令
命令 条目 命令描述
areg arch arima boxcox cnsreg eivreg
[R] areg [TS] arch [TS] arima [R] boxcox [R] cnsreg [R] eivreg
具有很多虚拟变量的回归 具有ARCH误差的回归模型 ARIMA模型 Box–Cox回归模型 有约束条件的线性回归 自变量带有测量误差的回归模型 具有内生处理效应的线性回归 随机前沿模型 广义矩估计 Heckman选择模型 区间回归
单方程工具变量回归 具有内生变量的tobit回归 具有Newey–West标准误差的回归 非线性最小二乘估计 非线性方程组估计
分位数(包括中位数)回归 三阶段最小二乘(3SLS)回归 稳健回归 广义结构方程模型 线性结构方程模型
相依回归(seemingly unrelated regression) tobit回归 截断数据回归
Arellano–Bond线性动态面板数据估计 线性动态面板数据估计 面板数据GLS模型
误差成分模型的Hausman–Taylor(豪斯曼–泰勒)估计 面板数据区间回归模型 面板数据工具变量(2SLS)回归 具有面板校正标准误差的线性回归 固定效应和随机效应线性模型
具有AR(1)扰动项的固定效应和随机效应线性模型 面板数据tobit 模型
etregress [TE] etregress frontier [R] frontier gmm heckman intreg ivtobit newey nl nlsur qreg reg3 rreg gsem sem sureg tobit xtabond xtdpd xtgls
[R] gmm [R] heckman [R] intreg [R] ivtobit [TS] newey [R] nl [R] nlsur [R] qreg [R] reg3 [R] rreg [SEM] intro 5 [SEM] intro 5 [R] sureg [R] tobit [XT] xtabond [XT] xtdpd [XT] xtgls
ivregress [R] ivregress
truncreg [R] truncreg
xtfrontier [XT] xtfrontier 面板数据随机前沿模型 xthtaylor [XT] xthtaylor xtintreg [XT] xtintreg xtivreg xtpcse xtreg xtregar xttobit
[XT] xtivreg [XT] xtpcse [XT] xtreg [XT] xtregar [XT] xttobit
1.估计命令的完整列表 help estimation commands
2
2.网络学习视频(Video example)
http://www.youtube.com/user/statacorp Simple linear regression in Stata 3.参考书
(1)Adkins, L. C., and R. C. Hill. 2011. Using Stata for Principles of Econometrics. 4th ed. Hoboken, NJ: Wiley.
(2)Angrist, J. D., and J.-S. Pischke. 2009. Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton, NJ:Princeton University Press.
(3)Becketti, S. 2013. Introduction to Time Series Using Stata. College Station, TX: Stata Press.
(4)Cameron, A. C., and P. K. Trivedi. 2010. Microeconometrics Using Stata. Rev. ed. College Station, TX: Stata Press.
(5)Chatterjee, S., and A. S. Hadi. 2012. Regression Analysis by Example. 5th ed. New York: Hoboken, NJ.
(6)Davidson, R., and J. G. MacKinnon. 1993. Estimation and Inference in Econometrics. New York: Oxford University Press.
(7). 2004. Econometric Theory and Methods. New York: Oxford University Press. (8)Dohoo, I., W. Martin, and H. Stryhn. 2010. Veterinary Epidemiologic Research. 2nd ed. Charlottetown, Prince Edward Island: VER Inc.
(9). 2012. Methods in Epidemiologic Research. Charlottetown, Prince Edward Island: VER Inc.
(10)Draper, N., and H. Smith. 1998. Applied Regression Analysis. 3rd ed. New York: Wiley.
(11)Gould, W. W. 2011a. Understanding matrices intuitively, part 1. The Stata Blog: Not Elsewhere Classified.
http://blog.stata.com/2011/03/03/understanding-matrices-intuitively-part-1/.
(12). 2011b. Use poisson rather than regress; tell a friend. The Stata Blog: Not Elsewhere Classified.
http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/. (13)Greene, W. H. 2012. Econometric Analysis. 7th ed. Upper Saddle River, NJ:
3
Prentice Hall.
(14)Hamilton, L. C. 2013. Statistics with Stata: Updated for Version 12. 8th ed. Boston: Brooks/Cole.
(15)Hill, R. C., W. E. Griffiths, and G. C. Lim. 2011. Principles of Econometrics. 4th ed. Hoboken, NJ: Wiley.
(16)Kmenta, J. 1997. Elements of Econometrics. 2nd ed. Ann Arbor: University of Michigan Press.
(17)Kohler, U., and F. Kreuter. 2012. Data Analysis Using Stata. 3rd ed. College Station, TX: Stata Press.
(18)Mitchell, M. N. 2012. Interpreting and Visualizing Regression Models Using Stata. College Station, TX: Stata Press.
(19)Peracchi, F. 2001. Econometrics. Chichester, UK: Wiley.
(20)Weisberg, S. 2005. Applied Linear Regression. 3rd ed. New York: Wiley. (21)Wooldridge, J. M. 2010. Econometric Analysis of Cross Section and Panel Data. 2nd ed. Cambridge, MA: MIT Press.
(22). 2013. Introductory Econometrics: A Modern Approach. 5th ed. Mason, OH: South-Western.
三、补充学习:因子变量(Factor variables)
因子变量是现有变量的扩展,例如: i.varname
i.varname#i.varname
i.varname#i.varname#i.varname i.varname##i.varname
i.varname##i.varname##i.varname
因子变量从分类变量中创建指标变量,而且大多数估计命令和后续检验命令以及其他一些命令都允许因子变量。
考虑变量group取值为1、2和3。命令list允许因子变量,所以我们可以看
4
到因子变量是如何扩展的: list group i.group in 1/5
我们的数据中没有变量1b.group,2.group和3.group,只有变量group。然而,当我们输入i.group,Stata遵循变量1b.group,2.group和3.group存在的方式运行。1b.group,2.group和3.group称为虚拟变量(virtual variables)。 11.4.3.1 Factor-variable operators 因子变量算子
i.group被称为因子变量,更准确的说法是,group是一个已经应用了因子变量算子的分类变量。有五种因子变量算子:
Operator Description
i. 一元算子,设定指标,针对分类变量 c. 一元算子,针对连续型变量
o. 一元算子,省略一个变量(连续型变量)或指标(分类变量) # 二元算子, 设定交互项 ## 二元算子, 设定两两交互项
举例说明:
5
Factor specification Result
i.group 针对分类变量group的所有情况设定指标
i.group#i.sex 针对group和 sex的 每个组合设定指标, 两项交互项 group#sex 和i.group#i.sex相同
group#sex#arm 针对group、 sex和arm 的每个组合设定指标,三项交互项 group##sex 等同于i.group i.sex group#sex
group##sex##arm等同于i.group i.sex i.arm group#sex group#arm sex#arm group#sex#arm
sex#c.age 得到两个变量— 男性年龄,否则为0;女性年龄,否则为0。如果年龄也在模型中,那么两个虚拟变量之一将成为基准 sex##c.age 等同于 i.sex age sex#c.age c.age 等同于age
c.age#c.age age的平方项 squared c.age#c.age#c.age age的立方 cubed o.age 省略连续变量age
o2.group 省略针对group = 2的指标
group#c.age (or i.group#c.age) 分类变量group 的每一种情况和连续变量age的交互项。我们已经知道 i.group 扩展为虚拟变量1b.group, 2.group, and 3.group,因此group#c.age 形成的变量集是1b.group*age,2.group*age 和3.group*age. 1b.group*age 为0,因为1b.group 为zero。当group = 2时,2.group*age 等于age ,否则为0。当group = 3时,3.group*age等于age,否则为0。在y 对 age和group#c.age的线性回归中,1b.group*age 将省略,2.group*age将测量group = 2 ,年龄系数相对于基准组的变化,3.group*age道理同上。
再看一个例子:
regress y i.sex i.group sex#group age sex#c.age 等同于
regress y sex##group sex##c.age
6
三、普通最小二乘法OLS
例1:基本线性回归
拟合模型:mpg??0??1weight??2foreign?? use auto,clear
regress mpg weight foreign
例2:方法1:改变因变量
作图观察mpg和weight的关系(scatter mpg weight或twoway(scatter mpg weight) ),我们会发现这种关系很明显是非线性。这是可以预料的,因为单位距离的油耗应该随着重量而线性增加,但mpg测量的是每单位油耗的行驶里程。我们可以通过创建一个新的变量gp100m=100/mpg,获得一个更好的模型:(解释说明:移动2000磅1英里与移动1000磅1英里相比,应该消耗两倍的能量。也就是说,重量和能量是线性关系,而英里(每加仑英里数(Miles per gallon))和重量不是线性关系,所以每英里加仑数(gallons per mile)是重量的线性函数。) 拟合模型:
gp100m??0??1weight??2foreign??
generate gp100m = 100/mpg (汽车每百英里油耗,单位是加仑/百英里) regress gp100m weight foreign
例3:方法2:自变量的平方项
regress mpg weight c.weight#c.weight foreign
四、处理常数项
例4:处理常数项
regress weight length bn.foreign, hascons (模型/回归设定已经有常数项(直接或间接),所以不再加常数项)
regress weight length bn.foreign, noconstant (取消常数项)
五、稳健标准误差
7
例5:异方差与稳健标准误差(本例研究外国车和本国车的相对能量效率) gen gpmw = ((1/mpg)/weight)*100*1000 (汽车每百英里·千磅的油耗,单位是加仑/百英里·千磅。mpg表示油耗标准,英里/加仑,即每加仑燃油可行驶英里数) summarize gpmw summarize mpg
regress gpmw foreign (传统的标准误差)
regress gpmw foreign, vce(robust) (指定vce(robust)选项等同于要求怀特修正标准误差检验异方差)
tabulate foreign, summarize(gpmw) (gpmw具有显著的异方差,因此,这里我们赞成稳健标准误差。稳健估计的优点是,我们不必检查假设条件。)
例6:集群数据的标准误差
use regsmpl, clear (tenure表示保持工作的回报率)
regress ln_wage age age2 tenure (我们有理由确信报告的标准误差没有意义。一般来说,工资在某一年高于平均水平通常在其他年份也高于平均水平,因此残差不是独立的。处理这个问题的方法之一是应用随机效应模型,但我们首先使用指定vce(cluster id)的回归方程来拟合模型,这种方法只把具有不同ID的观测值看作真正独立。)
regress ln_wage age age2 tenure, vce(cluster id) xtreg ln_wage age age2 tenure, re estimates store random
xtreg ln_wage age age2 tenure, fe hausman . random
六、加权回归
例7:使用均值作为回归变量
我们有人口普查数据记录的每个州的死亡率(drate)和年龄中位数(medage),数据还记录了每个州所在的地区和每个州的总人口:
8
use census9,clear describe
regress drate medage i.region [w=pop] (我们可以使用因子变量作为地区虚拟变量。因为在回归中,变量反映整体均值而不是个体观测值,所以合适的估计方法是利用加权最小二乘法,其中权重是总人口。)(4.region统计显著,但2.region和3.region不显著。使用test检验地区虚拟变量的联合显著性)
test 2.region 3.region 4.region (结果表明地区变量联合显著)
regress drate medage i.region [fweight=pop] (统计错误。Stata把数据看作代表2.26亿个关于死亡率与年龄中位数的独立观测值。实质上,它们代表50个州的平均观测值。)(指定aweights或fweights不会改变参数估计值,但会改变相应的显著性水平。指定aweights,Stata把该进程中的观测值数目看作数据中观测值的数目。当指定fweights,Stata把观测值数目看作等于权重的总和)
9
正在阅读:
第6讲 线性回归分析11-07
英国学前教育的特点及启示09-13
人教版八年级物理上册:第3章物态变化+第2节熔化和凝固教案01-04
党组2017年新年致辞(共2篇)02-16
八面受敌读书法06-23
自信的追梦人作文700字06-19
基础工程考试题(王晓谋、第四版)04-17
电镀企业应急预案样板 - 图文05-31
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 线性
- 回归
- 分析
- 2018年公需科目考试参考答案1
- 莆田学院(计生办)文件 - 图文
- 市场现状与营销策略分析
- 微生物简答题
- 证据法学多选题
- 汽车节能技术复习题C
- 电工电子检测题习题解析1
- 2018-2023年中国自贸区市场发展态势分析及风险预测研究报告-行业发展趋势分析 - 图文
- 注塑机的安装调试
- 汽改水项目电大路东延顶管专项施工方案
- 小学家长会家长代表发言稿
- 实验六 - Java的输入输出流
- 南昌大学《当代世界经济与政治》课程教学教案大纲 - 图文
- 酒店市场营销教案
- 英语四级预测试卷及解析2
- 关于做好2017年1月毕业生办理毕业手续的重要通知
- 控制技术实验报告--基于Matlab的最少拍控制系统设计
- 3电力变压器及电抗器培训课件
- 锅炉水处理人员资格考核大纲
- 判断题(基础护理)