第一部分2 经典线性回归模型

更新时间:2024-01-14 10:24:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第二章 经典线性回归模型

一、线性回归模型的概念

1、一元线性回归模型 (1)总体回归模型

总体回归模型:Yi??1??2Xi?ui,E(u|X)?0 总体回归方程:E(Y|X)??1??2X

说明:确定性部分——Y对于给定X的期望值

随机部分——代表了排除在模型以外的所有因素对Y的影响。它是期望为0的,具有一定分布的随机变量。

研究的目标:

①确定总体回归方程的参数

②随机扰动项的分布(想想看,为什么?)?|X?N(0,?2)

(2)样本回归模型

问题:我们往往无法获得全体数据,无法准确的分析出总体回归参数。能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?

画一条直线以尽好地拟合该散点图,由于样本取自总体,可以用该直线近似地代表总体回归线。该直线称为样本回归线。

????X?e 样本回归模型: Yi??12ii????X 样本回归方程:Y?i??12i

1

(3)样本回归线与总体回归线的关系

2

2、多元线性回归模型

在许多实际问题中,我们所研究的因变量的变动可能不仅与一个解释变量有关。

Yi?β1?β2X2i?...?βkXki?ui

斜率 “β”的含义是其它变量不变的情况下,Xj改变一个单位对因变量所产生的影响

即对于n组观测值,有

Y1?β1?β2X21?β3X31?...?βKXK1?u1Y2?β1?β2X22?β3X32?...?βKXK2?u2......Yn?β1?β2X2n?β3X3n?...?βKXKn?un

定义:

?Y1??1???Y21Y??? X???...??...???Y?n?n*1?1X21X22...X2n............??XK1??u1????????1?uXK2? ?????,u??2?

2?...?...???????...?XKn?n*k?un?n*1????K?k*1

多元线性回归模型的矩阵形式为(总体):Y=Xβ+μ,E(Y|)=Xβ

? ?+e,Y?=Xβ (样本)Y=Xβ3

二、经典线性回归模型的统计假设 引言:为什么要做基本假定

①为了保证参数估计得以进行(或者有意义) ②为保证参数估计量具有良好的性质。

③对于随机扰动的分布作出假定,才可能确定所估计参数的分布性质,也才可能进行假设检验

(1)线性假定。总体模型为

Yi?β1?β2X2i?...?βkXki?ui

(2)严格外生性

即E(ut|X)=0, t=1,2,?,n; 含义:ut与所有解释变量都不相关

注;如果E(ut|X)=c,c为某常熟,但不一定为0.当回归方程中有常数项时,可以将这个非零的期望c并入常数项。

命题1:E(ui)?0,扰动项的无条件期望为0

命题2,随机变量与扰动项正交。

Cov(xjk,ui)?E(xjk?Exjk)(ui?Eui) ?Exjkui?ExjkEui?E(Exjkui)?E(ExjkEui) ?Exjkui?0

(3)球形假定 ? 无自相关假设

cov( ui, uj|Xi,Xj) = 0,即E(ui uj|Xi,Xj)=0, i≠j

含义:表明产生干扰的因素是完全随机的。此次干扰和彼此干扰互不相关,相互独立

4

? 同方差假设

var(ui|Xi)??,i?1,?,N2,即:E(ui2|Xi)=?2

含义:①所需估计的方差数简化为一个。

②可以推出,因变量可能取值的分散程度也是相同的。 ③每个观测的可信程度是一样的。

(2)(3)可以合并为:

?0 i?jcov(ui,uj|Xi,Xj)?E(uiuj|Xi,Xj)??2?? i?j

假设(2),(3)说明随机项u的方差-协方差矩阵为对角矩阵:

'???2In?nΩ=var(u|X)?E?uu|X????u1??u2'?|X?E??因为:E?uu??????????un?Eu21?E(u2u1) ???????E(unu1)E(u1u2)Eu2?2????u?1??????u2??u?1??uuun???E?21?????????unu10????2u1u2u22?????unu2u1un??u2un? ???2un??

E(unu2)E(u1un)???2??E(u2un)??0???????2Eun???0?2?00??0?2??In?n???2??

(4)各解释变量之间不存在严格的线性关系(即不存在“严格的多重共线性”) 即X是满秩的。此时矩阵X’X也是满秩的,rank(X,X)?K

所以行列式 X'X?0,保证了(X'X)?1 可逆。是OLS估计可以进行的前提。 含义:

①从直观含义来看。模型中的变量对于解释Y提供了新的信息,不能由其他信息完全替代

②从参数的含义来看。保持其他信息不变时,如果存在严格多重共线,则无法做到

③从系数的求解来看:缺少足够信息将两变量的影响区分开来

5

三、最小二乘估计 1、最小二乘估计原理

分析:直观上看,也就是要求在X和Y的散点图上穿过各观测点画出一条“最佳”直线,如下图所示。

选择一个好的拟合标准。,使得拟合的直线为最佳 。

ei?Yi?Y?i 因e2i可正可负,所以取?ei 最小。

V??e2i取最小值

2、最小二乘估计的正规方程 最小二乘方法要求残差平方和最小

V??e2i??[Yi?(??1???2X2i?????KXKi)]2 ii?2即,满足?eii????0,j?1,2,?k

j

6

?V????X?????X)]?0??2?[Yi?(?122ikKi???i1?V????X?????X)]X?0??2?[Yi?(?122ikKi2i???i2

????????????????????V????X?????X)]X?0??2?[Yi?(?122ikKiKi???iK可以写成:

??ei??0?????Xe??2ii??0???X3iei???0? ????????????????XKiei??0?也就是(正规方程,矩条件):

?1?X?21X?e??X31????X?K11X22X32?XK2?????1??e1???ei??0????????X2ne2Xe0?????2ii???X3n??e3????X3iei???0??0

????????????????????????XKn???en???XKiei??0?

3、一元线性回归模型的最小二乘估计 例如:一元线性回归的最小二乘估计

Q??ei2i??[Yii????X)]2 ?(?12i最小化:即找到使得残差平方和最小的参数近似值

?Q????X)]?0??2?[Yi?(?12i???i1?Q????X)]X?0??2?[Yi?(?12ii???i2

??ei?0??i用残差表示得到: ? ,并可以推导得到?eiYi?0:

eX?0i??iii?正规方程:

7

????n?Xi?12???1?2?Xi??X?2i?Y??XYii

i得参数估计:

?n?XiYi??Xi?Yi(Xi?X)(Yi?Y)??????2?222n?Xi?(?Xi)(X?X)??i????1(Y????X?Xi)?Y???1i2?2?n?其中,X??xy?xi2ii

?Xin,Y??Yin,称为样本均值

xi?Xi?X,yi?Yi?Y,称为样本的离差

可以从两个角度来理解参数估计: ①、参数估计量

给出了两个(随机的)估计量,此时强调估计量受到一个确定性变量和一个随机变量的影响。因此也是随机的。(估计量的分布是怎样的?) ②、参数估计值

(Xi,Yi) 将的具体观测数据带入公式,计算出具体的数值。此时表现为一个确

定的数字。

4、最小二乘估计的矩阵表示 (具体可以参考陈强的书)

?)'(Y-Xβ?)残差平方和S=e'e=(Y-Xβ?'X'Y-Y'Xβ?+β?'X'Xβ? =Y'Y-β

?'X'Y+β?'X'Xβ? ?Y'Y-2β我们的目标是使得回归的残差平方和达到最小,即: m?inS

β则它的一阶条件为:

?S?=-2X'Y+2X'Xβ??β

秩??满?=(X'X)-1X'Y 化简得:X'Y=X'Xβ???β8

四、OLS估计量的性质

1、线性性(有助于确定估计量的分布)

??(X?X)-1X?Y=AYβ

A=(XX)X?

'-1

2、无偏性(有助于确定正态分布的均值)

?=(X'X)-1X'Yβ =(XX)X(Xβ+u) =(XX)XXβ+(XX)Xu =β+(XX)Xu'-1''-1''-1''-1'

??β+(X'X)-1X?u=β+Au 即β其中,A=(X'X)-1X?

?|X)?β+AE(u|X)?β 两边取期望E(β与零均值假定,以及非随机解释变量两个假设有关

3、最小方差性(有助于确定正态分布的方差) (1)方差-协方差矩阵:

???1??????E[(???)(???)']?E?2?????k??1????2??????1??1????k??????22??????kk? ?)?var(?1??,??)?cov(?21?????cov(??,??)k1??,??)cov(?12?)var(?2??,??)cov(?k2????,??)?cov(?1k???cov(?2,?k)?????)?var(?k?

9

(2)方差协方差矩阵的计算 方法1:

???)(????)']?E{[(X'X)?1X'u][(X'X)?1X'u]'}E[(? ?E[(XX) =(XX) =(XX) ?(XX)''''?1?1?1?1'?1''XuuX(XX)]''?1'''?1XE(uu)X(XX)X?InX(XX)XX(XX)?2'?122'?1

?(XX)?方法2

?)?Var[(X?X)X?Y]var(β-1?Var[(X?X)X?(Xβ+ε)]?Var[β+(X?X)X?ε]-1-1 ?Var[(X?X)-1X?ε]?(X?X)X?Var(ε)[(X?X)X?]??(X?X)X?σIX(X?X)?(X?X)σ-12-12-1-1-1

估计量的方差协方差矩阵为:

?)?E[(β?-β)(β?-β)']?(X?X)?1?var(?2

Cjj为(X?X)的第j行第j列元素。?的方差为:C??jjj2?1

10

五、最小二乘估计量的分布

1、多元线性回归中?2的无偏估计为

?2???e2in?K?e?en?K

k为所有参数的个数,包括常数项。n-k是自由度 可以得到:

?)??2C ①估计量的方差为: var(?jjj?2?2②样本方差为: ?????Cjj?j?e2in?KCjj

?)?????③样本标准差为:se(??j?j?Cjj??e2in?K?Cjj

2、OLS估计的分布

OLS估计量是随机变量,必须确定其分布才能进行区间估计和假设检验 分析:

①分布:根据线性性的性质:

随机干扰项是服从正态分布的随机变量,决定了Y也是服从正态分布的随机变量。

OLS估计量是Y的线性函数,决定了OLS估计量是服从正态分布的随机变量。

?)?β ②均值:根据无偏性:估计量的期望: E(β③方差:估计量的方差-协方差矩阵为:

?|X)?E[(β?-β)(β?-β)'](X?X)?1?var(?2

如果记 Cij 为 (X'X)?1 的元素,则所以多元线性回归OLS估计量服从以下分布:

?|X~N[?,?(X?X)?jj2?1jj?|X~N[?,?2C] ] 或?jjjj

11

3、估计量分布的标准化

①随机误差项方差已知:则参数OLS估计量经标准化后的的统计量服从标准正态分布。

zk?????jj?)se(?j?????jj?N(0,1)

?Cjj

②随机误差项方差未知:用估计的标准误差做上述变换得到t统计量。

tk?????jj?)?(?sej?????jj?Cjj??t(n?K)

12

六、拟合优度检验

1、为什么要进行拟合优度检验

虽然OLS有好的性质(BLUE),但并不保证具体模型的参数估计结果理想。 相对最优 vs. 优秀的绝对水平

拟合度的评价标准:

残差平方和:有量纲,并且受样本容量影响,没有横向可比性。应建立新的指标。 新的指标—判定系数:建立在总离差分解的基础上

拟合优度的含义:样本回归线对样本观测数据拟合的优劣程度称为拟合优度。判断回归好坏的重要指标。

2、拟合优度的定义 (1)残差平方和的分解

分析Y的观测值、估计值和平均值的关系:

??Y)+(Y?Y?) Yi?Y?(Yiii对所有样本数据平方求和后得到:

?(Yi?Y)?2?(Y??Y)i2??(Yi?)2?Yi

TSS ? ESS ? RSSTSS-总离差平方和,total sum of squares ESS-回归平方和,explained sum of squares RSS—残差平方和,residual sum of squares

13

? 分析:

①Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。

②如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大

(2)判定系数R2的定义

R?2在给定样本中,TSS不变

回归平方和总离差平方和?ESSTSS?1?RSSTSS

特点:

取值范围0≤R2≤1 判定系数是无量纲的

若值为1,表明观察值均在估计的回归直线上 若值为0,表明完全不拟合;

判定系数越接近1,拟合程度越好,反之越差

14

(3)注意点

①判定系数只是说明列入模型的所有解释变量对因变量的联合的影响程度,不说明模型中单个解释变量的影响程度。 ②不同被解释变量的方程不具有可比性

③相同被解释变量,但是解释变量个数不同,也不适用。

判定系数达到多少为宜? ①没有一个统一的明确界限值;

②若建模的目的是预测应变量值,一般需考虑有较高的判定系数。

③若建模的目的是结构分析,就不能只追求高的判定系数,而是要得到总体回归系数的可信任的估计量。判定系数高并不一定每个回归系数都可信任。

3、调整的拟合优度

(1)拟合优度(判定系数)的缺陷

2?ei2i2R?1??(Yii?Y)

可以证明,多重决定系数时模型中解释变量个数的不减函数,这给对比含有不同解释变量个数的模型的决定系数带来困难(缺陷),需要修正。

拟合优度随着回归变量个数增加的直观说明

①在多元回归中,除非新增加的回归变量系数估计值恰好为0,否则只要增加回归变量个数,拟合优度就增大。

②比如从一元回归模型开始加入第二个回归变量。当使用OLS估计含两个变量的模型时,OLS找到使残差平方和最小的系数取值。如果OLS碰巧选择的新回归系数为0,无论是否加入第二个变量,RSS都相同。但是如果OLS选择的是非零值,则相对于不包含这个回归变量的回归来说,必定降低RSS。

15

(2)调整(校正的)判定系数R2

?ei2iR?1?2?in?k2(Yi?Y)n?1?1?n?1n?k?ei2i2?i(Yi?Y)

思想:

决定系数只涉及变差,没有考虑自由度。如果用自由度去校正所计算的变差,可纠正解释变量不同引起的对比困难。 对增加的解释变量增加了“惩罚”

使用中的注意点

①R2可以用于比较解释变量个数不同的模型

②比较不同模型的拟合度时,要注意被解释变量形式是否相同?只有被解释变量形式相同时,才具有可比性

4R2与R2的关系

R?1?2n?1n?K(1?R)

2①R2?R2意味着随着解释变量的个数增加, R2 比 R2 增加的慢。 ②R2总是非负,但R2可能为负

5、其他常用判别准则

AIC信息准则:AIC?ln(SC信息准则:SC?ln(RSSn)?2kk?2nlnnRSSn)?

RSS为残差平方和,K为参数的数量,n为样本容量16

七、假设检验

1、回归模型检验的步骤

(1)经济意义检验:用先验理论检验,看是否与经济理论一致,是否合乎情理 (2)统计推断检验: (3)计量经济学检验:

是否符合基本假定(异方差,自相关、多重共线性,等)

2、参数显著性检验,T检验 (1)目的:

判断解释变量X是否是被解释变量Y一个显著的影响因素。

(2)假设检验的思想 原理:基于概率论的反证法

因为:小概率事件在一次实验中几乎不会发生

思想:对所关心的问题提出原假设H0,然后运用样本信息看H0成立时,会不会发生矛盾。对H0的成立与否作出判断 如果小概率事件发生,拒绝H0 如果不发生小概率事件,不拒绝H0。

其逻辑是:如果小概率事件在一次实验中居然发生,我们就以很大的把握否定原假设

假设检验的一般步骤:

– ①建立统计假设 – ②构造统计量

– ③根据样本计算统计量的观测值

– ④规定显著性水平a,查表得到临界值,确定接受域和拒绝域 – ⑤判断并且给出结论

17

(3)参数显著性检验步骤

Yi?β1?β2X2i?...?βkXki?ui检验单个参数的显著性

①. 对总体参数提出假设

H0:?j=0H1:?j?0

②以原假设H0构造t统计量 并由观察数据计算其值

一般情况下,总体方差未知,只能用样本方差代替,因此可以利用t分布作t检验。 t?????jj?)S(?j???j?)S(?j?t(n?k)

在原假设成立情况下,计算统计量:

t?????jj?)S(?j???j?)S(?j

?)?????其中se(??j?j?Cjj??e2in?K?Cjj

③给定显著性水平α,查自由度为n-k的t分布表,得临界值t(n?k)

?2 ④判断

若 t?t(n?k) , (小概率事件发生)则拒绝H0 接受 H1

?2若 t?t(n?k) ,(大概率事件发生)则不拒绝H0

?2 说明:

①t检验的含义,判断估计值是否与0(H0)有显著差别。影响显著性的因素 ②t检验的扩展,对其他系数的检验,同样进行。(用于单个约束检验) ③软件包中所输出的参数显著性检验t值,都是在原假设 :H0:?k?0条件下计算的t值。

18

④掐指一算法则。 ⑤假设检验的P值

P值是根据既定的样本数据所计算的统计量拒绝原假设的最小显著性水平 统计分析软件通常给出了检验的P值 方法:将给定的显著性水平与P值比较。

若 ??p ,则拒绝原假设,认为X对Y有显著影响。 若 ??p ,不拒绝原假设,即认为X对Y没有显著影响。 规则:当 p?? 时,P越小,越能拒绝原假设。

3、模型总体显著性检验——F检验

Yi?β1?β2X2i?...?βkXki?ui对模型进行整体显著性检验

思想:说明所有解释变量联合起来对应变量影响的整体显著性。

一般,在对各个参数的逐个进行进行显著性检验之前进行。

F检验的过程: ①提出假设

H0:?2??3?????K?0H1:?j不全为零(至少有一个?j不为0)

②在H0成立条件下计算统计量(可以证明)

F=ESSk-1RSSn-k?F(K?1,n?K)

直观解释,和拟合优度比较。

③给定显著性水平α,查表得临界值F?(K?1,n?K)

19

④判断:

若 F?F?(K?1,n?K) ,拒绝H0,回归方程显著成立,即所有解释变量联合起来对Y有显著影响。

若 F?F?(K?1,n?K) ,不能拒绝H0,回归方程整体不显著。所有解释变量联合起来对Y没有显著影响。

一般统计软件直接给出F,和对应的P值。

注意公式中字母的含义,不同标注形式的模型,不能盲目套用。

4、检验约束条件是否成立的F检验

约束条件的F检验可以用来检验回归参数的一个或多个线性约束条件,

例如,对于原模型,Y??1??2X2?????kXk?u 要检验,是否最后q个参数同时为零。

分析:

原假设H0:?k?q?1?0,?k?q?2?0,?,?k?0

备择假设H1:至少有一个约束不满足。

H1成立,对应原模型(长模型),也称为不受约束模型(UR):

Y??1??2X2?????kXk?u

回归残差(RSSUR)

H0成立,对应短模型,也称为受约束模型(R)

Y??1??2X2?????k?qXk?q?u

回归残差(RSSR)

构造统计量:

F??RSSr?RSSur?/qRSSur/(n?k)?Fq,n?k

为了检验RSSR与RSSUR的差距。

如果原假设成立,约束条件自然成立,因此两者差距小。(小于临界值) 如果备择假设成立,约束条件不成立,两者差距大,(大于临界值)

20

F检验的步骤:

1)提出假设

H0:?k?q?1??k?q?2?????K?0H1:否则

2)分别对原模型和受限模型进行回归,并计算F统计量

F??RSSr?RSSur?/qRSSur/(n?k)?Fq,n?k

3)给定显著性水平α,查表得临界值F?(q,n?k)

4)判断:

若 F?F?(q,n?k) ,拒绝H0,这q个变量联合起来对Y有显著影响。(不受约束模型(长模型)是合适的)

若 F?F?(q,n?k) ,不能拒绝H0,这q个变量联合起来对Y没有显著影响。(受限模型(短模型)是合适的)

21

F检验的步骤:

1)提出假设

H0:?k?q?1??k?q?2?????K?0H1:否则

2)分别对原模型和受限模型进行回归,并计算F统计量

F??RSSr?RSSur?/qRSSur/(n?k)?Fq,n?k

3)给定显著性水平α,查表得临界值F?(q,n?k)

4)判断:

若 F?F?(q,n?k) ,拒绝H0,这q个变量联合起来对Y有显著影响。(不受约束模型(长模型)是合适的)

若 F?F?(q,n?k) ,不能拒绝H0,这q个变量联合起来对Y没有显著影响。(受限模型(短模型)是合适的)

21

本文来源:https://www.bwwdw.com/article/k9mo.html

Top