多元线性回归模型

更新时间:2024-02-03 17:16:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第三章 多元线性回归模型

基本概念

(1)多元线性回归模型; (2)偏回归系数;

(3)正规方程组; (4)调整的多元可决系数; (5)多重共线性; (6)假设检验; 练习题

1. 多元线性回归模型的基本假设是什么?试说明在证明最小二乘估计量的无偏性和有效性

的过程中,哪些基本假设起了作用?

2.在多元线性回归分析中,t检验与F检验有何不同?在一元线性回归分析中二者是否有等价的作用?

3.为什么说对模型参数施加约束条件后,其回归的残差平方和一定不比未施加约束的残差平方和小?在什么样的条件下,受约束回归与无约束回归的结果相同?

X1X2X34.在一项调查大学生一学期平均成绩(Y)与每周在学习(与其他各种活动(

X4)、睡觉()、 娱乐()

)所用时间的关系的研究中,建立如下回归模型:

Y??0??1X1??2X2??3X3??4X4?u

如果这些活动所用时间的总和为一周的总小时数168。问:保持其他变量不变,而改变其中一个变量的说法是否有意义?该模型是否有违背基本假设的情况? 如何修改此模型以使其更加合理?

5.表3-1给出三变量模型的回归结果。 表 3-1

方差来源 来自回归(ESS) 来自残差(RSS) 来自总离差(TSS) 平方和(SS) 自由度(d.f.) 平方和的均值(MSS) 65965 - - - - - 66042 14 (1)求样本容量n,残差平方和RSS,回归平方和ESS及残差平方和RSS的自由度。

(2)求拟合优度R及调整的拟合优度R。

(3)检验假设:X2和X3对Y无影响。应采用什么假设检验?为什么? (4)根据以上信息,你能否确定X3和X3各自对Y的影响?

6.某地区通过一个样本容量为722的调查数据得到劳动力受教育的一个回归方程为 Y?10.36?0.094X1?0.131X2?0.210X3

R?0.214

22?2其中,Y为劳动力受教育年数,X1为该劳动力家庭中兄弟姐妹的人数,X2与X3分别为母亲与父亲受教育的年数。问: (1)

X1X2X3是否具有预期的影响?为什么?若

X1与保持不变,为了使预测的受教育水平减少

一年,需要

X2增加多少?

(2)请对的系数给予适当的解释。

(3)如果两个劳动力都没有兄弟姐妹,但其中一个的父母受教育的年数为12年,另一个的父母受教育的年数为16年,则两人受教育的年数预期相差多少?

X17.以企业研发支出(R&D)占销售额的比重为被解释变量Y,以企业销售额额的比重

X2与利润占销售

为解释变量,一个容量为32的样本企业的估计结果如下:

Y?0.472?0.32logX1?0.05X2

(1.37) (0.22) (0.046) R?0.099 其中括号中为系数估计值的标准差。

logX12(1) 解释的系数。如果

X1增加10%,估计Y会变化多少个百分点?这在经济上是一

个很大的影响吗?

X1(2)针对R&D强度随销售额的增加而提高这一备择假设,检验它不随在5%和10%的显著性水平上进行这个检验。

而变化的假设。分别

(3)利润占销售额的比重X2对R&D强度Y是否在统计上有显著的影响?

8.表3—2为有关经批准的私人住房单位及其决定因素的4个模型的估计量和相关统计值(括号内为p-值,即以对应的t统计量为临界值的置信度?)(如果某项为空,则意味着模型中没有此变量)。数据为美国40个城市的数据。模型如下:

Y??0??1X1??2X2??3X3??4X4??5X5??6X6??7X7?u

其中,Y为实际颁发的建筑许可证数量,X1为每平方英里(1平方英里=2.59平方千米)的人口密度,X2为自有房屋的均值(单位:百美元),X3为平均家庭的收入(单位:千美元),

X4为1980----1992年的人口增长百分比,X5为失业率,X6为人均交纳的地方税,X7为

人均缴纳的州税。

表 3-2

变量 Y 模型A 模型B 模型C 模型D 813(0.74) —392(0.81) —1279(0.34) —973(0.44) 0.075(0.43) 0.062(0.32) 0.042(0.47) X1X2X3X4X5X6X7 —76.55(0.48) —0.855(0.13) —0.873(0.11) —0.994(0.O6) —0.778(0.07) 110.4l(0.14) 133.03(0.04) 125.71(0.05) 116.60(0.06) 26.77(0.11) 29.19(0.06) 29.41(0.001) 24.86(0.08) —0.061(0.95) —1.006(0.40) —1.004(0.37) RSS 4.763X107 4.843x107 4.962x107 5.038x107 0.349 0.338 0.322 0.312、 1.488x106 1.424x106 1.418x106 1.399x106 1.776x10 1.634x10 1.593x10 1.538x10

R ?2? AIC

26666(1)检验模型A中的每一个回归系数在10%水平下是否为零(括号中的值为p-值)。根据检验结果,你认为应该把变量保留在模型中还是去掉?

(2)在模型A中,在10%水平下检验联合假设片

H0:?i?0?i?1,?,6,7?。说明被择假设,

计算检验统计值,说明其在零假设条件下的分布,拒绝或接受零假设的标准。说明你的结论。 (3)哪个模型是“最优的”?解释你的选择标准。

(4)说明最优模型中有哪些系数的符号是“错误的”。说明你的预期符号并解释原因。确认其是否为正确符号。

9. 在经典线性模型基本假定下,对含有三个自变量的多元回归模型 Y??0??1X1??2X2??3X3?u 你想检验的虚拟假设是H0:?1?2?2?1。

???Var??1?2?2?1?2? (1)用,的方差及其协方差求出

?????。

(2)写出检验

H0:?1?2?2?1的t统计量。

?0 (3)如果定义

??1?2?2??,写出一个涉及

,?,

?2和

?3的回归方程,以便能直接

得到?估计值?及其标准误。

X1X210. 对于涉及到三个变量Y,,,的数据做以下回归:

(1)

Y??0??1X1i?u1iY??0??1X2i?u2i

(2)

(3)

Y??0??1X1i??2X2i?u3i????

问在什么条件下才能有相同。

?1??1及

?1??2,即多元回归与各自的一元回归所得的参数估计值

11. 对多元线性回归模型Y?X???,试证明随机干扰项?的方差的无偏估计量为

??2?een?k?1。其中e为相应样本回归模型的残差向量。

'?12. 对多元线性回归模型Y?X???,试证明普通最小二乘估计量?具有最小方差性。 13.某公司想决定在何处建造一个新的百货店,对已有的30个百货店的销售额作为其所处地理位置特征的函数进行回归分析,并且用该回归方程作为新百货店的不同位置的可能销售额,估计得出(括号内为估计的标准差)

??30?0.1?X?0.01?X?10.0?X?3.0?XYt1t2t3t4t

(0.02) (0.01) (1.0) (1.0) 其中

Yt=第i个百货店的日均销售额(百美元); =第i个百货店前每小时通过的汽车数量; =第i个百货店所处区域内的平均收入; =第i个百货店内所有的桌子数量

X1tX2tX3tX 4t=第i个百货店所处地区竞争店面的数量 请回答以下问题:

(1) 各个变量前参数估计的符号是否与期望的符号一致? (2) 计算每个变量参数估计值的T值;

(3)在?=0.05的显著性水平下检验各变量的显著性。

答案

基本概念解释

(1)在现实经济活动中往往存在一个变量受到其他多个变量的影响的现象,表现为在线性回归模型中有多个解释变量,这样的模型被称为多元线性回归模型,多元指多个解释变量。 (2)在多元回归模型中,每一个解释变量前的参数即为偏回归系数,它测度了当其他解释变量保持不变时,该变量增加1个单位对被解释变量带来的平均影响程度。

(3)正规方程组指采用OLS法估计线性回归模型时,对残差平方和关于各参数求偏导,并令偏导数为零后得到的一组方程,其矩阵形式为XX??XY。

_'?'(4)调整的多元可决系数R,又称多元判定系数,是一个用于描述伴随模型中解释变量的增加和多个解释变量对被解释变量的联合影响程度的量。它与R有如下关系:

_22R?1?(1?R)22n?1n?k

(5)多重共线性是多元回归中特有的一个概念,指多个解释变量间存在线性相关的情形。如果存在完全的线性相关性,则模型的参数就无法求出,OLS回归无法进行。

(6)联合假设检验是相对于单个假设检验来说的,指假设检验中的假设有多个,不止一个。如多元回归中的方程的显著性检验就是一个联合假设检验,而每个参数的,t检验就是单个假设检验。

(7)在实际经济活动中,常常需要根据经济理论对模型中变量的参数施加一定的约束条件,对模型参数施加约束条件后进行回归,称为受约束回归。

(8)无约束回归是与受约束回归相对的一个概念,无需对模型中变量的参数施加约束条件进行的回归称为无约束回归。

习题答案

1. 多元线性回归模型的基本假定仍然是针对随机干扰项与针对解释变量两大类的假设。针对随机干扰项的假设有:零均值,同方差,无序列相关且服从正态分布。针对解释变量的假设有:解释变量应具有非随机性,如果是随机的,则不能与随机干扰项相关:各解释变量之间不存在(完全)线性相关关系。

在证明最小二乘估计量的无偏性中,利用了解释变量非随机或与随机干扰项不相关的假定;在有效性的证明中,利用了随机干扰项同方差且无序列相关的假定。

2. 在多元线性回归分析中,t检验常被用作检验回归方程中各个参数的显著性,而F检验则被用作检验整个回归关系的显著性。各解释变量联合起来对被解释变量有显著的线性关系,并不意味着每一个解释变量分别对被解释变量有显著的线性关系。在一元线性回归分析中,二者具有等价作用,因为二者都是对共同的假设——解释变量的参数等于零——进行检验。

3. 对模型参数施加约束条件后,就限制了参数的取值范围,寻找到的参数估计值也是在此条件下使残差平方和达到最小,它不可能比未施加约束条件时找到的参数估计值使得残差平方达到的最小值还要小。但当约束条件为真时,受约束回归与无约束回归的结果就相同了。

X1?X2?X3?X4?1684. 由于,当其中一个变量变化时,至少有一个其他变量也得变化,

因此,保持其他变量不变,而改变其中一个变量的说法是无意义的。

显然,由于四类活动的总和为一周的总小时数168,表明四个X间存在完全的线性关系,因此违背了解释变量间不存在(完全)多重共线性的假设。

X4 可以去掉其中的一个变量,如去掉代表“其他”活动的变量型更加合理。如这时

?1,则新构成的三变量模

就测度了当其他两变量不变时,每周增加1小时的学习时间所带的

学习成绩的平均变化。这时,即使睡觉和娱乐的时间保持不变,也可以通过减少其他活动的时间来增加学习的时间。而这时三个变量间也不存在明显的共线性问题。

5. (1)样本容量为 n?d.f.?1?15

RSS=TSS-ESS=66042-65965=77 ESS的自由度为 d.f.?14?2?12 RSS的自由度为 d.f.?n?3?12

2(2)

R?ESSTSS?6596566042?0.9988

1412?2R?1?(1?R)2n?1n?k?1?1?0.0012??0.9986

(3)应该采用联合假设检验,即F检验,理由是只有这样做才能判断X2,X3,一起是否对

Y有影响。

(4)不能。因为仅通过上述信息,可初步判断

X2,

X3联合起来对Y有线性影响,两者的变

X3化解释了Y变化的99.8%。但由于无法知道回归法判断它们各自对Y的影响有多大。

X1X2,前参数的具体估计值,因此还无

6. (1)预期对劳动者受教育的年数有影响。因为在收入及支出预算约束一定的条件下,

子女越多的家庭,每个孩子接受教育的时间会越短。

X1 根据多元回归模型偏回归系数的含义,

1前的参数估计值-0.094表明,在 其他条件

不变的情况下,每增加1个兄弟姐妹,受教育年数会减少0.094年, 因此,要减少1年受教育的时间,兄弟姐妹需增加0.094 (2)

X2?10.6?11个。

的系数表示当兄弟姐妹数与父亲受教育的年数保持不变时,母亲每增加1年受

教育的机会,其子女作为劳动者就会预期增加0.131年的受教育机会。 (3)首先计算两人受教育的年数分别为 10.36+0.131x12+0.210x12=14.452 10.36+0.131x16+0.210x16=15.816 因此,两人的受教育年限的差别为

15.816—14.452=1.364

7. (1) logX1的系数表明在其他条件不变时,logX1变化1个单位,Y变化的单位数,??X1??Y?0.32?logX1?0.32???0.32?100%X?1?即,换言之,当企业销售X1增长100%时,

企业研发支出占销售额的比重Y会增加32个百分点。由此,如果X1增加10%,Y会增加3.2个百分点。这在经济上不是一个较大的影响。

(2)针对备择假设H1:?1?0,检验原假设开H0:?1?0。易知计算的t统计量的值为

t?0.320.22?1.468。在5%的显著性水平下, 自由度为32—3=29的t分布的临界值为

1.699(单侧),计算的t值小于该临界值,所以不拒绝原假设。意味着R&D强度不随销售额的增加而变化。在10%的显著性水平下,t分布的临界值为1.311,计算的t值小于该值,拒绝原假设,意味着R&D强度随销售额的增加而增加。

0.05 (3)对

X2,参数估计值的t统计值为0.46?1.087,它比在10%的显著性水平下的临界

值还小,因此可以认为它对Y在统计上没有显著的影响。

8. (1)直接给出了p-值,所以没有必要计算t统计值以及查t分布表。根据题意,如果p-值<0.10,则我们拒绝参数为零的原假设。

由于表中所有参数的p-值都超过了10%,所以没有系数是显著不为零的。但由此去掉所有解释变量,则会得到非常奇怪的结果。其实正如我们所知道的,多元回归中去掉变量时一定要谨慎,要有所选择。本例中,

X6X2X3X4X的 p-值仅比0.1稍大一点,在略掉5,

,,

X7的模型C中,这些变量的系数都是显著的。

H0:?i?0?i?1,?,6,7?H0(2)针对联合假设,其对应的备择假设

Hi:?i?i?1,?,6,7?中至

少有一个不为零。检验假设,实际上就是参数的约束性检验,非约束模型为模型A,约

束模型为模型D,检验统计值为

F??RSSR?RSSU?/?kU?kR?RSSU/?n?kU?1?=0.462

显然,在H0假设下,上述统计量满足F分布,在10%的显著性水平下,自由度为(4,32)的F分布的临界值位于2.09和2.14之间。显然,计算的F值小于临界值,我们不能拒绝

H0,所以

?i?i?1,?,6,7?是联合不显著的。

2(3)模型D中的3个解释变量全部通过显著性检验。尽管R值相对较小,残差平方和相对较大,但相对来说其AIC值最低,所以我们选择该模型为最优的模型。

(4)随着收入的增加,我们预期住房需要会随之增加。所以可以预期?3?0,事实上其估计值确是大于零的。同样地,随着人口的增加,住房需求也会随之增加,所以我们预期?4?0,事实上其估计值也是如此。随着房屋价格的上升,我们预期对住房的需求人数减少,即我们预期?3估计值的符号为负,回归结果与直觉相符。出乎预料的是,地方税与州税为不显著的。由于税收的增加将使可支配收入降低,所以我们预期住房的需求将下降。虽然模型A是这种情况,但它们的影响却非常微弱。 9. (1)由数理统计学知识易知

??????????Var??1?2?2??Var??1??4Cov??1,?2?????

?????4Var??2?????

(2)由数理统计学知识易知

t??1?2?2?1se??1?2?2?

其中

se??1?2?2?为

?1?2?2的标准差。

(3)由

?1?2?2??知

?1?2?2??,代入原模型得

Y??0?(2?2??)X1??2X2??3X3?u

??0??X1??2(2X1?X2)??3X3?u?这就是所需的模型,其中?估计值?及其标准误都能通过对该模型进行估计得到。 10. 由回归模型(1)与(2)分别知

??1

xy???x1i21ii??1?

?xy?x

2ii22i对模型(3),令其样本回归模型的离差形式为 Y??1X1i??2X2i?e3i

e求 ?2i??Y??1X1i??2X2i?2 的最小值,可得如下正规方程组: ,

? ?解此方程组得

yix1i??1?x1i??2?x1ix2iyix2i??2?x2i??1?x1ix2i22

??1

???yx???x????yx???x??x?x???xx?i1i22ii2i21i22i21i2i1ix2i?

x2i??2

??yx???x????yx???x??x?x???xx?i2i21ii1i21i22i21i2i1i

xx?0???1???2XX可见,当?1i2i时,即1与2完全线性无关(正交)时,有1及1。由此得多元回归的一个重要的结论:当各解释变量没有线性相关性时,多元回归中各解释变量的

????参数等于分别进行一元回归时解释变量的参数。 11. 由于被解释变量的估计值与观测值之间的残差

? e?Y?X?

?X????X?X??1'X??1X'?X????

???X?XX'X?'

??I?X? ??XX'??1'X????

?M?

残差的平方和为

ee??MM?

'''

因为

M?I?X?X'X??1X',为对称等幂矩阵,即

M?M M所以有

ee??M?''''2?MM?M

'

'E?ee??E???I?X??

??tr?I?X??

2?X''X??1'X?????

?XX?'?1'X???

???trI?tr?X??22?XX??1'X????

????n??k?1???

其中符号“tr”表示矩阵的迹,其定义为矩阵主对角线元素的和。于是

E?ee?'?2?n?k?1

以上过程既导出了随机干扰项方差的估计量为

?

?2?een?k?1

'也证明了该估计量是无偏估计量。

12. 证 设?是其他方法得到的关于?的线性无偏估计量: ??CY

C?C?D??XX*'***其中,

??1X?D',D为一固定矩阵,于是

??CY?CX??C?

****

*E??*??C*X?

?的无偏性要求C*X?I。由于

CX??XX*'

??1XX?DX'

*于是,CX?I当且仅当DX?0。

?的方差—协方差矩阵为

Cov??**?*?E???????'*???????? ?*?E??CY????

??CY??*????'

'**?E??C???C???????

'?E??XX??

???1''X?D????X?????XX''??1'?D????

?XX'2'????XX??

??1XX'?XX''??1??XX??1XD?DX''??1'?DD???

'??2?XX'??1??DD2

*?DD为主对角线元素非负的对称矩阵,由此得?的方差大于或等于最小二乘估计量?的

方差。

X1t13.(1)

(2) 、

X2t、

X3t的参数符号与期望符号一致,

X4t的参数符号与期望符号不一致。

参数估计值 0.1 0.01 10.0 3.0 估计的标准差 0.02 0.01 1.0 1.0 t-值 5.0 1.0 10.0 3.0 (3)这里,单个参数显著性检验的t-统计量服从自由度为25的t-分布,查t-分布表,可知在0.05的显著水平下,临界值为2.06,可见,除了计值在0.05的水平下都是统计显著的。

X2t的系数以外,所有变量的系数估

自测题

1. 对多元线性回归方程的显著性检验,所用的F统计量可表示为( )

ESS(n?k)A、

ESS(k?1) B、

RSS(k?1)R2RSS(n?k)ESS

(n?k)2C、

(1?R)(k?1) D、

RSS(n?k)2t ?800e2. 已知三元线性回归模型估计的残差平方和为?,估计用样本容量为n?24,

则随机误差项

ut的方差估计量S为( )

2A、33.33 B、 40 C、 38.09 D 、36.36

3. 在多元回归中,调整后的判定系数R与判定系数R的关系为( ) A.RR C.R=R D. R与R的关系不能确定 4.多元线性回归分析中的 RSS反映了( )

A.应变量观测值总变差的大小 B.应变量回归估计值总变差的大小 C.应变量观测值与估计值之间的总变差 D.Y关于X的边际变化

RX2X3?0.998522222222225. 二元回归模型中,经计算有相关系数,则表明( )。

A、

X2和

X3间存在完全共线性 B、

X2和

X3间存在不完全共线性

C、

X2对

X3的拟合优度等于0.9985 D、不能说明

X2和

X3间存在多重共线性

6. 简答:在多元线性回归模型估计中,判定系数R可用于衡量拟合优度,为什么还要计算修正判定系数R? 7.计算

22家庭消费支出(Y)、可支配收入(X1)、个人个财富(

下:

回归分析结果为:

X2)设定模型如

Yi??0??1X1i??2X2i??i

LS // Dependent Variable is Y Date: 18/4/02 Time: 15:18 Sample: 1 10

Included observations: 10

Variable Coefficient Std. Error T-Statistic Prob.

C 24.4070 6.9973 ________ 0.0101

X 0.3401 0.4785 ________ 0.5002

X2 0.0823 0.0458 0.1152 R-squared ________ Mean dependent var 111.1256 Adjusted R-squared 0.9504 S.D. dependent var 31.4289 S.E. of regression ________ Akaike info criterion 4.1338 Sum squared resid 342.5486 Schwartz criterion 4.2246 Log likelihood - 31.8585 F-statistic 87.3339 Durbin-Watson stat 2.4382 Prob(F-statistic) 0.0001

补齐表中划线部分的数据(保留四位小数);并写出回归分析报告。

本文来源:https://www.bwwdw.com/article/3h5w.html

Top