五到八章(计量经济学-东北财经大学,王维国)

更新时间:2023-10-30 13:47:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

用OLS法得到的估计模型通过统计检验后,还要检验模型是否满足假定条件。由2.1 节和3.1节知,只有模型的假定条件都满足时,用OLS法得到的回归系数估计量才具有最佳线性无偏特性。当一个或多个假定条件不成立时,OLS估计量将丧失上述特性。第5-7章讨论当假定条件不成立时,对参数估计带来的影响以及相应的补救措施。

以下讨论都是在某一个假定条件被违反,而其他假定条件都成立的情况下进行。分为5个步骤。 (1)回顾假定条件。

(2)假定条件不成立时对模型参数估计带来的影响。 (3)定性分析假定条件是否成立。 (4)检验(定量分析)假定条件是否成立。 (5)假定条件不成立时的补救措施。 本章介绍怎样克服异方差。

本章包括以下几小节:

同方差假定 异方差表现与来源 异方差的后果 判别异方差 异方差检验

克服异方差的方法(广义最小二乘法) 案例分析

第一节 同方差假定

1 同方差假定

模型的假定条件⑴ 给出Var(u) 是一个对角矩阵,

1

(5.1)

且u的方差协方差矩阵主对角线上的元素都是常数且相等,即每一误差项的方差都是有限的相同值(同方差假定);且非主对角线上的元素为零(非自相关假定),当这个假定不成立时,Var(u) 不再是一个纯量对角矩阵,表示如下。

(5.2)

当误差向量u的方差协方差矩阵主对角线上的元素不相等时,这意味着对应不同的随机变量,方差不同。此时,称该随机误差系列存在异方差,即误差向量u中的元素ut 取自不同的分布总体。非主对角线上的元素表示误差项之间的协方差值。比如 ? 中的 ?i j ,(i ? j)表示与第i组和第j组观测值相对应的ui与 uj的协方差。若 ? 非主对角线上的部分或全部元素都不为零,误差项就是自相关的。

本章讨论异方差。第6章讨论自相关。第7章讨论多重共线性及其他一些违反假定条件的情形。以两个变量为例,同方差假定如图5.1和5.2所示。对于每一个xt值,相应ut的分布方差都是相同的。

图5.1 同方差情形 图5.2 同方差情形

第二节 异方差表现与来源

1 异方差表现与来源

异方差通常有三种表现形式,(1)递增型,(2)递减型,(3)条件自回归型。递增型异方差见图5.3和5.4。随着解释变量的增加,随机误差项的方差越来越大。图5.5为递减型异方差,即随着解释变量的增加,随机误差项的方差越来越小。图5.6为条件自回归型异方差。经济时间序列中的异方差常表现为递增型异方差。金融时间序列中的异方差常表现为自回归条件异方差。

时间序列数据和截面数据中都有可能存在异方差。无论是时间序列数据还是截面数据。递增型异

2

方差的来源主要是因为随着解释变量值的增大,被解释变量取值的差异性增大。

图5.3 递增型异方差 图5.4 递增型异方差

图5.5 递减型异方差 图5.6 条件自回归型异方差

第三节 异方差的后果

1 异方差的后果

下面以简单线性回归模型为例讨论异方差对参数估计的影响。对模型

yt = ?0 + ?1 xt + ut (5.3)

当Var(ut) = ?t 2,为异方差时(?t 2是一个随时间或序数变化的量),回归参数估计量仍具有无偏性和一致性。以

为例

3

(5.4)

但是回归参数估计量不再具有有效性。以

为例,

(5.5)

(在上式的推导中利用了ut的非自相关假定、xt与ut非相关假定)。上式不等号左侧项分子中的?t 2不是一个常量,不能从累加式中提出,所以不等号左侧项不等于不等号右侧项。而不等号右侧项是同方差条件下?1的最小二乘估计量

的方差。因此,异方差条件下的

失去有效性。 为例,

(

)是Var(

) 的有

另外回归参数估计量方差的估计是真实方差的有偏估计量。以偏估计量。

下面用矩阵形式讨论异方差。因为OLS估计量无偏性的证明只依赖于模型的一阶矩,所以当

4

Var(u) 如(5.2)式所示时,OLS估计量

仍具有无偏性和一致性。

E(

) = E[ (X 'X )-1 X 'Y ] = E[ (X 'X )-1 X ' (X ? + u) ]

= ? + (X 'X)-1 X ' E(u) = ? (5.6)

但不具有有效性和渐近有效性。而且

的分布将受到影响。

Var() = E [(- ? ) (- ? )' ]

= E [(X 'X )-1 X ' u u' X (X 'X)-1 ] = (X ' X)-1 X ' E (u u' ) X (X ' X )-1

= ? 2 (X 'X )-1 X ' ? X (X ' X )-1 (5.7)

不等于? ? (X ' X )-1,所以异方差条件下的1 判别异方差

对实际问题的分析,有时可以初步判别是否存在异方差。主要有三种方式。(1) 当经济变量取值的差别随时间或解释变量的增大而变大时,容易出现异方差。如在个人支出与收入的关系中,投入与产出的关系中,常会存在异方差。(2) 利用散点图也可以初步判断是否存在异方差。如果两个变量的散点图与图5.4相类似时,说明存在异方差。(3) 也可以利用模型的残差图做初步判断。如果模型的残差图如图5.7相类似时,说明存在递增型异方差。

注意:对于截面样本,当用残差图观测是否存在异方差时,必须先按解释变量给样本值排序。否则即使是有异方差,利用残差图也看不出来。

是非有效估计量。

第四节 判别异方差

图5.7 残差图

第五节 异方差检验

上一节介绍根据实际数据判别异方差。这一节介绍五种异方差的检验方法。

5

1 Goldfeld-Quandt检验

Goldfeld-Quandt 检验由Goldfeld和Quandt 1965年提出。这种检验的思想是以引起异方差的解释变量的大小为顺序,去掉中间若干个值,从而把整个样本分为两个子样本。用两个子样本分别进行回归,并计算残差平方和。用两个残差平方和构造检验异方差的统计量。具体步骤如下:

Goldfeld-Quandt 检验的零假设和备择假设是 H0: ut 具有同方差

H1: ut 具有递增型异方差

①把原样本分成两个子样本。具体方法是把成对(组)的观测值按解释变量的从小到大顺序排列,略去m个处于中心位置的观测值(通常T ? 30时,取m ? T / 4,余下的T- m个观测值自然分成容量相等的两个子样本,容量各为 (T- m) / 2。如下所示。

② 用两个子样本分别估计回归直线,并计算残差平方和。相对于n2 和n1 的残差平方和分别用SSE2(对应于xt值比较大的子样本)和SSE1(对应于xt值比较小的子样本)表示。

③构造F统计量,

(5.8)

其中n2 = n1 为子样本容量,k为原模型中被估参数个数。在H0成立条件下,

F ? F( n2 - k, n1 - k)

④ 根据实际情况分析,若不存在异方差,两个子样本对应的残差平方和应该近似相等,即F值接近1。若存在递增型异方差,则SSE2要远远大于SSE1,即F值很大。判别规则如下,

若 F ? F? (n2 - k, n1 - k) , 接受H0 (ut 具有同方差) 若 F > F? (n2 - k, n1 - k) , 拒绝H0 (具有递增型异方差) 对于Goldfeld-Quandt 检验应该注意如下四点:

① 对于截面样本,计算F统计量之前,必须先把数据按解释变量的值从小到大排序。 ② 此法只适用于递增型异方差。

③ Goldfeld-Quandt 检验依赖于随机误差项服从正态分布。

6

④ 当摸型含有多个解释变量时,应以每一个解释变量为基准检验异方差。 2 Glejser检验

Glejser检验由H. Glejser 1969年提出。检验原回归式的残差的绝对值 ?的几种形式是

? 是否与解释变量xt的若

干形式存在函数关系。若有,则说明存在该种形式的异方差;若无,则说明不存在异方差。通常给出

?

? = a0 + a1 xt

?

? = a0 + a1 xt2

?? = a0 + a1

….

通过显著性检验,则说明存在该种形式的异方差。

如果哪一种形式的

Glejser检验的特点是:

① 既可检验递增型异方差,也可检验递减型异方差。 ② 一旦发现异方差,同时也就发现了异方差的具体表现形式。 ③ 计算量相对较大。

④ 当原模型含有多个解释变量值时,可以把 ?

3 White检验

? 拟合成多变量回归形式。

White检验由H. White 1980年提出。Goldfeld-Quandt 检验必须先把数据按解释变量的值从小到大排序。Glejser检验通常要试拟合多个回归式。White检验不需要对观测值排序,也不依赖于随机误差项服从正态分布,它是通过一个辅助回归式构造 ?2 统计量进行异方差检验。White检验的具体步骤如下。以二元回归模型为例,

yt = ?0 +?1 xt1 +?2 xt2 + ut (5.9) (1)首先对上式进行OLS回归,求残差(2)作如下辅助回归式

7

= ?0 +?1 xt1 +?2 xt2 + ?3 xt12 +?4 xt22 + ?5 xt1 xt2 + vt (5.10)

即用

对原回归式中的各解释变量、解释变量的平方项、交叉积项进行OLS回归。注意,上式中要

保留常数项。求辅助回归式(5.10)的可决系数R2。

(3)White检验的零假设和备择假设是 H0: (5.9)式中的ut不存在异方差, H1: (5.9)式中的ut存在异方差 (4)在不存在异方差假设条件下统计量

T R 2 ? ? 2(5) (5.11)

其中T表示样本容量,R2是辅助回归式(5.10)的OLS估计式的可决系数。自由度5表示辅助回归式(5.10)中解释变量项数(注意,不包括常数项)。

(5)判别规则是

若 T R 2 ???2? (5), 接受H0 (ut 具有同方差)

若 T R 2 > ?2? (5), 拒绝H0 (ut 具有异方差) 4 自回归条件异方差检验

异方差的另一种检验方法称作自回归条件异方差 (ARCH) 检验。这种检验方法不是把原回归模型的随机误差项?t 2 看作是xt 的函数,而是把?t 2 看作随机误差平方项ut-12 及其滞后项, ut-22 , … 的函数。ARCH是误差项二阶矩的自回归过程。恩格尔(Engle 1982)针对ARCH过程提出LM检验法。辅助回归式定义为

= ?0 + ?1

LM统计量定义为

LM = T R 2 ? ? 2(n)

其中R 2是辅助回归式(5.12)的可决系数。在H0:?1 = … = ?n = 0 成立条件下,LM渐近服从 ? 2(n) 分布。其中n表示

的滞后项个数。ARCH检验的最常用形式是一阶自回归模型(n = 1),

+ … + ? n

(5.12)

= ?0 + ?1

在这种情形下,ARCH渐近服从 ? 2(1) 分布。

8

第六节 克服异方差的方法(广义最小二乘法)

1 直接用引起异方差的解释变量除回归式

对模型

yt = ?0 + ?1 xt1 + ?2 xt2 + ut (5.13) 假定异方差形式是Var(ut) = (? xt1)2(因为Var(ut) = E(ut)2,相当于认为 ?侧得

? = ? xt1)。用xt1同除上式两

yt / xt1 = / xt1 +

+ ?2 xt2 / xt1 + ut / xt1 , (5.14)

因为Var(ut / xt1) = (1/ xt12 ) Var(ut) = (1/ xt12 ) ? 2 xt12 = ? 2, (5.14) 式中的随机项 (ut / xt1) 是同方差的。对 (5.14) 式做OLS估计后,把回归参数的估计值代入原模型 (5.9)。

对 (5.14) 式应用OLS法(求 ? (

/ xt1) 2 最小)估计参数。其实际意义是在求 ?(

/xt1)2 最小

的过程中给相应ut分布方差小的误差项以大的权数,ut方差大的误差项以小的权数。所以此法亦称为加权最小二乘法,是GLS估计法的一个特例。

下面以矩阵形式描述克服异方差。设模型为

Y = X ? + u (5.15)

其中E(u) = 0,Var(u) = E(u u') = ? 2?。? 已知,? 与? 2未知。因为 ? ? I,违反了假定条件,所以应该对模型进行适当修正。

因为 ? 是一个T 阶正定矩阵,所以必存在一个非退化T?T 阶矩阵M使下式成立。 M ? M ' = I T?T (5.16) 从上式得

M 'M = ? -1 (5.17) 用M左乘回归模型(5.15)两侧得

M Y = M X ? + M u (5.18) 取Y* = M Y, X * = M X, u* = M u , 上式变换为

Y* = X*? + u* (5.19) 则 u* 的方差协方差矩阵为

9

Var(u*) = E(u* u*' ) = E (M u u' M ' )

= M ? 2 ? M ' = ? 2 M ? M ' = ? 2 I (5.20)

变换后模型(5.19)的Var(u*)是一个纯量对角矩阵。对变换后模型(5.19)进行OLS估计,得到的是 ? 的最佳线性无偏估计量。这种估计方法称作广义最小二乘法。? 的广义最小二乘 (GLS) 估计量定义为

(GLS) = (X*' X*)

-1

X*' Y*

= (X 'M ' M X ) -1 X ' M 'M Y

= (X '? -1X) -1 X '? -1Y (5.21)

下面以异方差形式Var(ut) = ? 2 xt2为例,具体介绍广义最小二乘法变换结果。

(5.22)

定义

(5.23)

从而使

Var(M u) = E (M u u' M ' ) = M ? 2 ? M ' = ? 2 M ? M '

= ? 2 I (T?T) (5.24)

即对于 (5.19) 式来说误差项已消除了异方差。 2 利用Glejser检验结果消除异方差

假设Glejser检验结果是

10

?? = +

xt1

说明异方差形式是Var(ut) = (+

xt)2?2。用 (

+

xt) 除原模型 (5.9) 各项,

(5.25)

= ?2 (5.26)

说明消除了异方差。对 (5.25) 式做OLS估计,把回归参数的估计值代入原模型 (5.9)。

在实际应用中,通过对变量取对数的方法常常能达到消除异方差的目的。详细请见本章后面的案例。 3 通过对变量取对数消除异方差

在实际应用中,通过对变量取对数的方法常常能达到消除异方差的目的。详细请见本章后面的案例。

第七节 案例分析

案例1

取1986年中国29个省市自治区农作物种植业产值yt(亿元)和农作物播种面积xt(万亩)数据(见表5.1)研究二者之间的关系。得估计的线性模型如下,

yt = -5.6610 + 0.0123 xt (5.27) (12.4) R2 = 0.85, F = 155.0, T = 29

表5.1 yt和xt数据 序号 1 2 3 4 5

yt xt 序号 16 17 18 19 20 yt xt 农作物产值 农作物播种面积 16.31 907.5 17.14 873.2 125.24 13159.2 42.24 5928.1 40.28 6834.4 农作物产值 农作物播种面积 183.65 17729.2 146.79 11061.5 129.63 11304.7 154.28 9166.2 61.24 6821.7 11

6 7 8 9 10 11 12 13 14 15 84.47 70.7 101.67 16.83 211.51 101 155.87 49.72 69.7 255.92 5495.5 6055.2 12694.6 1018.5 12770.9 6542.7 12244.3 3601.5 8158.1 16564.5 21 22 23 24 25 26 27 28 29 206.5 44.37 51.79 3.53 59.45 37.29 6.33 10.07 44.78 17779.6 4701.3 6036.1 316.5 7016.5 5252.5 761.7 1235.2 4275.1

图5.8 农作物产值yt和播种面积xt散点图

图5.9 (5.27)式的残差图

无论是从yt和xt观测值的散点图(见图5.8)还是模型的残差图(见图5.9)都可以发现数据中存在递增型异方差。

(1)用Goldfeld-Quandt方法检验是否存在异方差。 ① 首先对成对样本数据(yt,xt)按xt取值大小排序。

12

表5.2 按xt取值从小到大排序的成对yt和xt数据

序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 yt xt 序号 16 17 18 19 20 21 22 23 24 25 26 27 28 29 yt xt 农作物产值 农作物播种面积 3.53 6.33 17.14 16.31 16.83 10.07 49.72 44.78 44.37 37.29 84.47 42.24 51.79 70.7 101 316.5 761.7 873.2 907.5 1018.5 1235.2 3601.5 4275.1 4701.3 5252.5 5495.5 5928.1 6036.1 6055.2 6542.7 农作物产值 农作物播种面积 61.24 40.28 59.45 69.7 154.28 146.79 129.63 155.87 101.67 211.51 125.24 255.92 183.65 206.5 6821.7 6834.4 7016.5 8158.1 9166.2 11061.5 11304.7 12244.3 12694.6 12770.9 13159.2 16564.5 17729.2 17779.6

② 去掉中间7个数据,则按xt取值大小分成样本容量各为11的两个子样本。 ③ 用两个子样本(x1, …, x11),(x19, …, x29),各自回归得结果如下,

yt = 2.7202 + 0.0106 xt , (t = 1, …, 11) (5.28)

(5.8) R2 = 0.80, F = 33.8, SSE1 = 1266

yt = 5.8892 + 0.0118 xt , (t = 19, …, 29) (5.29)

(3.0) R2 = 0.50, F = 9.1, SSE2 = 14174 计算F统计量,

因为F = 11.2 > F0..05 (9, 9) = 3.18,所以检验结果是(5.27)式存在递增型异方差。

注意:如果不对表5.1中成对样本数据(yt,xt)按xt取值大小排序。则残差图中观察不到异方差(见图5.10)。

13

图5.10 残差图

(2) 用Glejser法检验异方差

用 (5.27) 式的残差的绝对值对xt回归得

?????????

? = 0.0024 xt (5.30) (8.0) R2 = 0.22 输出结果见表5.3。

表5.3 (5.30)式的计算机输出形式

注:REABS表示?

?。

14

可见误差项的异方差形式是Var(ut) = E(ut)2 = (0.0024)2 xt2。 (3)用White方法检验异方差

首先用(5.27)式中的残差做如下辅助回归

= ?0 +?1 xt + ?3 xt2 + vt

OLS估计结果是

= -219.7 + 0.1595 xt – 0.000055 xt2

(-0.5) (1.5) (-0.6) R = 0.27, T = 29

2

注意,主要是利用上式的可决系数计算White检验统计量,所以不必注重上式中的t值。计算机输出形式见表5.4。EViews中有White检验计算程序。获得表5.4结果的操作是在(5.27)式估计窗口的功能键中选View, Residual Tests, White Heteroskedasticity (no cross trms)。

表5.4 (5.31)式的计算机输出形式

计算统计量

T R 2 = 29 ? 0.2765 = 8.02

因为T R 2 = 8.02 > ?20.05 (2) = 5.99,所以模型(5.27)中存在异方差。以上三种检验方法的检验结果都认为(5.27)式存在异方差。

15

则认为该解释变量是多余的,应该剔除。

(3)若引入的解释变量不仅改变了可决系数R2,而且还影响其它回归系数估计值的数值甚至符号,以至某些回归系数达到不能接受的地步,说明出现了多重共线性。找出与其相关的解释变量,保留两个中对因变量贡献大的哪个,剔除影响小的那一个。

例7.3 表7.3给出天津市1974-1987年粮食销售量yt(万吨/年),常住人口数xt1(万人),人均收入xt 2(元),肉销售量xt 3(万吨/年),蛋销售量xt 4(万吨/年),鱼虾销售量xt 5(万吨/年)的时间序列数据。

表7.3 变量 y,x1,x2,x3,x4,x5的数据

年 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987

yt 98.45 100.70 102.80 133.95 140.13 143.11 146.15 144.60 148.94 158.55 169.68 162.14 170.09 178.69

x1 560.2 603.11 668.05 715.47 724.27 736.13 748.91 760.32 774.92 785.30 795.50 804.80 814.94 828.73

x2 153.20 190.00 240.30 301.12 361.00 420.00 491.76 501.00 529.20 552.72 771.16 811.80 988.43 1094.65

x3 6.53 9.12 8.10 10.10 10.93 11.85 12.28 13.50 15.29 18.10 19.61 17.22 18.60 23.53

x4 1.23 1.30 1.80 2.09 2.39 3.90 5.13 5.47 6.09 7.97 10.18 11.79 11.54 11.68

x5 1.89 2.03 2.71 3.00 3.29 5.24 6.83 8.36 10.07 12.57 15.12 18.25 20.59 23.37

资料来源:《天津统计年鉴》1988。

建立关于天津市粮食销售量的多元线性回归模型如下。

yt = ?0 + ?1 xt1 + ?2 xt2 + ?3 xt3 + ?4 xt4 + ?5 xt5 + ut (7.31)

其中yt表示粮食销售量,xt1表示常住人口数,xt 2表示人均收入,xt 3表示肉销售量,xt4表示蛋销售量,xt 5表示鱼虾销售量。应用普通最小二乘法,得回归方程如下,

y = -3.50 + 0.13 x1 + 0.07 x2 + 2.68 x3 + 3.45x4 – 4.49 x5 (7.32)

(-0.11) (2.12) (1.95) (2.13) (1.41) (-2.03)

R2 = 0.97, F = 52.6, DW = 1.97, T = 14, t0.05(8) = 2.31, (1974-1987)

给定检验水平? = 0.05,临界值t0.05 (8) = 2.3,F0.05 (5, 8) = 3.69。因为R2 = 0.97, F = 52.6 ??3.69,所以回

46

归方程是显著的。但是,五个回归系数估计值却都未能通过t检验。这是解释变量间存在严重的多重共线性的明显特征。进一步分析,给出6个变量的简单相关系数表如下:

表7.2 变量 y,x1,x2,x3,x4,x5的相关系数矩阵

y x1 x2 x3 x4 x5

y 1.0000 0.9617 0.9097 0.9288 0.8922 0.8655

x1 1.0000 0.8666 0.8823 0.8524 0.8213

x2 x3 x4 x5 1.0000 0.9459 1.0000 0.9648 0.9405 1.0000 0.9825 0.9484 0.9820 1.0000

其中

= 0.9825,

= 0.9819,都大于(7.32)式的可决系数R2 = 0.97。依据Klein判别法,模型

存在严重的多重共线性。

下面利用逐步分析法剔除不重要解释变量。首先估计因变量对每个解释变量的一元线性回归模型。

yt = -90.9175 + 0.3169 xt1 (7.33)

(12.2)

R2 = 0.92, F = 147.6, T = 14, (1974-1987)

yt = 99.6128 + 0.0815 xt2

(7.6)

R2 = 0.82, F = 57.6, T = 14, (1974-1987)

yt = 74.6393 + 4.8933 xt3

(8.6)

R2 = 0.86, F = 75.4, T = 14, (1974-1987)

yt = 108.8598 + 5.7401 xt4

(6.8)

47

R2 = 0.79, F = 46.8, T = 14, (1974-1987)

yt = 113.3747 + 3.0806 xt2

(6.0)

R2 = 0.75, F = 36.1, T = 14, (1974-1987)

解释变量的重要程度依次为x1, x3, x2, x4, x5 。显然应该把回归方程(7.33)看作基础方程,然后逐个引入解释变量x3, x2, x4, x5 。

首先把x3引入模型,估计yt对x1, x3的二元回归方程,得

y = 0.14 x1 + 2.80 x3 (7.34)

(14.6) (5.8)

R2 = 0.94, T = 14, (1974-1987)

因为R2从0.92增至0.95,且x3的系数通过显著性检验,所以在模型中保留x3。再把x2引入模型,得三元回归方程,

yt = 0.15 x1 + 0.02 x2 + 1.72 x3 (7.35)

(12.1) (1.0) (1.4)

R2 = 0.95, T = 14, (1974-1987)

因为x2的引入没有使R 2得到改善,同时还使各回归系数的t值下降,所以应剔除x2。接着 把x4引入模型,

y = 0.15 x1 + 2.06 x3 + 0.86 x4 (7.36)

(10.3) (1.7) (0.7)

R2 = 0.95, F = 69.2, T = 14, (1974-1987)

与引入X2时的结果相类似,所以应剔除x 4。把x5引入模型,

y = 0.14 x1 + 2.7 x3 + 0.06 x5 (7.37)

(8.1) (1.9) (0.1)

R2 = 0.94, T = 14, (1974-1987)

48

同理,应剔除x5。最后确定的模型是

y = 0.14 x1 + 2.80 x3 (7.38)

(14.6) (5.8)

R2 = 0.94, T = 14, (1974-1987)

或者以相关系数大小排序。按如上的方法逐步分析,最终得结果如下:

y = 0.16 x1 + 0.04 x2 (7.39)

(26.3) (5.4)

R2 = 0.94, T = 14, (1974-1987)

以上两式都是比较理想的回归结果。

第六节 多重共线性与解释变量的不正确剔除

1 多重共线性与解释变量的不正确剔除

目前对多重共线性的研究还不够完善。有人认为,有时模型虽存在多重共线性,但并不会对估计回归参数带来影响;多重共线性对参数估计带来的影响不仅取决于多重共线性的强弱,还取决于引起多重共线性的变量在模型中的重要程度;当解释变量相关类型保持不变时,即便用存在多重共线性的回归方程进行预测,依然能取得满意结果。这更为辨别多重共线性的危害造成困难。

有时为克服多重共线性影响,从模型中剔除一些不重要解释变量。但这势必影响到其他回归参数的取值,从而产生设定误差(概念见7.7.4节)。一个模型在什么情形下,是多重共线性给参数估计带来的危害大,还是设定误差带来的危害大,目前从理论上还没能给予证实。

下面以二元线性回归模型为例介绍,当从模型中不恰当地剔除解释变量后所带来的设定误差。 设模型为

yt = ?0 + ?1 xt1 + ?2 xt2 + ut (7.40) 由于xt 1,xt 2存在多重共线性,因而从模型中剔除xt 2。模型(7.40) 变成 yt = ?0 + ?1* xt 1 + ut * (7.41) 显然?1与?1*是不同的。?1*的普通最小二乘估计量是

(7.42)

49

由(7.40)式估计?1的正规方程之一用离差形式表示为,

=+

(推导过程与(7.5)式相同。)上式两边同除

,得

上式中与式得,

(7.43)

相乘的因子正好是回归模型xt 2 = ?1 xt 1 + vt中?1的最小二乘估计式。把上式代入(7.42)

* =+

(7.44)

则设定误差是,

?1*- ?1 = E(*-) = E(

) = ?2?1 (7.45)

可见在剔除解释变量时,应该格外小心。

第七节 违反模型假定条件的其他几种情形

已经介绍了异方差、自相关和多重共线性问题。下面介绍其他5种违反假定条件的情形。 1 被解释变量存在测量误差

当被解释变量存在测量误差时,不会对回归系数估计量造成重大影响。以一元线性回归模型为例,假定真实的回归模型是

yt = ?0 + ?1 xt + ut (7.46)

但实际得到的yt的观测值是

yt* = yt + wt

yt*中含有测量误差wt。在(7.46)式两侧同加wt,得

yt* = ?0 + ?1 xt + (ut + wt) (7.47)

可见,若假定Cov(xt, wt) = 0,Cov(xt, ut) = 0成立,当用带有测量误差的被解释变量yt*对xt回归时,不会对

的无偏性产生影响。

50

c. 正自相关的序列图 d. 正自相关的散点图

e. 负自相关的序列图 f. 负自相关的散点图

图6.1时间序列及其当期与滞后一期变量的散点图

下面推导当误差项ut为一阶自回归形式时,ut 的期望、方差与协方差公式。由(6.7)式有 E(ut) = E(? ut -1 + vt) = ? E(ut -1) + E(vt) (6.8) 因为对于平稳序列有E(ut) = E(ut -1),整理上式得 E(ut) = E(vt) / (1- ? 2 ) = 0

Var(ut) = E(ut)2 = E(? ut -1 + vt)2

= E(?2 ut –12 + vt2 + 2? ut -1 vt )2 = ?2 Var(ut-1) +?v2

整理上式得

Var(ut) = ?u2 = ?v2 / (1- ? 2 ) (6.9) Cov(ut, ut-1) = E(ut ut-1) = E((? ut -1 + vt) ut-1)

= ? Var(ut-1) = ??u2 (6.10)

同理

Cov(ut, ut-s) = ? s Var(ut) = ? s ?u2, (s ? 0 ) (6.11)

u = (u1 u2 u3 … uT)’,

21

则由公式(6.9),(6.10),(6.11)得

(6.12)

其中?u2 = ?v2 / (1 - ? 2 )。从而验证了当回归模型的误差项ut存在一阶自回归形式时,Cov(ui, uj) ? 0。

同理也可证明当ut 存在高阶自回归形式时,仍有Cov(ui, uj) ? 0。 注意,

(1)这里主要是指时间序列中的自相关。

(2)经济问题中的时间序列自相关主要表现为正自相关(原因见6.3节)。

第三节 自相关的来源与后果

1 自相关的来源与后果

回归模型的误差项存在自相关,主要有如下几个原因。

(1) 模型的数学形式不妥。若所用的数学模型与变量间的真实关系不一致,误差项常表现出自相关。比如平均成本与产量呈抛物线关系,当用线性回归模型拟合时,误差项必存在自相关。 (2) 惯性。大多数经济时间序列本身都存在自相关。其本期值往往受滞后值影响。突出特征就是惯性与低灵敏度。如国民生产总值,固定资产投资,国民消费,物价指数等随时间缓慢地变化,从而建立回归模型时导致随机误差项自相关。

(3) 回归模型中略去了带有自相关的重要解释变量。若丢掉了应该列入模型的带有自相关的重要解释变量,那么它的影响必然归并到误差项ut中,从而使误差项呈现自相关。当然略去多个带有自相关的解释变量,也许因互相抵消并不使误差项呈现自相关。

当误差项ut 存在自相关时,模型参数的最小二乘估计量具有如下特性。 (1) 只要假定条件Cov(X ' u) = 0 成立,回归系数

仍具有无偏性。

E(

) = E[ (X 'X )-1 X 'Y ] = E[ (X 'X )-1 X ' (X ? + u) ].

= ? + (X 'X)-1 X ' E(u) = ?

(2)

丧失有效性。

22

Var() = E [(- ? ) (- ? )' ]

= E [(X 'X )-1 X ' u u' X (X 'X)-1 ] = (X ' X)-1 X ' E (u u' ) X (X ' X )-1

= (X 'X )-1 X ' ? X (X ' X )-1 (6.13)

不等于模型符合假定条件下的

的方差? 2 (X ' X )-1。

在模型存在自相关条件下,用OLS法估计的ut的方差常常会低估其真实的方差,也即低估了回归参数估计量的方差。这等于夸大了回归参数的抽样精度,高估了统计量t的值,从而导致把不重要的解释变量保留在模型里,使显著性检验失去意义。

由于ut 存在自相关时,误差项和回归参数估计量的估计方差都变大,都不具有最小方差性。所以用依据OLS法得到的回归方程去预测,预测量不具有有无效性。

第四节 自相关检验

下面介绍自相关的判别与检验方法。 1 图示法

图示法就是依据残差

对时间t的序列图作出判断。由于残差

是对误差项ut 的估计,所以尽管误

差项ut 观测不到,但可以通过残差

的变化判断误差项ut 是否存在自相关。

图示法的具体步骤是,(1) 用给定的样本估计回归模型,计算残差, (t = 1, 2, … T),绘制残差图;

(2) 分析残差图。若残差图与图6.1 a 类似,则说明ut 不存在自相关;若与图6.1 c类似,则说明ut 存在正自相关;若与图6.1 e 类似,则说明ut存在负自相关。

经济变量由于存在惯性,不可能表现出如图6.1 c那样的震荡式变化。其变化形式常与图6.1 c 相类似,所以经济变量的变化常表现为正自相关。

2 DW(Durbin-Watson)检验法

DW检验是J. Durbin和G. S. Watson于1951年提出的。它是利用残差

构成的统计量推断误差项

ut 是否存在自相关。DW检验只适用于检验误差项是否存在一阶自相关情形。

DW检验步骤如下。给出假设

H0: ? = 0 (ut 不存在一阶自相关) H1: ? ? 0 (ut 存在一阶自相关)

23

用估计的回归方程的残差值

计算统计量DW。DW定义如下,

(6.14)

其中分子是残差的一阶差分平方和,分母是残差平方和。把上式展开,

因为有

(6.15)

代入(6.15)式,

(6.16)

(6.17)

因为 ? 的取值范围是 [-1, 1],所以DW统计量的取值范围是 [0, 4]。? 与DW值的对应关系见表6.1。

表6.1 ? 与DW值的对应关系及意义

24

? ? = 1 ? = 0 ? = -1

0 < ? < 1 -1 < ? < 0

DW DW = 0 DW = 2 DW = 4 0 < DW < 2 2 < DW < 4

ut的表现 ut完全正自相关 ut非自相关 ut完全负自相关 ut有某种程度的正自相关 ut有某种程度的负自相关

实际中DW = 0, 2, 4 的情形是很少见的。当DW取值在(0, 2),(2, 4)之间时,怎样判别误差项ut 是否存在自相关呢?推导统计量DW的精确抽样分布是困难的,因为DW是依据残差而

计算的,

的值又与xt的形式有关。DW检验与其它统计检验不同,它没有惟一的临界值用来制定判别规则。

然而Durbin-Watson根据样本容量和被估参数个数,在给定的显著性水平下,给出了检验用的上、下两个临界值dU和dL 。判别规则如下:

(1) 若DW取值在(0, dL)之间,拒绝原假设H0 ,认为ut 存在一阶正自相关。

(2) 若DW取值在(4 - dL , 4)之间,拒绝原假设H0 ,认为ut 存在一阶负自相关。 (3) 若DW取值在(dU, 4- dU)之间,接受原假设H0 ,认为ut 非自相关。

(4) 若DW取值在(dL, dU)或(4- dU, 4 - dL)之间,这种检验没有结论,即不能判别 ut 是否存在一阶自相关。判别规则可用图6.2表示。

图6.2 DW取值范围与自相关性

当DW值落在“不确定”区域时,有两种处理方法。(1)加大样本容量或重新选取样本,重做DW检验。有时DW值会离开不确定区。(2)选用其它检验方法。

附表5(DW检验表)给出DW检验临界值。DW检验临界值与三个参数有关。(1)检验水平?,(2)样本容量T , (3)原回归模型中解释变量个数k(不包括常数项)。

注意:(1)因为DW统计量是以解释变量非随机为条件得出的,所以当有滞后的内生变量作解释变量时,DW检验无效。(2)DW统计量不适用于高阶自相关检验。(3)DW统计量不适用于联立方程模型中各方程的序列自相关检验。

25

(6.37)

说明变换后模型(6.35)的误差项中不再有自相关。用普通最小二乘法估计 (6.35) 式中的 ?。 则

= (X*' X*)-1 X*' Y*. (6.38)

具有最佳线性无偏特性。 把原数据代入(6.38)式

= [(M X )' (M Y ) ] –1 (M X )' (M Y )

= (X ' M ' M X ) –1 X ' M ' M Y

= (X ' ? -1 X) – 1 X ' ? - 1 Y, (6.39) 其中

31

第七节 自相关系数的估计

1 直接取ρ=1

认为ut 的一阶自回归形式是

(6.40)

ut = ut - 1 + vt (6.41)

则 (1.26) 式变为

yt -yt -1 = ?1 (x1 t - x1 t -1) +?2 (x2 t-x2 t-1) +…+?k-1 (xk-1 t-xk-1 t -1) + vt (6.42) 这实际上是对原变量进行一阶差分,

?yt = ?1 ?x1 t + ?2 ?xk t +…??k -1?xk-1 t + vt (6.43)

这种变换方法称作一阶差分法。所得模型 (6.43) 称作一阶差分模型。一阶差分法的优点是计算简便。

注意:

(1)一阶差分模型中不应该有常数项。

(2)当回归模型中有时间t做解释变量式时,一阶差分模型中应该含有原式中t的回归系数。例如原模型为

yt = ?0 + ?1 xt + ?2 t + vt。

一阶差分模型应该是

?yt = ?1 ?xt + ?2 + wt。

(3)这种方法只有在?近似等于1的情形下,才可以使用。 2 用DW统计量估计

由(6.17)式,得

= 1- (DW / 2) (6.44)

32

首先利用残差

求出DW统计量的值(专用计量经济学软件可以直接给出DW值)。然后利用上式求

出自相关系数 ? 的估计值。

注意:(1)用此法时样本容量不宜过小。(2)此法不适用于动态模型(即被解释变量滞后项做解释变量的模型)。

第八节 案例分析

案例1

中国1950-1972年(T = 23),国家进出口贸易总额yt(单位亿元)与社会总产值xt (单位亿元) 的数据(摘自《中国统计年鉴》1987)见表6.2,试求对数的进出口贸易额Lnyt 对对数的社会总产值Lnxt 的回归方程。

表6.2 yt与xt数据

i 1950 1951 1952 1953 1954 1955 1956 1957 yt 41.5 59.5 64.6 80.9 84.7 xt 683.0 820.0 1015.0 1241.0 1346.0 i 1958 1959 1960 1961 1962 1963 1964 1965 yt xt i 1966 1967 1968 1969 1970 1971 1972 yt xt 128.7 2138.0 149.3 2548.0 128.4 2679.0 90.8 80.9 85.7 97.5 1978.0 1800.0 1956.0 2268.0 127.1 3062.0 112.2 2774.0 108.5 2648.0 106.9 3184.0 112.9 3800.0 120.9 4203.0 146.9 4396.0 109.8 1415.0 108.7 1639.0 104.5 1606.0 118.4 2695.0

图 6.3 yt 对xt 的散点图 图 6.4 Lnyt 对Lnxt 的散点图

yt 对xt和 Lnyt 对Lnxt 的散点图分别见图6.3和6.4。建立对数模型的原因是克服异方差。

设所建立的回归模型为

Lnyt = ?0 + ?1 Lnxt + ut . (6.45)

33

首先估计回归方程(6.45)并计算残差 Ln

。因

没有显著性,最终所得结果如下,

= 0.6034 Ln xt (6.46)

(133.1) R2 = 0.70, s.e. = 0.17, DW = 0.44 (1950-1972)

残差图见图6.5。表现为正自相关特征。

图 6.5 (1.45) 式残差图

下面用DW统计量检验误差项ut是否存在自相关。由(6.46)式知DW = 0.44,给定? = 0.05,回归式中只有一个解释变量,k=1,查附表5,dL = 1.26。因为 DW = 0.44 ? 1.26, 依据判别规则,认为误差项ut存在严重的正自相关。

下面用BG统计量检验自相关。建立辅助回归式如下(输出结果见表6.3)

= 0.0.7330

+0.0181

-0.0004 Lnxt (6.47)

2

(3.19) (0.07) (-0.11) R= 0.50

得LM = T R2 = 12.69(表6.3中亦给出12.69)。因为?20.05(2) = 5.99。12.69> 5.99,所以回归式(6.46)存在自相关。

表6.3 BG检验输出结果

34

注:BG检验的EViews操作是在(6.46)式窗口的功能健中选View, Residual Tests,

Breusch-Godfrey Serial Correlation LM Test。

通过辅助回归式(6.47)可以看出误差项的自回归为一阶自回归形式。下面估计自回归系数

首先估计

=0.78对原数据作广义差分变换。

下面用广义最小二乘法估计回归方程。用 GDLnyt = Lnyt - 0.78 Lnyt -1, GDLnxt = Lnxt - 0.78 Lnxt – 1,

以GDLnyt, GDLnxt,(t = 2 , 3 , … 23),为样本再次回归,得

GDLnyt = 0.6077 GDLnxt (6.48) (48.3) R2 = 0.38, s.e. = 0.10, DW = 1.49 (1951-1972)

查附表5,dU = 1.43,因为DW = 1.49 ? 1.43,依据判别规则,说明已消除自相关。残差图见图6.6。

35

重共线性。举例说明如下。

例7.1 关于家庭人均消费yt,家庭人均收入x1和家庭人均储蓄x2的数据如表7.2。

表7.2 人均消费yt,人均收入x1,人均储蓄x2数据

yt 70 65 90 95 110 115 120 140 155 150

x1 80 100 120 140 160 180 200 220 240 260

x2 810 1009 1273 1425 1633 1876 2052 2201 2435 2686

得二元线性回归方程OLS估计结果如下,

= 24.7747 + 0.9415 x1 - 0.0424 x2 (7.18)

(1.14) (-0.53) R2 = 0.96,F = 92.4

从结果看,可决系数R2 = 0.96已相当高。x1, x2共同解释了因变量yt变差的96%。F = 92.4,说明检验结果高度显著。但与重的多重共线性。

下面考察x1与x2的相关系数。得x1, x2作简单线性回归,得

= 0.9979。说明x1与x2几乎是完全共线性的。分别用yt对

,

相应的t值却都很低。在? = 0.05甚至? = 0.1水平上都未能通过显著性检

验。此外?2估计值为负(-0.0424),也与常理和经济理论不符。以上现象说明解释变量x1, x2间存在严

= 24.4545 + 0.5091 x1

(14.2) R2 = 0.96

41

= 24.3480 + 0.0498 x2

(13.4) R2 = 0.96

可见,x1, x2都是yt的重要解释变量。它们各自都能解释因变量yt变差的96%。但是,当用x1, x2做二元回归时(见(7.18)式),两个回归系数估计量却都未能通过t检验。 2 Klein判别法

对于多元线性回归模型

yt = ?0+ ?1 xt1 + … + ?k-1 xtk-1 + ut

Klein判别法的步骤如下:

(1) 计算回归方程的可决系数R2 以及解释变量的简单相关系数, (i, j = 1, 2, …, k-1, i ? j)。

(2)若存在某个 ?

? ? R2,则认为xi与xj间存在严重的多重共线性。

例7.2 用1975-1986年全国货运量yt(亿吨),农业总产值x1(千亿元),重工业总产 值x2(千亿元),轻工业总产值x3(千亿元),数据(摘自中国统计年鉴1987)得关于货运量的三元线性回归方程如下。

= 14.6119 - 5.8515 x1 + 3.9752 x2 +5.3225 x3 (7.19)

(-2.20) (2.46) (1.98) R2 = 0.87, F= 17.9 三个解释变量x1,x2,x3的简单相关系数如下: rx1, x2 = 0.984, rx1, x3 = 0.994, rx2, x3 = 0.975

因为解释变量间的三个相关系数都大于三元回归方程的可决系数0.87,所以依据Klein判别法,解释变量间的多重共线性是严重的。

第五节 多重共线性的解决方法

完全不存在多重共线性是一个很强的假定。实际中,经济变量随着经济形势的起伏,总要表现出某种程度的共同变化特征。当然,完全多重共线性在实际经济问题中很少见,所以多重共线性的一般表现形式是不完全多重共线性。当解释变量间存在不完全多重共线性时。主要是对回归系数的估计带来严重后果。尽管回归系数的普通最小二乘估计量仍具有无偏性,但由于回归系数估计量的方差变大,使回归系数估计量意义。

为克服模型中的多重共线性,下面介绍几种方法。

42

的抽样精度下降,

的值有可能远离真值?j,从而使回归系数估计值变得毫无

1 直接合并解释变量

当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量直接合并,从而降低或消除多重共线性。

继续看例7.2。如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工业总产值,从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业总产值合并,变为工农业总产值。解释变量变成了一个,自然消除了多重共线性。 2 利用已知信息合并解释变量

通过经济理论及对实际问题的深刻理解,对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。比如有二元回归模型

yt = ?0+ ?1 xt1 + ?2 xt2 + ut (7.20)

x1与x2间存在多重共线性。如果依据经济理论或对实际问题的深入调查研究,能给出回归系数?1与

?2的某种关系,例如

?2 = ??1 (7.21) 其中 ? 为常数。把上式代入模型(7.20),得

yt = ?0+ ?1 xt1 + ??1 xt2 + ut = ?0 + ?1 (xt1 + ? xt2) + ut (7.22)

xt = xt1 + ? xt2 得

yt = ?0+ ?1 xt + ut (7.23)

模型(7.23)是一元线性回归模型,所以不再有多重共线性问题。用普通最小二乘法估计模型(7.23),得到

,然后再利用(7.21)式求出

下面以道格拉斯(Douglass)生产函数为例,做进一步说明。

Yt = K Lt? Ct? eut (7.24) 其中Yt表示产出量,Lt表示劳动力投入量,Ct表示资本投入量。两侧取自然对数后,

LnYt = LnKt + ?LnLt + ?LnCt + ut (7.25)

因为劳动力(Lt)与资本(Ct)常常是高度相关的,所以LnLt与LnCt也高度相关,致使无法求出

?,?的精确估计值。假如已知所研究的对象属于规模报酬不变型,即得到一个条件

43

? + ? = 1

利用这一关系把模型(7.25)变为

LnYt = LnKt + ? LnLt + (1- ?) LnCt + ut 整理后,

(7.26)

变成了Ln (Yt /Ct) 对Ln (Lt /Ct) 的一元线性回归模型,自然消除了多重共线性。估计出?后,再利用关系式? + ? = 1,估计?。 3 增加样本容量或重新抽取样本

这种方法主要适用于那些由测量误差而引起的多重共线性。当重新抽取样本时,克服了测量误差,自然也消除了多重共线性。另外,增加样本容量也可以减弱多重共线性的程度。

下面仍以二元线性回归模型为例说明这个道理。由(7.16)和(7.17)式,有

(7.27)

当样本容量增大时,

个确定的值,所以与

4 合并截面数据与时间序列数据

也增大,而

(7.28) 趋近于总体相关系数

,

的抽样精度。

,为某一

均趋于减小,从而提高了估计量

这种方法属于约束最小二乘法(RLS)。其基本思想是,先由截面数据求出一个或多个回归系数的估计值,再把它们代入原模型中,通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量,然后建立新因变量对那些保留解释变量的回归模型,并利用时间序列样本估计回归系数。下面通过一个例子具体介绍合并数据法。

设有某种商品的销售量模型如下,

Ln Yt = ?0+ ?1 Ln Pt + ?2 Ln It + ut (7.29) 其中Yt 表示销售量,Pt表示平均价格,It表示消费者收入,下标t表示时间。

在时间序列数据中,价格Pt与收入It一般高度相关,所以当用普通最小二乘法估计模型(7.29)

44

的回归系数时,会遇到多重共线性问题。

首先利用截面数据估计收入弹性系数?2。因为在截面数据中,平均价格是一个常量,所以不存在对?1的估计问题。

把用截面数据得到的收入弹性系数估计值

代入原模型(7.29)。得

LnYt = ?0+ ?1 Ln Pt +移项整理

Ln It + ut

LnYt -

Ln It = ?0+ ?1 LnPt + ut

变换后的因变量(LnYt -

Ln It)用Zt表示,则

Zt = ?0+ ?1 LnPt + ut (7.30)

这时已排除收入变量的影响。模型已变换为一元线性回归模型。利用时间序列数据对模型(7.30)作普通最小二乘(OLS)估计,求出

,

。这样便求到相对于模型(7.29)的估计式,

=+Ln Pt +

Ln It

其中是用截面数据估计的,,

是由时间序列数据估计的。

由于把估计过程分作两步,从而避免了多重共线性问题。显然这种估计方法默认了一种假设,即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的 种假设不成立时,这种估计方法会带来估计误差。

5 逐步分析法

当模型中存在多重共线性时,可以用逐步分析法剔除那些引起多重共线性的,不重要的解释变量从而消除多重共线性。

逐步分析法的步骤是,首先估计被解释变量对每一个解释变量的回归方程,然后依据显著性检验确定出对因变量贡献最大的解释变量所对应的回归方程,并以它为基础,逐个引入其余解释变量重新回归,并按以下原则决定新引入解释变量的保留与剔除。

(1)若新引入的解释变量对回归方程的可决系数R2有明显改进,且回归系数的t检验在统计上是显著的,那么该解释变量在模型中予以保留。

(2)若新引入的解释变量未能明显地改进可决系数R2,且对其它回归系数的检验没有什么影响,

45

相同。当这

3 BG检验法(亦称LM检验)

DW统计量只适用于一阶自相关检验,而对于高阶自相关检验并不适用。利用BG统计量可建立一个适用性更强的自相关检验方法,既可检验一阶自相关,也可检验高阶自相关。BG检验由Breusch-Godfrey提出。

对于多元回归模型

yt = ?0 + ?1x1 t + ?2 x2 t + … + ? k –1 x k-1 t + ut (6.18)

考虑误差项为n阶自回归形式

ut = ?1 ut-1 + … + ?n ut - n + vt (6.19) 其中vt 为随机项,符合各种假定条件。零假设为

H0: ?1 = ?2 = …= ?n = 0

这表明ut不存在n阶自相关。用估计(6.18)式得到的残差建立辅助回归式,

上式中的

(6.20)

是(6.18)式中ut的估计值。估计上式,并计算可决系数R2。构造LM统计量,

LM = T R2 (6.21)

其中T表示样本容量。R2为(6.20)式的可决系数。在零假设成立条件下,LM统计量近似服从 ?2(n) 分布。其中n为(6.19)式中自回归阶数。如果零假设成立,LM统计量的值将很小,小于临界值。 4 回归检验法

回归检验法的步骤如下:

(1)用给定样本估计模型并计算残差

(2)对残差序列

, (t = 1 ,2 ,… , T ) 用普通最小二乘法进行不同形式的回归拟合。如

= ?– 1 + vt

(6.22)

= ?1– 1 +?2– 2 + vt

26

= ?- 1

2

+ vt

= ? …

+ vt

(3)对上述各种拟合形式进行显著性检验,从而确定误差项ut存在哪一种形式的自相关。

回归检验法的优点是,(1)适合于任何形式的自相关检验,(2)若结论是存在自相关,则同时能提供出自相关的具体形式与参数的估计值。缺点是计算量大。

第五节 克服自相关

1 克服自相关

如果模型的误差项存在自相关,首先应分析产生自相关的原因。如果自相关是由于错误地设定模型的数学形式所致,那么就应当修改模型的数学形式。怎样查明自相关是由于模型数学形式不妥造成的?一种方法是用残差

对解释变量的较高次幂进行回归,然后对新的残差作

DW检验,如果此时

自相关消失,则说明模型的数学形式不妥。

如果自相关是由于模型中省略了重要解释变量造成的,那么解决办法就是找出略去的解释变量,把它作为重要解释变量列入模型。怎样查明自相关是由于略去重要解释变量引起的?一种方法是用残差

对那些可能影响因变量,但又未列入模型的解释变量回归,并做显著性检验,从而确定该解释变

量的重要性。如果是重要解释变量,应该列入模型。

只有当以上两种引起自相关的原因都消除后,才能认为误差项ut “真正”存在自相关。在这种情况下,解决办法是变换原回归模型,使变换后的随机误差项消除自相关,进而利用普通最小二乘法估计回归参数。这种变换方法称作广义最小二乘法。下面介绍这种方法。

设原回归模型是

yt = ?0 + ?1x1 t + ?2 x2 t + … + ?k-1 xk-1 t + ut (t = 1, 2, …, T ) (6.23) 其中ut具有一阶自回归形式 ut = ? ut-1 + vt

其中vt 满足通常的假定条件,把上式代入(6.23)式,

yt = ?0 + ?1 x1 t +?2 x2 t + … + ?k-1 xk-1 t + ? ut -1 + vt (6.24) 求模型(6.23)的 (t - 1) 期关系式,并在两侧同乘 ?,

27

? yt -1= ? ?0 +? ?1 x1 t -1+? ?2 x2 t -1 + … + ? ?k-1 xk-1 t -1 + ? ut - 1 (6.25) 用(6.23)式与上式相减得

yt - ? yt -1 = ?0 (1-?) + ?1 (x1 t -? x1 t-1) +…+ ?k-1 ( xk-1 t - ? xk-1 t -1) + vt (6.26) 令

yt* = yt - ? yt -1 , (6.27) xj t* = xj t - ? xj t - 1, j = 1 , 2 , … k-1 (6.28) ?0* = ?0 (1-? ), (6.29) 则模型(6.26)表示如下,

yt* = ?0*+ ?1 x1 t* + ?2 x2 t* +… + ?k-1 xk-1 t* + vt (6.30)

上式中的误差项vt是非自相关的,满足假定条件,所以可对上式应用最小二乘法估计回归参数。所得估计量具有最佳线性无偏特性。上式中的 ?1 … ?k-1 就是原模型(6.23)中的 ?1 … ?k,而 ?0* 与模型(6.23)中的 ?0 有如下关系,

?0* = ?0 (1 - ?), 或

?0 = ?0* / (1 - ?). (6.31)

上述变换称作广义差分变换。这种变换将损失一个观测值,样本容量变成(T-1)。为避免这种损失,K. R. Kadiyala(1968)提出对yt与xj t的第一个观测值分别作如下变换。

于是对模型(6.23),样本容量仍然为T。

这种变换的目的就是使相应误差项u1的方差与其它误差项u2, u3,…uT,的方差保持相等。作上述变换后,有

28

Var(u1*) = (1 - ?2 ) Var(u1) 把(6.19)式代入上式,

Var(u1*) = (1 - ? 2 ) [?v 2 / (1 - ? 2 )] = ?v 2 u1与其他随机误差项的方差相同。

当误差项ut 的自相关具有高阶自回归形式时,仍可用与上述相类似的方法进行广义差分变换。比如ut具有二阶自回归形式,

ut = ?1 ut-1 + ? 2 ut–2 + vt ,

则变换过程应首先求出原模型(t-1)期与(t-2)期的两个关系式,然后利用t期回归式减?1倍的(t-1)期回归式和?2倍的(t-2)期回归式的变换方法建立符合假定条件的广义差分模型。若ut具有k阶自回归形式,则首先求k个不同滞后期的关系式,然后通过广义差分变换使模型的误差项符合假定条件。需要注意的是对二阶自回归形式,作广义差分变换后,要损失两个观测值;对k阶自回归形式,作广义差分变换后,将损失k个观测值。

当用广义差分变量回归的结果中仍存在自相关时,可以对广义差分变量继续进行广义差分直至回归模型中不存在自相关为止。

第六节 克服自相关的矩阵描述

1 克服自相关的矩阵描述

对于线性回归模型

Y = X? + u (6.32) 假定E(u u ') = ? 2I 不成立,误差项ut 具有一阶自回归形式自相关, ut = ? u t -1 + vt 则Var(u) 由 (6.12) 式给出

其中?u2 = ?v 2 / (1 - ? 2)。取

29

(按K. R. Kadiyala 提议补上第一个观测值)使

M ? M ' = ?v 2 I (6.33) 用M左乘(6.32)式,

M Y = M X ? + M u (6.34) 令

Y* = M Y,

X* = M X, u* = M u

则模型(6.34)表示为

Y* = X*? + u* (6.35) 其中

(6.36)

(6.35)式中带*号变量的变换规则与(6.27)和(6.28)式中相应带*号的变量变换规则相同,所以模型 (6.35) 是广义差分变换模型。因为

30

本文来源:https://www.bwwdw.com/article/hki2.html

Top