《计量经济学》案例:用回归模型预测木材剩余物(一元线性回归)

更新时间:2024-04-08 19:02:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

案例:用回归模型预测木材剩余物(一元线性回归)

伊春林区位于黑龙江省东北部。全区有森林面积2189732公顷,木材蓄积量为23246.02万m3。森林覆盖率为62.5%,是我国主要的木材工业基地之一。1999年伊春林区木材采伐量为532万m3。按此速度44年之后,1999年的蓄积量将被采伐一空。所以目前亟待调整木材采伐规划与方式,保护森林生态环境。为缓解森林资源危机,并解决部分职工就业问题,除了做好木材的深加工外,还要充分利用木材剩余物生产林业产品,如纸浆、纸袋、纸板等。因此预测林区的年木材剩余物是安排木材剩余物加工生产的一个关键环节。下面,利用简单线性回归模型预测林区每年的木材剩余物。显然引起木材剩余物变化的关键因素是年木材采伐量。

给出伊春林区16个林业局1999年木材剩余物和年木材采伐量数据如表2.1。散点图见图2.14。观测点近似服从线性关系。建立一元线性回归模型如下:

yt = ?0 + ?1 xt + ut

表2.1 年剩余物yt和年木材采伐量xt数据

林业局名 乌伊岭 东风 新青 红星 五营 上甘岭 友好 翠峦 乌马河 美溪 大丰 南岔 带岭 朗乡 桃山 双丰 合计

30y年木材剩余物y(万m3) 年木材采伐量x(万m3) tt

26.13

23.49 21.97 11.53 7.18 6.80 18.43 11.69 6.80 9.69 7.99 12.15 6.80 17.20 9.50 5.52 202.87

61.4 48.3 51.8 35.9 17.8 17.0 55.0 32.7 17.0 27.3 21.5 35.5 17.0 50.0 30.0 13.8 532.00

25201510x203040506070510

图2.14 年剩余物yt和年木材采伐量xt散点图

1

图2.15 Eviews输出结果

Eviews估计结果见图2.15。建立Eviews数据文件的方法见附录1。在已建立Eviews数据文件的基础上,进行OLS估计的操作步骤如下:打开工作文件,从主菜单上点击Quick键,选Estimate Equation 功能。在出现的对话框中输入y c x。点击Ok键。立即会得到如图2.15所示的结果。

下面分析Eviews输出结果。先看图2.15的最上部分。LS表示本次回归是最小二乘回归。被解释变量是yt。本次估计用了16对样本观测值。输出格式的中间部分给出5列。第

?和??)1列给出截距项(C)和解释变量xt。第2列给出相应项的回归参数估计值(?。第

01?), s(??))3列给出相应回归参数的样本标准差(s(?01。第4列给出相应t值。第5列给出t

统计量取值大于用样本计算的t值(绝对值)的概率值。以t = 12.11266为例,相应概率0.0000表示统计量t取值(绝对值)大于12.1的概率是一个比万分之一还小的数。换句话说,若给定检验水平为0.05,则临界值为t0.05 (14) = 2.15。t = 12.1落在了H0的拒绝域,所以结论是?1不为零。输出格式的最下部分给出了评价估计的回归函数的若干个统计量的值。依纵向顺序,这些统计量依次是可决系数R2、调整的可决系数R2(第3章介绍)、回归函数的标准差(s.e.,

?)即均方误差的算术根?、残差平方和、对数极大似然函数值(第10章介绍)、DW统计量

的值(第6章介绍)、被解释变量的平均数(y)、被解释变量的标准差(s(yt))、赤池(Akaike)信息准则(是一个选择变量最优滞后期的统计量)、施瓦茨(Schwatz)准则(是一个选择变量最优滞后期的统计量)、F统计量(第3章介绍)的值以及F统计量取值大于该值的概率。

根据Eviews输出结果(图2.15),写出OLS估计式如下:

?t= -0.7629 + 0.4043 xt (2.64) y (-0.6) (12.1) R = 0.91, s. e. = 2.04

2

?=?u?t2(16?2)。其中括号内数字是相应t统计量的值。s.e.是回归函数的标准误差,即?R2是可决系数。R 2 = 0.91说明上式的拟合情况较好。yt变差的91%由变量xt解释。检验回

归系数显著性的原假设和备择假设是(给定? = 0.05)

H0:?1 = 0; H1:?1 ? 0

2

图2.16 残差图

因为t = 12.1 > t0.05 (14) = 2.15,所以检验结果是拒绝?1 = 0,即认为年木材剩余物和年木材采伐量之间存在回归关系。上述模型的经济解释是,对于伊春林区每采伐1 m3木材,将平均产生0.4 m3的剩余物。

?t,图2.16给出相应的残差图。Actual表示yt的实际观测值,Fitted表示yt的拟合值y?t。Residual表示残差u残差图中的两条虚线与中心线的距离表示残差的一个标准差,即s.e.。通过残差图可以看到,大部分残差值都落在了正、负一个标准差之内。

估计?1的置信区间。由

t = P {

???? t0.05 (14) s(??) ?111????11s(??1? t0.05 (14) } = 0.95

)?1的置信区间是

?), ??)] ?- t0.05 (14) s(??+ t0.05 (14) s(?[?1111[0.4043 - 2.15 ? 0.0334, 0.4043 + 2.15 ? 0.0334]

[0.3325, 0.4761] (2.65)

以95%的置信度认为,?1的真值范围应在[0.3325, 0.4761 ]范围中。 下面求yt的点预测和置信区间预测。假设乌伊岭林业局2000年计划采伐木材20万m3,求木材剩余物的点预测值。

?2000 = - 0.7629 + 0.4043 x2000 y = -0.7629 + 0.4043 ? 20 = 7.3231万m3 (2.66)

?s(y2

?2(2000) = ?(xF?x)21+ ) 2T(x?x)? 3

1(20?33.25)2= 4.1453 (+) = 0.4546

3722.260616

因为

?2000) =0.4546= 0.6742 s(y?+??x2000 ) = ?0 + ?1 x2000 = E(y2000) ?2000) = E(?E(y01t =

?2000?E(y2000)y? t (T-2)

?2000)s(y则置信度为0.95的2000年平均木材剩余物E(y2000)的置信区间是

?y2000 ? t0.05 (14) s(

?y2000) = 7.3231 ? 2.15 ? 0.6742

= 5.8736, 8.7726 (2.67)

从而得出预测结果,2000年若采伐木材20万m3,产生木材剩余物的点估计值是7.3231万m3。平均木材剩余物产出量的置信区间估计是在 [5.8736, 8.7726] 万m3之间。从而为恰当安排2000年木材剩余物的加工生产提供依据。

案例2:《全国味精需求量的计量经济模型》(多元线性模型及变量的筛选)

(见《预测》1987年第2期)

1.依据经济理论选择影响味精需求量变化的因素

依据经济理论一种商品的需求量主要取决于四个因素,即①商品价格,②代用品价格,③消费者收入水平,④消费者偏好。模型为:

商品需求量 = f (商品价格,代用品价格,收入水平,消费者偏好)

对于特定商品味精,当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别。

商品价格:味精是一种生活常用品,当时又是一种价格较高的调味品。初步判断价格会对需求量产生影响。所以确定价格作为一个重要解释变量。

代用品价格:味精是一种独特的调味品,目前尚没有替代商品。所以不考虑代用品价格这一因素。

消费者收入:显然消费者收入应该是一个较重要的解释变量。 偏好:由于因偏好不食味精或大量食用味精的情形很少见,所以每人用量只会在小范围内波动,所以不把偏好作为重要解释变量,而归并入随机误差项。

分析结果,针对味精需求量只考虑两个重要解释变量,商品价格和消费者收入水平。 味精需求量 = f (商品价格,收入水平)

2.选择恰当的变量(既要考虑代表性,也要考虑可能性)

用销售量代替需求量。因需求量不易度量,味精是自由销售商品,不存在囤积现象,所以销售量可较好地代表需求量。味精商品价格即销售价格。

用人均消费水平代替收入水平。因为①消费水平与味精销售量关系更密切。②消费水平数据在统计年鉴上便于查找(收入水平的资料不全)。 味精销售量 = f (销售价格,人均消费水平)

用平均价格作为销售价格的代表变量。不同地区和不同品牌的味精价格是不一样的,应取平均价格(加权平均最好)。

取不变价格的人均消费水平:消费水平都是用当年价格计算的,应用物价指数进行修正。

4

味精销售量 = f (平均销售价格,不变价格的消费水平)

3. 收集样本数据(抽样调查,引用数据)

从中国统计年鉴和有关部门收集样本数据 (1972-1982, T = 11)。定义销售量为sale(吨),平均销售价格为price(元 / 公斤),不变价格的消费水平为 level(元)。相关系数表如下:

味精销售量(sale)

平均销售价格(price)

不变价格的消费水平(level)

-0.3671 0.9771

4. 确定模型形式并估计参数

sale = -144680.9 + 6313.4 price + 690.4 level (1)

(-3.92) (2.17) (15.32) R2 = 0.97, DW = 1.8, t0.05 (8) = 2.3

回归系数6313.4无显著性(sale与price应该是负相关,回归系数估计值却为正,可见该估计值不可信)。剔除不显著变量price,再次回归, sale = -65373.6 + 642.4 level (2)

(-10.32) (13.8) R2 = 0.95, DW = 1.5, t0.05 (9) = 2.26

?= 6313.4, 问题:?为什么检验结果是 ?1 = 0? 量纲的变化对回归结果会造成影响吗? 1

案例3:《用回归方法估计纯耕地面积》(多元线性模型)

(见《数理统计与管理》1986年第6期)

目前对土地的调查大多采用航空摄影,从照片上把各类资源图斑转绘到1:10000的地形图上,然后再从地形图上测绘图斑面积。

在处理如何获得实际耕地面积时,关键技术难题是如何将耕地图斑中包含的田埂、土坎、空隙地、宽度小于2米的路、沟、渠等面积从图斑中分离出来。因为它们在航空图片上的分辨率很低,无法直接勾绘,测算。

设一个毛耕地图斑面积用S表示,其中不能耕种的面积(扣除面积)用 ?S表示,则扣除系数,

yi = ?S / S =(扣除面积)/(毛耕地图斑面积)。 对于每一个图斑,知道精确的扣除系数,就很容易根据毛耕地图斑面积计算出纯耕地面积。现在用回归分析方法,寻找影响扣除系数变化的主要因素,从而建立关于“扣除系数”的回归模型。

该论文研究的是湖南地区的耕地面积调查。湖南省属丘陵山区,地形复杂,各种地类犬牙交错,影响扣除系数的因素很多。如田埂宽度、地块大小、地块坡度、空隙地、地貌类型等。通过实际调查和分析,初步确定三个主要因素,即

“坡度”、“地块面积”和“田埂宽度”

论文作者在五个县共调查了867个样本点,其中水田样本522个,旱田样本345个。具体做法是首先把867个样本数据按“坡度”分成25个等级,然后再把属于同一个等级的样本数据用加权平均的方法求出另两个因素的观测值,“平均地块面积”和“平均田埂宽度”。整理样本数据如下:

i(序号)

1 2

yi(扣除系数)

4.2356 4.8838

x1i(坡度) x2i(平均地块面积)

0 1

5

1.9300 1.4918

x3i(平均田埂宽度)

0.6318 0.7312

3 … 25

7.8300 … 39.4151

2 … 24

1.1253 … 1.0600

0.9731 … 4.0721

拟建摸型为,

yi = ?0 + ?1 x1i + ?2 x2i +?3 x3i + ui 利用样本得估计的回归方程

yi = 1.672 + 1.145 x1i + 0.608 x2i + 2.081 x3i

(7.3) (0.4) (1.85) F = 221.62

(F.05(3,21) = 3.07, F.01(3,21) = 4.87, t.05(21) = 2.08, t.01(21) = 2.84)

统计检验结果表明x2i , x3i为非重要解释变量。剔除之,用yi对x1i再次回归得, yi = 3.34 + 1.35 x1i

实际的验证结果表明,用只考虑“地块坡度”计算出来的扣除系数估计“纯耕地面积”完全能满足精度要求,从而为减少野外作业强度(不必再测量“地块面积”和“田埂宽度”),迅速完成测算,提供了科学依据。

案例4:中国宏观消费分析(多元线性模型)

非农民消费 居民消费

消费 农民消费 国民收入 社会消费 (支出法)

积累 投资

城镇居民消费 居民消费

最终消费 农村居民消费 政府消费 国内生产总值 资本形成总额 投资 (支出法)

货物与服务的净出口

注 居民消费: 居民衣、食、住、行、文化生活等消费 政府消费(社会消费):国家机关、治安、文教、卫生等单位用于燃料、电力、办公用 品和图书设备的消费

下面通过建立宏观消费经济计量模型进一步分析我国消费与社会总产品的定量关系。(以下所用数据(1952-1993)均以不变价格(1990=1)计算。)

1952-1993年国民收入与消费额散点图见图7。说明消费与国民收入之间存在高度的线性关系。

用CPt表示消费额,IPt表示国民收入,用1952-1993年数据得如下消费函数:

CPt = 262.5098 + 0.6359 IPt (1.124)

6

(4.9) (97.7) R2 = 0.9958, DW = 0.9, s.e. = 216.97

由这个模型可知,四十二年来我国的宏观消费与国民收入有着密切的线性关系。国民收入的边际消费倾向为0.6359,即国民收入每增加一亿元平均导致0.6359亿元用于消费。同时也说明国民收入的边际储蓄倾向为0.3641。 用取自然对数的数据计算,得如下结果,

LnCPt = 0.2732 + 0.9259 LnIPt (1.125) (2.1) (61.1) R2 = 0.9890, DW = 0.8, s.e. = 0.0743

这说明我国消费对国民收入的平均弹性为0.9259,即国民收入每增加1%,平均导致消费约增加0.93%。消费的增加速度略低于国民收入的增加速度。从而也印证了我国消费率呈逐年下降的总趋势。

事实上国民收入对消费的影响存在一定滞后。换句话说,本年度的消费不但受本年度国民收入影响,而且也受前期国民收入影响。为此以IPt和IPt-1同作解释变量,得线性模型如下: CPt = 238.9469 + 0.5116 IPt + 0.1381 IPt -1 (1.126) (4.4) (8.8) (2.2) R2 = 0.9962, DW = .9, s.e. = 210.06 与模型(1.124)相比,估计结果得到一定程度的改善。上式说明国民收入对消费影响的滞后作用很强。本年度国民收入对本年度消费以及来年度消费都存在影响。本年度国民收入的边际消费倾向为0.5116,一期滞后年度国民收入的边际消费倾向为0.1381。当然消费主要还是受本年度国民收入的影响较大(79%)。

用自然对数数据重新估计得 LnCPt = 0.6966 LnIPt + 0.2648 LnIP t-2 (1.127) (11.1) (4.1) R 2 = 0.9913, DW = 0.6, s.e. = 0.0657

与模型(1.125)比较,弹性系数被分解为当年弹性0.6966和前二年期弹性0.2648,也就是说本年度国民收入增加1%,将使本年度消费增加0.70%;而前二年期的国民收入增加1%,也将使本年度消费增加0.26%。

从上述四个模型看DW值都不很大,说明还有重要解释变量没有包括在模型中。很明显,前期消费也是影响本期消费的重要解释变量。把前一期消费CPt-1也作为解释变量加入模型(1.124),估计结果是 CPt = 123.2914 + 0.3717 IPt + 0.4516 CPt -1 (1.128) (2.4) (7.2) (5.2) R 2 = 0.9975, DW = 1.2, s.e. = 170.58 显然模型(1.128)优于模型(1.124)和(1.126)。说明IPt和CPt-1都是重要解释变量,具有很强的解释能力。

用取自然对数的数据计算,得如下结果:

LnCPt = 0.2496 LnIPt + 0.7448 LnCPt-1 (1.129) (3.6) (10.2) R 2 = 0.9967, DW = 1.1, s.e. = 0.0417 模型(1.129)优于模型(1.125)和(1.127)。消费对本期国民收入的弹性为0.2496,对前一期消费的弹性为0.7448。以上二式都说明前一期消费对本期消费的影响要大于本期国民收入对本期消费的影响。这一结果与前面的论断“宏观消费行为具有惯性”相一致。当年消费主要取决于前一年消费的规模。当年消费是在前一年消费的基础上实现的。有变化,但不会出现剧烈波动。

严格地说上述模型中的误差项都存在自相关。以模型(1.124)为例,为消除自相关(?

7

= 0.56),对变量进行广义差分。定义

GDCPt = CPt - 0.56 CPt-1 (1.130) GDIPt = IPt - 0.56 IPt-1 (1.131) 得估计的回归模型为,

GDCPt = 97.0256 + 0.4173 GDIPt + 0.3539 GDCPt-1 (1.132) (2.1) (7.8) (3.8) R 2 = 0.9906, DW = 1.5, s.e. = 160.82

虽然这个模型已基本克服了自相关,但变量已不是原来的变量。把关系式 (1.130) 和 (1.131) 代入上式并进一步整理得

CPt = 97.0256 + 0.4173 IPt + 0.2296 IPt-1 + 0.9139 CPt-1 + 0.1960 CPt-2 (1.133) R2 = 0.9906, DW = 1.5, s.e. = 160.82

这是一个自回归分布滞后模型。

消费由居民消费和政府消费两部分构成。四十二年间(1952-1993),居民消费平均占总消费的86.8%。所以应进一步分析居民消费与国民收入的函数关系。用CPH t表示居民消费,利用1952-1993年数据得如下两个模型

CPH t = 356.1789 + 0.4127 IPt + 0.1351 IPt-1 (1.134) (7.1) (7.8) (2.3)

R2 = 0.9955, DW = 0.8, s.e. = 192.48

LnCPH t = 0.4097+ 0.6819 LnIPt + 0.2161 LnIPt-1 (1.135) (3.0) (5.8) (1.8)

R2 = 0.9886, DW = 0.7, s.e. = 0.0743

国民收入的长期边际居民消费倾向是0.4127 + 0.1351 = 0.5487。居民消费对国民收入的长期弹性为0.6819 + 0.2161 = 0.8980。这说明居民消费的增长率低于国民收入的增长率,也低于总消费的增长率。

考虑到前一期居民消费也是影响本期居民消费的重要解释变量。特作如下估计: CPH t = 187.1132 + 0.3046 IP t + 0.4663 CPH t-1 (1.136) (3.6.1) (7.5) (5.7) R 2 = 0.9972, DW = 1.2, s.e. = 151.39 LnCPHt = 0.1991 LnIPt + 0.7947 LnCPHt-1 (1.137) (3.0) (11.2) R 2 = 0.9962, DW = 1.2, s.e. = 0.0421 用模型(1.136)和(1.137)分别与模型(1.128)和(1.129)比较,居民消费的惯性更大,居民消费以更大的比例依赖于前期居民消费的取值。

注意:对于多元回归模型,当解释变量的量纲不相同时,不能在估计的回归系数之间比较大小。

案例5 中国铅笔需求预测模型(非线性模型)

中国从上个世纪30年代开始生产铅笔。1985年全国有22个厂家生产铅笔。产量居世界首位(33.9亿支),占世界总产量的1/3。改革开放以后,铅笔生产增长极为迅速。1979-1983年平均年增长率为8.5%。铅笔销售量时间序列见图4.21。1961-1964年的销售量平稳状态是

8

受到了经济收缩的影响。文革期间销售量出现两次下降,是受到了当时政治因素的影响。1969-1972年的增长是由于一度中断了的中小学教育逐步恢复的结果。1977-1978年的增长是由于高考正式恢复的结果。1981年中国开始生产自动铅笔,对传统铅笔市场冲击很大。1979-1985年的缓慢增长是受到了自动铅笔上市的影响。

初始确定的影响铅笔销量的因素有全国人口、各类在校人数、设计人员数、居民消费水平、社会总产值、自动铅笔产量、价格因素、原材料供给量、政策因素等。经过多次筛选、组合和逐步回归分析,最后确定的被解释变量是yt(铅笔年销售量,千万支);解释变量分别是xt1(自动铅笔年产量,百万支);xt2(全国人口数,百万人);xt3(居民年均消费水平,元);xt4(政策变量)。因政策因素影响铅笔销量出现大幅下降时,政策变量取负值。例如1967、1968年的xt4值取-2,1966、1969-1971、1974-1977年的xt4值取-1)。

由图4.22知中国自生产自动铅笔起,自动铅笔产量与铅笔销量存在线性关系。由图4.23知全国人口与铅笔销量存在线性关系。说明人口越多,对铅笔的需求就越大。由图4.24知居民年均消费水平与铅笔销量存在近似对数的关系。散点图说明居民年均消费水平越高,则铅笔销量就越大。但这种增加随着居民消费水平的增加变得越来越缓慢。图4.25显示政策变量与铅笔销量也呈线性关系。

基于上述分析建立的模型形式是

yt = ?0 + ?1 xt 1 + ?2 xt 2 + ?3 Ln (xt 3) + ?4 xt 4 + ut (4.40)

yt与xt 3呈非线性关系。估计结果如下。

35030025020015010050626466687072747678808284Y

铅笔销售量时间序列(1961-1985)(文件名nonli6)

400Y300300400Y200200100X1010203040100X20600700800900100011000

Y, X1散点图 Y, X2散点图

9

400Y300400Y300200200100X3200300400500100X4-2.0-1.5-1.0-0.50.00.501000-2.5

Y, X3散点图 Y, X4散点图

?t= -907.94 - 2.95 xt 1 + 0.31 xt 2 + 170.19 Ln xt 3 + 45.51 xt 4 (4.41) y (-6.4) (-3.7) (4.8) (4.4) (12.6)

R 2 = 0.9885, DW = 2.09, F = 429, s.e. = 10.34

上式说明,在上述期间自动铅笔年产量每增加1百万支,平均使铅笔的年销售量减少2950

万支。全国人口数每增加1百万人,平均使铅笔的年销售量增加310万支。对数的居民年均消费水平每增加1个单位,平均使铅笔的年销售量增加17亿支。一般性政策负面变动使铅笔的年销售量减少4.551亿支。当政策出现大的负面变动时,铅笔的年销量会减少9.102亿支。

当yt 对所有变量都进行线性回归时(见下式),显然估计结果不如(4.41)式好。

?t= -254.26 - 3.29 x t 1 + 0.42 x t 2 + 0.66 x t 3 + 40.74 x t 4 (4.42) y (-12.0) (-3.0) (8.6) (3.5) (11.7)

R 2 = 0.9857, DW = 1.77, F = 346, s.e. = 11.5

案例6:全国城镇居民收入对消费影响的动态分析 (非线性模型)

一、城镇居民人均收入差异分析

几年来我国城镇居民生活有了可喜的变化,生活水平有了明显提高(如表1)。自1996年以来,

1990年--1996年我国城镇居民收入状况 表—1

时 间(年) 1990 1991 1992 1993 1994 1995 1996 人均年收入 (元) 1522.79 1713.10 2032.00 2583.16 3502.31 4288.09 4844.78 最高收入 (元) 2675.64 2956.81 3663.00 4905.77 6837.81 8231.31 9250.44 困难户收入 (元) 782.93 928.86 1032.00 1239.35 1566.33 1984.92 2242.92 人均年收入与 困难户收入比例 2.058 2.180 2.032 1.992 1.808 1.862 1.858 我国城镇居民家庭人均年收入达到4844.78 元,比1990年增长21%,年均递增速度为21.28%,各年增长速度均超过了同期各项反项指标,如物价指数、通货膨胀指数的增长速度。可见,全国城镇居民不仅在名义货币收入上有了大幅度的提高,在实际水平上也同样实

10

现了增长。全国困难户人均收入水平由1990年的782.93元提高到1996年的2242.92元,增长了1459.99元;最高收入户人均收入水平由1990年的2675.64元提高为9250.44元,增长2.46倍。这一切都充分说明,社会主义市场经济的逐步确立与完善,使我国城镇居民的收入水平有了明显的提高。

但是,应该看到,在全国城镇居民收入水平整体上得到提高的同时,另一种趋势也明显起来,即我国城镇居民收入两极分化的程度在加剧,收入的差距被拉大了。七年中,我国困难户与最高收入户居民人均年收入差异从1990年的1892.71元扩大到1996年7007.52元,扩大了2.70倍。均增长速度为24.38%,超过人均收入水平的增长速度。这一结果清楚地说明:七年来全国城镇居民平均收入水平两极分化的程度加剧了。这并不是我们建立社会主义市场经济体制,全面振兴经济的初衷,我们不希望在国家经济明显趋好的大环境下出现更多的“穷人”,但这又是一个我们不得不接受的现实。进一步的分析我们可以看到,这种差距的拉大还伴随着收入中非工资性收入所占比重增大、灰色收入和资本收入增加的趋势。根据1989年─1997年《中国统计年鉴》的有关资料,对困难户与最高收入户居民人均年收入的差异及全国城镇居民人均年收入与困难户人均年收入比例分别进行了时间序列分析,建立模型为

?1?CY?2951.21?1626.33t?654.32t2?48.45t3...........................(7.33)(?4.01)(3.73) (?5.14)138.63

R2?0.9978其中 CY─最高收入户与困难户人均年收入之差; t─时间。模型(1)均通过了总体与

个体的检验显著性检验。

BY?1831.?0.056t......................................................?2?

?26.65??3.625?R2?0.725标准差为0.0813残差平方和为0.033其中BY─全国城镇居民人均年收入与困难户人均年收入比例; t─时间。模型(2)虽然判定系数R= 0.725,但是个体检验相当显著,并且标准差和残差平方和都很小,这说明该比例值BY受时间变化的影响不大。 对模型(1)求二阶导数,即

2d2CY?1308.64?290.70t...... 2dt.......................................?3?

令模型(3)等于零,便得到模型(1)所描述的曲线在t = 4.51处有拐点,如图所示。 上面的模型及图形清楚地表明:

1、全国城镇居民最高收入户与困难户人均年收入差距越拉越大,但是近年来,困难户人均年收入基本上是每年全国平均水平的一半。由于全国城镇居民人均年收入逐年提高,因此划分困难户的标准随之变化。由此可见,人均年收入低于全国城镇居民人均年收入一半的居民户为困难户。

11

CY .?1626.33t?654.32t?48.45t CY?295121

23 拐点

4.51 t

2、全国城镇居民最高收入户与困难户人均年收入差距在这七年之内的变化可以分为三

个阶段:第一阶段是1990─1992年,从1989年治理整顿后到1992年,收入差距拉大的速度不快;第二阶段是1992─1994年,在1992年邓小平南巡讲话之后,全国经济出现高速发展,收入差距拉大的速度增加。由于模型(1)描述的曲线在t=4.51处有拐点,那么说明在1993年中间速度最快,但从此之后,收入差距拉大的速度将趋于缓和;第三阶段是1994─1996年,随着整个经济发展出现软着陆,全国城镇居民最高收入户与困难户人均年收入差距拉大的速度出现了缓和。

3、随着我国城镇居民收入水平的继续提高,最高收入户与困难户人均年收入的差距进一步扩大的趋势将持续下去,这符合收入增长的“马太效应”理论,是一种正常的变动趋势。 4、城镇居民最高收入户与困难户年均收入差距扩大的速度将趋于缓和。这是全社会收入水平普遍提高,收入将逐步趋于规范化,社会再分配功能日益发挥作用的必须结果。 二、动态回归模型及动态消费函数的确立 1.动态回归的基本思想

动态回归模型是同时利用时间序列资料和截面资料借助于最小二乘法建立起来的,随着时间变化来描述实际现象的模型。

设资料为 Xti,Yti??i?1,2,.....,nt?1,2,.....,m 即为第t时期的第i组资

料,它包含有静态资料和动态资料,即截面资料和时间序列资料。首先利用第t时期的截面资料建立模型为

Yt??t??tXt?utt?12,,.....m................?4?

其中 Yt─被解释变量;Xt ─解释变量; ut─ 干扰项。利用最小二乘法得到第t时期的参

12

数?t,?t 的估计值?t,?t ?t?1,2,.....m? ,这两个估计值组成了两组新的时间序列。然后,对这两组新的时间序列分别建立模型为

^^?t??0??1t??1?t??0??1t??2 ……………………………………….(5)

^^^^其中?1,?2分别为两个模型的干扰项。利用最小二乘法得到参数的估计值为?0,?1,?0,?1。最后,利用模型(5)对模型(4)进行动态分析,其中包括预测。 2. 动态消费函数的确立

近年来,全国城镇居民消费水平显著提高,居民的物质和文化生活得到了明显改善。居民消费的变化趋势受到了许多因素的影响,但在分析和研究以至进行预测的过程中,不可能考虑所有的影响因素。经济学理论和生活的实际告诉我们,假如其他各种影响因素保持相对稳定,那么居民的消费状况的变化主要取决于收入。因此我们利用1989年─1997年的《中国统计年鉴》城镇居民家庭人均年收入和消费按收入等级分类的资料,借助动态回归分析建立模型并得到结果。回归方程为 Yt??t??tXt^^^^t?1,2,.....,7..................?6?

其中Yt ─人均年消费的预测值; Xt─人均年收入。具体计算结果如表2所示。

各年回归参数的估计值及检验结果 表—2

时 间(年) 1990 1991 1992 1993 1994 1995 1996 ? At 198.72 (7.29) 253.69 (9.24) 336.80 (11.14) 422.33 (10.23) 612.83 (8.00) 676.42 (11.15) 856.83 (9.44) 2? Bt0.704 (41.70) 0.697 (45.79) 0.651 (46.71) 0.648 (43.93) 0.632 (31.59) 0.660 (50.63) 0.625 (36.08) R2 0.997 0.997 0.997 0.977 0.994 0.998 0.995 标 准 差 28.91 27.81 33.07 48.88 59.52 73.72 109.85 表中括号内的数值是t统计量, R表示判定系数。以上数据所表示的模型均通过显著性检验。

通过各年消费函数所得到的结果发现,随着时间的变化最基本的消费以线性关系增加,由其时间序列建立的模型为

?t = 37.40 +110.57 t .............................(7) (0.984) (13.016)

R = 0.971 标准差为 44.949

而边际消费倾向随时间的变化呈双对数关系,根据时间序列建立模型为

2^ 13

Ln?t = -0.341 - 0.068 Ln t ..................................(8) (-27.998) (-7.703)

R = 0.92228 标准差为 0.01486 模型(7)和(8)均通过显著性检验。 通过上面模型及建模思想可以表明

1、全国城镇居民人均年收入对消费的影响呈现明显的线性关系,而且这种关系随着时间的不同有不同的具体形式,充分地体现到了收入对消费的影响具有一定的动态效应。其实证表现可通过模型(6)的计算结果来反映。

2、全国城镇居民最基本的消费由1990年198.72元增加到1996年的856.83元,它是以每年110.57的速度递增,具体由模型(7)体现。

3、全国城镇居民人均边际消费倾向与时间的变化呈现双对数关系,由模型(8)知道,消费边际倾向的弹性值为-0.068,说明从第1年(1990年)到第2年(1991年)消费边际倾向下降了14.71%;从第6年(1995年)到第7年(1996年)消费边际倾向下降2.45%。这充分地体现到边际消费倾向逐年减少而且速度趋于缓和。

4、根据模型(7)和(8),预测得到1998年(第9时期)的消费函数的最基本的消费水平及消费边际倾向分别为数A9=1032.56和?9=0.6124。从而得到1998年的消费函数为 Y9?1032.56?0.6124X9^^^^2

同样可以预测得到1999年、2000年我国城镇居民的消费函数如表3所示。

我国城镇居民消费函数的预测形式 表—3 时 间 1999年(第10时期) 2000年(第11时期) 三、结 果 语

随着城镇居民收入水平的不断提高,社会再分配手段的作用将日益增大,特别是对高收入阶层来说,政府将通过征收所得税的手段对其高额收入加以适当调节,使其与低收入水平的差距不致过大。另外,随着社会的发展,到2000年我国城镇居民的最基本消费水平逐步提高,全部生活费支出的增长速度逐渐减小。这一切都充分地表明,我国城镇居民的生活质量将会有一个明显改观。

消 费 函 数 形 式 ??1143Y.10?0.6080X10 10??1253Y.67?0.6041X11 11案例7:中国电信业务总量的计量模型(多重共线性)

经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量(x1)、中国人口数(x2)、市镇人口占总人口的比重(x3)、人均GDP(x4)、全国居民人均消费水平(x5)。所得数据见附表。

14

40Y304LOG(Y)3202101X11.01.52.000.540Y30X11.01.52.0

00.54LOG(Y)

3202101011.440Y30X211.611.812.012.212.412.6

X2011.411.611.812.012.212.412.6

4LOG(Y)320210100.26X30.270.280.290.300.31

X300.260.270.280.290.300.31

40Y304LOG(Y)32021010123456X470X41234567

40Y304LOG(Y)32021011.01.52.0

用1991-1999年数据建立中国电信业务总量计量经济模型如下,

1.01.52.02.53.03.500.5X500.5X52.53.03.5

Ln y = 24.94 + 2.16 x1 – 3.03 x2 + 33.7 x3 + 1.29 x4 - 2.03 x5

15

(0.6) (1.6) (-0.8) (1.0) (1.5) (-1.2)

R2 = 0.99, F = 106.3, DW = 3.4, T = 9, (1991-1999), t0.05(3) = 3.18,

R2 = 0.99,但每个回归参数的t检验在统计上都不显著(估计量的方差变大所致),这说明模型中存在严重的多重共线性。

下面用Klein判别法进行分析。首先给出解释变量间的简单相关系数矩阵。因为其中有一个简单相关系数大于R 2 = 0.9944,所以根据Klein判别法,模型中存在严重的多重共线性。

Ln(y) x1 x2 x3 x4 x5 Ln(y) 1.0000 0.9833 0.9938 0.9875 0.9820 0.9815 X1 1.0000 0.9895 0.9700 0.9628 0.9703 X2 1.0000 0.9882 0.9872 0.9888 X3 1.0000 0.9678 0.9654 X4 1.0000 0.9986 X5 1.0000

用逐步回归法筛选解释变量。(1)用每个解释变量分别对被解释变量做简单回归,以可决系数为标准确定解释变量的重要程度,为解释变量排序。

Ln y = - 0.34 + 206 x1

(- 2.1) (14.3) R = 0.9668, F = 204, T = 9

2

Ln y = - 33.26 - 291 x2

(- 22.2) (23.6) R = 0.9875, F = 555, T = 9

2

Ln y = - 18.46 + 7075 x3

(- 14.9) (16.6) R = 0.9752, F = 275.5, T = 9

2

Ln y = - 0.49 + 0.56 x4

(- 2.5) (13.8) R = 0.9644, F = 189.7, T = 9

16

2

Ln y = - 0.42 + 1.16 x5

(- 2.1) (14.3) R = 0.9633, F = 183.5, T = 9

2

解释变量的重要程度依次为x2, x3, x1, x4, x5 。(2)以Ln y = - 33.26 - 291 x2为基础,依次引入x3, x1, x4, x5 。首先把x3引入模型,

Ln y = - 29.9 - 2024 x2 + 16.76 x3

2

(- 6.9) (2.7) (0.8) R = 0.988, F = 265.5, T = 9

因为x3的引入使各回归系数的t值下降,同时x3的系数也未通过t检验,所以应剔除x3。接着把x1引入模型,

Ln y = - 33.37 – 2.92 x2 – 0.007 x1

(- 3.2) (3.2) (-0.01) R = 0.9875, F = 237.9, T = 9

2

同理剔除x1引入x4

Ln y = - 31.94 – 2.79 x2 + 0.022 x4

(- 3.4) (3.3) (0.14) R = 0.9876, F = 238.7, T = 9

2

同理剔除x4引入x5

Ln y = - 31.94 – 2.79 x2 + 0.022 x5

(- 3.4) (3.3) (0.14) R = 0.9876, F = 238.7, T = 9

2

同理剔除x5,最后确定的模型是

Ln y = - 33.26 - 291 x2

(- 22.2) (23.6) R = 0.9875, F = 555, T = 9

2

或者用解释变量之间相关系数值最小的x1和x4同做解释变量与Ln y回归,得

Ln y = - 0.48 – 1.08 x1 + 0.28 x4

2

(- 3.4) (2.7) (2.5) R = 0.98, F = 184, T = 9

(2)已知10年间平均x5 = 0.4676 x4, x3 = 0.2893 x2,可以考虑将x5、x4合并,x2、x3合并。得新变量,z1 = x5 + x4 = 0.4676 x4+ x4 = 1.4676 x4,z2 = x2 + x3 = x2 + 0.2893 x2 = 1.2893 x2。用Ln y对z1,z2回归,

Ln y = - 31.9444 + 2.1697 z1 + 0.0157 z2

(- 3.4) (3.3) (0.1) R = 0.9876, F = 184, T = 9

2

z2的系数没有显著性。实际上z1, z2仍然高度相关,R(z1, z2) = 0.9871。近似等于可决系数。剔除z2,再次回归,得

Ln y = - 31.2573 + 2.2604 z1

(-22.2) (23.6) R = 0.9876, F = 184, T = 9

2

这时回归系数呈高度显著性,可决系数也没有出现明显降低。

17

表1 1991-1999年中国电信业务总量数据 年 1991 1992 1993 1994 1995 1996 1997 1998 1999

电信业务总量 y(百亿元) 1.5163 2.2657 3.8245 5.9230 8.7551 12.0875 12.6895 22.6494 31.3238

邮政业务总量 x1(百亿元)

0.5275 0.6367 0.8026 0.9589 1.1334 1.3329 1.4434 1.6628 1.9844

中国人口数 x2(亿人) 11.5823 11.7171 11.8517 11.9850 12.1121 12.2389 12.3626 12.4810 12.5909

市镇人口比重

x3 0.2637 0.2763 0.2814 0.2862 0.2904 0.2937 0.2992 0.3040 0.3089

人均GDP x4(千元) 1.879 2.287 2.939 3.923 4.854 5.576 6.053 6.307 6.534

人均消费水平 x5(千元) 0.896 1.070 1.331 1.746 2.236 2.641 2.834 2.972 3.143

资料来源:《中国统计年鉴》2000

用EViews求相关系数矩阵

有两种方式可以求相关系数矩阵。

(1)点击Quick键并依次选择Group Statistics, Correlations,

将出现一个要求填写序列名的对话框(Series List),填好序列名后按OK。可得。

(2) 在Workfile窗口中用鼠标选中序列名, 点击Show键,OK键,从而打开数据组 (Group) 窗口。在数据组窗口点击View键选择Correlations。)

18

案例7:分析中国29个省市自治区农作物种植业产值和农作物播种面积关系 (异方差分析)

取1986年中国29个省市自治区农作物种植业产值yt(亿元)和农作物播种面积xt(万亩)数据,研究二者之间的关系。得估计的线性模型如下,

yt = -5.6610 + 0.0123 xt (5.18) (12.4) R2 = 0.85, F = 155.0, T = 29

30040200200100-20-400050001000015000X20000RESY60

-600T102030

图5.7 农作物产值yt和播种面积xt 图5.8 残差图

无论是从yt和xt观测值的散点图(见图5.7)还是模型的残差图(见图5.8)都可以发现数据中存在异方差。

用White方法检验是否存在异方差。在上式回归的基础上,做White检验。

19

得,

注意:输出结果中的概率是指 ?2 (2) 统计量取值大于8.02的概率为0.018。示意如下图。

0.50.40.30.20.1因为TR = 8.02 > ?? (2) = 6,所以存在异方差。

用Goldfeld-Quandt方法检验是否存在异方差。

①首先以xt为基准对成对样本数据(yt,xt)按取值大小排序。

②去掉中间7个数据,按xt取值大小分成样本容量各为11的两个子样本。 ③用两个子样本各自回归得结果如下,

20

22

2468

yt = 2.7202 + 0.0106 xt , (t = 1, …, 11) (5.19) (5.8) R2 = 0.80, F = 33.8, SSE = 1266,

yt = 5.8892 + 0.0118 xt , (t = 19, …, 29) (5.20) (3.0) R2 = 0.50, F = 9.1, SSE = 14174 F =

14174/(11?2) = 11.2,

1266/(11?2)因为F = 11.2 > F0..05 (9, 9) = 3.18,所以存在异方差。

下面克服异方差。

⑴ 在上述排序的基础上对yt和xt同取对数。得两个新变量Lnyt 和Lnxt(见图5.9)。用Lnyt 对Lnxt 回归,得

Lnyt = - 4.1801 + 0.9625 Lnxt . (5.21) (16.9) R2 = 0.91, F = 285.6, (t = 1, …, 29)

61.05LOG(Y)0.540.032LOG(X)5678910-0.5RES21-1.0T0102030

图5.9 Ln yt和 Ln xt 图5.10 残差图

经White检验也不存在异方差。因为TR2 = 2.58 < ?2? (2) = 6.0,所以不存在异方差。

21

0.50.40.30.20.12468 (文件:Statis)

⑵ Goldfeld-Quandt检验异方差。

去掉中间7个观测值,仍按xt大小分成两个T = 7的子样本,并回归(结果略)得SSE1 = 1.17,SSE2 = 0.65,经Goldfeld-Quandt检验,有 F =

0.65 = 0.56, 1.17因为0.56小于F0..05 (9, 9) = 3.18,所以取对数后,模型中不存在递增型异方差(残差见图5.10)。

⑶ 用Glejser法检验异方差

用 (5.18) 式, yt = -5.6610 + 0.0123 xt, 的残差的绝对值对xt回归

?t? = 0.0024 xt ?u (8.0) R2 = 0.22

可见误差项的异方差形式是Var(ut) = E(ut)2 = 5.76?10-6 xt2。克服异方差的方法是用xt分别除(5.18) 式两侧,得变换变量yt* = yt / xt,xt* = 1 / xt。用yt* 对xt* 回归(见图5.11),得 yt* = 0.0113 + 0.8239 xt* (5.22) (13.8) (0.8) R2 = 0.63, F = 46.1

0.0220.0100.0050.0160.0140.0120.0100.0080.0061/X0.0000.0010.0020.003-0.010-0.0050.000RES30.018Y/X0.020T0102030

图5.11 yt* 和 xt* 图5.12 残差图

注意,回归系数0.8239没有显著性,截距项0.0113却有很强的显著性,而0.0113正是还原后模型的回归系数,所以模型通过检验。把yt* = yt / xt,xt* = 1 / xt代入上式并整理得 yt = 0.8239 + 0.0113 xt (5.23) (0.8) (13.8) R2 = 0.63, F = 46.1

由式 (5.22) 得到的残差见图5.12。经检验已不存在异方差。(5.22) 式,即 (5.23) 式中的回归参数具有最佳线性无偏特性。比较(5.22)和 (5.23) 式,虽然0.0113和0.0123相差不多,但从估计原理分析,0.0113有更大的可能性比0.0123离回归参数真值近。

通过这个例子说明,在实际中直接用解释变量除原变量的变换方法克服异方差是可行的。

22

本文来源:https://www.bwwdw.com/article/acgr.html

Top