基于逐步回归法的人口出生率影响因素分析(1)

更新时间:2023-07-20 20:23:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

高斯

基于逐步回归法的人口出生率影响因素分析

李松臣1.张世英2

(1.深圳大学数学与计算科学学院,广东深圳518060;2.天津大学管理学院,天津300072)

摘要:人口出生率是决定人口发展速度的重要指标。文章系统分析了全国各地区人口出生率的影响因素。以全国31个省市的相关数据为研究对象,利用逐步回归分析法分析收入水平、人口组成、教育水平、物价水平等因素对人1:7出生率的影响,最后得出人1:7组成和收入水平是人口出生率的重要影响因素.并给出了相关的线性回归模型。

关键词:人12'出生率;逐步回归分析法;最小二乘估计法(0LS)中图分类号:C924.24

文献标识码:A

文章编号:l002一“87(2008)04—0007-03

二乘估计法失效.此时模型存在多重共线性【2I。

0引言

人口问题是我国现阶段面临的重大问题。相对贫乏的人均资源和生存空间,使我国居民生活水平提升缓慢;人口老龄化、社会保障制度不健全,对我国经济可持续发展产生负面影响;城乡就业矛盾突出.劳动力市场机制不完善,劳动力资源得不到充分合理的应用。控制人口数量,提升人口素质,是我国在实施可持续发展战略中的关键问题之一。由于控制人口出生率是控制人口增长的主要措施.所以对人口出生率的研究不仅是我国实行计划生育工作的理论基础,也是实现经济快速腾飞的一项有效措施。对人口出生率影响冈素的研究可以节约政府在实施计划生育工作中的人力、物力,优化人口控制措施.还能评价一个国家或地区的人们对控制人口增长意义的认识程度。本文主要研究关于人口出生率影响因素的截面数据,在模型修正优化后得出人口出生率最主要影响因素的线性模型。

模型存在多重共线性时的检验有多种方法,如利用简单相关系数矩阵法、利用变量显著性与方程、显著性的综合判断、增加或减少解释变量等。

逐步回归分析法不仅可以对多重共线性进行检验,同时也是处理多重共线性问题的一种有效方法。逐步回归分析法包括逐步加入和逐步删除两种方式。这两种方法进行的步骤类似,只是变量选择的方向相反。逐步加入的步骤如下:

(1)根据经济学原理和经验分析,选出所有可能的解释变量,设为x,,X:,…,X。。

(2)用每~个解释变量分别对被解释变量Y建立回归模型.得到K个回归模型:

Y=aol+allXl+8l

一甜a12x2+82

(1)

Y=a,_O-a】Kx一8x

(3)模型(1)进行参数估计,并进行检验,选择通过检验的模型中残差平方和最小的模型作为首选模型;或选取拟和

1理论方法

研究各地区人口出生率的影响因素,属于建立多元回归模型问题。根据多元统计分析原理,可以采取不同的分析方法,如逐步回归分析法、主成分分析法、岭回归分析法等。本文选取逐步回归法进行变量选择Ⅲ。

对于多元线性回归模型Y=XB+U,在满足模型经典假设下可利用最IV----乘估计法(OLS)估计参数,参数估计量为B=IXⅨI-】X叮。经典假设是“没有完全的多重共线性”,但在现实经济问题分析中,解释变量间不可能完全线性无关。如果解释变量X。,X:,…,X。之间存在线性相关关系,则必有IXⅨI=O,从而lXⅨl-1不存在。参数的最小二乘估计量不唯一,即最小

基金项目:国家自然科学基金资助项目(70471050)

优度最大的回归方程作为首选模型。

不妨设X.为对应的首选变量,则首选模型为:

Y=a01+allXl-I-8I

(2)

(4)在首选模型中逐个增加其他解释变量,重新进行线性回归。若新增加的解释变量提高了回归方程的拟和优度,且回归方程中其他参数统计值仍然显著,就在模型中保留该解释变量:若新增加的解释变量没有提高回归方程的拟和优度。就不在模型中保留该解释变量;若新增加的解释变量提高了回归方程的拟和优度,但回归方程中某些参数的数值或符号等受到显著影响.说明模型中存在多重共线性,将该解释变量同与之相关的其他解释变量进行比较,在模型中保留对被解释变最影响较大的.略去影响较小的。步骤为:

统计与决策2008年第4期(总第256期)

高斯

①对上述K一1个模型分别进行最小二乘估计,得到每个

模型的拟和优度和参数的t检验统计量;

Old表示老年人口抚养比,计算公式为:

老年人口抚养比=(65岁以上人口总数),(15一“岁人口

总数)

文中假设条件主要有:所讨论的人口出生率与影响因素

(3)…

②将x厶…,xK分别带入式(2),建立模型,得到:

Y=boz+bt2Xl+b∞Xz+u2

Y=‰?-Ⅸ +b冰,+u,

问的关系为线性关系。经济解释变量间是单向因果关系;建立的模型为多元线性回归模型;出生率的影响因素主要有居民消费价格指数,受高等教育比例,人口组成(少年儿童抚养比和老年人口抚养比),人均报酬等,其他因素归入随机干扰

项。

Y=b∞一blKXl+b∞Ⅸ一u‘

③进行多重共线性分析,如果加入新变量的模型中的系数数值甚至符号发生了重大变化.以至结果无法接受,则极可能存在多重共线性。新变量不能引入模型;

④在多重共线性的模型或多重共线性不显著的模型中。选择对R2进行提高最显著的那个模型,进行下一步骤:

2.2模型估计及检验

本文选取2004年我国31个省会城市、直辖市的截面数据为研究对象,数据来源于国家统计局官方网站。根据多元线性回归模型建立的基本原理。模型的函数形式设定为:

(4)

Birth=ao+aIPindex+a2Edu+a3salary+a4Youth+asOld+e

Fj=蛀铲

⑧建立F统计量:

(5)

其中,a;(i:l,2…,5)为待估参数,8为随机误差项,n=31表示样本个数,k=5。

应用最dx--乘估计法(OLS)进行估计得:

Birth=一29.93+0.32Pindex+0.94Edu+0.093SMary

其中,11.为样本数,Q(i)表示模型包括j个变量时的残差平方和,j=l,2,-.-,K,给定显著性水平a=0.01或a=0.05,查表可得R(1,n-j-0;

⑥如果Fi>R,则加入新变量,否则新变量不能加入;

⑦重复步骤①一(蓟,赢到建立满意的模型为止。

(0.46)

+0.36Youth-0.240ld

(0.47)(o.058)

.5

(6)

.,

2建立模型

2.1符号说明和假设

Birth表示人口出生率。出生率(又称粗出生率)指在一定时期内(通常指一年)平均每千人所出生的人数的比率。一般用千分率进行计量。计算公式为:

出生率=f年出生人数/年平均人数)x1000%0

其中,出生人数指活产婴儿,即胎儿脱离母体时(不论怀孕月数)有过呼吸或有其他生命现象,年平均人数指年初、年末人口数的平均数,也可用年中人口数代替f3】。

Pindex表示居民消费价格指数.反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格变动趋势和程度的相对数。是对城市居民消费价格指数和农村居民消费价格指数进行综合汇总计算的结果。利用它可以观察和分析消费品的零售价格和服务价格变动对城乡居民实际生活费支

出的影响程度。

(0.oo)(0.097)

R2_--O.80,AIC=3.94,SC=4.22,F=20.0,DW=1.91其中,( )表示对应参数估计的P值。

对模型进行white异方差检验得P值.o.891,原假设H0模型是同方差的。接受原假设,认为模型不存在异方差。再对

模型进行序列相关性检验,由于DW=d=I.91,妊1-83,满足

dI|<d<4一d。,说明模型不存在序列自相关。

虽然‰(5.25)=2.60<F=20.0,Fo=(5,25)=3.85<F=20.0,但

除了解释变量Youth。其他参数的P值都偏大,参数估计并不显著,说明模型存在多重共线性。2.3模型修正

下面应用逐步回归法对模型进行修正。2.3.1第一次回归

运用0Ls法逐一求对各解释变量的回归估计方程【4J。结果如表l。

裹1

模型

Birth=-S7.89+o.67Pindex

R20.0460.3050.1910.7390.29

第一次回归结果

参数估计的p值

O.24450.0013O.04870.000O.00l

F1.4112.764.982.2

残差平方和

303.05220.66288.8l82.87225.1

Edu表示受高等教育比例,为人口中大专以上文化程度比例。计算公式为:

受高等教育比例=(大专以上文化程度人口数/总人口

Birth=14.06一.266Edu

Birth=10.75+0.134SalaryBirth=0.92440.39YouthBirth=19.49--0.690ld

数)x1000‰

Salary表示人均报酬,指某地区在一定时期内人们所得报酬的总额与此地区人口总数的比值。一般以“元/人”为度量单位。计算公式为:

人均报酬=职工报酬总额,人口总数

人口组成用少年儿童抚养比和老年人口抚养比表示。Youth表示少年儿童抚养比,计算公式为:

少年儿童抚养比=(o-.14岁人口总数)/05--64岁人口总数)

11.9

在取显著性水平,V--0.05时,查表得F咄(1,29):4.18。由于解释变量Pindex的F=I.41<Fore(1,29)--4.18。且参数估计的P值较大,说明Birth对Pindex的回归模型不显著。表明了在我国各地区物价水平与人口出生率没有必然的联系。变量Old和Edu的系数为负值.说明老年化程度越高以及收入越高的地区,人13出生率反而越低。关于变量Salary回归模型的显著性虽然不高.但相对于变量Pindex,可以继续进

8统计与决策2008年第4期(总第256期)

高斯

入下一步回归。在表一中,只有Birth对Youth的回归模型各方面检验结果达到最佳,所以选取Youth为第一人选变量。Fr=盟±掣攀蚴=4.598

ol j

首选模型为:

由于F3---4.598>Fom(1,27)--4.21,根据逐步回归法原理,说

Birth=bo+blYouth+u

(7)

明变量0ld可以加入模型。

此时,QO)=8z.87。由于F=34.77>FoM3,27)=2.96,所以模型(9)整体上是显2.3.2第二次回归

著的。对模型进行white异方差检验得P值=0.79,原假设H0:在第一次回归分析中,根据表1的结果,去掉Pindex对模型是同方差的,接受原假设,认为模型(9)不存在异方差。Birth的影响因素。下面在关于变量Youth的首选模型(7)中再对模型进行序列相关性检验,由于DW--d=I.95,dll=1.83,满

逐个增加解释变量Old、Salary和Edu,重新进行线性回归。结足du<d“,说明模型不存在序列自相关。各参数估计值的

果如表2。

P值都小于a---O.05,说明参数估计都是显著的。所以模型(9)

襄2

第二次回归结果

为所求的最优的模型,解释变量Youth、Salary和Old为变量

模型

R2参数估计的p值

F残差平方和

Birth的主要影响因素,即人13组成(少年儿童抚养比和老年Birth=O.106+0.41Youth+o.483Edu0.7410.00.o,6340,182.2人口抚养比)和工资收入水平为人口出生率的主要影响因Birth--.4.41+0.35Youth--0.220ld0.760.00,0.1244.675.9Biah--O.799+0.37Youth+O.08Salary

0.77

素。

0.00.0.04

48.0

71.74

注:参数估计p值的顺序按熙模型中变量的排序而定。

在取显著性水平Or----0.05时,查表得R晒(2,28)=3.34,‰

3总结

(1,28)--4.20。从表2中可以看出,随着变量的逐个加入,变量Salary对模型的改进最大。关于变量Edu的回归模型说明受.在我国,由于人口多,底子薄,经济发展不平衡,研究人教育程度越高的地区,人121出生率越高,这与现实社会状况口出生率对控制人口数量提高人口质量具有较强的实际意不符合。

义。本文就全国31个省市的数据进行了人口出生率影响因Birth对Youth、Edu的回归模型中,Q(2)=82.2,根据式(4)

素的研究,得到以下结论:

得:

(1)虽然收入水平、人13组成、教育水平、物价水平等都影响着人口出生率的高低。但由于它们之间的相互作用,某。F2I-一(31-2-1)…(82.87-82.2)_.0.228。

82.2

些因素的影响被削弱。根据逐步回归法分析得出,少年儿童Birth对Youth、Old的回归模型中,Q(2)=75.9,根据式(4)抚养比、老年人口抚养比和T资收入水平为人口出生率的主

得:

要影响因素。

F。z_(3_1-2-1)…(82.87-75.9).:2.57

(2)老年人口抚养比增大l单位时,人口出生率将降低’

7气q

O.2l单位。即是说人口越趋于老年化的地区,出生率将下降。

Birth对Youth、Salary的回归模型中,Q(2)=71.74,根据式

(3)少年儿童抚养比增大1单位时,出生率将增大0.34(4)得i

降趔兰趔墼盟曼幽:4.34

单位。说明随着少年儿童数量的增多,人口基数得到了扩增,。

’‘

71.74

潜在地提高了人口出生率。

根据逐步回归法原理,变量Salary可以加入模型(7)。第(4)收入水平每增加l单位,人口出生率将降低0.08单二次回归所得模型为:

位。我国各地区的人口出生率差异最大的影响因素是当地人

(8)

的生育观念,收入越高的地区,出生率越低。我国计划生育工Birth=co+elYouth+c2salary+M,

此时,Q(2)=71.74。作的重点地区应该放在那些人口年龄结构较小的地区。

2.3.3第三次回归

参考文献:

根据表2的结果.去掉变量Edu。只需将变量Old加入

【1】雷钦礼.经济管理多元统计分析【M】.北京:中国统计出版社,2002.

模型(8)进行检验.结果如下:

【2]J.M.伍德里奇.计量经济学导论一现代观点【M】.北京:中国人民大学Birth--4.15+0.34Youth--O.08Salary-O.210ld

出版社.1996.

(o.oo)

(0.036)(0.04)

(9)

p】中国国家统计局.中国统计年鉴【M].北京:中国统计出版社,2005.R2=O.83,AIC=3.6,SC=4.02,F=34.77,DW=I.95,Q(3)=61.3【4】计量经济学软件Eviews使用指南(第二版)【M】.天津:南开大学出其中,( )表示对应参数估计的P值。

版社.2004.

在取显著性水平ot---O.05时,查表得F嘣(3,27)=2.96,F啷(1,27)=4.21。

(责任编辑/浩天)

统计与决策2008年第4期(总第256期)

高斯

基于逐步回归法的人口出生率影响因素分析

作者:作者单位:刊名:英文刊名:年,卷(期):

李松臣, 张世英

李松臣(深圳大学,数学与计算科学学院,广东,深圳,518060), 张世英(天津大学,管理学院,天津,300072)

统计与决策

STATISTICS AND DECISION2008(4)

参考文献(4条)

1.计量经济学软件Eviews使用指南 20042.国家统计局 中国统计年鉴 2005

3.J.M.伍德里奇 计量经济学导论-现代观点 19964.雷钦礼 经济管理多元统计分析 2002

本文链接:/Periodical_tjyjc200804003.aspx

本文来源:https://www.bwwdw.com/article/gcu1.html

Top