第六章 调查数据的回归分析(最新)

更新时间:2023-03-10 01:12:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第六章 调查数据的回归分析

回归分析是一种应用十分广泛的重要的统计分析方法。在调查数据的分析中,经常会遇到要分析变量之间数量变动关系的问题。对这类问题进行分析研究最常用的方法是回归分析方法。本章重点介绍一元线性回归分析和多元线性回归分析的方法,并对非线性回归分析作初步的介绍。

第一节 一元线性回归分析

一、一元线性回归分析概述 (一) 回归分析概述

世上任何事物的变化都有其内在的原因,内因是变化的根源,外因是变化的条件,只要具备了充分的外因条件,事物总是在内因的决定作用下按照一定的客观规律朝特定的方向发展。同时,客观世界中许多事物、现象、因素彼此关联,它们的发展变化由多种因素决定。市场活动中的许多现象也不例外,也都有其产生的原因,都要受一定因素的制约,都是一定原因的必然结果。因此,在市场分析中,找出影响和决定分析对象变化的有关市场因素,把有关的市场因素作为原因,把分析对象与有关的市场因素联系起来进行研究。把分析对象看作是结果,并根据这些有关的市场因素的变化来推测分析对象的变化,这就叫做回归分析法。

如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为简单线性回归。如果两者的关系不可用一条直线近似表示,则称为非线性回归。如果回归分析中包括两个或两个以上的自变量,那么就称为多元回归分析;多元回归分析包括线性关系和非线性关系两种情形。

回归分析的一般步骤是:

133

1.确立预测目标和影响因素

根据决策目的的需要,确立所要进行预测的具体目标,即确定因变量。通过市场调查和查阅资料,寻找预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。

2.绘制散点图

绘制散点图,观察变量之间是否存在着一元线性相关关系。若直观发现变量之间线性相关关系明显,即散点图显示观察值呈直线型分布,则可选定一元线性方程作为基本数学模型。若散点图显示观察值各点非常散乱,直接观察找不出什么规律,则断定根本不能选此方法进行预测。

3.求回归系数,并建立回归模型

根据主要影响因素的个数、影响因素与预测目标相关的性质以及历史统计资料,估计出模型的参数,并建立回归分析模型。

4.对回归模型进行检验

回归分析模型是建立在搜集来的统计数据的基础上的,而统计数据本身可能会存在各种偏差。所以,在使用回归模型时,要对回归方程进行检验。

5.进行估计和预测

对模型进行检验,证明了因变量与自变量之间有显著的关系后,就可以用模型进行实际预测,并对预测的结果进行综合分析。

(二) 一元线性回归分析概述

一元回归分析法是指只有一个自变量的回归分析法。在这种分析中仅涉及两个变量,即一个自变量和一个因变量。在一般情况下,影响某一现象的因素很多,但如果其中只有一个因素是基本的、起决定作用的,就可以以此作为自变量对该现象变动原因进行分析。

一元线性回归分析法是多元回归分析法的一种简化形式。它假设这两个变量之间的关系非常密切,而其他因素的影响甚微,可以作为随机因素看待,不在研究分析之列。但是,在实际的回归分析中,这种情况极为罕见。通常,某一现象中各个因素之间的关系是很复杂的,互相影响、互相渗透,以至于很难设想影响其变化的只是其中的一个因素,而能够忽略其他因素的影响。

一元回归分析法是回归分析法中最基本的方法,也是应用最为广泛的一种方法。一元回归分析法技术简单,它可以帮助我们理解多元回归分析法。一元回归分析法不仅简便易行,而且它抓住影响某一现象变化的关键因素进行分析,因此在数据分析中被广泛运用。

134

二、一元线性回归分析的基本模型 (一) 一元线性回归分析的基本模型 一元线性回归分析的基本模型为

y?a?bx?? (6.1)

上式中x为自变量,y为因变量,a和b表示确定回归直线模型的两个待定参数,a表示直线在y轴上的截距,b表示直线的斜率,称为y对x的回归系数,表明x每变动一个单位时,影响y的平均变动的数量,?为随机误差项。随机误差项说明了包含在y里面但不能被x和y之间的线性关系解释的变异性。对模型中的随机误差项?是不可观测的随机变量,通常对其作如下假定:

1.误差项?是一个平均值或期望为零的随机变量;

2.对所有的x值,?的方差都是相同的; 3.?的值是相互独立的;

4.误差项?是一个正态分布的随机变量。

?)在上述假定下,我们通常用y的数学期望E(y)作为y的估计(y,得

到如下一元线性回归方程:

E(y)?a?bx (6.2)

对于上述回归模型或回归方程中的参数a和b,我们可以根据样本数据,?,这样,我们可以得?和b运用适当的统计方法进行估计,分别得到其估计值a到如下经验回归方程:

???a??b x (6.3) y对于经验模型,如果通过了模型的拟合优度和回归参数的显著性检验,就可以运用该模型进行预测或控制分析。

(二) 一元线性回归模型参数的确定

一元线性回归分析用最小二乘法估计回归方程的参数。最小二乘法是选择对样本数据有最佳拟合程度的回归模型的一种方法。它是利用样本数据,

?i之间的离差平方和达到最小的约束条通过使因变量的观测值yi与其估计值y件,来求得a和b的值。

最小二乘法的准则是:Q?

?(yi?i)2?min (6.4) ?y135

式中:yi——对第i次观测,因变量的观测值;

?i——对第i次观测,因变量的估计值。 y 欲使Q??值的计算公式: ?、b用偏微分的原理,我们可得使6.4式达到最小的a?? bn?xiyi??xi?yin?x?(?xi)1n2i2?(yi?i)2?min,也就是使Q??y?)?min,利??bx?(y?a (6.5)

??a???1yi?bn?xi (6.6)

式中:xi——对第i次观测,自变量的观测值;

yi——对第i次观测,因变量的观测值;

n——总的观测值个数。

只需将所搜集的自变量xi和对应的因变量yi的数据代入上面两式,即可

?。 ?和b求得回归参数a、b的估计值a(三)一元线性经验回归方程的建立

?值,代?和b将样本数据代入参数公式6.5和6.6求得的a、b的估计值a入6.3式,即可得经验回归方程:

?????abx y

当我们得到一个实际问题的经验回归方程后,还不能马上就用它们去作

?是否真正描述了变量y与x之间的统计规律性,??bx??a分析和预测,因为y还需运用统计方法对回归方程进行检验。如果通过检验发现模型有缺陷,则必须回到模型的设定阶段或参数估计阶段。重新选择因变量和自变量及其函数形式,或者对数据进行加工整理之后再次估计参数。

三、一元线性回归模型的检验

一元线性回归模型的检验分为拟合程度检验和显著性检验,它是利用统计学中的抽样理论来检验回归方程的可靠性。

(一)一元线性回归方程拟合程度的评价

所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度大小的最常用指标是判定系数r和估计标准误差。这两

136

2个指标都是建立在对总离差平方和进行分解的基础之上的。

对于任一样本观测点,因变量的实际观测值与其样本均值的离差即总离差(y?y)可以分解为两部分:一部分是因变量的回归值与其样本均值的离差

??y),它可以看成是总离差中能够由回归直线解释的部分,称为可解释离(y差;另一部分是实际观测值与回归值的离差e?(y?y?),它是总离差中不能由回归直线加以解释的残差,该残差可以看作是回归模型中随机误差项?的一个估计。对任一实际观察值yi总有:

??y)?(y?y?) (y?y)?(ynini 对于全部样本观测点,可以证明有如下关系式成立:

n?(yi?1n?y)?22??(yi?1?y)?n2?(yi?1ii?)2 ?yn2如果记SST?则有:

?(yi?1i?y),SSR???(yi?1?y),SSE??(yi?1i?i)2,?ySST?SSR?SSE

上式中:SST是总的离差平方和(或总变差);SSR是由回归直线可以解释的那一部分离差平方和,称为回归平方和(或回归变差);SSE是用回归直线无法解释的离差平方和,称为剩余平方和(剩余变差)。显然,各点观测值与直线越靠拢,回归变差占总变差的比重就越大,说明直线拟合得就越好。

1.判定系数r2

我们把回归平方和与总离差平方和之比定义为样本判定系数,即

r?2SSRSST??(y??(yii?y)?y)22 (6.7)

判定系数r2是一个回归直线与样本观测值拟合优度的指标。r2的值总是在0和1之间。一个线性回归模型如果充分利用了x的信息,则r2越接近于1,拟合优度就越好。反之,如果r2不大,说明以模型中给出的x对y的信息还不充分,应进行修改,使x和y的信息得到充分的利用。

2.回归标准差

?的对比来看,回归直线上的各点同对如上所述,从观测值y与估计值y

137

应的观察期各点之间,均存在着一定的离差,即观察值曲线上各点的y值均偏离回归直线。离差越大,拟合程度越差。因而需要测定估计值的标准差,而回归标准差s就是用来估量y值在回归直线两侧的离差程度,以便在进行实际预测时为预测值建立一个置信区间范围。回归标准差的计算公式为:

sy??(yi?i)2?yn?2 (6.8)

sy值越小,表明回归直线拟合程度越高。

(二) 一元线性回归方程的显著性检验

回归分析中的显著性检验包括两个方面的内容:一是对各回归系数的显著性检验(t检验);二是对回归方程整体的显著性检验(F检验)。

1.t检验

t检验的目的在于检验各回归系数的显著性,即x与y之间是否真正存在线性关系,具体表现为回归系数是否为0。若为0,则所求回归直线就为一条水平线,x与y之间无线性关系;若不为0,认为x与y之间存在线性关系,所建立的回归方程符合变量间的变化规律。t检验的步骤如下:

(1)假设观测的样本来自没有线性关系的总体,即: H0:b?0 H1:b?0

(2)计算回归系数b的检验统计量t值: t???bbsb (6.9)

式中,sb为回归系数b的标准差,其计算公式为:

sy22sb??(x?x) (6.10)

sy为回归估计标准误差,计算方法是:

138

sy??e2in?2??(yi?i)2?y(n?2) (6.11)

(3)根据给定的显著性水平?和自由度(n?2),查t分布表,可得相应的临界值t?2。

(4)决策:

若tb?t?2,则拒绝H0,得出b?0的结论; 若tb≤t?2,则不能拒绝H0。

2.F检验

F检验的目的在于检验所得到的线性回归方程在整体上是否显著成立,

进一步检验x与y之间是否存在线性关系。其检验步骤如下:

(1)假设回归方程是不显著的,即:

H0:方程不显著 H1:方程显著 (2)计算回归方程的F统计量:

F???y)1?(y (6.12)

?(y?y)n?2?22(3)根据给定的显著性水平?,分子自由度1和分母自由度(n?2),查F分布表中相应的临界值F?。

(4)决策:

若F?F?,则拒绝原假设H0,说明回归方程显著;

若F≤F?,则不能拒绝原假设H0,x与y之间的关系不明显或无关系,说明回归方程不显著。

需要说明的是,在一元回归模型中,只存在一个解释变量x,因此对b?0的t检验与对方程整体的F检验是等价的,即t检验成立,则F检验一定成立。

四、运用回归方程进行估计和预测

如果我们利用最小二乘法原理,得到变量x与y之间的简单线性回归方程,并且证明了x与y之间在统计上具有显著的关系,那么由估计的回归方程给出的对样本数据的拟合,在我们看来就是一个好的拟合。我们利用估计的

139

回归方程进行估计和预测,应该是合适的。将已判断出的未来的自变量x的值代入预测模型,就可算出预测值。

预测值的置信区间,就是在一定的概率值下,估计预测值的范围,或它的上下限。从理论上来说,如果观察值数据较多,即样本较大,则可用回归标准差来判断预测值的置信区间。其公式为:

?t?t?2sy y对于小样本,即n≤30时,估算预测值的置信区间,应引入一个校正系数

1?1n?(x0?x)22?(x?x),则置信区间为:

?t?t?2sy1? y1n?(x0?x)22?(x?x) (6.13)

式中 x0——预测期自变量的值;

x——观察期自变量的值;

? t?2——置信度为和自由度为n?2的t的临界值;

2 x——观察期自变量x的平均值; n——观察期数据点的个数。 五、一元线性回归分析法的应用

【例6.1】某公司过去7年的广告费与销售额有如下资料(见表6-1)。请用以下数据建立一元回归模型,并检验回归模型的显著性。若未来一年该公司的广告费为66万元,试预测下一年的公司销售额。

表6-1 广告费与销售额资料 年序号 广告费(万元) 销售额(万元) 1 30 66 2 34 78 3 40 84 4 44 90 5 50 96 6 56 106 7 62 122

140

回答上述问题,按下列步骤进行:

1.作图判断自变量与因变量之间的相关关系

设广告费为自变量x,销售额为因变量y,在直角坐标轴上绘出各点,观察是否能拟合成直线,即观察广告费与销售额数据变化规律是否有线性相关关系。

y

x

图6-1 销售额与广告费的相关关系图

观察分析图6-1可知,广告费与销售额存在着相关关系,且散点基本集中在一条直线上,说明相关程度较高,即直观判断二者之间有较高的线性相关关系,因此可试用一元线性回归模型进行分析。选用的基本模型为直线回归方程:

??a?b yx2.求参数a,b

有关计算数据见表6-2:

141

表6-2 一元回归方程计算表

年序号 广告费x (万元) 30 34 40 44 50 56 62 316 销售额y (万元) 66 78 84 90 96 106 122 642 2x 2y xy 1 2 3 4 5 6 7 合计 900 1156 1600 1936 2500 3136 3844 15072 4356 6084 7056 8100 9216 11236 14884 60932 1980 2652 3360 3960 4800 5936 7564 30252 根据表中计算结果可知:

?x?316,?y?642,

?x2?15072,?y?60932

2?xy?30252, n?7 , k?? b?1

根据最小二乘法计算参数的公式,可得:

n?xy??x?yn?x?(?x)7?3025?27?1507?21n22

?31?6642?1.57 2(316)?? a???1y?b?x

n20. 84 ?642316?1.5?7?773.建立回归模型

将a,b值代入一元线性回归方程:

??a?b yx142

则该问题的经验回归方程为:

y??20.8?44.对回归模型进行检验

71.x5根据判定系数、回归标准差、F检验和t检验公式,分别进行检验。有关计算数据可参见表6-3离差平方计算表。

表6-3 离差平方计算表

年序广告费x 销售额y 号 1 2 3 4 5 6 7 合计 (万元) 30 34 40 44 50 56 62 316 (万元) 66 78 84 90 96 106 122 642 ? y67.87 74.17 83.62 89.92 99.36 108.81 ?)2 (y??y)2 (y?y3.4969 14.6689 0.1521 0.0064 11.2896 7.8961 568.3456 307.6516 65.61 3.2041 58.5225 292.41 704.3716 2000.1154 (y?y) 661.0041 187.9641 59.4441 2.9241 18.4041 204.2041 917.4841 2051.4287 2(x?x) 229.3061 124.1633 26.4489 1.3061 23.5918 117.8776 284.1633 806.8571 2118.25 14.0625 641.99 51.5725 (1)判定系数的检验。根据判定系数的公式可得:

r?2SSRSST?(y???(yii?y)?y)22

?22000.1154?97.49 51.4287说明销售额变异性的97.49%能被广告费与销售额之间的r?97.49%,

线性关系所解释,所以对上述拟合模型应该是很满意的。

(2)回归标准差检验。根据回归标准差公式,可得:

sy??(yi?i)2?yn?2 ?51.57255?3.2116

(3)t检验。将数据代入t的计算公式,得t统计量:

143

t???bbsb???bbs2y2??13.893 810.31451.57?(x?x)806.8572选择95%的置信度,即??0.05的显著性水平,自由度为(n?2)?5,查t分布表可知临界值t0.05(5)?2.571。因t统计量大于t?2,说明自变量广告费与因变量销售额之间存在着相关性,可以用这种模型进行分析。

(4)F检验。将有关数据代入F检验公式,可得:

F???y)1?(y

?(y?y)n?2?222 ?2000.1154?193.91 251.57255取显著性水平??0.05,分母自由度(n?2)?5,分子自由度1。查F分布临界值表,得临界值F0.05?6.61。因为F?F?,说明广告费与销售额之间存在的相关关系非常显著。回归模型通过了F检验。

5.预测并确定置信区间。由于此模型都通过了上述检验,可直接进行预测。将未来一期的自变量x的值代入模型,就可算出点预测值。下一年的销售额点预测值为:

??20.8? y4? ?20.84 71.x51.5?7?661(万元)2

确定预测值的置信区间,则要根据公式6.13。因该问题样本较小,n?7,样本数小于30,所以确定置信区间应该用下面的公式:

?t?t?2sy1? y1n?(x0?x)22?(x?x) 取?2?0.025,自由度n?2?5,查t分布表,得t的临界值为:

t?2?2.571。

当广告费达到x0?66万元时,销售额的预测区间为:

144

y?t?t?2sy1?1n?(x0?x)22?(x?x) 6 ?124.4?2.5?7113.?211?67(66?45.14)?1 806.85712 ?124.4?610.70(万元)

结果表明,我们有95%的把握程度预测,当广告费达到66万元时,公司的销售额在113.7506~135.1694万元之间。

第二节 多元线性回归分析

一、多元线性回归分析的含义

客观环境是复杂的,某个现象的变化往往受到许多因素的影响,即一个因变量可能受到多个自变量的影响,比如,商品销售额除受人均月收入影响外,还受商品价格、广告费支出等影响。此时,如果仅根据一个自变量的变化去估算因变量的变化规律,就会忽视其他自变量的变化对因变量的影响作用。因此,当研究变量之间的关系涉及到两个以上的变量时,就应当运用多个自变量,即采用多元回归分析法。

用多元线性回归分析法对多种因素进行分析和预测,是目前运用调查数据进行预测中的重要方法之一。其使用的基本原理和方法及步骤与一元线性回归分析法类似,只是它在回归参数的计算和检验上更加复杂。

二、多元线性回归分析法的基本模型 多元线性回归分析法的基本模型为:

y?b0?b1x1?b2x2???bkxk?? (6.14)

式中 xj——自变量;(j?1,2,??,k) y——因变量,线性回归分析估计值; bj——回归参数;(j?0,1,2,??,k)

?——随机误差项。

145

在多元回归模型中,关于误差项?的假定与简单线性回归模型的那些假定相似,如果用y的数学期望E(y)作为y的估计(y,可得如下多元线性?)回归方程:

E(y)?b0?b1x1?b2x2????bkxk (6.15)

多元线性回归分析法用最小二乘法估计回归方程的参数。不过当自变量超过三个时,手工计算是非常困难的,可以用计算机完成运算过程,从而提高数据处理能力。为了简便起见,下面介绍多元线性回归分析法中最简单的一种方法,即二元线性回归分析法。

三、二元线性回归分析法

二元线性回归分析法,是指有两个自变量的线性回归分析方法。 (一)二元线性回归分析模型及参数的确定 二元线性回归分析法的回归方程的一般形式为:

??b?bx?b y x (6.16) 01122上式中,b0为截距,表示当x1和x2的值为0时y的值。b1、b2称为偏回归系数,b1表示x1变化一个单位,而x2保持不变的情况下y值的平均变化量;

b2表示x2变化一个单位,而x1保持不变的情况下y值的平均变化量。

二元线性回归模型中的参数,同样可用最小二乘方法进行估计,获得其

?、b?。其估计参数的方程为: ?和b估计值b012

?y??x?1n?b??1b?01x??b2?2 x2x x 2 (6.17) 12y??bx??b?0?11x??b?12?xx?12x2y??bx??b?0?21b x?22只需将所确定的自变量和对应的因变量的数据代入上面公式,并联立求

?、b?。再将这些?和b解方程组,即可得回归参数b、b、b的值的估计值b012012参数代入回归方程,即可得经验回归方程。

(二)二元线性回归模型的检验

建立了二元线性回归模型后,同样要对二元回归模型进行检验。 1.拟合程度的评价

146

(1)判定系数R2

在多元线性回归分析中,前面介绍的总离差平方和的分解公式依然成立,因此也可以用判定系数R2来评价多元线性回归方程的拟合程度,即:

R2?SSRSST???(y?i?y)(yi22?y) (6.18)

这里多元判定系数R2是指因变量y中的变异性能被估计的多元回归方程解释的比例。将这个比例乘以100,我们就能把多元判定系数R2理解为因变量y中的变异性能被估计的多元回归方程解释的百分比。

由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量,为了避免高估这一影响,许多分析学家提出用自变量的数目去修正R2的值。用n表示观测值的数目,k表示自变量的数目,修正的多元判定系数的计算公式为:

R??1?2n?1n?k?1(1?R) (6.19)

222 R?越接近于1,模型的拟合优度越高。一般要求R?在0.7以上。

(2)回归标准差检验

计算多元线性回归标准差的公式与计算一元线性回归标准差的公式相同,即:

sy??(yi?i)2?yn?k?1 (6.20)

式中:sy——回归标准差;

yi——因变量第i期或第i次的观察值;

?i——因变量第i期或第i次的估计值; y n——观察期的个数或观察次数; k——为自变量的个数。

同样sy值越小,回归方程拟合得就越好。

2.回归模型的显著性检验 (1)t检验

147

如果其中某t检验的目的在于检验回归系数bj(j?1,2,?,k)的显著性,

个变量xi对因变量y的作用不显著,它的系数bi就可能取值为零。因此,检验变量xi是否显著等价于检验回归系数是否显著。若某个自变量对因变量的影响不显著,则应当将此自变量从预测模型中剔除,重新建立更为简单的回归模型,或更换自变量。检验方法同一元回归基本相同。t检验的步骤如下:

第一步:对于任一个参数bj建立假设: H0:bj?0 H1:bj?0 第二步:计算回归系数bj检验统计量t值:

tj???bbjjsbj (6.21)

式中:sb为bj的估计标准误差,其计算公式如下:

jsb1??(x??(xi1?x1)?2i2?x2)2?(xi2?x2)?(y?(?(x22i?i)2?y?x1)(xi2?x2))??(n?3)?i)2?y?x1)(xi2?x2))??(n?3)22 (6.22)

i1sb2??(x??(xi1?x1)?2i1?x1)2?(xi2?x2)?(y?(?(xi (6.23)

i1第三步:根据给定的显著性水平?和自由度(n?k?1),查t分布表中相应的临界值t?2。

第四步:决策:

若tj?t?2,则拒绝H0,回归系数bj是显著的,即自变量xj与因变量y之间存在显著相关性。

若tj≤t?2,则不能拒绝H0,回归系数bj不显著,即自变量xj对因变量y的影响作用不明显。

(2)F检验

F检验是为检验建立起的多元线性回归方程在整体上是否显著,其方法

为:

第一步:设回归方程不显著,即有:

148

H0:b1?b2???bk?0 ; H1: 至少有一个参数不等于零

第二步:计算F统计量

F?????y)(y2k?)2(n?k?1)(y?y (6.24)

第三步:根据给定的显著性水平?,查分子自由度为k,分母自由度为

(n?k?1)的F分布表,得到临界值F?。

第四步:决策:

若F?F?,则拒绝接受H0,表明回归模型有显著意义。

若F?F?,则接受H0,表明回归模型无显著意义。

需要说明的是,多元回归方程的检验(总显著检验),不能用各个回归系数的t检验代替。

(三)进行估计和预测

在上述检验都通过以后,即可将已判断出的未来的两个自变量的值代入模型,就可算出预测值。

二元回归预测值的置信区间,同一元回归相类似,其公式为:

?t?t?2sy y对于小样本,即n≤30时,估算预测值的置信区间,应引入一个校正系数1?1n,则置信区间为:

?t?t?2sy1? y1n (6.25)

式中:t?2——置信度为

?2和自由度为n?k?1的t的临界值;

n——观察期数据点的个数。 (四)二元线性回归分析法的应用实例

【例6.2】某公司对下一年的商品销售额进行预测,表6-4为历史数据,

149

该公司下一年计划促销费支出64.5万元,经营人员为32人,试预测下一年度销售额是多少(概率为95%)。

表6-4 销售额、促销费和经营人员资料

销售额y 序号 (万元) 1 2 3 4 5 6 7 8 9 10 70 80 120 120 130 160 170 190 220 230 促销费x1 (万元) 12 15 27 28.5 30 40.5 39 49.5 55.5 55.5 经营人员x2 (人) 18 24 26 17 22 20 30 20 31 35 回答上述问题,按下列步骤进行: 1.设定二元线性回归方程

??b?bx?bx y0112 22.求参数b0,b1,b2 有关计算数据如表6-5:

150

表6-5 二元回归方程有关数据计算表

销售额y 促销费x1 经营人员x2 (万元) 1 2 3 4 5 6 7 8 9 10 合计 70 80 120 120 130 160 170 190 220 230 1490 (万元) 12 15 27 28.5 30 40.5 39 49.5 55.5 55.5 352.5 (人) 18 24 26 17 22 20 30 20 31 35 243 22序号 x1 144 225 729 812.25 900 1640.25 1521 2450.25 3080.25 x2 324 576 676 289 484 400 900 400 961 x1x2 216 360 702 484.5 660 810 1170 990 x1y 840 1200 3240 3420 3900 6480 6630 9405 x2y 1260 1920 3120 2040 2860 3200 5100 3800 6820 8050 38170 1720.5 12210 1942.5 12765 9055.5 60090 3080.25 1225 14582.25 6235 (续表)

序号 1 2 3 4 5 6 7 8 9 10 合计 (xi1?x1) 540.5625 410.0625 68.0625 45.5625 27.5625 27.5625 14.0625 203.0625 410.0625 410.0625 2156.625 2(xi2?x2) 39.69 0.09 2.89 53.29 5.29 18.49 32.49 18.49 44.89 114.49 330.1 2(xi1?x1)(xi2?x2) 146.475 6.075 -14.025 49.275 12.075 -22.575 21.375 -61.275 135.675 216.675 489.75

151

将表中有关数据代入求参数的公式,可得

??352.5b??243b?1490?10b012??14582.25b??9055.5b? 60090?352.5b012??9055.5b??6235b?38170?243b012解方程组得:

??7.108 b??3.255 3??1.116 9 bb0123.建立经验回归方程

?、b?值代入二元回归方程,得该问题的经验回归方程为: ?、b将b012??7.108?3.2553x1?1.1169x2 y4.对回归模型进行检验

根据判定系数、回归标准差、F检验和t检验公式,分别进行检验。有关计算数据可参见表6-6。

表6-6 二元线性回归模型检验有关数据计算表

销售额y 序号 1 2 3 4 5 6 7 8 9 10 合计 (万元) 70 80 120 120 130 160 170 190 220 230 1490 ? y66.2773 82.7451 124.0427 118.8727 129.3406 161.2872 167.5742 190.5849 222.4036 226.8716 1489.9999 ?)2 (y?y13.8585 7.5356 16.3434 1.2708 0.4348 1.6569 5.8845 0.3421 5.7773 9.7869 62.8908 ??y) (y6843.0451 4389.7118 622.8668 907.6542 386.492 150.9753 345.0009 1729.3039 5388.0885 6063.9861 26827.1246 2(y?y) 6241 4761 841 841 361 121 441 1681 5041 6561 26890 2表6-6中第三列的值是根据预测模型计算出的,是各时期的估计值。 (1)对判定系数的检验。

152

R?2SSRSST??(y??(yii?y)?y)22

?26827.1246?0.9976

268909调整后的判定系数为 R2n?12a?1?n?k?1(1?R) ?1?10?110?2?1?(1?0.99762)

?0.9938

2)回归标准差检验。根据回归标准差公式,可得: s?y2y??(yi?i)n?k?1 ?62.89087 ?2.997 43)t检验。由前面的计算公式6.22与6.23可计算得:b1的标准差为:sb1?0.079

b2的标准差为:sb2?0.203

由公式tb?j?bj?s可得:

bjtb?1?b1?s?3.2553b0.079?41.2063

1tb?2?b1.11692?s?b0.203?5.5019

2153

( (

根据给定的显著性水平??0.05和自由度(n?k?1)?7,查t分布表中相应的临界值t?2?2.365。由上述结果有t1?t?2,t2?t?2。所以,回归方

程的系数通过显著性检验,说明销售额、促销费和销售人员之间存在着相关关系,可以用该模型进行分析。

(4)F检验。将有关数据代入F检验公式,可得:

F???y)?(y2k??)2(n?k?1)(y?y

?26827.1246262.89087

?1492.9836

取显著性水平??0.05,分母自由度为n?k?1?7,分子自由度为

k?2。查F分布临界值表,得临界值:F??4.74。

因为F?F?,说明销售额、促销费用和经营人员之间存在的相关关系非常显著。

5.预测并确定置信区间

由于此模型都通过了上述检验,可直接进行预测。将已判断出的未来一期的自变量x1和x2的值代入模型,就可算出点预测值。

下一年的销售额点预测值为:

??7.108?3.2553x1?1.1169x2 y8 ?7.10?3.25?536?4.51?.1 1 ?252.81 5 (万元)

确定预测值置信区间,因该问题样本较小,n?10,样本数小于30,所以公式为:

?t?t?2sy1? y1n 取?2?0.025,自由度n?k?1?7,查t分布表,得t的临界值为:

154

t?2?2.365。

以下一期的x1、x2的值代入上式,销售额的预测区间为: ?t?t?2sy1? y1n 56 ?252.81?56 ?252.81?2?.36512?.9?974 1017. 4(万元)3

结果表明,我们有95%的把握程度预测,下一年销售额区间为:245.3808万元~260.2504万元。

四、回归分析的其他问题 1.异方差

在前面所介绍的回归分析中,我们总是假定模型中的随机误差项?的方

2差是常数方差,即假定Var(?i)??。然而,在实际的回归分析中,这一假2定条件常常不能得到满足,也就是Var(?i)??i。例如,在对居民的消费水

平与收入水平进行回归分析时,往往存在这样的情况,即收入水平高的居民组消费水平的方差大,而收入水平低的居民组消费水平的方差小。这种现象就是所谓的异方差现象。当存在异方差现象时用普通最小二乘法对模型中的参数所进行的估计,不是最佳估计,而且所进行的t检验和F检验也是无效的。所以,在存在异方差现象时,必须首先对原有模型进行变换,消除异方差的影响,然后再用普通最小二乘法对变换后模型中的参数进行估计。这种估计通常称为广义最小二乘法估计。广义最小二乘法估计方法的具体应用,已超出了本教材的范围,这里不再介绍。其内容请读者参考有关回归分析的教材。

2.自相关

无论是在介绍一元还是多元线性回归模型时,我们总假定其随机误差项是不相关的,即Cov(?i,?j)?0,i?j,也就是假设误差项是随机的。如果

155

模型不满足这一假设,则我们就称随机误差项之间存在着自相关现象。自相关现象一般存在于时间序列之中,所以也称为序列相关。这里的自相关现象不是指两个或两个以上的变量之间的相关关系,而指的是一个变量前后期数值之间存在的相关关系。

自相关产生的原因有以下几种:(1)遗漏关键变量;(2)经济变量的滞后性;(3)采用了错误的回归函数形式;(4)对数据加工整理而导致误差之间产生自相关,等等。

当数据存在自相关时,如果我们根据假设的回归模型进行显著性检验,就可能发生严重的错误。因此,能检测出自相关的存在并作出适当的修正是非常重要的。一般情况下的序列相关性都是一阶自回归形式的序列相关。下面介绍用于检验一阶自相关的常用方法:D.W检验。

设?t的一阶自回归形式为:

?t???t?1??t

假设:H0:??0 (?t不存在一阶自相关)

H1:??0 (?t存在一阶自相关)

D.W的统计量为:

n?(ed?t?2t?et?1)2t2n

?et?1?t。 式中,et?yt?y然后根据给定的显著性水平?,自变量个数k和样本数据个数n,查D.W表,找出临界值dL和dU,然后依下列准则考察计算得到的D.W值来决定模型自相关状态。

当: 0≤d≤dL,则有正序列相关;

dL?d≤dU,则不能判定是否有自相关; dU?d?4?dL,无序列相关;

4?dU≤d?4?dL,不能判定是否有自相关; 4?dL≤d≤4,则有负序列相关。

156

一般认为当d的值在2左右时,则可判断模型不存在序列的自相关。 可以看到,D.W检验有一个明显的缺点就是它存在着不能确定的区域,一旦d落入这个区域,就无法判断?是否存在自相关。在这种情况下,可以通过增加样本容量,重新计算d值,进行检验;也可以改变样本,利用新的样本计算d值进行检验。如果显著的自相关性被识别出来,则首先应查明序列相关产生的原因,并采取补救措施。更进一步的内容本教材不作深入介绍。

3.多重共线性

在多元回归问题中,解释变量之间完全不相关的情形是非常少见的,大部分的变量在某种程度上是相互关联的。我们把自变量之间的相关性称为多重共线性。当回归自变量之间的相关程度越高,多重共线性越严重,那么回归系数的估计值方差就越大,使得在回归方程整体高度显著时,一些回归系数则通不过显著性检验,回归系数的正负号也可能出现倒置,使得无法对回归方程得到合理的解释,直接影响到最小二乘法的应用效果,降低回归方程的应用价值。为了消除多重共线性,可以剔除一些不重要的解释变量,增大样本容量或者进行回归系数的有偏估计等。关于多重共线性问题处理方法的详细内容,请读者参考有关回归分析的教材。

4.自变量的选择

回归自变量的选择无疑是建立回归模型的一个极为重要的问题。在建立一个实际问题的回归模型时,我们一般是根据所研究问题的目的,结合经济理论罗列出对因变量可能有影响的一些因素作为自变量,有时可能会涉及到很多自变量。但是有些变量可能并不重要,有些自变量数据的质量可能很差,太多的变量也会使模型变得过于复杂。因此,需要对大量的自变量进行必要的筛选,用尽可能少的自变量去解释因变量中最大比例的方差。选择回归变量的常用方法主要有:

(1)前进法。前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。首先将自变量逐个引入方程,检验其是否满足某个事先规定的标准,如果满足该标准,则将此变量加入回归方程,否则就不保留。例如,可以规定重要的变量加入方程所需的最小的F比值(如F=3.84)或最大概率值P(如P=0.05)。

(2)后退法。后退法与前进法相反,先将全部自变量都引入方程,然后逐个地检验其是否满足某个事先规定的剔除比值,如果满足该标准,则将此变量从回归方程中剔除,否则就保留。例如,根据变量对可解释的方程贡献

157

的大小,可以规定将不重要的变量从方程中剔除F比值的上限或概率值P的下限。

(3)逐步回归法。逐步回归的基本思想是有出有进。具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的自变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。这样就避免了前进法和后退法各自的缺陷,保证了最后所得的回归子集是最优回归子集。

第三节 非线性回归分析

一、非线性回归分析的含义

在前面的讨论中,我们一直假定因变量与自变量之间的相关关系可以用线性方程来近似地反映。但在实际工作中,有时变量之间相关关系并非存在线性关系,而呈诸如抛物线、指数曲线、双曲线等各种各样的非线性关系。这时,如果仍然直接用线性回归方程进行分析,将不能正确反映客观现象之间的相互联系。例如,全国总运量与国民生产总值有关,但随着国民经济的发展,产业结构和产品结构不断调整,运输货物中高、精、尖产品将逐渐增加,这样每亿元国民生产总值所产生的运量将逐渐减小,在一段不长的时期,用线性模型尚可,但长期来看,线性模型没有反映实际情况,拟合效果未必好。因此,需要应用适当形式的曲线回归方程来描述它们之间的关系。这种为观察数据拟合曲线回归方程所进行的分析,称为非线性回归分析。

二、非线性回归方程的形式及测定方法

在多数情况下,非线性回归问题,可以通过变量的变换,将其转化为线性回归问题,然后再运用前面所介绍的线性回归分析方法进行分析。下面给出几种常见的非线性回归方程的形式及线性化方法:

1.抛物线

158

抛物线模型的一般形式是:

??a?bx?cx2 y?、c?,即要求: ?、b按最小二乘法,确定a、b、c的估计值aQ??)?(y?y2???(y?a??cx?2)2 ?bx欲使Q为最小,须求Q对a、b、c的偏导数,并令其等于零,得到如下三个规范方程式:

?y?n?a???b??x xc?22??x?xy??a?x?b??x ?cx

43?x223b?x???cy??a?x??求解上述三个方程,就得到a、b、c的值,曲线方程也就得以确定。

??aebx 2.指数曲线:y?,a??lna,则有:对于指数曲线进行线性化处理,可以令y??lnyy??a??bx

这就是指数曲线的线性化模型表达式。运用最小二乘法估计原模型中的

参数,首先要按y??lny生成新的数据y?,然后按最小二乘法估计方法,估计出线性化模型中的参数a?和b,最后,还要查反对数,获得真值a。这样,原模型中的参数a和b就全部估计出来了。

3.双曲线:

1?y?a?b1x

1?y对于双曲线进行线性化处理,可以令y??y??a?bx?

,x??1x,则有线性化模型:

运用最小二乘法估计原模型中的参数,首先要按y??1y和x??1x生成新

的数据y?和x?,然后按最小二乘法估计方法,估计出参数a和b即可。

159

??axb 4.幂函数曲线:y对于幂函数曲线进行线性化处理,可以令y??logy?,x??logx,

a??loga,则有线性化模型:

y??a??bx?

运用最小二乘法估计原模型中的参数,首先要按y??logy和x??logx生成新的数据y?和x?,然后按最小二乘法估计方法,估计出线性化模型中的参数a?和b,最后,还要查反对数,获得真值a。

5.对数曲线:y??a?blogx

对于对数曲线进行线性化处理,可以令 x??logx,则有线性化模型:

??a?bx? y 运用最小二乘法估计原模型中的参数,首先要按x??logx生成新的数据

x?,然后按最小二乘法估计方法,估计出线性化模型中的参数a和b。

??6.S型曲线:y1a?be?x

1y对于S型曲线进行线性化处理,可以令y??型:

y??a?bx?

,x??e?x,则有线性化模

运用最小二乘法估计原模型中的参数,首先要按y??1y和x??e?x生成新

的数据y?和x?,然后按最小二乘法估计方法,估计出线性化模型中的参数a和

b。

三、非线性回归分析的步骤

根据上列常见的曲线回归方程,进行曲线回归预测时,一般步骤有以下几步:

(1)对所研究的两个现象进行理论分析,分析两者之间是否存在相关关系,以及是什么形式的相关,并结合观察散点图的分布,确定拟合哪种形式的曲线较为合适。

160

(2)确定好曲线形式后,就可以列表计算其相应公式的有关参数,从而确定所拟合的回归方程形式,并利用有关资料计算相关系数,以观察所研究的两个现象之间相互关系的紧密程度。

(3)根据所确定的回归方程进行预测。

161

本文来源:https://www.bwwdw.com/article/x38a.html

Top