第八章 相关与回归分析

更新时间:2024-06-30 07:36:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第八章 相关与回归分析

统计方法的一个重要目的是探讨事物的数量规律,那么,统计方法怎样探讨规律?对这个过程或机制的一个简单解释是:通过对性质不同的事物的大量观察,发现某些表面关系不大的事物之间存在着一定的依存关系,事物之间不是“独立”的,这使人们发现了一些“模式”,比如,人们发现,菜肴如果比较“咸”,就不容易变质,这个模式甚至成为许多人长期保持食物的方法。本章将介绍初步的探索统计规律的方法。要求:

1.掌握相关系数的含义、计算方法和应用

2.掌握一元线性回归的基本原理和参数的最小二乘估计方法 3.掌握回归方程的显著性检验 4.利用回归方程进行预测

4.掌握多元线性回归分析的基本方法 5.了解可化为线性回归的曲线回归 6.用 Excel 进行回归分析

第一节 变量间的相关及其度量

一、相关关系的概念 “事物是普遍联系的”,这种联系在我们看起来或明或暗,或显或隐,运用统计方法的一个意图就是试图从数量上测度事物之间的“联系及其程度”

用统计学的眼光看,事物无非变量,因此,我们可以把事物间的关系视为变量间的关系。为了讨论的简明,我们暂时设定数量联系发生在两个事物或两个变量之间,此关系的紧密程度就是统计学要发现和度量的对象。

这种关系有一个极端的情况是一个变量的变化完全能够决定另一个变量的变化。例如,一瓶矿泉水2元钱,我们每多买一瓶,就要多花2元钱,把购买量(瓶)记为x,花费金额记为y,则y=2x。其他的类似情况很多,其基本特点是:知道了一个变量的变化程度,就能够确定另一个变量的变化程度,这就是函数关系。

然而,现实世界中还有许多情况是两事物之间存在着联系,但其方式不是“决定”,比如,一般地看,一个人的身高越高,他的体重也“应该”越大,但我们会发现很多1.69米高的人比1.70米高的人重;又如,居民收入越高,储蓄额也会越大,但我们确实见过收入下降但储蓄额却上升的情况。类似的情况很多:我们认识到存在着一定的规律,但这种规律是有弹性的,至少是会出现“意外”的,所以,这是一种非确定性关系。由于众多现象所形成的复杂性和我们认识的局限性,或者由于试验误差、测量误差等偶然因素,使得一个变量的变化,另一个变量可以取若干个随机的数值。统计学中把这种现象之间在数量上非确定性的对应关系叫做“相关关系”或“统计关系”。

因此,我们把相关看作是现象或变量之间的数量关联。 1、完全确定的关联——函数关系 2、部分确定的关联 统计关系 3、完全不确定的关联 从以上的分析看,探讨现象之间的相关关系,可能是探讨事物内在确定性的

一种捷径,至少也是能够指出探索方向的重要信息,而且许多现象也证实了这种机制。

比如,天花是一种毁坏性很强的传染病,但有人发现,牧场里挤牛奶的姑娘几乎从来不染天花,经过多次的“试-错”活动,牛痘诞生了,天花不再肆虐,以至于现在,天花病毒在某些范围内成为濒临灭绝的需要保护的生物物种;

再如风湿性关节炎,是一种顽疾,但人们发现养蜂人几乎不患关节炎,与产生牛痘的艰难过程相似,治疗关节炎的“蜂毒”出现了。

加拿大的一个科学家(Dr.Peter Yu)猜测:严重暴力犯是否在生理结构上就与正常人有区别?他研究了监狱内几十名严重暴力罪犯的血样,发现其中一种叫做MAO的物质只相当于正常人的1/3,而且暴力犯罪越严重,MAO含量越低。西班牙的一位科学家对斗牛士进行了相似的试验,也得到相似的结果。加拿大的这位科学家同样也对一些胆子很小、“不惜一切避免任何风险”的人进行了相似的试验,发现MAO含量偏高,他就着手研制一种药,能够降低某些胆小的人血液中的MAO含量,以使他们能与普通人同样低生活。这是一种现象:暴力倾向强的人,同时血液中MAO的含量也低,相反,胆子小的人,MAO含量高。人们会很自然地猜测——MAO是否决定了一个人的暴力倾向?

诸如此类的情况,都存在这样的过程:人们发现了某种现象的变化经常都会引起另一现象的变化,这可以被视为不太明确的规律,人们为了验证、利用这些规律,会进一步试验,筛选出最主要的变量,再进行理论论证,直至形成一种比较稳定的、可控的操作模式。这个过程用统计术语来表述,就是:通过大量观察,发现了某两个变量之间的相关关系,再对这两个变量的一系列观测值进行有效的统计技术处理(下面将要介绍的回归分析方法是主要的手段),形成具有一定概率的统计规律。如何验证或解释统计规律则是统计方法以外的事业,前述三个事例都属于生物学、生理学领域。经济现象中的“恩格尔定律”也有类似的情形。

二、相关关系的种类

感知某种事物的存在,人们很自然地就要去理解、解释这种事物。现象间存在着相关关系,这些“关系”成为认识的对象,我们不禁要问:这些关系是怎样的?从科学方法的角度看,对我们的研究对象进行适当的分类是必要的。

现象间的相关关系可以有多种分类。

1、 按相关的方向不同可以分为正相关和负相关 2、 按相关的形式不同可以分为线性相关和非线性相关

当一个变量的变化幅度与另一个变量的变化幅度基本上是等比例时,这种相关关系就是线性相关。“线性”一此来源于函数图象,一元一次方程的图象是直线,线性相关就是两个变量在平面直角坐标系上所描绘出的系列点基本呈直线。线性相关之外的相关关系都属于非线性相关,因为这些关系需要使用曲线方程来刻划和表达。

3、 按影响因素的数量不同分为单相关、复相关和偏相关

两个变量的相关关系称为单相关;三个或三个以上变量的相关关系称为复相关;在三个及三个以上的相关变量中,若只反映其中两个变量的相关关系(假定其他变量不变),就称为偏相关。

4、 按照变量关联的密切程度可分为完全相关、不完全相关和完全不相关(无关)

习惯上所说的相关一般指的是介于完全相关和完全无关之间的“不完全相

关”

第二节 简单线性相关分析

一、相关分析的基本思想

例如,某公司10个企业的销售收入和销售利润的资料如下:

表5-1 企业销售收入与销售利润相关表 单位:万元

企业编号 1 2 3 4 5 6 7 8 9 10

1、 相关图

相关图也称散点图,是在平面直角坐标系中,以横轴表示变量X,以纵轴表示变量Y,将相关表中对应的资料数值在图上标出坐标点所形成的图形,图中的坐标点会显示一定的相关关系。通过相关图可以大致看出两个变量之间有没有关系,是什么样的关系(正相关或负相关),相关的密切程度如何。将表5-1中的资料绘制成相关图,能较直观地看出两个变量间的线性关系。

76543210010203040销售收入(万元)506070销售收入X1 10 20 24 30 30 40 50 56 60 60 销售利润X2 1.8 2.0 2.4 3.5 4.4 5.0 5.0 5.6 6.0 6.4 销售利润(万元)图5-1 企业销售收入与销售利润相关图

二、相关系数

相关表和相关图都只能让我们了解现象之间相关关系的粗略情况,还不能进

行“量化”,为了更有效、更具普适性地表示现象之间相关关系的密切程度,还需要计算相关系数。

相关系数是用于测定两个变量之间线性相关程度和相关方向的统计分析指标,用字母r表示。

相关系数从原理上说,可根据两个变量与其算术平均数的离差乘积来计算,这种计算方法称为“积差法”,是计算相关系数的基本方法。其计算公式为:

1 _ _

--- Σ(x - x)( y - y) σxy n

r = ---------------------------------------- = ---------- (5.1)

_______________ ________________

/ 1 _ / 1 _ σxσy 22 / ---Σ( x – x ) / --- Σ( y – y ) √ n √ n

式中:n表示相关变量的项数;

σxy代表两个变量离差乘积的平均数,也称为变量x与y的协方差; 其他符号的意义同前 上式可用文字表述为:

变量x与y的协方差 相关系数 = ------------------------------- (5.2)

变量x的标准差·变量y的标准差

式(5.1)还可作如下简化:

_ _ Σ(x - x)( y - y) r = ---------------------------------------- (5.3)

_______________ ________________ / _ / _ / Σ( x – x )2 / Σ( y – y )2 √ √

nΣxy - ΣxΣy r = ---------------------------------------- (5.4)

_______________ ________________ / /

/ nΣx2 – (Σx)2 / nΣy2 – (Σy)2 √ √

相关系数的积差法公式表明,在直线相关条件下,协方差σxy为正值时,相关系数也为正值,表示正相关;σxy为负值时,相关系数也为负值,表示负相关;σxy为零时,相关系数为0,表示两个变量不相关。相关系数的变动范围在-1到+1之间,即|r|≤1,|r|的大小表示相关程度的高低。

习惯上——而不是严格意义上,我们还可以根据相关系数的值把相关关系的强度赋予一定的“名称”,即相关系数的绝对值|r|在:

0.3以下,称为微弱线性相关; 0.3—0.5,称为低度线性相关; 0.5—0.8,称为显著线性相关; 0.8以上,称为高度线性相关。

如果计算相关系数时,使用的数据量较小,容易受偶然现象的影响,相关系

数的可信度就比较低,这时需要对相关系数进行检验,检验样本相关系数r对总体相关系数ρ的代表性。

三、等级相关(Rank Correlation)

等级相关的全称是斯皮尔曼(Spearman)等级相关。等级相关也是一种直线相关分析。它是将数量特征值按等级次序排列,再测定数量等级之间的相关程度的一种方法,故又称为顺位相关或秩相关。根据等级相关法计算出来的相关指标叫做等级相关系数或斯皮尔曼系数。

在测定时,首先是将数值编号号码,然后顺次求两个变量每对符号等级的差量d,即:

d = x等级 - y等级 (5.5)

等级相关系数用ρ表示,其计算公式为: 6Σd2 ρ= 1 - ----------- (5.6)

n(n2 - 1) 式中:n代表等级的项数

Σd2代表所有差量平方之和

ρ的取值范围为[-1,+1]。若x、y等级次序完全相同时,Σd2=0,ρ=1,则x、y完全正相关;若x、y等级次序完全颠倒,ρ= -1,则x、y完全负相关。若-1<ρ<1,则x、y非完全直线相关。

设有甲乙二组售货员对13种女皮鞋的式样进行评价,评分情况如下:

表5-4 售货员对女皮鞋的评价分数 皮鞋编号 甲组 1 2 3 4 5 6 7 8 9 10 11 12 13 82 87 84 92 78 72 76 66 68 80 75 87 86 乙组 76 83 83 80 74 72 86 69 74 72 70 76 76 这种打分并不是客观的,也不精确,但可据此决定事物的等级或顺序。将评分改为等级的办法是:最低分定为1等,最高分本例定为13等。遇有相同分数时取原有等级的平均数。例如,甲组有两个87分,原来等级为11、12,其平均数为11.5,即作为这两个分数的等级;乙组有三个76分,原来等级为7、8、9,其平均数为8,即作为这三个分数的等级。计算等级相关系数的资料如下:

表5-5 评价分数计算表 等级差 甲组评乙组评甲组等级乙组等级编号 d = d2 分 分 x y x–y 1 82 76 8 8 0 0 2 87 83 11.5 11.5 0 0 3 84 83 9 11.5 -2.5 6.25 4 92 80 13 10 3 9 5 78 74 6 5.5 0.5 0.25 6 72 72 3 3.5 -0.5 0.25 7 76 86 5 13 -8 64

8 66 69 1 1 0 9 68 74 2 5.5 -3.5 10 80 72 7 3.5 3.5 11 75 70 4 2 2 12 87 76 11.5 8 3.5 13 86 76 10 8 2 合计 — — — — — 6Σd2 6×125

ρ= 1 - ----------- = 1 - --------------- = 0.6566

22

n(n - 1) 13×(13 - 1)

说明甲乙两个组售货员对女皮鞋式样的意见有中等相关。

0 12.25 12.25 4 12.25 4 125.0 第三节 一元线性回归分析

一、回归分析(Regession Analysis)的概念

如果现象之间存在着相关关系,比如,变量X增长了,经常能发现变量Y也在增长,变量Y下降的时候,变量X也经常在下降(这表现的就是相关关系),这时,不管人们能否解释X和Y之间的逻辑关系或内在的确定性,他已经知道,可以在某种程度上利用这个规律。一个问题接踵而至——当X增加1%时,Y会增加多少?这就涉及了回归的问题。

“回归”一词不如“相关”一词更直观。Regession意为“衰退”,其最早是用于“特异现象向普通现象复原或倒退”意义上的“回归”,或者说,是“从特异回归到平常”。 ..高尔登(Francis Galton)依据不太精确的经验发现了一个现象:高个子的夫妇一般会生育较高个子的孩子,低个子的夫妇也会生育较低个子的孩子,但比父母更例外的后嗣较为少见。为了探讨这种遗传学问题,他在1885年进行了豌豆试验,以验证关于“个子”的猜想,结果如下:

表5-6 高尔登的香豌豆试验数据 单位:0.01英寸

代别 种子直径 18 上一代 15 16 17 19 20 21 16.下一代 15.4 15.7 16.0 16.6 17.0 17.3 3 小个子豌豆的下一代没那么小,大个子豌豆的下一代不是变得更大,而是比上一代较小些,高尔登称此为“回复变异”。他说:“回复变异是理想平均子型与父型有差异的趋势使回复到可以粗略地也许正确地称之平均祖先型。” ..........

回归分析法在后人手中发扬光大,现在已经成为重要的统计方法。它描述的是一个变量怎样地依赖于另一个变量,或者说,当一个变量发生一定的变动时,另一个变量将会发生怎样的数量变动。回归分析的目标是发现一个能充分解释所研究的事物关系的最简单和最实用的数学模型。

二、回归模型的建立

如果两个变量存在着相关关系,并且一个变量的变化会引起另一个变量的变化,则两个变量间的关系就可以拟合回归模型。本节介绍基本的回归分析方法——一元线性回归模型。

设有以下数据:

表5-7 某产品产量与单位产品成本资料 产品产量(千件) 289 298 316 321 322 327 329 42.9 42.1 39.6 39.1 37.5 38.5 329 38 331 350 单件成本(元) 43.5 38 37 先用上表资料绘制散点图:

4443单位产品成本(元)42414039383736280300320产品产量(千件)340360图5-2 产品产量与产品成本散点图对于这样一幅散点图,很容易看出有一种趋势,而且是直线趋势。但怎样确定这条直线才能使它对这10个点的概括最为准确?

设直线的方程式为 y (5.7)

式中x为自变量,在回归分析中,由于我们要观察的是因变量随自变量的变化而变化的程度,所以可以假定自变量是可控的,不是随机变量,通常是现象研究者事先选定的数值;a为估计直线在纵轴上的截距,它是估计直线通过纵轴

=

a

+

bx

点的y坐标;b为估计直线的斜率,它表示当x增加1个单位时y的平均增加数量;y为估计值。

这条直线的根本目的是要代表那10个散点,那么,代表性最强的直线应该是最恰当的直线。怎样才能做到代表性最强?衡量代表性的原理或原则是什么?要回答这个问题请先回忆一下算术平均数,几个变量值最有代表性的指标是算术平均数(数理统计可进行证明,日常生活经验也使我们相信平均数),它有一个数学性质:各变量值与算术平均数离差的平方和为最小,即 _ ∑(x-x)2 = (5.8)

min

从这个现象中,我们可以得到这样的结论:只有“离差平方和最小”的代表值才是最好的代表值——这成为判别一个回归方程是否准确的基本标准,该方法在统计学中叫做“最小平方法”或“最小二乘法”。得到如下表达式:

(5.9) 即

∑( y – a - bx )2 (5.10)

对a和b求偏导数,并令其为零,整理后得下列方程组: Σ(5.11)

Σxy = aΣx + bΣx2 解方程组得

Σy bΣx _ _

a = ---- - (5.12)

n n

nΣxy - ΣxΣy b = (5.13)

nΣx2 – (Σx)2

拟合回归直线。

表5-8 产品产量与单位成本回归模型计算表

序单位成本产品产量计算栏 y

=

na

+

b

=

(

y

y

)2

=

min

min

Σx

----- = y - bx

----------------

可求出式(5.7)中的a、b,并确定直线回归模型。现根据表5-7中资料

号 y (元) x (千件) 289 298 316 321 322 327 329 329 331 350 3212 xy 12571.5 12784.2 13303.6 12711.6 12590.2 12262.5 12666.5 12502.0 12578.0 12950.0 126920.1 x2 83521 88804 99856 103041 103684 106929 108241 108241 109561 121500 y2 1892.25 1840.41 1772.41 1568.16 1528.81 1406.25 1482.25 1444.00 1444.00 1369.00 1 2 3 4 5 6 7 8 9 10 合计

43.5 42.9 42.1 39.6 39.1 37.5 38.5 38.0 38.0 37.0 396.2 1034378 15747.54 将上表资料代入公式(5.13)和(5.14),解得:

nΣxy – ΣxΣy 10×126920.1 - 3212×396.2 -3393.4 b= ----------------= ----------------------------- = --------- = -0.11264

nΣx2 – (Σx)2 10×1034378 - 32122 26836

Σy bΣx 396.2 3212

a = ---- - ----- = ------- - (-0.1264)------ = 80.22 n n 10 10 得回归方程:

y = 80.22 - 0.1264x 图示如下:

单位产品成本(元)464442403836280300320340360产品产量(千件)图5-3 产品产量与产品成本散点图

三、估计标准误差

建立回归模型,理论基础是最小平方法,事实依据是若干对因变量、自变量的数值。而因变量、自变量的数值在绝大多数情况下都是样本值,虽然自变量是可控的,非随机的,但作为这一对数值却是随机的,与抽样指标相似,仍然存在着样本代表性的问题,同样需要计算这种随机数值的平均误差。其基本原理仍然是计算“离差平方和”(衡量算术平均数的代表性大小时使用此法,衡量抽样指标的代表性大小时延用此法),不同的是,这里的离差指的是实际值与估计值之间的离差。估计标准误差的计算公式为:

________________ / ∑( y – y )2

Sy = / (5.14)

√ n – 2

----------------

仍以表5-8数据为例,计算估计标准误差。

表5-9 产品产量与单位成本回归模型的估计标准误差计算表 序单位成本y2(元) 产品产量x(千件) y (y - y) 号 1 43.5 289 43.69 0.0361 2 42.9 298 42.55 0.1225 3 42.1 316 40.28 3.3124 4 39.6 321 39.65 0.0025 5 39.1 322 39.52 0.1764 6 37.5 327 38.89 1.9321 7 38.5 329 38.63 0.0169 8 38.0 329 38.63 0.3969 9 38.0 331 38.38 0.1444 10 37.0 350 35.98 1.0404 合计

将有关数据代入式(5.15),则回归模型的估计标准误差为 ________________ _________ / ∑( y – y )2 / 7.1806

Sy = / ---------------- = / --------- = 0.947 √ n – 2 √ 10 – 2

在利用式(5.15)计算估计标准误差时,计算很繁琐,可利用已知的a、b值来计算估计标准误差。其公式为:

____________________ / ∑y2 - a∑y - b∑xy

Sy = / (5.15)

396.2 3212 396.20 7.1806 --------------------

√ n – 2

根据前述资料,可利用式(5.16)计算估计标准误差:

_________________________________________________ / 15747.54 – 80.22×396.2 -(-0.1264)×126920.1

Sy = / ------------------------------------------------ = 0.941 √ 10 – 2

该结果与前种方法所得结果的误差是计算中舍入所致,可忽略不计。 估计标准误差的作用,一方面用来衡量回归模型的拟合优度(有效程度),另一方面用来对实际的值y落到估计值y周围的区间做出一个大概的说明。如同抽样推断中的抽样平均误差一样,如果样本数据点围绕回归模型服从正态分布,那么,实际的y值落在估计值y加减一个Sy范围内,有68.27%的可靠性,实际值y落在估计值y加减2个Sy范围内,有95.45%的可靠性,实际值y落在估计值y加减3个Sy范围内,有99.73%的可靠性。

四、可化为线性回归的非线线回归

无论是自然现象还是社会现象,现象间的关系不都是线性关系,而且许多关系在一段时间内表现出线性特征,在更长的时间内,可能又表现为非线性特征;也有些关系在较短时间内表现为非线性特征,而在长期内又表现为线性特征。对于非线性关系,需要使用相应的模型来拟合,非线性模型一般都比较复杂,但有些非线性模型可以化为线性模型。

1、 指数

(5.16) 两边同时取对数 ln y = lnα+βx 令y’=ln y, 则 y’ (5.17) 2、 幂函

(5.18) 两边同时取对数 ln y =lnα+βln x 令y’=ln y, x’=ln x, 则

y

=

α

x

β

β

x

函数y = αe

= lnα+βx

y’= lnα+βx’

(5.19)

x 3、 双曲函

(5.20)

αx+β 令y’=1/y, x’=1/x, 则 y’=(5.21) 4、 对数

(5.22) 令x’=ln x, 则 y

=

α

数α

数 y = ------

+βx’

y =α+βln x

+βx’

(5.23)

1 5、 逻辑斯蒂曲

(5.24)

α+βe-x 令y’=1/y, x’=e-x, 则 y’=(5.25)

α

线 y = ------------

+βx

第四节 多元线性回归分析

“事物是普遍联系的”,因为有“联系”,使我们可以探索它,不至于一无所知、逆来顺受;因为“普遍”,又使我们对“联系”的探索举步维艰,一个现象的变化,往往找不到一个直接因素,经常都是在很多因素的影响下,一件事物变化了。复杂的现象常常具有多方面的联系,涉及多个变量之间的数量关系。在许多实际问题中,某个因变量常随着多个自变量的变动而作相应的数量变化,对于这类问题的处理应采用多元回归分析方法。

多元回归分析是研究一个因变量与多个自变量之间相关关系的统计分析方法。由于多元回归考虑到多个自变量对因变量的影响,能够更真实地反映现象之间的相互关系和相互作用,因此被广泛地应用于科学研究和实验数据的分析当中,成为使用非常广泛的统计方法。例如,产品产量不但受劳动时间影响,而且还受技术水平、工人劳动能力、年龄、性别和设备的生产效率等因素的影响。对

这类问题,就可以采用多元回归分析的方法来加以研究。本节简要介绍多元线性回归分析的方法。

多元线性回归分析实际上可以视为一元线性回归分析方法的拓展,其基本原理与一元线性回归分析的原理相似,但在计算上要复杂得多。

一、多元线性回归模型

设影响因变量y的主要因素有k个:x1,x2,x3,??xk,则可以建立如下多元线性回归模型:

y (5.26)

每个自变量的系数表示,当其他自变量都固定,该自变量变动1个单位时,y的平均变动量。如b1表示当x2??xk固定时,x1每变动一个单位而引起y的平均变动量。b2 表示当x1,x3??xk 固定时,x2 每变动一个单位而引起y的平均变动量,等等。也可以这样理解:每个自变量的系数是一种权数,它表示每个自变量的变化对因变量总变化各自的贡献程度。

多元线性回归分析是建立在简单线性回归所使用的假设和方法的基础之上的,对于式(5.27)中自变量的k个系数,均可采用最小平方法原则求得,下面以二元回归分析为例来介绍多元回归模型的分析方法。

二元回归分析就是只分析两个自变量对因变量的影响,其回归模型为: y (5.27)

式中的三个自变量系数由下列三个方程式确定: nb0 + b1∑x1 + b2∑x2 = ∑y b0

(5.28)

b0∑x2 + b1∑x1x2 + b2∑x22 = ∑x2y

现以表5-10的资料为例,拟合二元回归模型(假设自变量之间没有较强的线性关系)。

表5-10 某地区空调销售量、销售加工及年人均收入资料 年销售销售价年人均计算栏 ∑

x1

+

b1

x12

+

b2

x1x2

=

=

b0

+

b1x1

+

=

b0

+

b1x1

+

b2x2

+

?

?

+

bkxk

b2x2

x1y

份 量(万台) y 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 合计 格 (千元/台) x1 收入(千元) x2 x12 x22 x1y x2y x1x2 1.5 1.7 2.0 2.3 2.5 2.7 2.9 3.1 3.3 3.5 3.0 3.1 3.2 3.5 3.6 3.5 3.6 3.7 3.7 4.0 0.8 1.0 1.2 1.5 1.8 2.3 2.5 2.9 3.3 3.8 9.00 9.61 10.24 12.25 12.96 12.25 12.96 13.69 13.69 16.00 0.64 1.00 1.44 2.25 3.24 5.29 6.25 8.41 10.89 14.44 4.50 5.27 6.40 8.05 9.00 9.45 10.44 11.47 12.21 14.00 1.20 1.70 2.40 3.45 4.50 6.21 7.25 8.99 10.89 13.30 2.40 3.10 3.84 5.25 6.48 8.05 9.00 10.73 12.21 15.20 25.5 34.9 21.1 122.65 53.85 90.79 59.89 79.26 将表5-10中的资料代入上式得: 10b0 + 34.9b1 + 21.1b2 = 25.5 34.9b0 + 122.65b1 + 79.26b2 = 90.79 21.16b0 + 79.26b1 + 53.85b2 = 59.89 解得: b0 = -0.481 b1 = 0.744 b2 = 0.206

将结果代入式(5.28)得二元回归模型: y0 = -0.481 + 0.744x1 + 0.206x2

二、多元回归的估计标准误差

与一元回归分析相同,估计本身是随机的,因此也就存在着误差,为了衡量这种误差的一般程度,也需要计算估计标准误差。

多元回归估计标准误差的计算公式为: ________________ / ∑( y – y )2

Sy = / (5.29)

√ n – (k + 1)

式中,(k+1)为自由度

----------------

式(5.29)可有简捷计算公式:

___________________________________________ / ∑y2 – b0∑y – b1∑x1y –b2∑x2y - - bk∑xky

Sy = / ------------------------------------------- (5.30)

√ n – (k+1)

例如,对于二元回归模型,就有

__________________________________ / ∑y2 – b0∑y – b1∑x1y – b2∑x2y

Sy = / ---------------------------------- (5.31)

√ n – (2+1)

将表5-10资料和自变量系数数值代入式(5.31),就可得空调销售量回归的估计标准误差。

______________________________________________________ / 69.13 –(-0.481)×25.5 –0.744×90.79 – 0.206×59.89

Sy = /------------------------------------------------------- = 0.2158(万台)

√ 10 – 3

结果表明。若用回归模型y0 = -0.481 + 0.744x1 + 0.206x2估计因变量的数值,则平均离差为0.2158万台。

三、相关分析与回归分析的比较

1、相关分析与回归分析都只对样本数据负责。一般地看,想要了解现象间的关系,只能用一对变量的若干观察值或样本值进行相关分析与回归分析,所使用的分析方法是有理论依据的,但数字资料本身却各有不同,观察范围越广,采样越密集,得到的分析结果也会越准确。如果变量的变化范围发生改变,或变量本身的性质发生变化,原有分析结果就不再具有原来的代表性,需要重新建立回归模型。

2、计算相关系数时,两个变量不必区分自变量和因变量,但在回归分析时,必须区分自变量和因变量(对于一元回归而言,自变量与因变量的位置互换,相当于原来的反函数)。从统计学的数学性质来讲,我们可以不去考虑所研究事物

的性质,只从它们的数量关系上分析其数量规律,这时,我们没有理由把某一个变量一定要确定为自变量。但统计方法的运用都针对的是实际问题,对统计关系的定量不能代替我们对事物的理解。为了使统计方法的使用更有效,应该从事物的性质出发,尽量合理地确定自变量和因变量,至少不能对事物因果关系的存在视而不见。当然,这个工作——确定谁是自变量,谁是因变量——需要对该领域有一定程度的了解,从这个意义上说,统计方法要想发挥较大的作用,离不开对分析对象的本质认识;对客观事物的深入分析,也要熟练运用统计方法,以使分析更准确,对规律的表述更清晰。

3、相关系数表示的是变量之间关系的紧密程度,回归分析能反映变量之间的相互影响关系和数量规律性。运用回归模型,可以对现象进行一定的预测,主要包括内插法和外推法,内插法可以推测自变量变化范围以内的因变量结果,外推法可以推测自变量变化范围以外的因变量结果,相对而言,内插法预测的结果会准确一些,而外插法预测的准确程度要低一些,尤其是自变量的取值远离拟合模型时的数据时,准确程度更要降低。

4、对“发现”机制的一种解释。相关与回归方法的运用,有助于发现某些客观机制。我们总是在对大量的事物进行观察,并且时时都渴望着发现某个规律。一个人突然发现,P和Q两个事物间存在着一定的依存关系(如前述牛痘与天花、蜂毒与关节炎),但这离规律还差很远,为了明确、清晰地表述这个规律,他需要一系列的特定观测,并对观测值进行大量的统计分析,形成科学的认识。

这一过程用统计术语来描述,就是:大量观察,获得统计数据—→发现相关性—→寻找特定的数据或设计一个试验以获得必要的数据—→准确描述相关性(建立回归模型)—→对回归模型进行检验—→调整回归模型—→探讨变量之间的内在决定性(这一步工作在统计学领域之外)。

的性质,只从它们的数量关系上分析其数量规律,这时,我们没有理由把某一个变量一定要确定为自变量。但统计方法的运用都针对的是实际问题,对统计关系的定量不能代替我们对事物的理解。为了使统计方法的使用更有效,应该从事物的性质出发,尽量合理地确定自变量和因变量,至少不能对事物因果关系的存在视而不见。当然,这个工作——确定谁是自变量,谁是因变量——需要对该领域有一定程度的了解,从这个意义上说,统计方法要想发挥较大的作用,离不开对分析对象的本质认识;对客观事物的深入分析,也要熟练运用统计方法,以使分析更准确,对规律的表述更清晰。

3、相关系数表示的是变量之间关系的紧密程度,回归分析能反映变量之间的相互影响关系和数量规律性。运用回归模型,可以对现象进行一定的预测,主要包括内插法和外推法,内插法可以推测自变量变化范围以内的因变量结果,外推法可以推测自变量变化范围以外的因变量结果,相对而言,内插法预测的结果会准确一些,而外插法预测的准确程度要低一些,尤其是自变量的取值远离拟合模型时的数据时,准确程度更要降低。

4、对“发现”机制的一种解释。相关与回归方法的运用,有助于发现某些客观机制。我们总是在对大量的事物进行观察,并且时时都渴望着发现某个规律。一个人突然发现,P和Q两个事物间存在着一定的依存关系(如前述牛痘与天花、蜂毒与关节炎),但这离规律还差很远,为了明确、清晰地表述这个规律,他需要一系列的特定观测,并对观测值进行大量的统计分析,形成科学的认识。

这一过程用统计术语来描述,就是:大量观察,获得统计数据—→发现相关性—→寻找特定的数据或设计一个试验以获得必要的数据—→准确描述相关性(建立回归模型)—→对回归模型进行检验—→调整回归模型—→探讨变量之间的内在决定性(这一步工作在统计学领域之外)。

本文来源:https://www.bwwdw.com/article/mp33.html

Top