第七章方差分析

更新时间:2023-10-27 06:55:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第七章 方差分析

方差分析是20世纪20年代发展起来的一种推断统计方法。目前,方差分析广泛应用于经济管理、工程学、心理学和医学等领域。从形式上看,方差分析是通过对数据误差来源的分析来比较多个总体的均值是否相等,本质上它是研究变量之间的关系,即分类型自变量与数值型因变量之间的关系。本章将主要介绍单因素方差分析与双因素方差分析的基本知识。

第一节 方差分析的一般问题

一、方差分析及其有关术语

方差分析表面看来是检验多个总体均值是否相等的统计方法,本质上是研究分类型自变量对数值型因变量的影响,通过对数据误差来源的分析,判断分类型自变量多个水平对应的总体均值是否相等,进而分析自变量对因变量的影响是否显著。下面用一个例子来说明方差分析的有关概念以及方差分析所要解决的问题。

【例7-1】某市场调查公司为了研究品牌对空调销售额的影响,对四个品牌空调的销售情况进行了调查,结果如表7-1。试分析品牌对空调的销售额是否有显著影响。

表7-1 不同品牌空调的销售额数据 单位:万元 观测值 1 2 3 4 5 6 品 牌 品牌A 365 340 350 343 323 400 品牌B 345 330 363 368 340 品牌C 358 300 323 353 300 品牌D 288 290 280 270 280 要分析品牌对销售额是否有显著影响,只需判断4种品牌销售额的均值是否相等。如果它们的均值相等,就意味着不同品牌空调销售额无差异,即“品牌”对“销售额”没有显著影响;如果均值不全相等,则意味着“品牌”对“销售额”有显著影响。我们可以计算出这4种品牌空调的平均销售额分别为353.5万元、349.2万元、326.8万元、281.6万元,但是它们均值的差异还不能提供充分的证据证明不同品牌对销售额的影响是显著的,因为每个品牌的平均销售额是根据随机样本的数值计算的,均值的差异可能是由于抽样随机性造成的。因此,需要有更准确的方法来检验这种差异是否是显著,就需要进行方差分析。

方差分析(analysis of variance, ANOVA)就是借助于对误差来源的分析,检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。方差分析中,所要检验的对象为自变量,也称为因素或因子(factor)。因素的不同表现称为水平或处理(treatment)。每个因素水平下得到的样本数据为观测值。例如,在例7-1中,分析的是“品牌”对“销售额”的影响,这里的“品牌”是分类型自变量(因素或因子);品牌A、品牌B、品牌C、品牌D就是“品牌”这个变量的具体取值,也是“品牌”这一因素的具体表现,称为“水平”或“处理”;每种品牌的具体数据(销售额)称为观测值。这里因素的每一个水平可以看作一个总体,如品牌A、B、C、D可以看作4个总体,上面的观测值是根据从这4个总

1

体中抽取的样本进行调查而获取的数据。“销售额”是因变量,它是一个数值型变量,不同的销售额就是因变量的取值。

二、方差分析的基本思想和原理

方差分析是研究分类型自变量对数值型因变量的影响。如例7-1,怎样判断品牌对销售额是否有显著影响呢?最简单的方法就是直接比较不同品牌空调的平均销售额,如果平均销售额差异不大,就可以认为品牌对销售额影响不显著,反之,认为影响显著。这种差异多大才能认为其影响显著,需要更准确的方法,就是方差分析。虽然我们感兴趣的是各总体的均值是否相等,但判断其均值是否相等,需借助于对数据误差来源的分析,进而分析自变量对对因变量是否有显著影响,这就是方差分析的基本思想。

那么方差分析是怎样对数据误差进行分析的呢?下面结合例7-1进行说明。首先,同一品牌(同一总体)下,各样本观测值是不同的。例如在品牌A中,所得到的6个观测值是不同的,它们之间的差异可以看作是随机因素的影响造成的,或者说是抽样的随机性导致的随机误差。这种来自水平内部的数据误差称为组内误差,它反映了样本内部数据的离散程度。

其次,不同品牌(不同总体)之间的观测值也是不同的,这种差异可能是由于抽样的随机性形成的随机误差,也可能是由于品牌(总体)不同这一因素造成,称为系统误差。来自不同水平之间数据的误差称为组间误差,这种差异是随机误差和系统误差之和,它反映了不同样本之间数据的离散程度。

如果品牌对空调销售额没有影响,那么不同品牌(总体)之间观测值的差异只包含随机误差,而没有系统误差。此时,组间误差与组内误差经过平均化处理后的数值(称为均方)之比应该接近1,反之,如果品牌对空调销售额有影响,在组间误差中除了随机误差外,还包含系统误差,此时组间误差与组内误差经过平均化处理后的数值(称为均方)之比大于1。当这个比值大到某个数值(临界值)时,就认为因素不同水平间的差异是显著的,既是自变量对因变量有显著影响。

三、方差分析的基本假定

方差分析是对数据中误差来源进行分析,构造检验统计量来判断不同总体均值是否有显著差异。进行方差分析时有三个基本假定:

1.观测值是来自于服从正态分布总体的随机样本。例如,例7-1中,每个品牌空调的销售额均服从正态分布,并且观测值来自于简单随机样本。

2.各总体的方差相同。例如,例7-1中,每个品牌销售额数据的方差相同。

3.各总体相互独立。例如,例7-1中,每种品牌的销售额与其他品牌的销售额是独立的。 基于上述基本假定,方差分析对各总体分布是否有显著差异的推断可以转化成对各总体均值是否存在显著差异的推断。比如,判断不同品牌对空调销售额的影响是否显著,实际上就是检验具有同方差的4个同方差正态总体的均值是否相等。

四、方差分析的基本步骤

方差分析的步骤与假设检验一样,包括提出假设、构造检验统计量和统计决策三步。 第一步:提出假设

设因素有k个水平,每个水平的均值分别用u1,u2,...,uk表示,要检验k个水平(总体)的均值是否相等,提出如下假设:

H0:u1?u2???uk 因素对因变量没有显著影响

2

H1:u1,u2,…,uk不全相等 因素对因变量有显著影响

第二步:构造检验统计量F。

第三步:统计决策:将计算的统计量F与查表得到的F?比较,作出决策。

方差分析为右单侧检验。其决策的规则是:如果F>F?,则拒绝原假设假设,接受备择假设。如果F

第二节 单因素方差分析

根据所分析的分类自变量的个数不同,方差分析可分为单因素方差分析与双因素方差分析。方差分析中若只涉及一个分类型自变量,称为单因素方差分析。它研究的是一个分类型自变量对一个数值型因变量的影响。

一、数据结构

要进行单因素方差分析,需要建立如下的数据结构,如表7-2所示。

表7-2 单因素方差分析的数据结构 观察值 (j ) A1 1 2 … n x11 x12 … x1n 因素(A) i A2 x21 x22 … x2n … … … … … Ak xk1 xk2 … xkn 在数据表中,用A表示因素,因素的k个水平(总体)分别用A1,A2,...,Ak表示。观测值为Xij(i?1,2,?,k;j?1,2,?,n),表示因素A第i水平(总体)的第j个观测值。

二、单因素方差分析的步骤

单因素方差分析的步骤包括提出假设、构造检验统计量和统计决策三步。 (一)提出假设

在方差分析中,检验因素对因变量是否有显著影响,可以描述为各因素水平(总体)的均值是否相等。一般来说,检验因素的k个水平(总体)的均值是否相等,进行单因素分析提出假设如下:

H0:u1?u2???uk 因素对因变量没有显著影响 H1:u1,u2,…,uk不全相等 因素对因变量有显著影响

零假设表明所有水平的总体均值是相等的。根据备择假设,只要一个总体均值与其它均值不同,零假设就会被拒绝。

3

(二)构造检验统计量

单因素方差分析是通过对数据误差来源的分解进行的。全部观测值与总平均值的离差平方和称为总误差平方和,可将其分解为两个部分:

(1) 来自水平的平方和(组间误差平方和);

(2) 不能被水平所解释部分的平方和(组内误差平方和)。 其关系如图7-1。

SST 总误差平方和 SSA 组间误差平方和 SSE 组内误差平方和 图7-1 总误差平方和的分解

数学表达式如下:

SST?SSA?SSE (7.1)

公式中: SST????xknii?1j?1Kij?x (7.3)

?2SSA??nixi?x (7.4)

I?1k??SSE???(xij?xi)2 (7.5)

i?1j?1nixij为因素第i个水平中的第j个水平的观测值;

?xxi?j?1niijnikni为因素第i个水平的样本均值;

??xx?i?1j?1ijn??nxii?1kin为所有观测值的总平均值;

ni为因素第i个水平的样本容量。

上面的分析可以看出SSA代表的是各样本均值之间所产生的误差平方和,反映了自变量(因素)对因变量的影响,称为自变量效应或因子效应;SSE为组内平方和,反映了除自变量外其它因素对因变量的影响,也称为残差效应;SST是全部数据误差平方和的度量,

4

反映了自变量和残差变量的共同影响,等于自变量效应与残差效应之和。

单因素方差分析主要比较组间误差平方和与组内误差平方和的相对大小,如果水平间的差异显著,那么组间误差平方和相对于组内误差平方和应该比较大。由于各误差平方和的大小与观测值的个数有关,所以方差分析中,还不能对组间误差平方和与组内误差平方和简单直接比较,需首先消除观测值个数多少对误差平方和的影响,即将各误差平方和分别除以其自由度,计算其均方误差。总均方误差、组间均方误差与组内均方误差分别用MST、MSA和MSE表示,自由度分别为n?1、k?1和n?k,计算公式分别为:

SST (7.6) n?1SSAMSA? (7.7)

k?1SSEMSE? (7.8)

n?k将MSA和MSE对比,得到单因素方差分析的检验统计量F,即:

MSAF?~F?k?1,n?k? (7.9)

MSEMST?(三)统计决策

方差分析为右单侧检验。其决策的规则是:如果F>F?,则拒绝零假设,接受备择假设,表明不同水平(总体)之间的差异显著,即因素对因变量有显著影响。如果F

方差分析的F分布形式及拒绝域如图7-2所示。

不能拒绝H0 拒绝域 ??F

F?(k-1,n-k)

图7-2 F分布形式和拒绝域

【例7-2】根据例7-1中的数据,分析品牌对空调销售额是否有显著影响(??0.05)。

解:首先提出假设:

H0:u1?u2???u4 品牌对空调销售额没有显著影响 H1:u1,u2,…,u4不全相等 品牌对空调销售额有显著影响

计算检验统计量:

由于方差分析的手工计算十分繁琐,现用Excel计算方差分析的统计量,其计算步骤如下:

5

本文来源:https://www.bwwdw.com/article/prn2.html

Top