方差分析法 - ANOVA - 7

更新时间:2023-09-29 20:02:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

统计学 第七章 方差分析

目 录

第七章 方差分析 __________________________________________________________________________ 2

第一节 方差分析概述 ____________________________________________________________________ 3 一、方差分析中的常用术语 _____________________________________________________________ 3 二、方差分析的基本思想 _______________________________________________________________ 4 三、方差分析的基本假定 _______________________________________________________________ 4 第二节 单因素方差分析 __________________________________________________________________ 4 一、单因素方差分析的数据结构 _________________________________________________________ 4 二、单因素方差分析的步骤 _____________________________________________________________ 5 二、方差分析中的多重比较 _____________________________________________________________ 8 第三节 双因素方差分析 __________________________________________________________________ 9 一、双因素方差分析的种类 _____________________________________________________________ 9 二、无交互作用的双因素方差分析 _______________________________________________________ 9 三、有交互作用的双因素方差分析 ______________________________________________________ 13 英文摘要与关键词 ______________________________________________________________________ 17 习 题 ________________________________________________________________________________ 17

第1页

统计学 第七章 方差分析

第七章 方差分析

通过本章的学习,我们应该知道:

1. 方差分析的基本思想与假定 2. 如何做单因素方差分析 3. 如何做双因素方差分析

4. 会用Excel中有关方差分析的功能

第2页

统计学 第七章 方差分析

在第六章中我们讨论了如何对一个总体及两个总体的均值进行检验,如我们要确定两种销售方式的效果是否相同,可以对零假设H0:?1??2检验。但有时销售方式有很多种,如表7.1中列出了四种,这就是多个总体均值是否相等的假设检验问题了,所采用的方法是方差分析。

【例7.1】某公司采用四种方式推销其产品。为检验不同方式推销产品的效果,随机抽样得下表:

表7.1 某公司产品销售方式所对应的销售量 序号 销售方式 方式一 方式二 方式三 方式四 1 77 95 71 80 2 86 92 76 84 总均值 进行多次检验,但这显然工作效率低。

方差分析(Analysis of Variance, ANOVA),是20世纪20年代由英国统计学家费雪(Ronald Aylmer Fisher)首先提出的,最初主要应用于生物和农业田间试验,以后推广到各个领域应用。它是直接对多个总体的均值是否相等进行检验,这样不但可以减少工作量,而且可以增加检验的稳定性。

3 81 78 68 79 4 88 96 81 70 5 83 89 74 82 水平均值 83 90 74 79 81.5 例7.1中要研究的问题是这四个销售量的均值之间是否有显著差异,当然我们可以采用第六章的方法

第一节 方差分析概述

一、方差分析中的常用术语

1. 因素(Factor)

因素是指所要研究的变量,它可能对因变量产生影响。在例7.1中,要分析不同销售方式对销售量是否有影响,所以,销售量是因变量,而销售方式是可能影响销售量的因素。

如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素方差分析。本章介绍单因素方差分析和双因素方差,它们是方差分析中最常用的。

2. 水平(Level)

水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。有时水平是人为划分的,比如质量被评定为好、中、差。

3. 单元(Cell)

单元指因素水平之间的组合。如销售方式一下有五种不同的销售业绩,就是五个单元。方差分析要求的方差齐性就是指的各个单元间的方差齐性。

4. 元素(Element)

元素指用于测量因变量的最小单位。一个单元里可以只有一个元素,也可以有多个元素。例7.1中各单元中只有一个元素。

5. 均衡(Balance)

如果一个试验设计中任一因素各水平在所有单元格中出现的次数相同,且每个单元格内的元素数相同,则称该试验是为均衡,否则,就被称为不均衡。不均衡试验中获得的数据在分析时较为复杂。例7.1是均衡的。

6. 交互作用(Interaction)

如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须在另一个因素的不同水平下研究该因素的作用大小。如果所有单元格内都至多只有一个元素,则交互作用无法测出。

第3页

统计学 第七章 方差分析

二、方差分析的基本思想

要看不同推销方式的效果,其实就归结为一个检验问题,设?i为第i种推销方式i(i=1,2,3,4)的平均销售量,即检验原假设H0:?1??2??3??4是否为真。从数值上观察,四个均值都不相等,方式二的销售量明显较大。然而,我们并不能简单地根据这种第一印象来否定原假设,而应该分析?1、?2、?3、

?4之间差异的原因。

从表7.1可以看到,20个数据各不相同,这种差异可能由两方面的原因引起的:一是推销方式的影响,不同的方式会使人们产生不同消费冲动和购买欲望,从而产生不同的购买行动;这种由不同水平造成的差异,我们称为系统性差异;另一是随机因素的影响,同一种推销方式在不同的工作日销量也会不同,因为

来商店的人群数量不一,经济收入不一,当班服务员态度不一,这种由随机因素造成的差异,我们称为随机性差异。两个方面产生的差异用两个方差来计量:一是?1、?2、?3、?4之间的总体差异,即水平之间的方差,一是水平内部的方差。前者既包括系统性差异,也包括随机性差异;后者仅包括随机性差异。如果不同的水平对结果没有影响,如推销方式对销售量不产生影响,那么在水平之间的方差中,也就仅仅有随机性差异,而没有系统性差异,它与水平内部方差就应该接近,两个方差的比值就会接近于1;反之,如果不同的水平对结果产生影响,在水平之间的方差中就不仅包括了随机性差异,也包括了系统性差异。这时,该方差就会大于水平内方差,两个方差的比值就会比1大,当这个比值大到某个程度时,即达到某临界点,我们就作出判断,不同的水平之间存在着显著性差异。因此,方差分析就是通过对水平之间的方差和水平内部的方差的比较,做出拒绝还是不能拒绝原假设的判断。

三、方差分析的基本假定

在方差分析中通常要有以下假定:首先是各样本的独立性,即各组观察数据,是从相互独立的总体中抽取的,只有是独立的随机样本,才能保证变异的可加性;其次要求所有观察值都是从正态总体中抽取,且方差相等。在实际应用中能够严格满足这些假定条件的客观现象是很少的,在社会经济现象中更是如此。但一般应近似地符合上述要求。

在上述假设条件成立的情况下,数理统计证明,水平之间的方差(也称为组间方差)与水平内部的方差(也称组内方差)之间的比值是一个服从F分布的统计量,我们可以通过对这个统计量的检验做出拒绝或不能拒绝原假设的决策。

F = 水平间方差 / 水平内方差 = 组间方差 / 组内方差

第二节 单因素方差分析

一、单因素方差分析的数据结构

在单因素方差分析中,若因素A共有r个水平,对均衡试验而言,每个水平的样本容量为k,则共有kr个观察值,如表7.2所示。对不均衡试验,各水平中的样本容量可以是不同的,设第i个样本的容量是ni,

r则观测值的总个数为n??ni?1i。

表7.2 单因素方差分析的数据结构 观测值j 水平i 水平1 因 素 A

水平2 ┋ 水平r 1 x11 x21 2 x12 x22 ?? ?? ?? ┋ ?? k x1k x2k ┋ xr1 ┋ xr2 ┋ xrk 第4页

统计学 第七章 方差分析

二、单因素方差分析的步骤

(一)单因素方差模型与建立假设

方差分析最初是针对试验设计的试验结果的分析而提出的。设在某试验中,因素A有r个水平A1,?,Ar,在水平Ai下的试验结果Xi服从N(?i,?),i?1,?,r,这里X1,?,Xr相互独立。在水平

Ai下做了ni次试验,得到ni个观测结果xij,j?1,?,ni,它们可以看作是来自Xi的一个容量为ni的样

2本。因为xij~N(?i,?2),所以可得单因素方差分析模型如下:

xij??i??ij (7.1) 其中随机误差?ij相互独立,都服从N(0,?2)分布。要检验的假设是

H0:?1??2????r,H1:?1,?2,?,?r不全相等。

i以?表示这r个总体均值的平均值,即??1r??ri?1称为一般水平或平均水平,令?i??i??称为因素Ar的第i个水平的效应,由第四章算术平均数的性质易得??i?0。把原参数?i变换成新参数?i后,

i?1i?1,?,r,单因素方差分析模型则变为:

xij????i??ij (7.2)

其中xij表示水平Ai的第j个观察值。上述要检验的假设则等价于

H0:?1??2????r?0,H1:?1,?2,?,?r不全为0。

对于例7.1要比较四种推销方式对应的销售量是否存在差异,那么第一种推销方式中的某个观察值就等于该种方式的平均水平再加上一个随机误差。如果四种方式总体均值都相同,则它就等于总体均值再加上一个随机误差,实际上就变成了同一个变量分布中的某一点。所以原假设和备择假设是:

H0:?1??2??3??4,即推销方式对销售量影响不显著; H1:?1,?2,?3,?4不全等,即推销方式对销售量有显著影响。

(二)构造检验F统计量

1. 水平的均值

?我们令xi为第i(或Ai)水平的样本均值,则

?xi??1nikni?xj?1ij (7.3)

当各水平的的观察值个数均相等的时候,公式(7.3)变为:

?xi??1k?j?1xij (7.4)

2. 全部观察值的总均值 我们令x为全部观察值的总均值,则 rniij??xx?i?1rj?1 i (7.5)

?ni?1rk当各水平的的观察值个数均相等的时候,公式(7.5)变为:

??x?i?1j?1rxij??xi?1?i?rkr (7.6)

对例7.1而言,各nj都相等,即k=5。计算结果见表7.1。 3. 离差平方和

在单因素方差分析中,离差平方和有三个:

第5页

统计学 第七章 方差分析

(1)总离差平方和(Sum of Squares for Total,简称SST),计算公式为:

rniijSST???(xi?1j?1?x)

2 (7.7)

总离差平方和反映全部观察值的离散状况,是全部观察值与总平均值的离差平方和。 (2)误差项离差平方和(Sum of Squares for Error,简称SSE),计算公式为:

rniSSE???i?1j?1?(xij?xi)

2 (7.8)

误差项离差平方和又称为组内离差平方和,它反映了水平内部观察值的离散情况,即随机因素产生的影响。

(3)水平项离差平方和(Sum of Squares for Factor A,简称SSA)。计算公式为:

rSSA??ni?1?i(xi??x) (7.9)

2水平项离差平方和又称组间离差平方和,是各组平均值与总平均值的离差平方和。它既包括随机误差,也包括系统误差。

由于各样本的独立性,使得变差具有可分解性,即总离差平方和等于误差项离差平方和加上水平项离差平方和,用公式表达为:

SST = SSE + SSA (7.10)

对例7.1而言,计算结果见表7.3。

表7.3 单因素方差分析计算表(1) 序号 方式一 方式二 方式三 方式四 1 2 3 4 5 水平均值 总离差平方 误差项离差平方 水平项离差平方 77 86 81 88 83 83 95 92 78 96 89 90 71 76 68 81 74 74 80 84 79 70 82 79 总均值 81.5 合计 1183 498 685 85.25 74 11.25 571.25 210 361.25 379.25 98 281.25 147.25 116 31.25

4. 均方和(Mean Square)

各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需要将其

r平均,这就是均方和。计算方法是用离差平方和除以相应的自由度df,见表7.4所示,表中n?

表7.4 方差分析表 df 均方和MS r-1 MSA = SSA /(r-1) n-r MSE = SSE /(n-r) n-1 ?ni?1i。

方差来源 离差平方和SS SSA 组间 SSE 组内 SST 总方差 F MSA/MSE 学生:什么叫“自由度”? 教师:自由度,英文是Degrees of Freedom,简称df,我们可能把它理解为一个表达式中可以自由变动的变量个数。举个例子,如:a+b+c=0中,如果a、b自由取值,要使约束条件成立,c就不能自由取值,它必须满足c=-(b+c),所以a+b+c=0的自由度为2。 我们再看SSE,对每一种水平而言,其观察值个数为nj,在其计算过程中,必须满足第6页

统计学 第七章 方差分析 r?(xj?1?j?x)?0这样一个条件,故该种水平下的自由度为nj?1,总共有r个水平,因此拥r有的自由度个数为?(nj?1)?n?r。 j?1 5. 构造检验统计量F

F= 组间方差 / 组内方差= MSA / MSE (7.11)

对例7.1而言,计算结果见表7.5。

表7.5 单因素方差分析计算表(2) df F 方差来源 离差平方和SS 均方和MS 685 3 228.3333 7.3360 组间 498 16 31.125 组内 1183 19 总方差

(三)判断与结论

在假设条件成立时,F统计量服从第一自由度df1为r?1、第二自由度df2为n?r的 F分布(F分布表见附表五)。将统计量F与给定的显著性水平α的临界值F?(r?1,n?r)比较,可以作出拒绝或不能拒绝原假设H0的判断,见图7.1。

图7.1 F检验示意图

若F≥F?,则拒绝原假设H0,表明均值之间的差异显著,因素A对观察值有显著影响; 若FF?,故应拒绝原假设,推销方式对销售量有影响。

教师:方差分析的计算比较烦,特别是在不均衡的情况下,不过如果我们学会用Excel中的方差分析功能,就可以轻而易举地得到方差分析表。

① 将数据输入工作表中 ② 选择菜单“工具”—“数据分析”,打开“数据分析”对话框 ③ 选择其中的“方差分析:单因素方差分析”,打开对话框,见图7.2 ④ 正确填写相关信息后,点“确定”,结果在H1到N16这个区域内显示,见图Excel解决方案 7.3 第7页

统计学 第七章 方差分析

输入时若选行标题,则选择 根据数据的情况选择行或列 填入显著性水平

图7.2 “方差分析:单因素方差分析”分析工具对话框

图7.3 “方差分析:单因素方差分析”结果截图

学生:哦!这好,可以有两个判断方法。一是用F与F crit比较,F≥F crit,则拒绝原假设;二是用P-value与α比较,如果P-value≤α,则拒绝原假设。异曲同工 !

二、方差分析中的多重比较

方差分析可以对多个均值是否相等进行检验,这是其长处。当拒绝H0时,表示各均值不全等,但具体哪一个或哪几个均值与其他均值显著不同,或者哪几个均值仍然可能认为是相等的,方差分析就不能给我们答案了,如果要进一步分析,可以采用多重比较的方法。

多重比较是通过对总体均值之间的两两比较来进一步检验到底哪些均值之间存在差异,总共要作Cr次比较。

多重比较方法有十几种,但以Fisher提出的最小显著差异方法(least significant difference,简写为LSD)使用最多,该方法可用于判断到底哪些均值之间有差异。

LSD方法是对检验两个总体均值是否相等的t检验方法,它来源于我们第六章公式:

t?spx?y1n1?1n22

多重比较的步骤: 1. 提出假设

H0:?i??j (第i个总体的均值等于第j个总体的均值)

H1:?i??j (第i个总体的均值不等于第j个总体的均值)

第8页

统计学 第七章 方差分析

2. 计算检验统计量:

公式(6.4)中的sp是根据两个总体的样本资料计算的,对这里的多个总体进行比较时需要用MSE。于是统计量改造为:

t?xi??xj??11???MSE???nnj??i? (7.12)

当?i??j时,t服从t?n?r?。因此,采用t检验。

3. 判断: 若t?t?/2,拒绝H0;若t?t?/2|,不能拒绝H0。

对例7.1而言,若假定α为0.05,查表得t0.025(16)?2.12,其他计算借助Excel工作表,结果见图7.4。

图7.4 多重比较结果截图

第三节 双因素方差分析

一、双因素方差分析的种类

在现实中,常常会遇到两个因素同时影响结果的情况。这就需要检验究竟一个因素起作用,还是两个因素都起作用,或者两个因素的影响都不显著。

双因素方差分析有两种类型:一种是无交互作用的双因素方差分析,它假定因素A和因素B的效应之间是相互独立的,不存在相互关系;另一种是有交互作用的方差分析,它假定A、B两个因素不是独立的,而是相互起作用的,两个因素同时起作用的结果不是两个因素分别作用的简单相加,两者的结合会产生一个新的效应。这种效应的最典型的例子是,耕地深度和施肥量都会影响产量,但同时深耕和适当的施肥可能使产量成倍增加,这时,耕地深度和施肥量就存在交互作用。两个因素结合后就会产生出一个新的效应,属于有交互作用的方差分析问题。

二、无交互作用的双因素方差分析

(一)数据结构

设两个因素分别是A和B。因素A共有r个水平,因素B共有s个水平,无交互作用的双因素方差分析的数据结构如表7.6所示。

第9页

统计学 第七章 方差分析

表7.6 无交互作用双因素方差分析的数据结构 j i B1 A1 因 素 B B2 x12 ? ? ? ┋ ? ? Bs x1s x2s 均值 x1? x2? x11 x21 因 素 A A2 x22 ┋ Ar ┋ xr1 ┋ xr2 x?2 ┋ xrs ┋ xr? 均值

(二)分析步骤 1. 模型与假设

x?1 x?s 在水平(Ai,Bj)下的试验结果Xij服从N(?ij,?2),i?1,?,r,j?1,?,s,这些试验结果相互独立。 与单因素方差分析模型相类似,令????j?1rij???rsi?1j?11rsij?i??称为一般水平或平均水平,

1sij??sj?1,i?1,?,r,

??ri?1,j?1,?,s,?i??i???称为因素A在第i个水平下的效应,?rsj???j??称为因素B在第j个水平下的效应,显然有??i?0,??i?0。若?ij????i??j,则称这种方差分析模型为

i?1j?1无交互作用的双方差分析模型,此时只需对(Ai,Bj)的每种组合各做一次试验,观测值记为xij。把原参数?ij变换成新参数?i和?j后,无交互作用的双因素方差分析模型则为

?xij????i??j??ij,i?1,?,r,?rs????i?0,??i?0j?1?i?12j?1,?,s (7.13)

其中随机误差?ij相互独立,都服从N(0,?)分布。对这个模型要检验的假设有两个:

对因素A:H01:?1???2??......??r?;H11:?1?,?2?,......,?r?不全相等 对因素B:H02:??1???2?......???s;H12:??1,??2,......,??s不全相等

我们检验因素A是否起作用实际上就是检验各个ai是否均为0,如都为0,则因素A所对应的各组总体均数都相等,即因素A的作用不显著;对因素B,也是这样。因此上述假设等价于

对因素A:H01:?1??2????r?0,H11:?1,?2,?,?r不全为0

对因素B:H02:?1??2????s?0,2. 构造检验统计量 (1)水平的均值

xi??1ssH12:?1,?2,?,?s不全为0。

?xj?1ij (7.14)

第10页

统计学 第七章 方差分析 x?j?1rijx?ri?1 (7.15) (2)总均值 x?x??rsi?1j?11rsij?1ri?x?ri?1?1s?jx?sj?1 (7.16)

(3)离差平方和的分解 双因素方差分析同样要对总离差平方和SST进行分解,SST分解为三部分:SSA、SSB和SSE,以分别反映因素A的组间差异、因素B的组间差异和随机误差(即组内差异)的离散状况。

它们的计算公式分别为:

rsijSST???(xi?1j?1?x) (7.17)

22rSSA??s(xi?1i??x) (7.18)

sSSB??r(xj?1?j?x) (7.19)

2SSE ? SST-SSA-SSB (7.20)

(4)构造检验统计量

由离差平方和与自由度可以计算出均方和,从而计算出F检验值,如表7.7

表7.7 无交互作用的双方差分析表 df F 方差来源 离差平方和SS 均方和MS

SSA r-1 MSA = SSA /(r-1) MSA/MSE 因素A

SSB s-1 MSB = SSB /(s-1) MSB/MSE 因素B

SSE (r-1)(s-1) MSE= SSE /(r-1)(s-1) 误差

SST rs-1 总方差

为检验因素A的影响是否显著,采用下面的统计量: MSAFA?~F(r?1,(r?1)(s?1)) (7.21)

MSE为检验因素B的影响是否显著,采用下面的统计量: MSBFB?~F(s?1,(r?1)(s?1)) (7.22)

MSE3. 判断与结论

根据给定的显著性水平α在F分布表中查找相应的临界值F?,将统计量F与F?进行比较,作出拒绝

或不能拒绝原假设H0的决策。

若FA≥F?(r?1,(r?1)(s?1)),则拒绝原假设H01,表明均值之间有显著差异,即因素A对观察值有显著影响;

若FA

若FB≥F?(s?1,(r?1)(s?1)),则拒绝原假设H02,表明均值之间有显著差异,即因素B对观察值有显著影响。

若FB

(三)实例

【例7.2】某公司想知道产品销售量与销售方式及销售地点是否有关,随机抽样得表7.8资料,以0.05

第11页

统计学 第七章 方差分析

的显著性水平进行检验。

表7.8 某公司产品销售方式及销售地点所对应的销售量 地点一 地点二 地点三 地点四 方式一 方式二 方式三 方式四 地点五 83 89 74 82 77 95 71 80 86 92 76 84 81 78 68 79 88 96 81 70 【解】我们可以按上述的步骤,完成检验,但计算工作量很大。这里我们利用Excel的分析工具。

首先针对问题,作原假设和备择假设:

对因素A:H01:?1???2??......??4?;H11:?1?,?2?,......,?4?不全等 对因素B:H02:??1???2?......???5;H12:??1,??2,......,??5不全等

① 将数据输入工作表中 ② 选择菜单“工具”—“数据分析”,打开“数据分析”对话框。 ④ 正确填写相关信息后,点“确定”,结果在I1到O22这个区域内显示,见图7.6 Excel解决方案 ③ 选择其中的“方差分析:无重复双因素方差分析”,打开对话框,见图7.5 图7.5 “方差分析:无重复双因素方差分析”分析工具对话框

图7.6 “方差分析:无重复双因素方差分析”结果截图

结论: ∵FA > F?,∴拒绝原假设H01,即销售方式对销售量有影响;

∵FB < F?,∴不能拒绝原假设H02,即销售地点对销售量的影响不显著。

第12页

统计学 第七章 方差分析

三、有交互作用的双因素方差分析

(一)数据结构

设两个因素分别是A和B,因素A共有r个水平,因素B共有s个水平,在水平组合(Ai,Bj)下的试验结果Xij服从N(?ij,?2),i?1,?,r,j?1,?,s,假设这些试验结果相互独立。为对两个因素的交互作用进行分析,每个水平组合下至少要进行两次试验,不妨假设在每个水平组合(Ai,Bj)下重复t次试验,每次试验的观测值用xijk,k?1,?t,表示,那么有交互作用的双因素方差分析的数据结构如表7.9所示。

表7.9 有交互作用双因素方差分析的数据结构 j i B1 A1 因 素 B ? ? ? ┋ ? ? Bs x1s1,x1s2,…,x1st 均值 ?x111,x112,…,x11t x1? ?因 素 A A2 x211,x212,…,x21t x2s1,x2s2,…,x2st x2? ┋ Ar ┋ xr11,xr12,…,xr1t ?┋ xrs1,xrs2,…,xrst ?┋ ?xr? 均值

(二)分析步骤 1. 模型与假设

x?1 x?s 与无交互作用双因素方差分析模型一样,令???i??1sij???rsi?1j?11rsij称为一般水平或平均水平,

??sj?1,i?1,?,r,??j?1rij??ri?1,j?1,?,s,?i??i???称为因素A在第i个水平下的效

rs?j???j??称为因素B在第j个水平下的效应,应,显然有??i?0,若?ij????i??j,??i?0。

i?1j?1j则称这种方差分析模型为有交互作用的双方差分析模型,再令因素B的第j水平的交互效应,满足

?r???ij?0,?i?1?s???0,?ij??j?1?ij??ij??i??称为因素A的第i水平与

j?1,?,s,

i?1,?,r把原参数?ij变换成新参数?i、?j和?ij后,有交互作用的双因素方差分析模型为

第13页

统计学 第七章 方差分析

??x????i??j??ij??ijk?ijkrs?? (7.23) ???i?0,??i?0j?1?i?1s?r???ij?0,??ij?0?j?1?i?1这里i?1,?,r,j?1,?,s,k?1,?,t,随机误差?ijk相互独立,都服从N(0,?2)分布。与前面的分析思路相同,我们检验因素A、因素B以及两者的交互效应是否起作用实际上就是检验各个?i、?j以及?ij是否都为0,故对此模型要检验的假设有有三个:

对因素A:H01:?1??2????r?0 ;H11:?1,?2,?,?r不全为零

对因素B:H02:?1??2????s?0 ;H12:?1,?2,?,?r不全为零

对因素A和B的交互效应:H03:对一切i,j有?ij?0;H13:对一切i,j,?ij不全为零

2. 构造检验统计量 (1)水平的均值

xij??1tijkx?tk?1 (7.24)

xi???1st1rtrstijk??xj?1k?1rt (7.25)

x?j????xi?1k?1ijk (7.26)

(2)总均值

x?1rststijk???xi?1j?1k?1?1ri??x?ri?1?1s?j?x?sj?1 (7.27)

(3)离差平方和的分解 与无交互作用的双因素方差分析不同,总离差平方和SST将被分解为四个部分:SSA、SSB、SSAB和SSE,以分别反映因素A的组间差异、因素B的组间差异、因素AB的交互效应和随机误差的离散状况。

它们的计算公式分别为: rstijkSST?SSA????(xi?1r?x) (7.28)

22j?1k?1?st(xi?1i???x) (7.29)

sSSB??rt(xj?1rsi?1r?j??x) (7.30) ?xi???x?j??x) (7.31) ?xij?) (7.32)

22SSAB?SSE???t(xj?1sti?1j?1k?12ij????(xijk

(4)构造检验统计量

由离差平方和与自由度可以计算出均方和,从而计算出F检验值,如表7.10。

第14页

统计学 第七章 方差分析

方差来源 因素A 因素B 因素A×B 误差 总方差 表7.10 有交互作用的双方差分析表 df 离差平方和SS 均方和MS SSA r-1 MSA = SSA /(r-1) SSB s-1 MSB = SSB /(s-1) SSAB (r-1)(s-1) MSAB=SSAB/(r-1)(s-1) SSE rs(t-1) MSE= SSE / rs(t-1) SST rst-1 F MSA/MSE MSB/MSE MSAB/MSE 为检验因素A的影响是否显著,采用下面的统计量:

FA?MSAMSEMSBMSEMSABMSE~F(r?1,rs(t?1)) (7.33)

为检验因素B的影响是否显著,采用下面的统计量:

FB?~F(s?1,rs(t?1)) (7.34)

为检验因素A、B交互效应的影响是否显著,采用下面的统计量:

FAB?~F((r?1)(s?1),rs(t?1)) (7.44)

3. 判断与结论

根据给定的显著性水平α在F分布表中查找相应的临界值F?,将统计量F与F?进行比较,作出拒绝或不能拒绝原假设H0的决策。

若FA≥F?(r?1,rs(t?1)),则拒绝原假设H01,表明因素A对观察值有显著影响,否则,不能拒绝原假设H01;

若FB≥F?(s?1,rs(t?1)),则拒绝原假设H02,表明因素B对观察值有显著影响,否则,不能拒绝原假设H02;

若FAB≥F?((r?1)(s?1),rs(t?1)),则拒绝原假设H03,表明因素A、B的交互效应对观察值有显著影响,否则,不能拒绝原假设H03。

(三)实例

【例7.3】电池的板极材料与使用的环境温度对电池的输出电压均有影响。今材料类型与环境温度都取了三个水平,测得输出电压数据如表7.11,问不同材料、不同温度及它们的交互作用对输出电压有无显著影响(α=0.05)。

表7.11 材料与环境温度的输出电压影响的测试表 环境温度 材料类型 15℃ 25℃ 35℃ 1 2 3 130 174 155 180 34 40 80 75 136 122 106 115 174 120 150 139 20 70 82 58 25 70 58 45 96 104 82 60 150 188 159 126 138 110 168 160 【解】我们利用Excel的分析工具。 首先针对问题,作原假设和备择假设:

对因素A:H01:?i?0; H11:?i不全为零 (i,j?1,2,3); 对因素B:H02:?

第15页

j?0;H12:?j不全为零 (i,j?1,2,3);

对因素A和B的交互效应:H03:?ij?0; H13:?ij不全为零 (i,j?1,2,3)。

统计学 第七章 方差分析

① 将数据输入工作表中 ② 选择菜单“工具”—“数据分析”,打开“数据分析”对话框 ③ 选择其中的“方差分析:无重复双因素方差分析”,打开对话框,见图7.7 ④ 正确填写相关信息后,点“确定”,结果在F1到L36这个区域内显示,见图7.8 Excel解决方案

图7.7 “方差分析:可重复双因素方差分析” 分析工具对话框

图7.8 “方差分析:可重复双因素方差分析”结果截图

结论: ∵FA=6.73,F?=3.35,FA>F? 或 P-value=0.0043<0.05

∴拒绝原假设H01,即材料对输出电压的影响显著; ∵FB=47.25,F?=3.35,FB>F? 或 P-value=0.0000<0.05 ∴拒绝原假设H02,即环境温度对输出电压的影响显著; ∵FAB=6.55,F?=2.72,FAB>F? 或 P-value=0.0008<0.05 ∴拒绝原假设

H03

,即材料与温度的交互对输出电压的影响显著。

第16页

统计学 第七章 方差分析

英文摘要与关键词

When the numerical measurements across three or more groups are continuous and certain assumptions are met, a methodology known as analysis of variance (ANOVA) may be employed to compare the means of the groups. The null hypothesis is not different in the population means. In a sense, the term ANOVA appears to be misnomer because the objective is to analyze differences among the group means. However, through an analysis of the variation in the data, both among and within variations, we are able to draw conclusions about possible differences in group means. “Within group” variation is considered an experimental error, while “among group” variation is attributable to treatment effects.

To perform an ANOVA test of equality of population means we subdivide the total variation in the measurements into two parts, that which is attributable to differences among the groups and that which is due to inherent variation within the groups. The total variation is usually represented by the sum of squares total (SST). The among-group variation usually called the sum of squares among groups (SSA), is measured by the sum of squared differences between the sample mean of each group and the overall mean, and then weighted by the sample size in each group. The within-group variation, usually called the sum of squares within groups, measures the difference between each observation and the mean of its own group and cumulates the squares of these differences over all groups. This variation only includes random error, so it called SSE for short.

If each of these sums of squares is divided by its associated degrees of freedom, we obtain three variance or mean square terms: MST, MSA and MSE. We compute the test statistic F as the ratio of the variance of MSA to MSE.

The results of an analysis of variance are usually displayed in an ANOVA summary table. Excel and many statistical software packages can give us that table. The entries in this table include the sources of variation, the degrees of freedom, the sums of squares, the mean squares, the calculated F statistic and the p-value. This allows us to make direct conclusions about the null hypothesis without referring to a table of critical values of the F distribution. If the p-value is less than the chosen level of significance, the null hypothesis is rejected.

We can also consider an experimental design model in which two factors are of interest as well as the effects of their interaction. Owing to the complexity of the calculations involved, particularly because the number of levels of each factor increases and the number of replications in each cell increases, we assume that in practice, Excel will be used when analyzing data obtained from factorial design models.

Key Words: Analysis of Variance (ANOVA), the sum of squares total, the among-group variation, the within-group variation, F statistic, two-way ANOVA, interaction effects

第17页

统计学 第七章 方差分析

习 题

一、单项选择题

1.某饮料生产企业研制了一种新型饮料,饮料有五种颜色。如果要考察颜色是否会影响销售量,则水平为( )。

A.2 B.3 C.4 D.5

2.下列指标中包含有系统性误差的是( )。

?A.SSA B.SSE C. D.x

3.SST的自由度是( )。

A.r-1 B.n-r C.r-n D.n-1

4.单因素方差分析的备择假设应该是( )。

???2??3?......??r?,?,?,......,?rA.1 B.123不全相等 ?,?,?,......,?r???2??3?......??rC.123全不相等 D. 1

5.如果要拒绝原假设,则下列式子( )必须成立。

xj?A.

F?F? B.P-value<α C.F=1 D.P-value>α

6.对双因素方差分析(无交互作用),下列命题哪个是错的( )。

A.SST=SSA+SSB+SSE B.SSB的自由度是s-1 C.F临界值只有一个 D.必须对两个因素分别决策

7.如果要比较3种化肥(A、B两种新型化肥和传统化肥)施撒在三种类型(酸性、中性和碱性)的土地上对作物的产量情况有无差别,则往往考虑用( )方法。 A.单因素方差分析 B.三因素方差分析

C.无交互作用的双因素方差分析 D.有交互作用的双因素方差分析

二、多单项选择题

1.运用方差分析的前提条件是( )( )( )( )( )。

A.样本来自正态总体 B.各总体的均值相等 C.各总体的方差相等 D.各总体相互独立 E.样本必须是随机的

2.下列指标中包含有随机性误差的是( )( )( )( )( )。 A.SSA B.SSE C.SST D.MSA E.MSE

3. 用LSD方法进行多重比较,若t?/2(n?r)MSE(间没有显著差别( )( )( )( )( )。

??????????1ni?1nj)=2.5,则下列各式中哪些说明比较总体

A.x1?x4?3.2 B.x2?x4?5.7 C.x2?x5?2.3 D.x1?x3?1.8 E.x3?x5?4.1

4.对无交互作用的双因素方差分析表,下列命题哪个是对的( )( )( )( )( )。 A.SST=SSA+SSB+SSE B.SSB的自由度是n-1 C.可以计算三个F值 D.SST的自由度是n-1 E.F临界值可能是一个,也可能是两个

第18页

统计学 第七章 方差分析

三、计算题

1.将24家生产产品大致相同的企业,按资金分为三类,每个公司的每100元销售收入的生产成本(单位:元)如下表。这些数据能否说明三类公司的市场生产成本有差异?(假定生产成本服从正态分布,且方差相同。α=0.05) 20-30 69 72 70 76 72 72 66 72 30-50 75 76 72 70 80 68 80 74 50以上 77 80 75 86 74 86 80 83

2.某SARS研究所对31名自愿者进行某项生理指标测试,结果如下表。这三类人的该项生理指标有差别吗?如果有差别,请进行多重比较分析。(假定该生理指标服从正态分布,且方差相同。α=0.05)

SARS患者 疑似者 非患者

3.为了解三种不同配比的饲料对仔猪影响的差异,对三种不同品种的猪各选三头进行试验,分别测得其三个月间体重增加量如下表所示。试分析不同饲料与不同品种对猪的生长有无显著差异。(假定其体重增加量服从正态分布,且方差相同。α=0.05) 体重增量 因 素 A A1 1.8 1.4 1.5 2.1 1.9 1.7 1.8 1.9 1.8 1.8 2.0 2.3 2.1 2.1 2.1 2.6 2.5 2.3 2.4 2.4 2.9 3.2 2.7 2.8 2.7 3.0 3.4 3.0 3.4 3.3 3.5 因 素 B B1 B2 B3 30 31 27 31 36 29 32 32 28 A2 A3

4.比较3种化肥(A、B两种新型化肥和传统化肥)施撒在三种类型(酸性、中性和碱性)的土地上对作物的产量情况有无差别,将每块土地分成6块小区,施用A、B两种新型化肥和传统化肥。收割后,测量各组作物的产量,得到的数据如下表。化肥、土地类型及其它们的交互作用对作物产量有影响吗?(假定作物产量服从正态分布,且方差相同。α=0.05) 化肥 种类 A B 土 地 中性 31, 32 36, 35 29,27 酸性 30, 35 31, 32 27, 25 碱性 32, 30 32, 30 28, 25 传统

第19页

本文来源:https://www.bwwdw.com/article/3ghd.html

Top