第九章(一)方差分析

更新时间:2023-05-24 19:19:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第九章(一)方差分析 (二)回归分析 (三)协方差分析数理统计

(一)方差分析第一节 方差分析的基本问题

一、方差分析的内容在科学实验和生产实践中,影响一事物的因素 很多,每一个因素的改变都有可能影响产品的数 量和质量,有些影响较大,有些影响较小,怎么 找出对产品有显著影响的因素?我们需要进行试 验测量。将所有测量值间的总差异按照其差异的 来源分解为多个部份,然后进行比较,评价由某 种因素所引起的差异是否具有统计学意义。

对多个总体均值是否相等进行检验数理统计

例 9.1

某饮料生产企业研制出一种新型饮料。饮料的

颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。这 四种饮料的营养含量、味道、价格、包装等可能影响销售量 的因素全部相同。现从地理位置相似、经营规模相仿的五家 超级市场上收集了前一期该种饮料的销售量情况。见表9-1。

问饮料的颜色是否对销售量产生影响。表 9-1 超市 1 2 3 4 5 该饮料在五家超市的销售情况 无色 26.5 28.7 25.1 29.1 27.2 粉色 31.2 28.3 30.8 27.9 29.6 橘黄色 27.9 25.1 28.5 24.2 26.5 单位:箱 绿色 30.8 29.6 32.4 31.7 32.8数理统计

几个基本概念1.对销售量是否有影响的那些(可以控制的)条件 称为因素;

2.为了考察一个因素的影响,一般把它严格控制在几个不同的状态等级上,把因素的每一个状态或等级称为 一个水平; 3.只考察一个因素的方差分析,称为单因素方差分析; 4.同时考察两个或两个以上因素的方差分析,称为 多因素方差分析; 5.假定各水平的数据是来自正态分布总体的随机样 本,各水平的样本互相独立,且方差相等。数理统计

例 9.1 的分析 1.检验饮料的颜色对销售量是否有影响,即检验四种 颜色饮料的平均销售量是否相等。则饮料颜色就是考察的因

素,而四种颜色就是四个水平 2. 用 1 , 2 , 3 和 4 分别表示无色、粉色、橘黄色和绿色饮料的平均销售量,那么就是要检验如下的假设H 0 : 1 2 3 4

是否成立。而备选假设则为

H1 : 1 , 2 , 3

和 4 不全相等

3.上述假设的检验方法就是方差分析

数理统计

二、方差分析原理 1.两类误差及两类方差⑴.每个水平为一个总体;⑵.每个水平的一组观察值为总体的一个随机样本, 同一水平下样本观察值之间的差异称为随机误差,用组内 方差来表示; ⑶.不同水平下样本观察值之间的差异可能是由于不

同水平引起的,这种误差称为系统误差,但也包含随机误差。不同水平样本观察值之间差异用组间方差来表示,即

组间方差包括随机误差,也

包括系统误差。数理统计

2.方差的比较⑴.如果不同水平对试验结果没有不同影响,那么组 间方差中只包括随机误差,这时,组间方差与组内方差应 该相近,组间方差与组内方差之比接近 1; ⑵.如果不同水平对试验结果有不同影响,那么组间 方差除了随机误差之外还包括系统误差,这时,组间方差 就会大于组内方差,组间方差与组内方差之比就会大于 1; ⑶.方差分析就是通过这种方差的比较,作出接受原 假设或拒绝原假设的判断。数理统计

三、F 分布

组间方差 F 组内方差F 服从 F 分布。 F 分布为正偏态,随着自由度的增加 趋于对称。当自由度很大时, F 分布可用正态分布来 近似。

数理统计

第二节 单因素方差分析一、单因素方差分析的步骤 ㈠、提出假设 对于 r 个水平的单因素方差分析,原假设和备择 假设为H 0 : 1 2 r

H 1 : 1 , 2 , , r 不全相等对于例 9.1 ,则H 0 : 1 2 3 4

H1 : 1 , 2 , 3 , 4 不全相等数理统计

㈡、计算水平均值设第 j水平有 n j 个观察值,则第 j 个水平的样本均值1 Xj nj

Xi 1

nj

ij

,

j 1, 2 , , r

(9.2)

其中

X ij :第 j水平下的第 i 个观察值。而样本总均值

1 r j 1 r X X ij n j X n j 1 i 1 n j 1其中 n

n

j

(9.3)

nj 1

r

j

数理统计

表9-2观察值 i

四种颜色饮料销售量及均值 箱 水平 1 2 3 4无色 26.5 28.7 粉色 31.2 28.3 橘黄色 27.9 25.1 绿色 30.8 29.6

单位:

12

3 4 5 合计

25.1 29.1 27.2 136.6

30.8 27.9 29.6 147.8

28.5 24.2 26.5 132.2

32.4 31.7 32.8 157.3

573.9

水平均值 x1 27.32 x 2 29.56 x 3 26.44 x 4 31.46 x 28 .695数理统计

㈢、计算离差平方和 1.总离差平方和 (总变异):用 SST 表示总离差平 均和,反映全部数据的离散情况,即SST ( X ij X ) 2j 1 i 1 r nj

(9.4)

例 9.1 的总离差平方和为SST (26.5 28.695 ) 2 (28 .7 28.695 ) 2 (32 .8 28 .695 ) 2 115 .9295

数理统计

2.误差项离差平方和 (组内变异):用 SSE 表示误 差项离差平方和,反映各水平数据的离散情况,即

SSE ( X ij X j ) 2j 1 i 1

r

nj

(9.5)

例 9.1 的1水平数据的平方和

( xi1 x1 ) 2 (26 .5 27 .32 ) 2 (28 .7 27 .32 ) 2 i 1

n1

(27 .2 27 .32) 2 10 .688

数理统计

类似可得

( xi 2 x 2 ) 2 8.572

n2

( xi 3 x 3 ) 2 13.192

i 1 n3

( xi 4 x 4 ) 2 6.632 从而i 1

i 1 n4

SSE 10.688 8.572 13.192 6.632 39.084数理统计

3.水平项离差平方和 (组间变异) :用 SSA 表示 水平项离差平方和,反映各水平样本

数据之间的异差程度, 即 r n rSSA ( X j X )2 n j ( X j X ) 2j 1 i 1 r j 1j

n j X nX2 j j 1

2

(9.6)

对于例 9.1 有SSA n j ( x j x) 2j 1 4

5 [( 27.32 28.695 ) 2 (29.56 28.695 ) 2 (31.46 28.695 ) 2 ] 76.8455数理统计

三个平方和的关系总离差平方和 SST 、误差项离差平方和 SSE 及水平项 离差平方和 SSA 之间的关系 SST = SSA + SSE 证:( X ij X ) 2 [( X ij X j ) ( X j X )] 2 j 1 i 1 j 1 i 1 r r nj r nj

(9.7)

( X ij X j ) 2 ( X j X ) 2j 1 i 1 r j 1 i 1

nj

r

nj

2 ( X ij X j )( X j X )j 1 i 1

nj

数理统计

续(三个平方和的关系)由于2 ( X ij X j )( X j X ) 2 ( X j X ) ( X ij X j )j 1 i 1 j 1 r i 1 r nj r nj

从而r nj r nj j 1 i 1 j 1 i 1

2 ( X j X )( X ij n j X j ) 0j 1 i 1

nj

( X ij X ) 2 ( X ij X j ) 2 ( X j X ) 2 j 1 i 1

r

nj

在实际计算时,一般先计算 SST 和 SSA ,而 SSE = SST - SSA 对于例 9.1 有 115.9295 = 76.8455 + 39.084数理统计

组间变异

组内变异

总变异

数理统计

㈣、计算平均平方1.各个离差平方和的大小与数据的多少有关,各个离

差平方和的平均称为平均平方,也称均方或方差,用 MS 表示; 2.平均平方是离差平方和除以相应的自由度; 3.三个平方和的自由度分别为: ⑴ ⑵ ⑶ SST 的自由度为 n-1 SSA 的自由度为 r-1 SSE 的自由度为

(nj 1

r

j

1) n r数理统计

续(计算平均平方)4. SSA 的平均平方记为 MSA ,即SSA MSA r 1

(9.8)

5.SSE 的平均平方记为 MSE ,即MSE SSE n r

(9.9)

关于自由度,存在如下的关系式 n 1 (r 1) (n r ) 对于例 9.176.8455 25.6152 4 1 39.0840 MSE 2.4428 20 4 MSA 数理统计

三个平方和的作用 1.SST 反映了全部样本数据的总离散程度, SSE 反映 了由于随机性引起的变动部分,即随机误差;而 SSA 则反 映了不同水平之间引起的变动部分,即可以同时反映随机误

差和系统误差的大小;2.如果 H 0 成立,即 1 2 r 为真,则表明 没有系统误差,那么 MSA 和 MSE 都反映随机误差的大小, 从而 应接近1;MSA F MSE

3.如果 H 0 不成立,即 1 , 2 , , r 不全相等,则SSA 不仅反映了随机误差,同时还反映了系统误差的大小,从而

F 有偏大的趋势。

数理统计

本文来源:https://www.bwwdw.com/article/5iv4.html

Top