SPSS课件第8章

更新时间:2024-05-03 21:49:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第8章 方差分析

在前面的第5章,我们讲述了两独立样本参数的t检验,通过t检验可以判断两个总体的均值是不是有显著差异。那么,我们不禁要问:如果要判断的总体不止两个,而是多个,我们该如何进行均值间的比较呢?对多个总体两两进行独立样本t检验是一种处理方法,但是随着总体数目的增多,这种方法的弊端会越来越明显,假如我们要检验100个总体,那需要做C100=4950次两两比较,真是一件繁琐又浩大的工程。有没有一种方法能够不进行两两比较直接从整体上解决多总体的均值的比较呢?SPSS提供方差分析来完成这一工作。

在工业、农业、经济、医学、金融等许多学科领域,方差分析被广泛应用于数量分析研究,发挥了越来越重要的作用。方差分析这种将数据差异划分为几种原因并进行比较分析找出总体规律的思想,是非常重要的一种统计思想,在很多统计方法中也经常使用,掌握方差分析,不仅让我们掌握了一件分析数据的有力工具,而且有助于我们对统计思想的深入理解,培养统计思维,可谓一举双得。下面我们就来具体说说方差分析的基本思想和步骤。

28.1 方差分析概述

方差分析从实质上来说是两独立样本t检验推广到多独立总体情形的假设检验,是一种参数检验方法,其检验的是多总体的均值是否存在显著差异。

例如,在证券市场中,我们要考察不同行业的股票,在一轮大牛市中上涨的平均幅度是否相同,即股票在牛市中是否存在行业差异。此时,我们需要在每个行业中选取一些股票作为样本,计算其涨幅,然后再比较这些行业平均涨幅是否相同。这也仅仅考虑行业对证券的影响,其实证券的影响因素还有很多:地域、概念、宏观政策等,这些因素中哪些对股票有显著的影响,哪些没有显著的影响。更进一步来说,如果肯定了行业对股票涨幅有影响,那么我们还需要确定究竟是哪个行业的股票的平均涨幅最大,哪个行业的平均涨幅最小,它们之间的差异是不是显著的。在清楚了这些问题以后,我们就可以针对某个行业的股票制定投资策略了。

上面仅仅是单个因素的考虑影响,当同时考虑多个因素对股票涨幅的影响时,例如:行业、地域因素同时考虑,问题就复杂了,这里面不仅有单个因素本身的影响,还存在两个因素的关联性对股票的影响,需要仔细甄别。

以上这些问题都可以利用方差分析来解决,为了解释方差分析的思路,我们需要对上面的一些概念做些定义:在方差分析中,将我们关心的总体取值称为观测因素或观测变量,例如上面例子中股票的涨幅就是观测变量;而上面例子中的行业、地域、概念、政策等影响观测变量的因素称为控制因素或控制变量;将控制变量的不同取值称为不同水平,例如行业中有农业、建筑、房地产、煤炭、石油、钢铁等,都是行业的水平。方差分析的问题理论上概括起来就是:检验观测变量在控制变量的不同水平上是否存在显著差异。下面我们就来看看方差分析解决问题的思路。

8.1.1 方差分析解决的问题

上面已经讲到,方差分析所要解决的问题就是检验观测变量在控制变量的不同水平上的取值是否存

『 2 』

第8章 方差分析

在显著差异。关于观测变量和控制变量,有些读者不会区分,我们简单说明如下:

? 观测变量是连续变量,而控制变量取值一般是有限的几个水平,不能去很多个值,即从变量尺

度来看,观测变量是间隔尺度,而控制变量是名义尺度或顺序尺度变量。

? 观测变量一般是变量取值比较随机,不容易控制的量,它的取值只能进行观测记录;而控制变

量是相对取值易于控制、能确定取值的变量。

方差分析分析思路是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。对观测变量有显著影响的控制变量中,还需要分析出控制变量的不同水平及水平的交互搭配是如何影响观测变量的。

具体来说,方差分析认为观测变量的变化受两方面的因素的影响:第一类是控制变量不同水平所产生的影响;第二类是控制变量以外的随机因素(随机变量)所产生的影响。这里随机因素是指认为很难控制的因素,包含实验过程中的抽样误差,以及许多影响细微的因素。将第一类因素的影响称为系统误差,将第二类因素的影响称为随机误差。

如果控制变量的不同水平对观测变量产生显著影响,那么观测变量在控制变量的不同水平上取值的平均数一定会发生变化;反之,如果控制变量对观测变量不产生影响,那么在控制变量的不同水平上观测变量取值的平均数将不会有显著差异。如果将控制变量的不同水平上观测变量取值看作是独立的总体,可以看到方差分析就是多独立总体的均值检验问题,如果均值有差异,说明控制变量是影响观测变量的主要因素,此时称观测变量主要受系统误差影响;如果均值无显著差异,说明随机变量是影响观测变量的主要因素,此时称观测变量不存在系统误差或称观测变量主要受随机误差影响。关于如何检验系统误差,方差分析中控制因素个数不同检验方法也有一些差别,在8.2节和8.3节中将详细介绍。总体说来都是利用F统计量和F分布来完成的。

8.1.2 方差分析的应用条件

在应用上面方差分析的全过程时,我们需要强调必须满足下面的条件: 第一、观测变量在控制变量各水平上的取值即各总体必须满足正态分布

方差分析是一种参数检验的方法,既然是参数方法,就对总体分布有着假定,在方差分析中,假定各总体的分布是正态分布,这也是能够推导出F统计量服从F分布的基础,而SPSS对P值是依据F分布计算的。一旦总体不服从正态分布,那么F统计量自然不再服从F分布,自然SPSS给出的P值对于统计检验来说将不再有任何意义。因此在进行方差分析之前,需要验证各总体的分布是否是正态分布,验证的方法可以使用Q-Q图,也可以使用第6章讲述的单样本非参数K-S检验。

第二、观测变量各总体的方差应该相同

这个条件统计上称为方差齐性,这个条件对于推导F统计量的分布以及其自由度也是非常重要的,如果这个条件得不到满足,那么F统计量也不再服从F分布,其自由度也不再是理论上推导出来的自由度了。同样SPSS给出的P值对于统计检验也将不可用。不过相比较而言,这个条件对假设检验的影响比第一个条件要小一些。第一个条件不满足,完全不能用方差分析,而第二个条件不满足,还可以利用SPSS计算出的统计量的值,根据修正的自由度手工计算准确的概率P值,完成假设检验。

第三、控制变量一定是取值有限的名义尺度或顺序尺度变量

控制变量的各水平,即控制变量的各取值决定了方差分析中假设检验的总体个数,只有控制变量取少数几个值时,才能保证每个总体有充足的样本数去计算样本均值和样本方差;一旦总体个数太多,那每个总体内的样本数就会减少,计算的样本均值和样本方差可能会出现较大的偏差,将会影响假设检验整体的精度。这个条件对假设检验的影响最小,即使不满足我们也能采取一些方法使得方差分析能够完

第二篇 SPSS与统计基础统计分析

成。

8.1.3 应用条件不满足的处理办法

从上面的条件可以看出,对控制变量有一个条件,对观测变量有两个条件。其中对观测变量的条件不满足对方差分析影响大,而对控制便利的条件不满足对方差分析影响小。下面我们就根据对假设检验的影响程度从小到大的顺序说明三个条件不满足我们该如何处理。

当第三个条件不满足即控制变量是间隔尺度变量时,可以利用变量重赋值功能,将控制变量进行区间划分,生成一个新的顺序尺度变量,此时以新生成的变量作为控制变量,就能够完成方差分析的假设检验了。从上面的处理办法可以看出这个条件无关大局,如果控制变量不满足条件只是多一道变量预处理过程。

当第二个条件不满足即各总体方差不齐时,严格说来只要总体满足正态分布,还是可以进行方差分析,此时有两个处理方法:一是利用SPSS计算出的组内方差和组间方差值,手工构造新的统计量和推导新的统计量的分布,在进行统计决策;二是对方差较小的总体样本进行等比例放大,比例系数就是两个总体样本标准差的比值,对样本进行处理以后,也可以进行方差分析。上述两个方法第一个方法比较准确,但是需要专业的统计知识,而且新的统计量P值需要手工计算,可实施性较差;第二个方法比较容易实行,但是会影响方差分析一定的精度,因为这相当于人为放大了一部分总体的方差,这必然对组内方差和组间方差有影响,当总体数目较多(四个以上)时,相对来说给便一个总体的方差对整个组内方差和组间方差影响较小,可以采用这种方法。

当第一个条件不能满足时,就不能实行方差分析了,如果要比较各总体的均值和分布是否相同,可以采用第6章多独立样本非参数检验的方法。推荐使用Kruskai-Wallis检验。

8.2 单因素方差分析

根据方差分析中根据控制变量的个数可以分成单因素方差分析、多因素方差分析和协方差分析。当控制变量是一个变量时,称为单因素方差分析,这是所有方差分析中最简单的,我们就从单因素方差分析开始讲解方差分析的具体步骤。

8.2.1 引例:单因素方差分析概述

在本小节中,我们还是通过一个具体的例子来加深对单因素方差分析的理解:

例8-1 在研究工作和工资的问题时,有一个有趣的现象:随着年龄的增长,工资也会随着增长,但是是否这一现象对于所有的职业都存在呢?本书收集的3000个护士工资的数据(数据见光盘8-1.sav),请分析年龄是否对工资有显著的影响。 我们首先研究一下数据8-1.sav,发现年龄分为三个阶段:18-30岁是年轻护士,31-45岁是中年护士,45-65岁是老年护士。如果我们把年龄作为控制变量,显然它有三个水平,这是一个三总体的均值检验问题,由于控制变量只有一个,可以利用单因素方差分析来解决这个问题。

将三个年龄段的护士看作三个总体,护士按小时的工资就是观测变量,需要检验的是三个总体的护士按小时工资的均值是否有显著差异,如果工资均值有显著性差异,则说明护士的工资受到控制因素年龄的影响,存在系统误差;如果均值没有显著差异,则说明护士工资主要受随机因素的影响,不存在系统误差,当然也就说明年龄对工资没有影响。

那么如何判断观测变量即工资是否受系统误差的影响呢?这就要从方差分析的数序模型和检验统计

『 4 』

第8章 方差分析

量构造来说明了。方差分析的数学模型是:假设在控制变量各个水平上,观测变量样本取值为:

Xij??i??ij,i?1,2,...,k,j?1,2,...,ni

其中i代表控制变量的第i个水平,即第i个总体,?i表示第i个总体的均值,即年龄段的平均工资,

?ij表示第i个总体第j个样本受随机因素的影响,是服从正态分布的随机变量。而ni表示第i个总体中

的样本数,k表示总体数,本例中k=3。

n1???nk?n

将各总体均值求平均,得到总的均值

1k????i

ki?1如果各总体均值没有差异,都等于?,那么样本取值就只受到随机因素?ij的影响,如果各总体均值不相等,那么样本取值就同时受到总体均值和随机因素的影响,方差分析要检验的就是样本取值有没有受各总体均值的影响,当然在构造统计量时,需要用样本统计量Xi和X去估计各总体均值?i和总均值

?。

假设检验的原假设是:

t ?p??q H0:?1??2?...??k,与之相应的备择假设是:H1:? p,q, s..即原假设是各总体均值相等,即观测变量主要受随机误差的影响。考虑观测变量的样本方差构成:

1kni1kni2S?(Xij?X)?(Xij?Xi?Xi?X)2????n?1i?1j?1n?1i?1j?121kni?[(Xij?Xi)2?(Xi?X)2]??n?1i?1j?1k1kni2?[??(Xij?Xi)??ni(Xi?X)2]n?1i?1j?1i?1

从公式看,样本方差由两部分构成,一部分即组内方差,即

2(X?X)??iji,记为SSA;另一部i?1j?1kni分为组间方差即

?n(Xii?1k2?X),记为SSE。如果原假设为真,那么样本方差的主要部分将是组内方差,i组间方差较组内方差来说将会很小,同样,如果原假设不真,那么样本方差的主要部分将是组间方差,

组间方差较组内方差来说就会较大,据此,将两方差相除,构造统计量:

第二篇 SPSS与统计基础统计分析

F?SSA/(k?1)MSA ?SSE/(n?k)MSE式中MSA和MSE分别称为组间和组内的平均方差。在原假设为真的条件下,统计量服从自由度为k-1和n-k的F分布。如果F统计量观测值较小,说明组内方差(分母)大,组间方差(分子)小,此时不能拒绝原假设;相反如果F统计量观测值较大,说明组间方差大(分子)大,组内方差(分母)小,此时就要拒绝原假设,认为控制变量各水平对观测变量有显著影响了。SPSS会自动计算F统计量的观测值以及相应的概率P值,根据P值就可以完成统计检验了。

8.2.2 单因素方差分析的SPSS实现

在8.1.3我们已经指出,在进行方差分析之前,需要验证方差分析需要满足的三个条件,现在第三个条件已经满足,不用验证;重点来验证前面两个条件。

对于正态分布的验证,我们利用第6章单样本K-S检验来完成,由于这里分别要检验三个年龄段样本的正态性,因此需要将数据集文件按照年龄段进行拆分,具体操作我们简要列出,留给读者自行对照第2章内容完成,作为对前面内容的复习和巩固。

文件拆分操作:

Step1:选择【Data】菜单→【Split File】菜单

Step2:选择Compare Groups单选按钮,将变量“年龄范围(agerange)”选入Group Based on 变量框中,设置完成后点击

完成操作。

文件拆分以后就可以完成单样本K-S非参数检验,操作请读者参照第6章相关内容自行完成,这里限于篇幅,不列出全部结果,仅仅列出关键结果:

表8-1 每小时薪水Statistics

8-30

Std. Deviation 3.94875

Variance

31-45

15.593

Std. Deviation 3.90906

Variance

15.281

46-65

Std. Deviation 4.05968

Variance 16.481

『 6 』

第8章 方差分析

表8-2 One-Sample Kolmogorov-Smirnov Test

年龄范围

N

每小时薪水 468

18-30 Kolmogorov-Smirnov Z 1.045

Asymp. Sig. (2-tailed) N

.225 1582

31-45 Kolmogorov-Smirnov Z .932

Asymp. Sig. (2-tailed) N

.350 .861

46-65 Kolmogorov-Smirnov Z .771

Asymp. Sig. (2-tailed) a. Test distribution is Normal. b. Calculated from data.

.592

从表8-2的结果来看,三个年龄段的总体样本数分别是468、1582和861,有89个无收入数据的缺失样本。三个年龄段的检验结果均不显著,说明三个年龄段的总体分布和正态分布没有显著差异,满足第一个条件。

关于三个总体方差齐性的条件,我们作出三个总体的样本方差统计量观测值,从表8-1看出,无论是标准差还是方差,三个总体都是非常接近的,可以认为满足第三个条件,因此可以进行方差分析。

下面我们具体来讲单因素方差分析的操作。首先解除文件拆分,再进行如下操作: Step1:选择【Analysis】菜单→【Compare Means】菜单→【One-way ANOVA】菜单

ANOVA是Analysis of Variance的缩写,代表方差分析。在图8-1的单因素方差分析主对话框中,左边是SPSS数据集文件中的所有变量列表,中间是Dependent List是观测变量列表,下面Factor框中是控制因素列表,由于是单因素方差分析,因此控制因素只能选择一个变量,而观测变量可以是多个,SPSS将会按照同一个控制因素分别对这些观测变量进行方差分析。右边有三个按钮是用于方差分析进一步分析的,我们将在下一小节讲到它们。

Step2:选择观测变量和控制因素

将观测变量“每小时薪水(hourwage)”选入观测变量框Dependent List,将变量“年龄范围(agerange)”选入控制因素变量框Factor,设置完成后点击

完成操作。

第二篇 SPSS与统计基础统计分析

观测变量 控制因素

图8-1 单因素方差分析主对话框

8.2.3 单因素方差分析的进一步分析

利用以上的分析,我们就可以得到三个总体均值是否显著差异的结果,也就知道了年龄对工资是否有显著影响。如果方差分析检验结果是不显著的,说明各水平上观测变量均值没有显著差异,没有比较各水平的必要,自然方差分析到此终止;但是,如果方差分析检验结果是显著的,即各年龄段总体工资的均值是不同的,那么我们就还想知道更多的结论,例如:哪个年龄段平均工资最高,哪个年龄段平均工资最低,两个年龄段的平均工资差异是多少,这个差异在统计上是否是显著的等等结论,这个就需要利用方差分析的进一步分析功能。

方差分析的进一步分析主要是回答这样一些问题:

第一、观测变量在控制变量各水平上,即各总体上,其平均值差异是多少,这个差异是否统计显著; 第二、观测变量在控制变量各水平上,其方差是否相等,即方差齐性是否满足; 第三、其他的一些检验问题,诸如先验对比检验,趋势检验等。

这三个问题SPSS分别用三个按钮来提供相应的功能,第一个按钮提供先验对比检验、趋势检验等功能,解决第三个问题;第二个按钮提供多重比较检验功能,解决第一个问题;第三个按钮

提供方差齐性检验功能,解决第二个问题。下面我们分别对这三个按钮的方法进行说明。

1. 多重比较检验

多重比较检验的原假设是:观测变量在指定两水平上均值没有显著差异。接下来就是选择统计量,SPSS给我们提供了非常丰富的多重比较检验统计量,我们仅介绍几个重要的统计量。

LSD方法:采用最小显著性差异法(Least Significant Difference)。其构造如下面的公式,其特点是检验敏感性高,指定的两水平i和j只要存在一定程度的差异就可以被检验出来,缺点是因为敏感,犯第一类错误概率较大。统计量式中MSE表示平均组内方差,统计量服从自由度为n-k的t分布。

t?(Xi?Xj)?(?i??j)MSE(11?)ninj

Bonferroni方法:和LSD方法基本相同,不同之处是Bonferroni方法对犯第一类错误的概率进行了控制,将每次检验的显著水平除以两两检验的总次数N,从而控制了犯第一类错误的概率。

Tukey方法:Tukey方法采用q统计量,其构造为:

t?(Xi?Xj)?(?i??j)MSE/r

『 8 』

第8章 方差分析

式中r为各水平下样本个数。可见Tukey方法要求各水平下样本个数相等,这点要求比LSD方法苛刻,例如本例中就不能采用Tukey方法。Tukey方法的q统计量服从自由度为k和n-k的q分布。 S-N-K方法:S-N-K(Student Newman-Keuls)方法是一种高效划分相似子集的方法。该方法也要求各水平样本数相等,统计量为:

dlrdlr?0.5?1.2loglMSEZ?,当l?3时,Z?MSE,当l?3时 3[0.25?1/(n?k)]3[0.25?1/(n?k)]Z统计量近似服从正态分布。

综合各种方法的条件,本例中只适合用LSD方法和Bonferroni方法。 2. 方差齐性检验

SPSS对于方差齐性检验采用的是方差同质性检验(homogeneity of variance)。其具体检验过程和第5章两独立样本t检验中的方差齐性检验相同,此处就不再赘述了。

3. 先验对比检验和趋势检验

先验对比检验是检验两组水平的线性组合均值是否有显著差异,例如,本例中有3个水平的均值

?1,?2,?3,可以检验?1和1/2(?2??3)是否有显著差异,此时需要指定系数

c1?1,c2??0.5,c3??0.5,注意所有系数求和必须为0,这种先指定系数,再对线性组合进行检验的检

验方法就称为先验对比检验。

趋势检验:当控制因素是顺序尺度变量时,随着控制变量的增大,趋势检验能检验观测变量的总体

变化趋势是如何的,是线性变化,还是二次或三次变化。趋势检验有助于我们把握观测变量在各水平间的变化规律。

下面我们来看单因素方差分析进一步分析的具体操作: 1. 多重比较检验操作

在图8-1的单因素方差分析主对话框中,点击按钮据本例的特点选择LSD和Bonferroni方法,点击

2. 方差齐性检验操作 在图8-1主对话框中,点击3. 先验对比检验和趋势检验操作

在图8-1主对话框中,点击按钮进入图8-4子对话框,勾选Polynomial复选框,在Degree下拉菜单中选择Quadratic,表示进行二次趋势检验,在下面的Cofficients框中依次输入先验对比检验系数1、-0.5、-0.5,点击

按钮回到主对话框。

按钮,进入如图8-3的对话框,在对话框Statistics复选框组中

按钮回到主对话框。

勾选Homogeneity of variance test复选框,点击

进入如图8-2的对话框,在对话框中根

按钮回到主对话框。

第二篇 SPSS与统计基础统计分析

图8-2 Post Hoc子对话框 图8-3 Option子对话框 图8-4 Contrasts子对话框

所有操作完成后,设置完成后点击

完成操作。

8.2.4 单因素方差分析的结果分析

下面我们先看单因素方差分析以及进一步分析的结果: Oneway

表8-3每小时薪水Test of Homogeneity of Variances

Levene Statistic df1 .593 2 df2 2908 Sig. .553

从表8-3我们可以看出观测变量在控制变量各水平上方差统计量观测值为0.593,自由度为2和2908,对应的P值为0.553,显然P值远远大于显著水平0.05,不能拒绝原假设,认为观测变量在各水平方差齐性得到满足,这也从统计显著性的角度再次证明了我们在表8-1看到的各水平样本方差观测值差异较小,从而各水平总体方差相等的结论,进一步证明了数据是满足方差分析第二个条件的。

下面是单因素方差分析的结果,结果主要在表8-5中,我们看到组间方差由于考察总体不同的变化趋势出现不同的值,对于方差分析,其组间方差1017.69,组内方差为45914.297,平均组间方差和平均组内方差分别为508.845和15.668,F统计量观测值为32.44,对应的概率P值接近0,显然应该拒绝原假设,认为观测变量在控制变量各水平上均值显著差异,也就是说年龄会影响工资。另外根据趋势检验的结果,线性趋势是显著的,但是二次趋势不显著。

『 10 』 第8章 方差分析

表8-5每小时薪水ANOVA

(Combined)

Squares 1017.690

df 2 1 1 1 1 1 2908 2910 Mean Square 508.845 1002.370 1007.272 10.419 10.419 10.419 15.686

F 32.440 63.903 64.216 .664 .664 .664

Sig. .000 .000 .000 .415 .415 .415

Unweighted

Linear

Between Groups

Quadratic Term

Within Groups Total Term

Weighted Deviation Unweighted Weighted

1002.370 1007.272 10.419 10.419 10.419 45614.257 46631.948

表8-6 每小时薪水Multiple Comparisons

(I) 年龄范围 (J) 年龄范围 Difference (I-J)

31-45

18-30

46-65 18-30

LSD

31-45

46-65 18-30

46-65

31-45 31-45

18-30

46-65 18-30

Bonferroni

31-45

46-65 18-30

46-65

31-45

-1.03231 -1.81824 1.03231 -.78593 1.81824 .78593 -1.03231 -1.81824 1.03231 -.78593 1.81824 .78593

************

95% Confidence Interval

Std. Error .20840 .22745 .20840 .16773 .22745 16773 .20840 .22745 .20840 .16773 .22745 .16773

.000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000

Sig.

wer Bound -1.4409 -2.2642 .6237 -1.1148

23 .4570 -1.5315 -2.3631 .5331 -1.1877 1.2734 .3842

Bound -.6237 -1.3723 1.4409 -.4570 2.2642 1.1148 -.5331 -1.2734 1.5315 -.3842 2.3631 1.1877

*. The mean difference is significant at the 0.05 level.

表8-6给出多重比较检验的结果,从结果上看,无论是LSD方法还是Bonferroni方法,各年龄段的差异都是显著的(检验的P值都接近0)。显然46-60岁年龄段的护士平均工资最高,比31-45岁年龄段护士平均工资高0.7853,比18-30岁年龄段护士平均工资高1.81824;31-45岁年龄段护士工资其次,比18-30岁年龄段护士平均工资高1.03231;相比来说,18-30岁年龄段护士平均工资最低。

第二篇 SPSS与统计基础统计分析

表8-7 Contrast Coefficients

年龄范围

Contrast

18-30 31-45

1 1 -.5 46-65 -.5

表8-8 Contrast Tests

Contrast

Assume

每小时薪水

variances

Does not assume equal variances equal

Value Contrast -1.4253

of

Std. Error

t

df

Sig. (2-tailed) .000

1 .20137 -7.078 2908

1 -1.4253 .20129 -7.081 681.958 .000

表8-7和表8-8列出先验对比检验的结果,表8-7列出先验对比检验的检验系数,系数确定了是18-30岁年龄段护士平均工资和31-45岁、46-65岁两个年龄段护士平均工资的平均数做检验,从表8-8检验结果来看,由于方差是齐的,因此看第一行结果,显然检验统计量t观测值为-7.078,说明18-30岁年龄段护士平均工资低于另外两个年龄段工资的平均数。检验概率P值接近于0。显然小于显著水平,应该拒绝原假设,认为两组工资的差异是显著的。即年轻护士的平均工资显著少于中年和老年护士。

8.3 多因素方差分析

和单因素方差分析不同,如果我们需要研究两个以上控制因素是否是对观测变量有显著影响,将采用新的方法,由于考虑了多个控制因素,所以叫做多因素方差分析;多因素方差分析模型比单因素方差分析模型复杂,因为不仅要分析单个控制因素独立的对观测变量的影响(相当于多个单因素方差分析),而且还要考虑多个控制因素的交互作用对观测变量的影响,我们将在后面的叙述中详细解释这种差异。下面我们仍然从一个具体的例子来认识多因素方差分析的模型和假设检验过程。让读者了解多因素方差分析的具体操作步骤和结果解释。

8.3.1 引例:多因素方差分析概述

本小节中,我们将从具体的一个例子出发,研究多因素方差分析的模型、假设检验过程、和主要注意的问题。请看下面的例8-2:

例 8-2 继续例8-1研究护士小时工资的问题,将护士的小时工资作为观测变量,现在控制变量我们考察两个:年龄段和工作经验,请对护士工资进行多因素方差分析。(数据见光盘8-2.sav) 在例8-1中,已经证明了年龄段对护士工资有显著影响,现在增加了工作经验这一新的控制因素,分析时不仅要考虑年龄段和工作经验单独对护士工资的影响,还需要检验这两个变量控制变量是否有交互作用,其交互作用是否也要影响护士工资。因此多因素方差分析模型比单因素方差分析模型更加复杂,需要检验的因素也更多。

『 12 』 第8章 方差分析

多因素方差分析的模型我们简要说明如下:

假设观测变量可能受两个控制因素A、B的影响,其中因素A有p个水平,因素B有q个水平,则两个因素的交叉将观测变量分成了p×q个水平,每个水平的观测变量的样本我们可以描述为:

Xijk??i??j??ij??ijk,i?1,2,...,p;j?1,2,...,q;k?1,2,...,nij

式中,Xijk表示因素A的第i个水平,因素B的第j个水平中第k个样本;?ijk表示相应的随机误差,服从正态分布;而?i,?j分别表示因素A和因素B各自在i、j水平上的总体均值,代表了因素独立的影响;而?ij代表了两个因素的i、j水平的交互作用对观测变量样本的影响。本例中p=3,q=5。

当因素A对观测变量没有显著影响时,?i等于常数,此时变量主要受因素B和交互作用及随机作用影响,因素A不是主要影响因素;同理可以分析因素B,交互作用AB……

对于因素的影响,和单因素方差分析一样,仍然是从样本方差入手,只是现在计算的样本方差更多,我们对样本方差SST的分解为:

SST????(Xijk?X)2?SSA?SSB?SSAB?SSE

i?1j?1k?1pqnij式中,nij表示观测变量在因素A的i水平,因素B的j水平样本数。有

?ni?1pij?n?j,?nij?ni?,??nij?n

j?1i?1j?1qpq式中ni?,n?j分别代表观测变量在i、j水平边际样本数,n代表样本总数。其它统计量可以定义为:

SSA???nij(X?X)??ni?(XiA?X)2

Ai2i?1j?1i?1pqqpqp2SSB???nij(X?X)??n?j(XB?X) jBj2i?1j?1j?1SSE????(Xijk?XijAB)2

i?1j?1k?1pqnijSSAB?SST?SSA?SSB?SSE

对交互作用,我们直观解释如下,如果因素A水平发生变化,例如从水平1变化到水平2,如果无论因素B取哪个水平,观测值变量要么同时增加,要么同时减小,即因素A的变化就可以决定观测值的变化,此时称A、B无交互作用;反之,如果因素A从水平1变化到水平2,观测值在B的不同水平上

第二篇 SPSS与统计基础统计分析

变化方向不同,在有些水平上增加,在有些水平上减小,即需要A、B交叉的水平才能确定观测变量的变化,此时称A、B因素存在交互作用,下面的表8-9和8-10可以帮助读者更好理解交互作用。

表8-9 无交互作用的观测变量在各因素取值

A因素水平1 A因素水平2

B因素水平m B因素水平n

表8-10 有交互作用的观测变量在各因素取值

A因素水平1 A因素水平2

B因素水平m B因素水平n

表8-9中,因素A水平从1到2时,无论因素B取m水平还是n水平,观测变量的值都上升,反过来当因素B水平由m到n时,无论A取何水平,观测变量的值都上升,此时两因素无交互作用。 表8-10中,因素A水平从1到2是,观测变量在因素B的m水平上增加,n水平减少,即是说需要因素A、B共同的水平,例如:1×m→2×m,观测变量值增加;1×n→2×n,观测变量值减小,此时两因素有交互作用。

多因素方差分析就是要检验这些各因素单独的影响和因素之间的交互影响是否存在,我们需要利用样本方差构造统计量完成假设检验,假设检验基本步骤为:

提出假设检验原假设:多因素方差分析原假设为各因素的各水平下,观测变量各总体均值无显著差异,用公式表达为:

3 8 7 5 3 5 7 10 H0:?1??2?...??p??,?1??2?...??q??,?ij?0,i?1,...,p,j?1,...,q

选择检验统计量:和单因素方差分析相同,多因素方差分析也是选用F统计量,针对三个不同的原假设,需要构造3个不同的统计量:

FA?SSA/(p?1)MSA ?SSE/(n?pq)MSESSB/(q?1)MSB?

SSE/(n?pq)MSEFB?FAB?SSAB/(p?1)(q?1)MSB?

SSE/(n?pq)MSE从上面式中看出,各统计量的构造形式和单因素方差分析基本一致,只是其中具体计算公式有所不

同,统计量的构造体现了多因素方差分析的思想。在原假设为真时,这些统计量都服从不同自由度的F分布。

『 14 』 第8章 方差分析

计算样本统计量观测值和概率P值,SPSS会自动计算各统计量观测值和对应的概率P值,并以表格的方式输出。

根据P值,进行统计检验。如果P值大于显著水平,则不能拒绝原假设,仍为因素水平上没有显著差异,如果P值小于显著水平,当然就要拒绝原假设,认为在各因素水平上有显著差异。注意,此处有三个统计量,因此要计算三个P值,完成三个检验,分别对应A、B因素各自的影响和AB交互作用的影响。

三个因素的多因素方差分析和两个因素的多因素方差分析类型,只是模型更加复杂,需要检验的统计量更多,例如:三因素时,样本方差的分解为:

SST?SSA?SSB?SSC?SSAB?SSAC?SSBC?SSABC?SSE

共需考虑7个统计量,完成7个假设检验。

本例中,年龄段有3个水平,工作经验有5个水平,两者交叉就有15个水平,我们要检验工资在年龄段因素、工作经验因素各水平上均值是否显著差异,还要检验均值在两因素有交互作用的水平上差异是否显著。需要运用3个建设检验。

多因素方差分析同样需要满足第8.1.2列出的三个条件,只是验证起来更加繁琐,就本例来说共需要验证3+5+15=23次正态性和23次方差齐性检验。下面我们来看完成此功能的SPSS操作。

8.3.2 多因素方差分析的SPSS实现

由于篇幅关系,本小节不再列出对方差分析条件的验证,请读者仿造8.2节相关内容进行验证,需要强调的是,这个验证过程不能省略,否则在不知道是否可以运用方差分析的情况下强制使用方差分析,可能带来更大的误差。下面我们仅介绍多因素方差分析的操作。

Step1:选择【Analysis】菜单→【General Linear Model】菜单→【Univariate】菜单

在图8-5的主对话框中,Dependent Variable框中代表观测变量,Fixed Factor(s):代表固定效应,即人为可控的控制变量,Random Factor(s):代表随机效应,即人为不可控制,但是取值是有限个,可以作为控制因素的控制变量。Covariate(s):代表协变量,我们将在8.4节中进行介绍,而WLS Weight表示选择加权最小二乘方法的加权变量。右边有5个按钮用于多因素方差分析进一步分析使用。

Step2:选择观测变量和控制变量

将变量“每小时薪水(hourwage)”选入观测变量框Dependent Variable中,将变量“年龄范围(agerange)”和“工作经验(yrsscale)”选入控制变量框Fixed Factor(s):中,因为这两者都是固定效应而非随机效应的。设置完成后点击

完成操作。

第二篇 SPSS与统计基础统计分析

图8-5 多因素方差分析主对话框

另外,和单因素方差分析一样,多因素方差分析也有进一步分析,只是其中有些功能很少用到,我们就不介绍了,我们只重点介绍进一步分析的几个重要分析。

1. 多重比较检验

多重比较检验和一元方差分析一样,这里就不对方法进行介绍了,只是看看菜单界面有什么不同。点击进入图8-6对话框,对话框中所提供的多重比较检验的方法是一样的,只是多了多种比较检验变量的选择,由于前面已经做过年龄的,我们这里做工作经验的多重比较检验,将变量“yrsscale”选入Post Hoc Tests for:框中,选择LSD和Bonferroni方法,点击点击

按钮回到主对话框。

图8-6 多重比较检验对话框

2. 模型选择

这是多因素方差分析比单因素方差分析增加的功能。SPSS默认是对所有的影响作用都要做检验,例如本例是2个因素,就需要做3个假设检验,分析控制变量主效应和交互效应。这种考虑了所有情况的模型称为饱和模型,如果不选择模型,则SPSS按默认的饱和模型完成多因素方差分析。

我们可以通过点击按钮进入图8-7模型选择对话框,在Specity Model单选框组中选择Custom即自定义模型,我们可以选择Build Terms框中的Type下拉菜单有6个选项,下面分别介绍如下:

Main effect:主效应,即控制因素单独对观测变量的影响,选择此项时只需直接将控制变量选入右

『 16 』 第8章 方差分析

边框中即可;Interaction:交互效应,即两个以上因素的交互作用对观测变量的影响,选择此项时,要同时选中两个以上变量,在点击中间箭头,此时右边框中会出现yrsscale*agerange字样,表示交互效应,本例中,选择了两个变量的主效应和它们的交互效应以后就等价于饱和模型了;对于后面的All 2-way到All 5-way表示从2次到5次的所有效应,这些选项使用很少。本例中只分析主效应,不选交叉效应,则选择两个变量,选Main effect选项。点击

按钮回到主对话框。

图8-7 模型选择对话框

3. 对比检验

对比检验可通过点击按钮进入图8-8对话框,选择控制变量,在下拉菜单中选择Simple后点Change就可以了,对于下拉菜单的选项,解释如下:

Diviation 表示检验观测变量总的均值和各水平上均值的差异,Simple 表示检验第一水平First或最后水平Last与各水平上均值的差异,Difference 表示当前水平上的均值和前一水平均值比较,Helmert表示当前水平均值和后一水平均值比较。这里我们对yrsscale变量进行Simple检验。点击到主对话框。

按钮回

图8-8 对比检验对话框

对所有进一步检验设置完成后点击下面我们来看多因素方差分析的结果。

完成操作。

8.3.3 多因素方差分析的结果分析

首先我们看没有进行进一步分析的多因素方差分析结果:

第二篇 SPSS与统计基础统计分析

表格8-11列出了每个控制变量的水平及在每个水平上有多少样本,由于各水平上样本数不同,在进行多重比较检验是只能选择LSD方法和Bonferroni方法。

表格8-12列出多因素分析重要结果,

第一行表示校正的模型,即总体结果,F统计量观测值为15.797,对应P值接近0,说明检验结果显著,即年龄段和工作经验各水平上总体均值(即平均工资)有显著差异。

第二行是截距项,没有明显的统计意义,可以不予关注;

第三行是年龄段各水平上总体均值是否显著差异,从结果来看,P值为0.879,不能拒绝原假设,年龄段各水平上总体均值无显著差异。

第四、五行和第三行类似分析,结论是工作检验各水平上总体均值有显著差异,交互作用各水平上总体均值无显著差异。

第六行是组内样本方差数据,第七行是样本总方差数据,第八行是校正以后的样本总方差数据。

表8-11 Between-Subjects Factors

Value Label

1 18-30

N 468 1582 861 221 460 752 729 539

年龄范围

2 31-45 3 46-65 1 小于等于5 2 6-10

工作经验(年)

3 11-15 4 16-20 5 21-35

6 大于等于36 210

表8-12 每小时薪水Tests of Between-Subjects Effects Source

Corrected Model

Type III Sum of Squares df 3086.856 336305.109 3.863 628.261 109.518 43545.092 1212879.422 46631.948 a

Mean Square 237.450 336305.109 1.931 125.652 18.253 15.031

F 15.797 22373.954 .128 8.359 1.214

Sig. .000 .000 .879 .000 .296

13 1 2 5 6 2897 2911 2910

agerange yrsscale

agerange * yrsscale Error Total

Corrected Total a. R Squared = .066 (Adjusted R Squared = .062)

『 18 』 第8章 方差分析

接下来,我们看多因素方差分析进一步分析结果:

首先是变换模型以后的检验结果,列在表8-13中比较表8-13和8-12,发现表8-13少了交互作用这一行,这是因为我们在模型选择中已经去掉了交互作用,检验结果类似,都是整体显著、工作检验水平上显著,年龄段水平上不显著。虽然结论一致,但是注意到具体统计量的值已经有所变化,这是因为我们少考虑了一个交互效应,交互效应的样本方差SSAB会分配到SSA和SSB中,使得这两个组间方差增大,从而导致较大的F统计量观测值和较小的P值出现。

表8-13 每小时薪水Tests of Between-Subjects Effects

Source Type III Sum of Squares

Corrected Model 2977.338

a

df

7 1 2 5 2903 2911 2910 Mean Square 425.334 798792.583 14.339 391.929 15.038

28.284 53119.129 .954 26.063

F

.000 .000 .385 .000

Sig.

798792.583

agerange 28.678 yrsscale 1959.647 Error 43654.610 Total 1212879.422

Corrected Total 46631.948 a. R Squared = .064 (Adjusted R Squared = .062)

接下来看多重对比检验,这里限于篇幅,仅列出LSD方法计算的多重对比检验,其余方法不列出。

表8-14 每小时薪水Multiple Comparisons

Mean Difference (I-J) Std. Error

-.8754* -1.6200* -2.2460* -3.2178* -3.5926* .8754* -.7446* -1.3707* -2.3425* -2.7172* .31739 .29672 .29778 .30975 .37370 .31739 .22954 .23091 .24615 .32295

第二篇 SPSS与统计基础统计分析

1.6200* .7446* -.6261* -1.5979* -1.9726* 2.2460* 1.3707* .6261* -.9718* -1.3465* 3.2178* 2.3425* 1.5979* .9718* -.3747 3.5926* 2.7172* 1.9726* 1.3465* .3747 .29672 .22954 .20156 .21885 .30266 .29778 .23091 .20156 .22029 .30370 .30975 .24615 .21885 .22029 .31545 .37370 .32295 .30266 .30370 .31545

从表8-14中我们可以看出,大于等于36岁和21-35两个水平上总体均值差异不显著,在其他水平上总体均值都是显著差异的。

最后来看看对比检验的结果,

表8-15 每小时薪水Test Results Source

Sum of Squares df

5 2903 Square 391.929 15.038 F 26.063

Sig. .000

Contrast 1959.647 Error 43654.610 从表8-15结果看,对比检验是显著的,说明工作检验中,各水平和最差一个水平相比,都是有显著的差异。

接下来我们来看对比检验的具体结果,限于篇幅,我们仅列出表格中差异值,P值等重要量,其余

『 20 』 第8章 方差分析

的一些量如置信区间、检验值等就不列出了,读者分析时可以看到这些值的结果。

表8-16 Contrast Results (K Matrix)

工作经验(年) Simple Contrast

Contrast Estimate

Level1 vs level6

Std. Error

Sig.

Contrast Estimate

Level2 vs level6

Std. Error

Sig.

Contrast Estimate

Level 3 vs. Level 6

Std. Error

Sig.

Contrast Estimate

Level 4 vs. Level 6

Std. Error

Sig.

Contrast Estimate

Level 5 vs. Level 6

Std. Error

Sig. a. Reference category = 6

a

Dependent Variable

每小时薪水 -3.863 2.754 .161 -2.741 1.070 .010 -2.365 .468 .000 -1.585 .367 .000 -.367 .350 .295 仅从表8-16结果来看,虽然整体来说,1-5水平上的总体均值和第6水平上的均值有显著差异,但是具体检验每一水平的总体均值,我们发现水平1和水平6上总体均值没有显著差异(P值为0.161),水平5和水平6上总体均值也无显著差异(P值等于0.295),其他水平上总体均值有显著差异。

比较表8-14和表8-16,我们发现表8-16的P值偏大,有些结论也与表8-14背离,其原因是表8-14的结果是采用多重比较统计量,其标准误差的计算涉及全部水平的样本,因此更准确;而表8-16的结果采用是类似两独立样本t统计量,其标准误差的计算只用到了要比较均值的两个水平样本,精确度较差。例如,我们观察表8-14中level1和level6标准差是0.3737,而在表8-16中则为2.754,放大了8倍左右,因此两个表中检验的结论就不一致了。当两个表中结论不一致时,我们应该以精度更好的表8-14多重比较检验的结果为准,而表8-16的检验结果仅作为参考。这也是很多书籍在介绍多因素方差分析时仅介绍多重比较检验,不介绍对比检验的原因。

8.4 协方差分析

细心的读者比较例8-1和例8-2也许发现了问题:在例8-1中,年龄段对护士平均工资是有影响的,

第二篇 SPSS与统计基础统计分析

即护士每小时薪水在不同年龄段上其均值是显著差异的;但是在例8-2中,护士每小时薪水在不同年龄段上其均值变成不是显著差异的(见表8-12)。这是什么原因呢?为什么同样的观测变量只是多增加一个控制因素,其结论会出现180度的大转折?这些问题我们都将在本节给出答案。在本节中,我们沿用例8-1和例8-2的数据,只是研究方法用协方差分析进行研究。

本节我们依然采用具体例子结合理论模型的方法,以加深读者对协方差分析的理解。

8.4.1 引例:协方差分析的引入和概述

根据上面的问题描述,我们先提出本节的例题:

例8-3 在护士每小时薪水问题中,考察控制变量“工作经验”对控制变量“年龄范围”的影响,并继而检验这两个变量对观测变量每小时薪水的影响。检验当工作经验是已知时,年龄分为对每小时薪水的净作用,指出其是否显著。(数据见光盘8-3.sav) 本例中重点考虑的是控制变量之间的“互相影响的关系”,这在前面的单因素方差分析中由于控制变量只有一个,因而这种影响关系是不可能出现的;在多因素方差分析中这种影响关系可能出现,但是我们还没有考虑,在本节我们就需要重点分析和解决这种控制变量之间的影响关系。

就如本例中的情况一样,其实影响护士每小时薪水的控制变量很可能是“工作经验”,但是“年龄段”和工作经验是密切相关的,如果不考虑工作经验的情况下,检验年龄段对每小时薪水的影响,那么工作经验对薪水的影响就通过年龄段体现出来,从而年龄段对每小时薪水的影响就是显著的。其实质是工作经验对薪水的影响的一种间接表现。因此在同时考虑年龄段和工作经验作为控制变量时,真正对每小时薪水有影响的工作经验各水平上薪水均值显著差异,然而不是直接因素的年龄段各水平上薪水均值就差异不显著了。

协方差分析目的之一就是为了区别这两种情况而引入的方差分析方法。协方差分析的目的就是为了弄清楚控制因素对观测变量的影响到底是直接的影响还是通过某种变量之间的相互关系传递的影响。如果是传递的影响,那么扣除了传递的变量以后,控制因素对观测变量的影响还有多少,是显著还是不显著。

协方差分析目的之二是为了弄明白在控制因素之外其他变量对观测变量的影响。我们选定的控制因素都是容易控制的因素,就好像年龄段、工作检验等,但是实际问题是复杂的,有些变量的不同水平确实会对观测变量的取值产生影响,但是这些变量往往又不是人为可控的,比如护士的工作条件、护士的工作年限等等。因此,为更加准确研究控制变量对观测变量的影响,要尽可能扣除这些不可控变量的影响。为此可以从数据获取上想方法尽量消除这些不可控变量的作用,也可以从方法上着手,在数据分析时从方法上有效消除这些变量的作用,协方差分析就是这种方法。

协方差分析将观测变量的变化归结为四种影响的共同作用:控制变量的各自独立影响、控制变量交互作用的影响、协变量的影响以及随机因素的影响。协方差分析就要在分析观测变量方差时,扣除协变量影响的方差后,再分析控制变量对观测变量的影响。下面我们就来看看协方差分析的数学模型:

单因素协方差分析的数学模型为:

Xij????i??Zij??ij,i?1,2,...,k;j?1,2,...,ni

式中,?i是控制变量各水平对观测变量样本的影响,Zij是协变量对应于观测变量的取值,?是协变量对观测变量的影响系数,而?ij是服从正态分布的随机误差,从模型上看,协变量是间隔尺度变量,

『 22 』 第8章 方差分析

因此协方差分析中,同时涉及间隔尺度和顺序尺度变量,其方法是采用一种类似线性回归的方法,将观测变量总方差中由协变量能够解释的方差扣除,再利用一般方差分析的方法分析控制因素各水平对剩余的方差的组间方差是否显著大于组内方差。

协方差分析的假设检验模型过程:

给定原假设:原假设是协变量对观测变量影响不显著,即?=0;扣除协便利那个影响下,控制变量各水平上观测变量均值无显著差异。

给出检验统计量:检验仍然采用F统计量,统计量的构造为:

Fcov?SSregRSS/(n?2)

FANOVA?(RSS?SSE)/(k?1)

SSE/(n?k?1)式中第一个统计量是检验协变量对观测变量影响显著性的,第二个变量是检验控制变量各水平上观测变量均值是否显著差异的。

式中的SSreg和RSS分别代表回归平方和、残差平方和,是回归分析中的统计量,请读者参看第10章模型显著性检验相关内容,假设检验采用的是先对观测变量和协变量进行回归,检验回归模型是否显著,同时得到残差平方和RSS,RSS中不再含有协变量的信息,但是含有控制变量的影响,再利用RSS进行方差分析,在协方差分析中,观测变量总方差有如下关系:

SST?SSreg?SSA?SSE

其中SSA+SSE=RSS,在原假设为真时,第一统计量服从自由度为1和n-2的F分布,第二统计量服从自由度为k-1和n-k-1的F分布,SPSS会自动计算统计量的观测值并给出相应的概率P值,运用P值就可以完成假设检验了。

8.4.2 协方差分析的SPSS实现

下面我们来看如何进行SPSS协方差分析:

Step1:选择【Analysis】菜单→【General Linear Model】菜单→【Univariate】菜单

在图8-9的主对话框中,Dependent Variable框中代表观测变量,Fixed Factor(s):代表固定效应,即人为可控的控制变量,Random Factor(s):代表随机效应,即人为不可控制,但是取值是有限个,可以作为控制因素的控制变量。Covariate(s):代表协变量,对话框和8.3节介绍的完全相同。只是右边用于多重比较检验的按钮变灰了,说明该功能在协方差分析下不可用。

第二篇 SPSS与统计基础统计分析

此功能不可用 协变量框 图8-9 协方差分析对话框

Step2:选择观测变量、控制变量和协变量

如图所示,将“每小时薪水(hourwage)”选入观测变量Dependent Variable框,将“年龄范围(agerange)”选入控制变量Fixed Factor(s)框,将“工作年限(wkyear)”选入协变量Covariable(s)框中。

Step1:进行其他选项设置

可以看到除了多重比较检验不能进行,其他方差分析的进一步分析都是可以完成的,和多因素方差分析的进一步分析相同,这里就不再选择了。设置完成后点击

完成操作。

8.4.3 协方差分析的结果分析

下面我们看协方差分析的结果,结果显示在表8-17和表8-18中

表8-17 Between-Subjects Factors

Value Label N 1 18-30

年龄范围 2 31-45

3 46-65 463 1581 861 表8-18 每小时薪水Tests of Between-Subjects Effects Source

Corrected Model

Type III Sum of Squares df 8514.775 126080.742 7622.209 1059.284 37210.384 1212465.903 45725.160 a

Mean Square 2838.258 126080.742 7622.209 529.642 12.827

F 221.277 9829.520 594.243 41.292

Sig. .000 .000 .000 .000

3 1 1 2 2901 2905 2904

wkyear agerange Error Total

Corrected Total a. R Squared = .186 (Adjusted R Squared = .185)

『 24 』 第8章 方差分析

从检验结果看,表8-17列出各年龄段护士的样本数,分别是463、1581和861,控制变量各水平上样本数并不相同。表8-18列出协方差分析的统计量观测值和对应P值,和表8-4比较,可以看到总方差基本相同,有差别是因为缺失数据造成的,但是组内方差Error项值为37210.384,比表8-4组内方差Within Groups项值45614.257明显减小,这是因为协方差分析中组内方差即控制变量不能解释的方差中,有一部分被协变量解释了。从统计量结果来看,协变量对观测变量的影响是显著的,P值接近0,而年龄段各水平上观测变量的均值也是显著差异的,P值也接近0。这说明即使扣除工作年限的因素,年龄仍然是影响护士每小时平均薪水的重要因素。

【本章知识点】

单因素方差分析是两独立样本参数检验在多样本情形下的推广。和参数检验一样,单因素方差分析也有适用条件,在满足条件的情况下才能够利用方差分析比较多个总体的均值是否相等。需要注意的是,在方差分析涉及两个变量:观测变量和控制变量,一般来说,观测变量是间隔尺度而控制变量是顺序尺度或名义尺度。

方差分析也是一种假设检验,因此也遵循假设检验的一般步骤,方差分析采用F统计量。读者需要了解方差分析F统计量的构造,理解方差分析中关于总方差的分解,因为这是一种重要的统计思想,在后面的章节中还会反复用到。

多因素方差分析是单因素方差分析的推广,将控制变量由一个变为多个。读者需要注意是多因素方差分析除需要检验单个变量的效应以外,还需要检验变量之间的交互效应,因此,模型更加复杂;另外,多因素方差分析分为完全模型和不完全模型,读者需要了解其中的差别。

协方差分析是分析扣除协变量影响之后,控制变量对观测变量的影响,读者需要了解协方差分析的基本思想。

对于三种方差分析读者需要掌握其SPSS操作和结果解释,特别是对观测显著水平P值的理解。能够运用P值进行进行统计检验,并解决实际问题。

【思考与练习】

1. 方差分析是如何利用方差的分解来说明多个总体均值的差异的?

2. 单因素方差分析适用条件是什么?单因素、多因素、协方差分析其模型有哪些差别?

3. 将协方差分析和一般方差分析(单因素或多因素)想对比,可以说明协变量的影响吗?如何说明?

4. 数据8-4.sav是有关产品销售和广告方式及销售地区的数据,分别以广告方式和销售地区作为控制变量进行单因素方差分析,并完成操作,说明结果。

第二篇 SPSS与统计基础统计分析

5. 基于数据8-4.sav,完成多因素方差分析,并说明结果。

6. 数据8-5.sav是有关养猪体重增加的数据,请将小猪体重作为协变量,进行协方差分析。并与一般单因素方差分析做比较,阐述结果的差异说明了什么?

本文来源:https://www.bwwdw.com/article/fqig.html

Top