方差分析的SAS操作

更新时间:2024-07-09 18:49:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

方差分析

常用于方差分析的主要过程有ANOVA和GLM(广义线性模

型),对于平衡数据资料(各水平下等重复,数据没有丢失),一般用ANOVA过程,对于非平衡数据,应采用GLM过程. 1、

ANOVA过程格式及使用说明

过程格式:

PROC ANOVA [选项]; CLASS 处理因素; MODEL 因变量=效应表[/选择项]; MEANS 效应表 [/选择项]; 过程说明:

◆ PROC ANOVA 语句的选项主要有:

DATA=数据集名 指明要分析的SAS数据集,缺省时SAS将使用最近建立的数据集.

OUTSTAT=输出数据集 ◆CLASS

指定分析计算结果输出的数据集名.

语句指明分类变量,是ANOVA过程的必需语句,并且

必须出现在MODEL语句之前. 分类变量可以为数值型或字符型,分类变量的个数表示方差分析的因素个数.

◆MODEL

语句定义分析所用的效应模型,即方差分析的因变量

和效应变量. 在方差分析过程中,关键在于定义线性数学模型,常用的模型定义语句有:

MODEL y=a 单因素一元方差分析

MODEL y=a b 双因素无交互作用一元方差分析 MODEL y=a b a*b 双因素有交互作用一元方差分析 ◆ MEANS(格式:因素/选择项)语句用来计算该语句所列的每个效应所对应的因变量均值,其选项用于设定多重比较的方法以及方差齐性检验。 可以选择的检验方法有:

(1)T/LSD法:对means语句中出现的所有因素的各水平进行两两T检验,当每一水平的观测数相等时,T检验变成Fisher的最小显著差检验。

(2)BON法:对MEANS语句中出现的所有因素的各水平均值之差进行Bonferroni的T检验。

(3)TUKEY法:对MEANS语句中出现的所有因素的各水平均值进行TUKEY的学生化极差检验。

(4)DUNCAN法:对MEANS语句中出现的所有因素的各水平均值进行DUNCAN的极差检验。

(5)REGWF法:对MEANS语句中出现的所有因素的各水平均值进行多重极差检验。

(6)HOVTEST:进行方差齐性检验。

2、GLM 即广义线性模型(General Liner Model)过程,它使用最小二乘法对数据拟合广义线性模型. 该过程功能强大,可用于多种不同的统计分析中. GLM过程用于方差分析时,主要语句和使用格式与上述ANOVA过程类似,详见例3.

一、单因素方差分析

1.单因素等重复方差分析(ANOVA过程)

应用举例:

编写程序如下:

Data exam; /* Do trt=1 to 3; Do I=1 to 5; Input x@@; Output; End; End; Cards; 40 46 38 42 44 26 34 30 28 32 39 40 43 48 50

; Proc sort ; By trt ; Run;

Proc univariate normal ; Var x ;

建立数据集*/

/*3个水平(trt)分别为1、2、3*/ /*每个水平下5次重复*/ By trt ; Run;

Proc anova; /*调用方差分析过程*/ Class trt; /*定义处理为分类变量*/

Model x=trt; /*定义效应模型*/

Means trt/t hovtest bon ; /*要求计算每一水平下的均值,进行方差齐性检验,多重比较T检验和BON检验*/ Run;

Title '方差分析';

Run;

补充:‘试验错误率MEER’与‘比较错误率CER’。 例如:

有5种施肥方法,均值做两两比较有10种组合,如要控制10种比较的总错判率,就称为“试验错误率”。

如果想对10种比较中的每一种都控制比较错判机会,就称为“比较错误率”。

2 在4种不同的肥料处理(k1 ,k2,k3,k4)下测得土

壤的含氮量(nit),每个处理下重复5次,分析各处理间土壤含氮量的均值是否有显著差异(数据见程序中).

Dm \

Data new2;

Input str$ nit@@; /*str表示处理,是字符型变量*/ Cards; /*每一个数据前的符号ki (i=1,2,3,4)表明该数据属于哪一个处理*/

k1 19.4 k1 32.6 k1 27 k1 32 k1 33 k2 17.7 k2 24.8 k2 27.9 k2 25.2 k2 24.3 k3 17 k3 19.4 k3 9.1 k3 11.9 k3 15.8 k4 20 k4 21 k4 20.5 k4 18.8 k4 18.6 ; Proc print;

Title \单因素方差分析\ Proc anova; Class str; Model nit=str; Run;

程序运行结果:

单因素方差分析 Dependent Variable: NIT

Sum of Mean

Source DF Squares Square F Value Pr > F Model 3 545.4920000 181.8306667 11.05 0.0004 Error 16 263.1680000 16.4480000 Corrected Total 19 808.660000

R-Square C.V. Root MSE NIT Mean 0.674563 18.60373 4.055613 21.80000

以上的方差分析表列出F值为11.05,显著性水平达到0.0004,小于0.01,表明各处理间差异极显著.

2.单因素不等重复的方差分析(GLM过程)

不等重复的单因素方差分析一般用GLM过程,该过程应用范围较广,用于方差分析时,主要处理非平衡数据. 应用举例: 编写程序为:

Dm \ Data new;

Input str$ x@@; /*x表示含销售量, Cards; A1 12 A1 18 A2 14 A2 12 A2 13 A3 19 A3 17 A3 21 A4 24 A4 30 ; Proc print;

Title \单因素不等重复方差分析\ Proc glm; Class str; Model x=str;

Run;

str表示包装处理*/ 程序运行结果:

单因素不等重复方差分析 General Linear Models Procedure Dependent Variable: X

Source DF Sum of Squares Mean Square F Value Pr > F Model 3 258.00000000 86.00000000 11.22 0.0071 Error 6 46.00000000 7.66666667 Corrected Total 9 304.00000000

R-Square C.V. Root MSE X Mean 0.848684 15.38264 2.76887462 18.00000000

由方差分析表中看到,组间平方和为258,组内平方和为46,总的平方和为304,F值为11.22,显著性水平达到0.007,包装不同对销售量的影响极显著. 二、双因素无交互作用方差分析 应用举例:

例4 编写程序为: Data new;

Do a='a1', 'a2', 'a3', 'a4'; Do b='b1','b2','b3'; Input y@@; Output; End; End; Cards;

164 172 174 155 157 147 159 166 158 158 157 153 ;

Proc print data=new; Run; Proc anova;

Class a b;

Model y=a b; Means a b/t bon; Run;

程序运行结果:

Analysis of Variance Procedure Dependent Variable: Y

Source DF Sum of Squares Mean Square F Value Pr > F Model 5 554.00000000 110.80000000 6.16 0.0234 Error 6 108.00000000 18.00000000 Corrected Total 11 662.00000000

R-Square C.V. Root MSE Y Mean 0.836858 2.651650 4.24264069 160.00000000

Source DF Anova SS Mean Square F Value Pr > F A 3 498.00000000 166.00000000 9.22 0.0115 B 2 56.00000000 28.00000000 1.56 0.2856

输出的第一个方差分析表表明两个因子方差分析模型是显著的,F=6.16,p=0.0234;第二张表中因素A的效应平方和为498,因素B的效应平方和为56,两者的F值分别为9.22和1.56,显著性水平分别为0.0115和0.2856,结果表明,施肥种类对产量的影响显著;而三个小麦品种对产量的影响不显著.

三、双因素有交互作用的方差分析 应用举例:

为研究广告效果,考察四种广告方式:当地报纸、当地广播、店内销售员和店内展示的效果。共设有144个销售点,每种广告方式随机地抽取36个销售点记录销售额,共得到6个地区的144个销售点的销售情况。试在显著性水平??0.1的条件下,分析广告方式和销售地区对广告效果是否有显著影响。

data ads ;

do ad='paper','radio','people','display' ; do area='1','2','3','4','5','6';

do i=1 to 6 ; input sales @@; output ; end; end; end; cards; 75 57 76 68 75 83 77 75 72 66 66 76 75 81 63 70 86 62 94 54 70 88 56 86 87 65 65 84 77 78 79 62 75 80 62 70 69 51 100 54 78 79 33 79 73

68 75 65 33 79 73 68 75 65 100 61 68 70 53 73 68 63 83 79 66 65 75 73 74 81 57 65

63 67 85

58 82 78 80 87 62 87 70 77 70 75 40 68 61 55 64 40 67 76 70 77 51 61 75 42 71 65 64 50 62 78 37 83

52 61 61

41 44 86 76 57 52 75 75 63 33 69 60 52 61 43 61 66 41

69 43 51 64 58 50 60 52 55 44 45 58 52 45 60

;

proc glm ; class ad area ;

model sales=ad area ad*area ; run; 练习:

1、 双因素有交互作用方差分析例题中,经检验交互作用不显

著,请进一步对该数据进行分析,能得出什么结论? 2、 见案例分析。

本文来源:https://www.bwwdw.com/article/8g2.html

Top