用REG过程进行回归分析

更新时间:2023-09-13 01:32:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

一、用REG过程进行回归分析

SAS/STAT中提供了几个回归分析过程,包括REG(回归)、RSREG(二次响应面回归)、ORTHOREG(病态数据回归)、NLIN(非线性回归)、TRANSREG(变换回归)、CALIS(线性结构方程和路径分析)、GLM(一般线性模型)、GENMOD(广义线性模型),等等。我们这里只介绍REG过程,其它过程的使用请参考《SAS系统――SAS/STAT软件使用手册》。 REG过程的基本用法为:

PROC REG DATA=输入数据集 选项; VAR 可参与建模的变量列表; MODEL 因变量=自变量表 / 选项; PRINT 输出结果; PLOT 诊断图形; RUN;

REG过程是交互式过程,在使用了RUN语句提交了若干个过程步语句后可以继续写其它的REG 过程步语句,提交运行,直到提交QUIT语句或开始其它过程步或数据步才终止。

例如,我们对SASUSER.CLASS中的WEIGHT用HEIGHT和AGE建模,可以用如下的简单REG 过程调用:

proc reg data=sasuser.class; var weight height age; model weight=height age; run;

就可以在输出窗口产生如下结果,注意程序窗口的标题行显示“PROC REG Running”表示REG 过程还在运行,并没有终止。 See output

AGE的作用不显著,所以我们只要再提交如下语句: model weight=height; run;

就可以得到第二个模型结果: See output

事实上,REG提供了自动选择最优自变量子集的选项。在MODEL语句中加上“SELECTION= 选择方法”的选项就可以自动挑选自变量,选择方法有NONE(全用,这是缺省)、FORWARD (逐步引入法)、BACKWARD(逐步剔除法)、STEPWISE(逐步筛选法)、MAXR(最大 ( 选择法)、ADJRSQ(修正 比如,我们用如下程序:

增量法)、MINR(最小

增量法)、RSQUARE

统计量法)。

选择法)、CP(Mallows的

model weight=height age / selection=stepwise; run;

可得到如下结果:

See output

可见只有变量HEIGHT进入了模型,而其它变量(AGE)则不能进入模型。 REG过程给出的缺省结果比较少。如果要输出高分辨率诊断图形的话需要在PROC REG 过程语句中加上GRAPHICS选项,用PRINT语句和PLOT语句显示额外的结果。为了显示模型的预测值(拟合值)和95%预测界限,使用语句 print cli; run;

得到如下的结果:

See output

各列分别为观测序号(Obs),因变量的值(Dep Var),预测值(Predict Value),预测值的标准误差(Std Err Predict),95%预测区间下限(Lower 95% Predict),95%预测区间上限(Upper 95% Predict),残差(Residual,为因变量值减预测值)。在表后又给出了残差的总和(Sum of Residuals),残差平方和(Sum of Squared Residuals),预测残差的平方和(Predicted Resid SS (Press))。所谓预测残差,是在计算第 i号观测的残差时从实际值中减去的预报值是用扣除第i号观测后的样本得到的模型产生的预报值,而不是我们一般所用的预测值(实际是拟合值)。第i号样本的预测残差还可以用公式

来计算,其中

角线元素。

用print cli列出的是实际值的预测界限,还可以列出模型均值的预测界限,使用 print clm; run;

为帽子矩阵

的第 i个主对

语句。在PRINT语句中可以指定的有ACOV, ALL, CLI, CLM, COLLIN, COLLINOINT, COOKD, CORRB, COVB, DW, I, INFLUENCE, P, PARTIAL, PCORR1, PCORR2, R, SCORR1, SCORR2, SEQB, SPEC, SS1, SS2, STB, TOL, VIF, XPX,等等。 对于自变量是一元的情况,可以在自变量和因变量的散点图上附加回归直线和均值置信界限。比如,

plot weight * height / conf95; run;

可以产生图 4,在图的上方列出了模型方程,右方还给出了观测个数、 正

、修

、均方误差开根。在PLOT语句中可以使用PREDICTED. 、RESIDUAL.等特

殊名字表示预测值、残差等计算出的变量,比如,在自变量为多元时无法作回归直线,常用的诊断图表为残差对预测值图,就可以用 plot residual. * predicted.; run;

绘制。为了绘制学生化残差的图形,可以用

plot rstudent. * obs.; run;

回归分析的其它用法及进一步的诊断方法请参考有关统计书籍和SAS使用手册。

二、SAS常用程序——回归分析

相关与回归分析的SAS程序

一元回归分析

1 一元线性回归分析

例 1 数据见解答中程序,求出一元回归方程、检验回归显著性并求出回归及预测值的0.95置信区间。

解: 使用PROC REG过程进行分析,SAS程序如下: options linesize = 76; data soil;

input salt dw @@; cards;

0 80 0.8 90 1.6 95 2.4 115 3.2 130 4.0 115 4.8 135 proc reg; model dw = salt; run;

输出结果见output。

第一部分是对回归所做的方差分析,第二部分给出了截距(表中的INTERCEP),即回归方程中的常数项a,和回归系数b(表中的SALT)。可以得出回归方程:

Y = 81.785714 + 11.160714X

并给出在H0: ?(?) = 0下,对a和b所做的t检验。 为了得到残差和置信区间,可以将过程步做以下补充: proc sort out = sorted; by salt; run;

proc reg data = sorted; model dw = salt / r clm; id salt; run;

PROC SORT 语句是要对最新创建的数据集soil进行排序。PROC SORT语句中必须使用BY语句,用来说明对哪一个变量排序。“OUT=” 后面是排序后新数据集的名称。

在MODEL语句中有许多选项,其中的几个选项如下: CLM 回归估计值0.95置信区间的上界和下界。 CLI 因变量预报值的0.95置信区间。

P 由输入数据和回归方程计算预报值。输出观测序号,ID变量(需事先规定ID语句),实际值,预报值和残差。如果已规定了CLM、CLI或R,选项P就不需要了。

R 要求残差分析,输出包括选项P的一切内容外,还有其它一些分析(见例题)。

ID SALT语句的含义是在输出预报值和残差时,把SALT的值也列上而且从小到大顺序以上程序的输出结果见output。 排队。

2 一元线性回归的图形描述

例 2 绘出上例所给出数据的散点图、回归线及置信区间。 解: 绘制散点图和回归线的过程步如下: symbol value = star i = rl width = 2 ; proc gplot; plot dw*salt; run;

上面的SYMBOL语句是规定作图功能的选项,value = star是表示以星号代表散点,i = rl 表示画回归直线,width = 2是回归线要宽一些(缺省时=1)。输出结果见graph1。

只要对上述程序稍做修改,即可得到回归估计值和因变量预报值的0.95置信区间。 symbol1 ci = black i = rlclm95 width = 1; symbol2 ci = black i = rlcli95 width = 2; proc gplot;

plot dw*salt dw*salt / overlay; run;

因为这里是两个图绘在同一幅上,所以使用选项overlay。输出结果见graph1。

3 一元非线性回归

例 3 对所给数据进行变换,并求出回归方程。

解:

options linesize = 76; data mutant; input x y @@; x = log10(x); y = log10(y); cards;

28 8 32 12 40 18 50 28 60 30 72 55 80 61 80 85 85 80 run; proc reg; model y = x; run;

这里使用赋值语句x = log10(x)和y = log10(y)对数据进行变换。除常用对数外,SAS还提供许多其它函数。如,指数函数exp(x),自然对数log(x),反正弦函数arsin(x),标准正态分布函数probnorm(x)等。

以上程序输出结果见output。

多元回归分析的SAS程序

1多元回归方程计算

多元回归方程的SAS程序与一元回归方程的SAS程序类似,只是变量个数有所增加,这里不再详述,只给出一个示范例子,数据丢失,请自己找个例子做。 例1 计算所给数据中萎蔫度Y在蛋白和脯氨酸含量上的多元回归方程。 解:

options linesize = 76; data mulreg; infile ‘a:\\2-8data.dat’;

input y r1 r7 r8 r15 l3 l9 pro; run; proc reg;

model y = r1 r7 r8 r15 l3 l9 pro; run;

输出结果见output。 2逐步回归分析

逐步回归分析过程是不断向方程中引入变量和剔除变量的过程。因此逐步回归的SAS程序,只要在全回归的MODEL语句中加入有关选项即可。 例2数据同上进行逐步回归分析。 解:对例2.20的过程步做如下修改: proc reg;

model y = r1 r7 r8 r15 l3 l9 pro / selection = stepwise slentry = 0.20 slstay = 0.20; run;

MODEL语句中的选项“SELECTION=”规定所选模型,这里选用逐步回归。选项“SLENTRY=”(或SLE=)规定变量被选入模型中的显著水平,缺省值是0.15;选项“SLSTAY=”(或SLS=)规定变量被保留在模型中的显著水平,缺省值是0.15。 输出结果见output。

根据需要通过改变“SLE=”和“SLS=”的值,确定方程中保留变量的个数。

除去上面介绍的PROC REG过程外,还可以用PROC GLM过程进行回归分析,关于PROC GLM过程,这里不再介绍了。

阅读材料 1多元线性回归

REG过程不仅可以完成只有一个自变量的简单直线回归,还可以作含有多个自变量的多元线性回归。作多元线性回归时REG过程的语法格式与简单直线回归的语法几乎完全相同,只要把要分析的多个自变量名放在MODEL语句中应变量后

即可。因为多元线性回归时一般要作自变量的筛选,涉及到MODEL语句的选项,现将多元线性回归常用的选项介绍如下:

语法选项

1. SELECTION=method,规定变量筛选的方法,method可以是以下几种选项

o FORWARD(或F),前进法,按照SLE规定的P值从无到有依次选一个变量进入模型 o BACKWARD(或B),后退法,按照SLS规定的P值从含有全部变量的模型开始,

依次剔除一个变量

o STEPWISE(或S),逐步法,按照SLE的标准依次选入变量,同时对模型中现有的

变量按SLS的标准剔除不显著的变量

o NONE,即不选择任何选项,不作任何变量筛选,此时使用的是含有全部自变量的全

回归模型

2. SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,

逐步法是0.15

3. SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐

步法是0.15

4. 标准化偏回归系数 STB 可用来比较各个自变量作用的大小

5. COLLIN 要求详细分析自变量之间的共线性,给出信息矩阵的特征根和条件数,来判断自变量之间有无多重共线性。

应用实例

例8.3 现有20名糖尿病人的血糖(y,mmol/L)、胰岛素(X1,mU/L))及生长素(X2,μg/L)的测量数据列于中,试进行多元线性回归分析(卫生统计第四版例11.1)。

20名糖尿病人的血糖、胰岛素及生长素的测量数据

病例号i 血 糖 y 胰岛素X1 生长素X2

1

2 3 4 5 6 7 8

12.21 14.54 12.27 12.04 7.88 11.10 10.43 13.32

15.20 16.70 11.90 14.00 19.80 16.20 17.00 10.30

9.51 11.43 7.53 12.17 2.33 13.52 10.07 18.89

9 10 11 12 13 14 15 16 17 18 19 20 平均值 19.59 9.05 6.44 9.49 10.16 8.38 8.49 7.71 11.38 10.82 12.49 9.21 10.85 5.90 18.70 25.10 16.40 22.00 23.10 23.20 25.00 16.80 11.20 13.70 24.40 17.77 13.14 9.63 5.10 4.53 2.16 4.26 3.42 7.34 12.75 10.88 11.06 9.16 8.94

假设上表的资料已建立文本文件c:\%user\\li4_1,调用REG过程拟合多元回归方程,程序如下:

Libname a ‘c:\%user’;

data a.bk4_1;

infile ‘c:\%user\\li4_1’; input id y x1 x2@@; proc reg data=a.bk4_1; model y=x1 x2/stb;

model y=x1 x2/ selection=stepwise stb;

run;

REG过程中MODEL语句可以交互使用,本例我们建立了两个模型,第一个model没有作变量筛选,建立一个含有两个自变量的方程,并输出标准化偏回归系数。第二个model指定逐步回归法筛选变量。程序运行的主要结果如下:

Model:model1 模型1 Dependent Variable:Y

Analysis of Variance 回归模型的方差分析 Sum of Mean

Source DF Squares Square F Value Prob>F 变异来源 自由度 离均差平方和 均方 F值 P值 Model 2 116.62646 58.31323 21.539 0.0001

Error 17 46.02494 2.70735 C Total 19 162.65140

误差的均方根 Root MSE 1.64540 决定系数 R-square 0.7170 应变量的均数 Dep Mean 10.85000 调整的决定系数 Adj R-sq 0.6837 应变量的变异系数 C.V. 15.16500

Parameter Estimates 以下是参数估计和假设检验(t检验法)

Parameter Standard T for H0: Standardized Variable DF Estimate Error Parameter=0 Prob > |T| Estimate 变量名 自由度 参数估计值 估计值的标准误Sb t值 P值

截距 INTERCEP 1 17.010824 2.47237134 6.880 0.0001 0.00000000 X1 1 -0.405907 0.09412204 -4.313 0.0005 -0.74340924 X2 1 0.097669 0.11588150 0.843 0.4110 0.14528940 Model:model2(模型2)

Dependent Variable:Y(应变量名)

Analysis of Variance Sum of Mean

Source DF Squares Square F Value Prob>F Model 1 114.70324 114.70324 43.060 0.0001 Error 18 47.94816 2.66379 C Total 19 162.65140

Root MSE 1.63211 R-square 0.7052 Dep Mean 10.85000 Adj R-sq 0.6888 C.V. 15.04250

Parameter Estimates

Parameter Standard T for H0: Standardized Variable DF Estimate Error Parameter=0 Prob > |T| Estimate INTERCEP 1 18.796143 1.26472741 14.862 0.0001 0.00000000 X1 1 -0.458520 0.06987466 -6.562 0.0001 -0.83976728

REG过程拟合带截距项的直线回归方程,用最小二乘法估计模型的参数,并给出模型及参数的方差分析和t检验。本例的两个模型检验P值都小于0.05,模型有统计学意义。模型1含有两个自变量,其截距项和X1检验有统计学意义,X2的检验无统计学意义。模型2为逐步回归法,只纳入了X1。比较两个模型的决定系数,模型1因含有两个自变量,决定系数比模型2要大,但因为模型纳入了不显著的自变量X2,导致它的调整决定系数反而较小,所以我们选择模型2,回归方程:Y=18.796-0.459X1。

2 logistic回归

如果应变量为分类的变量,则不符合一般回归分析模型的要求,可用logistic回归来分析。Logistic回归按反应变量的类型分为:

? ? ?

两分类的Logistic回归

多分类有序反应变量的Logistic回归 多分类无序反应变量的Logistic回归

按照设计类型可分为:

? ?

非条件Logistic回归,即研究对象未经过配对 条件Logistic回归,即研究对象为1:1或1:m配对

简单的Logistic回归需调用SAS中LOGISTIC过程完成,一些较复杂的则需要调用CATMOD过程来实现。本节我们重点介绍LOGISTIC过程的用法,通过实例说明如何实现简单的Logistic回归分析。

语法格式

PROC LOGISTIC [DATA=数据集名] [选项]; MODEL 应变量名=自变量名列/ [选项];

[BY <变量名列>; FREQ <变量名>; WEIGHT <变量名>;

OUTPUT ...;]

语法说明

LOGISTIC过程,用最大似然法对应变量拟合一个Logistic模型。除了PROC 和MODEL语句为必需,其他都可省略。 【过程选项】

? ? ?

OUTEST=数据集名 指定统计量和参数估计输出的新数据集名。 NOPRINT 禁止统计结果在OUTPUT视窗中输出。

ORDER=DATA|FORMATTED|INTERNAL 规定拟和模型的应变量的水平

顺序

DATA :应变量的顺序与数据集中出现的顺序一致

FORMATTED:按照格式化值的顺序,为默认的选项,相当于应变量所赋

值的大小顺序 INTERNAL:按照非格式化值的顺序

? DESCENDING|DES 颠倒应变量的排列顺序,如果同时指定了选项

ORDER,则系统先按照ORDER规定的顺序排列,然后则降序排列。就是说,如果应变量的赋值,死亡为1,存活0,为了得到死亡对存活的概率(或者说是死亡的风险),应选择此选项,否则得到的是存活对死亡的概率。 【MODEL语句】

MODEL语句指定模型的自变量、应变量,模型选项及结果输出选项,如要拟和交互作用项,需先产生一个表示交互作用的新变量。可以拟合带有一个或多个自变量的Logistic回归模型,用最大似然估计法估计模型的参数,打印出模型估计的过程和模型参数的可信区间。 MODEL语句中常用的选项有:

? ?

NOINT 在模型中不拟合常数项,在条件的Logistic回归中用到。

SELECTION= FORWARD(或F)| BACKWARD(或B)| STEPWISE|SCORE 规定变量筛选的方法,分别为向前、向后、逐步和最优子集法。缺省时为NONE,拟合全回归模型。

? ? ? ? ?

SLE=概率值,指定变量进入模型的显著水平,缺省为0.05 SLS=概率值,指定变量保留在模型的显著水平,缺省为0.05 CL|WALDCL,要求估计所有回归参数的可信区间 CLODDS=PL|WALD|BOTH, 要求计算OR值的可信区间 PLRL,对所有自变量估计OR的可信区间

应用实例

例8.4 某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析。 表中有关符号意义说明:

i: 样品序号

x1:确诊时患者的年龄(岁)

x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级

x3:肾细胞癌组织内微血管数(MVC)

x4:肾癌细胞核组织学分级,由低到高共Ⅳ级 x5:肾细胞癌分期,由低到高共Ⅳ期

y: 肾细胞癌转移情况(有转移y=1; 无转移y=0)。

26例行根治性肾切除术患者的肾癌标本资料

i 1 2 3 4 5 6 7 8 9

X1 59 36 61 58 55 61 38 42 50

X2 X3 X4 X5 1 1 1 3 4 1 1 2 1 2 2 3 1 1 1 1 3 3 1 3 4 4 3 3 3 3

Y 0 0 0 1 1 0 0 0 0 0 0 1 0 0 1 0 1 0 0 1 1 0 1 0 0 1

2 43.4 2 1 57.2 1 2 190.0 2 3 128.0 4 3 80.0 3 1 94.4 2 1 76.0 1 1 240.0 3 1 74.0 1 3 68.6 2 3 132.8 4 2 94.6 4 1 56.0 1 1 47.8 2 3 31.6 3 1 66.2 2 3 138.6 3 1 114.0 2 1 40.2 2 3 177.2 4 2 51.6 4 2 124.0 2 3 127.2 3 2 124.8 2 1 128.0 4 3 149.8 4

10 58 11 68 12 25 13 52 14 31 15 36 16 42 17 14 18 32 19 35 20 70 21 65 22 45 23 68 24 31 25 58 26 60

本题的应变量为二分类变量,用最简单的logistic回归模型进行配合,采用逐步筛选法筛选变量,程序如下:

libname a 'c:\%user';

data a.bk4_2;

input x1-x5 y;

定义X1,X2,X,X4,X5和Y五个变量。

cards; 59 2 43.4 2 1 0

...

60 3 149.8 4 3 1

proc logistic des;

model y=x1-x5/ selection=stepwise;

run;

选项des指定按照y=1|y=0的 概率来拟合模型

用逐步回归法拟合模型

过程名后面如果不指定选项DES,则系统按照Y=0的概率拟和模型(Y=0|Y=1),可尝试一下去掉此选项,会发现不仅应变量的排序水平颠倒了,而且所有的参数估计符号相反,OR值为原来的倒数。程序运行的主要输出结果如下:

The LOGISTIC Procedure

Data Set: A.BK4_2 计算所用的数据集名 Response Variable: Y 应变量

Response Levels: 2 应变量的水平数 Number of Observations: 26 观察单位数 Link Function: Logit 联系函数 Response Profile Ordered

Value Y Count 1 1 9 2 0 17

根据ORDER和DES选项对应变量的重新排序,给出排序值和及每个水 平相应的例数,拟合排序为1对应的应变量水平的概率 Model Fitting Information and Testing Global Null Hypothesis BETA=0 对模型的总的检验,无效假设为总体的β=0, Intercept Intercept and

Criterion Only Covariates Chi-Square for Covariates AIC 35.542 17.826 . SC 36.800 21.600 .

-2 LOG L 33.542 11.826 21.716 with 2 DF (p=0.0001)(相当于似然比χ2检验)

Score . . 15.844 with 2 DF (p=0.0004)(相当于Pearsonχ2检验)

模型的总的检验,P值均小于0.05,故模型总体有意义。 Analysis of Maximum Likelihood Estimates

Parameter Standard Wald Pr> Standardized OddS Estimate Error Chi-Square Chi-Square Estimate Ratio

Variable DF 比

INTERCPT 1 X2 1 X4 1

自由度 参数估计 标准误 Waldχ2 P值 标准化回归系数 比值

-12.3285 5.4305 5.1540 0.0232 . . 2.4134 1.1960 4.0719 0.0436 1.185510 11.172 2.0963 1.0879 3.7131 0.0540 1.230697 8.136

Association of Predicted Probabilities and Observed Responses 预测数和观测数的关联性分析 Concordant = 94.1% Somers' D = 0.902 Discordant = 3.9% Gamma = 0.920 Tied = 2.0% Tau-a = 0.425 (153 pairs) c = 0.951

最后一部分是关于预测概率和观察到的结果的关联性,包括对不同结果的个数和四种秩相关指数的分析。

逐步回归法筛选出两个有意义的变量X2和X4,其P值都小于0.05,回归系数β分别为2.4134,2.0963,比数比分别为11.172,8.136,事实上,比数比OR=ebeta。 据此,写出本例的回归方程如下:LogitP=-12.3285+2.4134X2+2.0963X4。 上面的方程中X4的P值大于0.05,但没有被剔除出去,这是因为所采用的筛选方法为Stepwise,X4的P值并没有超过剔除标准,因此仍在方程内。结合专业,最终的方程仍然保留了X4。

本例用逐步回归法筛选出对患肾细胞癌有意义的危险因素有两个,肾细胞癌血管内皮生长因子(VEGF)的等级越高,肾癌细胞核组织学分级越高,患肾细胞癌的危险越大。比较两个标准化回归系数,X2对于患肾细胞癌的影响要大于X4。

3 glm过程

glm过程也存在于stat模块中,它执行以最小二乘法进行模型拟合的功能。以此过程可以实现的统计学方法有回归分析、方差分析、协方差分析、多元方差分析以及偏相关分析。

glm过程对数据的分析处理均在一般线性模型的框架下进行,反应变量可以为一个或多个连续型变量,自变量可为连续型也可为离散型。

glm过程的一般格式如下:

PROC GLM < 选项列表 > ; CLASS 变量名列表 ; MODEL 应变量=自变量列表 < / 选项列表 > ; ABSORB 变量名列表 ; BY 变量名列表 ; FREQ 变量名列表 ; ID 变量名列表 ; WEIGHT 变量名列表 ; CONTRAST '标记' 效应表达式 常数向量 < ... 效应表达式 常数向量 > < / 选项列表 > ; ESTIMATE '标记' 效应表达式 常数向量 < ... 效应表达式 常数向量 > < / 选项列表 > ; LSMEANS效应表达式< / 选项列表 > ; MANOVA < 检验选项 >< / 详细选项 > ; MEANS 效应表达式 < / 选项列表 > ; OUTPUT < OUT=数据集名 > keyword=names < ... keyword=names > < / 选项 > ; RANDOM效应表达式 < / 选项列表 > ; REPEATED 因素表达式 < / 选项列表 > ; TEST < H=变量表达式> E=变量表达式< / 选项列表 > ; Proc glm语句标志glm过程的开始,此句后的选项可有以下项目。

DATA=数据集名 ALPHA=p MANOVA MULTIPASS NAMELEN=n NOPRINT ORDER=DATA | FORMATTED | FREQ | INTERNAL OUTSTAT=SAS-data-set 可以看到此选项列表仅比anova过程的多了一个项目,即“alpha=p”选项,此选项用来指定计算过程中所采用的显著性水平。其余选项的用法和含义与anova过程的相同,这里

不再多说了。

大家可以比较一下glm过程和anova过程所涉及的语句,anova过程中涉及的所有语句都包含在glm过程所涉及的语句中,其用法和功能也都是基本相同的,这一部分语句这里就不再赘述。

Contrast语句使你可以用自定义的方式进行假设检验,它必须出现在model语句之后,如果用到manova语句、repeated语句、random语句或test语句,contrast语句必须出现在这些语句之前。标记用来标识所进行的检验,用以标识的文字或符号需用单引号括起来。效应表达式用以指定假设检验的因素(组合),这些因素(组合)必须是model语句中出现过的。效应表达式后的常数向量用以指定相应因素(组合)各水平的值,在指定各水平的情况下进行相关因素的分析。

Estimate语句可实现对线性方程的估计,它也必须出现在model语句之后,使用的规则和contrast语句基本相同。其中的语句元素的含义和用法也与contrast语句相同。

Lsmeans语句用以指示SAS对指定的因素(组合)计算应变量的最小二乘均数并输出到结果中。

Output语句我们在以前的内容中接触过,其功能和用法和以前的内容也基本相同,各位请参考以前的内容使用。

Random语句用以指定哪些因素(组合)是随机变量,即相对于这些因素(组合),样本是来自于正态总体的随机样本,这样SAS可对相应因素(组合)作随机效应模型的分析。

对以上几条语句的理解完全来自SAS的帮助文件,由于专业知识深度不够以及英语水平有限的原因,以上关于这几种语句的内容会存在很多的错误与偏差,还请各位多多谅解,也希望各位能多多指点。进一步的内容我会给出及时的更新。

不再多说了。

大家可以比较一下glm过程和anova过程所涉及的语句,anova过程中涉及的所有语句都包含在glm过程所涉及的语句中,其用法和功能也都是基本相同的,这一部分语句这里就不再赘述。

Contrast语句使你可以用自定义的方式进行假设检验,它必须出现在model语句之后,如果用到manova语句、repeated语句、random语句或test语句,contrast语句必须出现在这些语句之前。标记用来标识所进行的检验,用以标识的文字或符号需用单引号括起来。效应表达式用以指定假设检验的因素(组合),这些因素(组合)必须是model语句中出现过的。效应表达式后的常数向量用以指定相应因素(组合)各水平的值,在指定各水平的情况下进行相关因素的分析。

Estimate语句可实现对线性方程的估计,它也必须出现在model语句之后,使用的规则和contrast语句基本相同。其中的语句元素的含义和用法也与contrast语句相同。

Lsmeans语句用以指示SAS对指定的因素(组合)计算应变量的最小二乘均数并输出到结果中。

Output语句我们在以前的内容中接触过,其功能和用法和以前的内容也基本相同,各位请参考以前的内容使用。

Random语句用以指定哪些因素(组合)是随机变量,即相对于这些因素(组合),样本是来自于正态总体的随机样本,这样SAS可对相应因素(组合)作随机效应模型的分析。

对以上几条语句的理解完全来自SAS的帮助文件,由于专业知识深度不够以及英语水平有限的原因,以上关于这几种语句的内容会存在很多的错误与偏差,还请各位多多谅解,也希望各位能多多指点。进一步的内容我会给出及时的更新。

本文来源:https://www.bwwdw.com/article/yeih.html

Top