统计实验与SAS上机简易过程步
更新时间:2023-12-21 22:59:01 阅读量: 教育文库 文档下载
- 统计证书怎么考推荐度:
- 相关推荐
数据统计分析一般可遵循以下思路:
(1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:①差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。②相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。③影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox回归等。
(2)明确数据类型,根据数据类型进一步确定方法:①定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。②分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。下图简要列出了不同研究目的、
不同数据类型常用的统计分析方法。
(3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。
(4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理的专业结论。 第一部分:统计描述
1 / 12
1. 定量资料的统计描述指标及SAS实现; (1)数据分布检验:PROC UNIVARIATE
①基本格式:
②语句格式示例:
1. PROC UNIVARIATE normal;/*normal选项表示进行正态性检验*/ 2. CLASS group;/*指定group为分组变量*/ 3. VAR weight;/*指定分析变量为weight*/ 4. RUN;
③结果:正态性检验(tests for normality)结果,常用的是Shapiro-Wilk 检验和Kolmogorov-Smirnov检验。当例数小于2000时,采用Shapiro-Wilk检验W值为标准;当例数大于2000时,SAS中不显示Shapiro-Wilk检验结果,采用Kolmogorov-Smirnov检验D值为判断标准。正态性检验的P≤0.05提示不服从正态分布,P>0.05提示服从正态分布。
注:若服从正态分布,进行PROC MEANS过程步;若不服从则计算百分位数, 转(3)
(2)数据描述(符合正态分布的数据):PROC MEANS
①基本格式:
关键字(可以无视):不写任何关键字时默认输出n,mean,std,max,min; n:有效数据记录数(有效样本量) median:中位数
mean:均数 qrange:四分位数间距 std:标准差 var:方差
clm:95%可信区间 max、min:最大、最小值 ②语句格式示例:
1. PROC MEANS n mean std median qrange clm;/*关调用proc means过程,
要求输出的指标有例数、均值、标准差、中位数、四分位数间距、95%可信区间*/
2. CLASS group;/*指定group为分组变量*/ 3. VAR weight;/*指定分析变量为weight*/ 4. Run;
③结果以“均数±标准差”表示 (3)偏正态分布的统计描述:
①基本思想:计算中位数和百分位数,并且用“中位数(Q1~Q3)”表示 ②语句格式示例:
1. proc univariate data=aa; 2. var x;
3. output out=c pctlpre=P pctlpts=0 to 100 by 2.5;/*计算0到100
百分位数,间隔2.5个百分位数,并将结果输出在数据集“aa”中*/
2 / 12
4. run;
5. proc transpose data=c out=d; 6. proc print data=d;
7. run;/*以上是求解百分位数语句*/ 1. proc univariate data=aa
2. CIPCTLDF(alpha=0.05);/* 求百分位数的95%可信区间,(alpha=0.05)
此处可缺省;若需求可信区间,只需指定相应的alpha水平*/ 3. var x; 4. run;
③结果:a.偏态分布的统计描述以“中位数(Q1~Q3)”表示 b.总体参数的95%可信区间
2. 分类(定性)资料的统计描述指标及SAS实现 (1)输出频数表:PROC FREQ
①基本格式:
②语句格式示例: 1. PROC FREQ;
2. TABLE group * weight;/*table后有group和grade两个变量,交叉形
成一个行X列的表格,若group为2类,grade为3类,因此形成2X3=6个格子,每一格子中给出例数和相应比例*/ 3. RUN;
(2)直方图的绘制
①基本语句:histogram 变量x ②语句格式示例:
1. proc univariate; 2. var x;
3. histogram x/midpoints=163 to 183 by 2; /*要求Univariate过程绘
制的直方图中各直条的组中值为163、165、??183(自行改动)*/ 4. run;
(3)计算基本统计量和95%可信区间:PROC UNIVARIATE
①基本要求:计算定性资料的95%可信区间 ②语句格式示例:
1. proc univariate cibasic; /*基本统计量及其可信区间,对应于
CIBASIC选项*/ 2. var x; 3. run;
③结果:此步骤结果只需观察SAS结果中的“基本置信限正态假设”一栏,其他可无视。
3 / 12
第二部分:定量资料的统计分析 1.单一样本均数的检验 (1)直接公式编辑
①适用条件:没有原始数据,而只知道样本均数及已知总体的总体均数时 ②方法示例:某医生测量了36名从事某作业的男性工人的血红蛋白含量,其均值为130.83g/L,标准差为25.74g/L。问从事该作业男性工人的血红蛋白含量是否不同于正常成年男性的均值140g/L
③SAS过程步: 1. data aa; 2. n=36;
3. sm=130.83;/*样本均数*/ 4. std=25.74; /*样本标准差*/ 5. pm=140; /*总体均数*/ 6. df=n-1; /*自由度*/
7. t=(sm-pm)/(std/sqrt(n)); /*单样本t 检验的计算公式*/
8. p=(1-probt(abs(t),df))*2;/* ①abs(x)函数:返回x的绝对值。②
probt(x,df)函数:是student t分布的概率分布函数,用于计算自由度为df的t分布在t取x值时的概率。因为是做双侧检验,所以求得一侧的概率值后再乘以2*/ 9. proc print; 10.var t p; 11.run;
③结果使用t和p值
(2)利用MEANS或UNIVARIATE过程计算
①已知样本资料的原始数据,单样本t 检验可以利用MEANS过程和UNIVARIATE过程实现
②语句格式示例:
1. proc means mean std t ptr;
2. var y;/*y值为每一个观测值与已知总体均数的差值*/ 3. run;
或者
1. proc univariate;
2. var y;/*y值为每一个观测值与已知总体均数的差值*/ 3. run;
③方法类似于统计描述,结果指标为t和p值 2.完全随机两组正态分布资料的比较
①分析思路:两组比较属于差异性研究,再看是否正太,可考虑方法有独立样本的t检验或Wilcoxon秩和检验,具体还应进一步看资料的分布情况。
②正态性检验:
1. proc univariate normal; 2. class group; var x; 3. run;
若为正态性则可使用t检验,否则使用Wilcoxon秩和检验(见后文) ③t检验语句:
4 / 12
1. proc ttest 2. class group; 3. var x; 4. run;
④结果:观察t值和p值,给出结论 3.完全随机两组非正态分布资料的比较
①思路同上2,首先进行正态性检验;语句略 ②非正态分布时两组之间的秩和检验语句:
1. proc npar1way Wilcoxon;/*wilcoxon选项给出wilcoxon和
Kruskal-Wallis检验值*/ 2. class group; 3. var x; 4. run;
③秩和检验观察Z值和P值,得出结论 4.完全随机多组正态分布资料的比较
①前提是研究为完全随机设计,需要分析两组数据的变化值,因此可以考虑方差分析或Kruskal-Wallis秩和检验,具体还应进一步看资料是否符合正态分布;
②正态性检验确定具体分析方法,若为正态,使用方差分析,否则为Kruskal-Wallis秩和检验(非参数检验,见后文):正态性检验过程步略···
③方差分析:只有glm过程,anova过程请参考课件 1. proc glm; 2. class group; 3. model x=group;
4. means group/hovtest lsd;/*使用lsd法进行两两比较并给出p值*/ 5. run;
④根据两组之间p值是否有意义给出结论 5.完全随机多组非正态分布资料的比较
①同上思路,首先正态检验,不符合时候,使用多组之间的Kruskal-Wallis秩和检验;
首先进行秩和检验:
1. proc npar1way Wilcoxon;/*wilcoxon选项给出wilcoxon和
Kruskal-Wallis检验值*/ 2. class group; 3. var x; 4. run;
②多组非正态分布资料两两之间的比较的过程步:(原理:对研究变量的秩进行排序,用方差分析对秩次进行两两比较);
1. proc rank data=ex12_5 out=rank5; 2. var x; 3. run;
4. proc print data=ranks; 5. run;
6. proc glm data=ranks;
5 / 12
正在阅读:
统计实验与SAS上机简易过程步12-21
乡独特的民俗风情作文700字07-13
交通安全印我心作文800字06-15
我的星期天作文500字06-27
多普勒效应与多径衰落对移动通信的影响09-14
一件事对我的启示作文400字07-06
妈妈的手作文800字04-01
JG-T 172-2014 弹性建筑涂料03-27
欢欢喜喜过个年作文600字07-01
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 上机
- 简易
- 过程
- 统计
- 实验
- SAS
- 沪科版八年级物理全册6.4来自地球的力导学设计-2019年精选教育文档 - 图文
- 南华大学土木工程毕业设计计算书 - 图文
- 日照市真人CS野战运动基地简介 - 图文
- 阅读教学中“读”的浅探
- 公益慈善晚会策划方案
- 白朝小学七年级数学上册期末监测题
- 数据库安全性和完整性实验
- 商英一至八单元课文翻译
- 2014国家公务员面试热点中国式挤电梯
- 区二校《燕子妈妈笑了》第一课时 - 图文
- 心理学考研各大院校历年招生录取统计
- 蓝贝公司的基于KPI的绩效管理探析毕业论文
- 2019年计算机基础知识试题-精选
- 湖南师大附中2009届高三第三次月考英语试题
- 工程力学题库
- 计量经济学名词
- 第25课 两极世界的形成教案
- 会议相关说明
- 企业破产法
- 人教版四年级下册数学单元测试卷全册