统计学思路
更新时间:2024-03-13 04:27:01 阅读量: 综合文库 文档下载
- 统计学就业方向及前景推荐度:
- 相关推荐
* 变量 (variable)
在搜集资料时,首先要根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量。如“身高”、“体重”、“疗效”、“性别”、“职业” 等都是变量。变量的观察结果或测量值称为变量值,变量按其值的性质可分为数值变量(numerical variable)和分类变量(categorical variable)。
数值变量的变量值是定量的,表现为数值的大小,通常是使用仪器或某种尺度测定出来的,多有度量衡单位。如身高(cm)、体重(kg)、心律(次/分)、住院天数(日)、血压(mmHg)等。由数值变量的测量值组成的资料称为数值变量资料(计量资料或定量资料)。大多数的数值变量为连续型变量,如身高、体重、血压等;而有的数值变量的测定值只是正整数。如心率、白细胞计数等,在医学统计学中把它们也视为连续型变量。
分类变量表现为互不相容的类别或属性,亦称定性变量。分类变量又可分为无序与有序两类。
1、无序分类变量是所分类别或属性之间无程度和顺序上的差别。如性别(男、女);血型(O、A、B、AB)等。无序分类变量的分析应先按类别分组,然后清点各组的观察单位数,编制分类资料的频数表,所得资料为无序分类变量资料(计数资料或定性资料)。它又有二项分类资料和多项分类资料之分。
1)二项分类资料:仅有两种类别或属性。如性别(男、女),化验结果(阴、阳性)等。
2)多项分类资料:两种以上的类别或属性。如血型(O、A、B、AB),职业(工人、农民、商人、干部、军人、教师 …)等。
2、有序分类变量是各类别或属性之间有程度上的差别。如尿糖化验结果按 ?、?、+、++、+++分类;疗效按治愈、好转、无效、恶化分组。有序分类变量的分析应先按等级顺序分组,然后清点各组的观察单位数,编制各等级的频数表,所得资料为有序分类变量资料(等级资料)。
除以上资料外,医学研究中还有角度(如脑电图)、季节月份、时间等周而复始的资料,在医学统计中称其为圆形分布资料。
另外,变量类型不是一成不变的,可根据研究分析的需要进行转化。例如白细胞计数原属数值变量,若按正常、异常分组,则为无序分类变量;若按过低(<4000)、正常(4000~10000)、过高(>10000)分组,则为有序分类变量。分类变量也可数量化,如将病人的恶心反应以0、1、2、3表示。
在做统计分析时,无论是统计描述,还是统计推断,都要先考虑变量类型,变量类型不同统计方法也各异。
※ 统计学的分析思路
资料的分析必须包括两部分内容:一是统计描述,二是统计推断。分析资料时,无论何种研究目的,首先要对样本资料进行统计描述,然后根据研究目的进行统计推断。
一、统计描述
根据资料的变量类型及其分布特征选用恰当的描述性指标和统计图(表)来描述样本特征。
* 常见的变量类型有:数值变量资料和分类变量资料(前文提过)。 1、数值变量资料
根据变量值的频数分布,数值变量资料有正态分布、对数正态分布和偏态分布之分。
数值变量资料的描述
分布类型 正态分布 ※ 对数正态分布※ 偏态分布 ※
描述性指标 均数 和标准差 ;(必要时,可用 、 和 )几何均数 和相应的标准差 中位数 和四分位数间距 正态分布含近似正态分布; 对数正态分布含倍数资料(以下同)
表中相应的公式:、; 、;
、 ,其中
2、分类变量资料
应用相对数来描述。常用的相对数有率、构成比和相对比,可根据不同的研
究目的选用。
率为频率指标,用于说明某现象发生的频率或强度。其公式为 ; 构成比为构成指标,用于说明某一事物内部各组成部分所占的比重或分布,常以百分数表示。其公式为:
相对比是A、B两个有关指标之比,用于说明A为B的若干倍或百分之几。A、B两个指标可以是性质相同的,也可以是性质不同的;可以是绝对数,也可以是相对数或绝对数。其公式为:
二、统计推断
抽样研究的目的是用样本信息来推断总体特征,即统计推断。统计推断又包括总体参数估计和假设检验两部分内容。进行统计推断时,需根据研究目的、设计类型、资料类型及其分布特征,正确选用分析方法。
* 常见的研究目的:估计总体参数、制定医学参考值范围、假设检验(样本与总体的比较、两样本的比较、多样本的比较)、多因素分析(含线性相关回归)等。
* 常见的设计类型:完全随机设计、配对设计、随机区组设计(配伍组设计);其次,还有交叉设计、拉丁方设计、析因设计、正交设计等。
* 常见的资料类型及其分布特征:数值变量资料(正态、对数正态、偏态分布)、分类变量资料(二项分布、Poisson分布)
(一)估计总体参数:(均按完全随机抽样方法获得的样本)
※ 数值变量资料 数值变量资料的总体参数估计
分布类型 总体参数估计的估计方法 估计总体均数 的95%可信区间 正态分布 * 1、 已知时, 2、 未知且n小时,() 3、 未知,但n足够大时, 估计总体中位数的95%可信区间 1、先求50%的上、下限 , 2、再求出 , 偏态分布 * 对于对数正态分布资料,1、先将变量值取对数;2、应用估计总体均数 的95%可信区间的公式求出上、下限;3、对上、下限求反对数。 ※ 分类变量资料
分类变量资料的总体参数估计
类 型 总体参数估计的估计方法 估计总体率 的95%可信区间 二项分布 1、查表法: 50,且p远离0.5时,根据 和阳性数 查“百分率的可信区间”表; 2、正态近似法: ,且样本率 或 均不太小(一般规定 与 均大于5)时,。 Poisson分布 估计总体平均数 的95%可信区间 1、查表法:样本阳性数 时,用X值查Poisson分布μ的可信区间; 2、正态近似法: 时,( , )。 (二)制定医学参考值范围(用于数值变量资料) 医学参考值范围的制定方法 分布类型 制定方法 正态分布法: 正态分布 双侧界值: 单侧上界: ,或单侧下界: 对数正态分布法: 对数正态分布 双侧界值:; 单侧上界:, 或单侧下界:。 百分位数法: 偏态分布 双侧界值: 和 ; 单侧上界: ,或单侧下界: 。 (三)假设检验
1、样本与总体的比较(均按完全随机抽样方法获得的样本) ※ 数值变量资料的样本均数与总体均数的比较 分布类型 假设检验方法 1、 未知且样本含量 较小时,用 检验: 正态分布 2、 已知时,用 检验: 3、 未知,但 大时, 用样本中位数与总体中位数比较的符号秩和检验 (方法同配对资料的符号秩和检验)。 ※ 分类变量资料的样本与总体的比较
类型 假设检验方法 1、直接计算概率法:用于 偏离0.5较远,且阳性数 较小作单侧检验时。按二项分布概率公式直接求出累计概率,与所取检验二项分布 水准比较,作出推断结论。 , 2、正态近似法:用于 不太靠近0或1,且样本含量 足够大;或 且 时, 1、直接计算概率法:用于 ,且样本均数 较小作单侧检验时。Poisson 分布 按Poisson分布概率公式直接求出累计概率,与所取检验水准比较,作出推断结论。 , 2、正态近似法:用于 时, 偏态分布 2、两样本的比较 ※ 数值变量资料的两样本均数的比较
分布类型 设计类型与假设检验方法 完全随机设计(或成组设计) 1、 检验:用于两个小样本,, 正态分布 2、 检验:用于两个大样本, 配对设计(用于两个小样本) 检验: , 对子数-1 偏态分布 完全随机设计(或成组设计):
1、Wilcoxon秩和检验; 2、Mann-Whitney检验 配对设计:配对设计的符号秩和检验 ※ 分类变量资料的两样本的比较
类型 1、 检验: 用于两个样本均满足正态近似条件且样本含量( )较大时,可用 检验,其公式为: 2、 检验: ①四格表专用公式: 二项 分布 ( 且所有格子的 ) ②四格表的校正公式: ( 但有 时) ③四格表资料的Fisher确切概率法: 当 ,或 时 ④配对四格表资料的 检验: , (用于 时) , (用于 时) 1、 检验:两样本均数 均大于20时。 Poisson 分布 两样本观察单位相同时, 两样本观察单位不同时, 2、 检验:同二项分布。
假设检验方法 3、多个样本的比较 ※ 数值变量资料的多个样本均数的比较
分布类型 设计类型与假设检验方法 完全随机设计(或成组设计): 正态分布 完全随机设计的方差分析: 把总变异分解为组间变异和组内变异两部分 随机区组设计(或配伍组设计): 随机区组设计的方差分析: 把总变异分解为处理间、区组间和误差三部分 其它设计:如交叉设计、析因设计、拉丁方设计和正交设计等。均有相应的方差分析 完全随机设计(或成组设计): 成组设计的多个样本比较的秩和检验( 检验); 偏态分布 随机区组设计(或配伍组设计): 随机区组设计的多个样本比较的秩和检验( 检验) 交叉设计: 交叉设计的秩和检验 ※ 分类变量资料的多个样本的比较(均为完全随机设计) ①双向无序 表资料:两个分类变量,即分组变量和指标变量均是无序的。其研究目的通常是多个样本率的比较、两个或多个构成比的比较可用行 列表资料的 检验: , (行数-1)(列数-1) 不同疗法治疗某病的有效率的比较 疗 法 甲 乙 丙 合计 有效 无效 合计 ②单向有序 表资料:有两种形式。一种形式是 表资料中的分组变量是有序的(如年龄),而指标变量是无序的(如传染病的类型)。其研究目的通常是分析不同年龄组各种传染病的构成情况,此种单向有序 表资料可用行 列表资料的 检验进行分析。 ×× 年全国疾病监测系统甲乙丙传染病不同年龄组构成 年龄组 霍乱 伤寒 痢疾 麻疹 出血热 钩体 合计 20- 40- 60- 80 合计 另一种形式是 表资料中的分组变量为无序的(如疗法),而指标变量是有序的(如疗效按等级分组)。其研究目的为比较不同疗法的疗效,此种单向有序 表资料宜用秩和检验。 不同疗法治疗某病的疗效比较 疗 法 甲 法 乙 法 丙 法 合计 痊愈 显效 有效 无效 合计 ③双向有序属性相同的 表资料: 表资料中的两个分类变量皆为有序且属性相同。实际上是配对四格表资料的扩展,即水平数 3的配伍资料,如用两种检测方法同时对同一批样品的测定结果。其研究目的通常是分析两种检测方法的一致性,此时宜用一致性检验或称Kappa检验;也可用特殊模型分析方法(可用SAS软件)。 ④双向有序属性不同的 表资料: 表资料中两个分类变量皆为有序的,但属性不同。宜用秩和检验。
正在阅读:
统计学思路03-13
文书处理与档案管理复习资料10-08
某工程高大作业平台脚手架安全专项施工方案 - 图文02-29
把两个数摆成同样多的实际问题教案01-27
区街道办事处2021年城市建管工作总结08-03
航天探索,从幻想到拥抱太空03-16
第五章 影响线习题11-19
(63页)人教版 2018 小学一年级(下册)数学全册作业题06-25
《剪枝的学问》(第二课时)教学设计-2019年精选文档12-04
旅行好伴侣作文500字06-26
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 统计学
- 思路