统计学思路

更新时间:2024-03-13 04:27:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

* 变量 (variable)

在搜集资料时,首先要根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量。如“身高”、“体重”、“疗效”、“性别”、“职业” 等都是变量。变量的观察结果或测量值称为变量值,变量按其值的性质可分为数值变量(numerical variable)和分类变量(categorical variable)。

数值变量的变量值是定量的,表现为数值的大小,通常是使用仪器或某种尺度测定出来的,多有度量衡单位。如身高(cm)、体重(kg)、心律(次/分)、住院天数(日)、血压(mmHg)等。由数值变量的测量值组成的资料称为数值变量资料(计量资料或定量资料)。大多数的数值变量为连续型变量,如身高、体重、血压等;而有的数值变量的测定值只是正整数。如心率、白细胞计数等,在医学统计学中把它们也视为连续型变量。

分类变量表现为互不相容的类别或属性,亦称定性变量。分类变量又可分为无序与有序两类。

1、无序分类变量是所分类别或属性之间无程度和顺序上的差别。如性别(男、女);血型(O、A、B、AB)等。无序分类变量的分析应先按类别分组,然后清点各组的观察单位数,编制分类资料的频数表,所得资料为无序分类变量资料(计数资料或定性资料)。它又有二项分类资料和多项分类资料之分。

1)二项分类资料:仅有两种类别或属性。如性别(男、女),化验结果(阴、阳性)等。

2)多项分类资料:两种以上的类别或属性。如血型(O、A、B、AB),职业(工人、农民、商人、干部、军人、教师 …)等。

2、有序分类变量是各类别或属性之间有程度上的差别。如尿糖化验结果按 ?、?、+、++、+++分类;疗效按治愈、好转、无效、恶化分组。有序分类变量的分析应先按等级顺序分组,然后清点各组的观察单位数,编制各等级的频数表,所得资料为有序分类变量资料(等级资料)。

除以上资料外,医学研究中还有角度(如脑电图)、季节月份、时间等周而复始的资料,在医学统计中称其为圆形分布资料。

另外,变量类型不是一成不变的,可根据研究分析的需要进行转化。例如白细胞计数原属数值变量,若按正常、异常分组,则为无序分类变量;若按过低(<4000)、正常(4000~10000)、过高(>10000)分组,则为有序分类变量。分类变量也可数量化,如将病人的恶心反应以0、1、2、3表示。

在做统计分析时,无论是统计描述,还是统计推断,都要先考虑变量类型,变量类型不同统计方法也各异。

※ 统计学的分析思路

资料的分析必须包括两部分内容:一是统计描述,二是统计推断。分析资料时,无论何种研究目的,首先要对样本资料进行统计描述,然后根据研究目的进行统计推断。

一、统计描述

根据资料的变量类型及其分布特征选用恰当的描述性指标和统计图(表)来描述样本特征。

* 常见的变量类型有:数值变量资料和分类变量资料(前文提过)。 1、数值变量资料

根据变量值的频数分布,数值变量资料有正态分布、对数正态分布和偏态分布之分。

数值变量资料的描述

分布类型 正态分布 ※ 对数正态分布※ 偏态分布 ※

描述性指标 均数 和标准差 ;(必要时,可用 、 和 )几何均数 和相应的标准差 中位数 和四分位数间距 正态分布含近似正态分布; 对数正态分布含倍数资料(以下同)

表中相应的公式:、; 、;

、 ,其中

2、分类变量资料

应用相对数来描述。常用的相对数有率、构成比和相对比,可根据不同的研

究目的选用。

率为频率指标,用于说明某现象发生的频率或强度。其公式为 ; 构成比为构成指标,用于说明某一事物内部各组成部分所占的比重或分布,常以百分数表示。其公式为:

相对比是A、B两个有关指标之比,用于说明A为B的若干倍或百分之几。A、B两个指标可以是性质相同的,也可以是性质不同的;可以是绝对数,也可以是相对数或绝对数。其公式为:

二、统计推断

抽样研究的目的是用样本信息来推断总体特征,即统计推断。统计推断又包括总体参数估计和假设检验两部分内容。进行统计推断时,需根据研究目的、设计类型、资料类型及其分布特征,正确选用分析方法。

* 常见的研究目的:估计总体参数、制定医学参考值范围、假设检验(样本与总体的比较、两样本的比较、多样本的比较)、多因素分析(含线性相关回归)等。

* 常见的设计类型:完全随机设计、配对设计、随机区组设计(配伍组设计);其次,还有交叉设计、拉丁方设计、析因设计、正交设计等。

* 常见的资料类型及其分布特征:数值变量资料(正态、对数正态、偏态分布)、分类变量资料(二项分布、Poisson分布)

(一)估计总体参数:(均按完全随机抽样方法获得的样本)

※ 数值变量资料 数值变量资料的总体参数估计

分布类型 总体参数估计的估计方法 估计总体均数 的95%可信区间 正态分布 * 1、 已知时, 2、 未知且n小时,() 3、 未知,但n足够大时, 估计总体中位数的95%可信区间 1、先求50%的上、下限 , 2、再求出 , 偏态分布 * 对于对数正态分布资料,1、先将变量值取对数;2、应用估计总体均数 的95%可信区间的公式求出上、下限;3、对上、下限求反对数。 ※ 分类变量资料

分类变量资料的总体参数估计

类 型 总体参数估计的估计方法 估计总体率 的95%可信区间 二项分布 1、查表法: 50,且p远离0.5时,根据 和阳性数 查“百分率的可信区间”表; 2、正态近似法: ,且样本率 或 均不太小(一般规定 与 均大于5)时,。 Poisson分布 估计总体平均数 的95%可信区间 1、查表法:样本阳性数 时,用X值查Poisson分布μ的可信区间; 2、正态近似法: 时,( , )。 (二)制定医学参考值范围(用于数值变量资料) 医学参考值范围的制定方法 分布类型 制定方法 正态分布法: 正态分布 双侧界值: 单侧上界: ,或单侧下界: 对数正态分布法: 对数正态分布 双侧界值:; 单侧上界:, 或单侧下界:。 百分位数法: 偏态分布 双侧界值: 和 ; 单侧上界: ,或单侧下界: 。 (三)假设检验

1、样本与总体的比较(均按完全随机抽样方法获得的样本) ※ 数值变量资料的样本均数与总体均数的比较 分布类型 假设检验方法 1、 未知且样本含量 较小时,用 检验: 正态分布 2、 已知时,用 检验: 3、 未知,但 大时, 用样本中位数与总体中位数比较的符号秩和检验 (方法同配对资料的符号秩和检验)。 ※ 分类变量资料的样本与总体的比较

类型 假设检验方法 1、直接计算概率法:用于 偏离0.5较远,且阳性数 较小作单侧检验时。按二项分布概率公式直接求出累计概率,与所取检验二项分布 水准比较,作出推断结论。 , 2、正态近似法:用于 不太靠近0或1,且样本含量 足够大;或 且 时, 1、直接计算概率法:用于 ,且样本均数 较小作单侧检验时。Poisson 分布 按Poisson分布概率公式直接求出累计概率,与所取检验水准比较,作出推断结论。 , 2、正态近似法:用于 时, 偏态分布 2、两样本的比较 ※ 数值变量资料的两样本均数的比较

分布类型 设计类型与假设检验方法 完全随机设计(或成组设计) 1、 检验:用于两个小样本,, 正态分布 2、 检验:用于两个大样本, 配对设计(用于两个小样本) 检验: , 对子数-1 偏态分布 完全随机设计(或成组设计):

1、Wilcoxon秩和检验; 2、Mann-Whitney检验 配对设计:配对设计的符号秩和检验 ※ 分类变量资料的两样本的比较

类型 1、 检验: 用于两个样本均满足正态近似条件且样本含量( )较大时,可用 检验,其公式为: 2、 检验: ①四格表专用公式: 二项 分布 ( 且所有格子的 ) ②四格表的校正公式: ( 但有 时) ③四格表资料的Fisher确切概率法: 当 ,或 时 ④配对四格表资料的 检验: , (用于 时) , (用于 时) 1、 检验:两样本均数 均大于20时。 Poisson 分布 两样本观察单位相同时, 两样本观察单位不同时, 2、 检验:同二项分布。

假设检验方法 3、多个样本的比较 ※ 数值变量资料的多个样本均数的比较

分布类型 设计类型与假设检验方法 完全随机设计(或成组设计): 正态分布 完全随机设计的方差分析: 把总变异分解为组间变异和组内变异两部分 随机区组设计(或配伍组设计): 随机区组设计的方差分析: 把总变异分解为处理间、区组间和误差三部分 其它设计:如交叉设计、析因设计、拉丁方设计和正交设计等。均有相应的方差分析 完全随机设计(或成组设计): 成组设计的多个样本比较的秩和检验( 检验); 偏态分布 随机区组设计(或配伍组设计): 随机区组设计的多个样本比较的秩和检验( 检验) 交叉设计: 交叉设计的秩和检验 ※ 分类变量资料的多个样本的比较(均为完全随机设计) ①双向无序 表资料:两个分类变量,即分组变量和指标变量均是无序的。其研究目的通常是多个样本率的比较、两个或多个构成比的比较可用行 列表资料的 检验: , (行数-1)(列数-1) 不同疗法治疗某病的有效率的比较 疗 法 甲 乙 丙 合计 有效 无效 合计 ②单向有序 表资料:有两种形式。一种形式是 表资料中的分组变量是有序的(如年龄),而指标变量是无序的(如传染病的类型)。其研究目的通常是分析不同年龄组各种传染病的构成情况,此种单向有序 表资料可用行 列表资料的 检验进行分析。 ×× 年全国疾病监测系统甲乙丙传染病不同年龄组构成 年龄组 霍乱 伤寒 痢疾 麻疹 出血热 钩体 合计 20- 40- 60- 80 合计 另一种形式是 表资料中的分组变量为无序的(如疗法),而指标变量是有序的(如疗效按等级分组)。其研究目的为比较不同疗法的疗效,此种单向有序 表资料宜用秩和检验。 不同疗法治疗某病的疗效比较 疗 法 甲 法 乙 法 丙 法 合计 痊愈 显效 有效 无效 合计 ③双向有序属性相同的 表资料: 表资料中的两个分类变量皆为有序且属性相同。实际上是配对四格表资料的扩展,即水平数 3的配伍资料,如用两种检测方法同时对同一批样品的测定结果。其研究目的通常是分析两种检测方法的一致性,此时宜用一致性检验或称Kappa检验;也可用特殊模型分析方法(可用SAS软件)。 ④双向有序属性不同的 表资料: 表资料中两个分类变量皆为有序的,但属性不同。宜用秩和检验。

本文来源:https://www.bwwdw.com/article/f1n8.html

Top