卫生统计学

更新时间:2023-09-30 12:01:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

《卫生统计学》网上教案 ............................................................................................................................. 2

第一章 绪 论 ................................................................................................................................... 2

第一节 卫生统计学的定义和内容 ............................................................................................. 3 第二节 统计工作的步骤 ............................................................................................................. 4 第三节 统计学中的几个基本概念 ............................................................................................. 5 第四节 学习卫生统计学应注意的问题 ..................................................................................... 8 第二章 定量资料的统计描述 ............................................................................................................. 8

第一节 数值变量资料的频数表 ................................................................................................. 8 第二节 集中趋势的统计描述指标 ........................................................................................... 10 第三节 离散程度的统计描述指标 ........................................................................................... 12 第三章 正态分布及其应用 ............................................................................................................... 14

第一节 正态分布的概念和特征 ............................................................................................... 14 第二节 正态分布的应用 ........................................................................................................... 16 第四章 总体均数的估计和假设检验 ............................................................................................... 18

第一节 抽样研究与抽样误差 ................................................................................................... 18 第二节 t分布 ............................................................................................................................ 21 第三节 总体均数的估计 ........................................................................................................... 23 第四节 假设检验的基本步骤 ................................................................................................... 24 第五节 样本与总体比较的假设检验 ....................................................................................... 26 第六节 配对设计(paired design)资料的假设检验 .............................................................. 27 第七节 两样本比较的假设检验 ............................................................................................... 28 第八节 第一类错误与第二类错误 ........................................................................................... 29 第五章 方差分析 ............................................................................................................................... 30

第一节 方差分析的基本思想 ..................................................................................................... 31 第二节 完全随机设计的单因素方差分析(one-way ANOVA) ............................................... 34 第三节 随机区组设计的两因素方差分析(two-way ANOVA) ............................................. 36 第四节 多个样本均数间的多重比较 ......................................................................................... 39 第五节 多个样本的方差齐性检验 ............................................................................................. 43 第六节 变量变换 ......................................................................................................................... 44 第六章 定性资料的统计描述 ........................................................................................................... 45 第七章 二项分布与Poisson分布及其应用 ..................................................................................... 48

第一节 二项分布的概念与特征 ............................................................................................... 48 第二节 二项分布的应用 ........................................................................................................... 51 第三节 Poisson分布的概念与特征 .......................................................................................... 52 第四节 Poisson分布的应用 ...................................................................................................... 55 第八章 ?2检 验 ............................................................................................................................. 58

第一节 四格表资料的?2检验................................................................................................... 58

第二节 配对四格表资料的?2检验 ........................................................................................... 60 第三节 四格表资料的Fisher确切概率法 ............................................................................... 62 第四节 行×列表资料的?2检验 ................................................................................................ 64 第五节 多个样本率比较的?2分割法 ....................................................................................... 65 第六节 频数分布拟合优度的?2检验 ....................................................................................... 69 第九章 秩和检验 ............................................................................................................................... 70

第一节 配对设计和单样本资料的符号秩和检验 ................................................................... 71 第二节 完全随机化设计两独立样本的秩和检验 ................................................................. 73

第三节 完全随机化设计多组独立样本的秩和检验 ............................................................. 74 第四节 随机化区组设计资料的秩和检验 ................................................................................. 75 第五节 多个样本间的多重比较 ................................................................. 错误!未定义书签。 第六节 小结 ............................................................................................. 错误!未定义书签。 第十章 直线回归与相关 ................................................................................... 错误!未定义书签。

第一节 直线回归 ....................................................................................... 错误!未定义书签。 第二节 直线相关分析 ............................................................................... 错误!未定义书签。 第三节 等级相关 ....................................................................................... 错误!未定义书签。 第四节 曲线拟合 ....................................................................................... 错误!未定义书签。 第十二章 统计表和统计图 ............................................................................... 错误!未定义书签。 第十三章 实验设计 ........................................................................................... 错误!未定义书签。

第一节 实验设计的特点及分类 ............................................................... 错误!未定义书签。 第二节 实验设计的基本要素 ................................................................... 错误!未定义书签。 第三节 实验设计的基本原则 ................................................................... 错误!未定义书签。 第四节 常用的实验设计方法 ................................................................... 错误!未定义书签。 第十四章 调查设计 ......................................................................................... 错误!未定义书签。

第一节 调查研究的特点 ........................................................................... 错误!未定义书签。 第二节 调查设计的基本原则与内容 ....................................................... 错误!未定义书签。 第三节 常用的抽样方法 ........................................................................... 错误!未定义书签。 第四节 调查的质量控制 ........................................................................... 错误!未定义书签。 第十五章 医学人口统计学与疾病统计常用指标 ........................................... 错误!未定义书签。

第一节 医学人口统计常用指标 ............................................................... 错误!未定义书签。 第二节 疾病统计常用指标 ......................................................................... 错误!未定义书签。

《卫生统计学》网上教案

第一章 绪 论

学时分配:2学时 掌握内容:

1、卫生统计学的定义 2、统计工作的步骤 3、统计学中的几个基本概念

4、学习卫生统计学应注意的问题 了解内容:卫生统计学的内容

第一节 卫生统计学的定义和内容

1、卫生统计学的定义

统计学(statistics)是研究数据的收集、整理和分析的一门科学,帮助人们分析所占有的信息,达到去伪存真、去粗取精、正确认识世界的一种重要手段。

卫生统计学(health statistics)是应用数统计学的原理与方法研究居民健康状况以及卫生服务领域中数据的收集、整理和分析的一门科学。

Webster国际大辞典(第三版)对统计学的定义是“a science dealing with the collection , analysis , interpretation and presentation of numerical data” 。Last JM 主编的一本流行病学辞典对统计学的定义是“the science and art of dealing with variation in data through collection , classification and analysis in such a way as to obtain reliable results” 。由此看出:统计学是处理资料中变异性的科学和艺术,是在收集、归类、分析和解释大量数据的过程中获取可靠结果的一门学科。这里强调了“过程”,但在实际工作中,许多人往往是忽略了设计、收集和归类(整理),到了分析数据时才想到统计学,此时难免发生“悔之晚矣”的憾事。作为统计学的应用者应充分认识到这一点。

2、卫生统计学的内容:

1)健康统计:医学人口统计、疾病统计和生长发育统计等;

2)卫生服务统计:包括卫生资源利用、医疗卫生服务的需求、医疗保健体制改革等方面的统计学问题。

本教材的主要内容为:

1)卫生统计学的基本原理和方法:包括统计描述(定量资料和分类资料的描述性指标以及常用统计图表)、常见的理论分布及其应用(正态分布、二项分布与Poisson分布)、总体参数的估计(分总体均数、总体率和总体平均数)、假设检验(t检验、u检验、方差分析、χ2检验、秩和检验等)、回归与相关、多元线性回归与logistic回归、实验设计和调查设计(第2~第14章);

2)健康统计:医学人口与疾病统计中常用的指标(第15章)、寿命表(第16章)、生存率分析(第17章);

3)常用的综合评价方法(第18章)。

第二节 统计工作的步骤

统计学对统计工作的全过程起指导作用,任何统计工作和统计研究的全过程都可分为以下四个步骤:

1、设计(design):在进行统计工作和研究工作之前必须有一个周密的设计。设计是在广泛查阅文献、全面了解现状、充分征询意见的基础上,对将要进行的研究工作所做的全面设想。其内容包括:明确研究目的和研究假说,确定观察对象、观察单位、样本含量和抽样方法,拟定研究方案、预期分析指标、误差控制措施、进度与费用等。设计是整个研究工作中最关键的一环,也是指导以后工作的依据(详见第13、14章)。

2、收集资料(collection):遵循统计学原理采取必要措施得到准确可靠的原始资料。及时、准确、完整是收集统计资料的基本原则。卫生工作中的统计资料主要来自以下三个方面:①统计报表:是由国家统一设计,有关医疗卫生机构定期逐级上报,提供居民健康状况和医疗卫生机构工作的主要数据,是制定卫生工作计划与措施、检查与总结工作的依据。如法定传染病报表,职业病报表,医院工作报表等。②经常性工作记录:如卫生监测记录、健康检查记录等。③专题调查或实验。

3、整理资料(sorting data):收集来的资料在整理之前称为原始资料,原始资料通常是一堆杂乱无章的数据。整理资料的目的就是通过科学的分组和归纳,使原始资料系统化、条理化,便于进一步计算统计指标和分析。其过程是:首先对原始资料进行准确性审查(逻辑审查与技术审查)和完整性审查;再拟定整理表,按照“同质者合并,非同质者分开”的原则对资料进行质量分组,并在同质基础上根据数值大小进行数量分组;最后汇总归纳。

4、分析资料(analysis of data):其目的是计算有关指标,反映数据的综合特征,阐明事物的内在联系和规律。统计分析包括统计描述(descriptive statistics)和统计推断(inferential statistics)。前者是用统计指标与统计图(表)等方法对样本资料的数量特征及其分布规律进行描述(详见第2、6、12章);后者是指如何抽样,以及如何用样本信息推断总体特征(详见第4、5、7、8、9、10、11、17、18章)。进行资料分析时,需根据研究目的、设计类型和资料类型选择恰当的描述性指标和统计推断方法。

统计工作的四个步骤紧密相连、不可分割,任何一步的缺陷,都将影响整个研究结果。

第三节 统计学中的几个基本概念

1、同质(homogeneity)与变异(variation)

严格地讲,同质是指被研究指标的影响因素完全相同。但在医学研究中,有些影响因素往往是难以控制的(如遗传、营养等),甚至是未知的。所以,在统计学中常把同质理解为对研究指标影响较大的、可以控制的主要因素尽可能相同。例如研究儿童的身高时,要求性别、年龄、民族、地区等影响身高较大的、易控制的因素要相同,而不易控制的遗传、营养等影响因素可以忽略。

同质基础上的个体差异称为变异。如同性别、同年龄、同民族、同地区的健康儿童的身高、体重不尽相同。事实上,客观世界充满了变异,生物医学领域更是如此。哪里有变异,哪里就需要统计学。若所研究的同质群体中所有个体一模一样,只需观察任一个体即可,无须进行统计研究。

2、总体(population)与样本(sample)

任何统计研究都必须首先确定观察单位(observed unit),亦称个体(individual)。观察单位是统计研究中最基本的单位,可以是一个人、一个 家庭、一个地区、一个样品、一个采样点等。

总体是根据研究目的确定的同质观察单位的全体,或者说,是同质的所有观察单位某种观察值(变量值)的集合。例如欲研究山东省2002年7岁健康男孩的身高,那么,观察对象是山东省2002年的7岁健康男孩,观察单位是每个7岁健康男孩,变量是身高,变量值(观察值)是身高测量值,则山东省2002年全体7岁健康男孩的身高值构成一个总体。它的同质基础是同地区、同年份、同性别、同为健康儿童。总体又分为有限总体(finite population)和无限总体(infinite population)。有限总体是指在某特定的时间与空间范围内,同质研究对象的所有观察单位的某变量值的个数为有限个,如上例;无限总体是抽象的,无时间和空间的限制,观察单位数是无限的,如研究碘盐对缺碘性甲状腺病的防治效果,该总体的同质基础是缺碘性甲状腺病患者,同用碘盐防治;该总体应包括已使用和设想使用碘盐防治的所有缺碘性甲状腺病患者的防治效果,没有时间和空间范围的限制,因而观察单位数无限,该总体为无限总体。

在实际工作中,所要研究的总体无论是有限的还是无限的,通常都是采用抽样研究。样本是按照随机化原则,从总体中抽取的有代表性的部分观察单位的变量值的集合。如从上例的有限总体(山东省2002年7岁健康男孩)中,按照随机化原则抽取100名7

lgXlgX1?lgX2?...?lgXn?1?或 G?lg()?lg() (2.3)

nn?1(2)加权法:

G?lg?1(f1lgX1?f2lgX2?...?fklgXk?flgX) (2.4)

?lg?1(f1?f2?....?fk?f注意:计算几何均数时观察值中不能有0,因0不能取对数;一组观察值中不能同时有正或负值。

3.中位数(median) 用M表示。中位数是一组由小到大按顺序排列的观察值中位次居中的数值。中位数可用于描述①非正态分布资料(对数正态分布除外);②频数分布的一端或两端无确切数据的资料③总体分布不清楚的资料。在全部观察中,小于和大于中位数的观察值个数相等。

(1) 直接法:将观察值由小到大排列,按式(2.6)或式(2.7)计算。 n为奇数 , M?X(n?1) n为偶数,M?式中下标n、n222 (1.5)

1(Xn?Xn) (1.6)

?1222n?1为有序数列的位次。2?1、

X(n?1)2、Xn()2、Xn(?1)2为相应位次的

观察值。

(2)频数表法:用于频数表资料。 计算步骤是:①计算

n的大小,并按所分组段由小到大计算累计频数和累计频率,2n的最小数值所在的组段2如表2.1第(3)、(4)栏;②确定M所在组段。累计频数中大于

即为M所在的组段;或累计频率中大于50%的最小频率所在的组段即为M所在的组段。③按式(2.7)求中位数M。

M?L?ifMn(??fL) (2.7) 2式中:L、i、fM分别为M所在组段的下限、组距和频数;?fL为小于L的各组段的累计频数。

例 1.1 由表2.1计算中位数M。

表2.1 199名食物中毒患者潜伏期的M和PX的计算

潜伏期(小时)

人数f

(2)

累计频数Σf

(3)

累计频率(%) (4)=(3)/n

(1) 0~ 12~ 24~ 36~ 48~ 60~ 72~84 合计

30 71 49 28 14 6 1 199 30 101 150 178 192 198 199 15.1 50.8 75.4 89.4 96.5 99.5 100.0

本例n=199,根据表2.3第(2)栏数据,自上而下计算累计频数及累计频率,见第(3)、(4)栏。

n?99.5,由第(3)栏知,101是累计频数中大于99.5的最小值,2或由第(4)栏知50.8%是大于50%的最小的累计频率,故M在“12~”组段内,将相应的L、i、f50、?fL代入(2.8),求得M。

M=P50=L?i50%-30)=23.75(小时) (n.50%??fL)=12+12/71(199×

f504.百分位数(percentile)用Px表示。一个百分位数Px将一组观察值分为两部分,理论上有X%的观察值比它小,有(100-X)%的观察值比它大,是一种位置指标。中位数是一个特定的百分位数,即M=P50。百分位数的计算步骤与中位数类似,首先要确定Px所在的组段。先计算n?x%,累计频数中大于n?x%的最小值所在的组段就是Px所在组段。计算见公式(2.8)。

Px?L?i(n.X%??fL) (2.8) fX式中:L、i、fx分别为Px所在组段的下限、组距和频数;为小于L的各组段的累计频数。

百分位数用于描述一组数据某一百分位位置的水平,多个百分位数的结合应用时,可描述一组观察值的分布特征;百分位数可用于确定非正态分布资料的医学参考值范围。应用百分位数,样本含量要足够大,否则不宜取靠近两端的百分位数。

第三节 离散程度的统计描述指标

描述数值变量资料频数分布的另一主要特征是离散程度,用变异指标表示。只有把集中指标和离散指标结合起来才能全面反映资料的分布特征。常用变异指标有全距、四分位数间距、方差、标准差、变异系数。

1.全距(range,简记为R):亦称极差,是一组同质观察值中最大值与最小值之差。

它反映了个体差异的范围,全距大,说明变异度大;反之,全距小,说明变异度小。用全距描述定量资料的变异度大小,虽然计算简单,但不足之处有:①只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度;②样本含量越大,抽到较大或较小观察值的可能性越大,则全距可能越大。因此样本含量相差悬殊时不宜用全距比较。

2.四分位数间距(quartile,简记为Q):为上四分位数QU(即P75)与下四分位数QL(即P25)之差。四分位数间距可看成是中间50%观察值的极差,其数值越大,变异度越大,反之,变异度越小。如例2.7中,已求得QU=P75=35.82小时,QL=P25=15.34小时,则四分位数间距Q= QU-QL==35.82-15.34=20.48(小时)。由于四分位数间距不受两端个别极大值或极小值的影响,因而四分位数间距较全距稳定,但仍未考虑全部观察值的变异度,常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。

3.方差(variance):为了全面考虑观察值的变异情况,克服全距和四分位数间距的缺点, 需计算总体中每个观察值X与总体均数?的差值(X-?),称之为离均差。由于Σ(X-μ)=0,不能反映变异度的大小,而用离均差平方和Σ(X-?)2(sum of squares of deviations from mean)反映之,同时还应考虑观察值个数N的影响,故用式(2.9)即总体方差σ2表示。

?(X??)2?? (2.9)

N2在实际工作中,总体均数μ往往是未知的,所以只能用样本均数X作为总体均数?的估计值,即用?(X?X)代替?(X??),用样本例数n代替N,但再按式(2.9)计算的结果总是比实际?2小。英国统计学家W.S.Gosset提出用n-1代替n来校正,这就是样本方差s2其公式为:

S222?(X?X)?n?12 (2.10)

式中的n-1称为自由度( degree of freedom)。

4.标准差(standard deviation):方差的度量单位是原度量单位的平方,将方差开方后与原数据的度量单位相同。标准差大,表示观察值的变异度大;反之,标准差小,表示观察值的变异度小。计算见公式(2.11)和(2.12)。

???(X??)n2 (1.11)

S?离均差平方和

?(X?X)n?122 (1.12)

?(X?X)常用SS或lXX表示。数学上可以证明:

, 所以,样本标准差的计算公式可写成:

2SS?lXX??(X?X)2??X2?(?X)2N直接法: S?(?X)2?X?n (2.13)

n?1加权法:

?S?(?fX)2fX??f?f?12 (1.14)

5.变异系数(coefficient of variation,简记为CV):常用于比较度量单位不同或均数相差悬殊的两组或多组资料的变异度。其公式为

CV?

S?100% (2.15) X(丁守銮)

第三章 正态分布及其应用

学时分配:2学时 掌握内容:

1、正态分布的概念、特征和标准正态分布 2、正态分布的应用

第一节 正态分布的概念和特征

一、正态分布的概念

由表1.1的频数表资料所绘制的直方图,图3.1(1)可以看出,高峰位于中部,左右两侧大致对称。我们设想,如果观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横

轴相交的光滑曲线图3.1(3)。这条曲线称为频数曲线或频率曲线,近似于数学上的正态分布(normal distribution)。由于频率的总和为100%或1,故该曲线下横轴上的面积为100%或1。

2520151050(1)

0.50.40.30.20.10(2)

0.30.250.20.150.10.050

图3.1 频数分布逐渐接近正态分布示意图

(3)0123-5-4-3-2-145

为了应用方便,常对正态分布变量X作变量变换。

u?X??? (3.1)

该变换使原来的正态分布转化为标准正态分布 (standard normal distribution),亦称u分布。u被称为标准正态变量或标准正态离差(standard normal deviate)。

二、正态分布的特征:

1.正态曲线(normal curve)在横轴上方均数处最高。 2.正态分布以均数为中心,左右对称。

3.正态分布有两个参数,即均数?和标准差?。?是位置参数,当?固定不变时,

?越大,曲线沿横轴越向右移动;反之,?越小,则曲线沿横轴越向左移动。?是形状

参数,当?固定不变时,?越大,曲线越平阔;?越小,曲线越尖峭。通常用N(?,?2)表示均数为?,方差为?2的正态分布。用N(0,1)表示标准正态分布。

4.正态曲线下面积的分布有一定规律。

实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。正态

本文来源:https://www.bwwdw.com/article/2mfd.html

Top