医学统计学复习资料

更新时间:2023-04-24 16:21:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

医学统计复习资料

一、名词解释

[1].总体:根据研究目的确定的同质观察单位的全体。是同质所有观察单位的某种变量值的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。

[2].样本:从总体中随机抽取部分观察单位,其实测值的集合。

[3].计量资料:又称定量资料或数值变量资料。为观测每个观察单位的某项指标的大小,而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。根据其观测值取值是否连续,又可分为连续型或离散型两类。

[4].计数资料:又称定性资料或者无序分类变量资料,亦称名义变量资料,是将观察单位按照某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料。其变量值是定性的,表现为互不相容的性或类别。分两种情形:(1)二分类:两类间相互对立,互不相容。(2)多分类:各类间互不相容。

[5].等级资料:又称半定量资料或有序分类变量资料,是将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或属性程度。

[6].随机误差(偶然误差):是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起,观察值不按方向性和系统性变化,在大量重复测量中,它可呈现或大或小,或正或负的规律性变化。

[7].概率:概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P (A),P(A)越大,说明A事件发生的可能性越大。0﹤P(A)﹤1。频率:在相同的条件下,独立重复做n 次试验,事件A 出现了m 次,则比值m/n 称为随机事件A 在n 次试验中出现的频率(freqency)。当试验重复很多次时P(A)= m/n。

[8].平均数:描述一组变量值的集中位置或水平。常用的平均数有算术平均数、几何平均数和中位数。

[9].算术均数(arithmetic mean)描述一组数据在数量上的平均水平。总体均数用μ表示,样本均数用X表示。

[10].几何均数(geometric mean)用以描述对数正态分布或数据呈倍数变化资料的水平。记为G。

[11].中位数(median)Md将一组观察值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。反映一批观察值在位次上的平均水平。

[12].方差(variance):方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。

[13].标准差(standard deviation)是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。

[14].变异系数(coefficient of variation)用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。用CV 表示。计算:标准差/均数*100%。

[15].正态分布:正态分布又称高斯分布,是一种很重要的连续型分布,应用很广。若指标X的频率分布曲线对应于数学上的正态分布曲线,则称该指标服从正态分布。(曲线下面积和分布规律) [16].标准误及X s :通常将样本统计量的标准差称为标准误。许多样本均数的标准差X s称为均数的标准误(standard error of mean,SEM ),它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。

[17].可信区间:按预先给定的概率确定的包含未知总体参数的可能围。该围称为总体参数的可信区间(confidence interval,CI)。它的确切含义是:可信区间包含总体参数的可能性是1- α,而

1

2

不是总体参数落在该围的可能性为1-α。

[18].假设检验中P 的含义:指从H0 规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。

[19].相对数:两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数学的大小。如率、构成比、比等。

[20].率:强度相对数,说明某现象发生的频率或强度。

[21].构成比:结构相对数字,表示事物部某一部分的个体与该事物各个部分个体数的和之比。用来说明各构成部分在总体所占的比重或分布。

[22].相对比:简称比,是两个相关联指标之比,说明两指标间的比例关系。两指标可以性质相同,也可以性质不同,通常以倍数或百分数表示。两指标可以是绝对数、相对数或平均数。(这几种相对数的差别)

[23].回归系数(regression coefficient )即直线的斜率(slope),在直线回归方程中用b 表示,b 的统计意义为X 每增(减)一个单位时,Y 平均改变b 个单位。

[24].相关系数r :用以描述两个随机变量之间线性相关关系的密切程度与相关方向的统计指标。 二、需要掌握的几个公式 1.均数的计算

(1)算术均数n

X n Xn X X X ∑=+++=Λ21(直接法) ∑=

+++=fX X f X f X f X k k Λ2211(加权法)

(2)几何均数

2.中位数 n 为奇数时,)21(+=n X

M ;n 为偶数时,2)12()2(++=n n X X

M

3.方差

4.标准差(S):将方差取平方根,还原为与原始观察值单位相同的变异量度

(反映样本值的离散程度)S =

5.变异系数: 均数相差较大或单位不同的几组观察值的变异程度的比较

100%S CV X

=? (百分数,可能大于1)

3

5.正态分布:S X 64.1±(90%);S X 9

6.1±(95%);S X 58.2±(99%)

6.均数的标准误

理论值

X σ= 估计值

X S =

7.总体均数的可信区间计算

(1)当σ未知时:按照t 分布

双侧1-α的可信区间为 X S t X ν,2/05.0(-,),2/05.0X S t X ν+

当侧1-α的可信区间为(X X S t X S t X γαγαμμ,, , +<->)

(2)当σ已知或σ未知,但是n 足够大(如n>90),按照u 检验

双侧1-α的可信区间为,96.1X S X ±

当侧1-α的可信区间为X X X X σμσμαα+- ,

三、计算和问答

1.总体均数的估计

(1)标准误:反映样本均数间变异的标准差。(反映样本均数间的离散程度,也反映样本均数与总体均数的差异)

理论值

X σ=,但是在实际情况中,由于总体标准差常常未知,故用样本标准差s 来估计,估计值

X S =

(2)区间估计:按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。

①当σ未知时:按照t 分布

双侧1-α的可信区间为 X S t X ν,2/05.0(-,),2/05.0X S t X ν+

当侧1-α的可信区间为(X X S t X S t X γαγαμμ,, , +<->)

②当σ已知或σ未知,但是n 足够大(如n>90),按照u 检验

4

双侧1-α的可信区间为,96.1X S X ±

当侧1-α的可信区间为X X X X σμσμαα+- ,

(3)t 分布和u 分布的区别

t 分布为抽样分布;u 分布为标准正态分布,为理论分布。t 分布比标准正态分布的峰值低,且尾部翘得更高。随自由度的增大,t 分布逐渐趋近标准正态分布。

2.假设检验

即显著性检验,是统计推断的重要容,比较总体参数之间有无差别。首先对所需比较的总体提出一个无差别假设,然后通过样本数据去推断是否拒绝这一假设。

●基本步骤:⑴建立假设和确定检验水准

⑵选择检验方法和计算检验计量

⑶确定P 值,作出统计推断

●无效假设:H0,指需要检验的假设,如**值治疗前后无差别,即H0:μd=0

通常与我们要验证的结论相反,是计算检验统计量和P 值的依据

●备择假设:是在H0成立证据不足的情况下而被接受的假设,即H1:μd ≠0

双侧检验:无论正或负方向的误差,若显著超出检验水准则拒绝H0

单侧检验:仅在向或负方向误差超出规定的水准时拒绝H0

●P 值:假设检验下结论的主要依据,是指在原假设成立的条件下,观察到的样本差别是由于机遇

所致的概率。P>0.05不显著;0.01

3.t 检验

(1)t 检验中的注意事项

●样本资料必须能代表相应总体

●t 检验以正态分布为基础;非正态数据尝试变换为正态,或用非参数检验

5

●完全随机设计的两样本均数比较,要求两组方差齐

●对同一资料作单侧检验更容易获得显著结果

●假设检验用于推断总体均数间是否相同;可信区间用于估计总体均数所在围

4.方差分析

将全部观测值的总变异按影响因素分为相应的若干部分变异,在此基础上,计算假设检验的统计量F 值,实现对总体均数是否有差别的推断。

●条件:来自于正态分布总体,且总体方差相等的k 个样本均数的比较(k>=3)

●完全随机设计:又称单因素方差分析,将实验对象随机分配到不同处理组的单因素设计方法。只考虑一个处理因素

总变异 T SS :n 个观测值的离均差平方和

组间变异 TR SS :组均值与总均值之差的平方和

组变异 E SS :组各个观测值与本组均值之差的平方和(反映各组样本的随机波动)

●随机区组设计:又称配伍组设计,先将受试对象按条件相同或相近组成m 个区组,每个区组中有k 个受试对象,再将其随机地分到k 个处理组中。(属于无重复数据的两因素方差分析)

5.相对数

两个有联系的指标之比,是分类变量常用的描述性统计指标,常用两个分类的绝对数之比表示相对数学的大小。如率、构成比、比等。 相对数死亡概率某年年初人口数

某年内死亡人数=q 生存概率某年年初人口数

某年活满一年人数=p 生存率观察总例数

时刻仍存活的例数k k k t t T P t S =>=)()(?

6

相对数使用的注意事项

⒈构成比只能说明某事物部各组成部分的比重和分布,不能说明该事物某一部分发生的强度和概率。 ⒉分母过小时相对数不稳定

⒊用以比较的资料应是同质的

⒋要考虑存在的抽样误差,对总体进行推断时应作统计学检验

6.率的标准化

为了比较两个不同人群的患病率、发病率、死亡率等资料时,消除其部构成(年龄、性别、工龄、病程长短等)的影响。

7.2χ检验

英国统计学家Peason 提出的一种用途广泛的假设检验方法。该检验以2χ分布为理论依据,可以推断两个或者多个总体率以及构成比直接有无差异。

(1)四格表资料的2χ检验

理论频数 ()RC R c T n n n =?

四格表资料2χ检验专用公式 22

()()()()()ad bc n a b c d a c b d χ-=++++ 四格表2χ检验校正公式 22(2)()()()()

ad bc n n a b c d a c b d χ--=++++ 通常规则:①n ≥40且所有的T ≥5 基本公式(或专用公式)

②n ≥40但有1≤T<5 校正公式

③n<40,或T<1 Fisher 确切概率法

(2)配对四格表资料的2χ检验

7

公式:㈠22

()b c b c χ-=+, ν=1 (b + c) ≥ 40 ㈡22(1)b c b c

χ--=+, ν=1 (b + c) < 40 (3)行?列表资料的2χ检验 专用公式:2

2

1R C A n n n χ??=- ???∑, ν=(行数- 1)(列数- 1) 条件:⑴1

⑵与分类变量的顺序无关

⑶对于有序的R ?C 表资料不宜用2χ检验

8. 秩转换的非参数检验

●如果已知计量满足或近似满足t 检验或者F 检验,优先选择t 检验

●秩转换的非参数检验适用于:

⑴总体分布为偏态或分布未知的计量资料

⑵等级资料

⑶个别数据偏大,或数据的某一端无确定数值

⑷各组离散程度相差悬殊,即各总体方差不齐

●特点:⑴适用围广,不限方差齐性、变量类型、样本量

⑵损失了部分信息,检验效率低

⑶极度偏态,犯第二类错误的概率较大

●非参数检验,与参数检验的区别。

答:非参数检验对总体分布不作严格的假定,不受总体分布的限制,又称任意分布检验。它直接对总体分布(或分布位置)作假设检验。总体分布为已知的数学形式,对其总体参数作假设检验则为参数检验。

●秩转换的非参数检验,适用情况。

答:秩转换的非参数检验是先将数值变量从小到大,或等级从弱到强转换成秩后,再计算检验统计量。其特点是假设检验的结果对总体的分布形状差别不敏感,只对总体的分布位置差别敏感。适用于:①不满足正态或(和)方差齐性的小样本资料;②分布不知是否正态的小样本资料;③一端或两端是不确切数值的资料;④等级资料。

●两组或多组等级资料的比较,为何不用Χ2检验而用秩转换的非参数检验。

答:Χ2检验只能推断两个或多个总体的等级构成比的差别。选用秩转换的非参数检验,可推断两个或多个总体的等级强度差别。非参数检验:不考虑总体的参数和总体的分布类型,对总体的分布或分布位置进行检验的方法。

9.线性回归分析

●线性回归分析的注意事项

①两个在有联系的变量,回归分析才有意义

②若存在依存因果的关系,则原因变量设为X,结果变量设为Y

③进行相关,回归分析前应绘制散点图④因变量是服从正态分布的随机变量;自变量可随机,可给定

⑤不要把估计围扩大到建立方程时的自变量取值围之外

●线性相关与回归的区别

①相关系数的计算只适用于两个变量都服从正态分布的情形;

回归分析中,因变量随机,自变量随机(Ⅰ型回归模型,两个变量都服从正态);或是给定的量(Ⅱ型,每个X取值对应的变量Y服从正态分布)

②线性相关表示两个变量间的相互关系,是双向的;

回归反映两个变量之间的依存关系,是单向的

8

●线性相关与回归的联系

①同一资料进行相关与回归分析,相关系数r与回归方程中的b正负号相同

②同一样本的r与b的假设检验是等价的

10.统计表和统计图

(1)统计表

结构:标题,标目(横、纵),线条,数字,备注

三横线表:顶线,中间线,底线(标题,标目,数据)

(2)统计图

结构:标题,图域,标目,图例,刻度

(3)统计表的制表原则与要求

答:原则:

●重点突出,一表只表达一个中心容;

●统计表描述要完整,有起描述的对象(主语)和容(宾语),通常主语放在表的左边作横标目,宾

语放在右边作纵标目。

●统计表应简单明了,文字数字、线条尽量从简。

要求:

●标题:概括表的主要容,包括研究时间、地点、容等放在在表的正上方。

●标目:分别用横标目和纵标目说明表的每行和每列数字的意义。注单位。

●线条:至少要用三线条,表格的顶线和底线将表格与文章的其它部分隔开来,纵标目下横线将标

目的文字区与表格的数字区分隔开来。

●数字:…

9

Ps:今晚做的复习资料,很多都做的不好,请见谅!

10

本文来源:https://www.bwwdw.com/article/ccoq.html

Top