统计学名词解释

更新时间：2024-01-02 22:52:01 阅读量：教育文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

统计学名词推荐度：
相关推荐

名词解释：

医学统计学：用统计学的原理和方法研究生物医学问题的一门学科。变量（variable）：观察单位的某项特征变量值（value of variable）：变量的观察结果（测量值）总体（population）：是根据研究目的确定的同质的观察单位的全体，确切的说是同质的所有的观察单位某种变量值的集合。

样本（sample）从总体中随机抽取部分由代表性的观察单位，其测量值的集合称为样本。随机抽样（random sample）：按随机化原则从总体中抽取部分观察单位的过程。同质（homogeneity）：是针对被研究指标来讲，其影响因素相同。简单地理解就是指对研究指标影响大约可以控制的主要因素应尽可能相同。

变异（variation）：指在自然地状态下，个体测量结果在同质基础上的差异。

等级资料（ordinal data）：将观察单位按测量结果的某种属性的不同程度分组，所得各组的观察单位称为等级资料，如患者的治疗结果可分为治愈，好转，有效，无效，死亡。有序变量（定性变量的一种）。概率（probability）：是度量某一随机事件A发生可能性大小的一个数值，记为P（A），P（A）越大，说明A事件发生的可能性越大，0

频率（frequency）：在相同的条件下，独立重复做n次实验，事件A出现了m次，比值m/n称为随机事件A在n次实验中出现的频率。随机误差（random error）：排除了系统误差后的尚存的误差，受多种因素影响，使观察值不按照方向性和系统性而随机的变化，误差变量一般服从正态分布，可以通过统计处理来估计。

系统误差（system error）：由于受试对象，研究者，仪器设备，研究方法等非实验因素影响等确定性原因造成，有一定倾向性或规律性的误差，可以避免。随机变量（random variable）：是指取值不能事先确定的观察结果，不能用一个正常数来表示，每个变量的取值服从特定的概率分布。

参数（parameter）：根据总体分布特征而计算的总体统计指标。统计量（statistic）：由总体中随机抽取样本而计算的相应样本指标。

频数表（frequency table）：将各变量值及其相应的频数列出表格形式，用来表示一批数据各观察值出现的频繁程度。算术均数（arithmetic mean）：描述一组数据在数量上的平均水平。总体均数用μ表示，样本均数用X表示。

几何均数（geometric mean）：描述对数正态分布或数据呈倍数变化资料的水平，记为G. 中位数（median），将一组观察值由小到大排列，n为奇数时取位次居中的变量值，为偶数时，取位次居中的两个变量的平均值。极差（range）：又称全距，为最大值与最小值之差，用于资料的粗略分析，计算简便但稳定性较差。符号R.

百分位数（percentile）：将n个观察值从小到大依次排列，再把它们的位次转化为百分位。四分位数间距（inter quarnle range）：表示百分位数P75和百分位数P25之差，定义为Q=P75-P25.。方差（variance）：表示一组数据的平均离散情况，由离均差的平方和除以样本个数得到。标准差（standard deviation）：是描述反映正态分布计量资料离散程度的指标。是方差的正平方根，使用的量纲与原量纲相同，适用于近似正态分布的资料，大小样本均可，最为常用。变异系数（coefficient of variation）：用于量纲不同和变量间或均数相差较大的变量间变异程度的比较，其计算公式为：

CV=

SX?100%

2正态曲线（normal curve）是函数f(X)=

1?(x??)2?2?2?e 对应的曲线，此曲线是一条高峰位

于中央，两侧逐渐下降并完全对称，曲线两端永远不与横轴相交的钟形曲线。

正态分布（normal distribution）：若指标X的频率曲线对应于正态曲线，则称该指标服从正

态分布，通常用记号N（μ,σ）表示均数为标准差为的正态分布。

标准正态分布（standard normal distribution）：均数为0标准差为1的正态分布为标准正态分布，记为N(0,1).

标准化转换（standardized transformation）：若随机变量X服从正态分布N（μ,σ），经过标准化转换Z=

,就服从标准正态分布。

?统计推断（statistical inference）：通过样本指标来说明总体特征，这种从样本获取有关总体信息的过程为统计推断。

抽样误差（sampling error）：由个体差异产生，由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差，无倾向性，不可避免。均数的标准误（standard error of mean SEM）：用于表示均数抽样误差的指标，反映样本均数之间的离散程度和样本均数抽样误差的大小。可信区间（confidence interval CI）：为按预先给定的概率确定的包含未知总体参数的可能范围，含义是包含总体参数的可能性是1-a。

自由度：n个变量中，可自由取值的变量的个数。

参数估计：用样本指标（统计量）估计总体指标（参数），有点估计和区间估计两种。假设检验中P的含义：指从H0规定的总体随机抽得的等于及大于（或等于及小于）现有样本获得的检验统计量值的概率。

I类错误：拒绝了实际上成立的H0这类弃真的错误称为I类错误，概率大小用alfa表示。 II类错误：接受了实际上不成立的H0这类存伪的错误称为II类错误，概率大小用β表示。检验效能：是指当两总体确有差别，按规定的检验水准所能发现该差异的能力。数值表示：1-β

检验水准：是预先规定的，当假设检验结果拒绝H0接受H1下有差别的结论时犯错误的概率称为检验水准，记为α

均方：有离均差平方和被自由度相除而得。方差分析：根据资料的设计类型，即变异的不同来源将全部观察值总的离均差平方和与自由度分解为两个或多个部分，除随机误差外，其余每个部分的变异可由某个或某几个因素的作用加以解释，通过各变异来源地均方与误差均方比值的大小，借助F分布做出统计推断，判断各因素对观测指标有无影响。

总变异：样本中全部实验单位差异称为总变异，其大小可用全部观察值的均方表示。组间变异：各处理组间观察值大小不等，这种变异称为组间变异，可用组间均方表示。组内变异：各处理组内部观察值大小不等，这种变异称为组内变异，可用组内均方表示。完全随机设计：只考虑一个处理因素，将全部受试对象随机分配到各处理组，然后观察实验效应。

随机区组设计：事先将全部受试对象按自然属性分为若干区组，原则是各区组内的受试对象的特征相同或相近，且受试对象数与处理因素的水平相等，然后将每个区组内的观察对象随

X??2

机地分配到各处理组。

相对数：是两个有联系的指标之比，是分类变量常用的描述性统计指标，常用相对数有“率，构成比，比”等。

率：频率指标，说明一定时期内某现象发生的频率或强度，计算公式为发生某现象的观察单位数除以可能发生某现象的观察总体值*100% 表示方式有百分率%，千分率。

构成比：构成指标。说明某一事物内部的各组成部分所占的比重或分布，计算公式为：某一组分的观察单位数除以同一事物各组分的观察单位总数*100%，表示方法有百分数等。比相对比。是AB两个有关指标之比，说明A是B的若干倍或百分之几，计算公式为比等于

AB。

标准化法：常用于内部构成不同的两个或多个率比较的一种方法，基本思想是指定一个统计标准，按指定标准计算调制率，使之具备可比性以后再比较，以消除由于内部构成不同对总率比较带来的影响。

定基比：统一用某个时间的指标作为基数，其它各时间的指标与之相比。

环比：以前一个时间的指标作基数，以相邻的后一个时间的指标与之相比。

平均增长速度：用于概括某一时期的平均速度变化，即该时期环比的几何均数减1。计算公式为平均增长速度=平均发展速度-1=nana0?1

粗死亡率（crude death rate CDR）：或死亡率（mortality rate），指某地某年平均每千人口中的死亡数，它反映居民总的死亡水平。

发病率（incidence rate IR）：表示一定时期内，可能发生某病的一定人群中新发生某病的强度。

患病率（prevalence rate PR）：又称现患率，指某时刻点上受检人群中现患某种疾病的频率，通常用于描述病程较长或发病时间不明确的疾病的患病情况。

动态数列（dynamic series）按一定的时间顺序，将一系列描述事物的统计指标依次排列起来，就可以观察和比较该事物在时间上的变化和发展趋势。

标化死亡率（standardized mortality rate SMR）:寻找一个统一的分布作为标准组，然后每个比较组均按照该分布标准计算相应的死亡率，所得到的死亡率是相对于标准组的，故称为标化死亡率，由于采取了统一的标准，消除了内部分布不同对总死亡率的影响，使算得的标化死亡率具有可比性。

二项分布（Binomial distribution）：如果每一次实验只有阳性或阴性两种可能的结果，每次实验阳性结果的发生概率均为π，阴性结果均为1-π，每次实验结果是相互独立的，那么重复n次实验，发生阳性结果次数X的概率分布称为二项分布。

拟合优度：指一种度量某事物的频数分布是否符合某一理论分布或数据是否与模型吻合的方法。

非参数统计：不依赖于总体分布类型，也不对总体参数进行统计推断的假设检验。参数统计：通常要求样本来自总体分布型是已知的，在这种假设的基础上，对总体参数进行估计和检验。

秩次：变量值按从小到大顺序所编的秩序号。

秩和：各组秩次的合计称为秩和，是非参数检验的基本统计量。

直线回归：建立一个描述应变量依自变量而变化的直线方程，并要求各点与该直线纵向距离的平方和为最小。

回归系数：即直线的斜率，直线回归方程中用b表示，其统计意义为X每增减一个单位，Y

平均改变b个单位。

直线相关：用于双变量正态分布资料，有正相关，负相关和零相关等关系。零相关表示两变量之间美欧直线相关系数。

相关系数或积差相关系数：以符号γ表示样本相关系数，p表示总体相关系数，它是说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标。

秩相关或等级相关：用双变量等级数据作直线相关分析，适用于1，不服从双变量正态分布而不宜作积差相关分析，2，总体分布型未知，3，用等级表示原始数据。

统计图：将统计指标用几何图形表达，即以点的位置，线段的升降，直条的长短和面积的大小等形式直观的表示事物间的数量关系。

安慰剂对照：在实验研究中，对照组使用一种外形与实验药物完全相同而毫无药理作用的物质，这种对照称为安慰剂对照。

随机化：指研究对象中或总体中每一个观察单位都有同等的机会被选入样本或实验研究的各处理组中。

混杂因素：指实验研究中由于某些非实验因素与实验因素同时并存的作用影响到观察的结果，这种非实验因素称为混杂因素。

偏倚：指在实验中由于某些非实验因素的干扰而形成的系统误差，歪曲了处理因素的真实效应。

实验研究：是指研究者根据研究目的主动加以干预措施，并观察总结结果，回答假设研究所提出的问题的一种研究方法。

调查研究：是指对特定对象群体进行调查，影响被调查的因素是客观存在的，研究者只能被动地观察和如实记录。调查时的研究条件往往难以控制，一般只有通过合理分组，设置对照等手段尽可能的减少干扰。

简答

1，统计工作的步骤：统计工作全过程可分为：统计设计，搜集资料，整理资料和分析资料

四个步骤。它们相互联系，缺一不可。

设计：是整个统计研究实施的依据，是最关键的一环，在设计时应对后三个步骤进行周密的设想和安排。

搜集资料：是统计工作的基础。是根据设计取得准确可靠地原始数据，按其来源时间分为经常性资料和一时性资料。资料要求完整，准确和及时。

整理资料：对原始资料进行审核、校正、整理并使之系统化、条理化，便于统计分析。分析资料：计算统计指标，反映数据的综合特征，阐明事物内在的联系和规律，得出科学结论，统计分析包括统计描述和统计推断。

2，制作频数表的步骤：求全距，定组段数和组距；划组段；绘制整理表。

3，频数表的用途：解释频数的分布特征和类型：便于进一步计算统计指标和进行统计分析

处理；便于发现某些特大或特小的可疑值。 4，标准差的用途：表示观察值得平均离散程度：结合均数可疑描述正态资料频数分布的特

征和估计医学参考值范围：结合样本均数可疑计算变异系数；结合样本含量可疑计算标准误。

5，变异系数的应用：比较度量衡单位不同的多组资料的变异度：比较均数相差悬殊的多组

资料的变异度。

6，正态分布的特征：以μ为中心，左右对称，均数处于曲线最高，两边逐渐下降；正态分布曲线下面积分分布有一定规律：有两个参数μ和σ，位置参数μ和变异参数σ决定了曲线的变异度和位置。

7，正态分布的应用：估计频数分布：制定医学参考值范围；做质量控制

8，标准误的用途：反映了样本均数间的离散程度及样本均数抽样误差的大小；推算可信区间；进行假设检验。

9， t分布的特征：单峰分布，以O位中心，左右对称，类似于标准正态分布；t分布形状

与n有关，自由度越小，标准误越大，t值越分散，曲峰越矮，尾翘越高；n趋于无穷时，样本标准差逼近总体标准差，t分布逼近标准正态分布，t分布不是一条曲线，而是一簇曲线。 10，

假设检验的基本思想：基于反证法思想和小概率思想。反证法思想：首先提出假设，用适当的统计方法确定假设成立的可能性大小，如果可能性小，则认为假设不成立，拒绝它，如果可能性大，还不能认为它不成立；小概率思想：是指小概率事件在一次随机实验中认为基本上不会发生，在进行统计分析时要事先规定概率，即检验水准a 11，假设检验的基本步骤：建立假设；确定检验水准；选定检验方法；计算检验统计量；

确定P值，做出推断结论。 12， t检验的应用条件：当样本含量较小时，理论上要求样本取自正态总体，两样本均

数比较时还要求两样本方差相等，（u检验应用条件：样本含量较大，或n虽小但总体标准差已知）。 13，配对设计的几种情形：两个同质受试对象分别接受两种不同的处理；同一受试对象分别接受两种不同的处理；同一受试对象处理前后 14，配对t检验的基本原理：设两种处理的效应相同，即u1=u2，即看成是差值的样本

均数d所代表的未知总体均数与已知总体均数的比较 15，假设检验注意的问题：要有严密的研究设计：不同变量或资料选用不同的检验方法；

正确理解显著性一词的含义；做结论不能绝对化；统计显著性对应于统计结论，医学临床生物学显著性对应于专业结论。 16，参数检验和非参数检验的区别及各自优缺点：参数检验：以已知分布为假设条件，

对总体参数进行估计或检验；非参数检验：不依赖总体分布的具体形式和检验分布是否

相同。参数检验优点是符合条件时检验效率高，缺点是对资料要求严格而且要求资料的分布型已知和总体方差相等。

非参数检验优点是计算简单便于掌握；应用广泛；收集资料方便，缺点是容易损失信息。检验效率低。

17，可信区间与假设检验的区别和联系：可信区间用于说明量的大小即推断总体均数

的范围，而假设检验用于推断质的不同即判断两总体均数是否不同，两者相互联系又相

互区别；可信区间亦可回答假设检验的问题；可信区间比假设检验可提供更多的信息，但并不意味着可信区间能够完全代替假设检验；可信区间只能在预先规定的概率——检验水准的前提下进行计算，而假设检验能够获得较为确切的P值，故两者结合起来次才是完整的分析。 18，方差分析的基本思想：根据资料的设计类型，即变异的不同来源将全部观察值总的

离均差平方和和自由度分解为两个或多个部分，除随机误差外，其余每个部分的变异可

由某个或几个因素的作用加以解释，通过比较不同变异来源地均方，借助F分布做出统计推断，从而了解该因素对观测指标有无影响。 19，方差分析的应用条件：1各次观察独立，即任何两个观察值之间均不相关，2同一

水平下的观察值Xij分别服从总体均数μ的正态分布。3各总体的方差基本相等，概括的

表达为：任何观察值都是独立的来自于具有等方差的正态总体。

20，应用相对数的注意事项：计算相对数的分母一般不宜过小；分析是不能以构成比代

替率，应当注意不能用构成比的动态分析代替率的动态分析；对观察单位不等的几个率，不能直接相加求其总率，在比较相对数时应注意可比性；对样本率（构成比）的比较应随机抽样，并做假设检验。

21，四格表?检验的适用条件：1，当n>=40且所有T>=5时，用普通的?检验，若

所得的P约等于0时，改用确切概率法，2，当n>=40但1<=T<=5时，用校正?2检验；

3当n<40或T<1时，不能用?检验，改用确切概率法。 22，

秩和检验的基本思想：假定从一总体中，随机抽取一个样本，可以求出T+和T-，当重复所有可能组合的样本，得T+和T-的分布，T的分布以均数为中心对称的非连续分布，当H0成立，从总体随机抽取任一样本，所得T值在均数附近的概率最大，当T值远离均数概率较小，随着n增大，T的分布逐渐逼近均数n(n+1)/4，方差n(n+1)(2n+1)/24的正态分布，当n<25时，T的分布已较好地近似正态分布。 23，成组设计两个样本比较的秩和检验的基本思想n1和n2两个样本，来自同一总体

和分布相同的两个总体，即假设检验H0成立，则n1样本的秩和T与平均秩和n1(N+1)/2

一般相差不大，也就是u值小于u，若T与平均秩和n1(N+1)/2相差很大，则表示筹得的样本统计量T值的概率很小，因而拒绝检验假设H0。 24，直线回归方程的应用：描述两变量的依存关系；利用回归方程进行预测；利用回归方程进行统计控制。 25，应用直线回归应注意的问题：做回归分析要有实际意义，不能把毫无关联的两种现

象勉强做回归分析，即使有回归关系也不一定是因果关系，还必须对两种现象间的内在

联系有所认识，能从专业理论上做出合理解释或有所依据，在进行直线回归分析前，应绘制散点图，当观察点的分布有直线趋势，才适宜直线回归分析；直线回归方程的适用范围一般以自便量的取值为限，不能任意外延。

26，直线回归与相关的区别1资料要求不同：回归要求变量Y服从正态分布，X是可以

精确测量和严格控制的变量，相关要求两个变量X，Y服从双变量正态分布，2应用情况

不同：说明两变量间依存变化的数量关系用回归，说明变量间的相关关系用相关3，意义不同：回归系数b表示自变量X每变化一个单位后应变量Y的平均变化量，相关系数r表示两变量相关的方向和密切程度，4取值范围不同：-1<=r<=1；b负无穷到正无穷大。5单位不同，回归系数b有单位，相关系数r没单位。 27，直线回归与相关的联系：1两者都是研究两个数值变量的关系的统计方法，2方向

一致：对一组数据若同时计算r与b，他们的正负号一致，r为正说明两变量间的相互关

系是同向变化的，b为正号说明X增减一个单位，Y平均增减b个单位，3假设检验对同一样本，r与b的假设检验得到的t值相等，由于r的假设检验简单，故在实际应用中常用以前法代替后法，4用回归解释相关，决定系数P2=SS回/SS总，回归平方和越接近总平方和，R2越接近1。 28， 29，

列表的原则1重点突出，简单明了2主次分明，层次清楚，符合逻辑。

列表的基本要求1标题，概括表的内容，写于表的正上方中央，必要时注明时间地

点。主要内容2标目以横纵向标目分别说明主语与谓语，文字简明，层次清楚，有单位用（）3，线条用三线条表示，粗略的顶端线及纵标下的横线，其余一律省去，4数字以阿拉伯数字表示，暂缺或无数字分别以“”、“——”表示，不应有空项，为核实与分析，表常应有合计。5不列备注，必要说明者表*，于表下方说明。 30，实验的基本原则随机化，对照，重复。

31，对照的种类：空白，安慰剂，自身，实验，标准

32，实验设计的基本步骤：建立研究假设，明确研究范围，确立处理因素，明确观察指

标，控制误差和偏倚。 33，常用的实验设计方法：完全随机设计，配对设计，交叉设计，随机区组设计，析因

设计。 34，确定样本含量时应具备的条件：建立假设检验，定出检验水准，提出所期望的检验

效能，必须知道有样本推断总体的一些信息。 35，常用的估计样本含量的方法：两样本均数比较，配对实验和交叉试验，样本均数与

总体均数的比较，两样本率的比较，配对分类资料多用X检验进行处理，估计总体均数

的样本含量，估计总体率的样本含量。 36，

实验设计和调查设计的主要区别：调查设计1在研究过程中没有人为施加的干预措施，而是客观的观察记录某些现象的现状及其相关特征，2不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响；实验设计1研究者根据研究目的主动加以干预措施，并观察总结其结果，回答研究假设所提出的问题，2按随机分配的方法去除混杂因素。 37，标准误与标准差的区别与联系

区别

1概念不同：标准差是描述样本中个体值间的变异程度指标，标准差越小，表示变量值围绕均数波动越小，标准误是描述样本均数间的变异程度指标，标准差越小，表示变量值围绕均数波动越小。

2用途不同：标准差用于表示变量值对均数波动的大小，当资料呈正态分布时，与均数结合可估计正常值范围，计算变异系数等，标准误常用于表示样本统计量和总体参数的波动情况，可估计参数可信区间进行假设检验。 3与例数的关系不同，当样本含量足够大时，标准差趋向稳定，而标准误随例数增大而减小，甚至趋向于0，若样本含量趋向于总例数，标准差趋近于0或更高。

38，

非参数检验的适应情况：1分布型未知，2能以严重程度，优劣等级，效果大小和

名次先后等划分的等级资料。3分布极度偏态。4本组内个别变量偏离越大，远离本组其他变量值，5，方差不齐时，6筛选或只需获得初步结果。 39，如何正确选用单侧检验和双侧检验：单侧检验首先应根据专业知识来确定，同时也

应考虑所要解决问题的目的，若从转押知识判断一种方法的结果可能低于或高于另一种

方法的结果，则用单侧检验；在尚不能从专业知识判断两种结果高低时，用双侧检验，若研究者对于低于或高于两种结果都关心时，则用双侧检验，若只关心其中一种可能，则取单侧检验，一般认为双侧检验较保守和稳妥，单侧检验由于充分利用了另一侧的不可能性，更易得出有差别的结论，但应慎用。 40，配对t检验与配伍组设计的方差分析之间有何联系？两样本t检验与完全随机设计

的方差分析有何联系？

配伍组设计的方差分析是配对t检验的推广，他们的基本原理相同。完全随机设计的方差分析是两样本t检验的推广，他们的基本原理相同。不管是配伍组设计害死完全随机设计，当对比样本为两组，可用t检验也可以用方差分析，他们是等价的，当对比样本在两组以上只能用方差分析。

41， P ?0.05拒绝H0的理论根据。P值是指从H0规定的总体随机抽取等于及大于（或

等于及小于）现有样本统计量的概率，P ?0.05，说明在H0成立的条件下，得到现有检

验结果的概率小于小概率事件标准0.05.因小概率事件在一次实验中几乎不可能发生，现的确发生了，说明样本信息不支持H0，所以怀疑假设H0不成立，故拒绝H0。 42，配对比较的假设检验，能否出现t检验结果P>0.05，而非参数检验结果P<0.05？

答：可能出现。配对t检验的统计量t=

s/dn，式中d为差值均数，当Sd固定时，

t的大小取决于d，差值均数小，t值就小，表明每个对子是接近的，故检验结果为P>0.05。推断两总体差值为0的假设未能拒绝，在参数检验中，综合了差数大小与方

向的全部信息，差数大小更能提供两组数据之差有无实际意义的信息，而配对秩和检验更侧重方向的作用，设想当n对差数全部为正号时，尽管两组数据非常接近，也会出现T+很大，T-为零的局面，即P<0.05的结果，这种局面虽然可以出现，但随n的增大，如果H0为真，则差数的方向是随机出现的，故T+和T-一般相差不大，其检验

结果与参数检验结果多数情况下还是一致的。

43，参数检验和非参数检验所得结果不一致，以何为准？

仅供参考

第一章绪论

统计学（statistics），是研究数据的收集、整理、分析的一门科学，帮助人们分析占有信息。达到去伪存真、去粗存精、争取认识世界的一种重要手段。卫生统计学（health statistics）：是研究居民健康状况以及卫生服务领域中数据的收集、整理和分析的一门科学。

统计描述（descriptive statistics）用统计指标、统计表、统计图等方法，对资料的数量特征及其分布规律进行滴定和描述。统计推断（statistical inference）：通过样本指标来说明总体特征，从样本获取有关总体信息的过程

总体（population）：是根据研究目的确定的同质观察单位的全体。

样本（sample）从总体中随机抽取部分由代表性的观察单位，其测量值的集合称为样本。变量（variable）：在确定总体之后，研究者则应对每个观察单位的某项特征进行测量和观察，这种特征称为变量。

变异（variation）：指在自然地状态下，个体测量结果在同质基础上的差异。随机抽样（random sample）：按随机化原则从总体中抽取部分观察单位的过程。以避免误差和偏倚对研究结果有所影响。

样本含量或样本大小（sample size）：样本包含的观察单位数称为样本含量，医学上也称为样本例数。

定量资料（quantitative data）是测量每个观察单位某项指标大小所得到的资料，一般均有度量衡单位。

分类资料（categorical data）：观察值是定性的，表现为互不相容的类别或属性。有序分类（ordinal categories）：各类之间有程度的差别，给人以“半定量”的概念。概率（probability）：是度量某一随机事件A发生可能性大小的一个数值，记为P（A），P（A）越大，说明A事件发生的可能性越大，0

统计工作的步骤：设计（design），收集资料（collection），整理资料（sorting data），分析资料（analysis of data）（统计描述descriptive statistics）、统计推断（inferential statistics）

第二章定量资料的统计描述

对称分布：是指集中位置在中间，左右两侧频数大体对称。

偏态分布：指集中位置偏向一侧，频数分布不对称，分为正偏态和负偏态。均数（mean）：描述一组数据在数量上的平均水平，适用于对称分布，特别是正态或者近似正态分布的定量资料。中位数（median），是指将一组观察值从小到大排列后，居于中间位置的那个数值。将一组观察值由小到大排列，n为奇数时取位次居中的变量值，为偶数时，取位次居中的两个变量的平均值。

极差（range）：是全部数据中最大值与最小值之差，它描述了数据变异的程度。又称全距，为最大值与最小值之差，用于资料的粗略分析，计算简便但稳定性较差。符号R.

标准差：反映定量资料离散趋势的指标，它能反映每一个变量值与均值的平均的离散程度，S越小，变量值与均值离散程度越小，均数代表性越好。变异系数（coefficient of variation CV）：标准差与算术均数的比值。

频数分布表的用途：

1揭示资料的分布类型

2由频数分布表可以看到频数分布的两个重要特征：集中趋势和离散趋势。 3便于发现某些特大或特小的可疑值。 4便于进一步计算统计指标和做统计处理。

描述集中趋势的指标：均数X，几何均数G，中位数M

描述离散趋势的指标：极差，方差，标准差，四分位数间距IQR，变异系数CV

第三章正态分布

正态分布：若X的频数曲线对应于数学上的正态分布曲线（曲线呈钟型，两头低中间高，左右对称）则称该指标服从正态分布。

正态分布的应用：归频数分布：制定参考值范围，作质量控制，统计处理方法的基础。

第四章总体均数的估计和假设检验

抽样误差（sampling error）：是由个体变异产生的，抽样造成的样本统计量与总体参数的差异。

标准误（standard error）是样本统计量的标准差。

均数的标准误（standard error of mean SEM）用于表示均数抽样误差的指标，反映样本均数之间的离散程度和样本均数抽样误差的大小。

参数估计：是指用样本指标值（统计量）估计总体指标值（参数）。点估计：就是用样本统计量直接作为总体参数的估计值。

区间估计confidence interval CI：按预先给定的概率（1-a）确定的包含未知总体参数的可能范围。该范围通常称为参数的可信区间或置信区间。

I类错误：拒绝了实际上成立的H0这类弃真的错误称为I类错误，概率大小用α表示。 II类错误：接受了实际上不成立的H0这类存伪的错误称为II类错误，概率大小用β表示。可信度：预先给定的1-a。为按预先给定的概率确定的包含未知总体参数的可能范围，含义

是包含总体参数的可能性是1-a。

检验效能（power of a test）（1-β）当两总体确有差异，按规定检验水准，所能发现该差异的能力。

中心极限定理：

1从正态总体N（μ,σ）中，随机抽取例数为n的样本，样本均数也服从正态分布，即使从偏态总体中随机抽取，当n是足够大时（如n>50），X也近似正态分布。

2从均数μ，标准差σ的正态或偏态总体，抽取例数为n的样本，样本均数X的总体均数也为μ，标准差用σ（X）=?n

统计推断包括：参数估计和假设检验。

标准误的用途：可反映样品均数与总体均数距离远近，反映可靠性：与样本均数结合估计总体均数的可信区间；进行假设检验。

假设检验应注意的问题：1，要有严密的研究设计2，不同变量或资料应选择不同的检验方法3，正确理解“显著性”一词的含义4，做结论不能绝对化5，统计“显著性”与医学临床/生物学“显著性”。

可信区间与假设检验：1可信区间亦可回答假设检验的问题，2可信区间比假设检验可提供更多的信息。

第五章方差分析变量变换：将原始数据做某种函数转换，使各组达到方差齐性，也可使资料转换为正态分布。方差分析的基本思想：就是把全部观察值间的变异（总变异）按设计和需要分解成两个或多个组成部分，总自由度也分解成相应的几个部分，再做分析。分解的每一部分代表不同的含义，其中至少有一部分代表各均数间的变异情况，另一部分代表误差。离均差平方和除以自由度得均方，组间均方与误差均方之比为F值，F值远大于1，表示各组均数间差别有显著性，F值远小于1，表示各组均数间差别无显著性，可查F界表确定P。

方差分析的用途：两个或多个样本均数的比较，分析两个或多个研究因素的交互关系以及回归方程的线性假设检验。

方差分析的应用条件：1，各样本是相互独立的随机样本，2各样本来自正态总体，3各处理组总体方差齐性。

变量变换：1目的：使方差性齐；资料正态化；还可用于曲线直线化；2类型：对数变换：平方根变换；倒数变换；平方根反正弦变换等。

第六章分类资料的统计描述

Relative number相对数：由两个有联系的指标之比组成的用以描述分类变量的统计指标。

Rate率：又称频率指标，说明某现象发生的频率或强度。率=发生某现象的观察单位数/可能

发生某现象的观察单位总数×100%

Proportion构成比:又称构成指标，说明某一事物内部组成部分所占的比重或分布。构成比=某一组成部分的观察单位数/同一事物各组成部分的观察单位总数×100%

Ratio比：又称相对比。是A，B两个有关指标之比，说明A是B的若干倍或百分之几。比=A/B

Standard mortality ratio SMR标准化死亡比：指被标化组实际死亡数与预期死亡数之比。若SMR>1，表示被标化人群的死亡率高于标准组：反之若SMR<1，表示被标化人群的死亡率低于标准组。

Dynamic series动态数列：是一系列按时间顺序排列起来的统计指标，包括绝对数、相对数或平均数，用以说明事物在时间上的变化和发展趋势。

定基比：即统一用某个时间的指标作基数，以各时间的指标与之相比，是常用的动态数列分析指标之一。

环比：以前一个时间的指标作基数，以相邻的后一个时间的指标与之相比。是常用的动态数列分析指标之一。

应用相对数应注意的问题：计算相对数的分母一般不宜过小，当例数小于30时，宜用绝对数表示为好；分析时不能以构成比代替率，应当注意不能用构成比的动态分析代替率的动态分析；对观察单位不等的几个率，不能直接相加求其总率，在比较相对数时应注意可比性；对样本率（构成比）的比较应随机抽样，并做假设检验。

标准化法的基本思想：当两组或多组率之间比较，其内部各小组的率明显不同，且各小组的观察例数的构成比也明显不同时，则不能直接比较两组或多组的总率，得出结论。为消除构成不同造成的影响。采取统一的标准构成进行调整，使之标准化，以具有可比性。标准化率的计算（直接法）：p’=

?NNipi或p’=???Ni??Pi ?N?Ni：标准组个小组例数：pi：被标化组各小组的率，N：标准组总例数平均发展速度=nanao a0=基期指标；an：第n年指标

平均增长速度=平均发展速度-1

第九章秩和检验

参数统计：通常要求样本来自总体分布型是已知的，在这种假设的基础上，对总体参数进行估计和检验。

非参数统计：当样本来自总体分布型是未知的或总体分布与检验所要求的条件不符时，所使用的统计方法。不依赖于总体分布类型，也不对总体参数进行统计推断的假设检验。非参数统计的优缺点：1应用范围广，简便，易掌握，对资料分布特征无特殊要求。 2当资料适合参数统计，而用非参数统计会损失部分信息，减低检验

效能。

秩和检验方法配对设计差值的符号秩和检验假设 H0M=0 H1M≠0 α =0.05 方法 1，差值由小到大编秩，人去T+或T-，查表确定p值。 2， N>25，用μ检验注意事项编秩时，绝对值相等者，取平均秩次 H0两总体分布相同 H1两总体分布不同 α =0.05 1.所有数据由小到大编秩，小ni组秩和为T。查表确定p值。 2. n1>10或n2-n1>10时，用μ检验成组设计两样本比较的秩和检验成组设计多样本比较的秩和检验 H0总体分布均相同 H1总体分布不同或不完全相同 α =0.05 1.所有数据由小到大编秩，求出各组秩和Ri计算H值。 2.当k=3，n≤5时查H界值表确定p，当最小n>5时，v=k-1. 查X2表，确定p。内取平均秩次。 2.相同秩次较多时，需校正。 1.编秩时，相同数据在不同组内取1，编秩时，相同数据在不同组平均秩次 2.相同秩次较多时，需要校正。

第十一章回归和相关

直线相关：或简单相关，描述两变量的相互关系，用于双变量正态分布资料。有正相关、负相关和零相关（非直线相关）系。

相关系数：或累积相关系数，说明具有直线关系的两个变量间，相关关系的密切程度与相关方向的指标。样本相关系数用r表示，总体相关系数用ρ表示。

直线回归：描述两变量间的依存关系。利用回归分析方法能够找到一个描述变量之间的变化关系的数学表达式。

回归系数：或直线的斜率，样本回归系数b，总体回归系数β，b的统计学意义为：X每增

加/减少一个单位时，Y平均改变b个单位。

剩余：或残差，即实际值与估计值之差。SSB即?(Y?Y)，为Y的离均差平方和。说明未

考虑X与Y的回归关系时Y的变异。

剩余平方和：SS剩，即?(Y?Y)2，它反映X对Y的线性影响之外的一切因素对Y的变异情况。也就是在总平方和中无法用X解释的部分，其值越小，说明直线回归的估计误差越小。回归平方和：SS回，即?(Y?Y)2，它反映由于X与Y的直线关系而使Y的总变异减小的部分。也就是在总平方和中可以用X解释的部分，其值越大，说明回归效果越好。剩余标准差：指当X对Y的影响被扣除后，Y仍存在变异，此变异由抽样误差造成，与X无

关。用来反映Y的剩余变异。

预测：吧预报因子（X）代入回归方程对预报量（Y）进行估计，其波动范围可按求个体Y

值容许区间方法计量。统计控制：利用回归方程进行逆估计，要求Y在一定范围内波动，可以通过控制X的取值

来实现。决定系数：即r2=SS回/SS总.当总平方和固定不变时，回归平方和的大小取决于r2。

秩相关：又称等级相关，用双变量等级数据作直线相关分析，适用于1，不服从双变量正态

分布而不宜作积差相关分析，2，总体分布型未知，3，用等级表示原始数据。

??等级相关系数：即rs,说明两个变量间相互关系的密切程度与相关方向，用于下列资料：1，不服从双变量正态分布而不宜作积差相关分析，2，总体分布型未知，3，用等级表示原始数据。

假设检验：1b，方差分析，t检验；2界值表，t检验。

直线回归方程的应用：1描述两变量的依存关系；2预测；3统计控制应用直线回归应注意的问题：

1. 作回归要有实际意义。

2. 回归分析前绘制散点图，观察直线趋势，修正或删除异常点。 3. 直线回归方程的适用范围一般以自变量的取值范围为限。