(完整版)第18章样本含量的估计.docx

更新时间：2023-04-11 06:04:01 阅读量：实用文档文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

沉默样本完整版推荐度：
相关推荐

第十八章样本含量估计

无论是调查研究还是实验性研究，医学研究大都是抽样研究，最终目的在于

利用实际观测得到的样本信息推断未知的总体特征，即统计推断。抽样研究设计

时需要回答一个非常关键的问题：样本中包含多少个研究对象 (人、动物、生物学材

料等 )才能既满足统计学要求，完成有效的统计推断，又照顾研究的可行性、伦理学

等实际问题，从而最大限度控制研究成本和研究风险，提高研究效率。这就是样

本含量估计 (estimation of sample size)。本章将从统计推断的目的出发，介绍样本

含量估计意义及常用的计算公式，并在此基础上介绍检验效能的估计(power analysis)。

第一节样本含量估计的意义及方法

一、样本含量估计的意义

由于抽样研究中抽样误差不可避免，样本统计量与其所对应的总体参数间总是存在一定差异。因此，尽量减小抽样误差是提高统计推断精度的必然要求。在总体变异性确定的条件下，样本中所含的研究对象数越多，抽样误差必然越小，样本统计量的稳定性肯定越高，总体参数的估计精度越好，假设检验中的检验效

能(power=1- )亦会越高，从而避免出现假阴性的结论。同时在实验性研究中，只

有在研究对象数量足够大时才能使随机分组更加有效，从而保证组间均衡性。

但在实际研究中，除了要考虑抽样误差外，还需考虑研究的可行性、结论的时效性、医学伦理以及非随机误差的影响等实际问题，并非研究对象数越多越好。比如在改良肩周炎贴膏临床试验中，如果片面地追求大样本，研究中所需的人力、物力、财力等物质支持必然增大，研究的可行性下降。由于需纳入更多病例，可

能会延长产品研发周期，影响新药投产上市；若增加医院或临床实验中心参与该

研究，又增加了组织协调的工作量和工作难度。同时增加各种混杂、偏倚发生的

机会，比如由于肩周炎发病、预后与季节、气候密切相关，临床病例接收时间太长，组内病例同质性差；测量仪器增多导致测量误差增大，观察疗效的医院、医生增多，研究结果的一致性降低等现实问题，使得试验结果难于分析或者难以合理解释，影

响研究结论的科学性。另外，由于所施加干预措施可能存在的不良事件反应尚属未知，让过多的临床病例面临风险，亦有悖医学伦理原则。

因此，恰当的样本含量应该是满足医学科研统计学要求，保证一定推断精度

和检验效能的前提下的最少研究对象数。

二、样本含量估计的方法

样本含量的估计方法目前主要有两种：一是公式法，可根据研究目的、设计

类型、已知条件等选择合适的公式进行估算，是目前使用最广泛的方法。二是查

表法，统计学家利用公式法获得样本含量后编制成工具表，使用者只需根据已知

条件查表即可获得相应的样本含量，省去了繁杂的计算过程，但较为局限。本章

将主要介绍公式法样本含量的估计。

第二节调查设计中样本含量估计

调查研究的目的在于描述健康相关状态、事件在研究当时某特定群体中的分布，并在此基础上通过不同群体分布的比较，探索可能的关联或影响因素。但其主要目的仍在于描述分布，如考察某地菜农钩虫感染率、医学生的吸烟率、某地健康男

性居民血红蛋白的含量等。若研究方式为抽样研究，便需要利用已知的样本信息推断总体参数，如总体均数、总体率的估计等。因此本节将根据所估计的参数不同，介绍样本含量估计的基本条件，及总体均数、总体率估计中的样本含量估计方法。

一、样本含量估计的基本条件

采用公式计算样本含量，必须有一些先决条件和基本信息，下面以例18.1为例简单介绍总体参数估计中样本含量估计的基本条件。

例18.1 拟采用单纯随机抽样的方法调查某地区男性成年人群血红蛋白含

量(g/L) 的平均水平。根据文献，中国男性成人血红蛋白含量为(140 ±30)g/L ，要

求所获得允许误差不超过 5g/L，取 0.05 ，问需要调查多少位该地区成年男性？

此研究为调查研究，目的在于利用抽样获得的样本均数X 估计该地区成年

男性血红蛋白含量 (g/L) 的总体均数。假定该地区成年男性血红蛋白含量X 服从正态分布，以文献中中国男性成人的血红蛋白含量信息进行替代(140 g/L，30g/L)，则该地区成年男性的血红蛋白含量X~N(140, 302)。

题意要求允许误差不超过5g/L， =0.05，可解释为样本均数X 与总体均数

之间的差距(X) 不超过5g/L ，且X落在135~145g/L 之间的概率为

1- =0.95。由于总体服从正态分布，样本均数的分布亦服从正态分布，当抽样方

n ，X的分布记为式为单纯随机抽样，且总体为无限总体时，标准误X

X ~ N ( ,x2)。可用图18.1表示。

图 18.1样本均数的抽样分布示意图

结合图 18.1，根据正态分布的原理可得：

Z 2(18.1)

n n

上式反推即可获得单纯随机抽样研究中总体均数估计中的样本含量公式：

(18.2)

式中，为总体标准差；为允许误差；Z / 2为标准正态分布下双尾 Z 值。

如例 18.1 中=30 g/L， =5 g/L，Z/ 2 Z0.05/ 2 1.96 ，代入式得：

(18.2)

1.96302

n138.3

所以至少需要调查 139 人才能达到所要求的精度。

由公式 (18.2)可知，在总体服从正态分布且为无限总体、抽样方式为单纯随

机抽样的前提下，其所需基本信息包括：

1. 置信度 1-置信度越高，需要的样本含量越大，常取= 0.05。

2.允许误差 (allowable error) 是指研究者要求的样本统计量与其对应的总

体参数之间的最大差距，其既可以用绝对误差(X或p)，也可以用相对误差来表示，其中X或p，则绝对误差

或。根据前面章节置信区间的估计，即区间长度的一半。允许误差越小，所需样本含量越大。

3. 总体变异度

常用总体标准差刻画，总体率估计中的 1 。

总体的变异程度越高，所需样本含量越大。

二、单纯随机抽样的样本含量估计

(一 ) 估计总体均数时的样本含量估计

调查研究中利用抽样获得的样本均数

X 估计总体均数。例 18.1 即为估计

总体均数时的样本含量估计，这里不再赘述。需指出的是，式 (18.2)适用于无限

总体抽样时的样本含量估计，对个体数为

N 的有限总体中进行单纯随机抽样时，

需在式 (18.2)计算出样本含量 n 的基础上利用式 (18.3)进行校正：

n c

n (18.3)

1 n N

若抽样比 n N 很小，如小于 0.05 或 0.1，这种校正可省略。

同时，实际工作中总体标准差

常常未知，可首先通过小规模预调查获得的

样本标准差 S 估计。此时，若继续采用式 (18.2)估计样本含量，往往造成样本

量的低估，尤其当样本量较小时，实际上难以达到总体均数估计的精度要求。需

用式 (18.4)进行校正：

(18.4)

式(18.4)中 t /2 表示自由度 n 1 时 t 分布界值，在估计出样本含量前其未

知，可先用 Z / 2 计算出初步的样本含量 n (1) ，并以自由度 v (1) n (1) 1获得 t /2 , (1) ，代入式 (18.3)，求出更近似的 n (2) ，依次类推，直至样本例数稳定。但在实际应用中，如果样本估计量较大 (如 n 50 )，为方便起见可无需校正。

如例 18.1 中，若根据前期预调查得该地血红蛋白含量标准差

s =30g/L ，其余

条件不变，问需要调查多少该地区居民？

根据 Z /2 计算出的初步样本含量 n (1) =139 ，t 0.05/2 ,138 1.9773，带入式 (18.4)得：

(2)

1.9773 30

140.7 141

以 n (2) =141， t 0.05/2 ,140 1.9771，代入式 (18.4)得 n (3) 140.7 141， n (2) n (3) ，

可停止计算。故至少需要调查

141 位成年男性。

(二) 估计总体率时的样本含量估计

调查研究中常需利用抽样获得的样本率p 估计总体率，由第十章的学习可知，当 n 较大，和1均不太小，如 n和 n(1) 均大于5时，样本率 p 的分布亦近似服从正态分布，记为 p ~ N ( ,p2 ) ，其中p(1) n ，同样根据正态分布原理，由式 (18.1)反推可得：

(1)(18.5)

式中，为总体率，其它符号含义同前。总体率未知时，可取= 50% ，以使(1) 达到最大，算得样本含量也最大，从而保证总体率推断的精确性。

例 18.2 研究某地菜农钩虫感染率，要求允许误差不超过2%，取0.05 ，需调查多少人？

根据题意，0.05 ，

0.05/ 2

，

= 0.50

Z / 2=1.96 =2%=0.02。总体率未知，取代入式 (18.5)得：

/222

n(1) 1.962401

0.5 (1 0.5)

0.02

式(18.5)同样仅适用于无限总体抽样的样本含量估计，对有限总体进行抽

样时，仍需按式 (18.3)进行校正。

同时，当总体率接近 0 或 1 时，如>70%或<30%，应用式 (18.5)会有偏差，此时可对作以弧度为单位的平方根反正弦变换，再利用正态分布原理获得样本含量的估计公式：

57.3Z /22

(18.6)

(1 ))

arcsin(

此外，亦可使用基于 Poisson分布的正态近似样本含量估计等，读者可根据

上述理论自行推导，或参考其它书籍，这里不再赘述。

三、其它概率抽样方法的样本含量估计

概率抽样方法不同，样本含量估计方法各异。对系统抽样而言，抽样间隔不同，其抽样误差也不同，故系统抽样尚无统一的方法估计样本含量。但如果研究的变量与总体中个体的编号无确定的上升、下降或周期性变化的关系，系统抽样的抽样误差应小于单纯随机抽样，可参照单纯随机抽样所计算的样本含量。这里

简单介绍分层随机抽样和整群抽样中样本含量的估计。

(一 ) 分层随机抽样样本含量的估计

抽样方式为分层抽样研究中，若总体为无限总体，可在估计各层总体参数2

i 或i基础上，以各层例数在总体中所占比例 W i为权重进行加权平均，获得总体

方差 ( 22

W i )或总体率

)，再按式或式估计调查总

i(18.2)(18.5)

例数。

若总体为有限总体，设总体例数为N，共有 L 层，每层例数为 N i，各层总体

(总体率的估计中2

i (1i ) )，则调查总例数的估计公式为：

方差为i

N i2i2 w i

(18.7)

22222

N(Z 2 )N i i

式中 w i为各层样本比例(sample fraction)，即 w i n i n ，余符号同前。若按比例分配，则 w i N i N W i；若进行最优分配，w i N i i N i i。得到总的样本例数 n 后，各层样本量为n i nw i。

(二 ) 整群随机抽样样本含量的估计

整群抽样中，由于群内个体的相似性和群间个体的异质性，使得整群抽样获得的方差往往大于单纯随机抽样的方差。若定义整群抽样中计算的方差与单纯随机抽样中方差比值为设计效率 DEFF(design effect)，其估计公式为：

DEFF 1(m1)

式中 m 为各群平均个体数；为群内相关系数 (intra-cluster correlation, ICC) ，即

群间方差222

2 (B2W2 ) )，反映群内个体的相似

B 与总方差B W 的比值(

程度，其未知时，可通过预调查进行估计。

整群随机抽样样本含量n C的计算，首先按单纯随机抽样计算样本含量n，再乘以整群抽样的设计效应，则：

n C n DEFF(18.8)所需群数 G n C m 。

第三节实验研究中的样本含量估计

实验研究的目的主要在于通过不同干预措施或实验条件效应指标 (均数或率 ) 的

比较，说明处理因素的作用，如研究方式为抽样研究，比较的过程即为假设检验。

需要特别指出的是不仅在实验研究中存在比较的过程，在调查设计中为了探索可能的影响因素，以及流行病学中的病例对照研究、队列研究也需要进行比较，即也存在假设检验的问题。因此本节将从假设检验中不同变量类型及设计形式出发，介绍样本含量估计条件和估计方法。

一、样本含量估计的基本条件

假设检验中样本含量的估计公式在不同情况下虽有所不同，但其基本思想大同小异，估计的基本条件也大致相同。这里以例 18.3 为例介绍估计的基本条件。

例18.3 欲研究海拔对血红蛋白的影响，拟在某高原地区对健康成年男性进行

抽样调查，以确定高原地区成年男性的血红蛋白是否高于一般成年男性。已知一般正常成年男子血红蛋白为 (140 ±30)g/L ，根据医学专业知识，当血红蛋白含量

相差至少在 10g/L 以上时，可认为二者存在差异。取单侧= 0.05，1-= 0.90 ，问应对多少名高原地区健康成年男性进行检查？

若血红蛋白服从正态分布，此研究目的在于若高原成年男性血红蛋白总体均

数与一般成年男性人群总体均数0 =140g/L之间的差别在10g/L及以上，且总体标准差30 g/L，则利用抽样研究获得的高原地区成年男性血红蛋白样本

信息发现这种差异，并保证发现所存在差异的能力(即检验效能 )1-= 0.90。

通过前面章节学习不难发现，此时需进行单样本设计均数比较的假设检验：

H 0 :0140 g/L (高原地区成年男性血红蛋白均数与一般正常成年男子

相同 )

H 1 :0150 g/L (高原地区成年男性血红蛋白均数比一般正常成年男

子高 10 g/L)

注意：这里的 H 1 : 1 不同于前面章节建立假设时备择假设的写法

H1 :0 ，后者未给出的具体数值。所以前面有关章节介绍过的假设检验，

不能估计犯第二类错误的概率和检验效能 1-。

例 18.3 中，由于总体服从正态分布，样本均数的分布亦服从正态分布，标

n ，在 H0规定的总体中X ~ N (0 ,x2 )，在H 1 规定的总体中抽样，准误

,x2 )，可用图18.2 表示。

样本均数X ~ N (

图 18.2 假设检验中样本均数的分布示意图

从图 18.2 可见，在 H 0成立的正态分布中，在特定的检验水准下，临界点c(图 18.2 中的圆点 )的坐标为： c0Z n 。进一步考虑控制第二类错误时，假设真正的总体分布位置为图中H1所对应的0，那么当 H1分布 c 点坐标左侧面积为时，可同时控制此假设检验的效能为 1-，即c ( 0 ) Z n ，从而有：

0Z n(0) Z n(18.9)推导可得：

(Z Z)2

n(18.10)这样得到的样本量估计就同时控制了假设检验的第一类错误和第二类错误(即检验效能为1- )。式18.10中，为总体标准差，为总体均数间差异， Z 为指定检验水准下的单侧 Z 值，若为双侧检验应改为Z2，为指 II 型错误

下的单侧 Z 值。

需要注意的是，公式18.10 中的根据无效假设有单双侧之分，而只有单侧。因为确定必须考虑无效假设 H 0不成立时真正的总体分布位置，而此时真

正的总体分布位置只会在0的左边或右边 (0 在左边，0 在右边)，两者只能居其一，不可能既在左边又在右边。

例 18.3 中=30 g/L ，=10g/L，Z Z0.05 1.65 ，Z Z0.10 1.28 ，代入

式(18.10)得：

(1.651.28)2

n1077.3 78

所以至少需要调查78 人。

由公式 (18.10)可知，在假设检验样本含量估计中，所需基本信息包括：

1.I 型错误概率即假设检验中的检验水准，愈小，所需样本含量愈多。对于相同的，双侧检验比单侧检验所需样本含量多。通常取 0.05。

2.II 型错误概率或检验效能 (1) II 型错误的概率愈小，检验效能愈大，所需样本含量愈多。一般要求检验效能≥0.80，通常取 0.20 或 0.10。

3.欲比较的两总体参数间的实际差异如两总体均数的差值

，两总体率的差值1 2 。愈大，所需样本含量愈小。

1 2

4.总体变异度比较均数时需了解总体标准差，比较频率时需了解总体

概率 1 和 2 。总体的变异度愈高，所需样本含量愈多。

二、均数比较中的样本含量估计

(一 ) 单样本设计均数比较的样本含量估计

例 18.3 即为单样本设计均数比较的样本含量估计的情形，这里不再赘述。

当总体标准差未知时，可用样本标准差S代替。此时，以t分布中对应的t和t

界值代替 Z 和 Z ，式 (18.10)就转换为：

(t t2

n(18.11)但 n 求出之前，自由度未知，t 和 t 查不出，可首先利用 Z 计算出初步的样本

含量n

(1) ，并以自由度v(1)n(1)1获得 t ,(1)，代入式 (18.11)，求出更近似的 n(2)，依次类推，直至样本例数稳定。

(二 ) 配对设计均数比较的样本含量估计

配对设计假设检验的目的在于通过样本信息考察配对数据差值的总体均数

d与 0 之间的差异，与上述单样本设计均数的比较并无本质区别，其样本含量

计算公式只要将式 (18.10)中改为 d 即可，单侧检验时即：

( Z Z )2

(18.12)

例 18.4欲研究某药对四氧嘧啶糖尿病模型小鼠的降血糖作用。假设该药使空腹血糖下降 2.0mmol/L 及以上有专业意义，若d =1.7mmol/L ，取单侧 0.05，检验效能 1-取 0.90，需要多大的样本含量？

本例的研究目的在于通过某药治疗四氧嘧啶糖尿病模型小鼠前后血糖的动

态变化 (差值 )来说明药物的疗效，治疗前、治疗后血糖值间存在关联，可看成是

配对设计，或关联样本。

根据题意d =1.70mmol/L ，δ=2.0mmol/L ， =0.05， Z0.05 =1.65；=0.10，Z0.10 =1.28，代入式 (18.12)得：

(Z Z )22

d(1.65 1.28) 1.7

n 6.2

2.0

故需 7 只四氧嘧啶糖尿病模型小鼠。

(三 ) 独立两样本设计均数比较的样本含量估计

独立两样本设计指的是相对于配对设计(或关联样本)而言，两样本中的个体测量值彼此独立，没有关联。常见于实验性研究中的完全随机设计样本，及观察性研究中分别独立从两个总体抽样获得的样本。

独立两样本设计均数比较的假设检验中01 2 ，H 1 :1 2 进一步可改写为H 0 :120 ， H 1 :120 ，即通过样本均数的差值考察两总体均数差

值与 0 之间的差异。此时，若两总体均服从正态分布，且总体方差齐，样本均数

差值的分布记为 X1 X 2 ~ N 12, 2 (11

) ，定义样本比例 Q1n1 / N ，

n1n2

Q2 n2 / N ，不难推导两组总例数N 的计算公式为：

(Z /2Z )2

Q11Q21(18.13)

式中、 Z/2、

含义同前，

， n1 NQ1， n2 NQ2。

例 18.5欲采用完全随机设计比较 A 药与 B 药对改善贫血的效果，据以往

经验， A药可增加红细胞11012 / L ， B药可增加红细胞21012 / L 。若

1.8 1012 / L ，取双侧0.05，0.20 ，每组例数相等，问需要多少病例？

若 A 药组样本含量占整个样本含量的60%，每组各需多少病例？

(1) 已知 1.8 1012 / L ，=(2 1) 1012 /L=11012 /L ， Z /2= Z0.05/ 2=1.96,

Z = Z0.20 =0.84。代入式 (18.13)：

(1.96 0.84) 1.8 10122

N(0.5 1 0.5 1 ) 101.6

1 1012

即两组例数相等时，共需病例102 例，每组 51 例。

(2) 若要求 A 药组样本占整个样本含量的60%，即Q10.6 ，Q2 1 Q10.4 ，则代入式 (18.13)：

(1.96 0.84) 1.8 10122

N(0.6 10.4 1 )105.8

1 1012

即两组病例共需106 例，其中 A 药组n1NQ11060.6 64 例；B药组n2NQ2106 0.4 42 例。从上述计算可以看出，在其它条件不变的情况下，

若两组样本含量的比例相同，所需的样本含量最少。

当总体标准差未知时，可用两样本合并方差的平方根，或两样本标准差中较大的一个进行估计。同时以t 2和t界值代替公式(18.13)中的Z2 和Z。

三、率比较中的样本含量估计

(一 ) 单样本设计率比较的样本含量估计

根据二项分布正态近似原理，单样本设计率比较的样本含量估计过程与单样本设计均数的比较基本类似，唯一的区别在于由于标准误p 的计算与有关。

则在 H0规定的总体中 p ~ N ( 0 ,0 (10 ) n ) ，在H1规定的总体中

p ~ N ( ,(1 ) n) 。单侧检验时，样本含量的公式为：

Z0 (1 0 )Z(1 )

(18.14)

例18.6 已知静脉滴注抗生素治疗盆腔炎模型兔的有效率为 50%，现欲研究腹腔穿刺灌注法的效果是否优于静脉滴注，预计腹腔穿刺灌注法的有效率为

80%。若取单侧=0.05，检验效能1取0.80，问需多少只盆腔炎模型兔？

本例，

0 =0.50， =0.80， 0.80 0.50 =0.30。 Z 0.05 =1.65， Z 0.20 =0.84，代

入式 (18.14)得：

1.65

0.50 (1 0.50) 0.84

0.80 (1 2

0.80)

0.30

15.0

故至少需 15 只盆腔炎模型兔。

(二 ) 配对设计样本率比较的样本含量估计

表 18.1

配对设计四格表

乙

甲

合

计

–

+ / /

– /

合计

由表 18.1 可见，配对设计率 1 、

2 的比较可通过考察配对的甲、乙两种处

理措施不一致率 / 和 / 的差别实现。若已知甲、乙两种措施阳性率分别为

1 、

2 ，两种方法均阳性率为 / ，则 / 1 / ，/ 2/ ，双侧检验时样本含量的估计公式为：

Z 2( 1 / )( 2/ ) /

(18.15)

式中，

，余符号意义同前。

例 18.7 欲比较心电图和生化测定法诊断低钾血症阳性率的差别，分别采用两种方法对同一批临床确诊的低钾血症患者进行检查，已知心电图法的阳性率为

80%，生化法阳性率为 65%，两法均阳性率为 50%。若取双侧

0.05，检验效

能 1

0.80 ，问需检查多少低钾血症患者？

表 18.2 例 18.7 配对设计四格表

生化法

心电图法

合

计

–

+ / 0.50

/2 / 0.15 2

0.65

– /1 / 0.30

0.05

1 2

0.35

合

计

0.80 1

1 0.20

根据题意， Z 0.05 2 1.96，Z

0.20

0.80 0.65 2 0.50

0.84 ，

0.225，

代入式 (18.15)得：

1.96 2 0.225 0.84 2 0.80 0.50 0.65 0.50 / 0.225

0.80 0.65

151.5 152

故至少需检查 152 名低钾血症患者。

(三) 独立两样本设计率比较的样本含量估计

独立两样本设计率比较的假设检验中，若定义两组样本比例

Q 1 n 1 / N ，

Q 2 n 2 / N ，则 H 0 : 1

，且设 12c Q 1 1 Q 2 2 ； H 1 : 1 2

0 ，双

侧检验两组总例数 N 的计算公式为：

)(Q

) Z

) Q

c c

2 2 2

(18.16)

若两组样本例数相等，则每组的例数为：

n 1 n 2

2 c (1 c ) Z

1 (1

2 (1

2 )

(18.17)

例 18.8 欲比较上颌窦窦口扩大术与上颌窦窦口开放术治疗真菌性上颌窦炎模型兔的疗效。根据文献，上颌窦窦口扩大术有效率为 83%，上颌窦窦口开放术有效率为 33%。若取双侧 =0.05，β=0.20，两组例数相等，问每组需多少只真菌性上颌窦炎模型兔？

根据题意，

Z / 2 = Z 0.05/ 2

=1.96，

Z =

0.20

=0.84。 1=0.83， 2 =0.33，Q =0.50，

Q 2 =0.50， c 0.83 0.50

0.33 0.50 0.58，代入式 (18.17)得：

n 1 n 2

Z /2

2 c (1

c ) Z

1 (1 1 )

2 (1

2 )

1.96 2 0.58 (1 0.58) 0.84 0.83(1 0.83) 0.33(1 2

0.33)

0.83 0.33 14.05 15

故每组需 15 只真菌性上颌窦炎模型兔。

四、简单直线相关和回归分析中样本含量估计

抽样研究中，两正态分布定量变量间的关联性可通过假设检验考察总体直线

相关系数与 0 之间的差别来说明。其检验假设为 H 0 :0 ， H 1 : 0 ，同时

样本相关系数 r 经 z 转换 ( z 0.5ln(

) )后近似地服从均数为

ln(

) ，标准

1 r

2 1

1 差为

的正态分布，则直线相关分析中的样本含量公式推导为：

(18.18)

n 4

1 3

ln(

)

式中，

为总体相关系数，余符号含义同前。

对于两正态分布定量变量间的直线相关分析和回归分析的假设检验是等价

的，因此直线回归分析与相关分析的样本含量估计公式也是一致的。

例 18.9 欲探讨男性腰围与腹腔内脂肪面积的关系，

根据以往调查结果，两

者间的直线相关系数

=0.75，取双侧

0.05， 0.10 ，问需测量多少男性？

由题意可知 Z /2

Z 0.05/2 =1.96， Z

Z 0.10 =1.28， =0.75，代入式 (18.18)得：

1.96 1.28

14.1 15

n 4

ln(1

0.75)

1 0.75

即需要 15 个观察对象。

第四节样本含量估计中的注意事项

样本含量估计是抽样研究设计阶段的一个关键问题，是根据分析目的、已知

条件 (抽样方法、设计方法、总体特征信息等 )及推断精度或检验效能的要求，利

用样本统计量与其所对应总体参数之间的关系，一般在正态分布基础上，进行数

学推导的过程，在具体计算过程中应注意以下一些问题。

(一 ) 正确理解和应用样本含量估计公式。样本含量估计公式有严格的应用

条件，包括研究目的、研究设计类型、抽样方法、总体分布特征以及数据类型等。

在使用时应具体分析，选择合适的计算公式。同时，前面对于样本含量估计公式

的介绍只是研究中最基本、最简单的情况，主要在于让大家理解样本含量估计的

意义和基本思想。理论上，只要存在样本统计量的抽样误差计算公式，其必然与样

本含量n 有关，即可在以一定分布理论基础上，根据分析目的和已知条件，获得

样本含量 n 的估计公式。

比如在多重线性回归、 logistic 回归、 Cox 回归分析等，其分析目的在于确定自变量对应变量的影响作用，可通过假设检验考察偏回归系数i 是否等于0 实

现，因此亦可采用假设检验中样本含量估计的方法进行样本含量估计，大家可参

阅相关文献，但由于其计算过于繁杂，一般均通过软件进行估计。

(二 ) 样本含量估计的基本参数信息获得方式。抽样研究中，有关总体特征

的指标 (如总体标准差、总体率、总体相关系数、总体参数间的差异等)一般是未知的，其获得常见两种途径：

① 根据既往文献提供的信息进行估计；

② 通过正式研究前进行的小规模预调查或预实验获得的样本信息进行估

计，此时需以 t 分布中对应的t (单侧检验时，双侧检验时为t2)和t界值代替公

式中的 Z (或Z2 )和 Z 。

(三 ) 多指标时样本含量的估计。前述的样本含量估计都是基于单指标，当

效应指标涉及多个时，其最佳的处理方法是基于指标联合分布的分析方法获得相

2应的估计公式。如在多个定量变量比较中，其假设检验方法多用Hotelling’Ts

检验或 MANOV A 等，相关估计方法可参阅相关文献。此外，也可通过在多指标

中确定一个主要指标进行粗略估计，或分别根据各指标进行计算，取样本含量最

大者作为保守估计。

(四) 样本含量的调整。应用上述公式估计出的样本含量是满足统计学要求

的最小样本含量或有效样本含量。若直接以此作为最终研究对象数，由于各种原因(如调查研究、回顾性研究中缺失值、无效访问等，前瞻性研究中对象的退出、失

访、意外死亡、剔除等 )，造成实际上样本量不足。因此，设计时必须对此情况予以

充分考虑，对通过样本含量估计公式获得的样本数 n 予以校正。比如在临床试验中，其校正公式为 n c = n / (1 R0 R1) 2， R0和 R1分别表示试验组退出试验和对照组接

受试验药物的比例。

也有研究者为简便起见，在样本含量公式估计值基础上增加20%，作为研究设计的样本含量。

(五 ) 样本含量估计的软件。样本含量的估计过程是利用给定条件进行数学

运算的过程，其计算公式较为繁杂，不过目前已经有相关的软件完成相应的计算，如专门用于样本含量及检验效能估计的PASS、G*Power、PC-Size、PS、NQuery Advisor，以及在 SAS、 Stata 中一些相关过程等。

第五节检验效能的估计

一、检验效能估计的意义

检验效能是指假设检验中H0实际上不成立，而检验结果亦拒绝H 0、发现其

差异的概率，用 1表示。差异性假设检验中即为总体间差异客观存在时，通

过样本信息发现这种差异的能力。由前述样本含量估计可知，为了使假设检验的结果足够可靠，在研究设计时通过事先设定检验效能并据此来估计所需样本量，

检验效能越高，所需的样本量就越大。不难推理，除个别假设检验 (如正态性检验、方差齐性检验、拟合优度检验等 )外，对于任何一个基于抽样的研究，如果检验结果P ，则需要进一步估计检验效能，以判断样本量是否足够，结论是

否为假阴性。

但实际研究中，总体参数未知，检验效能是不可估计的。此时，若根据已知

的样本量n 及其它样本信息，在既定的检验水准下，推算检验效能1，是

一种假设检验后利用样本信息估计检验效能的方法，即所谓的观察检验效能(observed power)，也称为回顾性检验效能(retrospective power)，并以此作为理论检验效能的估计值。

一般情况下，要求检验效能应高于80%；当检验效能低于75%时，则认为结果不可靠。

二、检验效能估计的方法

样本含量估计与检验效能估计方法的理论基础其实是一致的，只不过分析目的和已知条件不同。前者是研究设计阶段，在给定了检验效能及其它有关总体特征的信息推导样本例数n；后者是假设检验后，已知了样本例数n，并利用获得的样本信息估计总体特征计算检验效能。因此检验效能估计的公式同样可以根据

假设检验的基本思想及正态分布原理推导后获得，更简单的做法是在前述样本含量估计公式基础上反推即可。

在单样本设计的均数比较中，若为双侧检验，样本例数n 的估计公式为( Z /22

Z )

n，则 Z 即为：

Z n

Z/ 2(18.19)

式中各符号的含义同前，、用样本信息进行估计。若为单侧检验，将Z 2改为 Z 即可。

计算出 Z后，若 Z为正值，可以肯定检验效能一定大于0. 50，此时应使用Z 的值查标准正态分布曲线下的面积(附表 2)得到值，检验效能为 ( 1)。若 Z 为负值，可以肯定检验效能一定小于 0. 50，此时直接使用 Z 的值查标准正

态分布曲线下的面积得到的概率值即为检验效能。

例 18.10为了解无症状吸烟者肺功能改变情况，对某地25 例每天吸烟≥1支且连续吸烟≥1年的无症状吸烟者的用力肺活量(FVC) 进行了检测，测得其均数为 3.31L，标准差为 1.20L，已知该地一般人群的FVC 为 3.70L。经单侧 t 检验，P=0.058，按0.05的检验水准，不拒绝 H0，差别无统计学意义。请判断该研

究的检验效能是否足够。

已知 n=25，0.05 ，Z Z0.05 1.65 。、未知，用样本信息进行估计，

则=1.21L，3.31 3.700.39

。代入式得：

(18.19)

0.3925

0.025

1.65

1.20

查标准正态分布曲线下的面积(附表 2)得到概率值为 0.4900，即检验效能为 0.49，低于 0.75，可见该研究的检验效能不足。

其它分析目的下 Z 的计算公式见表18.3。

表 18.3 不同分析目的中的Z 计算公式

假设检验目的 (双侧检验时 )Z 计算公式

单样本设计均数比较Z n

/ 2

配对设计均数比较Z

Z /2 d

两独立样本均数比较Z11Z

n1n2

单样本设计率比较Z n0Z /2 0 (10 )

(1)

配对设计率比较Z n12Z

/22

2()(/ ) / 1/2

两独立样本率比较

N12

/2c (1c )(Q11 Q21 ) Z

1 (1 1

) Q

12 (1 2

) Q

简单直线相关或回归分析Z Z/21

ln(

)n3 21

小结

在医学科研设计中，样本含量估计是一个十分重要的问题。恰当的样本含量指的是在抽样研究中，保证了足够的参数估计精度或检验效能条件下的最小样本量。根据统计推断的目的不同，样本含量的估计主要包括：①参数估计中的样本含量估计，在估计前需明确抽样方法以及置信度1、允许误差、有关总体变异度的信息或；②假设检验中样本含量的估计，在估计前需明确设计

方法以及 I 型错误概率、II型错误概率、总体参数间的实际差异、有关总体变异性的信息或。

检验效能估计是若假设检验结果 P ，利用获得的样本信息估计总体特征计算检验效能的过程，以判断样本量是否足够，结论是否为假阴性的过程。若假设检验结果 P ，则不必考虑检验效能不足的问题。

本章需掌握的核心要点和内容

1.样本含量估计的意义。

2.样本含量估计应具备的条件。

3.常用样本含量估计的方法。

(陈卫中殷菲)

本文来源：https://www.bwwdw.com/article/o3rl.html

相关文章：