温州医科大学研究生统计学资料 - 图文

更新时间:2024-04-18 00:37:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

一、两组计量资料比较(20分)

题干由试题和相关SPSS分析结果组成 1、根据资料选择正确的统计检验方法;

2、请写出假设检验步骤:检验假设,检验水准,根据SPSS结果选择正确的统计量值和P值、并作出结果判断。

3、说明:正态性检验提供K-S检验结果;方差齐性检验提供Levenes检验结果。 正态性检验和方差齐性检验不必列出检验步骤,作出判断即可。 可能包括的内容:

? 配对设计的两样本均数比较的t检验 ? 成组设计的两样本均数比较的t检验 ? 成组设计的两样本均数比较的近似t检验 ? 配对设计的两样本比较的符号秩和检验 ? 成组设计的两样本比较的秩和检验

举例:例2.17 某医生测得18例慢性支气管炎患者及16例健康人的尿17酮类固醇排出量(mg/dl)分别为X1和X2,试问两组的均数有无不同。

X1:3.14 5.83 7.35 4.62 4.05 5.08 4.98 4.22 4.35 2.35 2.89 2.16 5.55 5.94 4.40 5.35 3.80 4.12 X2:4.12 7.89 3.24 6.36 3.48 6.74 4.67 7.38 4.95 4.08 5.34 4.27 6.54 4.62 5.92 5.18

One-Sample Kolmogorov-Smirnov Test慢支患者健康者N1816Normal Parametersa,bMean4.45445.2987Std. Deviation1.32451.3820Most ExtremeAbsoluteDifferences.102.113Positive.075.113Negative-.102-.091Kolmogorov-Smirnov Z.434.452Asymp. Sig. (2-tailed).992.987a. Test distribution is Normal.b. Calculated from data. Independent Samples TestLevene's Test forEquality of Variancest-test for Equality of Means95% ConfidenceInterval of theSig.MeanStd. ErrorDifferenceFSig.tdf(2-tailed)DifferenceDifferenceLowerUpperXEqual variances assumed.225.638-1.81832.078-.8443.4644-1.7904.1017Equal variances notassumed-1.81331.163.079-.8443.4656-1.7938.1052【答案】jszb

1、此资料是计量资料,研究设计为完全随机设计 (又称成组设计);

2、根据正态性单样本K-S检验结果:P值分别为 0.992、0.987,均大于 0.1,因此两样本均服从正态分布; 3、根据方差齐性检验结果:F=0.225、P=0.638,P>0.05,因此两样本总体方差齐性; 4、根据以上三点,统计方法选用成组设计两样本 t检验,其假设检验过程如下: (1)建立假设检验,确立检验水准:

H0:u1=u2,即两组的总体均数相同 H1:u1≠u2,即两组的总体均数不同 α=0.05

(2)计算检验统计量t值:

ν=18+16-2=32 t= -1.818

(3)确定 P值,做出统计推断:

P=0.078>0.05

根据α=0.05的检验水准,不拒绝 H0,差异无统计学意义。

因此尚不能认为慢性支气管炎患者和健康人尿17酮类固醇排出量有差别。

【06真题】

一、某医院外科用两种手术治疗肝癌患者 18例,患者采用随机方法分配到不同手术组,每例手术后生存月数如下表,问两种手术方法的术后生存月数有无差别?(20分) 甲法 2 3 4 4 5 5 6 8 10 乙法 5 8 9 11 12 12 13 15 19

要求:请写出上述题目假设检验过程:检验假设、检验水准、统计检验方法、检验统计量值和 P值,并作出结果判断(正态性检验和方差齐性检验不必列出检验步骤,作出判断即可) 【答案】jszb

1、此资料是计量资料,研究设计为完全随机设计 (又称成组设计);

2、根据正态性单样本K-S检验结果:P值分别为 0.855、0.995,均大于0.1,因此两样本均服从正态分布; 3、根据方差齐性检验结果:F=1.161、P=0.297,P>0.05,因此两样本总体方差齐性; 4、根据以上三点,统计方法选用成组设计两样本 t检验,其假设检验过程如下: (1)建立假设检验,确立检验水准:

H0:u1=u2,即两组的总体均数相同;H1:u1≠u2,即两组的总体均数不同;α=0.05 (2)计算检验统计量t值:

ν=9+9-2=16 t= -3.986

(3)确定 P值,做出统计推断:P=0.001<0.05

根据α=0.05的检验水准,拒绝 H0,接受H1,差异有统计学意义。 因此认为两种手术方法的术后生存月数有差别。

配对设计t检验【答案模板】jszb

1、此资料是计量资料,研究设计为配对设计;

2、根据正态性单样本K-S检验结果:P值分别为 ?,大于0.1,因此差值服从正态分布; 3、根据以上两点,统计方法选用配对设计两样本t检验,其假设检验过程如下: (1)建立假设检验,确立检验水准:

H0:ud=0,即两组的总体均数相同;H1:ud≠0,即两组的总体均数不同;α=0.05

(2)计算检验统计量t值:

ν=n-1=? t= ? (3)确定 P值,做出统计推断:

P=?<0.05 根据α=0.05的检验水准,拒绝 H0,接受H1,差异有统计学意义。因此认为两种?有差别。

P=?>0.05 根据α=0.05的检验水准,不拒绝 H0,差异无统计学意义。因此尚不能认为两种?有差别。

【05真题】【04真题】

一、随机抽样调查了某地绣品厂和蓄电池厂工人各 10名,测定其血中锌卟啉含量(μg/100ml)如下表。问这两个工厂工人血中锌卟啉含量有无差别?( 20分)某地绣品厂和蓄电池厂工人血中锌卟啉含量( μg/100ml)结果 绣品厂 12.1 42.9 0.0 0.0 11.1 25.0 0.0 26.3 9.1 25.0 蓄电池厂 72.5 75.3 28.3 60.0 70.5 73.1 60.0 20.0 20.0 32.6

要求:请写出上述题目假设检验过程:检验假设、检验水准、统计检验方法、检验统计量值和 P值,并作出结果判断(正态性检验和方差齐性检验不必列出检验步骤,作出判断即可)。SPSS软件有关分析结果见附页。

【答案1近似t检验】jszb

1、此资料是计量资料,研究设计为完全随机设计 (又称成组设计);

2、根据正态性单样本K-S检验结果:P值分别为 0.886、0.575,均大于 0.1,因此两样本均服从正态分布; 3、根据方差齐性检验结果:F7.454、P=0.014,P<0.05,因此两样本总体方差不齐; 4、根据以上三点,统计方法选用成组设计两样近似t检验,其假设检验过程如下: (1)建立假设检验,确立检验水准:

H0:u1=u2,即两组的总体均数相同 H1:u1≠u2,即两组的总体均数不相同 α=0.05

(2)计算检验统计量t值:

t= -4.013 ν=14.960

(3)确定 P值,做出统计推断:

P=0.001<0.05

根据α=0.05的检验水准,拒绝 H0,接受H1,差异有统计学意义。 因此认为两个工厂工人血中锌卟啉含量有差别。

【答案2】成组设计秩和检验jszb

1、此资料是计量资料,研究设计为完全随机设计 (又称成组设计);

2、根据正态性单样本K-S检验结果:P值分别为 0.886、0.575,均大于 0.1,因此两样本均服从正态分布; 3、根据方差齐性检验结果:F7.454、P=0.014,P<0.05,因此两样本总体方差不齐;

4、根据以上三点,统计方法选用两独立样本比较的 Wilcoxon秩和检验,其假设检验过程如下: (1)建立假设检验,确立检验水准:

H0:两个工厂工人血中锌卟啉含量总体分布相同; H1:两个工厂工人血中锌卟啉含量总体分布不同; α=0.05

(2)计算检验统计量T值:

①统一编秩;②求秩和;③确定统计量T值。

T=65或 145 n1=10 n2-n1=0

(3)确定 P值,做出统计推断:

查 T界值表得 P<0.005

根据α=0.05的检验水准,拒绝 H0,接受H1,差异有统计学意义。 因此认为两个工厂工人血中锌卟啉含量有差别。

配对设计秩和检验【答案模板】jszb

1、此资料是计量资料,研究设计为配对设计;

2、根据正态性单样本K-S检验结果:P值分别为 ?,小于0.1,因此差值不服从正态分布;

3、根据以上两点,统计方法选用配对秩和检验,既Wilcoxon符号秩和检验,其假设检验过程如下: (1)建立假设检验,确立检验水准: (2)计算检验统计量T值:

①求差值D;②编秩;③求秩和;④确定统计量T值。 (3)确定 P值,做出统计推断:

【知识点解析】Jszb 【正态性检验】

1、图示法:概率图(P-P plot)、分位数图(Q-Q plot) 2、计算法:偏度系数γ1;峰度系数γ2 3、K-S检验:属于单样本非参数检验 K-S检验(Kolmogorov-Smirnov检验):一般作为小样本的正态性检验方法 K-S检验:检验频数分布的正态性检验

单样本K-S检验的原假设是:样本来自得总体与指定的理论分布无显著差异

SPSS单样本非参数检验是对单个总体的分布形态等进行推断的方法,包括:卡方检验、二项分布检验、K-S检验、变量值随机性检验

二、单样本K-S检验

单样本K-S检验(1-sample K-S test)是以两位苏联数学家柯尔莫哥(Kolmogorov)和斯米诺夫(Smirnov)命名的。K-S检验是一种拟合优度检验,研究样本观察值的分布和设定的理论分布间是否吻合,通过对两个分布差异的分析确定是否有理由认为样本的观察结果来自所设定的理论分布总体。

设Sn(x)是一个n次观察的随机样本观察值的累积概率分布函数,即经验分布函数;F0(x)是一个特定的累积概率分布函数,即理论分布函数。定义D?Sn(x)?F0(x),显然若对每一个x值来说,Sn(x)与F0(x)十分接近,也就是差异很小,则表明经验分布函数与特定分布函数的拟合程度很高,有理由认为样本数据来自具有该理论分布的总体。K-S检验主要考察的是绝对差数D?Sn(x)?F0(x)中那个最大的偏差,即利用下面的统计量作出判断。

Dmax?maxSn(x)?F0(x) (8.2)

K-S检验的步骤为:

1. 提出假设:H0:Sn(x)?F0(x),H1:Sn(x)?F0(x) 2. 计算各个D,找出统计量Dmax

3. 查找临界值:根据给定的显著性水平α和样本数据个数n,查《单样本K-S检验统计量表》可以得到临界值

。 D?(单样本K-S检验统计量表见附录六)

4. 作出判定:若Dmax≥D?,则在α水平上,拒绝H0;若Dmax

【例8.3】 随机抽取100名生产线上的工人,调查他们的日产量,资料情况如下表,判断生产线上工人的日产

量是否为正态分布?(α=0.05) 工人日产500以640以合500-540 540-580 580-620 620-640 量 下 上 计 组中值 480 520 560 600 640 680 — 人数 6 23 27 19 15 10 100 【解】H0:Sn(x)服从正态分布,H1:Sn(x)不服从正态分布。 根据所给的资料,借助Excel进行相关的计算,见图8.2:

查表得D??1.36100图8.2 Dmax统计量的计算表

?0.136,

由于Dmax= 0.0430

(1)完全随机设计的两样本均数比较(两独立样本t检验) 【Independent Sample T】又称成组 t 检验

(2)配对设计的两样本均数比较例【Paired Sample T test】配对样本的t检验

完全随机设计(两独立样本)的秩和检验

配对设计的秩和检验

问题: 若方差不齐,将如何处理?

(1)采用适当的变量变换,使达到方差齐性; (2)采用秩和检验;

ˊ

(3)采用近似法 t检验: ① Cochran & Cox法 ② Satterthwaite法

2

二、两样本率比较(X检验或确切概率法)(20分) 题干由试题和相关SPSS分析结果组成 1、根据资料选择正确的统计检验方法; 2、列出计算表;

3、请写出假设检验步骤:检验假设,检验水准,列出计算公式,根据SPSS结果选择正确的统计量值和P值、并作出结果判断。

2

1、 成组设计四格表资料?检验

2

四格表χ检验的条件:

n :为总例数;A:为(所有各各中的)实际数;T:为(所有各各中的)理论数。 n,T。可先求四格表中最小的理论数。

2

(1)T? 5,而且n ? 40 ---------直接用?检验

2

(2)1 ? T? 5,而且n ? 40------校正?检验 (3)T ? 1 或n ? 40-----------确切概率法 注意:上述条件是以理论数为依据,而非实际数 检验的适用条件及四格表专用公式:

表3.5 两种药物治疗十二指肠球部溃疡效果

处理 愈合 未愈合 合计 愈合率(%) 呋喃硝胺组 甲氰咪胍组 合计

254(48.22) 8(13.78) 62 87.10 44(49.78) 20(14.22) 64 68.75 98 28 126 77.78

2 四格表χ检验——Pearson χ

某医学院随机抽查四年级和五年级学生的近视眼患病情况如下表,问两个年级的近视眼患病率有无差别?

四年级和五年级学生的近视眼患病率比较

年级 检查人数 近视人数 近视率(%) 四年级 28 2 7.14 五年级 14 5 35.71

四年级和五年级学生的近视眼患病患病率比较计算表

年级 近视人数 无近视人数 合计 四年级 2 26 28 五年级 5 9 14 合计 7 35 42 Tmin?7?14?2.33 422

四格表校正χ检验

例:某防疫站观察当地的一个污水排放口,在高温季节和低温季节水样的伤寒菌检出情况,资料如下表,问两个季节污水的伤寒菌检出率有无差别?

高低温季节污水中伤寒菌的检出率 季节气温 阳性水样数 阴性水样数 合计 阳性率(%)

高 低 合计

1(4) 7(4) 8

11(8) 5(8) 16

12 12 24

8.33 58.33 33.33

四格表确切概率法:

表3.5 两种药物治疗十二指肠球部溃疡效果

处理 愈合 未愈合 合计 愈合率(%) 呋喃硝胺组 甲氰咪胍组 合计

54(48.22) 8(13.78) 62 87.10 44(49.78) 20(14.22) 64 68.75 98 28 126 77.78

Chi-Square TestsAsymp. Sig.(2-sided).013.024.012.0186.0841261.014.011Exact Sig.(2-sided)Exact Sig.(1-sided)Pearson Chi-SquareContinuity CorrectionaLikelihood RatioFisher's Exact TestLinear-by-Linear AssociationN of Valid Casesa. Computed only for a 2x2 tableValue6.133b5.1186.304df111b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 13.78. 2

2、配对设计四格表资料?检验

已确诊肝癌患者100人,每个患者分别用甲、乙两法检测AFP,结果如下表。问甲、乙两法AFP阳性检出率有无差别?

甲、乙两法AFP阳性检出情况

乙法

甲法 合计

+ -

+ 60 20 80 - 10 10 20 合计 70 30 100

Chi-Square TestsValueMcNemar TestN of Valid Cases100a. Binomial distribution used.Exact Sig.(2-sided).099a 【04真题】 2、 研究盐酸丁咯地尔改善周围血管闭塞性病变患者的皮肤微循环状况,以安慰剂作对照得结果如下表。问盐酸丁

咯地尔是否具有改善缺血组织的皮肤微循环作用?(15分)

盐酸丁咯地尔改善缺血组织的皮肤微循环状况 处 理 例数 改善数 改善率(%) 盐酸丁咯地尔组 20 15 75.00

安慰剂组 16 2 12.50

要求: 请写出上述题目假设检验过程: 检验假设、检验水准、计算表、统计检验方法、检验统计量值和P值,并作出结果判断。

【06真题】五、某医院收治了 186例重症乙型脑炎患者,随机分成两组,分别用同样的方法治疗,但其中一组加一定量的人工牛黄,治疗结果如下所示,问加人工牛黄是否增加该方剂的疗效?(20分)

要求:请写出上述题目假设检验过程:检验假设、检验水准、计算表、检验统计量的计算公式、检验统计量值和 P值,并作出结果判断。 【05真题】

五、为观察药物A、B治疗某病的疗效,某医生将100例该病患者随机分成两组,一组40人,服A药;另一组60人,服B药。结果发现:服A药的40人中有30人治愈;服B药的60人中有11人治愈。问A、B两药对该病的疗效有无差别?(20分)

要求: 请写出上述题目假设检验过程: 检验假设、检验水准、计算表、统计检验方法、检验统计量值和P值,并作出结果判断。 Chi-Square TestsAsymp. Sig.(2-sided).001.003.001.00210.433901.001.001Exact Sig.(2-sided)Exact Sig.(1-sided)Pearson Chi-SquareaContinuity CorrectionValue10.550b9.09710.427df111Likelihood RatioFisher's Exact TestLinear-by-Linear AssociationN of Valid Casesa. Computed only for a 2x2 tableb. 0 cells (.0%) have expected count less than 5. The minimum expected count is 11.00.【答案】jszb

1、此资料是按服A、B药疗效(治愈、未治愈)分类的二分类资料,即计数资料。 2、将100例该病患者随机分成两组,属于完全随机设计方案。

3、该资料的目的是通过两样本率的比较来推断它们分别代表的两总体率有无差别,是成组设计两样本率比较,因

2

此,统计方法选用成组设计四格表资料?检验(Chi-Square Test)。 4、列出计算表: 处理 治愈 未治愈 合计 治愈率(%) A药 30(16.4)a 10(23.6)b 40(a+b) 75.0 B药 11(24.6)c 49(35.4)d 60(c+d) 18.3 合计 41(a+c) 59(b+d) 100(n) 41.0 5、假设检验过程如下: (1)建立假设检验,确立检验水准:

H0:A药和B药的治愈率相同,即π1=π2=41.0% H1:A药和B药的治愈率不同,即π1≠π2 α=0.05

(2)计算检验统计量?值: 理论数(T)值的计算:

2

依据公式计算T值,并添入计算表中; 由于总例数n=100;最小T值=16.4;

2

满足T? 5,而且n ? 40条件,因此直接用?检验

ν=(2-1)(2-1)=1

(3)确定 P值,做出统计推断:

2

根据SPSS软件有关分析结果,?=10.550,ν=1 P=0.001<0.05

根据α=0.05的检验水准,拒绝 H0,接受 H1,差异有统计学意义。 因此认为A药和B药的治愈率有差别。

【知识点解析】Jszb

2

1、成组设计四格表资料?检验

2、配对设计四格表资料?检验

2

三、方差分析(15分)

提供某一实验资料,可能有如下要求: 1. 指出该实验属何种设计(方差分析);

2. 按照题义,把总变异分成几个部分,并说明各部分的意义。并计算各部分的自由度。 3. 提供SPSS的方差分析表,作出正确的结论。

4 .若方差分析结果有统计学意义,进一步比较的方法选择。

表5.1 三种方案治疗后血红蛋白增加量(g/L)

A B C 24 20 20 36 18 11 25 17 6 14 10 3 26 19 0 34 24 -1 23 4 5

SS总= SS组间+ SS组内

表5.3 三种方法治疗后血红蛋白增加量(g/L) 区组 A疗法 B疗法 C疗法 1 16 18 18 2 15 16 20 3 19 27 35 4 13 13 23

5 6 7 8 11 10 5 -2 14 8 3 -2 17 12 8 3

SS总= SS处理+ SS配伍 + SS误差

表5.6 12名病人用A、B两法治疗的血压下降(kPa)

病 人 编 阶段

1 2 3 4 5 6 7

Ⅰ B B A B A A A 3.07 1.33 4.40 1.87 3.20 3.73 4.13 Ⅱ A A B A B B B 2.80 1.47 3.73 3.60 2.67 1.60 2.67 合计 5.87 2.80 8.13 5.47 5.87 5.33 6.80

8 9 10 11 12 A B B B A 1.07 1.07 2.27 3.47 2.40 B A A A B 1.73 1.47 1.87 3.47 1.73 2.80 2.54 4.14 6.94 4.13

SS总= SS阶段+ SS疗法+ SS个体 + SS误差

A药 1.3 1.2 1.1

表5.12 A、B两药治疗后病人红细胞增加数(10/L) B药 A+B药 不用药 0.9 2.1 0.8 1.1 2.2 0.9 1.0 2.0 0.7

12

SS总= SSA+SSB + SSAB + SS误差

随机区组设计资料的方差分析表: Tests of Between-Subjects EffectsDependent Variable: xSourceCorrected ModelInterceptbkErrorTotalCorrected TotalType III Sumof Squares24481.583a325470.2501179.41723302.1674793.167354745.00029274.750df131112223635Mean Square1883.199325470.250107.22011651.083217.871F8.6441493.865.49253.477Sig..000.000.888.000a. R Squared = .836 (Adjusted R Squared = .740)

【06真题】

二、研究酵解作用对血糖浓度的影响,某医生从 8名健康人中抽取了血液并制备成血滤液。每一个受试者的血滤液又分成 4份,然后随机把 4份血滤液分别放置 0、45、90、135分钟测定其中血糖浓度。(15分)

问: 1、指出该实验属何种设计

2、按照题义,把总变异分成几个部分,并说明各部分的意义

3、欲分析放置不同时间的血滤液所含血糖浓度间总的来讲有无变化,经计算,得检验统计量值为77.31,请确定 P值,并作出判断。

4、若进一步作两两比较,以“放置 0 分”组为共同对照,宜选择何检验方法?

【答案】jszb 77页

1、该实验属于随机区组设计;

2、总变异(SS总)可以分解为三个部分:处理组间变异(SS处理)、区组间变异(SS区组)和误差(SS误差): SS总 :反应所有观察值之间的变异;

SS处理:由处理因素的不同水平作用和随机误差产生的变异; SS区组:由不同区组作用和随机误差产生的变异; SS误差:完全由随机误差产生的变异 3、假设检验过程如下:

(1)建立假设检验,确立检验水准: 对于处理间:

H0:四个不同时间血糖浓度的总体均数相等,即μ1=μ2=μ3=μ4 H1:四个总体均数不等或不全相等 对于区组间:

H0:八个区组的总体均数相等,即μ1=μ2=??μ8 H1:八个区组的总体均数不等或不全相等 检验水准均取α=0.05

(2)计算检验统计量F值:

F处理=MS处理/MS误差=0.9681/0.0125=77.31 F区组=MS区组/MS误差=0.3569/0.0125=28.552 V总=N-1=32-1=31 V处理=k-1=4-1=3 V区组=b-1=8-1=7

V误差=(k-1)(b-1)=3×7=21

推断处理间的差别,按v1=3,v2=21查F界值表,得F0.005(3,21)=3.07,F0.01(3,21)= 4.87,P<0.01; 推断区组间的差别,按v1=7,v2=21查F界值表,得F0.05(7,21)=2.49, F0.01(7,21)=3.64 , P<0.01。 (3)确定 P值,做出统计推断: 按 α=0.05检验水准皆拒绝H0,接受H1,可认为放置时间长短会影响血糖浓度且不同受试者的血糖浓度亦有差别。但尚不能认为任两个不同放置时间的血糖浓度总体均数皆有差别,必要时可进一步作两两比较的q检验。 C=(ΣX)2/N=(169.56)2/32=898.45605

SS总=ΣX2-C=904.1214-898.45605=5.66535 V总=N-1=32-1=31 V处理=k-1=4-1=3 V区组=b-1=8-1=7

V误差=(k-1)(b-1)=3×7=21

SS误差=SS总-SS处理-SS区组=5.66535-2.90438-2.49800=0.26297 MS处理=SS处理/v处理=2.90438/3=0.9681 MS区组=SS区组/v区组=2.49800/7=0.3569 MS误差=SS误差/v误差=0.26297/21=0.0125

【05真题】

六、为研究雌激素对子宫发育的作用,用四个种系的未成年雌性大白鼠各 3只,每只按一定剂量注射雌激素,至一定时间取出子宫并称重,结果如下表所示:(15分)

问:1.上述试验属何种试验设计?

按照题义,把总变异分成哪几个部分?并说明各部分的意义。 SPSS计算结果,作出正确的结论。

①此试验属于随机区组设计

②总变异可以分解为 3部分: 处理组间变异(SS处理)、区组间变异(SS区组)和误差(SS误差). SS总 :反应所有观察值之间的变异;

SS处理:由处理因素的不同水平作用和随机误差产生的变异; SS区组:由不同区组作用和随机误差产生的变异; SS误差:完全由随机误差产生的变异 ③由 SPSS结果可得出如下结论:

三种不同剂量的雌激素作用后,子宫重量的总体均数全不相等,即不同剂量的雌激素对子宫的重量有影响 不同种系大白鼠对雌激素的反应也不同

【04真题】

三、某试验研究加用可的松是否影响党参对ATP酶的作用,结果如下表:(15分)

可的松影响党参对ATP酶的试验结果

盐水 可的松+盐水 可的松+党参盐水 党参+盐水 4.621 3.754 3.281 4.881 4.208 3.408 4.011 4.818 4.932 4.634 4.251 5.769 5.139 4.054 4.218 5.181 4.815 4.645 3.239 4.913

问:1. 上述试验属何种试验设计?

2. 按照题意,把总变异分成哪几个部分?并说明各部分的意义。

3. 若检验统计量F(可的松×党参)=2.704,请确定P值,并作出判断。

【知识点解析】Jszb

方差分析的基本思想 (方差分析,analysis of variance,简称为ANOVA)

【基本思想】把全部观察值的变异(总变异)按设计的要求分成几个部分,再加以分析。

根据研究设计的类型及研究目的,将总变异分解成两个或多个部分。除随机误差外,其余部分的变异可由某因素的作用来解释,通过比较可能由某因素所致的变异与随机误差的均方,从而了解该因素有无作用。

【目的】推断多个总体均数是否相等 (双侧检验:μ1 = μ2=?.. μk ?)

【适用条件】

1、各处理组样本来自正态总体 2、各样本是相互独立的随机样本

3、各处理组的总体方差相等,即方差齐性

【方差分析与t 检验的联系】

两个样本均数比较可以看作为多个样本均数比较的特例,因此

完全随机设计的两个独立样本均数t检验,可以用完全随机设计的单因素方差分析代替; 配对设计的t检验,可以用随机区组设计的两因素方差分析代替。

两者的计算结果有如下关系:。

【随机区组设计】又称随机单位组设计、配伍组设计。

它实际上是配对设计的扩展,也可看成是1:m对设计。它通常是将受试对象按性质(如动物的性别、体重,病人的病情、性别、年龄等非实验因素)相同或相近者组成b个区组(或称单位组、配伍组),每个区组中的k个受试对象分别随机分配到k个处理组中去。其区组因素可以是第二个处理因素,也可以是一种非处理因素。

随机区组设计的优点是每个区组内的k个受试对象有较好的同质性,因此组间均衡性也较好。比完全随机设计减少了误差,因而更容易察觉处理组间的差别,提高了实验效率。缺点是要求区组内受试对象数与处理数相等,实验结果中若有数据缺失,统计分析较麻烦。

1、总变异: 全部观察值大小不同,这种变异称为总变异。总变异用离均差平方和,用【SS总】表示。是各观察值 2、组间变异:各组的样本均数也大小不等,这种变异称为组间变异,用【SS组间】表示。表示“处理+随机误差”作用

3、组内变异:表示“单纯随机误差”所造成的变异,用【SS组内】表示。 各离均差平方和的自由度 总变异 SS总 ?总 = N-1 组间变SS组间 ?组间= g-1 组间均方:MS组间=SS组间/?组间 异 组内变SS组内 ?组内= N-g 组内均方:MS组内=SS组内/?组内 异 三者关系:

SS总= SS组间+ SS组内 ?总 = ?组间 +?组内

通常SS组内按下式求得: SS组内= SS总- SS组间

检验统计量:

结果的判断:

若处理因素不起作用,则F值接近于1; 若处理因素有起作用,则F值远大于1。

F值多大才有意义,要根据组间自由度( ?1)和组内自由度( ?2)查F界值表作出判断。 若F值≥F?、 (V1,V2)见P806,则P≤?

1、完全随机设计的单因素ANOVA

【随机区组设计】

2、总变异(SS总)可以分解为三个部分:处理组间变异(SS处理)、区组间变异(SS区组)和误差(SS误差): SS总 :反应所有观察值之间的变异;

SS处理:由处理因素的不同水平作用和随机误差产生的变异; SS区组:由不同区组作用和随机误差产生的变异; SS误差:完全由随机误差产生的变异 3、

SS总=SS处理+ SS区组+SS误差 ν总=ν处理+ν配伍+ ν误差

变异来源 离均差平方和SS 自由度v 均方MS F 总变异 ΣX2-C N-1 处理间 k-1 SS处理/v处理 MS处理/MS误差 区组间 b-1 SS区组/v区组 MS区组MS误差 误差 SS总-SS处理-SS区组 V总-v处理-v区组 SS误差/v误差

2、随机区组设计的两因素ANOVA

四、回归分析 15分

可能涉及范围:多元线性回归、logistic回归。要求:

1、提供某一资料,选择统计分析方法

2、偏回归系数、标准偏回归系数、决定系数、校正决定系数、OR等常用指标的意义与应用 3、列回归方程

例 27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值如下表:

(1)欲分析影响空腹血糖浓度的有关因素,宜采用什么统计分析方法?多元线性回归分析

(2)已知甘油三酯(X2)、胰岛素(X3)和糖化血红蛋白(X4)是主要影响因素,现欲比较上述因素对血糖浓度的相对影响强度,应计算何种指标?

标准偏回归系数可用来比较各自变量Xj对Y的影响强度,有统计意义下,回归系数绝对值越大,对Y的作用越大。 SPSS输出的多元回归分析结果中给出的各变量的标准偏回归系数,

比较三个标准偏回归系数:甘油三脂0.354: 胰岛素0.360: 糖化血红蛋白0.413≈1:1.02:1.17(倍) 糖化血红蛋白对血糖的影响强度大小依次为:糖化血红蛋白X4、胰岛素X3、甘油三脂X2

2

(3)分析其回归模型的好坏宜选用何种指标?校正决定系数( Ra )作为评价标准

222

一般说决定系数(R)越大越优,但由于R是随自变量的增加而增大,因此,不能简单地以R作为评价标准,

22

而是用校正决定系数( Ra )作为评价标准。 Ra不会随无意义的自变量增加而增大。 (4)根据给出SPSS结果,做出正确的结论。

空腹血糖浓度与总胆固醇无线性关系,与甘油三脂、空腹胰岛素、糖化血红蛋白呈线性相关。

??6.5?0.402X2?0.287X3?0.663X4 (5)列出回归方程。最优回归方程为:yModel Summary(最终模型的拟合优度检验验表)相关分析

【完全分析答案】jszb

1、此资料包含有四个变量,属于多变量计量资料,为多因素设计。要分析多因素对空腹血糖浓度的影响,宜采用 多元线性回归分析。

2、根据样本数据求得模型参数β0, β1, β2, β3,β4的估计值b0,b1,b2,b3,b4

β0又称为截距,β1, β2, ?,βm称为偏回归系数(partial regressin coefficient)或简称为回归系数。

??5.943?0.142X1?0.351X2?0.271X3?0.638X4 求得回归方程为:y3、对总的回归方程的假设检验和评价:

检验所有自变量X1,X2,X3,X4作为整体与应变量Y之间是否具有线性关系。 (1)方差分析法:

H0:β1=β2=β3=β4=0 H1:β1, β2, β3,β4不全为0 检验水准:α=0.05

查表F界值表得F0.01(4,22) =4.31,F=8.278>4.31, P<0.01

依据SPSS结果,P=0.000<0.05

根据α=0.05的检验水准,拒绝 H0,接受H1,认为所拟合的回归方程具有统计学意义。

2

(2)决定系数R:

2

根据方差分析结果R=0.601,说明空腹血糖浓度变异的60%可由血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白的变化来解释。

22

回归模型的好坏以决定系数(R)越大越优,但由于R是随自变量的增加而增大,即使无显著性的变量进入方程,

22

其值亦增加。因此,在相近的情况下,以包含的自变量少者为优,也可用校正决定系数( Ra )作为评价标准。 Ra不会随无意义的自变量增加而增大。 (3)复相关系数:R=0.775

称为复相关系数,用来表示表示m个自变量共同对应变量的相关密切程度。

4、各自变量的假设检验和评价:采用t检验法

对每一个自变量的作用进行检验和衡量它们对Y作用的大小。 H0:βj=0,即Y与Xj无线性相关关系 H1:βj≠0,即Y与Xj有线性相关关系 检验水准:α=0.05

同一资料,不同自变量的t值间可以相互比较,t值的绝对值越大,说明该自变量对Y的回归所起的作用越大。 标准偏回归系数可用来比较各自变量Xj对Y的影响强度,有统计意义下,回归系数绝对值越大,对Y的作用越大。 3、自变量的选择:

通常每次只剔除关系最弱的一个因素。

由方程中剔除因素的标准(通常α = 0.10)

根据多元回归方程1的偏回归系数检验结果,X1(总胆固醇)的P=0.701>0.05,Y与X1无线性相关关系被剔除。

??6.500?0.402X2?0.287X3?0.663X4 重新建立不包含剔除因素的回归方程2:y对新建立的回归方程进行检验:依据SPSS结果,P=0.000<0.05

根据α=0.05的检验水准,拒绝 H0,接受H1,认为所拟合的回归方程具有统计学意义。 对新方程的偏回归系数进行检验:检验结果有意义,因此回归方程保留因素X2、X3 、X4

??6.500?0.402X2?0.287X3?0.663X4 最后获得回归方程为:y例: 50例急性淋巴细胞白血病病人,在入院时白细胞数X1(×10/L),淋巴结浸润度X2(记为 0、1、2三级),缓解出院后巩固治疗X3 (巩固治疗时赋值 1,无巩固治疗时赋值 0)。随访1年取得每例病人是否死亡 Y (死亡赋值1,存活赋值0)的资料。

(1)欲筛选哪些因素是影响急性淋巴细胞白血病病人一年内死亡的的主要因素, 应选择何种统计分析方法? (2)经统计分析得淋巴结浸润度(X2)和缓解出院后巩固治疗(X3)是有意义的影响因素,现计算得b0= 1.642,b2=0.707,b3= ?2.784,请列出其回归方程?

(3)请解析X3 对应的EXP(B)=0.062 的含义?

(4)缓解出院后有巩固治疗患者一年内死亡的危险性是没有巩固治疗患者的多少?

(5)假如此例是研究巩固治疗后生存时间受哪些因素影响,所调查的因素同上,现欲分析哪些因素是主要的影响胃癌患者术后生存时间的因素,宜选择何种统计分析方法?

【答案】jszb

1、该资料的应变量为二分类变量,应选择多因素Logistic回归分析; 2、经统计分析得淋巴结浸润度(X2)和缓解出院后巩固治疗(X3)是有意义的影响因素,现计算得b0= 1.642,b2=0.707,b3= ?2.784,那么其Logistic回归方程是:

1.642?0.707x2?2.784x3

eP?1?e1.642?0.707x2?2.784x3(P为一年内死亡的概率)

3、X3 对应的EXP(B)的含义:

EXP(B)表示的是在其它因素(自变量)固定的情况下,该变量与疾病关联的优势比,即因素x与疾病的关联程度,常用OR表示。称作多变量调整后的优势比(adjusted odds ratio)。

优势比(OR)指某一影响因素Xi两个不同暴露水平(C1,C0)的P/Q值之比(Q =1-P)。 当某影响因素Xi仅为两个水平(1暴露,0非暴露),则:ORi?exp(bi) 当bi=0时,ORi=1,说明因素Xi对疾病发生不起作用; 当bi>0时,ORi>1,说明因素Xi对疾病发生是危险因素; 当bi<0时,ORi<1,说明因素Xi对疾病发生是保护因素。 4、相对危险度RR与概率预测:???????

1)一名有巩固治疗的病人 ,其一年内死亡的概率为:将X = 1 代入上式得 P = 0.32 2)一名没有巩固治疗的病人,其一年内死亡的概率为:将X = 0 代入上式得 P = 0.88

即,缓解出院后有巩固治疗患者一年内死亡的危险性是没有巩固治疗患者的0.32/0.88=4/11。 5、影响生存时间的因素分析,宜选择COX比例风险回归模型。 【答案】jszb

Logistic回归分析

按Logistic 回归的要求,设第i例病人的应变量Y,其赋值规则为: 一年内死亡,赋值 1; (发生— 1) 生存一年以上,赋值 0 (未发生— 0)

回归模型或回归系数的假设检验 1、似然比检验G?2(lnL1?lnL0)

2、Wald检验u?bj/Sbj 3、记分检验 Model Summary-2 Loglikelihood46.567aCox & SnellR Square.339NagelkerkeR Square.459Step1a. Estimation terminated at iteration number 5 becauseparameter estimates changed by less than .001.自变量检验

Variables in the EquationBS.E.WaldStepX1-.002.006.167a1X2.792.4872.643X3-2.830.79312.726Constant1.697.6596.635a. Variable(s) entered on step 1: X1, X2, X3.df1111Sig..682.104.000.010Exp(B).9982.208.0595.455

X1变量被剔除。

重建不包含X1该变量回归方程

e1.642?0.707X2?2.784X3P?

1?e1.642?0.707X2?2.784X3对新回归方程进行检验: Model Summary-2 Loglikelihood46.718aCox & SnellR Square.337NagelkerkeR Square.456Step1a. Estimation terminated at iteration number 5 becauseparameter estimates changed by less than .001.

自变量检验 Variables in the EquationBS.E.WaldStepX2.707.4282.726a1X3-2.784.78012.753Constant1.642.6386.620a. Variable(s) entered on step 1: X2, X3.df111Sig..099.000.010Exp(B)2.028.0625.165若?=0.05, 则X2被剔除。 重建不包含X2新的回归方程 Variables in the EquationStepa1BS.E.X3-2.746.750Constant1.992.615a. Variable(s) entered on step 1: X3.Wald13.40510.480df11Sig..000.001Exp(B).0647.333

e1.992?2.746X3P?1?e1.992?2.746X3

概率预测

1、一名没有巩固治疗的病人,其一年内死亡的概率为:

将X = 0 代入上式得 P = 0.88,其生存概率为 1 – 0.88 = 0.12 2、一名有巩固治疗的病人,其一年内死亡的概率为:

将X = 1 代入上式得 P = 0.32,其生存概率为 1 – 0.32 = 0.68

回归方程的分类能力

实际与理论一致率(%)= (22+17)×100/50=78% Classification TablaePredictedYStep 1ObservedY0011781322

Overall Percentagea. The cut value is .500PercentageCorrect85.073.378.0【相对危险度RR】

相对危险度(relative risk)简记为RR,人群总体中暴露于某因素者的发病率P1与不暴露于某因素者的发病率P0之比值称为该因素对于该疾病发病的相对危险度,即:

RR?P1 p0

【优势比OR】

回归系数(bi)表示自变量 Xi改变一个单位时LogitP的改变量。

优势比(OR)指某一影响因素Xi两个不同暴露水平(C1,C0)的P/Q值之比。

ORi?P1/(1?P1)

P0/(1?P0)ORi?exp?bi(c1?c0)??P?1/(1?P1)lnORi?ln???P0/(1?P0)??logitP1?logitP0?bi(c1?c0)

当P很小时,【优势比OR】可以作为【相对危险度RR】的近似估计:

五、其它30分(3~5道题目,每题6~10分) ? 正交试验表头设计及结果分析 【06真题、03真题】

四、某医师研究四种药物(A、B、C、D)联合用药对慢性苯中毒(主要表现为白细胞数减少)的疗效,以白细胞计数增加量为观察指标。每种药物都分成用与不用两个水平,要求试验设计达到分析A、B、C、D 的疗效及交互作用

7

AB、AC、BC 的目的。现采用正交试验设计,选择L8(2)正交表作表头设计如下,并随机抽取8 例慢性苯中毒患者进行试验。

1、请对上述试验设计进行评价,若有错误则改正。(7 分)【06真题、03真题】 2、请根据上述资料进行表头设计。【05真题、04真题】

【答案】jszb

1、本试验有4个两水平的因素和3个交互作用需要考察,各项自由度之和为:4×(2-1)+3×(2-1)×(2-1)=7;

7

若选用L8(2)来作正交表表头设计作,只能安排的因素及其交互作用共7个自由度,就没有空白列来做计算误差项

7

,势必进行重复实验增加实验次数,本实验没有提到重复实验,因此选择L8(2)不合适。

2、本试验有4个两水平的因素和3个交互作用需要考察,各项自由度之和为:4×(2-1)+3×(2-1)×(2-1)=7,

11

因此可选用L12(2)来安排试验方案。

表头设计

列 号

因素数 7

1 A

2 B

3 AB

4 C

5 AC

6 BC

7

8 D

9

10

11

将A因素放在第1列,B因素放在第2列,

查表L12(2)交互作用表可知,第1列与第2列的交互作用列是第3列,于是将交互作用AB放在第3列; 这样第3列不能再安排其它因素,以免出现“混杂”。 然后将C放在第4列;

查表L12(2)交互作用表可知,AC应放在第5列,BC应放在第6列;

第7列为ABC交互作用列,本试验不考虑ABC,因此作为空列,作计算误差项; 将D放在第8列;

列余下列为空列9,10,11,皆作计算误差项;。

1111

L16(2)正交表的表头设计

因素数 4 5 6 7 8 1 A A A A A 2 B B B B B 3 AB AB AB DE AB DE FG AB DE FG CH 4 C C C C C 5 AC AC AC DF AC DF EG AC DF EG BH 6 BC BC EF BC EF DG BC EF DG AH 7 DE H 列 8 D D D D D 号 9 AD AD AD BE CF AD BE CF AD BE CF GH 10 BD BD AE BD AE CG BD AE CG FH 11 CE E E E 12 CD CD AF CD AF BG CD AF BG EH 13 BE BE F F 14 AE AE G G 15 E CE BF CE BF AG CE BF AG DH 15

BC ABC BD ABD CD ACD BCD ABCD 【因素间有交互作用的正交设计与分析】 在实际研究中,有时试验因素之间存在交互作用。对于既考察因素主效应又考察因素间交互作用的正交设计,除表头设计和结果分析与前面介绍略有不同外,其它基本相同。

【例12.8】 某一种抗菌素的发酵培养基由A、B、C 3种成分组成,各有两个水平,除考察A、B、C三个因素的主效外,还考察A与B、B与C的交互作用。试安排一个正交试验方案并进行结果分析。

(一) 选用正交表,作表头设计 由于本试验有3个两水平的因素和两个交互作用需要考察,各项自由度之和为:3×(2-1)+2×(2-1)×(2-1)=5,因此可选用L8(2)来安排试验方案。

正交表L8(2)中有基本列和交互列之分,基本列就是各因素所占的列,交互列则为两因素交互作用所占的列。

7

7

可利用L8(2)二列间交互作用列表(见表12-31)来安排各因素和交互作用。

表12-31 L8(2)二列间交互作用列表

7

7

列号 1 2 3 4 5 6 1 (1) 2 3 (2) 3 2 1 (3) 4 5 6 7 (4) 5 4 7 6 1 (5) 6 7 4 5 2 3 (6) 7 6 5 4 3 2 1

如果将A因素放在第1列,B因素放在第2列,查表12-31可知,第1列与第2列的交互作用列是第3列,于是将A与B的交互作用A×B放在第3列。这样第3列不能再安排其它因素,以免出现“混杂”。然后将C放在第4列,查表12-31可知,B×C应放在第6列,余下列为空列,如此可得表头设计,见表12-32。

表12-32 表头设计

列号 因素

1 A

2 B

3 A×B

4 C

5 空

6 B×C

7 空

(二) 列出试验方案 根据表头设计,将A、B、C各列对应的数字“1”、“2”换成各因素的具体水平,得出试验方案列于表12-33。

表12-33 正交试验方案

试 验 号

1 2 3 4 5 6 7 8

1(A) 1(A1) 1(A1) 1(A1) 1(A1) 2(A2) 2(A2) 2(A2) 2(A2)

因 素

2(B) 1(B1) 1(B1) 2(B2) 2(B2) 1(B1) 1(B1) 2(B2) 2(B2)

3(C) 1(C1) 2(C2) 1(C1) 2(C2) 1(C1) 2(C2) 1(C1) 2(C2)

(三) 结果分析 按表12-33所列的试验方案进行试验,其结果见表12-34。

表中Ti、xi计算方法同前。此例为单独观测值正交试验,总变异划分为A因素、B因素、C因素、A×B、B×C、与误差变异5部分,平方和与自由度划分式为: SST=SSA+SSB+SSC+SSA×B+SSB×C+SSe

dfT=dfA+dfB+dfC+dfA×B+dfB×C+dfe (12-8)

1、计算各项平方和与自由度

矫正数 C=T/n=665/8=55278.1250

总平方和 SST=Σy-C=55+38+?+61-55278.1250=6742.8750 A因素平方和 SSA=ΣTA/a-C=(279+386)/4-55278.1250=1431.1250 B因素平方和 SSB=ΣTB/b-C=(339+326)/4-55278.1250=21.1250 C因素平方和 SSC=ΣTC/c-C=(353+312)/4-55278.1250=210.1250 A×B平方和 SSA×B =ΣT B×C平方和 SSB×C =Σ

22

4-55278.1250=4950.1250 A×B /4-C=(233+432)/

222

TB×C /4-C=(327+338)/4-55278.1250=15.1250 22

2

2

2

2

2

2

2

2

2

2

2

2

2

2

误差平方和 SSe=SST-SSA-SSB-SSA×B-SSB×C=6742.8750-1431.1250-21.1250

-210.1250-4950.1250-15.1250=115.2500 总自由度 dfT=n-1=8-1=7 各因素自由度 dfA=dfB=dfC=2-1=1 交互作用自由度 dfA×B=dfB×C=(2-1)(2-1)=1

误差自由度 dfe=dfT-dfA-dfC-dfA×B-dfB×C=7-1-1-1-1-1=2

表12-34 有交互作用的正交试验结果计算表

试验号 1 2 3 4 5 6 7 8 T1 T2 x1 因 素

A 1 1 1 1 2 2 2 2 279 386 69.75 96.50

B 1 1 2 2 1 1 2 2 339 326 84.75 81.50

A×B 1 1 2 2 2 2 1 1 233 432 58.25 108.00

C 1 2 1 2 1 2 1 2 353 312 88.25 78.00

B×C 1 2 2 1 1 2 2 1 327 338 81.75 84.50

试验结果(%)* 55(y1) 38(y2) 97(y3) 89(y4) 122(y5) 124(y6) 79(y7) 61(y8) 665(T)

x2

*试验结果以对照为100计

2、列出方差分析表,进行F检验

表12-35 方差分析表

变异来源

B C A×B B×C 误差 总的

SS 1431.1250 21.1250 210.1250 4950.1250 15.1250 115.1250 6742.8750

df 1 1 1 1 1 2 7

MS 1431.1250 21.1250 210.1250 4950.1250 12.1250 57.6250

F 24.84* <1 3.65 85.90* <1

F0.05(1, 2) 18.51

F0.01(1, 2) 98.49

F检验结果表明:A因素和交互作用A×B显著,B、C因素及B×C交互作用不显著。因交互作用A×B显著,应对A与B的水平组合进行多重比较,以选出A与B的最优水平组合。

3、A与B各水平组合的多重比较 先计算出A与B各水平组合的平均数:

A1B1水平组合的平均数x11=(55+38)/2=46.50 A1B2水平组合的平均数x12=(97+89)/2=93.00 A2B1水平组合的平均数x21=(122+124)/2=123.00 A2B2水平组合的平均数x22=(79+61)/2=70.00

列出A、B因素各水平组合平均数多重比较表,见表12-36。

水平组合 A2B1 A1B2 A2B2 A1B1

表12-36 A、B因素各水平组合平均数多重比较表(q法)

xij-46.5 xij-70 xij-93 平均数

123.00 93.00 70.00 46.50

76.5* 46.5* 23.5

53* 23

30

因为,Sx?MSe/2?57.625/2?5.37,由dfe=2与k=2, 3, 4, 查临界q值,并计算出LSR值,见表12-37。

表12-37 q值与LSR值表

dfe 2

k 2 3 4

q0.05 6.09 8.28 9.80

q0.01 14.0 19.0 22.3

LSR0.05 32.70 44.46 52.63

LSR0.01 75.18 102.03 119.75

多重比较结果表明,A2B1显著优于A2B2,A1B1;A1B2显著优于A1B1,其余差异不显著。最优水平组合为A2B1。 从以上分析可知,A因素取A2,B因素取B1,若C因素取C1,则本次试验结果的最优水平组合为A2B1C1。

注意,此例因dfe=2,F检验与多重比较的灵敏度低。为了提高检验的灵敏度,可将F<1的SSB、dfB,SSB×C、dfB

×C

合并到SSe、dfe中,得合并的误差均方,再用合并误差均方进行F检验与多重比较。这一工作留给读者完成。

正交试验的基本步骤:

1、确立观察指标。数据应为能满足方差分析要求的计量指标。 2、拟定因子和水平。最好水平数相同,一般取2水平。

3、作表头设计。要选用合适的正交表,避免效应混杂,用空列或作重复试验以获得误差的估计。一般只考虑一级交互作用。 4、对数据作方差分析。 【表头设计】: 根据分析要求,选用合适的正交表,把各因素安排在各列的过程称为表头设计。 考虑各因素主效应的安排和因数之间交互作用的安排,同时还要考虑方差分析中误差的来源途径。 误差估计途径:(1)由空列获得;(2)由重复试验获得。

正交表:L4(23)、L8(27 )、L12(211 ) 、L16(215)

H0: 各因素的作用及有关交互作用都不存在 H1: 各因素的作用及有关交互作用存在 ? = 0.05

SS总= SSA+SSB+SSC+SSD+SSE+SSF+SSG+SSH+ SSAC+SSAD+SSBD+SSCD+SS误差 FA = MSA/MS误差

FB = MSB/MS误差????FCD = MSCD/MS误差

分析AC、BD、CD的交互作用:

胆汁滴数增量越大越好,可见

A2C2、B2D2、C2D2组合较好。

综上所述,茵陈胆道汤A:金钱草 B:大黄 C:木香 D:黄芩 E:茵 陈 G:栀子 有利胆作用。

五、其它30分(3~5道题目,每题6~10分) ? 随访资料的生存分析:

【06真题】

九、某医生从 2002年 1月 1日起对某医院收治的 6名急性心肌梗塞病人进行跟踪观察,2002年 3月 25日结束观察,共 12周。记录的资料如下:(5分)

1、上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么? 2、判断上述随访时间哪些属截尾值?写出观察对象编号。

【05真题、04真题、03真题】

四、16例某癌症病人在不同时期经随机化分配到A、B两治疗组,并继续进行随访至1974年5月 31日结束。资料如下表:(8分)

16例某种癌症病人随访资料

病人号 治疗组 分组日期 终止日期 是否该病死亡 截尾值 1 A 68.05.12 68.05.30 Y 2 B 70.10.18 71.04.16 Y 3 B 69.02.12 70.11.06 Y 4 A 72.01.30 74.05.31 仍存活 5 A 73.11.11 74.01.02 Y 6 B 68.03.12 73.03.30 车祸死亡 7 A 69.01.06 69.01.04 Y 8 A 69.02.08 70.02.08 迁出 9 B 71.05.02 71.11.13 Y 10 B 68.03.08 68.05.23 Y 11 B 73.12.12 74.02.20 Y 12 A 74.05.01 74.05.09 Y 13 B 72.07.02 72.07.15 Y 14 B 68.12.18 74.04.31 失访 15 A 69.01.01 74.05.31 仍存活 16 B 73.09.02 73.09.20 Y 1. 上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么? 2. 判断上述随访时间哪些属截尾值,写出观察对象编号。

3. 要比较A、B疗法对该种癌症病人的疗效,宜选用何种统计检验方法? 4. A、B治疗组随访资料生存时间的特征量(代表值)一般用何指标表示?

【答案】0、本资料中,第7号观察对象数据,终止日期竟然早于分组日期,是典型的错误数据,应该排除。 1、本资料并未按时间分组,实际上是A、B两个治疗组的未分组资料。

一般情况下较细的时间单位准确性较高,当随访时间可以作较细的量化时,则应考虑用较细的时间单位。 但研究目的不同,时间单位不同,使用恰当的时间单位。

本资料的目的是比较A、B疗法对该种癌症病人的疗效,癌症病人的生存时间测度单位如果以(日)太小, 因此,本资料随访时间单位以月较合适?

2、产生截尾数据的原因:包括中途失访、研究结束时仍然存活、死于与研究疾病无关的原因。 因此,编号4、6、8、14、15观察对象属截尾值。

3、两样本生存曲线比较,宜选用对数秩检验(log-rank test) 。

4、A、B治疗组随访资料生存时间的特征量(代表值)一般用中位生存时间median survival time表示。

【知识点解析】Jszb

a.生存分析是将事件的结果和出现这一结果所经历的时间,结合起来分析的一种统计分析方法,所以它的应变量有两个,即生存时间和结局。

b.随访资料做生存分析的条件为有一定的死亡数。

一、随访资料的生存分析(Survival analysis) (一)定义

是将事件的结局和出现这一结局所经历的时间结合起来分析的统计分析方法。临床科研中,评价某种药物的疗效或者某种疾病的愈后,不仅可以对某各时点治愈率(或生存率)进行评价,还可以考察生存时间。

利用生存分析的原理和方法,把“出生”、“死”的涵义稍加变通,在医学研究中可以有广泛的应用。 【意义】

1、分析放置的心脏起搏器有效持续时间。 2、研究抛弃性隐形眼镜使用寿命。

3、比较某因素暴露组与非暴露组人群某种疾病发生或死亡的威胁性。

一般而言,能够明确划分起止点的现象均可以用生存分析的原理和方法来进行研究。

(二)特点

能同时分析有结局的完全数据和没有结局的截尾数据,充分利用信息。

完全数据(complete data):是确切的生存时间。若以死亡为结局事件,则完全数据是指从研究起点至死亡 所经历的时间。

截尾数据(censored data):由于某种原因,在研究结束时未能观察到病人的明确结局,所以不知道该病人 的确切生存时间。是从起点至研究结束所经历的时间。 产生截尾数据的原因: 1. 中途失访

2.在研究结束时仍然存活 3.死于与研究疾病无关的原因

生存分析常有两个效应变量:结局,生存时间 1)“死亡”:即处理失败,终止随访时间为“死亡”时间。

2)中途失访:如失去联系、中途退出等,终止随访时间为最后一次访问时间为准。 3)死于其它与研究疾病无关的原因,终止随访时间为死亡时间。

4)随访截止:随访研究结束时观察对象仍存活,终止随访时间为研究结束时间。

【基本术语】 1、“死亡”事件或称失败事件(failure event) 2、截尾值(censored value) 3、生存时间(survival time) 4、生存率(survival rate) 1、“死亡”事件或称失败事件(failure event) 反映处理因素失败或失效的特征。如乳腺癌病人手术后复发、肾移植病人肾功能衰竭、白血病患者化疗后的复发等。

2、截尾值(censored value)

有的观察对象终止随访不是由于失败事件发生,而是由于中途失访、死于其它原因、随访截止。由于不知道这些观察对象发生失败事件的时间,他们的资料不能提供完全的信息,这些对象的观察值称为截尾值,常用符号“+”表示。

3、生存时间(survival time)

即随访观察持续的实足时间,按天、周、月、年等时间单位记录,常用符号t表示。

一般情况下较细的时间单位准确性较高,当随访时间可以作较细的量化时,则应考虑用较细的时间单位。但对非住院病人常难以知道准确的死亡或失访时间。

生存分析中最基本的问题就是计算生存时间,它有三个要素: 时间的起点、终点、时间的测度单位(时、日、月、年)

3、生存时间(survival time)

如某病人1990年2月1日进入随访,1992年4月间发生失败事件,他的生存时间为t=26月;

又如某白血病患者化疗3月后失去联系,他的随访结果为一截尾值,生存时间记为t=3月;

安放心脏起搏器患者术后2年因意外事故死亡,他的随访结果也为一截尾值,生存时间记为t=2+年。

4、生存率(survival rate)

指某个观察对象活过t时刻的概率,常用P(X>t)表示。如P(X>10)表示某对象活过10天(或10月、10年)的概率。

根据不同随访资料的失败事件,生存率可以是缓解率、有效率等。

1.死亡概率:q

【对于未分组资料】某时刻的死亡概率=某时刻的死亡人数/ 该时刻以前的期初观察人数 未分组资料生存率的估计主要是用乘积极限法(product-limit estimates);又称Kaplan-Meier法,主要适用于观察例数不多时,是一种非参数方法。

【对于 分组资料】某年死亡概率=某年内死亡数/ 某年年初观察人数

若有截尾,则分母用校正的年初观察人数(年初观察人数-1/2截尾人数)

2.生存概率: p=1-q

3.生存率:S(ti)

S(ti)=ti时刻仍存活的例数/ 观察总例数 如果含有截尾数据,分母需要校正。

生存率为累积生存概率,是各时段上的生存概率乘积。 S(ti) =p1*p2* ... *pi

4.生存率的标准误

5.生存曲线

以时间t为横轴,生存率S(ti)为纵轴,表达了生存率随时间的变化趋势。常为阶梯形。

(四)生存分析研究的内容

1.描述生存过程。估计生存率及平均生存时间,绘制生存曲线。 未分组资料,采用Kaplan-Meier法(简称K-M法)。 分组资料,采用寿命表法(Life table)。

2.比较组间生存曲线是否有差别。

对于未分组资料,采用对数秩检验(log-rank test)。

3.影响生存时间的因素分析。COX模型。

【总体生存率可信区间的估计】

用正态近似原理估计某时点总体生存率的可信区间。

n0p?u?snp0

如本例3个月时生存率的95%可信区间为: 下限: 0.2724?1.96?0.0457?0.1828

上限: 0.2724?1.96?0.0457?0.3620

(一)K-M法描述生存过程:

(二)比较组间生存曲线是否有差别:

【五、两样本生存率曲线的比较】 1、两时点生存率的比较

对于大样本资料,根据正态近似原理,可用u检验。

①该法是正态近似法,当样本的生存率很小或很大,如小于0.05,或大于0.99,或各组死亡人数、生存人数少于5时,该方法误差较大;

②由于该法只检验某时点两样本生存率的差别有无统计学意义,而不能对整个生存期作出评价。 2、两样本生存曲线比较——对数秩检验(log-rank test)

其基本思想是如果无效假设成立,即两总体生存曲线无差别时,则两种处理在各个时期的实际死亡数与理论死亡数不会相差太大,否则应认为无效假设不可能成立,两条生存率曲线差异有统计学意义。

? Log-rank检验:时序检验,属于非参数方法,比较整个生存时间的分布

? 大样本卡方检验

? 2条或多条生存曲线比较

对数秩检验(log-rank test)

(A?T)22x??公式: T? ?组数?1当有 T<5 时,用校正公式。

H0:单放疗组与放化疗组的生存率曲线分布相同 H1:单放疗组与放化疗组的生存率曲线分布不同 ? = 0.05

计算检验统计量:X2 = 4.65, 得 P=0.03

按? = 0.05水准,拒绝H0 ,接受H1 ,故认为单放疗组与放化疗组的生存率曲线分布不同。

【生存率比较注意事项】

当比较不同治疗方案的治疗效果时,仅比较某个时点的生存率,有时可能出现不正确的结论。事实上,每一种防治措施的效果都是一条时间效应曲线,所以评价该措施的效果应对这条时间效应曲线进行全面评价,而不是仅对某个时点的生存率进行评价。

1.生存分析:生存分析(survival analysis)是将事件的结果和出现这一结果所经历的时间,结合起来分析的一种统计分析方法,它不仅可以从事件结局的好坏,如疾病的治愈(成功)和死亡(失败),而且可以从事件的持续时间,如某病经治疗后存活的时间长短进行分析比较,因而能够更全面、更精确地反映该治疗的效果。 2.生存时间:生存时间(survival time)指观察到的存活时间。

3.完全数据:完全数据(complete data)指从起点至死亡所经历的时间,即死者的存活时间。

4.截尾数据:由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。从起点至截尾所经历的时间,称为截尾数据(censored data)。 5.死亡率:某年内死亡例数与年中观察例数之比称为死亡率(mortality rate)。

6.死亡概率:死亡概率(mortality probability)是指某年内死亡例数与年初观察例数之比,若年内有截尾,分母用校正人口数。

7.生存率:生存率(survival rate)指病人经历tk 个单位时间后仍存活的概率,即tk 时刻仍存活的例数与观察总例数之比。

8.生存概率:生存概率(survival probability)表示在某单位时段开始时存活的个体到该时段结束时仍存活的机会大小,它是某年活满一年人数与年初观察例数之比,若年内有截尾,分母用校正人口数。

中位生存时间median survival time:半数生存时间/平均生存时间,恰好由50%个体存活s(t)=0.5的时间 生存时间一般为非正态,故用中位生存期。

如果生存期最长的死亡对象的生存率高于50%,则无法估计中位生存期。

(三)寿命表法描述生存过程:

五、其它30分(3~5道题目,每题6~10分)

提供某一素材,可能要求:

? 选择正确的统计方法并简述理由。 ? 对错误进行分析,并予以纠正。

? 对某些数据、指标的含义作出正确的判断。 ? 正交试验表头设计及结果分析

可能涉及范围:

? 计量资料的统计描述、相对数应用注意事项,秩和检验,随访资料的生存分析,正交试验设计

方差分析。

【06真题、05真题】

三、某市100名正常成人男性血红蛋白值(g/dL)频数分布表如下:(7分) 组段 11.5- 12.0- 12.5- 13.0- 13.5- 14.0- 14.5- 15.0- 15.5-

2 6 7 14 24 12 18 10 3 频数

1. 选用何种指标描述其集中位置和离散程度较好?为什么?

2. 估计该地正常成年男性血红蛋白的正常值范围。 SPSS软件有关分析结果:

16.0- 4

【答案】jszb

1、从SPSS软件分析结果可知:偏度系数Skewness=0.044;峰度系数Kurtosis=-0.320;两个系数都小于1,可认为近似于正态分布。

对于正态分布资料描述其集中位置用算数均数较好,该资料算数均数=14.03; 对于正态分布资料描述其离散程度用标准差 较好,该资料标准差 =1.0282。

2、对于正态分布资料正常值范围估计用正态分布法较好:

因男性血红蛋白过多或过少均为异常,故按双侧估计,取95%界限: 下限:

-1.96S=14.03-1.96×1.0282=12.014(g/dL)

上限:+1.96S=14.03+1.96×1.0282=16.045(g/dL)

因此,该地正常成年男性血红蛋白的正常值范围为(12.014,16.045)g/dL 。

【知识点解析】Jszb

频数表(frequency table):当变量值或者观测值较多时,将变量值分为适当的组段,统计各组段 中相应的频数(或者人数),以描述数值变量资料的分布特征和分布类型。

【频数表的用途】

1.描述数值变量资料的分布特征 集中趋势(central tendency):频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布是逐渐增加的。

离散趋势(tendency of dispersion):从中心到两侧,频数分布是逐渐减少的。反映了数据的离散程度或者变异程度。

2.描述数值变量资料的分布类型

正态分布:集中位置居中,左右两侧频数基本对称。常见近似正态分布。 偏态分布:集中位置偏向一侧,频数分布不对称。

正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部。 负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部。

【集中趋势指标描述】

1.算数均数(均数mean):适用于正态分布或者近似正态分布

总体均数:μ ;样本均数:

2.几何均数(geometric mean,G):适用于一种特殊的偏态分布资料:等比资料(常见于抗体滴度)。此资料的原始数据为正偏态分布,取对数后,对数值为正态分布,所以又称为对数正态分布。

3.中位数(median,M):适用于偏态分布资料,或者分布类型未知,或者有不确定数据时。中位数是指将一组变量值从小到大排列,位次居中的变量值。 (1)直接法:

(2)频数表法:

利用百分位数计算公式进行计算.百分位数(PX)是一种位置指标, 。中位数是一个特定的百分位数,即M= P50 。

百分位数计算公式:

ixPx?Lx?(n?x%??fL)

fx其中参数

第X百分位数所在组段的 Lx:下限 ix :组距 fx:频数 ?fL:小于Lx各组段的累计频数 n:总例数 4.注意事项

1.对于偏态分布资料,中位数不受两端特大值和特小值的影响,只和位置居中的观察值有关。而均数受特大值和特小值的影响,会偏大或者偏小,所以对于偏态分布的资料,均数的代表性差,不适合描述偏态分布的集中趋势。 2.中位数适合于任何分布类型的资料,对于正态分布,理论上中位数等于均数。 1、算术均数:X,μ 2、几何均数:G 3、中位数 :M 适应于 资料分布:对称分布、正态分布 变量是倍数关系、资料分布:呈对数正态分布【含义为指数的平均】 偏态分布、资料分布:一端或两端有未确定值

【离散趋势指标描述】

1.极差或者全距(range,R):表示一组变量值中最大值和最小值之差。适合任何分布类型的资料。 R=最大值-最小值

计算简单,但是不能反映所有变量值的变异程度,易受最大值和最小值的影响,不稳定 2.方差(variance):表示一组变量值的平均离散程度。

方差越大,离散或者变异程度越大。适合描述近似正态分布资料的离散趋势。

3.标准差(standard deviation):是方差的开方,和均数的单位一致,也表示一组变量值的平均离散程 度。适合描述近似正态分布资料的离散趋势

4.四分位数间距(quartile,Q):P75、P25分别表示第75百分位数和第25百分位数。 Q= P75-P25

注:适合描述任何分布类型资料的离散趋势,主要用于偏态分布资料。

5.变异系数(coefficient of variation, CV )用于描述数据的相对离散程度。

CV : 单位不同,均数相差悬殊 S : 单位相同,均数相近 全距(极差) 四分位数间距 R 反映一组同质观察值个体差异的范围。 缺点(1)不能反映组内其它观察值的变异度。 (2)样本含量越大,则全距可能也越大。 QR 即P75-P25 四分位数可看作是一组同质观察值居中的50%变量值的变异范围。 与全距比较有何优点?不受极值影响,较稳定。 应用: (1)偏态分布; (2)资料一端或两端有未确定值。 2 2(?S)和 应用;对称分布;尤其是正态分布 (?、S) CV 应用:比较单位不同的几组资料的变异程度;比较均数相差悬殊的几组资料的变异程度。 方差和标准差 变异系数 【制定参考值范围】

(1)正态分布法适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。 (2)百分位数法常用于偏态分布的指标。表3-1 中两种方法的单双侧界值都应熟练掌握。

3.质量控制:为了控制实验中的测量(或实验)误差,常以X ± 2S作为上、下警戒值,以X ± 3S 作 为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。

skewness偏度系数g1:定量描述分布的偏态;是两个同样单位的比,无量纲; 系数的绝对值描述分布的偏斜程度

g1=0,分布对称; g1>0 分布正偏;g1<0分布负偏

Kurtosis峰度系数g2:描述分布的尖峭程度是两个同样单位的比,无量纲; g2=0 ,正态峰;G2>0尖峭峰;G2<0平阔峰

判断正态分布:偏度系数Skewness;峰度系数Kurtosis;两个系数都小于1,可认为近似于正态分布。

五、其它30分(3~5道题目,每题6~10分) ■相对数应用注意事项 ■率的标准化 【06真题】

七、某地调查农村中不同人群的HbsAg阳性情况,结果如下表,从中得出农民HbsAg阳性情况最严重,医务人员最低的结论。试讨论这样评价是否可信?应作如何补充和修改?(10分)

某地调查农村中不同人群的HbsAg阳性情况

人 群 检查人数 阳性人数 阳性百分比(%)

1013 128 45.9 农 民

医务人员 中 学 生

小 学 生 学龄前儿童 其 他 合 计

21 99 326 437 47 1943

4 15 51 76 5 279

1.5 5.4 18.3 27.2 1.8 100.0

【答案】1、这样评价不正确。原因是以HbsAg阳性构成比代替HbsAg阳性率的错误,即错误地以比代率。 2、第四栏“阳性百分比”是每组阳性人数除以总阳性人数得到的。 增加第五栏“阳性率”,阳性率=阳性人数/检查人数×100%

人 群 检查人数 阳性人数 阳性百分比(%) 阳性率(%) 农 民 医务人员 中 学 生 小 学 生 学龄前儿童 其 他 合 计

1013 21 99 326 437 47 1943

128 4 15 51 76 5 279

45.9 1.5 5.4 18.3 27.2 1.8 100

12.64 19.05 15.15 15.64 17.39 10.64 14.36

由HbsAg阳性率计算结果可以看出,农民HbsAg阳性情况最低;医务人员最严重。

【05真题】

七、抽样调查某企业2839名职工中的高血压病人情况如下表。据此,某医生认为:

(1)该企业高血压发病率为8%,并随年龄递增,其中40岁以上患者占全部病例的90.3%,60岁以上者发病率为100%。(2)高血压发病与性别有关,男性为10.2%,女性为4.5%,男性明显高于女性(P<0.01)。 以上分析是否妥当,试加以评述。(8分)

男、女各年龄组高血压病例分布

男 性 女 性

年龄组

受检人数 病例数 发病率(%) 受检人数 病例数 发病率(%)

20~ 333 5 1.5 712 4 0.6 30~ 40~ 50~ 60~ 合计

301 517 576 12 1739

4 64 93 12 178

1.3 12.4 16.0 100.0 10.2

142 185 61 - 1100

9 27 9 - 49

6.3 14.6 14.8 - 4.5

【答案】1、以上分析有很多不妥。

(1)60~的受检人数仅12,计算相对数的分母过小。因此,“60岁以上者发病率为100%”的评价是不妥的。 (2)“高血压发病与性别有关,男性为10.2%,女性为4.5%,男性明显高于女性“的结论是不妥的。原因是男女性别内部构成不同,不具可比性,需进行率的标准化。

2、使用直接法进行率的标准化;把两组年龄段人口合并作为标准组。

年龄组

男 性

原发病率(%)

1.5 1.3 12.4 16 100 10.2

预期发病率(%)

0.55 0.20 3.07 3.59 0.42 10.20

原发病率(%) 0.6 6.3 14.6 14.8 - 4.5

女 性

预期发病率(%)

0.22 0.98 3.61 3.32 4.50

标准人口数

20~ 1045 30~ 443 40~ 702 50~ 637 60~ 12 合计 2839

3、可见,标准化以后,每个年龄组中男性、女性发病率相当。

【知识点解析】Jszb

分类资料的统计描述:1.绝对数。2.相对数常用指标:率、构成比、比。3.应用相对数的注意事项。 1.相对数(relative number)是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对 数有率、构成比、比等。

2.率(rate)又称频率指标,说明一定时期内某现象发生的频率或强度。

计算公式为:表示方式有:百分率(%)、千分率(?)等。 3.构成比(proportion)又称构成指标,说明某一事物内部各组成部分所占的比重或分布。

计算公式为:表示方式有:百分数等。 4.比(ratio)又称相对比,是A、B 两个有关指标之比,说明A 是B 的若干倍或百分之几。

计算公式表示方式有:倍数或分数等。 【应用相对数的注意事项】

1.计算相对数应有足够数量,分母一般不宜过小。 2.分析时不能以构成比代替率,容易产生的错误有

(1)指标的选择错误如住院病人只能计算某病的病死率,不能认为是某病的死亡率;

(2)若用构成指标下频率指标的结论将导致错误结论,如 某部队医院收治胃炎的门诊人数中军人的构成比最高,但不一定军人的胃炎发病率最高。

3.注意平均率(合并率)的计算

4.对样本率(或样本构成比)的比较应随机抽样,并做假设检验。

5.注意可比性:若两个总率比较,其内部构成不同,并能影响其结果,需进行率的标准化。 (1)观察对象,研究方法、观察时间、地区和民族等因素应相同或相近; (2)其它影响因素在各组的内部构成是否相同。

(四)标准化法

1. 标准化法(standardization method)的意义和基本思想 常用于内部构成不同的两个或多个率的比 较。标准化法的基本思想就是指定一个统一“标准”(标准人口构成比或标准人口数),按指定“标准”计 算调整率,使之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。 2. 标准化率的计算 标准化率(standardized rate)亦称调整率(adjusted rate)。常用的计算方法按已 知条件有直接法和间接法。

3.标准化法使用注意事项,如只用于组间比较,不能替代实际率等。

【率的标准化】 (1) 直接法:

●选择标准组的方法

1)大范围内的人口资料 2)两组年龄段人口合并 3)以其中一组为标准组,对另一组作标准化

五、其它30分(3~5道题目,每题6~10分) ■秩和检验 【06真题】

八、为研究慢性气管炎病人痰液中嗜酸性粒细胞是否高于正常人,选择 24名正常人和 44名慢性气管炎病人痰液中嗜酸性粒细胞检查结果如下表,宜用何统计分析方法?若求得的检验统计量值为 3.6217,如何下结论?(5分)

【答案】成组设计秩和检验jszb

1、此资料是单向有序分类资料,研究设计为完全随机设计 (又称成组设计);

2、统计方法选用两独立样本比较的 Wilcoxon符号秩和检验,其假设检验过程如下: (1)建立假设检验,确立检验水准:

H0:慢性气管炎病人与正常人痰液中嗜酸性粒细胞总体分布相同; H1:慢性气管炎病人与正常人痰液中嗜酸性粒细胞总体分布不同; α=0.05

(2)计算检验统计量T值: ①求各等级的秩次;

②求各等级的平均秩次;为秩次范围上下限相加除以2得平均秩次; ③求秩和;为各级的平均秩次与相应例数相乘; ④确定统计量T值。 (1) (2) (3) (4) (5) (6) (7)=(2)×(6) (8)=(3)×(6)

合秩次范平均秩

结果 正常人 病人 正常人秩和 病人秩和

计 围 次

- 11 5 16 1~16 8.5 93.5 42.5 + 10 18 28 17~44 30.5 305 549 ++ 3 16 19 45~63 54 162 864 +++ 0 5 5 64~68 66 0 330 合计 24(n1) 44(n2) 68 560.5(T1) 1785.5(T2)

以较小的例数组的例数作为n1、其秩和作为统计量T; 因此,n1=24,n2=44,T=560.5

本资料中n1=24>10,超过了两组比较T界值表的范围,用正态近似法作U 检验。 (3)确定 P值,做出统计推断:

得检验统计量值u=3.6217,查t 界值表,得单侧P<0.005,

因此,可以认为慢性气管炎病人痰液中嗜酸性粒细胞(1785.5/44=40.6)高于正常人(560.5/24=23.4)。

【04真题】

八、某医院探讨矽肺不同期次患者的胸部平片肺门密度变化,把492名患者的资料归纳如下表。

1、问欲分析矽肺患者肺门密度的增加与矽肺的期次有无关系,宜选用何种统计方法?2、为什么?(7分)

不同期次矽肺患者肺门密度级别分布

肺门密度级别 矽肺期次 + ++ +++ 合计

43 188 14 245 Ⅰ

1 96 72 169 Ⅱ

6 17 55 78 Ⅲ

50 301 141 492 合计

【答案】用等级相关分析 【双向有序属性不同的两分类变量相关分析】用等级相关分析 又称秩相关

本文来源:https://www.bwwdw.com/article/2wip.html

Top