第三讲:t检验

更新时间:2023-11-19 05:43:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

复习相关理论知识

1.正态分布:

如果连续型随机变量X的概率密度为

其中μ,σ为常数,且 σ>0,我们称X服从正态分布,简记作X~N(μ,σ2).

2.标准正态分布: 当

=0,

=1时,X的概率密度为

,

我们称X服从标准正态分布,简记作

3.正态分布的标准化: 设

,令u?

x???,这也被称作变量的u变换。

但由于?往往未知,所以用样本标准差s来替代,此时t?只能以x来替代,此时t?

x??,或者有时甚至μ也未知,sx?x,这两种变量变换都叫做t变换。 s

4.t分布的规律:

变量经u变换得到的函数曲线叫做标准正态分布,或称为u分布、布尔分布。变量经t 变换所得的函数曲线叫做t 分布。 t分布具有以下规律:

1)当自由度足够大时,t分布逐淅趋进于u分布

2)用定积分方法,可以求出在t取值在?t0.05/2,?到t0.05/2,?之间时,t分布曲线下所夹的面积为:?(x)??t0.05/2,??t0.05/2,?1edt =0.95 记为 2?t22p??t0.05/2,??t?t0.05/2,???0.95…………………………(式1)

t取值在?t0.01/2,?到t0.01/2,?之间时,t分布曲线下所夹的面积为:?(x)?=0.99记为

t0.01/2,???t0.01/2,?1edt 2?t22p??t0.01/2,??t?t0.01/2,???0.99…………………………(式2)

式1和式2可统一表示为:

p??t?/2,??t?t?/2,???1??

………………………………………(式3)

3)同样的方法可以求得t?t0.05/2,?(即t??t0.05/2,?和t?t0.05/2,?)时,曲线下的面积分别为

?(x)???(x)??所

?t0.05/2,???1edt?0.025 2?12edt?0.025 2?当

t22t2t22??t0.05/2,?,

?t0.05/2,?t?t0.05/2,?时

t22,曲线下的面积为

?(x)????1edt?2????t0.05/2,?1edt?0.05 2?记为:p?t?t0.05/2,???0.05………………………………………(式4) 同理,当t?t0.01时,曲线下的面积为?(x)???t0.01/2,???1edt??t0.01/2,?2???t221edt?0.05 2?t22记为:p?t?t0.01/2,???0.01…………………………………………………(式5)

上述式4和式5统一表示为

p?t?t?/2,????……………………………………………………………(式6)

式3的用途: 将t?x?x代入式1 得: s???1?? ?x?x?p??t?/2,???t?/2,?s?∴p?t?/2,?s?x?x?t?/2,?s?1?? ∴px?t?/2,?s?x?x?t?/2,?s?1??

上式的意思是:变量值x落在x?t?/2,?s~x?t?/2,?s范围内的可能性是1-α,我们把这个范围叫做频数的1-α分布范围,当υ足够大时,这个公式可以用于正态分布资料的

正常值范围制订。

5.抽样误差和标准误

??????x3、x2、在一个总体均数为?的总体中作k次放回抽样,可以得到k个样本均数x1、。。。

xk,这时会发现,每个样本与总体均数间可能会出现差异,每个样本均数之间也会存在差

异,这种差异是由于抽样造成的,所以也称为抽样误差。

为描述样本均数间的差异,我们可模仿标准差的计算方法进行计算,即:

????x???n2??x?x?2 ?x???x???k2

s?n?1 sx?2??x?x?k?1

我们把样本均数之间的标准差,改称为标准误,以示与标准差的区别。可见,标准误是

一个描述抽样误差大小的指标。

但实际工作中为节省财力、人力、物力,不可能取得多个x,因此也就无法用这种方法计算出标准误。换一个思路来说,抽样误差与变异程度成正比,而与样本含量成反比,经过模拟得出了计算标准误的经验公式:

?x?

?n sx?sn

6.中心极限原理: 如果x~N(μ,σ), u?则x~N(μ,?x),u?x???x??~N(0,1) ~N(0,1)

?x当σ未知时,?x未知,常用sx代替,则t?x??~t分布 sx将t?x??代入式3 p?t?/2,??t?t?/2,??1?? 得: sx????x??p??t??t?1?? ?/2,????/2,??sx??∴p?t?/2,?sx?x???t?/2,?sx?1?? ∴px?t?/2,?sx???x?t?/2,?sx?1??

上式的意思是:在多次抽样中,总体均数μ落在x?t?/2,?sx~x?t?/2,?sx范围内的可能性是1-α,我们把这个范围叫总体均数的1-α可信区间,1-α叫做可信度。

7.样本均数与总体均数的比较——假设检验的原理: 以样本均数与总体均数的比较为例,其步骤和原理如下: 设:H0:???0

以此为理论基础,将变量值进行t变换: t???????x??0 sx依据t分布的规律(式6)

p?t?t?/2,????,即当 t?t?/2,?时,p≤α,也就是说,H0

如果成立的话,得出这样一个大的t值的可能性很小。反过来说,如果得出一个大的t值,那么HO成立的可能性就很小了,因此选择它的反面H1:???0

总结假设检验的步骤:

1.设H0:???0 H1:???0 检验水准α=0.05 或α=0.01 2.计算统计量:

t?x??0 sx3.判断p值:

t?t?/2,? 时 p≤α t?t?/2,? 时p>α

4.下结论:

统计结论 当p≤α时,称为差异有显著性,拒绝H0 接受H1 当p>α时,称为差异无显著性,不拒绝H0 专业结论 结合统计结论与专业知识下一个专业结论。

8.t检验的应用条件和计算公式

样本均数与总体均数的比较

xx??0s? x? sx? ??n?1 t?nsxn

配对设计的比较

dd?0?d? sd?t?nsd

完全随机设计的两样本均数的t检验

?(d?d) sn?1d?sdn ??n?1

s(n?1)?s2(n2?1)x?x21212) sc?11 sx1?x2?sc(? t?1n1n2(n1?1)?(n2?1)sx1?x2

方差齐时,??(n1?1)?(n2?1)

2222方差不齐时,t?t? ??(SXI?SX2)2S44

XIX2n1?1?Sn2?1假设检验注意事项:

1. 统计推断的结论不能绝对化

Ⅰ类错误、Ⅱ类错误及两者间的关系

2. α到底是应该取0.05还是0.01?

3. 何时用单侧检验?何时用双侧检验? 4. 差别有显著性?还是差别显著?

5. p?? 做出的结论是接受H0,对吗?

6. 科研设计中有些小错误无所谓,可以用统计学方法来弥补。这种说法对吗?

例1. 已知正常成年男子脉搏数为72次/分,现某山区测定了20名成年男子的脉搏数,平均值为74次/分,标准差为6.16次/分,问该地男子脉搏数是否比正常成年男子快? 80 80 68 68 80 80 68 68 80 80 68 68 80 80 68 68 80 80 68 68

例2.不同饲料组大白鼠肝中维生素A含量(IU/g)

大白鼠对号 正常饲料组 1 2 3 4 5 6 7 8

3550 2000 3000 3950 3800 3750 3450 3050

维生素E缺乏组 2450 2400 1800 3200 3250 2700 2500 1750

差值d 1100 -400 1200 750 550 1050 950 1300

问,不同饲料的大白鼠肝中维生素A含量有无差别?

例3.用克矽平才化吸入治疗矽肺患者7人,得如下资料,能否认为治疗会引起患者血清粘蛋白的变化?

患者号 1 2 3 4 5 6 7

治疗前 65 73 73 30 73 56 73

治疗后 34 36 37 26 43 37 50

差值d 31 37 36 4 30 19 23

例4.25例糖尿病患者随机分成两组,甲组单纯用药物治疗,乙组采用药物治疗合并饮食疗法,二个月后再次测空腹血糖,问二组患者血糖值是否相同?

表 25名糖尿病患者两种疗法治疗后二个月血糖值(mmol/L)

甲组 乙组 8.4 5.4 10.5 6.4 12.0 6.4 12.0 7.5 13.9 7.6 15.3 8.1 16.7 11.6 18.0 12.0 18.7 13.4 20.7 13.5 21.1 14.8 15.2 15.6 18.7

例6.30例患者平均分成西药组15例和中药组15例,分别于治疗前和治疗后10天检测辅助性T细胞(CD4+)的变化,结果如下表:

表 两种疗法受试病例治疗前后辅助性T细胞(CD4)变化的比较

编西药组 编中药组 号 治疗前 治疗后 前后差 号 治疗前 治疗后 前后差 1 36 41 -5 16 35 38 -3 2 35 38 -3 17 36 39 -3 3 40 43 -3 18 36 39 -3 4 35 39 -4 19 33 36 -3 5 28 24 4 20 36 41 -5 6 28 26 2 21 35 40 -5 7 35 31 4 22 37 42 -5 8 38 34 4 23 40 41 -1 9 38 36 2 24 33 39 -6 10 39 36 3 25 40 38 2 11 32 30 2 26 40 42 -2 12 32 36 -4 27 38 41 -3 13 38 36 2 28 32 35 -3 14 36 40 -4 29 41 44 -4 15 38 36 2 30 35 33 2

问:(1)两种疗法对T辅助细胞数有没有影响?(2)哪一种疗法的影响更大?

例7.今测30不同年龄男子的某项指标如下,问50岁及以上者与50岁以下者该指标有无不同?

age 50 48 56 48 37 37 48 53 53 55

x 41 38 43 39 24 26 31 34 36 36

age 43 43 53 50 53 48 50 50 45 50

x 30 36 36 40 36 38 39 39 36 41

age 48 51 56 45 56 56 53 43 58 48

x 40 42 41 39 38 42 41 35 44 33

例8.将钩端螺旋体病人的血清随机分为两组,分别用标准株和水生株作凝溶试验,测得稀释倍数如下表,问两组的平均效价是否不同?

标准株(11人) 100 200 400 400 400 400 800 1600 1600 1600 3200

水生株(9人) 100 100 100 200 200 200 200 400 400

例9.某医生测得当地116名正常成女子血清甘油三酯,结果如下表。

组段 0.6- 0.7- 0.8- 0.9- 1.0- 1.1- 1.2- 1.3- 1.4- 1.5- 1.6-1.7 合计

频数 1 3 9 13 19 25 18 13 9 5 1 116

(1) 能否据此数据估计该地正常成年女子血清胆固醇的95%、99%正常值范围? (2) 据此数据估计该地正常成年女子血清胆固醇总体均数的95%、99%可信区间。 (3) 说明95%正常值范围与总体均数95%可信区间的区别。

例10.测得某地300名正常人尿汞值,其频数表如下。 尿汞值 0- 4- 8- 12- 16- 20- (1) (2) (3) (4)

例数 49 27 58 50 45 22

尿汞值 24- 28- 32- 36- 40- 44-

例数 16 9 9 4 5 0

尿汞值 48- 52- 56- 60- 64- 68-

例数 3 0 2 0 0 1

试计算无均数和中位数,何者的代表性较好? 能否据此求出正常人尿汞值的95%正常值范围?

可否据此估计正常人尿汞值总体均数的95%可信区间?

本文来源:https://www.bwwdw.com/article/nkxv.html

Top