质量(1-5 假设检验)

更新时间:2023-11-28 04:59:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

全国质量专业技术人员职业资格考试考前培训

质量专业理论与实务

(中级)

第一章

概率统计基础知识

§5 假设检验

培训教师:章 军

(辽宁大学)

2013

1

5.1 基本思想与基本步骤

在上一节一开始,我们就知道,统计推断有两个基本内容:一个是参数估计,另一个就是假设检验(hypothesis testing)。那么什么是假设检验呢?我们先从一个例子讲起。

5.1.1 假设检验问题

【例1.5-1】 某厂生产某种化纤的纤度X服从正态分布N??,0.04?,其中?的设计值为

21.40,每天都要对“??1.40”作例行检查,以观生产是否正常运行。某天从生产线中随

机抽取25根化纤,测得纤度值为:x1,x2,?,x25,其纤度平均值x?1.38,问当日生产是否正常?

【注】仔细分析本题,可以得出如下结论:①这并不是一个参数估计问题;②这里是要求对命题“??1.40”作出回答:是,或者不是。这样的问题在质量管理中普遍存在。在数理统计中,把这类问题称为假设检验问题(hypothesis testing problem)。

5.1.2 假设检验的基本步骤 [掌握]

▲假设检验的基本思想是:根据所获得样本,运用统计分析方法,对总体X的某种假设H0做出接受或拒绝的判断。具体做法分五大步骤,我们结合【例1.5-1】介绍如下:

5.1.2.1 建立假设

★这里所说的假设(hypothesis),就是要做出“是”与“否”回答(即做出“接受”或“拒绝”判断)的一个命题H0。H0这样的假设称为原假设(null hypothesis)。

在上例中,原假设为H0:??1.40。H0的含义是“与设计值一致”,即“当日生产正常”。我们知道,要使当日生产化纤的纤度的均值正好等于1.40而毫无差别是不可能的,若这种差异近视由随机误差引起的,则可认为H0是成立的,应该接受H0(这时称H0为真);但若差异是由其他特殊因素引起的,则可认为差异显著,即H0不成立,而应该拒绝H0(这时称H0为假)。与原假设H0相反的假设为H1:??1.40。

★H1这样与原假设相反的假设称为备择假设(alternative hypothesis),它是在原假设H0被拒绝时而应接受的假设。

▲由此看来,在假设检验中,“建立假设”这一步要同时建立一对假设(原假设H0和备择假设H1)。比如在上例中,所建立的假设应该是:

2

H0:??1.40,H1:??1.40。

其实,与原假设H0:??1.40 “配对”的备择假设还可能有另外两种形式:H1:?<1.40,或H1:?>1.40。即我们可以根据不同需要建立3对不同的假设(这里的原假设H0是相同的,所不同之处在于H1):

?H0:??1.40,H1:??1.40; ?H0:??1.40,H1:?<1.40; ?H0:??1.40,H1:?>1.40。

上述3对假设,可以分为两类:?中的假设称为双侧假设(two-sided hypothesis),而?和?中的假设则称为单侧假设(one-sided hypothesis)。分类的依据是看H1(在?中,H1表示

1.40”1.40”1.40”既可以“?>也可以“?<,所以是“双侧”;而在?和?中,H1只表示“?>1.40”其一,所以是“单侧”或“?<)。按此分类标准,以下也是单侧假设:

?H0:??1.40,H1:?<1.40; ?H0:??1.40,H1:?>1.40。

【注】备择假设的形式值得引起重视(后面我们会看到,备择假设形式的不同将会影响到拒绝域的形式)。

▲关于建立假设,还要补充一个在数理统计中约定俗成的规定:原假设中必须有等号,从而在备择假设中绝对不能有等号。

【注】这一规定告诉我们:在原假设H0中必须用“?”、“≤”或“≥”三者之一,而在备择假设H1中必须用“?”、“ >”或“<”三者之一。所以我们在建立假设时要注意规范性。根据实际问题,一定要把带有等号的假设作为原假设。

★另外,若假设是关于总体参数的某个命题,则称之为参数假设检验问题。比如

H0:???0,H1:???0 【双侧假设】

222H0:?2??0,H1:?>?0 【单侧假设】

H0:p?p0,H1:p<p0 【单侧假设】

这些都是参数假设检验问题。

【例1.5-1】是检验正态均值?的,所以也属于参数假设检验问题。它的一般形式是

H0:???0,H1:???0。

3

5.1.2.2 选择检验统计量,给出拒绝域的形式

由于H0:???0,H1:???0这个假设检验问题涉及正态均值?,因此应选用样本均值

x,而在?已知和原假设H0成立(???0)情况下,由中心极限定理知x~N?0,?2n,

从而有u???x??0~N?0,1?。

?nx??0x??0就是今后要使用的检验统计量(test statistic),u?称u统

?n?n这里的统计量u?计量。

在【例1.5-1】中,检验统计量为u?x??013.8?14.0。 ??n0.0425▲考察检验统计量u?x??0,不难看出:

?nu?x??0?n越小,表明x越接近?0,越应倾向于接受H0;

u?x??0?n越大,表明x越远离?0,越应倾向于拒绝H0。

那么,u要小到什么程度我们才会认为应该接受H0,而u又要大到什么程度我们才会认为应该拒绝H0呢?这时就要确定一个区别接受H0与拒绝H0的临界值(critical value),记其为c。用临界值c可以将样本空间分为两部分:

一部分是满足条件“u>c”的区域W,称为拒绝域(rejection region),即

W??u>c?;另一部分则是满足条件“u?c”的区域A,称为接受域(acceptance

region),即A??u?c?。

我们应把注意力放在拒绝域W上。这是因为用一个样本就接受一个命题,在逻辑上来看理由很不充分;但用一个样本去推翻一个命题,理由则是充分的(这就像证明一个命题,有多少个例子都不够充分;而要推翻它,举一个反例就够了)。

5.1.2.3 给出显著性水平α

我们利用样本对一个命题(假设)作出判断,就有可能犯错误,这是不可避免的。我们的任务是控制犯错误的概率。在假设检验中,有可能含两类错误:

★第一类错误是拒真(rejecting true,也称弃真):原假设H0为真,但由于抽样的随机性,

4

样本的检验统计量落在拒绝域W内,从而导致拒绝H0,其发生概率记为?,即。 P?WH0???。这里?又称显著性水平(significance level)

★第二类错误是取伪(accepting false,也称纳伪):原假设H0不真(此时H1为真),但由于抽样的随机性,样本的检验统计量落在接受域A内,从而导致接受H0,其发生概率记为

?,即P?AH1???。

▲理论研究表明:在相同样本量下,?小??大;?小??大;?与?都小?增加样本量(不可行)。

折中方案:在适当控制?在制约?。▲常选??0.05,有时也用??0.10或??0.01。 ▲要把第一类错误发生概率控制在?这一显著性水平上,必须满足条件PWH0??,即

??P?u>c???。最后由此式去确定临界值c。

5.1.2.4 确定临界值c,给出拒绝域W

由于u~N?0,1?,由标准正态分布计算性质及分位数知识可知,

P?u>c????2?1???c???????c??1?W??u>u1??2?2?c?u1??2,于是可得拒绝域为

?。

▲由上可知,拒绝域取决于显著性水平?。比如,若选??0.05,则拒绝域为

?。 W??u>u0.975???u>1.96

5.1.2.5 判断

▲假设检验的判断原则为:

若样本的检验统计量落入拒绝域W内,则拒绝H0,即接受H1;而若样本的检验统计量未落入拒绝域W内(即落入接受域A内),则接受H0。

在上述问题中,若u>u1??2,则拒绝H0而接受H1;若u?u1??2,则接受H0。具体的,当选??0.05时,若u>1.96,则拒绝H0而接受H1;若u?1.96,则接受H0。 比如在【例1.5-1】中,样本的检验统计量u?x??013.8?14.0???2.5,u?2.5>1.96,

?n0.0425 5

?近似u检验:

H1:p>p0?W??u>u1??? H1:p<p0?W??u<u?? H1:p?p0?W??u>u1??2?

上述这些公式请结合我在前面讲的关于拒绝域的“三个规律”去记。 ?还有一点要特别说一下,就是我们可以将参数估计与假设检验联系起来(这里又是在用联

2想思维),即对正态均值?、正态方差?或正态标准差?这些正态总体参数以及比例p来

说,估计这些参数的置信区间公式与检验对应参数的拒绝域公式,所用分布类型是完全一致的。请看下表: 估计参数或检验参数 置信区间所用分布 拒绝域所用分布 ?(?已知) ?(?未知) u分布 t分布 u分布 t分布 ?2(?未知) ?2分布 ?2分布 u分布 ?2分布 ?2分布 u分布 ?(?未知) p(?已知) 我的这一“重大发现”也许会对大家记忆相关公式提供帮助。 ?此外,在记忆各检验统计量公式时,也可与前面学过的抽样分布中的统计量进行联想比对: 统计量名称 分布统计量 检验统计量 u统计量 u?x?? ?nx?? snu?x??0 ?nx??0 snt统计量 t?t??统计量 2?2?n?1?s2? ?2?2?n?1?s2? 2?0记住这些,同样会对大家记忆相关公式提供帮助。

????????????????????????????????????????????

在介绍完本节的内容之后,我们来作一下前面给出的那个思考题。

【思考题】若在【例1.5-3】中,将题设条件改为“根据某地环境保护法规定,倾入河流的废水中一种有毒化学物质的平均含量须小于3ppm”,其他条件不变,试在??0.05水平上

16

判断该厂是否符合环保规定?

解 这是检验正态均值?的问题(?未知)。现在题设条件有所改变(将“不得超过3ppm”改为“须小于3ppm”),这时应怎样建立假设呢?显然应该这样建立假设: )。 H0:??3,H1:?<3(即原假设为“该厂不符合环保规定”

由于?未知,故应选用t检验。又因该检验为单侧检验问题,显著性水平??0.05,故拒绝域W??t<t??n?1????t<t0.05?14????t<?1.761?,由样本观测值,求得x?3.2,

s?0.436,检验统计量为t?x??03.2?3??1.7766。由于t?1.7766>?1.761,sn0.43615即检验统计量t未落入拒绝域内,所以应接受H0,即在??0.05水平上可以认为该厂不符合环保规定。

【注】解题中要用到分位数t0.05?14?,由于在教材后所给的《t分布的?分位数表》中查不到该值(见附表1-4),我们可以利用t分布分位数的性质去求。由于t??n?1??t1???n?1??0(t分布分位数的这个性质与u分布分位数的性质类似,我们在前面的第三节中讲过),可知t??n?1???t1???n?1?(这与u分布分位数的性质也很相似),从而有

t0.05?14???t0.95?14???1.761。

17

本文来源:https://www.bwwdw.com/article/zw4t.html

Top