统计分布及参数检验

更新时间:2023-09-24 00:44:01 阅读量: IT计算机 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第五章 统计量及其分布

§5.1总体与样本

一、 总体与样本

在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体。对于实际问题,总体中的个体是一些实在的人或物。比如,我们要研究某大学的学生身高情况,则该大学的全体学生构成问题的总体,而每一个学生即是一个个体。事实上,每一个学生有许多特征:性别、年龄、身高、体重等等,而在该问题中,我们关心的只是该校学生的身高如何,对其他的特征暂不考虑。这样,每个学生(个体)所具有的数量指标——身高就是个体,而所有身高全体看成总体。这样,抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现机会多,有的出现机会小,因此用一个概率分布去描述和归纳总体是合适的,从这个意义上说:

总体就是一个分布,而其数量指标就是服从这个分布的随机变量。

例5.1.1考察某厂的产品质量,将其产品分为合格品和不合格品,并以0记合格品,以1记不格品,若以p表示不合格品率,则各总体可用一个二点分布表示:

X p 0 1 1-p p

不同的p反映了总体间的差异。

在有些问题中,我们对每一研究对象可能要观测两个或更多个指标,此时可用多维随机向量及其联合分布来描述总体。这种总体称为多维总体。

若总体中的个体数是有限的,此总体称为有限总体;否则称为无限总体。实际中总体中的个体数大多是有限的,当个体数充分大时,将有限总体看作无限总体是一种合理抽象。

二、样本与简单随机样本 1、样本

为了了解总体的分布,从总体中随机地抽取n个个体,记其指标值为 x1,x2,?,xn, 则

x1,x2,?,xn 称为总体的一个样本,n称为样本容量或简称为样本量,样本中的个体称为样品。当n?30时,称x1,x2,?,xn为大样本,否则为小样本。

首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此样本是随机变量,用大写字母 X1,X2,?,Xn 表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此样本又是一组数值,此时用小写字母x1,x2,?,xn 表示。简单起见,无论是样本还是其观测值,本书中均用x1,x2,?,xn 表示,从上下文我们能加以区别。

每个样本观测值都能测到一个具体的数值,则称该样本为完全样本,若样本观测值没有具体的数值,只有一个范围,则称这样的样本为分组样本。从而知道分组样本与完全样本相比在信息上总有损失,但在实际中,若样本量特别大,用分组样本既简明扼要,又能帮助人们更好地认识总体。

例5.1.4 略。

2、简单随机样本

1

从总体中抽取样本可有不同的抽法,为了能由样本对总体作出较可靠的推断就希望样本能很好地代表总体。这就需要对抽样方法提出一些要求,最常用的有如下两个要求:

1)样本具有随机性:要求每一个个体都有同等机会被选入样本,这便意味着每一样品 xi与总体X有相同的分布。 2)样本要求有独立性:要求每一样品的取值不影响其它样品的取值,这便意味着 x1,x2,?,xn相互独立。 若样本x1,x2,?,xn是n个相互独立的具有同一分布的随机变量,则称该样本为简单随机样本,简称为样本。 注(1)若总体X的分布函数为F(x),则其样本的联合分布函数为?F(xi)

i?1n(2)若总体X的密度函数为p(x),则其样本的联合密度为?p(xi)

i?1n(3)若总体X的分布列为 p(xi),则其样本的联合分布列为?p(xi)

i?1n(4)对有限总体不放回抽样,若总体中有几个个体,抽取样本容量为n,当n<

n?0.1)时,不放回抽样得到N的样本可认为是简单随机样本。

例5.1.5 设有一批产品共N个,需进行抽样检验以了解其不合格品率p,现从中抽出n个逐一检查它们是否是不合格品,记合格品为0,不合格品为1。则总体为一个二点分布:P(X=1)=p,P(X=0)=1-p。设 x1,...,xn为该总体的一个样本,采用不放回抽样得到。这时,第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品:

P(x2?1x1?1)?Np?1 N?1NpP(x2?1x1?0)?

N?1但当N很大时,上述两个概率近似都等于p,所以当N很大,而n不大时,不放回抽样得到的样本可近似看成简单随机样本。

§5.2样本数据的整理与显示

一、经验分布函数

1、定义 设x1,x2,?,xn是取自总体分布函数为F(x)的样本,若将样本观测值从小到大进行排列为

x(1),x(2),?,x(n),则x(1)?x(2)??x(n)为有序样本,如下函数

?0,当x?x(1)??kFn(x)??,当x(k)?x?x(k?1),k?1,2,?,n?1

?n??1,当x?x(n)称为经验分布函数。

例5.2.1某食品厂生产听装饮料,现从生产线上随机抽取5听饮料,称得其净重为:351 347 355 344 351,求此样本的经验分布函数。

略。

2、经验分布函数的性质

10 对每一个固定的x,Fn(x)是事件“X?x”发生的频率,当n固定时,Fn(x)是样本的函数,是一个随机变

2

P量,且Fn(x)???F(x)。

20(格里纹科定理)定理5.2.1:设x1,x2,?,xn是取自总体分布函数为F(x)的样本,Fn(x)是经验分布函数,有

P(limsupFn(x)?F(x)?0)?1。

n?????x???注 此定理表明,当n相当大时,经验分布函数是总体分布函数的一个良好的近似。

二、频数频率分布表

样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表,其基本步骤是:

1、对样本进行分组:首先确定组数k,作为一般性原则,组数通常在5-20个。对容量较小的样本,通常将其分为5组或6组,容量为100左右的样本可分7到10组,容量在200左右的样本可分9~13组,容量为300左右级以上的样本可分12到20组。

2、确定每组组距:每组组距可以相同也可以不同。但实际中常选用长度相同的区间,以d表示组距。 3、确定每组组限。

4、统计样本数据落入每个区间的个数——频数,并列出其频数频率分布表。 具体例子略。

三、样本数据的图形显示:

常用的样本数据的图形显示主要有直方图和茎叶图,具体例子略。

§5.3统计量及其分布

一、统计量与抽样分布

样本来自总体,含有总体各方面的信息,但这些信息较为分散,有时不能直接利用。为将这些分散的信息集中起来以反映总体的各种特征,需要对样本进行加工,最常用的加工方法是构造样本的函数,为此:

定义5.3.1 设x1,x2,?,xn为取自某总体的样本,若样本函数T?T(x1,?,xn)中不含有任何未知参数,则称T为统计量。统计量的分布为抽样分布。

2按上述定义:设x1,x2,?,xn为样本,则?xi,?xi2都是统计量,当?,?未知时,x1??,nnx1i?1i?1?等都不是统计量。

注 统计量不依赖于未知参数,但其分布一般是依赖于未知参数的。

二、常用的统计量

1、样本均值、样本方差、样本k阶矩及k阶中心矩

定义 设x1,x2,?,xn是来自某总体的样本。称

1nx??xi 为样本均值

ni?1S*21n??(xi?x)2 为样本方差 ni?1*2S?S2* 为样本标准差

1nS?(xi?x)2 为样本(无偏)方差 ?n?1i?1

3

S?S2 为样本(无偏)标准差

1nkak??xi 为样本k阶(原点)矩

ni?11nbk??(xi?x)k为样本k阶中心矩

ni?1n21n122注(1)S?=(x?x)[x?nx] ??iin?1i?1n?1i?12(2)在分组样本场合下:若xi为第i组的组中值,fi为该i组的个数,k为组数,则

kx1f1???xkfkx?,其中n??fi

ni?121k1k22=S?f(x?x)[fx?nx] ?ii?iin?1i?1n?1i?122、次序统计量

定义5.3.7设x1,x2,?,xn是取自总体X的样本,将其从小到大排序得到x(1)?x(2)???x(n).定义X(i):不论

x1,x2,?,xn取怎样的一组观测值,X(i) 总取x(i)为其观测值,称X(i)为第i个次序统计量,从而有

X(1)?X(2)??X(n).

X1?min?Xi?,X(n)?max?Xi?分别称为样本的最小、最大次序统计量。

1?i?n1?i?n注 样本x1,x2,?,xn独立同总体分布,但X(1),X(2),?,X(n)既不独立又不同分布。

三、统计量X与S2的性质

定理5.3.1 证明 略。

定理5.3.2数据观察值与均值的偏差平方和最小,即在形如

?(xi?1ni?x)?0。

?(xi?1ni?c)的函数中,?(xi?x)2最小,其中c为任

2i?1n意给定常数。

证明 略。

定理5.3.3 设x1,x2,?,xn是来自某个总体的样本,x为样本均值。

21) 若总体分布为N(?,?),则x的精确分布为N(?,?)。

1n2 4

2) 若总体分布未知或不是正态分布,但EX??,VarX??2,则n较大时的渐近分布为N(?,?),记为

1n21x~N(?,?2)。

n.证明 略。 例5.3.3 略。

定理5.3.4 设总体X具有二阶矩,即EX??,VarX??2

2

11EX?EX??,VarX?VarX??2,ES2?VarX??2。

nn证明 略。

§5.4三大抽样分布

一、?2分布(卡方分布)

1、定义5.4.1设X1,X2,?,Xn独立同标准正态分布N(0,1),则???Xi2的分布称为自由度为n的?2分布,

2i?1n记为?~22?2(n).

1n2?()2n2?(n)的密度函数为:p(x)?xn1?1?x22e,x>0。

1、 性质

1? 可加性 若X~?2(n),Y~?2(m)且X与Y独立,则。X?Y~?2(m?n)

证明 略。

2? 若X~?2(n), 则EX=n, VarX=2n。

3??2分布的分位数

定义 若?~2?2(n),对给定的?,0???1,称满足

P(?2??12??(n))?1??

2的?1??(n)是自由度为n的

??2分布的1??分位数。

注 1 要会查?分位数。

22? t—分布、F—分布仍有相应的分位数定义。

二、F—分布

5

本文来源:https://www.bwwdw.com/article/e7zd.html

Top