抽样分布的研究
更新时间:2024-04-28 00:58:02 阅读量: 综合文库 文档下载
抽样分布的研究
抽样分布的研究
1 前言
统计量是样本的函数,它是一个随机变量.统计量的分布称为抽样分布. 用来估计一个未知总体参数的抽样统计称为估计. 真实参数值和估计值间的差异称为抽样误差.带有概率分布的随机变量统计称为抽样分布,由重复抽样产生. 我们用统计的抽样分布来测定估计中的抽样,它可分为正态总体下与非正态总体下两种情况来讨论.是由样本n个观察值计算的统计量的概率分布.从一个总体中随机抽出容量相同的各种样本,从这些样本计算出的某统计量所有可能值的概率分布,称为这个统计量的抽样分布.从一个给定的总体中抽取(不论是否有放回)容量(或大小)为n的所有可能的样本,对于每一个样本,计算出某个统计量(如样本均值或标准差)的值,不同的样本得到的该统计量的值是不一样的,由此得到这个统计量的分布,称之为抽样分布.
例如:如果特指的统计量是样本均值,则此分布为均值的抽样分布.类似的有标准差、方差、中位数、比例的抽样分布.
统计量是样本的函数,它是一个随机变量.统计量的分布称为抽样分布.
基于独立的,与总体分布的简单随机样本的抽样分布定理,是小样本统计推断的理论基础??.二十世纪20年代以来,由此发展的成熟的简单随机样本统计推断理论,
1已在其他科学的研究中被广泛的应用.但是,在实际的非简单随机抽样普遍的存在着.如经济学中的异方差,生物学中的常相关性??.但有些在应用中直接运用了简单
2随机样本的统计方法,这是不合适的.近些年来,人们在针对实际中不同场合存在的非简单随机样本,研究相应的统计推断理论.为此,本文给出了抽样分布的基础定理及应用.
2 选题背景
2.1 题目类型及来源
第1页(共33页)
抽样分布的研究
题目类型:研究论文 题目来源:专题研究
2.2 研究目的和意义
样本来自总体,因此样本中包含了有关总体的丰富信息,但是这些信息是零散的,为了把这些零散的信息集中起来反映总体的特征,我们取得样本之后,并不是直接利用样本进行推断,而需要对样本进行一番“加工”和“提炼”,把样本中所包含的有关信息尽可能地集中起来.一种有效的办法就是针对不同的问题,构造出样本的某种函数,这就是统计量??.不同的函数可以反映总体的不同的特征.统计量的分布叫抽
3样分布.统计量的性质以及使用某一统计量作推断的优良性,取决于其分布.所以抽样分布的研究是数理统计中的重要课题.寻找统计量的精确的抽样分布,属于所谓的小样本理论的范围,但是只在总体分布为正态时取得比较系统的优良结果.对一维正态总体,有三个重要的抽样分布,即?2分布、t分布和F分布.
2.3 国内外现状和发展趋势与研究的主攻方向
三大抽样分布是数理统计上的三个重要分布,由标准正态分布的总体样本组合而成.利用随机变量函数分布的求法导出三大抽样分布的概率密度函数,给出了三大抽样分布在区间估计和假设检验中的应用.因此,三大抽样分布具有一定的理论意义和实践意义.数理统计成为数学的一个分支的一个奠基人是高斯,他的杰出贡献是发现并导出了正态分布,并在在正态分布的基础上,提出了最小二乘法.卡尔.皮尔逊是公认的现代统计学的创始人,他初步建立了系统的、数据分析的统计学方法,他对于统计学的传播、交流与发展起了极为重要的作用.Karl pearson在创立拟合优度理论的过程中发现了这个分布,Gosse发现t分布的过程正是小样本理论创立的过程??.有
4很多统计推断是基于正态分布的假设,以标准正态分布为基石而构造的三个著名统计量在实际中有广泛的应用,这是因为这三个统计量不仅有明确的背景,而且其抽样分布的密度函数有明显表达式,它们被称为统计学的“三大抽样分布”.
第2页(共33页)
前言
3 抽样分布
3.1 什么是抽样分布
抽样分布也称统计量分布、随机变量函数分布,是指样本估计量的分布.样本估计量是样本的一个函数,在统计学中称作统计量,因此抽样分布也是指统计量的分布
?5?.以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量相
同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布.
3.2 抽样分布的类型
3.2.1 单一样本统计量的抽样分布
当我们要对某一总体的参数进行估计时,就要研究来自该总体的所有可能的样本统计量的分布问题,比如样本均值的分布、样本比例的分布,从而概括有关统计量抽样分布的一般规律. (1)样本均值的抽样分布 样本均值抽样分布的形成:样本均值的抽样分布即所有样本均值的可能取值形成的概率分布.例如,某高校大一年级参加英语四级考试的人数为6000人,为了研究这6000人的平均考分,欲从中随机抽取500人组成样本进行观察.若逐一抽取全部可能样本,并计算出每个样本的平均考分,将会得出很多不完全相同的样本均值,全部可能的样本均值有一个相应的概率分布,即为样本均值的抽样分布. 我们知道,从总体的N个单位中抽取一个容量为n的随机样本,在重复抽样条件下,共有N个可能的样本;在不重复抽样条件下,共有 nCN?nN! n!(N?n)!个可能的样本.因此,样本均值是一个随机变量. 第3页(共33页)
抽样分布的研究
(2)样本均值抽样分布的特征 从抽样分布的角度看,我们所关心的分布的特征主要是数学期望和方差.这两个特征一方面与总体分布的均值和方差有关,另一方面也与抽样的方法是重复抽样还是不重复抽样有关. 无论是重复抽样还是不重复抽样,样本均值的期望值总是等于总体均值μ,即: 公式一: E(x)?? 样本均值的方差则与抽样方法有关.在重复抽样条件下,样本均值的方差为总体?22方差的1/n,即公式二: ?x? n在不重复抽样条件下,样本均值的方差为: σ2N?n*公式三: σ? nN?12x从公式二和公式三可以看出两者仅相差系数: N?n N?1该系数通常被称为有限总体修正系数.在实际应用中,这一系数常常被忽略不计,主要是因为:对于无限总体进行不重复抽样时,由于N未知,此时样本均值的标准差仍可按公式二计算,即可按重复抽样处理;对于有限总体,当N很大而抽样比例n/N很小时,其修正系数 N?nn?1?1?. N?1N?1通常在样本容量n小于总体容量N的5%时,有限总体修正系数就可以忽略不计.因此,公式二是计算样本均值方差的常用公式. (3)样本均值抽样分布的形式
样本均值抽样分布的形式与原有总体的分布和样本容量n的大小有关. 如果原有总体是正态分布,那么,无论样本容量的大小,样本均值的抽样分布都服从正态分布.
第4页(共33页)
抽样分布的研究
如果原有总体的分布是非正态分布,就要看样本容量的大小.随着样本容量n的增大(通常要求n≥30),不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,即统计上著名的中心极限定理.虽然总体成绩的分布形态未知,但?已知,且n=150为大样本,依据中心极限定理可知:样本均值的抽样分布近似服从正态分布.
3.2.2 样本比例的抽样分布
样本比例即指样本中具有某种特征的单位所占的比例.样本比例的抽样分布就是所有样本比例的可能取值形成的概率分布.例如,某高校大一年级学生参加英语四级考试的人数有6000人,为了估计这6000人中男生所占的比例,从中抽取500人组成样本进行观察,若逐一抽取全部可能样本,并计算出每个样本的男生比例,则全部可能的样本比例的概率分布,即为样本比例的抽样分布.可见,样本比例也是一个随机变量. (1)样本比例抽样分布的特征 在大样本情况下,样本比例的抽样分布特征可概括如下: 无论是重复抽样还是不重复抽样,样本比例p的数学期望总是等于总体比例P,即: 公式一: E?p??P 而样本比例p的方差,在重复抽样条件下为: P(1?P)?公式二: σ2 pn在不重复抽样条件下为: P(1?P)N?nσ2?() pnN?1(2)样本比例抽样分布的形式 样本比例的分布属于二项分布问题,当样本容量n足够大时,即当np与n?1?p?都不小于5时,样本比例的抽样分布近似为正态分布. 如果要对两个总体有关参数的差异进行估计,就要研究来自这两个总体的所有可能样本相应统计量差异的抽样分布. 第5页(共33页)
抽样分布的研究
1、两个样本均值差异的抽样分布
若从总体X1和总体X2中分别独立地抽取容量为n1和n2的样本,则由两个样本均值之差 x1?x2的所有可能取值形成的概率分布称为两个样本均值差异的抽样分布.
设总体X1和总体X2的均值分别为?1和?2,标准差分别为?1和?2,则两个样本均值之差x1?x2的抽样分布可概括为以下两种情况: (1)若总体X1N?μ1,?1?,总体X22N(μ2,σ)x1?x2222σ1σ2?2) N(μ1?μ2, nn(2)若两个总体都是非正态总体,当两个样本容量n1和n2都足够大时,依据中心极限定理,x1和x2分别近似服从正态分布,则 x1?x22、两个样本比例差异的抽样分布 2σ1σ2?2) N(μ1?μ2, nn若从总体X1和总体X2中分别独立地抽取容量为n1和n2的样本,则由两个样本比例之差p1?p2的所有可能取值形成的概率分布,称为两个样本比例差异的抽样分布. 3.3 抽样分布的几个定理
(1)从总体中随机抽取容量为n的一切可能个样本的平均数之平均数,等于总体的平均数,即E(x) = μ,(E为平均的符号,x为样本的平均数,μ为总体的平均数). (2)容量为n的样本平均数在抽样分布上的标准差,等于总体标准差除以n的方根,?即?x?(?x为平均数抽样分布的标准差,?为总体标准差,n为样本容量). n (3)从正态总体中,随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布. (4)虽然总体不是正态分布,如果样本容量较大,反映总体μ和σ的样本平均数的抽样分布,也接近于正态分布. 第6页(共33页)
抽样分布的研究
3.4 抽样分布、样本分布和总体分布
统计中用随机变量X的取值范围及其取值概率的序列来描述这个随机变量,称
之为随机变量X的概率分布.如果我们知道随机变量X的取值范围及其取值概率的序列,就可以用某种函数来表述X取值小于某个值的概率,即为分布函数:
F?X??P?X?z?.
例如,一个由N家工业企业组成的总体,X为销售收入.将总体所有企业的销售收入按大小顺序排队,累计出总体中销售收入小于某值x的企业数量并除以总体企业总数N,就可得到总体中销售收入小于x的企业的频率,也即抽取一个销售收入小于
x的企业的概率.此频率或概率随着x值不同而变化形成一个序列,形成了销售收入X的概率分布.
3.4.1 总体分布是在总体中X的取值范围及其概率
样本分布是在样本中X的取值范围及其概率.上例中,如果抽取n个企业作为样本,我们同样可以用这n个销售收入的取值范围及其概率描述其分布,也即样本分布.样本分布也称为经验分布,随着样本容量n的逐渐增大,样本分布逐渐接近总体分布.抽样分布是指样本统计量的概率分布??.采用同样的抽样方法和同等的样本量,
4从同一个总体中可以抽取出许许多多不同的样本,每个样本计算出的样本统计量的值也是不同的.样本统计量也是随机变量,抽样分布则是样本统计量的取值范围及其概率.仍以工业企业为例,我们设计了一个抽样方案并确定了样本量,这时可能抽取的样本是众多的,每抽取一个样本就可以计算出一个企业平均销售收入,所有可能形成的分布就是抽样分布.例中,样本统计量为随机变量,抽样分布是的概率分布.研究概率分布对于抽样调查是十分重要的,因为只有知道概率分布,才能够利用抽样技术推断抽样误差.现实中,总体的分布状况通常是未知的,但我们也无需知道总体分布,而只需知道抽样分布.
4 2? 三大抽样分布分布、t分布和F分布
2?4.1 分布
4.1.1 简介
第7页(共33页)
抽样分布的研究
若n个相互独立的随机变量?1,?2,的随机变量,其
,?n,均服从标准正态分布(也称独立同分
ni?1布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和??i2构成一新
图1 卡方分布
分布规律称为?2分布(chi-square distribution),其中参数n称为自由度,自由度不同就是另一个?2分布,正如正态分布中均值或方差不同就是另一个正态分布一样
?5?.?2分布的密度函数比较复杂这里就不给出了,同学们也不用去记了.卡方分布
是由正态分布构造而成的一个新的分布,这也正反映了前面所说的正态分布的重要性.对于任意正整数k, 自由度为 k的卡方分布是一个随机变量X的机率分布. 4.1.2 特点
?2分布在一象限内,呈正偏态(右偏态),随着参数n的增大,?2分布趋近于正态分布.?2分布的均值为自由度n,记为D?2?n,这里符号“E”表示对随机变量求均值;?2分布的方差为2倍的自由度2n,记为D?2?2n,这里符号“D”表示对随机变量求方差.从?2分布的均值与方差可以看出,随着自由度n的增大,?2分布向正无穷方向延伸(因为均值n越来越大),分布曲线也越来越低阔(因为方差2n越来越大).?2分布具有可加性:若有K个服从?2分布且相互独立的随机变量,则它们之和仍是?2分布,新的?2分布的自由度为原来K个?2分布自由度之和.表示为:
?2分布是连续分布,但有些离散分布也服从?2分布,尤其在次数统计上非常广泛.
4.1.3 性质
(1)卡方分布密度曲线下的面积都是1;
第8页(共33页)
抽样分布的研究
(2)卡方值都是正值;
(3)卡方分布是一个正偏态分布;
(4)不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜. 4.1.4 概率表
?2分布不象正态分布那样将所有正态分布的查表都转化为标准正态分布去查,在?2分布中得对每个分布编制相应的概率值,这通过?2分布表中列出不同的自由度来表示,在?2分布表中还需要如标准正态分布表中给出不同p值一样,列出概率值,只不过这里的概率值是?2值以上?2分布曲线以下的概率.由于?2分布概率表中要列出很多?2分布的概率值,所以?2分布中所给出的p值就不象标准正态分布中那样给出了400个不同的p值,而只给出了有代表性的13个值,因此?2分布概率表的精度就更差,不过给出了常用的几个值,足够在实际中使用了.
查?2分布概率表时,按自由度及相应的概率去找到对应的?2值.如上图所示的单侧概率?20.05(7)=14.1?20.05?7??14.1的查表方法就是,在第一列找到自由度7这一行,在第一行中找到概率0.05这一列,行列的交叉处即是14.1.
表中所给值直接只能查单侧概率值,可以变化一下来查双侧概率值??.例如,要
6在自由度为章 7 的卡方分布中,得到双侧概率为0.05所对应的上下端点可以这样来考虑:双侧概率指的是在上端和下端各划出概率相等的一部分,两概率之和为给定的概率值,这里是0.05,因此实际上上端点以上的概率为0.05/2=0.025,用概率0.025查表得上端点的值为16,记为?20.05/2?7??16.下端点以下的概率也为0.025,因此可以用0.975查得下端点为1.69,记为?21?0.05/2?7??1.69.
当然也可以按自由度及?2值去查对应的概率值,不过这仅往往只能得到一个大概的结果,因为?2分布概率表的精度有限,只给了 13 个不同的概率值进行查表.例如,要在自由度为 18 的?2分布查找?2=30 对应的概率,则先在第一列找到自由度 18,然后看这一行可以发现与 30 接近的有28.9与31.5,它们所在的列是0.05与0.025,所以要查的概率值应于介于0.05与0.025之间,当然这是单侧概率值,它们的双侧概率值界于0.1与0.05之间.如果要更精确一些可以采用插值的方法得到,这在正态分布的查表中有介绍.
第9页(共33页)
抽样分布的研究
为什么从正态总体中抽取出的样本的方差服从?2分布
在抽样分布理论一节里讲到,从正态总体进行一次抽样就相当于独立同分布的n 个正态随机变量?1,?2,,?n的一次取值,将n个随机变量针对总体均值与方差进行
标准化得(i=1,…,n),显然每个都是服从标准正态分布的,因此按照?2分布的定义,应该服从参数为n的?2分布.
如果将中的总体均值 μ 用样本平均数 ξ 代替,即得,它是否也服从?2分布呢?理论上可以证明,它是服从?2分布的,但是参数不是n而是n?1了,究其原因在于它是n?1个独立同分布于标准正态分布的随机变量的平方和.
我们常常把一个式子中独立变量的个数称为这个式子的“自由度”,确定一个式子自由度的方法是:若式子包含有n个独立的随机变量,和由它们所构成的k个样本统计量,则这个表达式的自由度为n?k.比如中包含?1,?2,,?n这n个独立的随机变
量,同时还有它们的平均数 ξ 这一统计量,因此自由度为n?1. 4.1.5 定理的导出
定义1
?6? 设X1,X2,...,Xn独立同分布于标准正态分布N?0,1?,则称
2的分布是自由度为n的?2分布,记为?2??2?n?. ?2?X12???Xn?2分布可加性:如果X与Y独立且X????m?,Y??2?n?,则X?Y??2?m?n? 数学期望:E??2?n???n,方差:Var??2?n???2n
定理1 若X1,X2,Xm独立同服从标准正态分布N?0,1?,则称V??Xi2服从自
i?1m?m1?由度为m的?2分布,记为V??2?m?,则V?Ga?,?即V的密度函数为
?22? pV?x??1m?m?22?m?1?1xx2e2
?x?0? (1)
?2???证明:令Y?X12,先求Y的密度函数pY?y?. 因为
第10页(共33页)
抽样分布的研究
Y?X12?0 所以当y?0时,
F?y??0 Y当y?0时,
FY?y??P?X21?y?
?P??y?x1?y?
????y?1? 因此Y的分布函数为
???0??????????????????????????? FY?y????2??y??1??????????再对y求导,得Y的密度函数为
?0?????????????????????????????y?0?py???Y??????y?y??????????????y?0?? ????????????0?????????????????????????????y?0?????y?????e2?y????????????y?0? ??0??????????????????????????????y?0??1???????????????1?2????2???1?y??1??e?y2????????y?0???????2??所以
Y?X2??11?1?Ga?2,2??
同理
第11页(共33页) (2)?y?0??y?0? (3)(4)
抽样分布的研究
?11?Xi2?Ga?,????????????????i?2,....m?再由伽玛分布的可
?22?加性得
?m1?2 X12?...?Xm?Ga?,?
?22?即
?m1? V?Ga?,?
?22?所以V的密度函数为
(5)
7定理??2. 若X??2?m?,Y?N?0,1?且独立,则V?X?Y2服从?2?m?1?.证明:
由X??2?m?
由Y?N?0,1?得
Y2??2?1?
令Z?Y2得
?1???1?1?1z2pz?z????z2e2?1?????2?12
因为
V?X?Y2?X?Z 由卷积公式得
第12页(共33页)
抽样分布的研究
pV?v???????pX?v?z?pZ?z?dzm?1?21??mv?1??v?z?2??v?z?2e2 ?????????????0?m?????2?m?12?1???1?1?1z?2?z2e2dz ?1?????2?12?1?11??m?vv?1?2?????????????e2??v?z?2z2dz0?m??1????????2??2?令z?vt得
?1?1m?11??m1?1?v?12??222pV?v??ev?t?1?t?2dt
0?m??1????????2??2??1?1m?1???v2??1m?????????????e2v2??,?
?m??1??22????????2??2?m?12m?12?1?m?11???1?v2???v2e2 (v?0) (6)
?m?1?????2?所以
V??2?m?1? 定理3
?7?m?12. 设x1???xn是来自正态总体N????2n?1?s2??的样本,则2??2?n?1?.
?定理3表明:当正态分布的参数?2未知时,可以借助?2分布对其进行估计.
4.2 t 分布
第13页(共33页)
抽样分布的研究
关于t 分布的早期理论工作,是英国统计学家威廉?西利?戈塞特(WillamSealy Gosset)在1900年进行的. 应用在估计呈正态分布的母群体之平均数. t分布是小样本分布,t分布适用于当总体标准差R未知时用样本标准差s代替总体标准差R,由样本平均数推断总体平均数.它是对两个样本均值差异进行显著性测试的学生t检定的基础.学生t检定改进了Z检定,因为Z检定以母体标准差已知为前提.虽然在样本数量大(超过30个)时,可以应用Z检定来求得近似值,但Z检定用在小样本会产生很大的误差,因此必须改用学生t检定以求准确??. 8根据多变量分布函数的定义,这个概率等同于变量U和X在限制区域上的联合概率密度函数p(u, x)的双重积分,且积分区域为限制条件 u ≤ (x/n) 1/2. t下的区域,这个区域就是下图蓝色曲线以下的区域 图2 密度函数区域图 设随机变量X1与X2独立且X1~N?0,1?,X2~X2(n),则称t = x1x2n的分布为 自由度为n的t分布,记为t~t(n). 下面导出t分布的密度函数??.由标准正态密度函数的对称性知,X1与-X1有相9同分布,从而t与-t有相同分布.这意味着:对任意实数y有 P(0 < t < y) = P(0 < -t < y) = P(-y < t < 0), 于是 第14页(共33页)
抽样分布的研究
P(0 < t < y) = 1/2P(t2 < y2).
第15页(共33页)
三大抽样分布
X12 由F变量构造可知,t = ~F(1 , n),将上式两边关于y求导可得t分布的密X2n2度函数为 1?n?1??()???n?22pt(y) = ypF(y) = 1n??()????2?2?12?y??1?2?2?1????12??1?y??n?1?n?2y ?n?1?n?1???2y??22?????1? =,???y??? (7) ??n??n?nπ?????2?这就是自由度为n的t分布的密度函数。 t分布的密度函数图像是一个关于纵轴对称的分布,与标准正态分布的密度函数9形状类似,只是峰比标准正态分布低一些,尾部的概率比标准正态分布的大一些??. 定义2?? 设随机变量X1与X2独立且X1?N?0,1?,X2??2?n?,则称t?10X1X2n的分布是自由度为n的t分布,记为t?t?n?. 数学期望:??t?n????,方差:Var?t?n???11n n?2定理??4 若 X??2?m?,则t?Y?N?0,1?且独立,布,记为t?t?m?,则其概率密度函数为
Y服从自由度为m的t分Xm?m?1?m?1??22??z?2? (8) pt?z???1??m??m?m??????2???证明:(方法一)
首先由标准正态密度函数的对称性知,Y与?Y有相同的分布,从而t 与?t有相同的分布.则对任意实数z有
第 15 页 (共 27 页)
抽样分布的研究
于是
P?0?t?z??P?0??t?z??????????????????????P??z?t?0?
P?0?t?z??1P?t2?z2? 2由F变量构造可知
t2?Y21Xm?F?1,m?
则对上式关于z求导得
pt?z??p2F?z?z1??2?1?m????1??1 ???????????2??m?22?1?1??1?m22???1??m?z??1?z?z?2???m?????2?????m?1??m?1???????????2???1?z2??2m????m?m???2???由此可得定理结论. (方法二)
首先由X与Y相互独立知,?X,Y?的联合密度函数为
mp?x,y??1212m?mx?1e?2x1?1y2 (10)
22???2?e?2??根据变量变换法,令
U?YXm,V?X?Y2 则
第 16 页 (共 27 页)
(9) 三大抽样分布
?y?u??xm??v?x?y2??
其反函数为
mv?x???m?u2? ???y?umvmm?u2其变换的雅可比行列式为
J???u,v???x,y?
y?x??321??
2m??m??xm12y (11)
??mx?32?x?y2?则?U,V?的联合密度函数为
p?u,v??p?x?u,v?,y?u,v??1Jm3????????????1?mv?2?11?12?u2mvm?m?u2?x2m?e?12?mvm?u222???m??m?u2??2?em?x?y2??2?????m?1?m?1?1?2?m?1??m?1v2?11e?2v1u2??222???m?1??2??m????m????m? ??2??又由于U与V相互独立,所以
p?u,v??pV?v?pU?u?
由此可得定理结论.
第17 页 (共 27 页)
抽样分布的研究
由上述讨论过程可以看出,通过用两种方法推出统计学上t分布的概率密度函数,此方法独特新颖??.
12定理5
?13? 设x1?xn是来自正态总体N?????的样本,则
2nx??s???t?n?1?.
定理5表明:当正态分布的参数?未知时,可以借助t分布对其进行估计. 定理6?13? 设x1,,xm是来自N??1,?12?的样本,y1,,yn是来自N??2,?22?的样本,
且此两样本相互独立,当?12??22时,则有
?x?y????????t?m?n?2? (12)
12sw11?mn其中
sw?14?m?1?sx2??n?1?sy2m?n?21m1n22,s?(xi?x),???sy?(yi?y)2 ??m?1i?1n??i?12x定理??6表明:当两个独立正态分布总体的方差参数?2未知时,可以借助t分布估计两个正态总体的均值关系:
?1??2??,?1??2????1??2??.
4.3 F 分布
4.3.1 基本概念
F分布是1924年英国统计学家R.A.Fisher提出,并以其姓氏的第一个字母命名的??.
15 F分布定义为:设X、Y为两个独立的随机变量,X服从自由度为k1的卡方分布,Y服从自由度为k2的卡方分布,这2 个独立的卡方分布被各自的自由度除以后的比
第 18 页 (共 27 页)
三大抽样分布
率这一统计量的分布.即: 上式F服从第一自由度为k1,第二自由度为k2的F分布。 设随机变量X1与X2独立,则称F=X1/m的分布是自由度为m与n的F分布,记X2/n16为F~F(m,n),其中m称为分子的自由度,n称为分母的自由度??. 下面来分为两步来导出F分布的密度函数 第一步,我们导出Z=X1?2(m)?2的密度函数,若记p和(x)和p(x)分别为12X2(n)的密度函数,根据独立随机变量商的分布的密度函数的公式,Z的密度函数为 pz(z) = = ?z?0x2p1?zx2?p2?x2?dx2 m?12m?n2?m??n???????2?2??2???0xm?n?122ex?2?1?z?2dx2 (13) 运用变换u = x2?1?z?,可得 2pz?z? = zm?12?1?z??m?n2?m??n????????2??2???0um?n?1?u2edu, ?m?n?最后的定积分为伽玛函数???,从而 ?2??m?n????mm?n2?2?1??pz?z? = z?1?z?2,z?0. ?m??n????????2??2? 第二步,我们可以导出F=nZ的密度函数,设F的取值为y,对y?0,有 m?mpz?y? = pz??n?my? ?n
第 19 页 (共 27 页)
抽样分布的研究
?m?n?mm?n????1?2??m?2?m?2m= ? ?y??1?y?n?2?m??n?n??????????2??2??m?n??m??????2??n? = ??m??n????????2??2?m2m?n2 ym?12?m??1?y?n??? (14) 这就是自由度为m与n的F分布的密度函数。 当随机变量F~F(m,n)时,对给定?(0 < ? < 1),称满足概率等式 17P(F?F1???m,n?) = 1-?的F1???m,n?是自由度为m与n的F分布的1-?分位数??. 由F分布的构造知,若F~F(m,n),则有1F~F(n,m),故对给定?(0 < ? < 1), ? = P?从而 ??1?1?? ?F??n,m?? = P?F???F??n,m???F????1?P?F??? = 1-?, ??Fn,m???这说明 F??n,m??1 F1???n,m?对小的?,分位数F1???n,m?可以从附表5中查到,而分位数F??n,m?则可以通过上述公式得到 4.3.2 分布性质
F分布的性质
1、它是一种非对称分布;
2、它有两个自由度,即n1?1和n2?1,相应的分布记为F( n1?1,n2?1),通常
n1?1称为分子自由度, n2?1通常称为分母自由度;
第20 页 (共 27 页)
三大抽样分布在区间估计与假设
3、F分布是一个以自由度n1?1和n2?1为参数的分布族,不同的自由度决定了F 分布的形状.
5 三大抽样分布在区间估计与假设检验中的应用
三大抽样分布在区间估计中有广泛的应用.区间估计就是用一个区间去估计一个未知参数,即把未知参数值估计在某两个值之间.它包括两部分内容:一是这个区间范围的大小,二是总体样本落在这个区间范围内的概率.三大抽样分布在区间估计中的应用很广泛,譬如,对商品的质量进行估计、对某班学生的学习情况进行估计等.
正态总体N??,?2?是最常见的分布,下面本文将讨论它的两个参数的置信区间的计算问题.
例1. 假设轮胎的寿命服从正态分布.为估计某种轮胎的平均寿命,现随机地抽12只轮胎试用,测得它们的寿命(单位:万公里)如下:
4.68 4.85 4.32 4.85 4.61 5.02 5.02 4.60 4.58 4.72 4.38 4.70 试求平均寿命的0.95置信区间.
解: 由此正态总体标准差?未知,可采用t分布均值的置信区间. 由样本计算得
x?4.7092,s2?0.0615 (15) 这里有
n?12,??0.05 (16) 查表得
t0.975?11??2.2010 (17)
由于平均寿命?的1??置信区间为 ??x?t1??2?n?1?s
n,x?t1??2?n?1?sn?? (18)
第 21 页 (共 27 页)
抽样分布的研究
把(15)、(16)、(17)带入(18)得 ??4.7092?2.2010?0.061512,4.7092?2.2010?0.061512??
故平均寿命?的0.95置信区间为(单位:万公里) ?4.5516,4.8668?.
在一些实际问题中,人们感兴趣的有时仅仅是未知参数的一个下限或一个上限.譬如,对某种商品的平均寿命来说,人们希望它越大越好,因此人们关心的是它的0.95置信下限是多少,此下限标志了商品的质量.
例2. 有一大批奶粉,现从中随机地取16袋,称的重量(以克为单位)如下: 512 497 510 504 503 499 508 506 496 509 502 506 496 493 505 514
设奶粉的重量近似的服从正态分布,试求总体标准差?的置信水平为0.95的置信区间.
解: 由样本计算得
s?620215 (19)
这里
n?16,??0.05 (20)
又因为
22?0.975?15??27.4884,?0.025?15??6.2621 (21)
所以?2的0.95置信区间为
2222?n?1s?n?1,n?1s? ???????1??2?2?n?1?? (22) ?把(19)、(20)、(21)代入(22)得
22?15?62021527.4884,15?6202156.2621???
再两端开方,得标准差?的0.95置信区间为?4581558,9599013?.
第 22 页 (共 27 页)
三大抽样分布在区间估计与假设
三大抽样分布不仅在区间估计中有广泛的应用,而且在假设检验中也有广泛的应用.
假设检验是先对总体的未知参数或分布作出某种假设,然后根据样本来推断这个样本的真伪.三大抽样分布在假设检验中有广泛的应用,譬如,可以利用假设检验对商品是否满足规格进行检验,也可以利用假设检验中统计量拒绝域的计算表对原猜测进行验证等.
例3. 从甲地发送一个讯号到乙地.设乙地接受到的讯号值是一个服从正态分布
N??,0.22?的随机变量,其中?为甲地发送的真实讯号值.现甲地重复发送同一讯号5
次,乙地接收到的讯号值为
8.05 8.15 8.2 8.1 8.25
设接受方有理由猜测甲地发送的讯号值为8,问能否接受这猜测? 解:这是一个双侧假设检验的问题,总体X?N??,0.22?,原假设是
H0:??? 备择假设是
H1:??8 由于?已知,故采取u检验.则检验的拒绝域为
?u?u1??2?
若取??0.05,则查表得
u0.975?1.96
所以检验的拒绝域为
?u?1.96?
由样本计算得
x?8.15 (23)
第23 页 (共 27 页)
抽样分布的研究
又因为
?0?8,??0.2,n?5 (24)
把(23)、(24)带入u?x??0得 ?n u?所以
8.15?8?1.68
0.25 u?1.68?1.96
故不能拒绝原假设,即接受原假设,所以认为此猜测成立. u值未落入拒绝域内,
三大抽样分布在假设检验中的应用很广泛.譬如,对钢筋的长度是否符合要求、比较两台机床的加工精度有无差别、某天生产的钢板重量的方差是否符合要求等进行检验.
例4. 某厂生产的某种钢筋的长度服从正态分布,其均值设定为240cm.现从该厂抽取5件产品,测得其长度为(单位:cm)
239.7 239.6 239 240 239.2 试判断该厂此类钢筋的长度是否满足设定要求?
解: 这是一个关于正态均值的双侧假设检验问题.原假设是
H0:??240 备择假设是
H1:??240
由于?未知,故采取t检验,其拒绝域为
?t?t1??2?n?1??
若取??0.05,则查表得
t0.975?4??2.776 所以检验的拒绝域为
第 24 页 (共 27 页)
参考文献
?t?2.776? 由样本计算得
x?239.5,s?0.4 (25)
因为
?0?240,n?5 (26)
把(25)、(26)带入t?x??0得 sn239.5?240t???2.795
0.45所以 t?2.795?2.776
则t值落入拒绝域内,故拒绝原假设,认为该厂生产的钢筋的长度不满足设定要求.
由此可见,三大抽样分布是解决一些实际问题的工具,它给我们的生活带来了极大的方法.
参考文献
[1] 茆诗松,程依明,濮晓龙.概率论与数理统计教程[M].北京:高等教育出版社,2004: 269~343.
[2] 葛余博. 概率论与数理统计[M].北京:清华大学出版社,2005:178~280.
[3] 华东师范大学数学系.数学分析(下册)[M].北京:高等教育出版社,2001:190~194. [4] 曹炳元,阎国军.应用概率统计教程[M].北京:科学出版社,2005:118~224. [5] 魏立力,马江洪,颜荣芳.概率统计引论[M].北京:科学出版社,2012:144~215. [6] 徐兵,李彩荣,王志平.概率论与数理统计同步辅导[M].3版.大连:大连理工大学出 版社,2006:238~351.
[7] 宗序平,赵俊,陶伟.统计学上三大分布推导方法[J].数学的实践与认识,2009,39(7): 215~220.
[8] 张孔生,葛莉.F分布的几个性质[J].高等数学研究,2010,13(1):47~48. [9] 斯日古楞.t-分布收敛于标准正态分布的几种证明方法[J].内蒙古师大学报,2001, 30(4):303~306.
第 25 页 (共 27 页)
抽样分布的研究
[10] 许道云,秦永彬,刘长云.学习《概率论与数理统计》应该注意的若干问题(5)[J]. 铜仁学院学报,2011,13(5):128~135.
[11] 刘晓鹏,刘坤会.F分布密度函数之变化[J].数学物理学报,2007,27(2):331~342. [12] 复旦大学.概率论(第一册 概率论基础)[M].北京:人民教育出版社,1979:1~ 306.
[13] 杨振明.概率论 [M].第二版.北京:科学出版社,2004:1~153.
[14] Sheldon.M.Ross.概率论基础教程 [M].第七版.郑忠国,詹从赞 译.北京:人民 邮电出版社,2007:1~330.
[15] 威廉.费勒.概率论及其应用[M].第三版.胡迪鹤 译.北京:人民邮电出版社, 2006:1~216.
[16]张荣基,张树美.抽样分布定理的推广[J].河北科技大学学报,1999,20(04): 36~39.
[17]罗艳.对称连续分布样本绝对最大值的抽样分布[J].重庆师范学院学报(自然科学 版),1998,15(03):75~77.
第26 页 (共 27 页)
致谢
致谢
本论文是在赵天玉老师的指导下完成的,在完成过程中还得到了许多其他人的帮助和支持,值此论文完成之际,我由衷地感激所有给予我指导、关心、帮助和支持的老师、同学、朋友们.
首先,我要感谢我的指导老师赵天玉老师.从我论文开始的查阅文献、论文的选题、修改到最后的定稿,都得到了赵老师悉心的指导和无微不至的关怀.赵老师严谨的治学态度、敏锐的洞察力、认真负责的工作态度和诲人不倦的师长风范给我留下了深刻的印象,他教导我进行抽样分布的研究,指导我完成了这一篇毕业论文,帮助我在学习中不断提高分析问题和解决问题的能力,这些都将使我受益终生.
感谢信计学院的授课老师和与我一起学习的同学,没有他们的谆谆教诲和热心帮助,我不可能顺利地完成本次毕业论文设计.
最后,我还要感谢在百忙之中参加我的论文答辩的各位老师!
第 27 页 (共 27 页)
正在阅读:
抽样分布的研究04-28
大学物理演示实验小论文12-07
初高中衔接教材含答案11-22
初三体育中考训练计划(精选5篇)03-27
2014年闪存读卡器行业市场前景分析报告09-07
项目经营承包条例及实施细则2012年06-12
《单片机技术》实验(2012级自动化1201~02、电气1201~02)教案04-13
再热器01-10
我的魔方作文350字06-22
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 抽样
- 分布
- 研究