参数估计基础

更新时间:2024-01-08 00:09:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

参数估计基础

抽样研究的目的是用样本信息推断总体特征,即用样本资料计算的统计指标推断总体参数 常用的统计推断方法有参数估计(总体均数和总体概率的估计)和假设检验

内容复习

第6章 总体均数估计

抽样分布与抽样误差 t分布 总体均数及总体概率的估计 案例讨论

掌握:均数和率抽样误差的概念;均数和率标准误的意义和计算;总体均数和总体率区间估计的意义、计算及其适用条件。

熟悉:总体均数的点估计;t 0.05,(ν)的概念,标准误和标准差的区别;置信区间与医学参考值范围的区别。 复习一些概念

参数(parameter)与统计量(statistics)

参数获取的途径对总体进行研究抽样研究 抽样误差(sampling error)

1.抽样误差的概念:由个体变异产生的,随机抽样引起的样本统计量与总体参数间的差异。 (抽样误差=总

体参数-样本统计量) 2.抽样误差产生的原因:

3.抽样误差的特点:随机,不可避免,有规律可循。

4.在大量重复抽样的情况下,可以展示其规律性

第一节 抽样分布与抽样误差 一、 均数的抽样分布与抽样误差 二、 频率的抽样分布与抽样误差

(一) 样本均数的抽样分布

1. 抽样模拟实验

假定总体:某年某地13岁女学生身高值 X~N(155.4,5.3) 随机抽样:n=30,K=100

将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制直方图。

2. 样本均数的抽样分布特点 ? ? ? ?

各样本均数未必等于总体均数; 样本均数之间存在差异;

样本均数的分布规律:围绕着总体均数155.4cm,中间多,两边少,左右基本对称,服从正态分布;

样本均数的变异较原变量的变异减小。

3. 抽样误差

1) 2)

概念:由于抽样造成的样本统计量与统计量以及样本统计量与总体参数之间的差异叫作抽样误差。

抽样误差产生的基本条件 ? 抽样研究 ? 个体差异

3)表现形式

? 样本统计量与样本统计量之间的差异 ? 样本统计量与总体参数之间的差异

(二) 均数的抽样误差

1.概念:由个体变异产生的,随机抽样引起的样本均数与总体均数间的差异。 (均数的抽样误差=总体均数-样本均数) 2.表现形式:

? 样本均数与总体均数间存在差异 ? 样本均数与样本均数间存在差异

? 均数的抽样误差可表现为样本均数与总体均数的差值 ? 均数的抽样误差也可表现为多个样本均数间的离散程度

如何度量抽样误差的大小?如何揭示抽样分布的规律? 中心极限定理为我们提供解决办法:

3.中心极限定理(central limit theorem)

从均数为?、标准差为?的总体中独立随机抽样,当样本含量 n 增加时,样本均数的分布将趋于正态分布,此

?X分布的均数为?,标准差为

4.标准误(standard error,SE)

? 样本统计量的标准差称为标准误,用来衡量抽样误差的大小。

? 样本均数的标准差称为标准误。此标准误与个体变异? 成正比,与样本含量n 的平方根成反比。

5.均数的标准误 (standard error)

(1)概念:将样本均数的标准差称为均数的标准误, 它是描述均数抽样误差大小的指标 (2)计算:

?X??n实际工作中,? 往往是未知的,一般可用样本标准差s代替? : SX

(3)统计学意义

?Sn 均数的标准误越大,样本均数的分布越分散,样本均数离总体均数就越远,样本均数与总体均数的差别越大,抽样误差越大;抽样误差越大,由样本均数估计总体均数的可靠性越差。反之,亦然。 (4)影响抽样误差大小的因素

? 标准差 ? 样本含量n 实际工作中,可通过适当增加样本含量n来减少均数的标准误,从而降低抽样误差

3个抽样实验结果图示

450400350300250200150100500频数均数n?5;SX?0.22123.713.924.124.334.544.744.955.155.365.575.775.986.19

450400350300250200150100500

频数均数n?10;SX?0.15803.713.924.124.334.544.744.955.155.365.575.775.986.19

450400350300频数250200150100500均数n?30;SX?0.0920924.12337436777154955.15.55.93.4.4.5.5.6.3.4.4.19578

6 .总体分布非正态分布时,样本均数的分布规律中心极限定理表明,即使从非正态总体中随机抽样,只

要样本含量足够大,样本均数的分布也趋于正态分布. ? ? ? ?

样本均数的总体均数仍等于μ;

样本均数的标准误仍满足均数标准误的计算式; 当n较小时,样本均数的分布是偏态的;

当n足够大(n≥50)样本均数的分布近似正态分布

7. 非正态总体样本均数的抽样实验 下图是一个正偏峰的分布,

用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图

2,5002,000Frequency1,500Mean = 0.9922Std. Dev. = 1.01146N = 10,0001,00050000.002.505.007.5010.0012.50 600500Mean = 0.9993Std. Dev. = 0.44341N = 10,000400Frequency30020010000.001.002.003.004.00n=5 700600500FrequencyMean = 0.9988Std. Dev. = 0.31365N = 10,00040030020010000.000.501.001.502.002.503.00n=10 700600Mean = 0.999Std. Dev. = 0.14125N = 10,000500Frequency40030020010000.500.751.001.251.501.75n=50

?

影响抽样误差大小的因素有:

⑴样本标准差。S越大, 也就越大。

⑵样本含量。n 越大,抽样误差越小。

因此如在一定标准差条件下,加大样本含量,可减少抽样误差,以保证的样本均数的代表性和可靠性。 8. 例6-1 2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白量的均数为125 g /L,标准差为

15 g /L。试估计该样本均数的抽样误差。

= s/X

二.样本频率的抽样分布与抽样误差

sn=

15/27= 2.89g/L

例1. 在一口袋内装有形状、重量完全相同的黑球和白球,已知黑球比例为20%(总体概率π=20%),

从口袋中每摸一次看清颜色后放回去,搅匀后再摸,重复摸球35次(n=35), 计算摸到黑球的百分比(样本频率p i)。重复这样的实验100次,每次得到100个黑球的比例分别为14.4%, 19.8%, 20.2%, 22.5%,······等,将其频数分布列于表6-3。

? ?

频率的抽样误差:这种样本率样本频率与样本率样本频率之间、样本率样本频率与总体率总体概率之间的差异。

频率的标准误:表示频率的抽样误差的指标

X? 的总体均数参数为π, 样本频率 p

率的标准误计算公式

公式

n?p???1???np(1?p)nSp?p(1?p)?n?1例2 某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试估

计该样本频率的抽样误差。

p = 41.5% = 0.415,n = 776

sp? p(1?p)n=

0.415?0.585776?0.0177?1.77%思考题: ? ? ? ? 区别

意义 计算 什么是抽样误差?决定抽样误差大小的因素有哪些? 抽样误差能避免么?抽样误差有规律么? 标准误和标准差有何区别与联系? 标准误和标准差有何区别与联系

s 描述原始数据的离散程度, 衡量均数对原始数据的代表性 直接法、加权法 sXsn

反映抽样误差的大小, 衡量样本均数估计总体均数的可靠性 sX? 与均数的关系 s越小,X对样本数据的代表性好 与n的关系 应用 n →∞,s →? 表示观察值波动的大小 用于计算变异系数 计算标准误 sX越小,X估计?的可靠性大 n →∞,sX→ 0 表示抽样误差的大小 用于均数的假设检验 结合样本均数和正态分布的规律,估计参考值结合样本均数和正态分布的规律,估计参范围 数的可信区间 第二节 t分布

一、 t分布的概念

1. t分布

X设从正态分布N(?,?2)中随机抽取含量为n 的样本,样本均数和标准差分别为 和s,设:

t?X??X???sXsn则t 值服从自由度为n-1的t分布(t-distribution)。Gosset于1908年在《生物统计》杂志上发表该论文时用的是笔名“Student”,故t分布又称Student t分布。

2. t值与t分布

学习t 分布的意义 ? ?

从前述实验的13岁女学生身高这个正态总体中分别作样本量为 3和50的随机抽样,各抽取1000份样本,并分别得到1000个样本均数及其标准误。对它们分别作t变换,并将t值绘制相应的直方图,可得到t值分布曲线图

事实上,任何一个样本统计量均有其分布的特点和规律。统计量的抽样分布规律是进行统计推断的理论基础。

t 分布是十分有用的,它是总体均数的区间估计和假设检验的理论基础。

二、t分布的特征 1. t分布

t值的分布与自由度? 有关(实际是样本含量n不同)。t 分布的图形不是一条曲线,而是一簇曲线。

2. t分布的特征 ? ? ?

t分布为一簇单峰分布曲线 t分布以0为中心,左右对称

t 分布只有一个特征参数,即为自由度(υ)。 t分布与自由度?有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高,;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。

3. t 分布曲线下的面积规律 ? ? ?

同标准正态分布一样,统计应用中最关心的是t 分布曲线下的尾部面积(即概率)与横轴t 值间的关系。

每一自由度下的t分布曲线都有其自身分布规律

t界值表 (t critical value) 统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不

同自由度 ? 下的t界值表(附表2)

横标目为自由度(υ=n-1)

纵标目为概率P(即曲线下尾部阴影部分面积) 表中的数字为相应的t界值(t≥0)

单侧概率(one-tailed probability)所对应的t界值记为tα

双侧概率(two-tailed probability )所对应的t界值记为tα

/2 ,ν

更一般的表示方法如图5-4(a)和(b)中阴影部分所示为: 单侧:P(t ? ?t?, ?)=? 和 P(t ? t?, ?)=? 双侧:P(t ? ?t?/2, ?)+P(t ? t?/2, ?)=?

不同自由度下的t界值表:附表2 查t0 .0 5,16 =1.746(单侧)

P(t≥1.746)=0.05或P(t≤-1.746)=0.05 查t0.05/2 ,16 =1.746(双侧)

P(t≥1.746)+P(t≤-1.746)=0.05 或 P(-1.746

t分布曲线的两端尾部面积表示在随机抽样中获得的等于及大于某|t|值(界值)的概率,即P值。

三.t界值表 (t critical value) 1. t界值表的特点

? 同一自由度下,t值越大则P值越小; ? P值相同时,υ越大,则t值越小;

? 在相同的t值时,双侧概率为单侧概率的两倍

即t 0.10/2,16 = t 0.05,16 =1.746 υ → ∞时,t界值为Z界值

2. t界值表的用途

? ? ?

已知υ和P(α),可查到相应的t界值; 已知υ和t界值,可确定单侧或双侧概率P 进行总体均数估计和均数的假设检验

第三节 总体均数及总体概率的估计 ? ?

抽样研究:从总体到样本 实际工作:由样本推断总体

? 统计推断(statistical inference)就是根据样本所提供的信息,以一定的概率推断总体的性质。 (一)总体均数估计

参数估计(parameter estimation)的概念 :用样本统计量估计总体参数 方法

? 点估计(point estimation)

? 区间估计(interval estimation)

1、点估计

? 直接用样本统计量作为总体参数的估计值 ? ?

方法简单,但未考虑抽样误差的大小

在实际问题中,总体参数往往是未知的,但它们是固定的值,并不是随机变量值。而样本统计量随样本的不同而不同,属随机的。

2、区间估计

按一定的概率或可信度(1-? ),用一个区间估计总体参数所在范围,这个范围称作可信度为1- ?的可信区间(confidence interval, CI ),又称置信区间 。这种估计方法称为区间估计。 通常用样本均数和均数的标准误估计总体均数的95%(或99%)置信区间 总体均数置信区间的计算需考虑:

(2) 总体标准差?是否已知,

(2)样本含量n的大小 通常有两类方法(1)t分布法—— ? 未知 (2)正态近似法—— ? 已知

? 未知但n 足够大

本文来源:https://www.bwwdw.com/article/so3x.html

Top