第五章 统计估计和假设检验

更新时间:2023-11-10 10:50:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第五章 统计估计和假设检验

统计学的基本问题就是根据样本所提供的信息对总体的分布以及分布的数字特征作出统计推断。统计推断包括两大部分:一是统计估计,二是假设检验。

统计估计问题就是根据样本的数字特征来估计总体参数的数字特征,因此通常也称作参数估计。参数估计根据所得出结论的方式不同有两种形式:点估计和区间估计。

假设检验就是对关于总体分布的一些数字特征或分布函数所做的假设进行检验,以判断其正确性。假设检验也分为两类:一类是对总体分布的一些数字特征进行检验,称为参数假设检验;另一类是要求根据样本所提供的信息对关于分布函数的假设进行检验,此时只检验分布,而不对参数作检验,这称作非参数的假设检验。非参数检验将在第六章进行讨论,本章着重讨论参数检验。

第一节 点估计

一、点估计的极大似然法

点估计就是以单个数据对总体参数值作出估计。若未知的总体参数为,这

时是一个未知的常数。我们根据抽样样本的观察值构造一个统计量

(x1,x2,?,xn)来估计总体参数。由于抽样的随机性,统计量是一个随机变量。点估计就是将的具体值作为的估计值。显然,这样做必然会有误差产生。这种误差就称为抽样误差。

极大似然法是一种对参数点估计的重要方法之一。我们先用一个例子说明其原理。

例5-1。设有一批产品,质量上分为正品与次品。产品的次品率有两种估计:0.1和0.4,今随机抽样15件产品,发现只有一件是次品。现根据这一抽样情况,来决定用哪一种次品率来估计更为可靠呢?

记 A =“抽取15件产品,只有一件是次品”,设抽得正品用X=0,抽得次品用X=1来表示。

63

抽样结果只有 X=0 与 X=1 两种情形,于是,可得事件 A发生的概率为:

P(A)= 其中:是这批产品的次品率。

若次品率=0.1,则P(A)=?0.9?×0.1=0.0229 

14 若次品率=0.4,则P(A)=?0.6?×0.4=0.0003。

14 现在事件A 既然在一次观察中就发生了,直观地我们可以认为事件A发生的概率P(A)不会小,故应选择使P(A)较大的次品率作为产品的次品率的估计更为可靠些。 由于0.0229>0.0003,故应选择0.1作为产品的次品率比选择0.4更可靠些。

把上例推广到一般的情形,我们就可以得到极大似然法的一般原理。设x1,x2,?,xn是取

自密度函数为f(x, )的总体的一组样本。其中:x和都为参数,的极大似然估计的基本思路是,若记A =“一次观察中,所得一组样

本的样本值为(x1,x2,?,xn )”。现在在一次观察中A发生了,即P(A)应尽可能地大,即应在待估计。?所有可能取值的集合中选出一个使P(A)达到最大值的作为 64

的估计值。此时的又称为的极大似然估计值。由于x1,x2,?,xn

相互独立,且都与X具有相同的分布,由此可以得到,P(A)就相当于事件:

X1?x1,X2?x2,?,Xn?xn 同时发生的概率,也就是P(A)=,记为

L()=L(), 于是有:

L()= L(?)称为?的似然函数。求极大似然值的问题就是求似然函数L()的最大

值问题,根据微分学的结果,L(?)取到最大值的必要条件是它对的导数为零。因为ln L(?)与L(?)取得极大值的?点相同,为计算方便,我们通常就用对数似然方程来求解最大似然估计值。

在我们上述例子中,f(1, ?)=?,f(0,?)=1-?,于是得到似然函数:

L(

)=?f?xi,????1?????

14i?11565

dL?????1=0.067。 =0,舍去??=1,得?的最大似然估计值?d?15??1正是在15次抽样中得到一次次品的频率,用频率估计概率,当n充分大 实际上,?15令

时无疑是合理的。

例5-2。从一个正态总体中抽取容量为n的样本,求总体参数?及?2的极大似然估计。 解:构造似然函数

?1 ????2??? lnL????1???exp?2???2?n2??xi????

??n1ln2??n?ln??22?22 ??x???i 为了求和,使ln的极大,令

解上述方程得到: 所以得到和的极大似然估计量为:

?2???x, ? ?1?xi?xn??22?Sn

66

二、估计量好坏的评选标准

前面讨论了如何利用极大似然法来求参数的估计量。但对于同一个参数可以用不同的方法来求其估计量,于是,在参数估计中就存在怎样选择一个比较好的统计量来推断总体参数的理论问题。那么,什么样的估计量是好的估计量呢。这就有一个如何对估计进行评价的问题。请看下面一个例子。

例5-3。假如某一建设单位购进了一批建筑用的线材,就需要了解这批线材的平均抗拉强度是多少。现在要通过抽样,选择样本的某个函数(统计量)来推断总体指标值。由于随机原因,每次抽取样本的测量结果是不同的。如果样本容量为3,抽取4组样本,测得结果如表5-1所示。

表5-1 一组抽样样本的观察值 样本值 样本顺序 均值 x1 x3 1 2 3 4 900 995 1010 950 999 1050 941 910 1011 1105 890 1140 970 1065 947 1000

为了说明的方便起见,我们假定,实际上μ=1000公斤,当然这在事先是不知道的。我们要求利用样本信息来推断总体指标,并使其误差最小。第一组样本的中位数最接近总体指标,第二组样本是最小值最接近总体指标,第三组样本是最大值最接近总体指标,第四组样本是均值刚好等于总体指标。于是就产生了一个问题,在大量的实验中,究竟采用哪一个指标来推断总体指标更合理呢?

评价点估计的结果通常有无偏性、有效性和一致性等标准。 1. 无偏性

无偏性的含义是个别样本由于随机原因可能偏大或偏小,然而一个好的估计量从平均上看应该等于所估计的那个指标,其直观意义是估计量的值应在参数的真值周围摆动而无系统误差。一般地,无偏性的定义为:设?为被估计参数,若有估计量

?-?=b,则称b为估计量??的偏差。若b≠0,则称??为?的有偏估计量。如果 若E?linb?0,则称??为?的渐近无偏估计量。

n?????=?,则称??为?的无偏估计量。 (x1,x2,?,xn ),对一切n,有E??? 不论是重复抽样或不重复抽样,也不论样本容量大小,样本均值及样本比例都是总体均

??P,但样本方差S2并不是总体方差?2的无值和总体比例的无偏估计,即EX??,EPn2偏估计量。这是因为如果我们把Sn定义为

???? 67

本文来源:https://www.bwwdw.com/article/ffzv.html

Top