概率分布统计学复习资料

更新时间:2024-06-27 02:34:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

样本的自由度为什么是n-1?

新编统计学教程,袁卫等,经济科学出版社1999。P64

总体方差的计算公式,σ2表示总体方差,X表示总体均值,也可用μ表示。样本方差的计算公式,S2表示样本方差,x是样本均值,n表示样本容量,n-1称为自由度(Degree of Freedom)。

为什么样本方差S2的n个离差的平方和不除以n反而要除以n-1呢?也就是样本方差的自由度为什么取n-l呢?这可以从两个方面理解或加以说明。

首先,自由度是不受任何约束,可以自由变动的变量的个数。是反映分布或数据差异信息的个数,即(xi-x)误差的个数。例如,当n=1时,即xi只有一个数值时,由于xl=x,(xl-x)=0,它说明数据与均值没有差异,即表示差异的信息个数为1-l=0;当n=2时,x就是xl和x2的中值,则(xl-x)和(x2-x)的绝对值相等,只是符号相反。这两个误差只表示一个误差。即xl和x2与x相差|xl-x|,即差异的个数为2-1=1;当n=3时,假设xl =1,x2=2,x3=6,则x=3。这时,表面看来误差有3个,即

(1-3)=-2,(2-3)=-1,6-3=3

但实际上告诉给我们的误差信息只有2个,因为数据比均值小的误差绝对值和数据比均值大的误差绝对值是相等的。只要我们知道其中两个误差信息就等于知道了第三个误差。如我们知道一个数据比均值小2,一个数据比均值小1,则我们必知第三个数据比均值大3。所以当n=3时,误差的信息个数只有3-1=2;当n=4,n=5,?时,其数据与样本均值的误差信息都要少一个,即n-1。这也就是为什么要用n-l作为方差的分母,即分子∑(xi-x)2只有n-1个对我们有用的误差信息,所以用n-1作分母才是真正的平均。

其次,我们还可以将自由度n-1理解为n个数据中在样本均值x确定后只有n-1个数据可以自由取值,而第n个一定不能自由取值,这也正是自由度的字面解释。例如xl =1,x2=2,x3=6,则有x=3。当x=3确定后,在xl ,x2,x3中有两个数据可以随意取值,如x1=-100,x2=200,则x3不能随意自由地取值,而只能取

=n×x-xl-x2=3×3-(-100)-(200)=-91 当n=4,n=5,?时,道理都是一样的。

以上是对自由度的两种直观解释。实际上我们还可以从离差平方和上来判断,即∑(-x)2中第一项xi 的取值有n个,而第二项均值x是xl ,x2?xn的一个线性组合,那么就应从自由取值的n个数中减去1个线性组合。如果后一项是xl ,x2?xn的两个线性组合,就从n中减去2个,即自由度取n-2。例如在计算回?i)2=∑(yi-a-bxi)2,第一项有n个数据时,第二项y?i=a+bxi是由两个归方程中计算回归标准误差时,∑(yi-y?i=a+bxi+cxi2则∑(yi-y?i)2的自由线性回归系数a和b决定,则分母应该取(n-2),即自由度为(n-2)。如果y度应该取(n-3)。

?(x?X)2?(x?X)2从结果看,是总体方差的无偏、一致、有效估计量(通俗地说,是最准确、最稳定的),n?1n则不是

p149自由度是不受任何约束,可以自由变动的变量的个数。一共有n个样本,有n个自由度。用样本方差S2估计方差σ2。自由度本应为n,但总体均值也未知,用样本均值去估计之,这使中的n个变量值之间产生了一个约束条件?ni?1?xi?x?0,用掉了一个自由度,故只剩下n-1个自由度。

?一个例子:

用刀剖柚子,在北极点割3刀,得6个角。这6个角可视为3对。6个角的平均角度一定是60度。其中半边3个角中,只会有2个可以自由选择,一旦2个数值确定第3个角也会唯一地确定。在总和已知的情况下,切分角的个数比能够自由切分的个数大1。

概率分布

重要的离散型概率分布

1二点分布

也叫0-1分布、伯努利分布、伯努利试验

x?1?pf(x)?? (p+q=1) 记作 X~(0,1) x?0q?E(X)=p Var(X)=pq

2二项分布(binomial distribution)

二项试验(Bernoulli experiment) 试验由连续n个相同的子试验组成 每次子试验都只有2种可能结果 二种结果的概率可表示为p和q(q=1-p) 子实验是相互独立的

进行n重Bernoulli experiment,得到二项分布 概率分布为f(x)=Cnmpmqn-m m=0,1,2,…n 记作 X~B(n,p)

P=0.5时,分布是对称的,否则不对称,但n越来越大时,不对称性逐渐不明显

E(X)=np Var(X)=npq

【例1】某保险公司有2500个同龄同社会阶层的人参加了寿命保险,已知这批人年死亡率0.002,每人交保险费¥12,如果死亡获赔¥2000。问:⑴保险公司亏本的概率?⑵保险公司获利不少于¥10000的概率? 解:⑴X>15时(12*2500=15*2000),保险公司亏本 ? P(X>15)=1-P(X≤15)

? =1-∑C2500m(0.002)m(1-0.002)2500-m ? =0.000069 m=0 ~15 ? ⑵把问题化为求死亡人数的概率 ? 12*2500-2000X≥10000→X≤10

? P(X≤10)=∑C2500m(0.002)m(1-0.002)2500-m ? =0. 9863 m=0 ~10 【例2】有若干台机器独立工作,每台机器发生故障的概率为0.01,且一旦发生故障必须专门安排一人进行维修,求在下列情况下的概率:⑴一人负责15台;⑵三人负责80台。

解:⑴X表示同一时刻机器发生故障的台数,那么,X~B(n,p),n=15, p=0.01,即X~B(15,0.01)

mP(X>1)=1-P(X≤1)= 1-?C15(0.01)m(1?0.01)15?m

m?01 =1-1*0.010*0.9915+15*0.011*0.9914 =1-(0.86+0.13)=0.01

⑵X表示80台机器中同一时刻发生故障的台数,则X~B(n,p),n=80, p=0.01,即X~B(80,0.01)。只有当X≥4时,机器出现故障而不能得到及时维修,其概率为:

mP(X>≥4)= ?C80(0.01)m(1?0.01)80?m=0.0091

m?480【例3】一个实例:泰康保险的“非典专项险”

100博50000(住院每天100元,最多100天,另有2000元“抗非典慰问金”,死亡赔50000)。条件:获得“非典”或因此死亡 需要考虑的问题:患病概率,死亡率,住院天数,宣传费用

设:患病概率2000/1000万=万分之二,平均住院天数50天,2000人患病中死亡80人(死亡概率80/1000万),宣传费用10万 每患病一人,赔偿2000+100*50=7000 死亡一人,2000+100*50+50000=57000 卖掉1份给推销员20,泰康保险得80 卖掉多少份会保本?

患病概率*患病赔偿额=2*7000/10000=1.4元 死亡概率*死亡赔偿额=80/1000万*57000=0.456元 则每份的赔偿期望为1.4+0.456=2元,赚78元

患病概率2/10000,每人交100,患病则获赔7000,现有5000人买了保险,求赔本概率。

【例3】生日问题(引自约翰·黑格《机会的数学原理》吉林人民出版社2001年版)

有一群人,总数为N,为了使其中至少有两个人生日相同的概率大于二分之一, N至少是多少?这个问题与这群人是如何选择的有关。假如有一群双生子在接受心理试验,你闯进去把这群人作为调查对象,你会发现有两个以上的人生日相同的概率极高。在本题中,我们假设这群人是随机选择的,每个人的生日是一年中的任何一天的概率相同。

有很多因素会影响我们的结论。夏天出生的人比冬天出生的人多。闰年的2月有29天。如果把这些因素都考虑进去,问题会变得非常复杂。数学家常用的策略是尽量简化问题。我们首先考虑最简单的情况:假设一年只有365天,不考虑闰年的存在,而且每天产生的人一样多。在我们解决这个比较简单的问题以后,再把其它的因素考虑进去。

我们先计算任何两个人的生日都不同的概率。算出这个概率之后,只要用1减去这个概率就得到至少有两个人生日相同的概率。

当N=2时,这群人只包括两个人。第二个人的生日是365天中的一天,为了使第二个人的生日与第一个人不同,他的生日可以是364天中的任何一天。因此,这个两个人的生日不同的概率是364/365。

当N=3时,前两个人的生日不同的概率是364/365。为了使第三个人的生日与前两个人不同,他的生日可以是363天中的一天。因此,这三个人的生日各不相同的概率是 (364/365)×(363/365)

类似地,当N=4时,这四个人的生日各不相同的概率是 (364/365) ×(363/365) ×(362/365) 当N=5时,这五个人的生日各不相同的概率是

(364/365) ×(363/365) ×(362/365) ×(361/365)

为了得到N=6、7时的结果,只需把这个乘以360/365,359/365,以此类推。

为了便于表达,我们用一个简单的表达式(364)4来表示364×363×362×361。这样,N=5时的结果就可以表示为 (364)4/3654

对于任意的N,这N个人的生日各不相同的概率是 (364)N-1/365N-1

当N比较小时,这个值接近于1。随着N的增加,这个值递增。当N达到366时,这个值等于0。于是,我们最初的问题变为“当N达到多大时,(364)N-1/365N-1小于50%”。

你认为答案应该是多少?除非以前见过这个问题,多数人会把答案估计得很高。很多人选择183,因为这个数刚好大于365的一半。很少有人选择40以下的数。正确的答案是23。

当N=22时,(364)N/365N约等于0.5243;当 N=23时,(364)N/365N约等于0.4927。所以答案是23。如果这个结论让你吃惊,我可以提供另外一个分析思路。

任何两个人生日相同的概率是1/365。在23个人中任意取出两个,一个有23C2=253种取法。因此,23个人中有两个人生日相同的概率大致在253×(1/365)=253/365附近。在我们的计算过程中,有些情况被重复计算,比如A和B的生日相同, B和C的生日相同,则B和C的生日一定也相同,这种情况被计算的次数不止1次。所以,最后的结果要比253/365小一些。无论如何,我想向你说明的是:当人数达到23时,至少有两个人生日相同的概率已经相当大了。至少比一般人估计的大得多。 现在我们可以把一些复杂的因素考虑进来。事实上,每天出生的人数是不同的。这个事实会对我们的结论产生什么影响?一个很重要的原则是:当每个人的生日在365天中的分布不均匀时,至少有两个人生日相同的概率上升。要证明这个结论不像想象中的那么复杂。

3负二项分布(帕斯卡分布)

NEGBINOMDIST(number_f,number_s,probability_s)

【例3】实际问题:一个市场调查员需要完成500份问卷调查,随机遇到的行人有3/10愿意回答,每遇到一个人需要6分钟(即经过他身边的人流速度为每6分钟一人),问他完成500份问卷工作需多少时间?

每60分钟会遇到10人,其中3人回答,完成500份,则需要500/3个60分钟,即167个1小时。这样算对吗?

考虑一个试验,结果只有2种可能性,出现某一结果的概率为p,不出现的概率为q。现在一直进行试验,直到这个结果出现r次为止。X表示实验共需进行的次数,问X在不同值时的概率。

遇到行人,回答与不回答,回答概率0.3,需要有500个回答,即“直到回答的人达到500次为止”。 这可以用负二项分布来刻画。 X是随机变量,其概率分布为:

?1rk?rf(x)=Ckr? k=r, r+1, r+2, ?? 1pq记作 X~NB(r,p) E(X)=rq/p; Var(X)=rq/p2

则上面的实际问题中,X是需要访问的人数,X~NB(500,0.3) E(X)=rq/p=500*(1-0.3)/0.3=1167

即完成500份要找到1167人,如果以每人6分钟计算,共需要6*1167分钟,即116.7小时。

【例4】估计产品的废品率。按顺序一个一个地抽取样品并逐个检验,直到累计到r个废品为止,此时已抽取了n个,推算废品率。

X表示抽取的产品数,则X服从NB(r,p)。废品率的估计p’=(r-1)/(n-1) r和n之后减去1是因为从总体中抽取样本时,自由度是n-1。

4多项分布

二项分布描述的是试验结果只有二种情况,且每个试验结果都对应着同样概率的随机现象。多项分布是二项分布的推广,适应于实验结果有k个可能的随机试验。

【例5】某空调商店的经验:进入商店有20%的人买分体式空调,8%买窗式空调,其余人什么也不买。假如一天上午有10位顾客来,求能卖出3台分体式空调和1台窗式空调的概率。

顾客行为有3种可能:买分体式空调、买窗式空调、什么也不买(3种可能互相排斥),各有已知概率,且概率之和为1,一共来了n位顾客。 理论假定:第一,实验结果有k 个可能,且互相排斥。第二,每个结果X1, X2, ?, Xk对应于一个固定的概率p1,p2, ?,pk,且∑pi=1。第三,进行n次独立试验,各个结果出现的次数分别是n1, n2, ?, nk,其中n=∑ni。 多项分布的概率函数是

n!nkn1n2p1p2?pk?f(x1,x2,?,xk)=n1!n2!?nk!n!?ni!i?1k??i?1knipi

【例5】解:令X1, X2, X3分别表示买分体式空调、买窗式空调、什么也不买的人数,相应的概率各自为p1,p2, p3,则所求概率

10!?0.23?0.081?0.726=0.075 P(X1=3, X2=1, X3=6)=3!1!6!如果问:能卖掉任意4台空调的概率,会有5种情况,且各自独立,其概率为五种情况概率的总和。

买分体式空买窗式空不买计算方法 调X1 P=0.2 0 1 2 3 4 合计 调X2 P=0.08 4 3 2 1 0 X3 P=0.72 6 6 6 6 6 10!?0.20?0.084?0.726 0!4!6!10!?0.21?0.083?0.726 1!3!6!概率 0.001198 0.011983 0.044937 0.074895 0.04681 0.179823 10!?0.22?0.082?0.726 2!2!6!10!?0.23?0.081?0.726 3!1!6!10!?0.23?0.081?0.726 3!1!6! 来10个人,能卖掉任意4台空调的概率是0.18

【例6】一批产品中已知合格品(X1)占11/18,次品(X2)占2/9,废品(X3)占1/6,随机抽6件,问抽到3件合格品、2次品和1废品的概率。 n=6, n1=3, n2=2, n3=1

11??2??1?P(X1=6, X2=2, X3=1)=6!??????????3!2!1!?18??9??6?316=0.1127

5几何分布

在一个伯努利试验中,A事件出现的概率为p,现在一个一个地试验,直到A事件出现为止,需要做X次试验,X服从几何分布。 f(x)=qk-1p k=1,2…. p+q=1 记作 X~G(p) E(X)=1/p; Var(X)=q/p2

【例7】需要AB型血,献血者中有2%能提供合格血,平均抽多少人才能取得AB型血?

E(X)=1/p=1/0.02=50

【例8】路上有4盏交通灯,红绿概率各0.5,求一辆车停止前所通过的交通灯数的分布图。

X表示车在停止前所通过的交通灯数,取值为0,1,2,3,4。p=0.5 x5=4时 f(x)=(1-p)4p0 0.03175 x4=3时 f(x)=(1-p)3p 0.0625 x5=2时 f(x)=(1-p)2p 0.125 x5=1时 f(x)=(1-p)1p 0.25 x5=0时 f(x)= p 0.5 0.60.50.40.30.20.10012345

6超几何分布

X为一随机变量,其取值区间为[Max(0,M+n-N),Min(M,n)]上的整数,若的概率分布为

Cxn?xf(x)?MCN?MCnN

X

则称X服从超几何分布,记作X~H(n, N, M)。其中,N为总体容量,M为总体中具有某一特征的单位总数,n为样本容量。 E(X)=nM/N Var(X)=nM(N2?n)(N?M)

N(N?1)

【例9】在50个零部件中,已知有5个不合格,如果用不重置抽样方法抽出4个,问:

第一,4个中恰好有1个不合格的概率; 第二,不超过2个不合格的概率。 解:第一,N=50, M=5, n=4 P(X=1)=

xn?xCMCN?MnCN=

13C5C454C50=0.308

第二,P(X≤=2)=P(X=0)+P(X=1)+P(X=2) =

03C5C454C50+

13C5C454C50+

22C5C454C50

=0.998

【例10】估计水库中鱼的总数量。基本思路:已知总数量的有标记的鱼出现在一个随机样本中的比例,这现象服从超几何分布,再通过概率公式计算。

先捕M条,做上标记后放回水库,过一段时间待鱼分散后,再从水库中捕出n条,数一下n中有多少有标记的,然后可以估计水库中鱼的总尾数N。 设:先捕1000条(M),做上标记后放生,再捕回2000条(n),发现有50条(k),则根据题意

50=E(X)=nM/N,(这里,X表示样本中有标记的鱼的数量,这一数量与三个因素有关:第一,样本容量n,第二,总体单位总数N,第三,总体中具有该特征的个体的总数M)

N=nM/50=1000*2000/50=40000

【例11】200大学生中有100戴眼镜,从200中抽10,计算其中戴眼镜人数的概率

200=N, 100=M, 10=n 戴眼镜的人数X介于0-10,

xn?xCMCN?MnCN010?0C100C200?10010C200P(X=0)= ==

P(x=0)= 0.000771 P(x=1)= 0.008473 P(x=2)= 0.041029 P(x=3)= 0.115292 P(x=4)=

0.2082

P(x=5)= 0.25247 P(x=6)=

0.2082

P(x=7)= 0.115292 P(x=8)= 0.041029 P(x=9)= 0.008473 P(x=10)= 0.000771

再假设200大学生中有160戴眼镜,从200中抽10,计算其中戴眼镜人数的概率

200=N,160=M,10=n 戴眼镜的人数X介于0-10,

P(X=0)=

xn?xCMCN?MnCN=

010?0C160C200?16010C200=

7泊松分布

历史上,泊松分布是二项分布的近似,1837法国的泊松(Poisson, S. D. 1781-1840)首次提出。以后发现,许多取非负整数的离散随机变量都服从泊松分布。

在二项分布B(n,p)中,若相对而言,n大,p小,而乘积np大小适中,二项分布中诸概率有一个很好的近似公式,即著名的泊松定理。

泊松定理:在n重伯努利试验中,以pn表示在一次试验中发生的概率。且随着n增大,pn在减小。若n趋向无穷大时有λ=npn→λ(常数),则出现x次成功的概率

f(x)??xx!e??

它是二项分布的极限形式(n趋向无穷大时) E(X)= λ Var(X)= λ

泊松着迷于小概率事件,研究的现象是骑兵被马踢死。 有10个骑兵队,观察20年,得到200个记录, 被马踢死的骑兵数r的频数分布 r 0 1 2 频数 109 65 22 相对领数 0.545 0.325 0.110 理论慨率 0.544 0.331 0.101 3 4 3 1 0.015 0.005 0.021 0.003 在200份观察记录中,没有骑兵被马踢死的记录有109份,有1个被马踢死的记录有65份,有2个被马踢死的记录有22份,有3个被马踢死的记录有3份,有4个被马踢死的记录有1份。共有122人被踢死。 泊松分布是一个二项概率的极限近似。一个骑兵在一年中不是被马踢死就是不被马踢死。合理地去假定这一稀有事件发生的机会对所存的兵士来说都是一样的,并且兵士们被踢死的机会是独立的。因此一年中被踢死的骑兵数是一个二项变量,但是,被踢死的概率p很小而试验次数即骑兵人数是很大;因此泊松极限对这些数据给出一个很好的描述。

计算平均数:(0*109+1*65+2*22+3*3+4*1)/200=122/200=0.61 即λ

带入

f(x)??xx!e??

f(0)=0.610*2.71828-0.61/0!= 0.543351092 f(1)=0.611*2.71828-0.61/1!= 0.331 f(2)=0.612*2.71828-0.61/2!= 0.101 f(3)=0.610*2.71828-0.61/3!= 0.021

f(4)=0.614*2.71828-0.61/4!= 0.003(计算过程见excel)

【例12】500人中,恰有k个人的生日在元旦的概率是多少? 用二项分布解:p=1/365

k?1??364?Cf(X=k)=500?365??365?????k500?k (计算过程见excel)

【例13】一批铸件中,每件的缺陷数服从泊松分布,该批铸件的缺陷数平均为1.5,如果规定缺陷数不超过1个为一等品,价值1500,1-4个为二等品,值1000,有5个以上为次品,值500,求:第一,产品为1、2、次品的概率;第二,产品的平均价值(计算过程见excel) ?解:E(x)= λ=1.5

?第一,P(X≤1)=P(X=0)+P(X=1)=0.558 ? P(1

泊松分布的运用场合:

一定时间内,电话机收到呼叫的次数

一定时间内,超级市场中排队等候付款的顾客人数 一定时间内,来到车站等候公共汽车的人数 一定时间内,某操作系统发生故障的次数 在一个稳定的团体内,活到100岁的人数 一匹布上疵点的个数 100页书中,错别字的个数

总结:一定时间内(或某一区域内、一特定单位内),把这些范围分成数目很多的很小的部分,每个小部分上都有或没有(这是伯努利试验的根本条件),很小的部分的数目无穷大时,数目与概率的乘积为常数,就可以使用泊松分布。

为了方便,统计学家计算了泊松分布表。其λ从0.02到25(通常用累计值)

重要的连续型概率分布

1.均匀分布

2.正态分布

占有特别重要的地位,因为:第一,许多现象服从正态分布;第二,是统计学的基础(样本指标总是服从正态分布);第三,导出一些重要的抽样分布,如t分布,χ2分布(希腊字母chi),F分布等(这三个是统计上的三大分布)。 密度函数

1f(x)=

2??1e?(x??)22?2

令Y=(X-μ)/σ(此即标准分)。如果取均值μ=0,标准差σ=1

f(x)=

2?x2?e2

【例14】某型号汽车服从正态分布(15年,2.52年2),某人买一辆,求其

使用寿命不超过10年的概率。

P(X≤10)=P(X?15≤10?15)=P(Y≤-2)=0.023

2.52.5【例15】英语4级考试中,成绩服从正态分布(70分,102分2),已知几个人数100,求: 第一,不及格人数

第二,成绩在前20名的人数在考生中的比例 第三,第20名考生的成绩

P(X≥60)=P(X?70≥60?70)=1-P(X?70<-1)=0.8413

101010100/N=0.8413 N=119

第一,不及格概率为1-0.8413=0.1587 不及格人数为119*0.1587=19人

第二,成绩在前20名的人数在考生中的比例:20/119=16.81% 第三,设第20名考生的成绩为x0, 则P(X≥x0)=0.1681,也即

P(X>x0)=1-0.1681=83.19%(查表得0.96)

x0?70=0.96 10 x0=79.6

【例16】智商服从正态分布(100分,152分2),TOP1的智商下限为多少? 99%的人比他的智商低,(查表得2.33),智商下限=100+2.33*15=134.95 ****TOP5的智商下限为多少?

95%的人比他的智商低,(查表得1.645),智商下限=100+1.645*15=124.7 ****如果你的智商为108,多少人比你笨?

(108-100)/15=0.5333,比你笨的有53.3% ****1万人中,智商最高的是多少?

求1/10000=0.9999的标准分值,查表得3.72,智商=100+15*3.72=155.8 在EXCEL中用NORMSDIST(Y)求单侧概率值(其中的Y指的是标准分)。它的逆函数是NORMSINV(P)。(其中的P指的是累计概率值)

NORMDIST

参阅

返回给定平均值和标准偏差的正态分布的累积函数。此函数在统计方面应用范围广泛(包括假设检验)。 语法

NORMDIST(x,mean,standard_dev,cumulative) X 为需要计算其分布的数值。 Mean 分布的算术平均值。 Standard_dev 分布的标准偏差。

Cumulative 为一逻辑值,指明函数的形式。如果 cumulative 为 TRUE,函数 NORMDIST 返回累积分布函数;如果为 FALSE,返回概率密度函数。 说明

? ? ? ?

如果 mean 或 stand_dev 为非数值型,函数 NORMDIST 返回错误值 #VALUE!。 如果 standard_dev < 0,函数 NORMDIST 返回错误值 #NUM!。

如果 mean = 0 且 standard_dev = 1,函数 NORMDIST 返回标准正态分布,即函数 NORMSDIST。 正态分布密度函数的计算公式如下:

f(x,?,?)?示例

12??e??x???2????2??2???

NORMDIST(42,40,1.5,TRUE) 等于 0.908789

3.χ2分布

随机变量Xi~N(0,1),且相互独立,令χ2=Σxi2

则称χ2服从自由度为n的χ2分布 χ2分布的概率密度函数为

nx?1?1??nx2e2.............................x?0?f(x)??2n2?()? 2??0...................................................x?0t分布

数理统计学简介

试图用少量的文字对“数理统计学”这个学科下一个正式的定义就会碰到不少困难.你很难找到一种

说法是完全无懈可击的.况且,任何这样的定义若不辅之以大量的解释,就无法使人理解.因此,在以下的叙述中,我们将致力于从一些方面把数理统计学的实质说请楚而不着重于一个形式的定义.

当用观察和实验的方法去研究一个问题时,第一步就是通过观察或试验以收集必要的数据.这些数据受到偶然性即随机性因素的影响.下一步就是对所收集的数据进行分析,以对所研究的问题做出某种形式的结论.在这两个步骤中,都会碰到许多数学问题,为解决这些问题,发展了许多理论和方法.这些就构成数理统计学的内容.故一般地可以说,数理统计学是数学的一个分支,它的任务是研究

怎样用有效的方法去收集和使用带随机性影响的数据.下面来做些解释.

1.数据必须带有随机性的影响,才能成为数理统计学的研究对象.例如,考虑一个国家的全面人口普查.假定人力物力时间允许我们对国内每一个人的状况进行调查,而这种调查又是准确无误的,则我们可利用普查所得数据,通过既定的方法,把所感兴趣的指标计算出来,例如,男性人口占全体人口的百分之多少,在所作假定之下这是准确无误的.这里不需要用到什么数理统计方计方法.又如,要比较两个小麦品种甲、乙谁优(能有更高的产量),若我们作一个不大现实的假定,即其他条件可以控制得如此严格(且这种条件也是日后大面积推广时所使用的),以致产量完全取决于品种,则我们只须在两块地上把甲、乙各种植一次,就可准确无误地判断其优劣.在此数理统计方法也没有用武之地。总之,是否假定数据有随机性,是区别数理统计方法和其他数据处理方法的根本点.

数据的随机性的来源有二:一是问题中所涉及的研究对象为数很大,我们不可能对之全部加以研究,而只能用“一定的方式”挑选其一部分去考察.例如,一批产品有10000件,其中含有废品附件m件且未知,因而废品率p=m/10000也未知.要确切地知道见必须对这l0000件逐一加以检验.这不仅是不经济的,且往往无法做到(如检验是破坏性的).因此我们只能从其中挑出一部分例如100件,根据对这100件的检

验结果去估计p.在这里,随机性的影响就表现在:哪l00件被挑出是偶然的.

一般,在社会调查性质的问题中,问题的要求规定了调查的范围.如问题是研究某一地区内以农户为单位的经济状况,则该地区的全体农户都是调查对象.若这个数目太大,则我们只能挑一部分作实地调查.这时,所得救据的随机性就来自被挑出的农户的随机性.对这种数据作分析,就必须使用数理统计方法.

数据随机性的另一种来源是试验的随机误差,这是指那种在试验过程中未加控制、无法控制,甚至不了解的因素所引起的误差.例如,设反应温度和压力是影响产品质量y的重要因素,我们想通过一定的试验去考察这影响的程度,并挑选一个适当的温度和压力值以供在今后大批生产中使用.但是,y除了与温度、压力有关外,还受到大量其他因素的影响.例如,每次试验所用原材料略有差异,可能使用不同的仪器设备和操作者等等.这些因素无法或不便加以完全的控制,而对试验结果(数据)产生随机性的影响.这就带来一种不确定性.例如,从试验数据上看,使用温度t2比用t1好.但这个表现在数据上的优势究竟是本质的——即有足够的理由可解释为是由于t2的确优于t1,还是只是随机误差的偶然性表现?这就需要用数理统计的方法去分析.

2.所谓“用有效的方式收集数据”一语中,有效一词该如何解释.归纳起来有两个方面:一是可以建立一个在数学上可以处理并尽可能简单方便的模型来描述所得数据,一是数据中要包含尽可能多的、与所研究的问题有关的信息。

例如,在考察某地区共10000农户的经济状况的问题中,我们前面说挑出100户作实际调查.100这个数字是否恰当?太大了则费用过大,太小了则代表性不够.要决定一个较好的数字,须权衡这两个方面,并用得着统计力法.其次,假定我们选择了100这个数字.这l00户如何挑选?假设你只在该地区最富裕的那部分去找,这样得到的数据就没有代表性,也谈不上有效了.反之,你如果用一种纯随机化的方法,即设法使这10000户中的每一户有同等的机会被挑出,则所得救据就有一定的代表性,我们也不难建立一个简单的模型来描述它.在一些情况下,我们还可以设计出更有效的方法.举一个简单情况,若该地区分成平原和山区两部分,前者较富裕且占全体农户的70%,则我们可规定,在预定要考察的100户中,有70户从平原地区挑,30户从山区挑;而在各自的范围内则用纯随机化的方式挑.直观上我们觉得,这样得到的数据,比在全体10000户中用随机化方式挑选得到的数据更有代表性,因而也更“有效”.数理统计的理论证明确是如此.

又如,在产品质量与反应温度和压力的关系的例中,怎样用有效的方式收集数据?问题更多.若可以考虑的温度在t1和t2之间,压力在F1和F2之间。首先我们当然只能取有限个温度和压力值去做试验.取多少个值好?这里也有与上例中一样的问题:太多了费用太大,太少了不说明问题.在定下了一个数目,例如四个温度值和四个压力值去做试验,则这些值是否均匀地取在相应的区间中好?另外,若把这些值所有可能的搭配都做试验,则至少需做16次.也许条件不允许做这么多,而只能做一部分,则这一部分如何挑选?这些问题解决得好,试验数损就有一种平衡或对称的称的结构,不仅更富于代表性,且可建立一种简单而便于分析的模型.

用有效的方式收集数据的问题的研究,构成了数理统计学中的两个分支,其一叫抽样理论,其二叫试验设计,它们分别处理相当于上面讨论过的两个例子中的那种类型的数据收集问题.

3.现在来解释“有效地使用数据”一语的意义.获取数据的目的,是提供与所研究的问题有关的信息.但这种信息井非是一目了然地表现出来,而需要用“有效”的方式去集中、提取,进而利用之以对所研究的问题做出一定的结论.这种“结论”,在统计上叫做“推断”.所作的推断应是对所提出的问题的一个回答,而不只限于所得数据的范围内.有效地使用数据,就是要使用有效的方法,去集中和提取试验数据中的有关信息,以对所研究的问题作出尽可能精确和可靠的推断.其所以只能做到“尽可能”而非绝对地精确和可象,是因为数据受到随机性因素的影响.这种影响可以通过统计方法去估计或缩小其干扰作用,但不可能完全消除.

为有效地使用数据以进行统计推断,涉及很多的数学问题.需要建立一定的数学模型,并给定某些准则,才有可能去评价和比较种种统计推断方法的优劣.例如,为估计一物体的重量a,把它在天平上秤九次,得到数据。A1,a2,?,a9,它们都受到随机性因素的影响(影响大小反映天平的精密度).我们可以用这九个值

的算术平均去估计a,也可以考虑下述方法:把9个值按大小依次排列,而取正中间的一个,即a5,去估计a.甚至也可以用两个极端值的平均.你可能在直观上会认为;作为a的估计,均值优于中位数,而中位数优于极端值的平均值。但是为什么?这是不是对?在什么意义下对?在什么条件下对?这些问题就不容易回答.事实上,对这些问题的研究,正是数理统计学的中心内容,要使用大量的数学和概率论的工具.实际上,在一定的情况(取决于随机性影响的概率结构,即统计模型)和一定的意义下,上述三个估计方法中的任一个都可能成为最优的.

4.最后一点,就是数理统计学只处理在收集和使用带随机性影响数据中的数学问题,因而是一个数学分支.

一个问题的研究,涉及到问题所在领域的专门知识.数理统计学不以任何一种专门领域为研究对象,不论你的问题是物理学的、化学的、生物学的或工程技术方面的,只要在安排试验和处理试验数据中沙及到一些一般性的、共同的数学问题,就可以用统计方法.例如,不论作哪种试验,都有一个试验规模的问题,即试验须重复多少次,才能把随机误差的影响控制在必要的限度内.这是一个与专业知识无关的带共性的问题,一组试验数据只要对其所受的随机性影响作了明确的规定(如服从正态分布),则可以用相应的统计方法去分析,而不管这些数据的实际含义如何.这种带共性的问题既然从专门的知识领域中超脱出来,就可以用纯数学的方法去研究,这就是数理统计学的对象。我们这样说,并不意味着一个数理统计学者可以不过问其他专门领域的知识.相反,如果他要将统计方法用于实际问题,他必须对所论问题的专门知识有一定的了解.这不仅可以帮助他选定恰当的统计模型和统计方法,而且,用数理统计方法分析随机性数据所得结论的恰当解释,离不开所论问题的专门知识.例如,数理统计方法对数量遗传学很有用,但一个对遗传学一无所知的统计学家就难于在这个领域中有所作为.

统计方法的应用很广泛,所以许多学习其他专业的人都需要一些这方面的知识.幸好,统计方法的具体使用并不需要很高深的数学知识.相反,这些方法的理论根据,不具备较多校深的数学知识就说不清楚.因此在一些统计方法得到广泛应用的国家,例如在美国,出版了大量专供各领域的应用者使用的著作.这种著作介绍统计方法及其应用,但不涉及或很少涉及这些方法的理论根据.这种著作被列入“统计方法”或“应用统计”的范畴内,而只有那种用严格的数学去论证统计方法的理论根据的书,才称为数理统计著作.这显示在这些国家中。“数理统计学”一词是给以一种狭义的解释,即只包括统计学中的数学基础部分.在我国,数理统计学一词则是与作为一门社会科学的统计学相对而言的.粗略地说,在我国,数理统计学与西方的统计学相当,而具有较广泛的含义.明白这个区别就可以避免一些误解.

数理统计的基本知识所包含的内容: 统计量及其分布 参数估计 假设检验 方差分析 回归分析

贝叶斯统计与统计判决 非参数统计 多元统计

数理统计学

mathematical statistics

研究怎样有效地收集 、整理和分析带有随机性的数据,以对所考察的问题作出推断或预测,直至为采取一定的决策和行动提供依据和建议的数学分支。

发展简史 数理统计学是伴随着概率论的发展而发展起来的。19世纪中叶以前已出现了若干重要的工作,如C.F.高斯和A.M.勒让德关于观测数据误差分析和最小二乘法的研究。到19世纪末期,经过包括K.皮尔森在内的一些学者的努力,这门学科已开始形成。但数理统计学发展成一门成熟的学科,则是20世纪上

半叶的事,它在很大程度上要归功于K.皮尔森、R.A.费希尔等学者的工作。特别是费希尔的贡献,对这门学科的建立起了决定性的作用。1946年H.克拉默发表的《统计学数学方法》是第一部严谨且比较系统的数理统计著作,可以把它作为数理统计学进入成熟阶段的标志。 数理统计学的发展大致可分3个时期。① 20世纪以前。这个时期又可分成两段,大致上可以把高斯和勒让德关于最小二乘法用于观测数据的误差分析的工作作为分界线,前段属萌芽时期,基本上没有超出描述性统计量的范围。后一阶段可算作是数理统计学的幼年阶段。首先,强调了推断的地位,而摆脱了单纯描述的性质。由于高斯等的工作揭示了正态分布的重要性,学者们普遍认为,在实际问题中遇见的几乎所有的连续变量,都可以满意地用正态分布来刻画。这种观点使关于正态分布的统计得到了深入的发展,但延缓了非参数统计的发展。19世纪末,K.皮尔森给出了以他的名字命名的分布,并给出了估计参数的一种方法——矩法估计。德国的F.赫尔梅特发现了统计上十分重要的x2分布。②20世纪初到第二次世界大战结束。这是数理统计学蓬勃发展达到成熟的时期。许多重要的基本观点和方法,以及数理统计学的主要分支学科,都是在这个时期建立和发展起来的。这个时期的成就,包含了至今仍在广泛使用的大多数统计方法。在其发展中,以英国统计学家、生物学家费希尔为代表的英国学派起了主导作用。③战后时期。这一时期中,数理统计学在应用和理论两方面继续获得很大的进展。

分支学科 数理统计学内容庞杂,分支学科很多,难于作出一个周密而无懈可击的分类。大体上可以划分为如下几类:

第一类分支学科是抽样调查和试验设计。它们主要讨论在观测和实验数据的收集中有关的理论和方法问题,但并非与统计推断无关。

第二类分支学科为数甚多,其任务都是讨论统计推断的原理和方法。各分支的形成是基于:①特定的统计推断形式,如参数估计和假设检验。②特定的统计观点,如贝叶斯统计与统计决策理论。③特定的理论模型或样本结构,如非参数统计、多元统计分析、回归分析、相关分析、序贯分析,时间序列分析和随机过程统计。第三类是一些针对特殊的应用问题而发展起来的分支学科,如产品抽样检验、可靠性统计、统计质量管理等。

统计工作诸环节 用数理统计方法去解决一个实际问题时,一般有如下几个步骤 :建立数学模型,收集整理数据,进行统计推断、预测和决策。这些环节不能截然分开,也不一定按上述次序,有时是互相交错的。

①模型的选择和建立。在数理统计学中,模型是指关于所研究总体的某种假定,一般是给总体分布规定一定的类型。建立模型要依据概率的知识、所研究问题的专业知识、以往的经验以及从总体中抽取的样本(数据)。②数据的收集。有全面观测、抽样观测和安排特定的实验3种方式。全面观测又称普查,即对总体中每个个体都加以观测,测定所需要的指标。抽样观测又称抽查,是指从总体中抽取一部分,测定其有关的指标值。这方面的研究内容构成数理统计的一个分支学科。叫抽样调查。③安排特定实验以收集数据,这些特定的实验要有代表性,并使所得数据便于进行分析。这里面所包含的数学问题,构成数理统计学的又一分支学科,即实验设计的内容。④数据整理。目的是把包含在数据中的有用信息提取出来。一种形式是制定适当的图表 ,如散点图,以反映隐含在数据中的粗略的规律性或一般趋势。另一种形式是计算若干数字特征,以刻画样本某些方面的性质,如样本均值、样本方差等简单描述性统计量。⑤统计推断。指根据总体模型以及由总体中抽出的样本,作出有关总体分布的某种论断 。 数据的收集和整理是进行统计推断的必要准备,统计推断是数理统计学的主要任务。⑥统计预测。统计预测的对象,是随机变量在未来某个时刻所取的值,或设想在某种条件下对该变量进行观测时将取的值。例如,预测一种产品在未来3年内的市场销售量,某个10岁男孩在3年后的身高,体重等等。⑦统计决策。依据所做的统计推断或预测,并考虑到行动的后果(以经济损失的形式表示)而制定的一种行动方案。目的是使损失尽可能小,或反过来说,使收益尽可能大 。例如 ,一个商店要决定今年内某种产品的进货数量,商店的统计学家根据抽样调查,预测该产品本店今年销售量为1000件。假定每积压一件产品损失20元,而少销售一件产品则损失10元,要据此作出关于进货数量的决策。

应用 数理统计方法在工农业生产、自然科学和技术科学以及社会经济领域中都有广泛的应用。①在农业中,对田间试验进行适当的设计和统计分析。②实验设计法、回归设计和回归分析、方差分析、多元分析等统计方法,在工业生产的试制新产品和改进老产品、改革工艺流程、使用代用原材料和寻求适当的配方

等问题中起着广泛的作用,统计质量管理在控制工业产品的质量中起着十分重要的作用。③医学是较早使用数理统计方法的领域之一 。 在防治一种疾病时,需要找出导致这种疾病的种种因素。统计方法在发现和验证这些因素上,是一个重要工具。另一方面的应用是,用统计方法确定一种药物对治疗某种疾病是否有用,用处多大,以及比较几种药物或治疗方法的效力。④在自然科学和技术科学中,如统计方法用于地震、气象和水文方面的预报、地质资源的评介等。⑤在社会、经济领域方面,如人口调查和预测,心理学中能力方面的分析等。

最小二乘法

least square,method of

科学实验和统计工作中常用的一种数据处理方法。由A.M.勒让德和C.F.高斯于19世纪初分别独立提出。例如要从一组实验数据(xi,yi)(i=1,2,?,m)中,寻找自变量x与因变量y之间的函数关系y=F(x)。由于观测数据往往不准确,因率不要求y=F(x)经过所有数据点,而只要求所在所有给定点xi上的偏差ri=F(xi)-yi(i=1,2,?,m)的平方和

达到最小。F(x)的函数类型往往与实验的物理背景以

及数据的实际分布有关,它一般含有某些待定参数。如果F(x)是所有待定参数的线性函数,那么相应的问题称为线性最小二乘问题,否则称为非线性最小二乘问题。最小二乘法还是实验数据参数估计的重要工具。这是因为这种方法比其他方法更容易理解,即使在其他方法失效的情况下,用最小二乘法还能提供解答,而且从统计学的观点分析,用该方法求得各项估计具有最优统计特征,因此这一方法也是系统识别的重要基础。线性最小二乘问题可以借助多元微分学知识通过求解法方程组得到解答。求解非线性最小二乘问题比较困难,一般要用线性化方法或最优化方法才行。

概率论

probability theory

研究随机现象数量规律的数学分支。随机现象是相对于决定性现象而言的。在一定条件下必然发生某一结果的现象称为决定性现象。例如在标准大气压下,纯水加热到100℃时水必然会沸腾等。随机现象则是指在基本条件不变的情况下,一系列试验或观察会得到不同结果的现象。每一次试验或观察前,不能肯定会出现哪种结果,呈现出偶然性。例如,掷一硬币,可能出现正面或反面,在同一工艺条件下生产出的灯泡,其寿命长短参差不齐等等。随机现象的实现和对它的观察称为随机试验。随机试验的每一可能结果称为一个基本事件,一个或一组基本事件统称随机事件,或简称事件。事件的概率则是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。例如,连续多次掷一均匀的硬币,出现正面的频率随着投掷次数的增加逐渐趋向于1/2。又如,多次测量一物体的长度,其测量结果的平均值随着测量次数的增加,逐渐稳定于一常数,并且诸测量值大都落在此常数的附近,其分布状况呈现中间多,两头少及某程度的对称性。大数定律及中心极限定理就是描述和论证这些规律的。在实际生活中,人们往往还需要研究某一特定随机现象的演变情况

随机过程。例如,微小粒子在液体中受周围分子的随机碰撞而形成不规则的运动(即

布朗运动),这就是随机过程。随机过程的统计特性、计算与随机过程有关的某些事件的概率,特别是研

究与随机过程样本轨道(即过程的一次实现)有关的问题,是现代概率论的主要课题。概率论与实际生活有着密切的联系,它在自然科学、技术科学、社会科学、军事和工农业生产中都有广泛的应用。

概率论的起源与赌博问题有关。16世纪,意大利的学者开始研究掷骰子等赌博中的一些简单问题。17世纪中叶,法国数学家B.帕斯卡、P.de费马及荷兰数学家C.惠更斯基于排列组合方法,研究了一些较复杂的赌博问题,他们解决了分赌注问题、赌徒输光问题等。随着18、19世纪科学的发展,人们注意到在某些生物、物理和社会现象与机会游戏之间有某种相似性,从而由机会游戏起源的概率论被应用到这些领域中;同时这也大大推动了概率论本身的发展。使概率论成为数学的一个分支的奠基人是瑞士数学家J.伯努

利,他建立了概率论中第一个极限定理,即伯努利大数定律,阐明了事件的频率稳定于它的概率。随后A.de棣莫弗和P.S.拉普拉斯 又导出了第二个基本极限定理(中心极限定理)的原始形式。拉普拉斯在系统总结前人工作的基础上写出了《分析的概率理论》,明确给出了概率的古典定义,并在概率论中引入了更有力的分析工具,将概率论推向一个新的发展阶段。19世纪末,俄国数学家P.L.切比雪夫、A.A.马尔可夫、A.M.李亚普诺夫等人用分析方法建立了大数定律及中心极限定理的一般形式,科学地解释了为什么实际中遇到的许多随机变量近似服从正态分布。20世纪初受物理学的刺激,人们开始研究随机过程。这方面A.N.柯尔莫哥洛夫、N.维纳、A.A.马尔可夫、A.R辛钦、P.莱维及W.费勒等人作了杰出的贡献。

如何定义概率,如何把概率论建立在严格的逻辑基础上,是概率理论发展的困难所在,对这一问题的探索一直持续了3个世纪。20世纪初完成的勒贝格测度与积分理论及随后发展的抽象测度和积分理论,为概率公理体系的建立奠定了基础。在这种背景下,苏联数学家柯尔莫哥洛夫1933年在他的《概率论基础》一书中第一次给出了概率的测度论的定义和一套严密的公理体系。他的公理化方法成为现代概率论的基础,使概率论成为严谨的数学分支,对概率论的迅速发展起了积极的作用。

大数定律

large number,laws of

概率论中讨论随机变量序列的算术平均值向常数收敛的定律。概率论与数理统计学的基本定律之一。又称弱大数理论。例如,在重复投掷一枚硬币的随机试验中,观测投掷n次硬币中出现正面的次数。不同的n次试验,出现正面的频率(出现正面次数与n之比)可能不同,但当试验的次数n越来越大时,出现正面的频率将大体上逐渐接近于1/2。又如称量某一物体的重量,假如衡器不存在系统偏差,由于衡器的精度等各种因素的影响,对同一物体重复称量多次,可能得到多个不同的重量数值,但它们的算术平均值一般来说将随称量次数的增加而逐渐接近于物体的真实重量。由于随机变量序列向常数的收敛有多种不同的形式,按其收敛为依概率收敛,以概率 1收敛或均方收敛,分别有弱大数定律、强大数定律和均方大数定律。常用的大数定律有:伯努利大数定律、辛钦大数定律、柯尔莫哥洛夫强大数定律和重对数定律。

中心极限定理

central limit theorem

概率论中讨论随机变量序列部分和的分布渐近于正态分布的一类定理。概率论中最重要的一类定理,有广泛的实际应用背景。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象 。最早 的中心极限定理是讨论n重伯努利试验中,事件A出现的次数渐近于正态分布的问题。1716年前后,A.棣莫弗对n重伯努利试验中每次试验事件A出现的概率为1/2的情况进行了讨论,随后,P.-S.拉普拉斯和A.M.李亚普诺夫等进行了推广和改进。自P.莱维在1919~1925年系统地建立了特征函数理论起,中心极限定理的研究得到了很快的发展,先后产生了普遍极限定理和局部极限定理等。极限定理是概率论的重要内容,也是数理统计学的基石之一,其理论成果也比较完美。长期以来,对于极限定理的研究所形成的概率论分析方法,影响着概率论的发展。同时新的极限理论问题也在实际中不断产生。

正态分布

normal distribution

一种概率分布。正态分布是具有两个参数μ和σ2的连续

型随机变量的分布,第一参数μ是遵从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。 遵从正态分布的随机变量的概率规律为取 μ邻近的值的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间

高两边低 ,图像是一条位于x轴上方的钟形曲线。当μ=0,σ2 =1时,称为标准正态分布,记为N(0,1)。μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。

正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。

生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。

随机变量

random variable

表示随机现象各种结果的变量。例如某一时间内公共汽车站等车乘客的人数,电话交换台在一定时间内收到的呼叫次数,等等,都是随机变量的实例。

一个随机试验的可能结果(称为基本事件)的全体组成一个基本空间Ω。 随机变量X是定义在基本空间Ω上的取值为实数的函数,即基本空间Ω中每一个点,也就是每个基本事件都有实轴上的点与之对应。例如,随机投掷一枚硬币 ,可能的结果有正面朝上,反面朝上两种 ,若定义X为投掷一枚硬币时正面朝上的次数 ,则X为一随机变量,当正面朝上时,X取值1;当反面朝上时,X取值0。又如,掷一颗骰子 ,它的所有可能结果是出现1点、2点、3点、4点、5点和6点 ,若定义X为掷一颗骰子时出现的点数,则X为一随机变量,出现1,2,3,4,5,6点时X分别取值1,2,3,4,5,6。

要全面了解一个随机变量,不但要知道它取哪些值,而且要知道它取这些值的规律,即要掌握它的概率分布。概率分布可以由分布函数刻画。若知道一个随机变量的分布函数,则它取任何值和它落入某个数值区间内的概率都可以求出。

有些随机现象需要同时用多个随机变量来描述。例如 ,弹着点的位置需要两个坐标才能确定,它是一个二维随机变量。类似地,需要n个随机变量来描述的随机现象中,这n个随机变量组成n维随机向量 。描述随机向量的取值规律 ,用联合分布函数。随机向量中每个随机变量的分布函数,称为边缘分布函数。若联合分布函数等于边缘分布函数的乘积 ,则称这些单个随机变量之间是相互独立的。独立性是概率论所独有的一个重要概念。

第三部分 应用统计方法

大数定律

马尔可夫大数定律n1随机变量X满足2Var(?Xi)?0

ni?11n1n则limP{?Xi??E(Xi)??}?0ni?1ni?1n??另有切比雪夫、辛钦、伯努利、

泊松等都有类似的大数定律。 ?泊松中心极限定理

–fn(A)为事件A在n次试验中发生的次数,pi为事件A第i次试验中发生的概率,x为任一实数,若发散,则有:

n?1???Pf(A)?p?x??lim??ni?n???Bn?i?1???12????ex?x22dx式中,Bn2=Σpi(1-pi)

1.假设检验

一、假设检验的基本原理和基本概念

一般的几个要素:原假设(零假设,null hypothesis)、对立假设(备择假设alternative hypothesis)、检验统计量、拒绝域

理论的最初探索:1710年,阿布兹诺特在英国皇家学会宣读论文《从两性出生数观察的规律性所得关于神的意旨存在的一个论据》。他研究了1629-1710年伦敦出生的男女数,全是男多于女,推理:有两种可能:⑴生男或生女纯属偶然;⑵由于“神的意旨”,生男的机会大于生女。如果⑴成立,则一年内生男的机会大于生女机会的概率不大于0.5,连续82年出现这情况的概率不应超过(1/2)82<10-24。一亿亿亿分之一,这不合情理。他首先提出用统计数据去验证一种说法的问题。 20世纪的R.A. Fisher:一女士说她能分辨奶茶中先倒进杯子的是奶还是茶。设计试验:8杯奶茶,先倒奶的4杯,请她品尝。设她挑出了

!这4杯。假设她无分辨能力,则8中选4共有70种方法(4!(88?)。4)!全选对的概率仅为1/70,有假设:

1.无鉴别能力,纯属偶然 2.有鉴别能力

问题:某餐厅以前营业额8000元/天,标准差640元,改了菜单,观察了9天,平均营业额8300/天,标准差640元。这300元的差异是改菜单导致的吗?

猜测:营业额的提高有可能真的是“改了菜单”所带来的,也可能因为最近这9天“恰好”是偏高的。(如果经过30天,从中选出9天,问题的实质是一样的。用30天的均值当然更准确,但现实中,要么没进行每天的统计,要么是无法统计,只能用9个数字去“估计”) 营业额服从正态分布。 第一步,建立假设。

假设:没变化。它的对立面是“有变化”,“有变化”又可分为“大于”和“小于”,即:

原假设:新旧菜单的平均营业额没有差异。记为H0。

对立假设或备择假设:新>旧,新<旧,新≠旧。显然,这里关心的是“新>旧”是否成立,备择假设就是:新菜单的平均营业额大于旧菜单。记为H1。

用符号表示:

H0:μ=8000 H1:μ>8000

如果拒绝原假设H0,就可以认为H1正确。H1只说明μ>8000,它可以是8001,8100,8200??。现在由样本给出的8300,仅仅是μ的

一个估计。

第二步,寻找检验统计量。寻找一个特定的统计方法

假设检验的任务是要确认原假设H0是否为真。先假定它成立,然后用样本去判断真伪,需要构造一个统计量来做判断,此统计量称为“检验统计量”。这里可用样本均值X作为检验统计量。

在H0为真时,新菜单挂出后,每天的营业额 仍然服从正态分布N~(8000,6402),如今我们获得了一个容量为9的样本,样本的均值仍服从正态分布,但各样本均值的方差将变为6402的1/9。即213.32。所以X~(8000,213.32)。

在H0为真时,X应接近8000,如果它远离8000,就有理由怀疑H0为真(即拒绝该假设,认为这个假设是错的)。8300够不够远?或者,远到多少才拒绝H0?所拒绝的区域就是拒绝域(通常用W表示)。 第三步,显著性水平与临界值

显著性水平α:H0事实上为真,但被拒绝的概率(因为使用样本值估计,这又可能发生)。这不可能完全避免,需要把这事情发生的概率控制在比较小的范围里,如5%,即α=0.05。或表述为:

P(H0为真, 但被拒绝)=0.05 P(拒绝|H0为真)=0.05

在这里,“显著性水平”可视为一个冒险程度,即:我只能冒5%的风险去拒绝一个正确的判断。

用统计思维来考虑这问题。“H0为真”表示样本来自服从正态分布的总体N~(8000,6402),“被拒绝” 表示由样本求得的均值超过了临界值。

可以设法决定临界值c,使得在H0为真时,X≥c的概率为5%,这便是用H0为真时X~(8000,213.32)去计算X≥c的概率,使

P(X≥c)=0.05 由于在H0为真时,有1-φ

????c?8000??=1.645,则临界值640????3???????c?8000?=0.05,从而由正态分布表可知,?640???3??c=8000+1.645*(640/3)=8350.9,这一临界值

惟一地决定了拒绝域W。上图中的c即为临界值。

显著性水平α的确定没有客观标准。原则是:要求越严,显著性水平α越低。如检验药品、航天技术、军用产品时,一般很低(0.01)。 第四步,做判断

在H0为真的前提下,X≥8350.9这一事件发生的概率为0.05,反之,

X<8350.9这一事件发生的概率为0.95,前者是个小概率事件。通常在

一次试验中小概率事件是难以发生的,倘若小概率事件在一次试验中发生了,就有理由怀疑“X≥c”不是一个小概率事件。这一矛盾导致我们不相信原假设H0为真,从而否定原假设H0。所以得到检验准则:

当X≥8350.9时,拒绝H0, 当X<8350.9时,保留H0。

结论:8300不足以证明新菜单对每天的营业额有影响,其概率保证程度为95%。

以下引申问题提出以后,请先根据“直觉”判断答案,不能确定答案时可以考虑变动的方向:更有可能还是更不可能。

引申问题1:如果改变概率保证程度,使我们相信新菜单对每天的营业额有影响,要改变到多少?即求φ分布表可知,概率为92.02%。

引申问题2:如果这老板非常小心,概率不到99%,他不能相信新菜单对每天的营业额有影响,那这时需要9天的营业额均值达到多少?概率为99%,φ=2.3263,则c=8000+2.3263*(640/3)=8 496. 3。

引申问题3:如果找到16天的营业额资料,均值为8300,是否相信新菜单对每天的营业额有影响(概率保证程度为95%)?1-φ

????c?8000??=0.05。临界值?640???4???????8300?8000?= 1.40625,由正态

640????3??c=8000+1.645*(640/4)=8 263.2。说明新菜单对每

天的营业额有影响。

引申问题4:如果改变方差为2562,在95%的概率保证程度下,8300的平均营业额是否说明新菜单对每天的营业额有影响?即求“1-

φ

?????c?8000??256???3??=0.05”中的c。

?????c?8000??256???3??=1.645,则临界值

c=8000+1.645*(256/3)= 8140.37,说明新菜单对每天的营业额有影响。

引申问题5:如果改变方差为2562,8300的平均营业额说明新菜

????8300?8000??单对每天的营业额有影响的概率是多少??256?= 3.515625 ??3??,由正

态分布表可知,概率为99.9781%

假设检验的两类错误:弃真(α类错误、Ⅰ型错误)与纳伪(β类错误、Ⅱ型错误)。好的检验规则应该保证二两类错误都比较小。α过低,排斥性太高,导致β上升。

处理两类错误的原则:第一,优先考虑弃真错误。因为原假设通常可以给出明确的陈述,而备择假设则比较模糊。所以,弃真错误的概率不应定得太大,否则即使接受了备择假设,对总体得了解叶不会有太多的帮助。第二,在弃真错误发生概率确定之后,使纳伪错误发生的概率达到最小。

假设检验也称显著性水平检验,按照两类错误原则建立起来的假

设检验也称最大功效检验。

二、总体均值检验 1.单样本总体均值检验

(1)总体为正态总体且已知方差。 检验统计量为: X???n~N(0,1)

1-α/2的值,

对于给定的显著性水平α,查正态分布概率表,得到μ检验的拒绝域为:

??X??0???c=???1?2??n????? ???【例17】某种零件尺寸服从正态分布N(μ,1.21),抽6件,各为: 32.56、29.66、31.64、30.0、31.87、31.03 在α=0.05的情况下,能否认为均值为32.50? 解:样本均值X=31.13,方差1.21,α=0.05

提出假设:

H0: μ=32.50 H1: μ≠32.50 检验统计量为:

X???n~N(0,1)

32.50计算检验统计量:31.131?=-3.051 .16由α=0.05,查正态分布概率表,得到μ

1-α/2=1.96

|-3.051|>1.96,拒绝H0。(不认为这批零件尺寸服从正态分布N(32.50,1.21))。

(2)总体为正态总体,但未知方差。

需要使用t检验。(t分布与正态分布的形状相似,但略平坦。)检验统计量为:

X??S~t(n-1) n双侧检验的拒绝域:

?????X????t?(n?1)??S1?2?c=? ??n??右单侧检验的拒绝域:

?????X????t1??(n?1)??S?c=?

??n??

左单侧检验的拒绝域:

????X?????t(n?1)c=?1???S? ????n??【例18】工业废水排放标准为0.5,一家企业的5个水样,组成样本。0.53、0.542、0.510、0.495、0.515。问,它的排放符合标准吗?(α=0.05) 解:μ=0.5,α=0.05

样本均值为0.5184,方差为0.01817 提出假设:

H0:μ=0.5 H1:μ>0.5 建立检验统计量:

X??Sn~t(n-1)

计算统计量的值:

0.5184?0.5=2.264 0.018175对于α=0.05,t0.95(4)=2.1318,2.264>2.1318,故可以认为该企业的排放不符合标准,即超标。

EXCEL中求t值:

t分布函数的语法:TDIST(随机变量t值,自由度,单区间或双区间)=概率值

其逆函数:TINV(双侧概率值,自由度)= t值(注意:系统默认值是双侧区间,此题中,输入时要输入2倍的概率值)

如TDIST(2.1318,4,1)=0.050003 TINV(0.1,4)=2.131846 2.两样本的总体均值差检验

(1)两总体皆为正态总体且已知方差。

由中心极限定理知:

(X?Y)?(?x??y)?x2?2y~N(0,1)

n?m双侧检验假设:

H0:μx=μy H1:μx≠μy 构造的检验统计量在H0成立时有:

??????X?Y???????2?x?2y1??2?~N(0,1) n?m????对给定的显著性水平α,查表得μ1-α/2

的值,则该检验的拒绝域

????c=??X?Y???????2?xy1??2? ?n??2m???右单侧检验假设:

H0:μx=μy H1:μx>μy

????c=??X?Y??????21??? ?x?n??2y?m???左单侧检验假设:

H0:μx=μy H1:μx<μy

????c=??X?Y?????1?????22?x? ?n??ym???为:

例题“先进工艺与普通工艺差别”的分析思路:

假设二样本的数据来自同一总体,则其差距应该比较小。

差距数值应该服从正态分布,但在小样本时,必须使用t分布(红色图形)。差值过大或过小,概率都比较小,落在图形的两端,此时,有理由怀疑原假设,而接受备择假设。

张国权《应用概率统计》132页15题

n=10, m=9, x1=2.24, S12=0.089, x2=1.96, S22=0.048

?x?y?????2xx??ym?~t(n+m-2)

n?2?y对于1-α=0.95查t分布概率表得tα/2(17)=2.898 计算(公式见107页5.10式)

?x?y??t1??211?= nm11?= nm?x?y??t

1??22.试验设计与方差分析

一、试验需要设计

例如,你手头有两颗钻石,要在一架天平上称出其各自的重量。一种办法是一次称一颗,若不计较天平的误差,称两次即得所要的结果。这当然是一个合理而可用的安排,但如考虑到天平有称量误差,则上述的安排不是最好的。最好的安排是这样:第一次把两颗钻石一起称,得出结果 X1。第二次把钻石甲、乙分别放在天平的左、右盘,再以砝码平衡之,约定论码在右盘时为正,在左盘时为负,将其结果记为X2,X2表示甲的重量减去乙的重量。图4.1是一个示意图,表示甲比乙重的情况。得到数据X1,X2后,分别以 y=(X1+X2)/2和(X1-X2)/2估计钻石甲、乙的重量。

为什么这种做法比一个一个称的安排好呢?从平常的眼光看这不好理解,反觉得有些自找麻烦,但从统计分析的角度可以解释,由于不太复杂,不妨稍仔细地谈一谈。

分别以a、b记钻石甲、乙的真实重量。第一次称时甲、乙在一起,称的是a+b,结果为X1。由于有误差,X1并不恰好等于a+b,而还要加上一个随机误差e1: X1=a+b+e1 (a)

第二次称,甲在左盘乙在右端,称的是a-b,结果为 X2,同样,由于有误差,X:并不恰好等于a-b,而还要加上一个误差e2:

X2=a-b+e2 (b)

把(a)、(b)两式相加,得X1+X2=2a+e1+e2,即 (X1+X2)/2=a+(e1+e2)/2

从此式看出,虽然用(X1+X2)/2去估计“仍有误差,但误差(e1+e2)/2是两个误差的算术平均。在前几章中我们多次指出,平均的结果使误差方差下降而改善了精度。对b的估计有同样的结论。所以,在这个新的安排之下,我们并未增加称量次数(一共两次,与一个一个称且各称一次的次数同),但改善了估计的精度。如果用逐个称的方法,要达到同样的(改善了的)精度,需要每一颗各称两次,一共4次;这样,通过上述聪明的安排,在不增加称量次数的条件下,把事情做得更好了。

另一个极端是:每次都把甲、乙放在一起称。如果这样安排,不论你称多少次,都只能得出甲、乙重量之和的估计,而无法分开来,我们的目的(称出每颗钻石之重)无法达成,因而这是一个不好的安排。 也许会说:这个问题可笑,谁也不会做这样愚蠢的安排。确实,在这种简单问题的情况下是如此。但是,在一个复杂的问题中,由于考虑不周到而犯下这样的错误,就不仅可能,且有时为了避免这种错误还要大费周折。

举一个简单的例于:治疗某种疾病有现行的方法A。有

人提出了一种认为可提高疗效的新法B。为进行验证,各取患者若干人做试验,结果表明 B的治愈率高。但仔细一检查,发现用疗法B的患者多数年轻而病情轻,用疗法A的患者则反是。这样一来,试验结果的解释就不一定是B优于A,而可能是由于其他原因——使用疗法 B的患者素质较好。这实际上与上述称重量的问题无异:我们“称”出的不是疗效,而是“疗效+素质”。

把以上讲的小结一下,我们说,干扰一个试验结果的有:(1)混入的系统性因素。(2)随机性的误差。前者是指那种显著的,可以造成重大错误的因素,例如病人的情况不同可能对疗效的估计产生重大错误。又如要通过试验验证,一种工业产品的新配方(或新工艺),是否真能改善产品的性能。但新旧两种配方的试验分在两个工厂做,而这两个厂的设备条件和工人素质都有差异,后者作为系统性因素混入试验结果,使我们无法做出可信的结论。避免这种情况的方法有二:一是设法消除,如在前一例中,可选择年龄病情大致相当的患者去做临床试验。二是将其计入,但采取适当的试验安排,以使之能与我们关注的效应分离开。如在后一例中,可以把两种配方都在两个工厂中生产,使工厂条件上的差别在数据分析中互相抵消,而不与配方优良性的效应相混淆。

随机性因素的影响是不可能完全消除的,只能采取一些办法加以抑制,不使之过大以防造成试验结果在解释上的不确定性。例如要准备多份材料做同一个试验,虽然在准备材料时力求其均匀纯净,但总不可能绝对如一,这差异就作为误差进入试验结果,如果它过大,就可能造成下述情况:从试验结果上看甲、乙有一定差异(比如品种甲的亩产比乙高一些),但随机误差很显著,大到可以与这差异相比拟的程度,我们就无法确定:数据上显示出的甲乙差异究竟是因为二者真有差异,还是因为随机误差的干扰。

抑制随机误差的影响一般有3种方法,一是工作认真细致。如准备试验材料时尽量做到均匀纯净,用天平称物时小心操作,避免外界环境和个人因素(注意力不集中等)的干扰。二是重复。比如天平灵敏度不高,就多称几次求其平均,利用平均值误差下降的原理缩小误差的影响。三是进行适当的安排。前面所举天平称钻石就是一个例子,在该例中,适当的安排在不增加称量次数的情况下,缩小了随机误差。

上面我们多次提到“安排”一词。这是指如何安排试验,使之达到消除系统误差和缩减随机误差的干扰。在统计学中,把这种安排试验的学问叫做“试验设计”,它是统计学的一个重要分支学科。从上面的讨论可以看出:设计(或安排)试验,并不涉及该试验相关的学科专业知识。化学试验如何做,生物试验如何做,这是化学家,生物学家的事,统计学家所做的,只是帮助他们从数学的角度设计一种有效的安排,它只涉及某些配置问题(或者说组合问题),而不去干预其具体操作。如在天平称钻石的试验中,统计学家建议那样一种称法(先两个一起称,再一边一个称),至于如何去调整,操作天平,那要由懂行的人去做,不在统计学家职责的范围。

再比如,汽车运输公司想比较两种汽油哪个能提供更多的动力(用行驶里程/升计量),可以想象这个指标和什么因素有关:汽车类型、驾驶习惯、道路情况、交通拥挤程度、天气情况等。用100辆出租车做试验,结果:1加仑=4.5461升,1英里=1.6093千米 A汽油 B汽油 样本容量n 50 50 每加仑行驶英里数x 25 26 标准差S 5.00 4.00 2S12S2差别是1英里/加仑。但标准差很大,抽样平均误差也很大(S(x?x)==0.905) ?12n1n2在95%的置信度下,估计两种汽油的差别:=x1-x2±1.96*0.905=-1±1.774 这个区间包括0,假设两种汽油无差别,则备择假设就是有差别。 ???(26-25)/0.905=1.1(公式?????????) ????X?Y?2xn??2y??1??2m标准分为1.1时,覆盖面积为0.7286,则超出这个范围的概率是0.2714,它明显大于0.05,则拒绝原假设,不认为两中汽油存在差别。

这实验显然是失败了,明明看到4%左右的差距,但统计计算结果并不承认这差别,其主要原因是标准差比较大,置信区间比较宽。其中的一个因素是没有较好安排,使标准差变得比较小。

更好的方法是:在不同的日子把不同汽油分配给同一辆车。以抛硬币的方式决定在星期二或星期三使用A汽油,而且把试验用出租车减少到10辆,记录结果: 车序号 汽油A 汽油B 差数d

1 27.01 26.95 0.06 2 20 20.44 -0.44 3 23.41 25.05 -1.64 4 25.22 26.32 -1.1 5 30.11 29.56 0.55 6 25.55 26.6 -1.05 7 22.23 22.93 -0.7 8 19.78 20.23 -0.45 9 33.45 33.95 -0.5 10 25.22 26.01 -0.79

25.198 25.804 -0.606 平均数

4.268897334 4.101366168 0.614278 标准差

两种汽油的平均数和标准差大体相同,这在意料之内,因为与不成对的试验一样,它们的离差来源相同。但差数一栏的标准差很小。尤其通过一辆汽车比较汽油的性能,消除了不同出租车之间的离差。

差数d为每辆车提供了惟一的差距标准,可用来计算小样本(n<30)的检验统计量t,

t=d Sdn在95%的概率下,以d为中心的置信区间是 d±t0.025*

Sdn在95%的概率下,有置信区间-1.04<=μd<= -0.16

=-0.6±2.26*(0.61/√10)=-0.66±0.44

建立原假设:μd不等于0

t值为0.6/0.19=3.15,自由度为9,用EXECL查:TDIST(3.15,9,2)=0.01173755(这是概率值,3.15是t分数,9是自由度,2是双侧检验)。说明两种汽油不同的假设通过检验。

成对比较的思想很重要。

现在加入轮胎试验。有两种轮胎也需要测试。 轮胎A 轮胎B 出租车1 出租车2 出租车3 出租车4 星期一 a b c d 汽油A a c 星期二 b c d a 汽油B b d 星期三 c d a b 星期四 d a b c 假定一周内每天天气系统,用4辆车做试验,分配方法如下:

每组试验品在每行每列出现一次。

本文来源:https://www.bwwdw.com/article/5wa3.html

Top