excel中的概率统计

更新时间:2024-01-19 15:30:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

数理统计实验

1 Excel基本操作

1.1

单元格操作

单元格的选取

1.1.1

Excel启动后首先将自动选取第A列第1行的单元格即A1(或a1)作为活动格,我们可以用键盘或鼠标来选取其它单元格.用鼠标选取时,只需将鼠标移至希望选取的单元格上并单击即可.被选取的单元格将以反色显示.

1.1.2 选取单元格范围(矩形区域)

可以按如下两种方式选取单元格范围.

(1) 先选取范围的起始点(左上角),即用鼠标单击所需位置使其反色显示.然后按住鼠标左键不放,拖动鼠标指针至终点(右下角)位置,然后放开鼠标即可.

(2) 先选取范围的起始点(左上角),即用鼠标单击所需位置使其反色显示.然后将鼠标指针移到终点(右下角)位置,先按下Shift键不放,而后点击鼠标左键.

1.1.3 选取特殊单元格

在实际中,有时要选取的单元格由若干不相连的单元格范围组成的.此类有两种情况.

第一种情况是间断的单元格选取.选取方法是先选取第一个单元格,然后按住[Ctrl]键,再依次选取其它单元格即可.

第二种情况是间断的单元格范围选取.选取方法是先选取第一个单元格范围,然后按住[Ctrl]键,用鼠标拖拉的方式选取第二个单元格范围即可.

1.1.4 公式中的数值计算

要输入计算公式,可先单击待输入公式的单元格,而后 键入=(等号),并接着键入公式,公式输入完毕后按Enter键即可确认..如果单击了“编辑公式”按钮 或“粘贴函数”按钮,Excel将自动插入一个等号.

提示:(1) 通过先选定一个区域,再键入公式,然后按 CTRL+ENTER 组合键,可以在区域内的所有单元格中输入同一公式.

(2) 可以通过另一单元格复制公式,然后在目标区域内输入同一公式.

公式是在工作表中对数据进行分析的等式.它可以对工作表数值进行加法、减法和乘法等运算.公式可以引用同一工作表中的其它单元格、同一工作簿不同工作表中的单元格,或者其它工作簿的工作表中的单元格.下面的示例中将单元格 B4 中的数值加上 25,再除以单元格 D5、E5 和 F5 中数值的和. =(B4+25)/SUM(D5:F5)

1.1.5

公式中的语法

1

公式语法也就是公式中元素的结构或顺序.Excel 中的公式遵守一个特定的语法:

最前面是等号(=),后面是参与计算的元素(运算数)和运算符.每个运算数可以是不改变的数值(常量数值)、单元格或区域引用、标志、名称,或工作表函数.

在默认状态下,Excel 从等号(=)开始,从左到右计算公式.可以通过修改公式语法来控制计算的顺序.例如,公式=5+2*3的结果为 11,将 2 乘以 3(结果是 6),然后再加上 5.因为Excel 先计算乘法再计算加法;可以使用圆括号来改变语法,圆括号内的内容将首先被计算.公式=(5+2)*3的结果 为21,即先用 5 加上 2,再用其结果乘以 3.

1.1.6 单元格引用

一个单元格中的数值或公式可以被另一个单元格引用.含有单元格引用公式的单元格称为从属单元格,它的值依赖于被引用单元格的值.只要被引用单元格做了修改,包含引用公式的单元格也就随之修改.例如,公式“=B15*5”将单元格 B15 中的数值乘以 5.每当单元格 B15 中的值修改时,公式都将重新计算. 公式可以引用单元格组或单元格区域,还可以引用代表单元格或单元格区域的名称或标志.

在默认状态下,Excel 使用 A1 引用类型.这种类型用字母标志列(从 A 到 IV ,共 256 列),用数字标志行(从 1 到 65536).如果要引用单元格,请顺序输入列字母和行数字.例如,D50 引用了列 D 和行 50 交叉处的单元格.如果要引用单元格区域,请输入区域左上角单元格的引用、冒号(:)和区域右下角单元格的引用.下面是引用的示例.

单元格引用范围 在列 A 和行 10 中的单元格 属于列 A 和行 10 到行 20 中的单元格区域 属于行 15 和列 B 到列 E 中的单元格区域 从列 A 行 10 到列E行 20 的矩形区域中的单元格 行 5 中的所有单元格 从行 5 到行 10 中的所有单元格 列 H 中的所有单元格 从列 H 到列 J 中的所有单元格 引用符号 A10 A10:A20 B15:E15 A10:E20 5:5 5:10 H:H H:J 1.1.7 工作表函数

Excel 包含许多预定义的,或称内置的公式,它们被叫做函数.函数可以进行简单的或复杂的计算.工作表中常用的函数是“SUM”函数,它被用来对单元格区域进行加法运算.虽然也可以通过创建公式来计算单元格中数值的总和,但是“SUM”工作表函数还可以方便地计算多个单元格区域.

函数的语法以函数名称开始,后面是左圆括号、以逗号隔开的参数和右圆括号.如果函数以公式的形式出现,请在函数名称前面键入等号(=).当生成包含函数的公式时,公式选项板将会提供相关的帮助. 使用公式的步骤:

2

A. 单击需要输入公式的单元格.

B. 如果公式以函数的形式出现,请在编辑栏中单击“编辑公式”按钮 . C. 单击“函数”下拉列表框 右端的下拉箭头.

D. 单击选定需要添加到公式中的函数.如果函数没有出现在列表中,请单击“其它函数”查看其它函数列表. E. 输入参数.

F. 完成输入公式后,请按 ENTER 键.

1.2 几种常见的统计函数

均值

1.2.1

Excel计算平均数使用AVERAGE函数,其格式如下:

AVERAGE(参数1,参数2,?,参数30)

范例:AVERAGE(12.6,13.4,11.9,12.8,13.0)=12.74

如果要计算单元格中A1到B20元素的平均数,可用 AVERAGE(A1:B20).

1.2.2 标准差

计算标准差可依据样本当作变量或总体当作变量来分别计算,根据样本计算的结果称作样本标准差,而依据总体计算的结果称作总体标准差. (1)样本标准差

Excel计算样本标准差采用无偏估计式,STDEV函数格式如下:

STDEV(参数1,参数2,?,参数30)

范例:STDEV(3,5,6,4,6,7,5)=1.35

如果要计算单元格中A1到B20元素的样本标准差,可用 STDEV(A1:B20).

(2)总体标准差

Excel计算总体标准差采用有偏估计式STDEVP函数,其格式如下:

STDEVP(参数1,参数2,?,参数30)

范例:STDEVP(3,5,6,4,6,7,5)=1.25

1.2.3 方差

方差为标准差的平方,在统计上亦分样本方差与总体方差. (1)样本方差

S2=

2(x?x)?in?1

Excel计算样本方差使用VAR函数,格式如下:

VAR(参数1,参数2,?,参数30)

如果要计算单元格中A1到B20元素的样本方差,可用 VAR(A1:B20). 范例:VAR(3,5,6,4,6,7,5)=1.81 (2)总体方差

3

(x?S=

2

i?x)2n

Excel计算总体方差使用VARP函数,格式如下:

VARP(参数1,参数2,?,参数30)

范例:VAR(3,5,6,4,6,7,5)=1.55

1.2.4 正态分布函数

Excel计算正态分布时,使用NORMDIST函数,其格式如下:

NORMDIST(变量,均值,标准差,累积)

其中:

变量(x):为分布要计算的x值; 均值(μ):分布的均值; 标准差(σ):分布的标准差;

累积:若为TRUE,则为分布函数;若为FALSE,则为概率密度函数. 范例:已知X服从正态分布,μ=600,σ=100,求P{X≤500}.输入公式

=NORMDIST(500,600,100,TRUE)

得到的结果为0.158655,即P{X≤500}=0.158655.

1.2.5 正态分布函数的反函数

Excel计算正态分布函数的反函数使用NORMINV函数,格式如下:

NORMINV(下侧概率,均值,标准差)

范例:已知概率P=0.841345,均值μ=360,标准差σ=40,求NORMINV函数的值.输入公式

=NORMINV(0.841345,360,40)

得到结果为400,即P{X≤400}=0.841345. 注意:(1) NORMDIST函数的反函数NORMINV用于分布函数,而非概率密度函数,请务必注意;

(2) Excel 提供了计算标准正态分布函数 NORMSDIST(x),及标准正态分布的反函数 NORMSINV(概率).

范例:已知X~N(0,1), 计算?(2)=P{X<2}.输入公式

=NORMSDIST(2)

得到0.97725,即?(2)=0.97725.

范例:输入公式=NORMSINV(0.97725) ,得到数值2. 若求临界值uα(n),则使用公式=NORMSINV(1-α).

4

1.2.6 t分布

Excel计算t分布的值(查表值)采用TDIST函数,格式如下:

TDIST(变量,自由度,侧数)

其中:

变量(t):为判断分布的数值; 自由度(v):以整数表明的自由度;

侧数:指明分布为单侧或双侧:若为1,为单侧;若为2,为双侧.

范例:设T服从t(n-1)分布,样本数为25,求P(T>1.711). 已知t=1.711,n=25,采用单侧,则T分布的值:

=TDIST(1.711,24,1)

得到0.05,即P(T>1.711)=0.05. 若采用双侧,则T分布的值:

=TDIST(1.711,24,2) 得到0.1,即P?T?1.711??0.1.

1.2.7 t分布的反函数

Excel使用TINV函数得到t分布的反函数,格式如下:

TINV(双侧概率,自由度)

范例:已知随机变量服从t(10)分布,置信度为0.05,求t0.05(10).输入公式2=TINV(0.05,10)

得到2.2281,即P?T?2.2281??0.05.

若求临界值tα(n),则使用公式=TINV(2*α, n).

范例:已知随机变量服从t(10)分布,置信度为0.05,求t0.05 (10).输入公式

=TINV(0.1,10) 得到1.812462,即t0.05 (10)= 1.812462.

1.2.8

F分布

Excel采用FDIST函数计算F分布的上侧概率1?F(x),格式如下:

FDIST(变量,自由度1,自由度2)

其中:

变量(x):判断函数的变量值;

自由度1(n1):代表第1个样本的自由度; 自由度2(n2):代表第2个样本的自由度.

5

范例:设X服从自由度n1=5,n2=15的F分布,求P(X>2.9)的值.输入公式

=FDIST(2.9,5,15)

得到值为0.05,相当于临界值α.

1.2.9 F分布的反函数

Excel使用FINV函数得到F分布的反函数,即临界值F?(n1,n2),格式为: FINV(上侧概率,自由度1,自由度2)

范例:已知随机变量X服从F(9,9)分布,临界值α=0.05,求其上侧0.05分位点F0.05(9,9).输入公式

=FINV(0.05,9,9)

得到值为3.178897,即F0.05(9,9)= 3.178897. 若求单侧百分位点F0.025(9,9),F0.975(9,9).可使用公式

=FINV(0.025,9,9) =FINV(0.975,9,9)

得到两个临界值4.025992和0.248386.

若求临界值Fα(n1,n2),则使用公式=FINV(α, n1,n2).

1.2.10 卡方分布

Excel使用CHIDIST函数得到卡方分布的上侧概率1?F(x),其格式为:

CHIDIST(数值,自由度)

其中:

数值(x):要判断分布的数值; 自由度(v):指明自由度的数字.

范例:若X服从自由度v=12的卡方分布,求P(X>5.226)的值.输入公式

=CHIDIST(5.226,12) 得到0.95,即1?F(5.226)=0.95或F(5.226)=0.05.

1.2.11 卡方分布的反函数

Excel使用CHIINV函数得到卡方分布的反函数,即临界值??(n).格式为: CHIINV(上侧概率值α,自由度n)

范例:下面的公式计算卡方分布的反函数:

=CHIINV(0.95,12) 得到值为5.226,即?0.95(12)=5.226.

若求临界值χα(n),则使用公式=CHIINV(α, n).

6

2221.2.12 泊松分布

计算泊松分布使用POISSON函数,格式如下:

POISSON(变量,参数,累计)

其中:变量:表示事件发生的次数; 参数:泊松分布的参数值;

累计:若TRUE,为泊松分布函数值;若FALSE,则为泊松分布概率分布值. 范例:设X服从参数为4的泊松分布,计算P{X=6}及P{X≤6}.输入公式

=POISSON(6,4,FALSE) =POISSON(6,4,TRUE) 得到概率0.104196和0.889326.

在下面的实验中,还将碰到一些其它函数,例如:计算样本容量的函数COUNT,开平方函数SQRT,和函数SUM,等等.关于这些函数的具体用法,可以查看Excel的关于函数的说明,不再赘述.

2 区间估计实验

计算置信区间的本质是输入两个公式,分别计算置信下限与置信上限.当熟悉了数据输入方法及常见统计函数后,变得十分简单.

2.1 单个正态总体均值与方差的区间估计:

?2已知时?的置信区间

2.1.1

置信区间为?x?u????n,x?u?2??2?. n? 例1 随机从一批苗木中抽取16株,测得其高度(单位:m)为:1.14 1.10 1.13 1.15 1.20 1.12 1.17 1.19 1.15 1.12 1.14 1.20 1.23 1.11 1.14 1.16.设苗高服从正态分布,求总体均值μ的0.95的置信区间.已知σ =0.01(米). 步骤:

(1)在一个矩形区域内输入观测数据,例如在矩形区域B3:G5内输入样本数据. (2)计算置信下限和置信上限.可以在数据区域B3:G5以外的任意两个单元格内分别输入如下两个表达式:

=average(b3:g5)-normsinv(1-0.5*?)*?/sqrt(count(b3:g5)) =average(b3:g5)+normsinv(1-0.5*?)*?/sqrt(count(b3:g5)) 上述第一个表达式计算置信下限,第二个表达式计算置信上限.其中,显著性水平?和标准差?是具体的数值而不是符号.本例中,? =0.05, ??0.01,上述两个公式应实际输入为

=average(b3:g5)-normsinv(0.975)*0.01/sqrt(count(b3:g5)) =average(b3:g5)+normsinv(0.975)*0.01/sqrt(count(b3:g5))

7

计算结果为(1.148225, 1.158025).

2.1.2

?2未知时?的置信区间

置信区间为 ?x?t?(n?1)??2SS?,x?t?(n?1)?. nn?2 例2 同例1,但?未知.

输入公式为:

=average(b3:g5)-tinv(0.05,count(b:3:g5)-1)*stdev(b3:g5)/sqrt(count(b3:g5)) =average(b3:g5)-tinv(0.05,count(b:3:g5)-1)*stdev(b3:g5)/sqrt(count(b3:g5)) 计算结果为(1.133695, 1.172555).

2.1.3

?未知时?2的置信区间:

?2?(n?1)s 置信区间为 ?2,???(n?1)?2?(n?1)s??. 2?1??(n?1)?2?2 例3 从一批火箭推力装置中随机抽取10个进行试验,它们的燃烧时间

(单位:s)如下:

50.7 54.9 54.3 44.8 42.2 69.8 53.4 66.1 48.1 34.5 试求总体方差?的0.9的置信区间(设总体为正态).

操作步骤:

(1)在单元格B3:C7分别输入样本数据;

(2)在单元格C9中输入样本数或输入公式=COUNT(B3:C7); (3)在单元格C10中输入置信水平0.1.

(4)计算样本方差:在单元格C11中输入公式=VAR(B3:C7) (5)计算两个查表值:在单元格C12中输入公式=CHIINV(C10/2,C9-1),在单元格C13中输入公式=CHIINV(1-C10/2,C9-1)

(6)计算置信区间下限:在单元格C14中输入公式=(C9-1)*C11/C12 (7)计算置信区间上限:在单元格C15中输入公式=(C9-1)*C11/C13.

2 8

当然,读者可以在输入数据后,直接输入如下两个表达式计算两个置信限:

=(count(b3:c7)-1)*var(b3:c7)/chiinv(0.1/2, count(b3:c7)-1) =(count(b3:c7)-1)*var(b3:c7)/chiinv(1-0.1/2, count(b3:c7)-1)

2.2 两正态总体均值差与方差比的区间估计

当?12 =??22 =??2但未知时?1-?2的置信区间

??11???.

?n1n2?2.2.1

置信区间为 ??x?y??t?(n1?n2?2)Sw?2 例4 在甲,乙两地随机抽取同一品种小麦籽粒的样本,其容量分别为5和7,分析其蛋白质含量为

甲:12.6 13.4 11.9 12.8 13.0

乙:13.1 13.4 12.8 13.5 13.3 12.7 12.4 蛋白质含量符合正态等方差条件,试估计甲,乙两地小麦蛋白质含量差μ1-μ2所在的范围.(取α=0.05) 实验步骤:

(1)在A2:A6输入甲组数据,在B2:B8输入乙组数据;

(2)在单元格B11输入公式=AVERAGE(A2:A6),在单元格B12中输入公式=AVERAGE(B2:B8),分别计算出甲组和乙组样本均值.

(3)分别在单元格C11和C12分别输入公式=VAR(A2:A6),=VAR(B2:B8),计算出两组样本的方差.

(4)在单元格D11和D12分别输入公式=COUNT(A2:A6),=COUNT(B2:B8),计算各样本的容量大小.

(5)将显著性水平0.05输入到单元格E11中. (6)分别在单元格B13和B14输入

=B11-B12-TINV(0.025,10)*SQRT((4*C11+6*C12)/10)*SQRT(1/ 5+1/7)

9

=B11-B12+TINV(0.025,10)*SQRT((4*C11+6*C12)/10)*SQRT(1/ 5+1/7)

计算出置信区间的下限和上限.

2.2.2

2?1和??未知时方差比σ1/σ22的置信区间

?21?s, 置信区间为 ?12sF(n?1,n?1)2?2?1?2?s1? .

sF?(n1?1,n2?1)??1?2?2122 例5 有两个化验员A、B,他们独立地对某种聚合物的含氯量用相同的方法各作了10次测定.其测定值的方差分别是SA=0.5419,SB=0.6065.设σ所测量的数据总体(设为正态分布)的方差.求方差比σ操作步骤:

2A2A和σ

2B分别是A、B

2B的 0.95置信区间.

(1)在单元格B2,B3输入样本数,C2,C3输入样本方差,D2输入置信度. (2)在B4和B5利用公式输入

=C2/(C3*FINV(1-D2/2,B2-1,B3-1))

=C2/(C3*FINV(D2/2,B2-1,B3-1))

计算出A组和B组的方差比的置信区间上限和下限.

10

2.3 练习题

1. 已知某树种的树高服从正态分布,随机抽取了该树种的60株林木组成样本.样本中各林木的树高资料如下(单位:m)

22.3, 21.2, 19.2, 16.6, 23.1, 23.9, 24.8, 26.4, 26.6, 24.8, 23.9, 23.2, 23.3, 21.4, 19.8, 18.3, 20.0, 21.5, 18.7, 22.4, 26.6, 23.9, 24.8, 18.8, 27.1, 20.6, 25.0, 22.5, 23.5, 23.9, 25.3, 23.5, 22.6, 21.5, 20.6, 25.8, 24.0, 23.5, 22.6, 21.8, 20.8, 19.5, 20.9, 22.1, 22.7, 23.6, 24.5, 23.6, 21.0, 21.3, 22.4,18.7, 21.3, 15.4, 22.9, 17.8, 21.7, 19.1, 20.3, 19.8 试以0.95的可靠性,对于该林地上全部林木的平均高进行估计.

2. 从一批灯泡中随机抽取10个进行测试,测得它们的寿命(单位:100h)为:

50.7,54.9,54.3,44.8,42.2,69.8,53.4,66.1,48.1,34.5.

试求总体方差的0.9的置信区间(设总体为正态).

3. 已知某种玉米的产量服从正态分布,现有种植该玉米的两个实验区,各分为10个小区,各小区的面积相同,在这两个实验区中,除第一实验区施以磷肥外,其它条件相同,两实验区的玉米产量(kg)如下:

第一实验区: 62 57 65 60 63 58 57 60 60 58 第二实验区: 56 59 56 57 60 58 57 55 57 55

试求出施以磷肥的玉米产量均值和未施以磷肥的玉米产量均值之差的范围(α=0.05)

3 假设检验实验

实验内容:单个总体均值的假设检验;两个总体均值差的假设检验;两个正态总体方差齐性的假设检验;拟合优度检验.

实验目的与要求:(1)理解假设检验的统计思想,掌握假设检验的计算步骤;(2)掌握运用Excel进行假设检验的方法和操作步骤;(3)能够利用试验结果的信息,对所关心的事物作出合理的推断.

3.1 单个正态总体均值μ的检验

?2已知时μ的U检验

3.1.1

例1 外地一良种作物,其1000m2产量(单位:kg)服从N(800, 502),引入本地试种,收获时任取5块地,其1000m2产量分别是800,850,780,900,820(kg),假定引种后1000m2产量X也服从正态分布,试问:

(1)若方差未变,本地平均产量μ与原产地的平均产量μ0=800kg 有无显著变化. (2)本地平均产量μ是否比原产地的平均产量μ0=800kg高.

(3)本地平均产量μ是否比原产地的平均产量μ0=800kg低.

操作步骤:

11

(1)先建一个如下图所示的工作表:

(2)计算样本均值(平均产量),在单元格D5输入公式=AVERAGE(A3:E3); (3)在单元格D6输入样本数5;

(4)在单元格D8输入U检验值计算公式=(D5-800)/(50/SQRT(D6); (5)在单元格D9输入U检验的临界值=NORMSINV(0.975);

(6)根据算出的数值作出推论.本例中,U的检验值1.341641小于临界值1.959961,故接受原假设,即平均产量与原产地无显著差异.

(7)注:在例1中,问题(2)要计算U检验的右侧临界值:在单元格D10输入U检验的上侧临界值=NORMSINV(0.95).问题(3)要计算U检验的下侧临界值,在单元格D11输入U检验下侧的临界值=NORMSINV(0.05).

3.1.2

?2未知时的t检验

例2 某一引擎制造商新生产某一种引擎,将生产的引擎装入汽车内进行速度测试,得到行驶速度如下:

250 238 265 242 248 258 255 236 245 261 254 256 246 242 247 256 258 259 262 263

该引擎制造商宣称引擎的平均速度高于250 km/h,请问样本数据在显著性水平为0.025时,是否和他的声明抵触? 操作步骤:

(1)先建如图所示的工作表:

12

(2)计算样本均值:在单元格D8输入公式=AVERAGE(A3:E6); (3)计算标准差 :在单元格D9输入公式=STDEV(A3:E6); (4)在单元格D10输入样本数20.

(5)在单元格D11输入t检验值计算公式=(D8-250)/(D9/(SQRT(D10)),得到结果1.06087;

(6)在单元格D12输入t检验上侧临界值计算公式=TINV(0.05, D10-1). 欲检验假设

H0:μ=250;H1:μ>250.

已知 t统计量的自由度为(n-1)=20-1=19,拒绝域为t>t0.025 =2.093.由上面计算得到t检验统计量的值1.06087落在接收域内,故接收原假设H0.

3.2 两个正态总体参数的假设检验

当?12 =??22 =??2但未知时μ1-μ2的检验

3.2.1

在此情况下,采用t检验.

例 试验及观测数据同11.2中的练习题3,试判别磷肥对玉米产量有无显著影响? 欲检验假设

H0:μ1=μ2;H1:μ1>μ2.

操作步骤:

(1) 建立如图所示工作表: 甲方62576560635857606058乙方56595657585760555755t-检验: 双样本等方差假设甲方平均方差观测值合并方差假设平均差dft StatP(T<=t) 单尾t 单尾临界P(T<=t) 双尾t 双尾临界乙方60577.111111112.6666666710104.888888890183.033899380.003569341.734063590.007138692.10092204 (2)选取“工具”—“数据分析”;

(3)选定“ t-检验:双样本等方差假设”. (4)选择“确定”.显示一个“t-检验:双样本等方差假设”对话框;

13

(5)在“变量1的区域”输入A2:A11. (6)在“变量2的区域”输入B2:B11.

(7)在“输出区域”输入D1,表示输出结果放置于D1向右方的单元格中. (8)在显著水平“α”框,输入0.05. (9)在“假设平均差”窗口输入0. (10)选择“确定”,计算结果如D1:F14显示.

得到t值为3.03,“t单尾临界”值为1.734063.由于3.03>1.73,所以拒绝原假设,接收备择假设,即认为使用磷肥对提高玉米产量有显著影响.

3.2.2

2σ1与σ21-μ2的U检验 2已知时μ 例3 某班20人进行了数学测验,第1组和第2组测验结果如下:

第1组: 91 88 76 98 94 92 90 87 100 69 第2组: 90 91 80 92 92 94 98 78 86 91

已知两组的总体方差分别是57与53,取α =0.05,可否认为两组学生的成绩有差异? 操作步骤:

(1)建立如图所示工作表:

(2)选取“工具”—“数据分析”;

(3)选定“z-检验:双样本平均差检验”;

(4)选择“确定”,显示一个“z-检验:双样本平均差检验”对话框; (5)在“变量1的区域”输入A2:A11; (6)在“变量2的区域”输入B2:B11; (7)在“输出区域”输入D1;

(8)在显著水平“α”框,输入0.05;

(9)在“假设平均差”窗口输入0; (10)在“变量1的方差”窗口输入57; (11)在“变量2的方差”窗口输入53; (12)选择“确定”,得到结果如图所示.

计算结果得到z=-0.21106(即u统计量的值),其绝对值小于“z双尾临界”值

14

1.959961,故接收原假设,表示无充分证据表明两组学生数学测验成绩有差异.

3.2.3 两个正态总体的方差齐性的F检验

例5 羊毛在处理前与后分别抽样分析其含脂率如下: 处理前:0.19 0.18 0.21 0.30 0.41 0.12 0.27

处理后:0.15 0.13 0.07 0.24 0.19 0.06 0.08 0.12 问处理前后含脂率的标准差是否有显著差异? 欲检验假设

H0:σ

操作步骤如下:

(1)建立如图所示工作表:

221=σ2;

H1:σ

221≠σ2.

(2)选取“工具”—“数据分析”; (3)选定“F-检验 双样本方差”. (4)选择“确定”,显示一个“F-检验:双样本方差”对话框; (5)在“变量1的区域”输入A2:A8. (6)在“变量2的区域”输入B2:B9. (7)在显著水平“α”框,输入0.025. (8)在“输出区域”框输入D1. (9)选择“确定”,得到结果如图所示.

计算出F值2.35049小于“F单尾临界”值5.118579,且P(F<=f)=0.144119>0.025,故接收原假设,表示无理由怀疑两总体方差相等.

4 拟合优度检验

拟合优度检验使用统计量

(ni?npi)2, (11.1) ???npi?1i2kExcel 在计算拟合优度的卡方检其中ni为实测频数,npi为理论频数,k为分组数。验方面,提供了CHITEST函数,其格式如下:

CHITEST(实测频数区域,理论频数区域)

15

得到临界概率

2p0?P??(k?1)??2?,

其中

?2为上述统计量(1.11)的值.在应用中,可根据临界概率p0,利用函数

CHIINV(p0,k?1)确定?2统计量的值.即

(ni?npi)2CHIINV(p0,k?1)??

npi?1ik 例6 设总体X中抽取120个样本观察值,经计算整理得样本均值x?209,样本方

差s=42.77及下表.试检验X是否服从正态分布(α=0.05). 组号 1 2 3 4 5 6 7 8 9 ∑ 小区间 (-∞,198] (198,201] (210,204] (204,207] 207,210] (210,213] (213,216] (216,219] (219,+∞) 频数 6 7 14 20 23 22 14 8 6 120 操作步骤: (1)输入基本数据

建立如下图所示工作表,输入区间(A2:A10),端点值(B2:B10),实测频数的值(C2:C10).区间可以不输入,输入是为了更清晰;端点值为区间右端点的值,当右端点是+∞时,为了便于处理,可输入一个很大的数(本例取10000)代替+∞. (2)计算理论频数

??x?209,???s?6.539877675,假设X~N(??,??2), 由极大似然估计得参数?则 P{a

将计算的理论频数值放入D列.

在D2输入=120*(NORMDIST(198,209,6.539877675,TRUE)) 在D3输入=120*(NORMDIST(B3,209,6.539877675,TRUE) -NORMDIST(B2,209,6.539877675,TRUE)) 类似地,可算出D4至D10的值.

应用小技巧:计算D4到D10值的简便方法:选定D3单元格,单击鼠标右键弹出

16

快捷菜单从中选择“复制”,然后选定单元格D4到D10,单击鼠标右键弹出快捷菜单从中选择"粘贴",即可得到D4到D10的值. (3)计算卡方统计量的值

本例中,估计参数2个(?,?2),分组数k=9. ①使用CHITEST函数计算临界概率p0.

在单元格E12输入:=CHITEST(C2:C10,D2:D10),得到p0= 0.997499. ②根据临界概率p0,利用函数CHIINV(p0,k?1)确定?2统计量的值. 在单元格E13输入=CHIINV(E12, 8), 得到统计量的值?2=1.104413.

(4)结果分析

先查出临界值:在单元格E14输入=CHIINV(0.05,6),得到12.59158.由于统计量的值1.104413小于临界值12.5918,故接受原假设,认为X服从正态分布.

练习与习题

1. 某春小麦良种千粒重μ=34克,方差σ2=1.96,现自外地引入新品种,在8个小区上种植,得其千粒重为:35.6,37.6,33.4,35.1,32.7,36.8,35.9,34.6,问新引入品种的千粒重与当地良种有无显著差异.

2. 为防止某种害虫而将一种农药施入土中,规定经三年后土壤中如有5ppm以上浓度时认为有残效,现在施药区分别抽取了10个土样(施药三年后)进行分析,它们浓度分别为:

1. 8, 3.2, 2.6, 6.0, 5.4, 7.6, 2.1, 2.5, .1, 3.5

设测定值服从正态分布,问这种农药三年后是否有残效.

3. 设甲乙两种甜菜的含糖率分别服从N(μ1,7.5)和N(μ2,6),现从两种甜菜中分别抽取若干样品,测其含糖率分别为:

17

甲种: 24.3,17.4,23.7,20.8,21.3 (%) 乙种: 20.2,16.9,16.7,18.2 (%) 问甲,乙两种甜菜含糖率的平均值有无显著变化.

4. 某化工原料在处理前后取样分析,测得其含脂率的数据如下:

处理前:0.19,0.18,0.21,0.30,0.66,0.42,0.08,0.12,0.30,0.27. 处理后:0.19,0.24,1.04,0.08,0.20,0.12,0.31,0.29,0.13,0.07.

假定处理前后的含脂率都服从正态分布,且方差不变,给定显著水平α=0.05,问处理前后含脂率的均值有无显著变化.

5. 某农场为试验磷肥能否提高水稻收获量,在同类农场中选定面积为0.30m2的试验地若干块,试验结果,未施肥的九块地收获量为:

8.6,7.9,9.3,10.7,11.4,9.8,9.5,10.1,8.5

另外八块地施了磷肥,其收获量为:

12.6,10.2,11.7,12.3,11.1,10.5,10.6,12.2 试检验施肥后水稻的收获量有无显著提高.(假定水稻收获量服从正态分 部). 提示:先检验方差齐性.

6. 在一个小时内电话总机每分钟收到的呼唤次数统计如下:

呼唤次数: 0 1 2 3 4 5 6 ≥7

频数: 8 16 17 10 6 2 1 0 试用卡方分布检验每小时电话总机收到呼唤次数是否服从泊松分布. 7. 下面是某系高等数学的成绩:

87,75,85,78,62,90,72,66,75,74,73,77,75,84,64 78,90,65,90,78,57,71,48,74,72,53,69,68,74,62 90,80,70,84,86,65,60,68,89,72,53,69,68,74,73 65,71,68,70,85,79,43,79,80,77,88,93,68,74,51 试在显著水平α=0.05小,检验这次成绩的分布是否服从正态分布.

5 方差分析实验

试验内容:单因素方差分析;双因素无重复试验的方差分析;双因素等重复试验的方差分析.

试验目的与教学要求:充分理解方差分析的统计思想;充分理解平方和分解的统计思想;学会如何充分地利用试验结果的信息,对所关心的事物(因素的影响作出合理的推断.

5.1 单因素方差分析

例1 检验某种激素对羊羔增重的效应.选用3个剂量进行试验,加上对照(不用激素)在内,每次试验要用4只羊羔,若进行4次重复试验,则共需16只羊羔.一种常用的试验方法,是将16只羊羔随机分配到16个试验单元.在试验单元间的试验条件一致的情况下,经过200天的饲养后,羊羔的增重(kg)数据如下表.

18

处理 重复 1 2 3 4 1(对照) 47 52 62 51 2 50 54 67 57 3 57 53 69 57 4 54 65 75 59 试问各种处理之间有无显著差异?

操作步骤:

(1)输入数据,如下图所示: (2)选取“工具”—“数据分析”; (3)选定“单因素方差分析”; (4)选定“确定”,显示“单因子方差分析”对话框; (5)在“输入区域”框输入数据矩阵(首坐标):(尾坐标),如上例为“A2:D6”,其中第二行“第一组,?,第四组”作为标记行; (6)在“分组方式”框选定“列”;

(7)打开“分类轴标记行在第一行上”复选框.若关闭,则数据输入域应为A3:D6. (8)指定显著水平α=0.05;

(9)选择输出选项,本例选择“输出区域”紧接在数据区域下为:“A7”; (10)选择“确定”,则得输出结果.

19

结果分析:F crit=3.4903是α=0.05的F统计量临界值,F=1.305047是F统计量的计算值,

P-value=0.318=P{F>1.30505}.

由于1.30505<3.4903,因此接受原假设,即无显著差异.

5.2 双因素无重复试验的方差分析:

例2 将土质基本相同的一块耕地分成均等的五个地块,每块又分成均等的四个小区.有四个品种的小麦,在每一地块内随机分种在四个小区上,每小区的播种量相同,测得收获量如下表(单位:kg).试以显著性水平α1 =0.05, α2=0.01,考察品种和地块对收获量的影响是否显著.

地块 品种 A1 A2 A3 A4 32.3 33.2 30.8 29.5 34.0 33.6 34.4 26.2 34.7 36.8 32.3 28.1 36.0 34.3 35.8 28.5 35.5 36.1 32.8 29.4 B1 B2 B3 B4 B5 操作步骤:

(1)输入数据,如下图所示:

20

(2)选取“工具”—“数据分析”,

(3)选定“双因子方差分析:无重复试验”选项, (4)选定“确定”,显示“双因子方差分析:无重复试验”对话框, (5)在“输入区域”框输入A1:F5. (6)在“输出区域”输入A7 (7)打开“标记”复选框.

(8)指定显著水平“α”为“0.05”或“0.01”. (9)选择“确定”,则得输出结果从第7行起显示出来.

5.2.1 双因素等重复试验方差分析:

例3 一火箭使用了四种燃料、三种推进器作射程试验,对于燃料与推进器的每一

种搭配,各发射火箭两次,测得结果如下表:

燃料 推 进 器 B1 58.2 52.6 49.1 42.8 60.1 58.3 75.8 71.5 B2 56.2 41.2 54.1 50.5 70.9 73.2 58.2 51.0 B3 65.3 60.8 51.6 48.4 39.2 40.7 48.7 41.4 A1 A2 A3 A4 试检验燃料和推进器对火箭射程是否是显著影响,两因素的交互作用对火箭射程是否有显著影响. 操作步骤:

(1)输入数据,如下图所示:

21

(2)选取“工具”、“数据分析??”,

(3)选定“双因子方差分析:重复试验”选项, (4)选定“确定”,显示“双因子方差分析:重复试验”对话框, (5)在“输入区域”框输入A1:D9. (6)在“输出区域”输入A11.

(7)在“每一样本行数”框输入“2”,代表两行. (8)指定显著水平“α”为“0.05”. (9)选择“确定”,则得输出结果从第11行起显示出来.

本例假设:HA :因素A对试验结果无显著影响. HB:因素B对试验结果无显著影响.

HAB:交互因素AB对试验结果无显著影响. 已算出:

SA=261.675,MSA=87.225;SB=370.9808,MSB=185.4904;SAB=1768.693, MSAB=294.7821,误差=236.95,MSe=19.74583,总计St=2638.293

F值与F-crit比较可以看出,F>F-crit,对α=0.05,各因素均显著,应拒绝原假设HA, HB,HAB.

可以继续计算对显著水平α= 0.01的推断结果.

5.3 练习与习题

1. 假设某医院应用克矽平治疗矽肺,治疗前、中、后期患者血液中粘蛋白含量(mg%)观察结果如下:

患者编号 1 2 3 4 5

治疗前 6.5 7.3 7.3 3 7.3 治疗中 4.5 4.4 5.9 3.6 5.5 治疗后 3.5 3.6 3.7 2.6 4.3 22

6 7 5.6 7.3 4.5 5.2 3.7 5 试问用克矽平治疗矽肺对降低血液中粘蛋白含量是否有作用(α=0.05)?

2. 下面给出了小白鼠接种不同菌型伤寒杆菌的存活日数,试问三种菌型的平均存活日数有否显著差异(α=0.05)?

菌型 A1 A2 A3 接种后存活日数 2,4,3,2,4,7,7,2,5,4 5,6,8,5,10,7,12,6,6 7,11,6,6,7,9,5,10,6,3,10

3. 抽查某地区三所小学五年级男生的身高,得以下数据: 小学 第一小学 第二小学 第三小学 身高(cm) 128.1 , 134.1 , 133.1 ,138.9,140.8,127.4 150.3 , 147.9 , 136.8 ,126.0,150.7,155.8 140.6 , 143.1 , 144.5 ,143.7,148.5,146.4 试问该地区这三所小学五年级男生的平均身高有否显著差异(α=0.05)?

4. 下面记录了某地区四个生产队在1956—1959年的667m2小麦平均产量:

年份 1956 1957 1958 1959 生产队产量 1 146 258 415 454 2 200 303 461 452 3 148 282 431 453 4 151 290 413 415

试检验:(1)各生产队间的差异是否显著?

(2)逐年产量的增长是否显著(α=0.05)?

5. 下面记录了三位操作工在四台不同机器上操作三天的日产量: 机器 M1 M2 M3 M4

23

操 作 工 甲 15,15,17 17,17,17 15,17,16 18,20,22 乙 19,19,16 15,15,15 18,17,16 15,16,17 丙 16,18,21 19,22,22 18,18,18 17,17,17 试检验:(1)操作工之间的差异是否显著? (2)机器之间的差别是否显著?

(3)交互影响是否显著(α=0.05)?

6 回归分析实验

实验内容:一元线性回归;多元线性回归;回归分析中其它函数的应用.

实验目的与要求:掌握回归分析的基本原理、实验操作步骤,能够应用回归分析解决实际问题;根据实验数据,能够熟练地建立回归方程;熟练地掌握回归方程的显著性检验;熟练地掌握回归系数的显著性检验.

6.1 利用Excel进行一元线性回归分析

例1 今收集到某地区1950~1975年的工农业总产值(X)与货运周转量(Y)的历史数据如下:

X:0.50 0.87 1.20 1.60 1.90 2.20 2.50 2.80 3.60 4.00 4.10 3.20 3.40 4.4 4.70 5.40 5.65 5.60 5.70 5.90 6.30 6.65 6.70 7.05 7.06 7.30

Y:0.90 1.20 1.40 1.50 1.70 2.00 2.05 2.35 3.00 3.50 3.20 2.40 2.80 3.2 3.40 3.70 4.00 4.40 4.35 4.34 4.35 4.40 4.55 4.70 4.60 5.20 试分析X与Y间的关系. 操作步骤:

(1)首先在Excel中建立工作表,样本X数据存放在A1:A27,其中A1存标记X;样本Y数据存放在B1:B27,其中B1存标记Y. (2)选取“工具”、“数据分析”?. (3)选定“回归”. (4)选择“确定”.

(5)在“输入Y区域”框输入B1:B27. (6)在“输入X区域”框输入A1:A27.

(7)关闭“常数为零”复选框,表示保留截距项,使其不为0.

24

(8)打开“标记”复选框,表示有标记行.

(9)打开“置信水平”复选框,并使其值为95%. (10)在“输出区域”框,确定单元格E2. 结果如图所示.其中SS为平方和、MS表示均方、df为自由度.由此我们可义看出: (1)回归方程:Y=0.6754+0.5951X;

(2)F统计量的值:F=1107.942.由于P{F>1107.942}=1.34353E-21,故所建回归方程极显著.

6.2 利用EXCEL进行多元线性回归分析

例2 今收集到历史数据如下:

X1:7 1 11 11 7 11 3 1 2 21 1 11 10 14 12

X2:26 29 56 31 52 55 71 31 54 47 40 66 68 43 58 X3:6 15 8 8 6 9 17 22 18 4 23 9 8 12 18

X4:60 52 20 47 33 22 6 44 22 26 34 12 12 28 37

Y:79 75 103 88 96 108 100 75 94 116 84 115 110 99 107 使试分析X1, X2, X3, X4与Y之间的关系.

解 首先在Excel中建立工作表,其中样本X数据输入在A2:D16;样本Y数据输入在E2:E16.

(1)选取“工具”—“数据分析”; (2)选定“回归”; (3)选择“确定”;

(4)在“输入Y区域”框输E2:E16; (5)在“输入X区域”框输入A2:D16;

(6)关闭“常数为零”复选框,表示保留截距项,使其不为0; (7)关闭“标记”复选框;

25

(8)打开“置信水平”复选框,并使其值为95%; (9)在“输出区域”框,确定单元格G1; 结果如下表所示; 由此我们可义看出:

①回归方程:Y=59.6881+1.45441X1+0.54959X2+0.06771X3—0.0817X4; ②回归方程的显著性检验:

由于F统计量值为:F=90.9964,而P{F>90.9964}=8.01843E-08,故所建回归方程是极显著的;

错误!未找到引用源。回归系数的显著性检验:

关于X1,由于P{t>8.196}=9.5E-6,故X1是显著的; 关于X2,由于P{t>4.369}=0.0014,故X2是显著的; 关于X3,由于P{t>0.413}=0.68896,故X3是不显著的; 关于X4,由于P{t>-0.6863}=0.50811,故X4是不显著的.

6.3 练习与习题

1. 研究物体在横断面上渗透深度H(厘米)与局部能量E(每平方米厘米 积上的能量)的关系,得到试验结果如下: 能量E 深度H 能量E 深度H 能量E 深度H 41 4 139 20 250 31 50 8 154 19 269 36 81 10 180 23 301 37 104 14 208 26 120 16 241 30

26

试检验渗透深度H与局部能量E之间是否存在显著的线性相关关系.如果存在,求H关于E的线性回归方程.

2. 拖拉机拉杆的曳力F与拖拉机的速度V有关,测得数据如下: V(里/小时) 0.9 1.3 2.0 2.7 3.4 F(斤) 425 420 480 495 530 V(里/小时) 3.6 4.1 5.2 5.5 6.0 F(斤) 540 590 610 690 680 检验拖拉机顶曳力F与拖拉机速度V之间是否存在显著的线性相关关系.如果存在,求F关于V的线性回归方程.

3. 气体在容器中被吸引的比率Y与气体的温度X1和吸收液体的蒸汽压力X2有关,其数学模型为Y=A+B1X1+B2X2,测得试验数据为:

X1 78.0 113.5 130.0 154.0 X2 1.0 3.2 4.8 8.4 Y 1.5 6.0 10.0 20.0 X1 169.0 187.0 206.0 214.0 X2 12.0 18.5 27.5 32.0 Y 30.0 50.0 80.0 100.0

求Y关于X1、X2的二元线性回归方程.

7 数据分析综合实验

试验内容:研究B1,B2,B3三个厂家生产的果树专用复合肥的效果、土壤有机质含量对苹果产量的影响、平均产量及其波动大小等.选择密度和品种相同的12个苹果园A1,A2,?,A12进行施肥实验,施肥方式和单位面积上的施肥数量相同.观测数据(见下表)前三列为为单株产量(kg),最后一列为土壤有机质含量(%). A1 A2 A3 A4 A5 A6 A7 A8 A9 A10

B1(X1) 44.4 46.3 53.1 49.2 51.3 56.2 52.5 47.5 55.3 47.4 B2(X2) 44.1 45.6 52.5 48.5 49.2 56.1 51.5 46.3 53.2 46.8 B3(X3) 42.2 43.1 43.5 47.5 48.5 50.5 48.5 45.2 50.1 45.4 因变量Y 0.69 0.73 0.97 0.83 0.81 1.13 0.94 0.84 1.08 0.81 27

A11 A12 53.2 57.8 51.8 55.4 48.8 54.5 0.98 1.12 实验目的与要求:通过本实验培养学生数据处理的综合能力和应用数学方法解决农业问题的初步能力.要求学生综合应用参数估计、假设检验、方差分析和回归分析等知识,进行数据处理,并根据自己掌握的农业知识进行结果分析,完成一个小论文. 操作步骤:由于本实验为数据分析综合实验,故不给出具体操作步骤.请同学们充分发挥自己的科研潜力,充分利用自己的数学知识和农业科学知识,分析农业科研问题.仅给出如下提示:

1.将产量数据输入到B2:D13,土壤有机质数据输入到E2:E13(这样输入数据是为了叙述方便,并非一定如此).

2. 给定显著性水平α(一般取α=0.05),对各施肥水平下的单株平均产量进行区间估计.

3. 设B1、B2和B3三个水平下的产量观测数据分别来自正态总体N(μ1,σ12)、N(μ2,σ22)和N(μ3,σ32),分别进行任意两个总体均值差的t检验和方差齐性的F检验,即检验假设

H1:μ1-μ2=0; H2:μ1-μ3=0; H3:μ2-μ3=0; H4:σ1=σ2; H5:σ1=σ3; H6:σ2=σ3.

4. 以12个实验作为因素A的12个水平,以三种施肥方式作为因素B的3个水平,进行双因素方差分析,分析肥料和实验点对单株产量是否有显著影响.

5. 分别以三种施肥方式下的单株产量作为自变量X1,X2,X3,以土壤有机质含量作为因变量Y,即选择X值输入区域为C2:D13,Y值输入区域为E2:E13进行多元线性回归分析.结果表明,回归方程极显著(F=41.5806127,Significance F=3.16733E-05),但变量X1,X3并不显著,其中X1尤为不显著(t Stat=0.079041407,P-value=0.938941048).

6. 剔除X1(当有多个变量不显著时,总是先剔除最不显著的变量,而且每次仅剔除一个自变量),选择X值输入区域为C2:D13(Y值输入区域仍为E2:E13),重新进行回归分析.结果表明,回归方程极显著(F=70.10901854,Significance F=3.25009E-06).但变量X3仍不显著(t Stat=0.531040343,P-value=0.608244525).

7. 剔除X3,选择X值输入区域为C2:C13(Y值输入区域仍为E2:E13),再次进行回归分析,结果表明,回归方程和方程中包含的自变量(仅有X2)均极显著. 8. 分析前述各项数据处理结果,以论文的格式写出完整的实验报告. 在下列两题中任选一题,以论文的形式写出实验报告.

1.某地区种子部门对玉米的4个新品种B1、B2、B3、B4进行产量和环境适应性实验,每个品种分别在该地区的沙壤土地(A1)、粘壤土地(A2)和中壤土地(A3)上进行3次重复实验,每200平方米上的产量(kg)数据见表11.1,试分析品种不同和土壤类型不同对产量的影响是否显著,并对如何推广这4个品种提出自己的建议.??

28

2.根据能定量描述和可搜集到实际数据的原则,经初步分析认为:某市消费人口X1(万人)、蔬菜年平均价格X2(分/kg)、瓜果年人均消费量X3(kg)、 副食年人均消费量X4(kg)和粮食年人均消费量X5(kg)是影响蔬菜需求量Y(万吨)的主要因素.调查数据如表11.2.试对蔬菜需求量的影响因素进行分析.

表11.1 产量数据

品种B1 品种B2 品种B3 品种B4 沙壤A1 172 177 163 208 177 183 159 212 183 183 171 232 粘壤A2 220 157 193 163 206 161 182 172 211 159 172 167 中壤A3 172 205 188 179 188 233 195 182 176 212 184 183

表11.2 调查数据表

年份 蔬菜总 人口数 蔬菜价 瓜果人均 副食人均 粮食人均 销量Y 量X1 格X2 销量X3 销量X4 销量X5 1965 7.45 425.5 8.12 17.5 17.8 185.85 1966 7.605 422.3 8.32 22.9 19.51 185.35 1967 7.855 418 8.36 23.7 18.93 185.1 1968 7.805 419.2 8.2 21.1 19.05 184.8 1969 6.9 384.2 8.86 23.3 19.57 184.6 1970 7.47 372.5 7.7 19.1 19.95 184.25 1971 7.385 372.9 8.46 18.2 20.89 181.35 1972 7.225 380.8 8.88 22.2 23.27 179.3 1973 8.13 401.7 9 27.6 26.06 178.1 1974 8.72 406.5 8.8 28.8 28.55 176.25 1975 9.145 410.5 9.26 27.8 30.12 174.35 1976 10.105 447 8.62 24.4 32.78 174.25 1977 10.17 452.8 8.44 24.1 32.21 179.35 1978 10.54 467.1 9.66 27.8 33.57 173.85 1979 10.635 495.2 9.68 19.5 34.86 179.5 1980 10.455 500 11.32 25.4 36.6 166.85 1981 10.995 525 12.3 28.4 40.35 158.25 1982 12.38 550 12.88 35.4 45 155

29

1983

11.77 561 14.02 34.8 49.87 141.05 8 MATLAB数理统计

8.1

MATLAB基础

MATLAB的意思是Matrix laboratory,是进行科学计算的重要工具.启动MATLAB后,出现如下图所示的界面,在缺省状态,呈现3个窗口.右边的窗口(Command Window)为命令窗口;左边的两个窗口分别为启动平台(Launch Pad)和命令历史(Command history)窗口,也可以切换到工作空间(Workspace)和当前目录浏览器窗口(Current Directory).

可以在命令窗口通过键盘输入要执行的命令并按回车键确认,也可以点击菜单“File”—“New”—“M-file”先建立.m文件(也称为m-文件或M-文件),在该文件中依次输入要执行命令,形成一个程序,然后执行这个程序.

程序必须被储存后方可执行.可以点击菜单“Debug”—“Run”执行程序,也可以按F5键执行程序.

M-文件的名字可以由英文字母a-z及A-Z,数字0-9和下划线组成,但必须以英文字母打头!否则将会产生重大错误.

输入矩阵的最简单的方法是把矩阵的元素直接排列在方括号“[]”中,每行内的元

30

素用空格或逗号分开,行与行之间用分号分开,多个空格被视为一个空格.例如输入 a = [1 2 3; 4 5 6; 7 8 9] 或

a = [1,2,3; 4,5,6; 7,8,9] 都得到输出结果 a =

1 2 3 4 5 6 7 8 9

大矩阵可以分行输入,用回车键代替分号,这样的输入形式更接近我们平时使用的矩阵格式.例如

a = [1 2 3 4 5 6 7 8 9]

可以先将一个矩阵输入到Excel工作表,即先建立数据文件.然后打开“file”—“Import Data”菜单,即启动导入数据导航,按提示打开Excel工作表,将数据导入到MATLAB的工作空间中去.

矩阵也称为数组.只有一行或一列的数组称为一维数组,有多个行和多个列的数组称为二维数组.一维数组x的第i个元素记为x(i),二维数组a的第i行第j 列的元素记为a(i,j).

MATLAB采用双精度储存变量和数值计算,但能以多种格式输出数据.例如 x = [4/3 1.2345e–6]

则在几种常见的的格式下,输出结果分别为 format short

1.3333 0.0000 format short e

1.3333e+000 1.2345e–006 format short g

1.3333 1.2345e–006 format long

1.33333333333333 0.00000123450000 format long e

1.333333333333333e+000 1.234500000000000e–006 format long g

1.33333333333333 1.2345e–006 format rat

4/3 1/810045

应当先执行格式命令,然后再输出数据.MATLAB的缺省格式为format short.

要显示一个变量的内容,只需在命令窗口或程序中键入该变量的名字.例如在命令

31

窗口依次执行a=1/3 ,format long,a这三个命令,结果如下: >> a=1/3 a =

0.3333 >> format long >> a a =

0.33333333333333

若最大的元素大于1000或小于0.001,则显示short或long格式时会加上一个比例. 在命令后加上分号“;”,则屏幕上不会立即显示出结果,这在运算大的数据量时十分有用,如下命令产生100*100的魔方矩阵,但并不在屏幕上显示. A = magic(100);

如果一个命令很长,想另起一行接着输入命令,须要在末尾加上“...”,如: s = 1 – 1/2 + 1/3 – 1/4 + 1/5 – 1/6 + 1/7 ... – 1/8 + 1/9 – 1/10 + 1/11 – 1/12;

可用who或whos来察看当前工作空间中有哪些变量.若要从工作空间中删除所有的变量,用 clear

也可以根据需要一次删除若干个变量,例如要从工作空间中删除x1,x2两个变量,用 clear x1 x2

你可以将工作间保存为一个二进制的.mat文件,以备以后调用.命令 save june10

将工作空间保存到文件june10.mat.也可只保存工作间中的部分变量值,例如要保存变量x,y,z到文件june10.mat,使用命令 save june10 x y z 重载时只需输入 load june10

要想将变量a更名为b,可使用命令 b=a; clear a

MATLAB支持矩阵的加法、减法、乘法、转置、求逆等各种运算.命令a' 和inv(a)分别计算矩阵a的转置矩阵和逆矩阵.MATLAB的算数运算符为:

+ 加 - 减 * 乘 ^ 幂 / 左除 \\ 右除

对于两个标量a, b来说,a/b=b\\a=a÷b,而对于两个矩阵a, b来说, a/b=a*inv(b) b\\a=inv(b)*a

两个同维数组相加减,等于其对应元素相加减.一个数组与一个标量相加减,则等于数组的各元素分别与这个常数相加减.

用符号“. / ”表示两个数组的除法.若x, y是同维数组,则x ./ y表示x的元素分

32

别除以y的对应元素得到的数组. z=x ./ y

即z(i, j)=x(i, j)/y(i, j).x ./ y 与 y .\\ x 相等,都表示x除以y,但运算是在对应元素间进行的,与矩阵的除法是不同的.

矩阵的乘方用“^”符号表示,a^p的意思是a的p次方. 数组的乘方用 “.^” 符号表示.若x=[x1, x2, ?, xn], y=[y1, y2, ?, yn]是同维数组,则

z = x .^ y=[x1^y1, x2^y2, ?, xn^yn] 若c是一个标量,则

z = x .^ c=[x1^c, x2^c, ?, xn^c] 可以使用help命令寻求帮助.例如,键入help clear即可获得clear命令的帮助信息.类似地可以得到其他命令/函数的帮助信息.

8.2 分布函数及数字特征的计算

MATLAB提供了计算常见分布的分布函数和分位数的函数,见表11.4和表11.5.

概率分布函数y=F(x)的计算 函数名称 binocdf poisscdf unifcdf expcdf normcdf tcdf fcdf Chi2cdf 函数名称 binoinv poissinv unifinv expinv norminv tinv finv Chi2inv 函数说明 二项分布B(n,p)的分布函数F(x) 泊松分布P(λ)的分布函数F(x) 均匀分布U[a,b]的分布函数F(x) 指数分布E(λ) 的分布函数F(x) 正态分布N(μ, σ2)的分布函数F(x) t(n)分布的分布函数F(x) F(n1,n2)分布的分布函数F(x) χ2(n)分布的分布函数F(x) 表11.5 上侧α分位数x的计算

函数说明 二项分布B(n,p)的上侧α分位数 泊松分布P(λ)的上侧α分位数 均匀分布U[a,b]的上侧α分位数 指数分布E(λ) 的上侧α分位数 正态分布N(μ, σ2)的上侧α分位数 t(n)分布的上侧α分位数 F(n1,n2)分布的上侧α分位数 χ2(n)分布的上侧α分位数

调用格式 x=binoinv(1-α,n,p) x=poissinv(1-α, λ) x=unifinv(1-α,a,b) x=expinv(1-α, λ) x=norminv(1-α,μ, σ) x=tinv(1-α,n) x=finv(1-α,n1,n2) x=chi2inv(1-α,n) 调用格式 y=binocdf(x,n,p) y=poisscdf(x, λ) y=unifcdf(x,a,b) y=expcdf(x, λ) y=normcdf(x, μ, σ) y=tcdf(x,n) y=fcdf(x,n1,n2) y=chi2cdf(x,n) 8.2.1 函数mean()

语法:m=mean(x)

33

若x是单个向量(可以是行向量,也可以是列向量),则返回结果m是x的均值,若x是矩阵,则返回结果m是行向量,它包含x的每列数据的均值.即若

?x11?xx??21????xn1?x12?x1k?x22?x2k?? ?????xn2?xnk??1n则m?[x1,x2,?,xk],其中xj??xij(j?1,2,?,k).

ni?18.2.2 函数var()

语法:y=var(x)

若x是单个向量(可以是行向量,也可以是列向量),则返回结果y是x的方差,若x是矩阵,则返回结果y是行向量,它包含x的每列数据的方差.Var(x)运用n-1进行标准化处理,其中n为数据的长度.若要运用n进行标准化,可使用var(x,1)格式.

8.2.3 函数std()

语法:y=std(x)

std(x)=sqrt(var(x)),返回样本x的标准差.

8.2.4 函数cov()

语法:C=cov(x)

计算协方差矩阵.若x是单个向量(可以是行向量,也可以是列向量),则返回结果C是x的方差,若x是矩阵,则返回各列数据的协方差构成的协方差矩阵.cov(x)运用n-1进行标准化处理.

8.2.5 函数corrcoef()

语法:R=corrcoef(x)

返回一个相关系数矩阵R.矩阵R的元素R(i, j)与对应的协方差矩阵C=cov(x)的元素C(i, j)的关系为

R(i,j)?C(i,j) C(i,i)C(j,j) 使用MATLAB进行参数估计,与使用Excel进行参数估计的方法相似.

8.3 假设检验

1. 方差已知时单个正态总体均值的U检验

函数:ztest ()

语法:h = ztest (x, m, sigma)

h = ztest (x, m, sigma, alpha)

34

[h, sig, ci, zval] = ztest (x, m, sigma, alpha, tail)

h = ztest (x, m, sigma) 进行显著水平为0.05的U检验,以检验标准差为sigma的正态总体的均值是否等于m.即总体X~N(?,sigma2),样本x?(x1,x2,?,xn)来自总体X,欲检验假设

H0:??m.

返回参数h=0或1,如果h为1,则在显著性水平为0.05时拒绝H0;如果h为0,则在显著性水平为0.05时接受H0.

h = ztest (x, m, sigma, alpha) 给出了显著性水平控制参数alpha.

[h, sig, ci, zval] = ztest (x, m, sigma, alpha, tail) 可以通过制定tail的值来控制备择假设H1.tail的取值及意义为:

tail = 0表示备择假设为H1:??m,即进行双侧检验; tail =?1表示备择假设为H1:??m,即进行左边单侧检验; tail = 1表示备择假设为H1:??m,即进行右边单侧检验. 返回值sig是标准正态分布以统计量 U?称为临界概率或显著性概率.即

tail = 0时 sig?Pu?U; tail =?1时 sig?P?u?U?; tail = 1时 sig?P?u?U?.

其中u~N(0,1).当sig < alpha(等价于h=1)时拒绝H0,否则接受H0.

2. 方差未知时单个正态总体均值的t检验

函数:ttest ()

语法:h = ttest (x, m)

h = ttest (x, m, alpha)

[h, sig, ci] = ttest (x, m, alpha, tail)

h = ttest (x, m) 进行显著水平为0.05的t检验,以检验标准差未知时正态分布样本的

35

x?m 的观测值为分位数的尾部概率,

?/n??

均值是否等于m.返回参数h=1表示在显著性水平为0.05时拒绝H0,h=0表示在显著性水平为0.05时接受H0.

h = ztest (x, m, alpha) 给出了显著性水平控制参数alpha.

[h, sig, ci] = ttest (x, m, alpha, tail) 可以通过制定tail的值来控制备择假设H1.tail的取值及意义与ztest函数一致.

返回值sig是t(n?1)分布以统计量 T?x?m 的观测值为分位数的临界概率,即 s/ntail = 0时 sig?Pt?T??;

tail =?1时 sig?P?t?T?; tail = 1时 sig?P?t?T?.

其中t~t(n?1).当sig < alpha(等价于h=1)时拒绝H0,否则接受H0. 3. 两个正态总体均值差的t检验

函数:ttest2 ()

语法:[h, sig, ci] = ttest2 (x,y)

[h, sig, ci] = ttest2 (x, y, alpha) [h, sig, ci] = ttest2 (x, y, alpha, tail)

进行两正态总体均值是否相等的t检验,使用的统计量为

T?x?y,

11sw?n1n2各参数的含义与函数ttest一致.

11.7.4 方差分析

1. 单因素方差分析 函数anova1()

语法:P=anova1(x)

[P,table]=anova1(x)

[P,table,stats]=anova1(x)

P=anova1(x) 比较数据x (n?k) 中各列观测数据相应的总体均值是否相等.x中的每一列表示一个水平的n次独立的观测值.函数返回零假设

36

H0:?1??2????k

成立的(临界)概率值.如果P<0.05,则拒绝H0,认为k个均值之间的差异显著;如果P<0.01,则认为k个均值之间的差异极显著.

Anova1函数显示两幅图表,第一幅为方差分析表,其前五列与表9.4一致,第六列显示临界概率P.第二幅图表为x各列数据的盒形(box)图.如果盒形图的中心线差别很大,则对应的F值很大,相应的概率值P就小.

[P,table]=anova1(x) 以单元数组的形式返回方差分析表.

[P,table,stats]=anova1(x) 返回stats结构,利用stats结构可以接下来进行多重比较. 2. 双因素方差分析 函数anova2()

语法:P=anova2(x,reps)

[P,table]=anova2(x,reps)

[P,table,stats]=anova1(x,reps)

P=anova2(x,reps) 进行双因素方差分析.其中,数据矩阵x的结构如表9.10所示;参数reps表示重复实验的次数,缺省值为1(无重复).返回参数P是一个3维向量,包含如下3个概率值:

(1) 零假设HB:因素B对试验结果无显著影响 成立的概率; (2) 零假设HA:因素A对试验结果无显著影响 成立的概率; (3) 零假设HAB:因素AB对试验结果无显著影响 成立的概率; 参数table和stats的含义与函数anova1一致. 3. 多重比较

函数multcompare()

语法:c= multcompare(stats)

c= multcompare(stats,alpha)

c= multcompare(stats) 利用stats结构中的信息进行多重比较,返回成对比较的结果矩阵c,也显示一个表示检验的交互式图表.

c是一个5列的矩阵.例如,假如c中某一行的内容为2.0000 5.0000 1.9442 8.2206 14.4971时,表示组2的均值和组5的均值比较,均值差的估计值为8.2206,其95%的置信区间为(1.9442,14.4971).这里,置信区间中不包含0,说明在0.05的显著水平上,两个均值的差异是显著的.如果置信区间包含0,则说明在0.05的显著水平上,两个均值的差异不显著.

11.7.5 回归分析

对于多元线性回归模型:

y??0??1x1????pxp?e

设变量x1,x2,?xp,y的n组观测值为

37

(xi1,xi2,?xip,yi)i?1,2,?,n.

?1??1记 x?????1?

x11x21?xn1x12x22?xn2?x1p???0??y1???????x2p???1??y2?y?,,则????? 的估计值为 ??????????????????xnp??yn??p???(x'x)?1x'y (11.2) b??在Matlab中,用regress函数进行多元线性回归分析,应用方法如下: 语法:b = regress(y, x)

[b, bint, r, rint, stats] = regress(y, x) [b, bint, r, rint, stats] = regress(y, x, alpha)

b = regress(y, x),得到的p?1维列向量b即为(11.2)式给出的回归系数?的估计值. [b, bint, r, rint, stats]=regress(y, x) 给出回归系数?的估计值b,?的95%置信区间((p?1)?2向量)bint,残差r以及每个残差的95%置信区间(n?2向量)rint;向量stats给出回归的R2统计量和F以及临界概率p的值.

如果?i的置信区间(bint的第i?1行)不包含0,则在显著水平为?时拒绝?i?0的假设,认为变量xi是显著的.

[b, bint, r, rint, stats]=regress(y, x, alpha) 给出了bint和rint的100(1-alpha)%的置信区

间.

9 附表Excel 数据分析工具一览表

“F - 检验:双样本方差分析”

此分析工具可以进行双样本F - 检验,用来比较两个样本总体的方差。例如,可以对参加游泳比赛的两个队的时间记分进行F- 检验,查看二者的样本方差是否不同。

38

“t - 检验:成对双样本均值分析”

此分析工具及其公式可以进行成对双样本学生氏t - 检验,用来确定样本均值是否不等。此t -检验并不假设两个总体的方差是相等的。当样本中出现自然配对的观察值时,可以使用此成对检验,例如对一个样本组进行了两次检验,抽取实验前的一次和实验后的一次。

“t - 检验:双样本等方差假设”

此分析工具可以进行双样本学生氏t - 检验。此t- 检验先假设两个数据集的平均值相等,故也称作齐次方差t - 检验。可以使用t - 检验来确定两个样本均值实际上是否相等。

“t - 检验:双样本异方差假设”

此分析工具及其公式可以进行双样本学生氏t –检验。此t - 检验先假设两个数据集的方差不等,故也称作异方差t - 检验。可以使用t - 检验来确定两个样本均值实际上是否相等。当进行分析的样本组不同时,可使用此检验。如果某一样本组在某次处理前后都进行了检验,则应使用“成对检验”。

“z - 检验:双样本均值分析”

此分析工具可以进行方差已知的双样本均值z -检验。此工具用于检验两个总体均值之间存在差异的假设。例如,可以使用此检验来确定两种汽车模型性能之间的差异情况。

“抽样分析”

此分析工具以输入区域为总体构造总体的一个样本。当总体太大而不能进行处理或绘制时,可以选用具有代表性的样本。如果确认输入区域中的数据是周期性的,还可以对一个周期中特定时间段中的数值进行采样。例如,如果输入区域包含季度销售量数据,以四为周期进行取样,将在输出区域中生成某个季度的样本。

“傅立叶分析”

此分析工具可以解决线性系统问题,并能通过快速傅立叶变换(FFT)分析周期性的数据。此工具也支持逆变换,即通过对变换后的数据的逆变换返回初始数据。

“回归分析”

此工具通过对一组观察值使用“最小二乘法”直线拟合,进行线形回归分析。本工具可用来分析单个因变量是如何受一个或几个自变量影响的。例如,观察某个运动员的运动成绩与一系列统计因素的关系,如年龄、身高和体重等。在操作时,可以基于一组已知的体能统计数据,并辅以适当加权,对尚未进行过测试的运动员的表现作出预测。

“描述统计”

此分析工具用于生成对输入区域中数据的单变值分析,提供有关数据趋中性和易变性的信息。

39

“排位和百分比排位”

此分析工具可以产生一个数据列表,在其中罗列给定数据集中各个数值的大小次序排位和相应的百分比排位。用来分析数据集中各数值间的相互位置关系。

“ 随机数发生器”

此分析工具可以按照用户选定的分布类型,在工作表的特定区域中生成一系列独立随机数字。可以通过概率分布来表示主体的总体特征。例如,可以使用正态分布来表示人体身高的总体特征,或者使用双值输出的伯努利分布来表示掷币实验结果的总体特征。

“相关系数”

此分析工具及其公式可用于判断两组数据集(可以使用不同的度量单位)之间的关系。可以使用“相关系数”分析工具来确定两个区域中数据的变化是否相关,即,一个集合的较大数据是否与另一个集合的较大数据相对应(正相关);或者一个集合的较小数据是否与另一个集合的较小数据相对应(负相关);还是两个集合中的数据互不相关(相关性为零)。

“协方差”

此分析工具及其公式用于返回各数据点的一对均值偏差之间的乘积的平均值。协方差是测量两组数据相关性的量度。可以使用协方差工具来确定两个区域中数据的变化是否相关,即,一个集合的较大数据是否与另一个集合的较大数据相对应(正协方差);或者一个集合的较小数据是否与另一个集合的较小数据相对应(负协方差);还是两个集合中的数据互不相关(协方差为零)。

“移动平均”

此分析工具及其公式可以基于特定的过去某段时期中变量的均值,对未来值进行预测。移动平均值提供了由所有历史数据的简单的平均值所代表的趋势信息。使用此工具可以预测销售量、库存或其它趋势。

“直方图”

在给定工作表中数据单元格区域和接收区间的情况下,计算数据的个别和累积频率,用于统计有限集中某个数值元素的出现次数。例如,在一个有20名学生的班级里,可以确定以字母打分(如A、B-等)所得分数的分布情况。直方图表会给出字母得分的边界,以及在最低边界与当前边界之间某一得分出现的次数。出现频率最多的某个得分即为数据组中的众数。

“指数平滑”

此分析工具及其公式基于前期预测值导出相应的新预测值,并修正前期预测值的误差。

40

此工具将使用平滑常数a,其大小决定了本次预测对前期预测误差的修正程度。

“Anova:单因素方差分析”

此分析工具通过简单的方差分析(anova),对两个以上样本均值进行相等性假设检验(抽样取自具有相同均值的样本空间)。此方法是对双均值检验(如t-检验)的扩充。

“Anova:可重复双因素分析”

此分析工具是对单因素anova 分析的扩展,即每一组数据包含不止一个样本。

“Anova:无重复双因素分析”

此分析工具通过双因素anova 分析(但每组数据只包含一个样本),对两个以上样本均值进行相等性假设检验(抽样取自具有相同均值的样本空间)。此方法是对双均值检验(如t-检验)的扩充。

41

此工具将使用平滑常数a,其大小决定了本次预测对前期预测误差的修正程度。

“Anova:单因素方差分析”

此分析工具通过简单的方差分析(anova),对两个以上样本均值进行相等性假设检验(抽样取自具有相同均值的样本空间)。此方法是对双均值检验(如t-检验)的扩充。

“Anova:可重复双因素分析”

此分析工具是对单因素anova 分析的扩展,即每一组数据包含不止一个样本。

“Anova:无重复双因素分析”

此分析工具通过双因素anova 分析(但每组数据只包含一个样本),对两个以上样本均值进行相等性假设检验(抽样取自具有相同均值的样本空间)。此方法是对双均值检验(如t-检验)的扩充。

41

本文来源:https://www.bwwdw.com/article/4boo.html

Top