统计学课后习题答案(袁卫、庞皓、曾五一、贾俊平)

更新时间:2024-01-12 20:17:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

统计学课后习题答案(袁卫、庞皓、曾五一、贾俊平)第三版 第1章 绪论

1.什么是统计学?怎样理解统计学与统计数据的关系?

2.试举出日常生活或工作中统计数据及其规律性的例子。 3..一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2 440加仑的油漆罐。这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4.536 kg。要求: (1)描述总体;

(2)描述研究变量; (3)描述样本; (4)描述推断。

答:(1)总体:最近的一个集装箱内的全部油漆;

(2)研究变量:装满的油漆罐的质量;

(3)样本:最近的一个集装箱内的50罐油漆;

(4)推断:50罐油漆的质量应为4.536×50=226.8 kg。 4.“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。要求: (1)描述总体;

(2)描述研究变量; (3)描述样本; (4)一描述推断。

答:(1)总体:市场上的“可口可乐”与“百事可乐”

(2)研究变量:更好口味的品牌名称; (3)样本:1000名消费者品尝的两个品牌 (4)推断:两个品牌中哪个口味更好。

第2章 统计数据的描述——练习题

1. 解:(1)由于表2.21中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。

(2)频数分布表如下:

服务质量等级评价的频数分布

服务质量等级

A B C D E 合计

家庭数(频数)

14 21 32 18 15 100

频率% 14 21 32 18 15 100

(3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→条形图→选择子图表类型→完成(见Excel练习题2.1)。即得到如下的条形图: 2. 解:(1)要求对销售收入的数据进行分组,

全部数据中,最大的为152,最小的为87,知数据全距为152-87=65;

1

为便于计算和分析,确定将数据分为6组,各组组距为10,组限以整10划分;

为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值87可能落在最小组之下,最大值152可能落在最大组之上,将最小组和最大组设计成开口形式;

按照“上限不在组内”的原则,用划记法统计各组内数据的个数——企业数,也可以用Excel进行排序

统计(见Excel练习题2.2),将结果填入表内,得到频数分布表如下表中的左两列;

将各组企业数除以企业总数40,得到各组频率,填入表中第三列;

在向上的数轴中标出频数的分布,由下至上逐组计算企业数的向上累积及频率的向上累积,由上至下逐

组计算企业数的向下累积及频率的向下累积。

整理得到频数分布表如下:

40个企业按产品销售收入分组表 按销售收入分组 企业数 频率 向上累积 (万元) (个) (%) 企业数 频率 100以下 100~110 110~120 120~130 130~140 140以上 合计 5 9 12 7 4 3 40 12.5 22.5 30.0 17.5 10.0 7.5 100.0 5 14 26 33 37 40 — 12.5 35.0 65.0 82.5 92.5 100.0 — 向下累积 企业数 40 35 26 14 7 3 — 频率 100.0 87.5 65.0 35.0 17.5 7.5 — (2)按题目要求分组并进行统计,得到分组表如下:

某管理局下属40个企分组表

按销售收入分组(万元) 企业数(个)

先进企业 良好企业 一般企业 落后企业 合计

11 11 9 9 40

频率(%) 27.5 27.5 22.5 22.5 100.0

3.解:全部数据中,最大的为49,最小的为25,知数据全距为49-25=24;

为便于计算和分析,确定将数据分为5组,各组组距为5,组限以整5的倍数划分;

为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值24已落在最小组之中,最大值49已落在最大组之中,故将各组均设计成闭口形式;

按照“上限不在组内”的原则,用划记法或用Excel统计各组内数据的个数——天数,(见Excel练习题

2.3)并填入表内,得到频数分布表如下表中的左两列;

将各组天数除以总天数40,得到各组频率,填入表中第三列; 得到频数分布表如下:

某百货公司日商品销售额分组表

按销售额分组(万元)

25~30 30~35 35~40 40~45 45~50 合计

频数(天)

4 6 15 9 6 40

频率(%) 10.0 15.0 37.5 22.5 15.0 100.0

直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:(见Excel练习题2.3)

2

4解:(1)排序:将全部数据复制到Excel中,并移动到同一列,点击:数据→排序→确定,即完成数据排序的工作。(见Excel练习题2.4)

(2)按题目要求,利用已排序的Excel表数据进行分组及统计,得到频数分布表如下: (见Excel练习题2.4)

100只灯泡使用寿命非频数分布

按使用寿命分组(小时) 灯泡个数(只) 频率(%)

650~660 660~670 670~680 680~690 690~700 700~710 710~720 720~730 730~740 740~750 合计

2 5 6 14 26 18 13 10 3 3 100

2 5 6 14 26 18 13 10 3 3 100

制作直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,选择全表后,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:

(见Excel练习题2.4)

(3)制作茎叶图:以十位以上数作为茎,填入表格的首列,将百、十位数相同的数据的个位数按由小到大的顺序填入相应行中,即成为叶,

得到茎叶图如下:

65 1 8 66 1 4 5 6 8 67 1 3 4 6 7 9 68 1 1 2 3 3 3 4 5 5 5 8 8 9 9 69 0 0 1 1 1 1 2 2 2 3 3 4 4 5 5 6 6 6 7 7 8 8 8 8 9 9 70 0 0 1 1 2 2 3 4 5 6 6 6 7 7 8 8 8 9 71 0 0 2 2 3 3 5 6 7 7 8 8 9 72 0 1 2 2 5 6 7 8 9 9 73 3 5 6 74 1 4 7

5.解:(1)由于各天气温的记录数据属于数值型数据,它们可以比较高低,且0不表示没有,因此是定距数据。

(2)分组如下:

由于全部数据中,最大的为9,最小的为-25,知数据全距为9-(-25)=34;

为便于计算和分析,确定将数据分为7组,各组组距为5,组限以整5的倍数划分;

为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值-25已落在最小组之中,最大值9已落在最大组之中,故将各组均设计成闭口形式;

按照“上限不在组内”的原则,用划记法(或Excel排序法,见Excel练习题2.5)统计各组内数据的个数——天数,并填入表内,得到频数分布表如下表;

北方某城市1~2月份各天气温

分组

天数(天)

3

-25~-20 -20~-15 -15~-10 -10~-5 -5~0 0~5 5~10 合计

8 8 10 14 14 4 7 65

(3)制作直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:(见Excel练习题2.5)

6.解:(1)制作直方图:将上表复制到Excel表中,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:(见Excel练习题2.6)

(2)年龄分布的特点:自学考试人员年龄的分布为右偏。 7 解:(1)将树茎放置中间,A班树叶向左生长,B班树叶向右生长,得茎叶图如下: A班 数据个数 树 叶 树茎 B班 树叶 数据个数 0 1 2 11 23 7 6 0 4 97 97665332110 98877766555554443332100 6655200 632220 3 4 5 6 7 8 9 10 59 0448 122456677789 011234688 00113449 123345 011456 000 2 4 12 9 8 6 6 3 (2)比较可知:A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低。 8

解:箱线图如下:(特征请读者自己分析)

9. 解:(1)将全部30个数据输入Excel表中同列,点击列标,得到30个数据的总和为8223, 于是得该百货公司日销售额的均值:(见Excel练习题2.9)

x=

?x=8223=274.1(万元)

n30或点选单元格后,点击“自动求和”→“平均值”,在函数EVERAGE()的空格中输入“A1:A30”,回车,

得到均值也为274.1。

在Excel表中将30个数据重新排序,则中位数位于30个数据的中间位置,即靠中的第15、第16两个数

272和273的平均数:

Me=

272?273=272.5(万元) 2由于中位数位于第15个数靠上半位的位置上,所以前四分位数位于第1~第15个数据的中间位置(第8

位)靠上四分之一的位置上,

由重新排序后的Excel表中第8位是261,第15位是272,从而:

4

QL=261+

273?272=261.25(万元) 4 同理,后四分位数位于第16~第30个数据的中间位置(第23位)靠下四分之一的位置上,由重新

排序后的Excel表中第23位是291,第16位是273,从而:

QU=291-

273?272=290.75(万元)。 4(2)未分组数据的标准差计算公式为:

?(x?x)i302 s=i?1n?1 利用上公式代入数据计算是个较为复杂的工作。手工计算时,须计算30个数据的离差平方,并将其求和,()再代入公式计算其结果:得s=21.1742。(见Excel练习题2.9)

我们可以利用Excel表直接计算标准差:

点选数据列(A列)的最末空格,再点击菜单栏中“∑”符号右边的小三角“▼”,选择“其它函数”→选择函数“STDEV” →“确定”,在出现的函数参数窗口中的Number1右边的空栏中输入:A1:A30,→“确定”,即在A列最末空格中出现数值:21.17412,即为这30个数据的标准差。于是:

s?21.17(万元)。(见Excel练习题2.9)

10.比较哪个企业的总平均成本高?并分析其原因。 解:设产品单位成本为 x,产量为f,则总成本为xf,

xf?由于:平均成本x=

?f又因个别产品产量f =

=

总成本,而已知数据中缺产量f 的数据,

总产量该产品成本xf=

该产品单位成本xxf?从而 x=

xf?x,于是得:

甲企业平均成本=

?xfxf?x?xfxf?x=

2100?3000?1500=19.41(元),

210030001500??1520303255?1500?1500=18.29(元),

325515001500??152030乙企业平均成本==

对比可见,甲企业的总平均成本较高。

原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。

11

解:设各组平均利润为 x,企业数为f,则组总利润为xf,

由于数据按组距式分组,须计算组中值作为各组平均利润,列表计算得:

按利润额分组(万元)

组中值 x

企业数(个)

f

总利润 xf

5

200~300 300~400 400~500 500~600 600以上 合计

于是,120家企业平均利润为:

x=

250 350 450 550 650 —

19 30 42 18 11 120

4750 10500 18900 9900 7150 51200

?xf?f=

51200= 426.67(万元); 120分组数据的标准差计算公式为: s=?(x?x)f?f?12i 手动计算须列表计算各组数据离差平方和(x-426.67)2f,并求和,再代入计算公式: 列表计算如下

组中值 x 250 350 450 550 650 合计

企业数(个)

f 19 30 42 18 11 120

(x-426.67)2f 593033.4891 176348.667 22860.1338 273785.2002 548639.1779 1614666.668

表格中(x-426.67)2f的计算方法:

方法一:将表格复制到Excel表中,点击第三列的顶行单元格后,在输入栏中输入:=(a3-426.67)* (a3-426.67)*b3,回车,得到该行的计算结果;

点选结果所在单元格,并将鼠标移动到该单元格的右下方,当鼠标变成黑“+”字时,压下左键并拉动鼠标到该列最后一组数据对应的单元格处放开,则各组数据的(x-426.67)2f计算完毕;

于是得标准差:(见Excel练习题2.11)

s =?(x?x)f?f?12i=1614666.668=116.48(万元)。

120?1点击第三列的合计单元格后,点击菜单栏中的“∑”号,回车,即获得第三列数据的和。

方法二:将各组组中值x复制到Excel的A列中,并按各组次数f在同列中复制,使该列中共有f个x,120个数据生成后,点选A列的最末空格,再点击菜单栏中“∑”符号右边的小三角“▼”,选择“其它函数”→选择函数“STDEV” →“确定”,在出现的函数参数窗口中的Number1右边的空栏中输入:A1:A30,→“确定”,即在A列最末空格中出现数值:116.4845,即为这120个数据的标准差。(见Excel练习题2.11)

于是得标准差:

s =116.4845(万元)。 12.

解:(1)(2)两位调查人员所得到的平均身高和标准差应该差不多相同,因为均值和标准差的大小基本上不受样本大小的影响。

(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。 13. 解:(1)由于两组的平均体重不相等,应通过比较离散系数确定体重差异较大的组:

6

因为女生的离散系数为 V=

5s==0.1 x50男生体重的离散系数为 V=

5s==0.08 x60对比可知女生的体重差异较大。

(2) 男生:x=

60公斤5公斤=27.27(磅),s ==2.27(磅);

2.2公斤2.2公斤50公斤5公斤=22.73(磅),s ==2.27(磅);

2.2公斤2.2公斤 女生:x= (3)68%;

(4)95%。

14. (1)要比较成年组和幼儿组的身高差异,你会采用什么样的指标测度值?为什么?

(2)比较分析哪一组的身高差异大? 解:(1)应采用离散系数,因为成年人和幼儿的身高处于不同的水平,采用标准差比较不合适。离散系数消除了不同组数据水平高低的影响,采用离散系数就较为合理。

(2)利用Excel进行计算,得成年组身高的平均数为172.1,标准差为4.202,从而得:

成年组身高的离散系数:vs?4.2?0.024; 172.12.497?0.035; 71.3又得幼儿组身高的平均数为71.3,标准差为2.497,从而得:

幼儿组身高的离散系数:vs? 由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。 15.

解:(1)下表给计算出这三种组装方法的一些主要描述统计量:

方法A 平均 中位数 众数 标准偏差 极差 最小值 最大值 165.6 165 164 2.13 8 162 170 方法B 平均 中位数 众数 标准偏差 极差 最小值 最大值 128.73 129 128 1.75 7 125 132 方法C 平均 中位数 众数 标准偏差 极差 最小值 最大值 125.53 126 126 2.77 12 116 128 评价优劣应根据离散系数,据上得: 2.13

=0.0129, 165.61.75方法B的离散系数VB==0.0136,

128.732.77方法C的离散系数VC==0.0221;

125.53方法A的离散系数VA=

对比可见,方法A的离散系数最低,说明方法A最优。

7

(2)我会选择方法A,因为方法A的平均产量最高而离散系数最低,说明方法A的产量高且稳定,有推广意义。 、16 解:(1)方差或标准差;(2)商业类股票;(3)(略)。

第3章 概率与概率分布——练习题(全免)

1 .解:设A=女性,B=工程师,AB=女工程师,A+B=女性或工程师 (1)P(A)=4/12=1/3 (2)P(B)=4/12=1/3 (3)P(AB)=2/12=1/6

(4)P(A+B)=P(A)+P(B)-P(AB)=1/3+1/3-1/6=1/2

2. 解:求这种零件的次品率,等于计算“任取一个零件为次品”(记为A)的概率P(A)。 考虑逆事件A?“任取一个零件为正品”,表示通过三道工序都合格。据题意,有:

P(A)?(1?0.2)(1?0.1)(1?0.1)?0.648

于是 P(A)?1?P(A)?1?0.648?0.352

3. 解:设A表示“合格”,B表示“优秀”。由于B=AB,于是

P(B)=P(A)P(B|A)=0.8×0.15=0.12

4.解:设A=第1发命中。B=命中碟靶。求命中概率是一个全概率的计算问题。再利用对立事件的概率即可求得脱靶的概率。

P(B)=P(A)P(B|A)?P(A)P(B|A) =0.8×1+0.2×0.5=0.9 脱靶的概率=1-0.9=0.1

或(解法二):P(脱靶)=P(第1次脱靶)×P(第2次脱靶)=0.2×0.5=0.1 5.解: 设A=活到55岁,B=活到70岁。所求概率为:

P(B|A)=P(AB)P(B)0.63===0.75 P(A)P(A)0.846.解:这是一个计算后验概率的问题。

设A=优质率达95%,A=优质率为80%,B=试验所生产的5件全部优质。 P(A)=0.4,P(A)=0.6,P(B|A)=0.955, P(B|A)=0.85,所求概率为:

P(A|B)=P(A)P(B|A)0.30951==0.6115

P(A)P(B|A)?P(A)P(B|A)0.50612决策者会倾向于采用新的生产管理流程。

7.解:令A1、A2、A3分别代表从甲、乙、丙企业采购产品,B表示次品。由题意得:P(A1)=0.25,P(A2)=0.30, P(A3)=0.45;P(B|A1)=0.04,P(B|A2)=0.05,P(B|A3)=0.03;因此,所求概率分别为:

(1)P(B)=P(A1)P(B|A1)?P(A2)P(B|A2)?P(A3)P(B|A3) =0.25×0.04+0.30×0.05+0.45×0.03=0.0385

0.45?0.030.0135==0.3506

0.25?0.04+0.30?0.05+0.45?0.030.03858.解:据题意,在每个路口遇到红灯的概率是p=24/(24+36)=0.4。

(2)P(A3|B)=

8

设途中遇到红灯的次数=X,因此,X~B(3,0.4)。其概率分布如下表:

xi P(X= xi) 0 0.216 1 0.432 2 0.288 3 0.064 期望值(均值)=1.2(次),方差=0.72,标准差=0.8485(次) 9. 解:设被保险人死亡数=X,X~B(20000,0.0005)。

(1)收入=20000×50(元)=100万元。要获利至少50万元,则赔付保险金额应该不超过50万元,等价于被保险人死亡数不超过10人。所求概率为:P(X ≤10)=0.58304。 (2)当被保险人死亡数超过20人时,保险公司就要亏本。所求概率为: P(X>20)=1-P(X≤20)=1-0.99842=0.00158 (3)支付保险金额的均值=50000×E(X) =50000×20000×0.0005(元)=50(万元) 支付保险金额的标准差=50000×σ(X)

=50000×(20000×0.0005×0.9995)1/2=158074(元) 10

解: (1)可以。当n很大而p很小时,二项分布可以利用泊松分布来近似计算。本例中,λ= np=20000×0.0005=10,即有X~P(10)。计算结果与二项分布所得结果几乎完全一致。

(2)也可以。尽管p很小,但由于n非常大,np和np(1-p)都大于5,二项分布也可以利用正态分布来近似计算。

本例中,np=20000×0.0005=10,np(1-p)=20000×0.0005×(1-0.0005)=9.995, 即有X ~N(10,9.995)。相应的概率为: P(X ≤10.5)=0.51995,P(X≤20.5)=0.853262。

可见误差比较大(这是由于P太小,二项分布偏斜太严重)。

【注】由于二项分布是离散型分布,而正态分布是连续性分布,所以,用正态分布来近似计算二项分布的概率时,通常在二项分布的变量值基础上加减0.5作为正态分布对应的区间点,这就是所谓的“连续性校正”。

(3)由于p=0.0005,假如n=5000,则np=2.5<5,二项分布呈明显的偏态,用正态分布来计算就会出现非常大的误差。此时宜用泊松分布去近似。 11.解:(1)P(X?150)?P(Z?150?200)=P(Z??1.6667)=0.04779 30合格率为1-0.04779=0.95221或95.221%。

(2) 设所求值为K,满足电池寿命在200±K小时范围内的概率不小于0.9,即有:

P(|X?200|?K)?P{|Z|=即:P{Z?|X?200|K?}?0.9

3030K}?0.95,K/30≥1.64485,故K≥49.3456。 3012.解:设X =同一时刻需用咨询服务的商品种数,由题意有X~B(6,0.2)

(1)X的最可能值为:X0=[(n+1)p]=[7×0.2]=1 (取整数) (2)P(X?2)?1?P(X?2)?1?=1-0.9011=0.0989

2k?0?C6k0.2k0.86?k

第4章 抽样与抽样分布——练习题(全免)

1. 一个具有n?64个观察值的随机样本抽自于均值等于20、标准差等于16的总体。

⑴ 给出x的抽样分布(重复抽样)的均值和标准差

⑵ 描述x的抽样分布的形状。你的回答依赖于样本容量吗?

9

⑶ 计算标准正态z统计量对应于x?15.5的值。 ⑷ 计算标准正态z统计量对应于x?23的值。 解: 已知 n=64,为大样本,μ=20,σ=16,

⑴在重复抽样情况下,x的抽样分布的均值为

a. 20, 2 b. 近似正态 c. -2.25 d. 1.50 2 . 参考练习4.1求概率。

⑴x<16; ⑵x>23; ⑶x>25; ⑷.x落在16和22之间; ⑸x<14。 解: a. 0.0228 b. 0.0668 c. 0.0062 d. 0.8185 e. 0.0013

3. 一个具有n?100个观察值的随机样本选自于??30、??16的总体。试求下列概率的近似值:

解: a. 0.8944 b. 0.0228 c. 0.1292 d. 0.9699

4. 一个具有n?900个观察值的随机样本选自于??100和??10的总体。

⑴ 你预计x的最大值和最小值是什么? ⑵ 你认为x至多偏离?多么远?

⑶ 为了回答b你必须要知道?吗?请解释。

解:a. 101, 99 b. 1 c. 不必

5. 考虑一个包含x的值等于0,1,2,…,97,98,99的总体。假设x的取值的可能性是相同的。则运用计算机对下面的每一个n值产生500个随机样本,并对于每一个样本计算x。对于每一个样本容量,构造x的500个值的相对频率直方图。当n值增加时在直方图上会发生什么变化?存在什么相似性?这里n?2,n?5,n?10,n?30和

n?50。

解:趋向正态

6. 美国汽车联合会(AAA)是一个拥有90个俱乐部的非营利联盟,它对其成员提供旅行、金融、保险以及与汽车

相关的各项服务。1999年5月,AAA通过对会员调查得知一个4口之家出游中平均每日餐饮和住宿费用大约是213美元(《旅行新闻》Travel News,1999年5月11日)。假设这个花费的标准差是15美元,并且AAA所报道的平均每日消费是总体均值。又假设选取49个4口之家,并对其在1999年6月期间的旅行费用进行记录。 ⑴ 描述x(样本家庭平均每日餐饮和住宿的消费)的抽样分布。特别说明x服从怎样的分布以及x的均值和

方差是什么?证明你的回答;

⑵ 对于样本家庭来说平均每日消费大于213美元的概率是什么?大于217美元的概率呢?在209美元和217

美元之间的概率呢?

解: a. 正态分布, 213, 4.5918 b. 0.5, 0.031, 0.938

7. 技术人员对奶粉装袋过程进行了质量检验。每袋的平均重量标准为??406克、标准差为??10.1克。监控这

一过程的技术人者每天随机地抽取36袋,并对每袋重量进行测量。现考虑这36袋奶粉所组成样本的平均重量x。

(1)描述x的抽样分布,并给出?x和?x的值,以及概率分布的形状;

(3) 假设某一天技术人员观察到x?400.8,这是否意味着装袋过程出现问题了呢,为什么? 解: a. 406, 1.68, 正态分布 b. 0.001 c. 是,因为小概率出现了

8. 在本章的统计实践中,某投资者考虑将1000美元投资于n?5种不同的股票。每一种股票月收益率的均值为

??10%,标准差??4%。对于这五种股票的投资组合,投资者每月的收益率是r??ri月收益率的方差是?r2??25。投资者的每

n?3.2,它是投资者所面临风险的一个度量。

⑴ 假如投资者将1000美元仅投资于这5种股票的其中3种,则这个投资者所面对的风险将会增加还是减少?

请解释;

⑵ 假设将1000美元投资在另外10种收益率与上述的完全一样的股票,试度量其风险,并与只投资5种股票

10

的情形进行比较。

解:a. 增加 b. 减少

9. 某制造商为击剑运动员生产安全夹克,这些夹克是以剑锋刺入其中时所需的最小力量(以牛顿为单位)来定级的。

如果生产工艺操作正确,则他生产的夹克级别应平均840牛顿,标准差15牛顿。国际击剑管理组织(FIE)希望这些夹克的最低级别不小于800牛顿。为了检查其生产过程是否正常,某检验人员从生产过程中抽取了50个夹克作为一个随机样本进行定级,并计算x,即该样本中夹克级别的均值。她假设这个过程的标准差是固定的,但是担心级别均值可能已经发生变化。 ⑴ 如果该生产过程仍旧正常,则x的样本分布为何? ⑵ 假设这个检验人员所抽取样本的级别均值为830牛顿,则如果生产过程正常的话,样本均值x≤830牛顿

的概率是多少? ⑶ 在检验人员假定生产过程的标准差固定不变时,你对b部分有关当前生产过程的现状有何看法(即夹克级

别均值是否仍为840牛顿)?

⑷ 现在假设该生产过程的均值没有变化,但是过程的标准差从15牛顿增加到了45牛顿。在这种情况下x的

抽样分布是什么?当x具有这种分布时,则x≤830牛顿的概率是多少?

解: a. 正态 b. 约等于0 c. 不正常 d. 正态, 0.06

10. 在任何生产过程中,产品质量的波动都是不可避免的。产品质量的变化可被分成两类:由于特殊原因所引起的

变化(例如,某一特定的机器),以及由于共同的原因所引起的变化(例如,产品的设计很差)。

一个去除了质量变化的所有特殊原因的生产过程被称为是稳定的或者是在统计控制中的。剩余的变化只是简单的随机变化。假如随机变化太大,则管理部门不能接受,但只要消除变化的共同原因,便可减少变化(Deming,1982,1986;De Vor, Chang,和Sutherland,1992)。

通常的做法是将产品质量的特征绘制到控制图上,然后观察这些数值随时间如何变动。例如,为了控制肥皂中碱的数量,可以每小时从生产线中随机地抽选n?5块试验肥皂作为样本,并测量其碱的数量,不同时间的样本含碱量的均值x描绘在下图中。假设这个过程是在统计控制中的,则x的分布将具有过程的均值?,标

准差具有过程的标准差除以样本容量的平方根,?x??n。下面的控制图中水平线表示过程均值,两条线

称为控制极限度,位于?的上下3?x的位置。假如x落在界限的外面,则有充分的理由说明目前存在变化的特殊原因,这个过程一定是失控的。 当生产过程是在统计控制中时,肥皂试验样本中碱的百分比将服从??2%和??1%的近似的正态分布。

⑴ 假设n?4,则上下控制极限应距离?多么远?

⑵ 假如这个过程是在控制中,则x落在控制极限之外的概率是多少?

⑶ 假设抽取样本之前,过程均值移动到??3%,则由样本得出这个过程失控的(正确的)结论的概率是多

少?

解:a. 0.015 b. 0.0026 c. 0.1587

4.11. 参考练习4.10。肥皂公司决定设置比练习4.10中所述的3?x这一限度更为严格的控制极限。特别地,当加工

过程在控制中时,公司愿意接受x落在控制极限外面的概率是0.10。 ⑴ 若公司仍想将控制极限度设在与均值的上下距离相等之处,并且仍计划在每小时的样本中使用n?4个观

察值,则控制极限应该设定在哪里?

⑵ 假设a部分中的控制极限已付诸实施,但是公司不知道,?现在是3%(而不是2%)。若n?4,则x落在控制极限外面的概率是多少?若n?9呢? 解: a. (0.012, 0.028) b. 0.6553, 0.7278

4.12. 参考练习4.11。为了改进控制图的敏感性,有时将警戒线与控制极限一起画在图上。警戒限一般被设定为

11

。 ??1.96?x。假如有两个连续的数据点落在警戒限之外,则这个过程一定是失控的(蒙哥马利,1991年)

⑴ 假设肥皂加工过程是在控制中(即,它遵循??2%和??1%的正态分布),则x的下一个值落在警戒限之外的概率是什么? ⑵ 假设肥皂加工过程是在控制中,则你预料到画在控制图上的x的这40个值中有多少个点落在上控制极限以

上?

⑶ 假设肥皂加工过程是在控制中,则x的两个未来数值落在下警戒线以下的概率是多少? 解: a. 0.05 b. 1 c. 0.000625

第5章 参数估计

●1. 解:已知总体标准差σ=5,样本容量n=40,为大样本,样本均值x=25, (1)样本均值的抽样标准差σx=σ5==0.7906 n40(2)已知置信水平1-α=95%,得 Zα/2=1.96,

于是,允许误差是E =Zα/2σ=1.96×0.7906=1.5496。 n●2解:(1)已假定总体标准差为σ=15元, 则样本均值的抽样标准误差为 σx=σ15==2.1429 n49(2)已知置信水平1-α=95%,得 Zα/2=1.96,

于是,允许误差是E =Zα/2σ=1.96×2.1429=4.2000。 n(3)已知样本均值为x=120元,置信水平1-α=95%,得 Zα/2=1.96, 这时总体均值的置信区间为 x?Zα/2124.2σ=120±4.2=

115.8n可知,如果样本均值为120元,总体均值95%的置信区间为(115.8,124.2)元。

●3. 解:⑴计算样本均值x:将上表数据复制到Excel表中,并整理成一列,点击最后数据下面空格,选择自动求平均值,回车,得到x=3.316667,

⑵计算样本方差s:删除Excel表中的平均值,点击自动求值→其它函数→STDEV→选定计算数据列→确定→确定,得到s=1.6093

也可以利用Excel进行列表计算:选定整理成一列的第一行数据的邻列的单元格,输入“=(a7-3.316667)^2”,回车,即得到各数据的离差平方,在最下行求总和,得到:

(x-x)=90.65 ?2i再对总和除以n-1=35后,求平方根,即为样本方差的值

s=(x-x)?=2in?190.65=1.6093。 35⑶计算样本均值的抽样标准误差:

12

已知样本容量 n=36,为大样本, 得样本均值的抽样标准误差为 σx=s1.6093==0.2682 36n⑷分别按三个置信水平计算总体均值的置信区间:

① 置信水平为90%时:

由双侧正态分布的置信水平1-α=90%,通过2β-1=0.9换算为单侧正态分布的置信水平β=0.95,查单侧正态分布表得 Zα/2=1.64, 计算得此时总体均值的置信区间为

x?Zα/23.7565s=3.3167±1.64×0.2682=

2.8769n 可知,当置信水平为90%时,该校大学生平均上网时间的置信区间为(2.87,3.76)小时;

② 置信水平为95%时:

由双侧正态分布的置信水平1-α=95%,得 Zα/2=1.96,

计算得此时总体均值的置信区间为

x?Zα/23.8423s=3.3167±1.96×0.2682=

2.7910n 可知,当置信水平为95%时,该校大学生平均上网时间的置信区间为(2.79,3.84)小时;

③ 置信水平为99%时:

若双侧正态分布的置信水平1-α=99%,通过2β-1=0.99换算为单侧正态分布的置信水平β=0.995,查单侧正态分布表得 Zα/2=2.58, 计算得此时总体均值的置信区间为

x?Zα/24.0087s=3.3167±2.58×0.2682=

2.6247n 可知,当置信水平为99%时,该校大学生平均上网时间的置信区间为(2.62,4.01)小时。

4.解:(7.1,12.9)。 5. 解:(7.18,11.57)。

6. 解:已知样本容量n =200,为大样本,拥有该品牌电视机的家庭比率p =23%,

拥有该品牌电视机的家庭比率的抽样标准误差为

σp=p(1?p)0.23?0.77==2.98% n200⑴双侧置信水平为90%时,通过2β-1=0.90换算为单侧正态分布的置信水平β=0.95,查单侧正态分布表得

Zα/2=1.64,

此时的置信区间为 p?Zα/227.89%p(1?p)=23%±1.64×2.98%=

18.11%n13

可知,当置信水平为90%时,拥有该品牌电视机的家庭总体比率的置信区间为(18.11%,27.89%)。

⑵双侧置信水平为95%时,得 Zα/2=1.96, 此时的置信区间为 p?Zp(1?p)n=23%±1.96×2.98%=28.8408%α/217.1592%

可知,当置信水平为95%时,拥有该品牌电视机的家庭总体比率的置信区间为

;(17.16%,28.84%)。

7. 解: 已知总体单位数N=500,重复抽样,样本容量n =50,为大样本,

样本中,赞成的人数为n1=32,得到赞成的比率为 p =

n1n=3250=64% (1)赞成比率的抽样标准误差为

p(1?p)0.64?n=0.3650=6.788% 由双侧正态分布的置信水平1-α=95%,得 Zα/2=1.96,

计算得此时总体户数中赞成该项改革的户数比率的置信区间为 p?Zp(1?p)n= 64%±1.96×6.788%=77.304%α/250.696%

可知,置信水平为95%时,总体中赞成该项改革的户数比率的置信区间为(50.70%,77.30%)。(2)如预计赞成的比率能达到80%,即 p=80%, 由

p(1?p)n=6.788%,即0.8?0.2n=6.788% 得样本容量为 n =

0.8?0.2(6.788%)2= 34.72 取整为35, 即可得,如果小区管理者预计赞成的比率能达到80%,应抽取35户进行调查。

8解:(1.86,17.74);(0.19,19.41)。 9. 解:(1)2±1.176;(2)2±3.986;(3)2±3.986;(4)2±3.587;(5)2±3.364。 10. 解:(1)d?1.75,sd?2.63;(2)1.75±4.27。

11. 解:(1)10%±6.98%;(2)10%±8.32%。 12. 解:(4.06,14.35)。

13解:已知总体比率?=2%=0.02,由置信水平1-α=95%,得置信度Zα/2=1.96,允许误差E≤ 4%

即由允许误差公式 E=Zσpα/2n整理得到样本容量n的计算公式:

n=(Zα/2σP2Zα/2π(1-π)2Z2α/2π(1-π)1.962?0.02?E)=(E)=E2≥0.980.042=47.0596 由于计算结果大于47,故为保证使“≥”成立,至少应取48个单位的样本。

14?解:已知总体标准差?x=120,由置信水平1-α=95%,得置信度Zα/2=1.96,允许误差E≤ 20

即由允许误差公式 E=Zσαx/2n整理得到样本容量n的计算公式:

n=(Zα/2σx1.96?1202E)2≥(20)=138.2976

14

由于计算结果大于47,故为保证使“≥”成立,至少应取139个顾客作为样本。

15.假定两个总体的标准差分别为:?1?12,?2?15,若要求误差范围不超过5,相应的置信水平为95%,假定

n1?n2,估计两个总体均值之差?1??2时所需的样本容量为多大?

解: 57。

16.假定n1?n2,允许误差E?0.05,相应的置信水平为95%,估计两个总体比率之差?1??2时所需的样本容量为多大? 解: 769。

第6章 假设检验——练习题(全免)

6.1 研究者想要寻找证据予以支持的假设是“新型弦线的平均抗拉强度相对于以前提高了”,所以原假设与备择假

设应为:H0:??1035,H1:??1035。 6.2

,H0:??0.04,H1:??0.04。 ?=“某一品种的小鸡因为同类相残而导致的死亡率”

6.3 H0:??65,H1:??65。

6.4 (1)第一类错误是该供应商提供的这批炸土豆片的平均重量的确大于等于60克,但检验结果却提供证据支持

店方倾向于认为其重量少于60克;

(2)第二类错误是该供应商提供的这批炸土豆片的平均重量其实少于60克,但检验结果却没有提供足够的证据支持店方发现这一点,从而拒收这批产品;

(3)连锁店的顾客们自然看重第二类错误,而供应商更看重第一类错误。 6.5 (1)检验统计量z?x??s/n,在大样本情形下近似服从标准正态分布;

(2)如果z?z0.05,就拒绝H0;

(3)检验统计量z=2.94>1.645,所以应该拒绝H0。 6.6 z=3.11,拒绝H0。 6.7 z=1.93,不拒绝H0。 6.8 z=7.48,拒绝H0。 6.9

?2=206.22,拒绝H0。

6.10 z=-5.145,拒绝H0。 6.11 t=1.36,不拒绝H0。 6.12 z=-4.05,拒绝H0。 6.13 F=8.28,拒绝H0。 6.14 (1)检验结果如下:

15

t-检验: 双样本等方差假设

变量 1

变量 2

平均 100.7

109.9

方差 24.11578947

33.35789474

观测值 20

20

合并方差 28.73684211

假设平均差 0 df 38

t Stat -5.427106029 P(T<=t) 单尾 1.73712E-06 t 单尾临界 1.685953066 P(T<=t) 双尾 3.47424E-06 t 双尾临界

2.024394234

t-检验: 双样本异方差假设

变量 1

变量 2

平均 100.7

109.9

方差 24.11578947

33.35789474

观测值 20 20

假设平均差 0 df 37

t Stat -5.427106029 P(T<=t) 单尾 1.87355E-06 t 单尾临界 1.687094482 P(T<=t) 双尾 3.74709E-06 t 双尾临界

2.026190487

(2)方差检验结果如下:

F-检验 双样本方差分析

变量 1

变量 2

平均 100.7

109.9

方差 24.11578947

33.35789474

观测值 20 20 df 19

19

F

0.722940991 P(F<=f) 单尾 0.243109655 F 单尾临界

0.395811384

第7章 方差分析与试验设计——练习题(全免)

7.1 F?4.6574?F0.01?8.0215(或P?value?0.0409???0.01),不能拒绝原假设。7.2 F?17.0684?F0.05?3.8853(或P?value?0.0003???0.05),拒绝原假设。

xA?xB?44.4?30?14.4?LSD?5.85,拒绝原假设;

16

xA?xC?44.4?42.6?1.8?LSD?5.85,不能拒绝原假设; xB?xC?30?42.6?12.6?LSD?5.85,拒绝原假设。

7.3 方差分析表中所缺的数值如下表: SS df MS 差异源 组间 组内 总计 420 3836 4256 2 27 29 210 142.07 — F 1.478 — — P-value 0.245946 — — F crit 3.354131 — — (或P?value?0.245946???0.05),不能拒绝原假设。 F?1.478?F0.05?3.5541317.4 有5种不同品种的种子和4种不同的施肥方案,在20快同样面积的土地上,分别采用5种种子和4种施肥方

案搭配进行试验,取得的收获量数据如下表:

F种子?7.2397?F0.05?3.2592(或P?value?0.0033???0.05),拒绝原假设。 F施肥方案?9.2047?F0.05?3.4903(或P?value?0.0019???0.05),拒绝原假设。

7.5 F地区?0.0727?F0.05?6.9443(或P?value?0.9311???0.05),不能拒绝原假设。

F包装方法?3.1273?F0.05?6.9443(或P?value?0.1522???0.05),不能拒绝原假设。

17

本文来源:https://www.bwwdw.com/article/sfqo.html

Top