统计学课后习题答案(袁卫)

更新时间:2024-05-10 08:24:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

统计学课后习题答案(袁卫、庞皓、曾五一、贾俊平)第三版 第1章 绪论

1.什么是统计学?怎样理解统计学与统计数据的关系?

2.试举出日常生活或工作中统计数据及其规律性的例子。 3..一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2 440加仑的油漆罐。这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4.536 kg。要求:

(1)描述总体;

(2)描述研究变量; (3)描述样本; (4)描述推断。

答:(1)总体:最近的一个集装箱内的全部油漆;

(2)研究变量:装满的油漆罐的质量;

(3)样本:最近的一个集装箱内的50罐油漆;

(4)推断:50罐油漆的质量应为4.536×50=226.8 kg。 4.“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。要求:

(1)描述总体;

(2)描述研究变量; (3)描述样本; (4)一描述推断。

答:(1)总体:市场上的“可口可乐”与“百事可乐”

(2)研究变量:更好口味的品牌名称; (3)样本:1000名消费者品尝的两个品牌 (4)推断:两个品牌中哪个口味更好。

第2章 统计数据的描述——练习题

●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下:

B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型;

1

(2) 用Excel制作一张频数分布表;

(3) 绘制一张条形图,反映评价等级的分布。 解:(1)由于表2.21中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。

(2)频数分布表如下:

服务质量等级评价的频数分布

服务质量等级

A B C D E 合计

家庭数(频数)

14 21 32 18 15 100

频率% 14 21 32 18 15 100

(3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→条形图→选择子图表类型→完成(见Excel练习题2.1)。即得到如下的条形图:

EDCBA02040服务质量等级评价的频数分布 频率%服务质量等级评价的频数分布 家庭数(频数)

●2.某行业管理局所属40个企业2002年的产品销售收入数据如下(单位:万元):

152 124 129 116 100 103 92 95 127 104 105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108 97 88 123 115 119 138 112 146 113 126

(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率; (2)如果按规定:销售收入在125万元以上为先进企业,115万~125万元为良好企业,105万~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。 解:(1)要求对销售收入的数据进行分组,

全部数据中,最大的为152,最小的为87,知数据全距为152-87=65;

为便于计算和分析,确定将数据分为6组,各组组距为10,组限以整10划分; 为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值87可能落在最小组之下,最大值152可能落在最大组之上,将最小组和最大组设计成开口形式;

按照“上限不在组内”的原则,用划记法统计各组内数据的个数——企业数,也

可以用Excel进行排序统计(见Excel练习题2.2),将结果填入表内,得到频数分布表如下表中的左两列;

将各组企业数除以企业总数40,得到各组频率,填入表中第三列;

2

在向上的数轴中标出频数的分布,由下至上逐组计算企业数的向上累积及频率的

向上累积,由上至下逐组计算企业数的向下累积及频率的向下累积。

整理得到频数分布表如下:

40个企业按产品销售收入分组表 按销售收入分组 企业数 频率 向上累积 (万元) (个) (%) 企业数 频率 100以下 100~110 110~120 120~130 130~140 140以上 合计 5 9 12 7 4 3 40 12.5 22.5 30.0 17.5 10.0 7.5 100.0 5 14 26 33 37 40 — 12.5 35.0 65.0 82.5 92.5 100.0 — 向下累积 企业数 40 35 26 14 7 3 — 频率 100.0 87.5 65.0 35.0 17.5 7.5 — (2)按题目要求分组并进行统计,得到分组表如下:

某管理局下属40个企分组表

按销售收入分组(万元) 企业数(个)

先进企业 良好企业 一般企业 落后企业 合计

11 11 9 9 40

频率(%) 27.5 27.5 22.5 22.5 100.0

● 3.某百货公司连续40天的商品销售额如下(单位:万元):

41 25 29 47 38 34 30 38 43 40 46 36 45 37 37 36 45 43 33 44 35 28 46 34 30 37 44 26 38 44 42 36 37 37 49 39 42 32 36 35 根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。 解:全部数据中,最大的为49,最小的为25,知数据全距为49-25=24;

为便于计算和分析,确定将数据分为5组,各组组距为5,组限以整5的倍数划分;

为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值25已落在最小组之中,最大值49已落在最大组之中,故将各组均设计成闭口形式;

按照“上限不在组内”的原则,用划记法或用Excel统计各组内数据的个数——

天数,(见Excel练习题2.3)并填入表内,得到频数分布表如下表中的左两列;

将各组天数除以总天数40,得到各组频率,填入表中第三列; 得到频数分布表如下:

某百货公司日商品销售额分组表

按销售额分组(万元)

25~30 30~35 35~40 40~45

频数(天)

4 6 15 9

频率(%) 10.0 15.0 37.5 22.5

3

45~50 合计

6 40

15.0 100.0

直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:(见Excel练习题2.3)

40302010025303540

●4.为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取100只进行测试,所得结果如下:

700 716 728 719 685 709 691 684 705 718

706 708 668 706 694 688 701 693

715 729 710 692 690 689 671 697

712 694 693 691 736 683 718 664

722 681 697 747 689 685 707 681

691 695 674 699 696 702 683 721

708 685 658 682 651 741 717 720

690 706 698 698 673 698 733 677

692 661 666 700 749 713 712 679

707 735 696 710 708 676 683 695

701 665 698 722 727 702 692 691

713 699 725 726 704 729 703 696 717 688 (1)利用计算机对上面的数据进行排序;

(2)以组距为10进行等距分组,整理成频数分布表,并绘制直方图; (3)绘制茎叶图,并与直方图作比较。 解:(1)排序:将全部数据复制到Excel中,并移动到同一列,点击:数据→排序→确定,即完成数据排序的工作。(见Excel练习题2.4)

(2)按题目要求,利用已排序的Excel表数据进行分组及统计,得到频数分布表如下: (见Excel练习题2.4)

100只灯泡使用寿命非频数分布

按使用寿命分组(小时) 灯泡个数(只) 频率(%)

650~660 660~670 670~680 680~690 690~700 700~710 710~720 720~730 730~740

45某百货公司日商品销售额分组表 频数(天)某百货公司日商品销售额分组表 频率(%)30354045~~~~~502 5 6 14 26 18 13 10 3 2 5 6 14 26 18 13 10 3

4

740~750 合计

3 100

3 100

制作直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,选择全表后,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:

(见Excel练习题2.4)

302520151050

(3)制作茎叶图:以十位以上数作为茎,填入表格的首列,将百、十位数相同的数据的个位数按由小到大的顺序填入相应行中,即成为叶,

得到茎叶图如下:

65 1 8 66 1 4 5 6 8 67 1 3 4 6 7 9 68 1 1 2 3 3 3 4 5 5 5 8 8 9 9 69 0 0 1 1 1 1 2 2 2 3 3 4 4 5 5 6 6 6 7 7 8 8 8 8 9 9 70 0 0 1 1 2 2 3 4 5 6 6 6 7 7 8 8 8 9 71 0 0 2 2 3 3 5 6 7 7 8 8 9 72 0 1 2 2 5 6 7 8 9 9 73 3 5 6 74 1 4 7 将直方图与茎叶图对比,可见两图十分相似。 ●5.下面是北方某城市1~2月份各天气温的记录数据:

-3 2 -4 -7 -11 -1 7 8 9 -14 -18 -15 -9 -6 -1 0 5 -4 -6 -8 -12 -16 -19 -15 -22 -25 -24 -8 -6 -15 -11 -12 -19 -25 -24 -18 -14 -22 -13 -9 -6 0 -1 5 -4 -3 2 -4 -4 -16 -1 7 5 -6

676600~696800~717000~737200~74065100只灯泡使用寿命非频数分布灯泡个数100只灯泡使用寿命非频数分布频率(%)0~-6 -9 -19 -17 -9 -5 -7 -3 -21 -24 -3

(1) 指出上面的数据属于什么类型; (2) 对上面的数据进行适当的分组;

(3) 绘制直方图,说明该城市气温分布的特点。 解:(1)由于各天气温的记录数据属于数值型数据,它们可以比较高低,且0不表示没有,因此是定距数据。

(2)分组如下:

5

由于全部数据中,最大的为9,最小的为-25,知数据全距为9-(-25)=34; 为便于计算和分析,确定将数据分为7组,各组组距为5,组限以整5的倍数划分; 为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值-25已落在最小组之中,最大值9已落在最大组之中,故将各组均设计成闭口形式;

按照“上限不在组内”的原则,用划记法(或Excel排序法,见Excel练习题2.5)统计各组内数据的个数——天数,并填入表内,得到频数分布表如下表;

北方某城市1~2月份各天气温

分组 -25~-20 -20~-15 -15~-10 -10~-5 -5~0 0~5 5~10 合计

天数(天)

8 8 10 14 14 4 7 65

(3)制作直方图:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:(见Excel练习题2.5)

北方某城市1~2月份各天气温 天数(天)151050北方某城市1~2月份各天气温 天数(天)-25~-20-15~-10-5~0

●6.下面是某考试管理中心对2002年参加成人自学考试的12000名学生的年龄分组数据:

年龄 18~19 21~21 22~24 25~29 30~34 35~39 40~44 45~59 % 1.9 34.7 34.1 17.2 6.4 2.7 1.8 1.2 (1) 对这个年龄分布作直方图;

(2) 从直方图分析成人自学考试人员年龄分布的特点。 解:(1)制作直方图:将上表复制到Excel表中,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:(见Excel练习题2.6)

5~106

@35302520151050%

(2)年龄分布的特点:自学考试人员年龄的分布为右偏。 7.下面是A、B两个班学生的数学考试成绩数据:

A班: 44 57 59 60 61 61 62 63 63 65 66 66 67 69 70 70 71 72 73 73 73 74 74 74 75 75 75 75 75 76 76 77 77 77 78 78 79 80 80 82 85 85 86 86 90 92 92 92 93 96 B班: 35 39 40 44 44 48 51 52 52 54 55 56 56 57 57 57 58 59 60 61 61 62 63 64 66 68 68 70 70 71 71 73 74 74 79 81 82 83 83 84 85 90 91 91 94 95 96 100 100 100

(1) 将两个班的考试成绩用一个公共的茎制成茎叶图; (2) 比较两个班考试成绩分布的特点。 解:(1)将树茎放置中间,A班树叶向左生长,B班树叶向右生长,得茎叶图如下: A班 数据个数 树 叶 树茎 B班 树叶 数据个数 18~1921~2122~2425~2930~3435~3940~4445~590 1 2 11 23 7 6 0 4 97 97665332110 98877766555554443332100 6655200 632220 3 4 5 6 7 8 9 10 59 0448 122456677789 011234688 00113449 123345 011456 000 2 4 12 9 8 6 6 3 (2)比较可知:A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低。

8.1997年我国几个主要城市各月份的平均相对湿度数据如下表,试绘制箱线图,并分析各城市平均相对湿度的分布特征。 月份 北京 长春 南京 郑州 武汉 广州 成都 昆明 兰州 西安 7

1 49 70 76 57 77 72 79 65 2 41 68 71 57 75 80 83 65 3 47 50 77 68 81 80 81 58 4 50 39 72 67 75 84 79 61 5 55 56 68 63 71 83 75 58 6 57 54 73 57 74 87 82 72 7 69 70 82 74 81 86 84 84 8 74 79 82 71 73 84 78 74 9 68 66 71 67 71 81 75 77 10 47 59 75 53 72 80 78 76 11 66 59 82 77 78 72 78 71 12 56 57 82 65 82 75 82 71 资料来源:《中国统计年鉴1998》,中国统计出版社1998,第10页。 解:箱线图如下:(特征请读者自己分析) 各城市相对湿度箱线图958575655545Min-Max51 41 49 46 41 43 58 57 55 45 53 52 67 67 74 70 58 42 62 55 65 65 73 72 3525%-75%北京长春南京郑州武汉广州成都昆明兰州西安Median value●9.某百货公司6月份各天的销售额数据如下(单位:万元):

257 276 297 252 238 310 240 236 265 278 271 292 261 281 301 274 267 280 291 258 272 284 268 303 273 263 322 249 269 295 (1)计算该百货公司日销售额的均值、中位数和四分位数;

(2)计算日销售额的标准差。 解:(1)将全部30个数据输入Excel表中同列,点击列标,得到30个数据的总和为8223, 于是得该百货公司日销售额的均值:(见Excel练习题2.9)

x=

?x=8223=274.1(万元)

n30或点选单元格后,点击“自动求和”→“平均值”,在函数EVERAGE()的空格中

输入“A1:A30”,回车,得到均值也为274.1。

在Excel表中将30个数据重新排序,则中位数位于30个数据的中间位置,即靠

中的第15、第16两个数272和273的平均数:

Me=

272?273=272.5(万元) 28

由于中位数位于第15个数靠上半位的位置上,所以前四分位数位于第1~第15

个数据的中间位置(第8位)靠上四分之一的位置上,

由重新排序后的Excel表中第8位是261,第15位是272,从而:

QL=261+

273?272=261.25(万元) 4 同理,后四分位数位于第16~第30个数据的中间位置(第23位)靠下四

分之一的位置上,由重新排序后的Excel表中第23位是291,第16位是273,从而:

QU=291-

273?272=290.75(万元)。 4(2)未分组数据的标准差计算公式为:

?(x?x)i302 s=i?1n?1 利用上公式代入数据计算是个较为复杂的工作。手工计算时,须计算30个数据的离差平方,并将其求和,()再代入公式计算其结果:得s=21.1742。(见Excel练习题2.9)

我们可以利用Excel表直接计算标准差:

点选数据列(A列)的最末空格,再点击菜单栏中“∑”符号右边的小三角“▼”,选择“其它函数”→选择函数“STDEV” →“确定”,在出现的函数参数窗口中的Number1右边的空栏中输入:A1:A30,→“确定”,即在A列最末空格中出现数值:21.17412,即为这30个数据的标准差。于是:

s?21.17(万元)。(见Excel练习题2.9)

●10.甲乙两个企业生产三种产品的单位成本和总成本资料如下: 产品 单位成本 总成本(元) 名称 (元) 甲企业 乙企业 A 15 2100 3255 B 20 3000 1500 C 30 1500 1500 比较哪个企业的总平均成本高?并分析其原因。 解:设产品单位成本为 x,产量为f,则总成本为xf,

由于:平均成本x=

?xf?f=

总成本,而已知数据中缺产量f 的数据,

总产量又因个别产品产量f =

该产品成本xf=

该产品单位成本x从而 x=

?xfxf?x,于是得:

甲企业平均成本=

?xfxf?x=

2100?3000?1500=19.41(元),

210030001500??152030 9

乙企业平均成本=

?xfxf?x=

3255?1500?1500=18.29(元),

325515001500??152030对比可见,甲企业的总平均成本较高。

原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。

●11.在某地区抽取的120家企业按利润额进行分组,结果如下:

按利润额分组(万元) 企业数(个)

200~300

300~400 400~500 500~600 600以上

19 30 42 18 11

120 合计

计算120家企业利润额的均值和标准差。

解:设各组平均利润为 x,企业数为f,则组总利润为xf,

由于数据按组距式分组,须计算组中值作为各组平均利润,列表计算得:

按利润额分组(万元)

200~300 300~400 400~500 500~600 600以上 合计

于是,120家企业平均利润为:

x=

组中值 x 250 350 450 550 650 —

企业数(个)

f 19 30 42 18 11 120

总利润 xf 4750 10500 18900 9900 7150 51200

?xf?f=

51200= 426.67(万元); 120分组数据的标准差计算公式为: s=?(x?x)f?f?12i 手动计算须列表计算各组数据离差平方和(x-426.67)2f,并求和,再代入计算公式: 列表计算如下

组中值 x 250 350 450 550 650

企业数(个)

f 19 30 42 18 11

(x-426.67)2f 593033.4891 176348.667 22860.1338 273785.2002 548639.1779

10

合计 120 1614666.668

表格中(x-426.67)2f的计算方法: 方法一:将表格复制到Excel表中,点击第三列的顶行单元格后,在输入栏中输入:=(a3-426.67)* (a3-426.67)*b3,回车,得到该行的计算结果;

点选结果所在单元格,并将鼠标移动到该单元格的右下方,当鼠标变成黑“+”字时,压下左键并拉动鼠标到该列最后一组数据对应的单元格处放开,则各组数据的(x-426.67)2f计算完毕;

于是得标准差:(见Excel练习题2.11)

s =?(x?x)f?f?12i=1614666.668=116.48(万元)。

120?1点击第三列的合计单元格后,点击菜单栏中的“∑”号,回车,即获得第三列数据的和。 方法二:将各组组中值x复制到Excel的A列中,并按各组次数f在同列中复制,使该列中共有f个x,120个数据生成后,点选A列的最末空格,再点击菜单栏中“∑”符号右边的小三角“▼”,选择“其它函数”→选择函数“STDEV” →“确定”,在出现的函数参数窗口中的Number1右边的空栏中输入:A1:A30,→“确定”,即在A列最末空格中出现数值:116.4845,即为这120个数据的标准差。(见Excel练习题2.11)

于是得标准差:

s =116.4845(万元)。

●12.为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取100名7~17岁的少年儿童作为样本,另一位调查人员则抽取了1000名7~17岁的少年儿童作为样本。请回答下面的问题,并解释其原因。

(1)哪一位调查研究人员在其所抽取的样本中得到的少年儿童的平均身高较大?或者

这两组样本的平均身高相同?

(2)哪一位调查研究人员在其所抽取的样本中得到的少年儿童身高的标准差较大?或

者这两组样本的标准差相同?

(3)哪一位调查研究人员有可能得到这1100名少年儿童的最高者或最低者?或者对

两位调查研究人员来说,这种机会是相同的?

解:(1)(2)两位调查人员所得到的平均身高和标准差应该差不多相同,因为均值和标准差的大小基本上不受样本大小的影响。

(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。

●13.一项关于大学生体重状况的研究发现,男生的平均体重为60公斤,标准差为5公斤;女生的平均体重为50公斤,标准差为5公斤。请回答下面的问题: (1)是男生的体重差异大还是女生的体重差异大?为什么? (2)以磅为单位(1公斤=2.2磅),求体重的平均数和标准差。

(3)粗略地估计一下,男生中有百分之几的人体重在55公斤到65公斤之间? (4)粗略地估计一下,女生中有百分之几的人体重在40公斤到60公斤之间? 解:(1)由于两组的平均体重不相等,应通过比较离散系数确定体重差异较大的组:

因为女生的离散系数为

V=

5s==0.1 x50男生体重的离散系数为 V=

5s==0.08 x6011

对比可知女生的体重差异较大。

(2) 男生:x=

60公斤5公斤=27.27(磅),s ==2.27(磅);

2.2公斤2.2公斤50公斤5公斤=22.73(磅),s ==2.27(磅);

2.2公斤2.2公斤 女生:x= (3)68%;

(4)95%。

● 14.对10名成年人和10名幼儿的身高(厘米)进行抽样调查,结果如下:

成年组 166 169 172 177 180 170 172 174 168 173 幼儿组 68 69 68 70 71 73 72 73 74 75

(1)要比较成年组和幼儿组的身高差异,你会采用什么样的指标测度值?为什么?

(2)比较分析哪一组的身高差异大? 解:(1)应采用离散系数,因为成年人和幼儿的身高处于不同的水平,采用标准差比较不合适。离散系数消除了不同组数据水平高低的影响,采用离散系数就较为合理。

(2)利用Excel进行计算,得成年组身高的平均数为172.1,标准差为4.202,从而得:

成年组身高的离散系数:vs?4.2?0.024; 172.12.497?0.035; 71.3又得幼儿组身高的平均数为71.3,标准差为2.497,从而得:

幼儿组身高的离散系数:vs? 由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。

15.一种产品需要人工组装,现有三种可供选择的组装方法。为检验哪种方法更好,随机抽取15个工人,让他们分别用三种方法组装。下面是15个工人分别用三种方法在相同的时间内组装的产品数量(单位:个):

方法A 方法B 方法C

164 167 168 165 170 165 164 168 164 162 163 166 167 166 165

129 130 129 130 131 130 129 127 128 128 127 128 128 125 132

125 126 126 127 126 128 127 126 127 127 125 126 116 126 125

(1) 你准备采用什么方法来评价组装方法的优劣?

12

(2) 如果让你选择一种方法,你会作出怎样的选择?试说明理由。 解:(1)下表给计算出这三种组装方法的一些主要描述统计量: 方法A 平均 中位数 众数 标准偏差 极差 最小值 最大值 165.6 165 164 2.13 8 162 170 方法B 平均 中位数 众数 标准偏差 极差 最小值 最大值 128.73 129 128 1.75 7 125 132 方法C 平均 中位数 众数 标准偏差 极差 最小值 最大值 125.53 126 126 2.77 12 116 128 评价优劣应根据离散系数,据上得: 2.13

=0.0129, 165.61.75方法B的离散系数VB==0.0136,

128.732.77方法C的离散系数VC==0.0221;

125.53方法A的离散系数VA=

对比可见,方法A的离散系数最低,说明方法A最优。

(2)我会选择方法A,因为方法A的平均产量最高而离散系数最低,说明方法A的产量高且稳定,有推广意义。

16.在金融证券领域,一项投资的的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低,预期收益率的变化越大,投资风险就越高。下面的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票,往往与投资者的类型有一定关系。

(1)你认为该用什么样的统计测度值来反映投资的风险?

(2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?

(3)如果你进行股票投资,你会选择商业类股票还是高科技类股票?

-30 0 30 60 -30 0 30 60 收 益 率 收 益 率

(a)商业类股票 (b) 高科技类股票

解:(1)方差或标准差;(2)商业类股票;(3)(略)。

17.下图给出了2000年美国人口年龄的金字塔,其绘制方法及其数字说明与【例2.10】相同,试对该图反映的人口、政治、社会、经济状况进行分析。

50 50 频数

频数

25 25 0 0 13

2000年美国人口年龄结构金字塔95-99(01-05)90-94(06-10)85-89(11-15)80-84(16-20)75-79(21-25)70-74(26-30)65-69(31-35)60-64(36-40)55-59(41-45)50-54(46-50)45-49(51-55)40-44(56-60)35-39(61-65)30-34(66-70)25-29(71-75)20-24(76-80)15-19(81-85)10-14(86-90)5-9(91-95)0-4(96-00)-20-10010女男年龄20人数(百万)

第3章 概率与概率分布——练习题(全免)

1 .某技术小组有12人,他们的性别和职称如下,现要产生一名幸运者。试求这位幸运者分别是以下几种可能的概率:(1)女性;(2)工程师;(3)女工程师,(4)女性或工程师。并说明几个计算结果之间有何关系?

序号 性别 1 男 2 男 3 男 4 女 5 男 6 男 7 女 8 男 9 女 10 女 11 男 12 男 职称 工程师 技术员 技术员 技术员 技术员 工程师 工程师 技术员 技术员 工程师 技术员 技术员 解:设A=女性,B=工程师,AB=女工程师,A+B=女性或工程师 (1)P(A)=4/12=1/3 (2)P(B)=4/12=1/3 (3)P(AB)=2/12=1/6

(4)P(A+B)=P(A)+P(B)-P(AB)=1/3+1/3-1/6=1/2

2. 某种零件加工必须依次经过三道工序,从已往大量的生产记录得知,第一、二、三道工序的次品率分别为0.2,0.1,0.1,并且每道工序是否产生次品与其它工序无关。试求这种零件的次品率。

解:求这种零件的次品率,等于计算“任取一个零件为次品”(记为A)的概率P(A)。 考虑逆事件A?“任取一个零件为正品”,表示通过三道工序都合格。据题意,有:

P(A)?(1?0.2)(1?0.1)(1?0.1)?0.648

14

于是 P(A)?1?P(A)?1?0.648?0.352

3. 已知参加某项考试的全部人员合格的占80%,在合格人员中成绩优秀只占15%。试求任一参考人员成绩优秀的概率。

解:设A表示“合格”,B表示“优秀”。由于B=AB,于是

P(B)=P(A)P(B|A)=0.8×0.15=0.12

4. 某项飞碟射击比赛规定一个碟靶有两次命中机会(即允许在第一次脱靶后进行第二次射击)。某射击选手第一发命中的可能性是80%,第二发命中的可能性为50%。求该选手两发都脱靶的概率。

解:设A=第1发命中。B=命中碟靶。求命中概率是一个全概率的计算问题。再利用对立事件的概率即可求得脱靶的概率。

P(B)=P(A)P(B|A)?P(A)P(B|A) =0.8×1+0.2×0.5=0.9 脱靶的概率=1-0.9=0.1

或(解法二):P(脱靶)=P(第1次脱靶)×P(第2次脱靶)=0.2×0.5=0.1

5.已知某地区男子寿命超过55岁的概率为84%,超过70岁以上的概率为63%。试求任一刚过55岁生日的男子将会活到70岁以上的概率为多少? 解: 设A=活到55岁,B=活到70岁。所求概率为:

P(B|A)=P(AB)P(B)0.63===0.75 P(A)P(A)0.846.某企业决策人考虑是否采用一种新的生产管理流程。据对同行的调查得知,采用新生产管理流程后产品优质率达95%的占四成,优质率维持在原来水平(即80%)的占六成。该企业利用新的生产管理流程进行一次试验,所生产5件产品全部达到优质。问该企业决策者会倾向于如何决策?

解:这是一个计算后验概率的问题。

设A=优质率达95%,A=优质率为80%,B=试验所生产的5件全部优质。 P(A)=0.4,P(A)=0.6,P(B|A)=0.955, P(B|A)=0.85,所求概率为:

P(A|B)=P(A)P(B|A)0.30951==0.6115

P(A)P(B|A)?P(A)P(B|A)0.50612决策者会倾向于采用新的生产管理流程。

7. 某公司从甲、乙、丙三个企业采购了同一种产品,采购数量分别占总采购量的25%、30%和45%。这三个企业产品的次品率分别为4%、5%、3%。如果从这些产品中随机抽出一件,试问:(1)抽出次品的概率是多少?(2)若发现抽出的产品是次品,问该产品来自丙厂的概率是多少?

解:令A1、A2、A3分别代表从甲、乙、丙企业采购产品,B表示次品。由题意得:P(A1)=0.25,P(A2)=0.30, P(A3)=0.45;P(B|A1)=0.04,P(B|A2)=0.05,P(B|A3)=0.03;因此,所求概率分别为:

(1)P(B)=P(A1)P(B|A1)?P(A2)P(B|A2)?P(A3)P(B|A3)

15

=0.25×0.04+0.30×0.05+0.45×0.03=0.0385

0.45?0.030.0135==0.3506

0.25?0.04+0.30?0.05+0.45?0.030.03858.某人在每天上班途中要经过3个设有红绿灯的十字路口。设每个路口遇到红灯的事件是相

(2)P(A3|B)=互独立的,且红灯持续24秒而绿灯持续36秒。试求他途中遇到红灯的次数的概率分布及其期望值和方差、标准差。

解:据题意,在每个路口遇到红灯的概率是p=24/(24+36)=0.4。

设途中遇到红灯的次数=X,因此,X~B(3,0.4)。其概率分布如下表:

xi P(X= xi) 0 0.216 1 0.432 2 0.288 3 0.064 期望值(均值)=1.2(次),方差=0.72,标准差=0.8485(次) 9. 一家人寿保险公司某险种的投保人数有20000人,据测算被保险人一年中的死亡率为万分之5。保险费每人50元。若一年中死亡,则保险公司赔付保险金额50000元。试求未来一年该保险公司将在该项保险中(这里不考虑保险公司的其它费用):

(1)至少获利50万元的概率; (2)亏本的概率;

(3)支付保险金额的均值和标准差。

解:设被保险人死亡数=X,X~B(20000,0.0005)。

(1)收入=20000×50(元)=100万元。要获利至少50万元,则赔付保险金额应该不超过50万元,等价于被保险人死亡数不超过10人。所求概率为:P(X ≤10)=0.58304。 (2)当被保险人死亡数超过20人时,保险公司就要亏本。所求概率为: P(X>20)=1-P(X≤20)=1-0.99842=0.00158 (3)支付保险金额的均值=50000×E(X) =50000×20000×0.0005(元)=50(万元) 支付保险金额的标准差=50000×σ(X)

=50000×(20000×0.0005×0.9995)1/2=158074(元) 10.对上述练习题3.09的资料,试问:

(1)可否利用泊松分布来近似计算? (2)可否利用正态分布来近似计算?

(3)假如投保人只有5000人,可利用哪种分布来近似计算?

解: (1)可以。当n很大而p很小时,二项分布可以利用泊松分布来近似计算。本例中,λ= np=20000×0.0005=10,即有X~P(10)。计算结果与二项分布所得结果几乎完全一致。 (2)也可以。尽管p很小,但由于n非常大,np和np(1-p)都大于5,二项分布也可以利用正态分布来近似计算。

本例中,np=20000×0.0005=10,np(1-p)=20000×0.0005×(1-0.0005)=9.995, 即有X ~N(10,9.995)。相应的概率为: P(X ≤10.5)=0.51995,P(X≤20.5)=0.853262。

可见误差比较大(这是由于P太小,二项分布偏斜太严重)。

【注】由于二项分布是离散型分布,而正态分布是连续性分布,所以,用正态分布来近似计算二项分布的概率时,通常在二项分布的变量值基础上加减0.5作为正态分布对应的区间点,这就是所谓的“连续性校正”。

(3)由于p=0.0005,假如n=5000,则np=2.5<5,二项分布呈明显的偏态,用正态分

16

布来计算就会出现非常大的误差。此时宜用泊松分布去近似。

11.某企业生产的某种电池寿命近似服从正态分布,且均值为200小时,标准差为30小时。若规定寿命低于150小时为不合格品。试求该企业生产的电池的:(1)合格率是多少?(2)电池寿命在200左右多大的范围内的概率不小于0.9。 解:(1)P(X?150)?P(Z?150?200)=P(Z??1.6667)=0.04779 30合格率为1-0.04779=0.95221或95.221%。

(2) 设所求值为K,满足电池寿命在200±K小时范围内的概率不小于0.9,即有:

P(|X?200|?K)?P{|Z|=即:P{Z?|X?200|K?}?0.9

3030K}?0.95,K/30≥1.64485,故K≥49.3456。 3012.某商场某销售区域有6种商品。假如每1小时内每种商品需要12分钟时间的咨询服务,而且每种商品是否需要咨询服务是相互独立的。求:(1)在同一时刻需用咨询的商品种数的最可能值是多少?(2)若该销售区域仅配有2名服务员,则因服务员不足而不能提供咨询服务的概率是多少?

解:设X =同一时刻需用咨询服务的商品种数,由题意有X~B(6,0.2)

(1)X的最可能值为:X0=[(n+1)p]=[7×0.2]=1 (取整数) (2)P(X?2)?1?P(X?2)?1?=1-0.9011=0.0989

2k?0?C6k0.2k0.86?k

第4章 抽样与抽样分布——练习题(全免)

1. 一个具有n?64个观察值的随机样本抽自于均值等于20、标准差等于16的总体。

⑴ 给出x的抽样分布(重复抽样)的均值和标准差

⑵ 描述x的抽样分布的形状。你的回答依赖于样本容量吗? ⑶ 计算标准正态z统计量对应于x?15.5的值。 ⑷ 计算标准正态z统计量对应于x?23的值。 解: 已知 n=64,为大样本,μ=20,σ=16,

⑴在重复抽样情况下,x的抽样分布的均值为

a. 20, 2 b. 近似正态 c. -2.25 d. 1.50 2 . 参考练习4.1求概率。

⑴x<16; ⑵x>23; ⑶x>25; ⑷.x落在16和22之间; ⑸x<14。 解: a. 0.0228 b. 0.0668 c. 0.0062 d. 0.8185 e. 0.0013

3. 一个具有n?100个观察值的随机样本选自于??30、??16的总体。试求下列概率的近似值:

解: a. 0.8944 b. 0.0228 c. 0.1292 d. 0.9699

17

4. 一个具有n?900个观察值的随机样本选自于??100和??10的总体。

⑴ 你预计x的最大值和最小值是什么? ⑵ 你认为x至多偏离?多么远?

⑶ 为了回答b你必须要知道?吗?请解释。

解:a. 101, 99 b. 1 c. 不必

5. 考虑一个包含x的值等于0,1,2,…,97,98,99的总体。假设x的取值的可能性是相同的。则运用计算机对下面的每一个n值产生500个随机样本,并对于每一个样本计算x。对于每一个样本容量,构造x的500个值的相对频率直方图。当n值增加时在直方图上会发生什么变化?存在什么相似性?这里n?2,n?5,n?10,n?30和n?50。

解:趋向正态

6. 美国汽车联合会(AAA)是一个拥有90个俱乐部的非营利联盟,它对其成员提供旅行、

金融、保险以及与汽车相关的各项服务。1999年5月,AAA通过对会员调查得知一个4口之家出游中平均每日餐饮和住宿费用大约是213美元(《旅行新闻》Travel News,1999年5月11日)。假设这个花费的标准差是15美元,并且AAA所报道的平均每日消费是总体均值。又假设选取49个4口之家,并对其在1999年6月期间的旅行费用进行记录。

⑴ 描述x(样本家庭平均每日餐饮和住宿的消费)的抽样分布。特别说明x服从怎样

的分布以及x的均值和方差是什么?证明你的回答;

⑵ 对于样本家庭来说平均每日消费大于213美元的概率是什么?大于217美元的概率

呢?在209美元和217美元之间的概率呢?

解: a. 正态分布, 213, 4.5918 b. 0.5, 0.031, 0.938

7. 技术人员对奶粉装袋过程进行了质量检验。每袋的平均重量标准为??406克、标准差

为??10.1克。监控这一过程的技术人者每天随机地抽取36袋,并对每袋重量进行测量。现考虑这36袋奶粉所组成样本的平均重量x。

(1)描述x的抽样分布,并给出?x和?x的值,以及概率分布的形状;

(3) 假设某一天技术人员观察到x?400.8,这是否意味着装袋过程出

现问题了呢,为什么?

解: a. 406, 1.68, 正态分布 b. 0.001 c. 是,因为小概率出现了

8. 在本章的统计实践中,某投资者考虑将1000美元投资于n?5种不同的股票。每一种股

票月收益率的均值为??10%,标准差??4%。对于这五种股票的投资组合,投资

者每月的收益率是r??ri5。投资者的每月收益率的方差是?r2??2n它是?3.2,

投资者所面临风险的一个度量。

⑴ 假如投资者将1000美元仅投资于这5种股票的其中3种,则这个投资者所面对的

风险将会增加还是减少?请解释;

⑵ 假设将1000美元投资在另外10种收益率与上述的完全一样的股票,试度量其风险,

并与只投资5种股票的情形进行比较。

解:a. 增加 b. 减少

9. 某制造商为击剑运动员生产安全夹克,这些夹克是以剑锋刺入其中时所需的最小力量(以

牛顿为单位)来定级的。如果生产工艺操作正确,则他生产的夹克级别应平均840牛顿,标准差15牛顿。国际击剑管理组织(FIE)希望这些夹克的最低级别不小于800牛顿。为了检查其生产过程是否正常,某检验人员从生产过程中抽取了50个夹克作为一个随机样本进行定级,并计算x,即该样本中夹克级别的均值。她假设这个过程的标准差是固定的,但是担心级别均值可能已经发生变化。 ⑴ 如果该生产过程仍旧正常,则x的样本分布为何?

⑵ 假设这个检验人员所抽取样本的级别均值为830牛顿,则如果生产过程正常的话,

18

样本均值x≤830牛顿的概率是多少?

⑶ 在检验人员假定生产过程的标准差固定不变时,你对b部分有关当前生产过程的现

状有何看法(即夹克级别均值是否仍为840牛顿)?

⑷ 现在假设该生产过程的均值没有变化,但是过程的标准差从15牛顿增加到了45牛

顿。在这种情况下x的抽样分布是什么?当x具有这种分布时,则x≤830牛顿的概率是多少?

解: a. 正态 b. 约等于0 c. 不正常 d. 正态, 0.06

10. 在任何生产过程中,产品质量的波动都是不可避免的。产品质量的变化可被分成两类:

由于特殊原因所引起的变化(例如,某一特定的机器),以及由于共同的原因所引起的变化(例如,产品的设计很差)。

一个去除了质量变化的所有特殊原因的生产过程被称为是稳定的或者是在统计控制中的。剩余的变化只是简单的随机变化。假如随机变化太大,则管理部门不能接受,但只要消除变化的共同原因,便可减少变化(Deming,1982,1986;De Vor, Chang,和Sutherland,1992)。

通常的做法是将产品质量的特征绘制到控制图上,然后观察这些数值随时间如何变动。例如,为了控制肥皂中碱的数量,可以每小时从生产线中随机地抽选n?5块试验肥皂作为样本,并测量其碱的数量,不同时间的样本含碱量的均值x描绘在下图中。假设这个过程是在统计控制中的,则x的分布将具有过程的均值?,标准差具有过程

的标准差除以样本容量的平方根,?x??n。下面的控制图中水平线表示过程均值,

两条线称为控制极限度,位于?的上下3?x的位置。假如x落在界限的外面,则有充分的理由说明目前存在变化的特殊原因,这个过程一定是失控的。

当生产过程是在统计控制中时,肥皂试验样本中碱的百分比将服从??2%和

??1%的近似的正态分布。

⑴ 假设n?4,则上下控制极限应距离?多么远?

⑵ 假如这个过程是在控制中,则x落在控制极限之外的概率是多少?

⑶ 假设抽取样本之前,过程均值移动到??3%,则由样本得出这个过程失控的(正

确的)结论的概率是多少?

解:a. 0.015 b. 0.0026 c. 0.1587

4.11. 参考练习4.10。肥皂公司决定设置比练习4.10中所述的3?x这一限度更为严格的控制

极限。特别地,当加工过程在控制中时,公司愿意接受x落在控制极限外面的概率是

0.10。

⑴ 若公司仍想将控制极限度设在与均值的上下距离相等之处,并且仍计划在每小时的

样本中使用n?4个观察值,则控制极限应该设定在哪里?

?现在是3%⑵ 假设a部分中的控制极限已付诸实施,但是公司不知道,(而不是2%)。若n?4,则x落在控制极限外面的概率是多少?若n?9呢?

解: a. (0.012, 0.028) b. 0.6553, 0.7278

4.12. 参考练习4.11。为了改进控制图的敏感性,有时将警戒线与控制极限一起画在图上。

19

警戒限一般被设定为??1.96?x。假如有两个连续的数据点落在警戒限之外,则这个过程一定是失控的(蒙哥马利,1991年)。

⑴ 假设肥皂加工过程是在控制中(即,它遵循??2%和??1%的正态分布),则x的下一个值落在警戒限之外的概率是什么?

⑵ 假设肥皂加工过程是在控制中,则你预料到画在控制图上的x的这40个值中有多

少个点落在上控制极限以上? ⑶ 假设肥皂加工过程是在控制中,则x的两个未来数值落在下警戒线以下的概率是多

少?

解: a. 0.05 b. 1 c. 0.000625

第5章 参数估计

●1. 从一个标准差为5的总体中抽出一个容量为40的样本,样本均值为25。

(1) 样本均值的抽样标准差σx等于多少?

(2) 在95%的置信水平下,允许误差是多少?

解:已知总体标准差σ=5,样本容量n=40,为大样本,样本均值x=25, (1)样本均值的抽样标准差σx=σ5==0.7906 n40(2)已知置信水平1-α=95%,得 Zα/2=1.96,

于是,允许误差是E =Zα/2σ=1.96×0.7906=1.5496。 n●2.某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。

(3) 假定总体标准差为15元,求样本均值的抽样标准误差; (4) 在95%的置信水平下,求允许误差;

(5) 如果样本均值为120元,求总体均值95%的置信区间。 解:(1)已假定总体标准差为σ=15元, 则样本均值的抽样标准误差为 σx=σ15==2.1429 n49(2)已知置信水平1-α=95%,得 Zα/2=1.96,

于是,允许误差是E =Zα/2σ=1.96×2.1429=4.2000。 n(3)已知样本均值为x=120元,置信水平1-α=95%,得 Zα/2=1.96, 这时总体均值的置信区间为 x?Zα/2124.2σ=120±4.2=

115.8n可知,如果样本均值为120元,总体均值95%的置信区间为(115.8,124.2)元。

20

●3.某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时):

3.3 3.1 6.2 5.8 2.3 4.1 5.4 4.5 3.2 4.4 2.0 5.4 2.6 6.4 1.8 3.5 5.7 2.3 2.1 1.9 1.2 5.1 4.3 4.2 3.6 0.8 1.5 4.7 1.4 1.2 2.9 3.5 2.4 0.5 3.6 2.5

求该校大学生平均上网时间的置信区间,置信水平分别为90%、95%和99%。 解:⑴计算样本均值x:将上表数据复制到Excel表中,并整理成一列,点击最后数据下面空格,选择自动求平均值,回车,得到x=3.316667,

⑵计算样本方差s:删除Excel表中的平均值,点击自动求值→其它函数→STDEV→选定计算数据列→确定→确定,得到s=1.6093

也可以利用Excel进行列表计算:选定整理成一列的第一行数据的邻列的单元格,输入“=(a7-3.316667)^2”,回车,即得到各数据的离差平方,在最下行求总和,得到:

(x-x)=90.65 ?2i再对总和除以n-1=35后,求平方根,即为样本方差的值

s=(x-x)?=2in?190.65=1.6093。 35⑶计算样本均值的抽样标准误差: 已知样本容量 n=36,为大样本, 得样本均值的抽样标准误差为 σx=s1.6093==0.2682 36n⑷分别按三个置信水平计算总体均值的置信区间:

① 置信水平为90%时:

由双侧正态分布的置信水平1-α=90%,通过2β-1=0.9换算为单侧正态分布的置信水平β=0.95,查单侧正态分布表得 Zα/2=1.64, 计算得此时总体均值的置信区间为

x?Zα/23.7565s=3.3167±1.64×0.2682=

2.8769n 可知,当置信水平为90%时,该校大学生平均上网时间的置信区间为(2.87,3.76)

小时;

② 置信水平为95%时:

由双侧正态分布的置信水平1-α=95%,得 Zα/2=1.96,

计算得此时总体均值的置信区间为

x?Zα/2

3.8423s=3.3167±1.96×0.2682=

2.7910n21

可知,当置信水平为95%时,该校大学生平均上网时间的置信区间为(2.79,3.84)小时;

③ 置信水平为99%时:

若双侧正态分布的置信水平1-α=99%,通过2β-1=0.99换算为单侧正态分布的置信水平β=0.995,查单侧正态分布表得 Zα/2=2.58, 计算得此时总体均值的置信区间为

x?Zα/24.0087s=3.3167±2.58×0.2682=

2.6247n 可知,当置信水平为99%时,该校大学生平均上网时间的置信区间为(2.62,4.01)

小时。

4. 从一个正态总体中随机抽取容量为8 的样本,各样本值分别为:10,8,12,15,6,13,5,11。求总体均值95%的置信区间。 解:(7.1,12.9)。

5.某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样本,他们到单位的距离(公里)分别是:

10 3 14 8 6 9 12 11 7 5 10 15 9 16 13 2 求职工上班从家里到单位平均距离95%的置信区间。 解:(7.18,11.57)。

●6. 在一项家电市场调查中,随机抽取了200个居民户,调查他们是否拥有某一品牌的电视机。其中拥有该品牌电视机的家庭占23%。求总体比率的置信区间,置信水平分别为90%和95%。

解:已知样本容量n =200,为大样本,拥有该品牌电视机的家庭比率p =23%,

拥有该品牌电视机的家庭比率的抽样标准误差为

σp=p(1?p)0.23?0.77==2.98% n200⑴双侧置信水平为90%时,通过2β-1=0.90换算为单侧正态分布的置信水平β=0.95,查单侧正态分布表得 Zα/2=1.64,

此时的置信区间为 p?Zα/227.89%p(1?p)=23%±1.64×2.98%=

18.11%n可知,当置信水平为90%时,拥有该品牌电视机的家庭总体比率的置信区间为

(18.11%,27.89%)。

⑵双侧置信水平为95%时,得 Zα/2=1.96, 此时的置信区间为 p?Zα/228.8408%p(1?p)=23%±1.96×2.98%=

17.1592%n可知,当置信水平为95%时,拥有该品牌电视机的家庭总体比率的置信区间为

;(17.16%,28.84%)。

22

●7.某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。 (1)求总体中赞成该项改革的户数比率的置信区间,置信水平为95%; (2)如果小区管理者预计赞成的比率能达到80%,应抽取多少户进行调查? 解: 已知总体单位数N=500,重复抽样,样本容量n =50,为大样本,

样本中,赞成的人数为n1=32,得到赞成的比率为 p =

n132==64% n50(1)赞成比率的抽样标准误差为

p(1?p)0.64?0.36==6.788% n50由双侧正态分布的置信水平1-α=95%,得 Zα/2=1.96,

计算得此时总体户数中赞成该项改革的户数比率的置信区间为 p?Zα/277.304%p(1?p)= 64%±1.96×6.788%=

50.696%n可知,置信水平为95%时,总体中赞成该项改革的户数比率的置信区间为

(50.70%,77.30%)。

(2)如预计赞成的比率能达到80%,即 p=80%,

p(1?p)0.8?0.2=6.788%,即=6.788% nn0.8?0.2= 34.72 取整为35,

(6.788%)2 得样本容量为 n =

即可得,如果小区管理者预计赞成的比率能达到80%,应抽取35户进行调查。

8.从两个正态总体中分别抽取两个独立的随机样本,它们的均值和标准差如下表:

来自总体1的样本 来自总体2的样本

n1?14 x1?53.2 s12?96.8

(1) 求?1??290%的置信区间;

n2?7 x2?43.4

2s2?102.0

(2) 求?1??295%的置信区间。

解:(1.86,17.74);(0.19,19.41)。

9.从两个正态总体中分别抽取两个独立的随机样本,它们的均值和标准差如下表:

来自总体1的样本 来自总体2的样本

x1?25 s12?16

x2?23

2s2?20

(1)设n1?n2?100,求?1??295%的置信区间;

23

22(2)设n1?n2?10,?1??2,求?1??295%的置信区间; 22(3)设n1?n2?10,?1??2,求?1??295%的置信区间; 22(4)设n1?10,n2?20,?1??2,求?1??295%的置信区间;

(5)设n1?10,n2?20,?1??2,求?1??295%的置信区间。 解:(1)2±1.176;(2)2±3.986;(3)2±3.986;(4)2±3.587;(5)2±3.364。 10.下表是由4对观察值组成的随机样本:

配对号 来自总体A的样本 来自总体B的样本

1 2 3 4

2 5 10 8

0 7 6 5

22(1)计算A与B各对观察值之差,再利用得出的差值计算d和sd;

(2)设?1和?2分别为总体A和总体B的均值,构造?d(?1??2)95%的置信区间。 解:(1)d?1.75,sd?2.63;(2)1.75±4.27。

11.从两个总体中各抽取一个n1?n2?250的独立随机样本,来自总体1的样本比率为

p1?40%,来自总体2的样本比率为p2?30%。

(1)构造?1??290%的置信区间;

(2)构造?1??295%的置信区间。 解:(1)10%±6.98%;(2)10%±8.32%。

12.生产工序的方差是共需质量的一个重要度量。当方差较大时,需要对共需进行改进以减小方差。下面是两部机器生产的袋茶重量(克)的数据: 机器1 机器2 3.45 3.20 3.22 3.50 2.95 3.16 3.20 3.22 2.98 3.75 3.38 3.45 3.48 3.18 3.90 3.70 3.28 3.35 3.20 3.12 3.25 3.22 3.38 3.30 3.30 3.34 3.28 3.30 3.28 3.19 3.20 3.29 3.35 3.16 3.34 3.35 3.30 3.05 3.33 3.27 3.28 3.25 22??295%的置信区间。 构造两个总体方差比1解:(4.06,14.35)。

●13.根据以往的生产数据,某种产品的废品率为2%。如果要求95%的置信区间,若要求允许误差不超过4%,应抽取多大的样本?

解:已知总体比率?=2%=0.02,由置信水平1-α=95%,得置信度Zα/2=1.96,允许误差E≤ 4%

即由允许误差公式 E=Zα/2σpn整理得到样本容量n的计算公式:

24

Zα/2σP2Zα/2π(1-π)2Z2α/2π(1-π)1.962?0.02?0.98)=(n=(≥=47.0596 )=22E0.04EE 由于计算结果大于47,故为保证使“≥”成立,至少应取48个单位的样本。

●14.某超市想要估计每个顾客平均每次购物花费的金额。根据过去的经验,标准差大约为120元,现要求以95%的置信水平估计每个购物金额的置信区间,并要求允许误差不超过20元,应抽取多少个顾客作为样本?

解:已知总体标准差?x=120,由置信水平1-α=95%,得置信度Zα/2=1.96,允许误差E≤ 20

即由允许误差公式 E=Zα/2σxn整理得到样本容量n的计算公式:

n=(Zα/2σxE)2≥(1.96?1202)=138.2976 20由于计算结果大于47,故为保证使“≥”成立,至少应取139个顾客作为样本。 15.假定两个总体的标准差分别为:?1?12,?2?15,若要求误差范围不超过5,相应的置信水平为95%,假定n1?n2,估计两个总体均值之差?1??2时所需的样本容量为多大? 解: 57。

16.假定n1?n2,允许误差E?0.05,相应的置信水平为95%,估计两个总体比率之差

?1??2时所需的样本容量为多大?

解: 769。

第6章 假设检验——练习题(全免)

6.1 研究者想要寻找证据予以支持的假设是“新型弦线的平均抗拉强度相对于以前提高了”,

所以原假设与备择假设应为:H0:??1035,H1:??1035。 6.2

“某一品种的小鸡因为同类相残而导致的死亡率”, H1:??0.04。H0:??0.04,?=

6.3 H0:??65,H1:??65。

6.4 (1)第一类错误是该供应商提供的这批炸土豆片的平均重量的确大于等于60克,但

检验结果却提供证据支持店方倾向于认为其重量少于60克;

(2)第二类错误是该供应商提供的这批炸土豆片的平均重量其实少于60克,但检验结果却没有提供足够的证据支持店方发现这一点,从而拒收这批产品; (3)连锁店的顾客们自然看重第二类错误,而供应商更看重第一类错误。 6.5 (1)检验统计量z?x??s/n,在大样本情形下近似服从标准正态分布;

(2)如果z?z0.05,就拒绝H0;

(3)检验统计量z=2.94>1.645,所以应该拒绝H0。

25

24 25 26 27 28 29 30 31 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 1084.90 2074.71 138.73 1844.27 1072.51 300.95 298.38 1485.48 106766.16 66.4 73.6 71.8 55.7 59.4 60.0 56.5 56.6 1564.7 1177008.0100 4304421.5841 19246.0129 3401331.8329 1150277.7001 90570.9025 89030.6244 2206650.8304 72037.4 152698.7 9960.8 102725.8 63707.1 18057.0 16858.5 84078.2 4408.96 5416.96 5155.24 3102.49 3528.36 3600.00 3192.25 3203.56 合 计 596668656.0540 4964521.9 85687.89 将计算结果代入相关系数计算公式中, 由上得 r=n?xy??x?yn?x???x)22n?y???y)22

=31?4964521.9?106766.16?1564.731?596668656.054?????????????13156831.652 7097715416.5208038.5?13156831.652= -0.342391

84247.94?456.11?31?85687.89?????????? = =

解法二:应用Excel中的函数“CORREL”计算,

①将已知数据表复制到Excel中;

②在表格外选择某一单元格,点选菜单栏中“∑”右边的“▼”后,选择“其

它函数”,在“插入函数”窗口中,点击“或选择类别(C)”输入栏右边的“∨”,选择“统计”,再在“选择函数(N)”中选择函数“CORREL”,然后点击“确定”;

③在“函数参数”窗口中,点击“Array1”输入栏后,在Excel表中刷取“就

业比例%”数据,再点击“Array2”输入栏后,在Excel表中刷取“GDP”数据,然后点击“确定”。

这时即在第②步骤中所选择的单元格中出现相关系数的计算结果。 结果也是 r=-0.34239,

这说明人均GDP与第一产业中就业比例是负相关,但相关系数只有-0.34239,表明二者相关程度并不大,属于低度负相关关系。 相关系数检验:(免)

在总体相关系数??0的原假设下,计算t统计量:

t?rn?21?r2??0.34239?31?21?(?0.34239)2??1.9624

查t分布表,自由度为31-2=29,当显著性水平取??0.05时,t?2=2.045;当显著性水平取??0.1时,t?2=1.699。

由于计算的t统计量的绝对值1.9624小于t?2=2.045,所以在??0.05的显著性水平

31

下,不能拒绝相关系数??0的原假设。即是说,在??0.05的显著性水平下不能认为人均GDP与第一产业中就业比例有显著的线性相关性。

但是计算的t统计量的绝对值1.9624大于t?2=1.699,所以在??0.1的显著性水平下,可以拒绝相关系数??0的原假设。即在??0.1的显著性水平下,可以认为人均GDP与第一产业中就业比例有一定的线性相关性。

●3.表中是16支公益股票某年的每股账面价值和当年红利:

公司序号 1 2 3 4 5 6 7 8 账面价值(元) 22.44 20.89 22.09 14.48 20.73 19.25 20.37 26.43 红利(元) 2.4 2.98 2.06 1.09 1.96 1.55 2.16 1.60 公司序号 9 10 11 12 13 14 15 16 账面价值(元) 12.14 23.31 16.23 0.56 0.84 18.05 12.45 11.33 红利(元) 0.80 1.94 3.00 0.28 0.84 1.80 1.21 1.07 根据上表资料:

(1)建立每股账面价值和当年红利的回归方程; (2)解释回归系数的经济意义;

(3)若序号为6的公司的股票每股账面价值增加1元,估计当年红利可能为多少? 解: (1)设当年红利为Y,每股帐面价值为X

则回归方程为 Yi??1??2Xi,下面分别应用两种方法计算回归参数: 方法一:利用Excel进行表格运算计算公式元素: 账面价值公司序号 (元) x 1 2 3 4 5 6 7 8 9 10 11 12 13 14

22.44 20.89 22.09 14.48 20.73 19.25 20.37 26.43 12.14 23.31 16.23 0.56 0.84 18.05 红利(元) y 2.4 2.98 2.06 1.09 1.96 1.55 2.16 1.6 0.8 1.94 3 0.28 0.84 1.8 x2 503.5536 436.3921 487.9681 209.6704 429.7329 370.5625 414.9369 698.5449 147.3796 543.3561 263.4129 0.3136 0.7056 325.8025 xy 53.856 62.2522 45.5054 15.7832 40.6308 29.8375 43.9992 42.288 9.712 45.2214 48.69 0.1568 0.7056 32.49 32

15 16 12.45 11.33 1.21 1.07 155.0025 128.3689 15.0645 12.1231 合计 261.59 26.74 5115.703 498.3157 将计算结果代入回归系数计算公式,得:

回归系数 β2? ?n?xy??x?yn?x???x)22

16?498.3157?261.59?26.74 216?5115.703?(261.59)978.1346 = = 0.07287590

13421.9199 初始值 β1yx?? ?β?y?βx=

2n2n =

26.74261.59?0.0728759?=0.47977458 1616方法二:应用Excel函数计算直线回归方程的两个参数:

⑴应用统计函数“SLOPE”计算直线斜率: (slope,斜率)

①在表格外选定某单元格,作为直线斜率的放置位置,点击:菜单栏中“∑”右

边的“▼”后,选择“其它函数”,在“插入函数”窗口中,点击“或选择类别(C)”输入栏右边的“∨”,选择“统计”,再在“选择函数(N)”中选择函数“SLOPE”,然后点击“确定”;

②在“函数参数”窗口中,点击“Known_y’s”输入栏后,在Excel表中刷取y

列数据,再点击“Known_x’s”输入栏后,在Excel表中刷取x列数据,然后点击“确定”。 这时即在选定的单元格中出现直线斜率的计算结果?2?0.072876

⑵应用统计函数“INTERCEPT”计算直线与y轴的截距——直线起点值:

(截距intercept )

①在表格外选定某单元格,作为直线斜率的放置位置,点击:菜单栏中“∑”右

边的“▼”后,选择“其它函数”,在“插入函数”窗口中,点击“或选择类别(C)”输入栏右边的“∨”,选择“统计”,再在“选择函数(N)”中选择函数“INTERCEPT”,然后点击“确定”;

②在“函数参数”窗口中,点击“Known_y’s”输入栏后,在Excel表中刷取y

列数据,再点击“Known_x’s”输入栏后,在Excel表中刷取x列数据,然后点击“确定”。 这时即在选定的单元格中出现直线斜率的计算结果?1? 0.479775

于是,回归方程为 Yi?0.479775?0.072876Xi

(2)参数的经济意义是:当每股帐面价值增加1元时,当年红利将平均增加0.072876元。

(3)序号6的公司每股帐面价值为19.25元,若增加1元后,每股帐面价值为X=20.25元,则当年红利估算为:

^^Yi?0.479775?0.072876?20.25?1.955514(元)

33

●4.美国各航空公司业绩的统计数据公布在《华尔街日报1999年年鉴》(The Wall Street Journal Almanac 1999)上。航班正点到达的比率和每10万名乘客投诉的次数的数据如下: 航空公司名称 航班正点率(%) 投诉率(次/10万名乘客) 西南(Southwest)航空公司 大陆(Continental)航空公司 西北(Northwest)航空公司 美国(US Airways)航空公司 联合(United)航空公司 美洲(American)航空公司 德尔塔(Delta)航空公司 美国西部(Americawest)航空公司 81.8 76.6 76.6 75.7 73.8 72.2 71.2 70.8 0.21 0.58 0.85 0.68 0.74 0.93 0.72 1.22 环球(TWA)航空公司 68.5 1.25 (1)画出这些数据的散点图; (2)根据散点图。表明二变量之间存在什么关系?

(3)求出描述投诉率是如何依赖航班按时到达正点率的估计的回归方程; (4)对估计的回归方程的斜率作出解释;

(5)如果航班按时到达的正点率为80%,估计每10万名乘客投诉的次数是多少? 解:(1)利用EXCEL制作数据散点图:

将已知表格的后两列复制到Excel中,选择该表格后,点击:图表向导→XY 散点图→确定,即得散点图如下:

投诉率(次/10万名乘客)1.41.210.80.60.40.20657075航班正点率(%)8085

(2)根据散点图可以看出,随着航班正点率的提高,投诉率呈现出下降的趋势,说明航班整点率与投诉率两者之间,存在着一定的负相关关系。

[利用Excel的统计函数“CORREL”计算得到相关系数r= -0.88261,属于高度负相关]

(3)求投诉率依赖航班正点率的估计的回归方程

设投诉率为Y,航班正点率为X 建立回归方程 Yi??1??2Xi 解法一:应用Excel函数计算:

应用统计函数“SLOPE”计算直线斜率为:?2=-0.07041

应用统计函数“INTERCEPT”计算直线与y轴的截距为:?1= 6.017832

解法二:应用Excel列表计算:

作出Excel运算表格如下:

34

航空公司名称 航班正点率投诉率(次(%) /10万名乘客) x y 0.21 0.58 0.85 0.68 0.74 0.93 0.72 1.22 1.25 7.18

81.8 76.6 76.6 75.7 73.8 72.2 71.2 70.8 68.5 667.2 x2 xy 西南(Southwest)航空公司 大陆(Continental)航空公司 西北(Northwest)航空公司 美国(US Airways)航空公司 联合(United)航空公司 美洲(American)航空公司 德尔塔(Delta)航空公司 美国西部(Americawest)航空公司 环球(TWA)航空公司 合 计 得回归系数为: β2?6691.24 5867.56 5867.56 5730.49 5446.44 5212.84 5069.44 5012.64 4692.25 49590.46 17.178 44.428 65.11 51.476 54.612 67.146 51.264 86.376 85.625 523.215 n?xy??x?yn?x2???x)29?523.215?667.2?7.18 29?49590.46?(667.2)?81.561 = = —0.0704144

1158.3 ? 初始值 β1?y?β2x= = 于是得回归方程为

Yi?6.0178?0.07Xi

(4)参数的经济意义是:航班正点率每提高一个百分点,相应的投诉率(次/10万名乘客)下降0.07。

(5)航班按时到达的正点率为80%时,估计每10万名乘客投诉的次数可能为:

^?y?β?x

n2n7.18667.2?0.0704144?=6.01783 99??6.0178?0.07?80?0.4187(次/10万) Yi5. 表中是1992年亚洲各国人均寿命(y)、按购买力平价计算的人均GDP(x1)、成人识字率(x2)、一岁儿童疫苗接种率(x3)的数据 序国家和 平均寿命 人均GDP 号 地区 y(年) x1(100美元) 1 2 3 4

成人识字率一岁儿童疫苗接种率 x2(%) 99 90 97 92 x3(%) 99 79 83 90 35

日本 中国香港 韩国 新加坡 79 77 70 74 194 185 83 147

5 6 7 8 9 11 泰国 马来西亚 斯里兰卡 中国大陆 菲律宾 蒙古 69 70 71 70 65 71 63 62 63 57 58 50 60 52 50 53 48 43 53 74 27 29 24 18 23 27 13 7 20 18 12 12 13 11 6 7 94 80 89 80 90 95 95 84 89 81 36 55 50 37 38 27 41 32 86 90 88 94 92 96 85 92 90 74 81 36 90 69 37 73 85 35 10 朝鲜 12 印度尼西亚 13 越南 14 缅甸 15 巴基斯坦 16 老挝 17 印度 18 孟加拉国 19 柬埔寨 20 尼泊尔 21 不丹 22 阿富汗 资料来源:联合国发展规划署《人的发展报告》 (1)用多元回归的方法分析各国人均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系;

(2)对所建立的回归模型进行检验。 解: 由Excel回归输出的结果可以看出: (1)回归结果为

Yi?32.99309?0.071619X2i?0.168727X3i?0.179042X3i

(2)由Excel的计算结果已知:4.853871、?1,?2,?3,?4 对应的 t 统计量分别为0.51206、4.222811、3.663731 ,其绝对值均大于临界值t0.025(22?4)?2.101 ,所以各个自变量都对Y有明显影响。

由F=58.20479, 大于临界值F0.05(4?1,22?4)?3.16,说明模型在整体上是显著的。 6.表中给出y对x2和x3回归的结果:

离差来源 平方和(SS) 自由度(df) 平方和的均值(MSS) 来自回归(ESS) 65965 来自残差(RSS) 总离差(TSS) 66042 14

(1) 该回归分析中样本容量是多少? (2) 计算RSS;

36

^(3) ESS和RSS的自由度是多少? (4) 计算可决系数和修正的可决系数;

(5) 怎样检验x2和x3对y是否有显著影响?根据以上信息能否确定x2和x3各自对

y的贡献为多少?

解:(1)该回归分析中样本容量是14+1=15

(2)计算RSS=66042-65965=77

ESS的自由度为k-1=2,RSS的自由度 n-k=15-3=12 (3)计算:可决系数 R?65965/66042?0.9988 修正的可决系数 R?1?2215?1?(1?0.9988?)15?30. 9986(4)检验X2和X3对Y是否有显著影响

F?ESS/(k?1)65965/232982???5140.11

RSS/(n?k)77/126.4166 (5) F统计量远比F临界值大,说明X2和X3联合起来对Y有显著影响,但并不能确定X2和X3各自对Y的贡献为多少。

7. 在计算一元线性回归方程时,已得到以下结果:

试根据此结果,填写下表的空格:

来 源 来自回归 来自残差 总离差平方和 解:

平方和 99.11 2278.67 自由度 22 方差 2179.56 来 源 来自回归 来自残差 总离差平方和

平方和 2179.56 99.11 2278.67 自由度 1 22 23 方差 2179.56 4.505 8. 表中为某企业近年来的总成本和产量的数据:

37

年份 总成本y (万元) 产量x (件) 410 608 512 723 811 年份 总成本y (万元) 产量x (件) 906 1223 1107 1319 1424 1541 1991 1992 1993 1994 1995 329 524 424 629 741 1997 1998 1999 2000 2001 863 1390 1157 1548 1787 1996 1020 1009 2002 2931 (1) 用已知数据估计以下总成本函数的参数: yt??1??2xt??3xt2??4xt3?ut (2) (3) (4) (5)

检验参数的显著性;

检验整个回归方程的显著性;

计算总成本对产量的非线性相关指数; 评价此回归分析存在什么不足。

23解: (1)用Excel输入Y和X数据,生成X和X的数据,用Y对X、X、X回归,估计参数结果为

Yi??1726.73?7.879646874Xi?0.00895X?3.71249E?06X

t=(-1.9213) (2.462897) (-2.55934) (3.118062) R?0.973669 R?0.963764

(2)检验参数的显著性:当取??0.05时,查t分布表得t0.025(12?4)?2.306,与t统计量对比,除了截距项外,各回归系数对应的t统计量的绝对值均大于临界值,表明在这样的显著性水平下,回归系数显著不为0。

(3)检验整个回归方程的显著性:模型的R?0.973669,R?0.963794,说明可决系数较高,对样本数据拟合较好。由于F=98.60668,而当取??0.05时,查F分布表得F0.05(4?1,12?4)?4.07,因为F=98.60668>4.07,应拒绝H0:?2??3??4?0,说明X、X、X联合起来对Y确有显著影响。

(4)计算总成本对产量的非线性相关系数:因为R?0.973669因此总成本对产量的非线性相关系数为R?0.973669或R=0.9867466

(5)评价:虽然经t检验各个系数均是显著的,但与临界值都十分接近,说明t检验只是勉强通过,其把握并不大。如果取??0.01,则查t分布表得t0.005(12?4)?3.3554,这时各个参数对应的t统计量的绝对值均小于临界值,则在??0.01的显著性水平下都应接受H0:?j?0的原假设。

38

222323^2322229. 研究青春发育与远视率(对数视力)的变化关系,测得结果如下表: 年龄(岁)x 6 7 8 9 10 11 12 13 14 15 16 17 18 远视率(%)63.64 61.06 38.84 13.75 14.50 8.07 4.41 2.27 2.09 1.02 2.51 3.12 2.98 y 对数视力Y=ln4.153 4.112 3.659 2.621 2.674 2.088 1.484 0.82 0.737 0.02 0.92 1.138 1.092 y ? 试建立曲线回归方程y解:利用Excel输入X、y和Y数据,用Y对X回归,估计参数结果为

??5.73?0.314x Yii t值=(9.46)(-6.515) R?0.794 R?0.775

22??307.9693?e整理后得到:y第9章

?0.314x

时间序列分析——练习题

●1. 某汽车制造厂2003年产量为30万辆。

(1)若规定2004—2006年年递增率不低于6%,其后年递增率不低于5%,2008年该厂汽车

产量将达到多少?

(2)若规定2013年汽车产量在2003年的基础上翻一番,而2004年的增长速度可望达到

7.8%,问以后9年应以怎样的速度增长才能达到预定目标?

(3)若规定2013年汽车产量在2003年的基础上翻一番,并要求每年保持7.4%的增长速度,问能提前多少时间达到预定目标?

解:设i年的环比发展水平为x i,则由已知得:x2003=30, (1)又知:

x2004x2005x2006xx32,2007?2008?,求x2008 ???(1?6%)(1?5%)x2003x2004x2005x2006x2007 39

由上得

x2008x2007x2008???(1?6%)3(1?5%)2 x2003x2003x2007 即为

x2008?1.0631.052,从而2008年该厂汽车产量将达到 3032得 x2008≥30× 1.06×1.05= 30×1.3131 = 39.393(万辆) 从而按假定计算,2008年该厂汽车产量将达到39.393万辆以上。

9xx2013x2004(2)规定=2,=1+7.8%,求2013 x2003x2003x2004由上得

99xx2013x2013=?2004 x2004x2003x2003=?92?1.078?107.11%

可知,2004年以后9年应以7.11%的速度增长,才能达到2013年汽车产量在2003

年的基础上翻一番的目标。

(3)设:按每年7.4%的增长速度n年可翻一番, 则有 1.074?na2013?2 a2003log20.30103??9.70939(年)

log1.0740.031004 所以 n?log1.0742?可知,按每年保持7.4%的增长速度,约9.71年汽车产量可达到在2003年基础上翻一番的预定目标。

原规定翻一番的时间从2003年到2013年为10年,故按每年保持7.4%的增长速度,能提前0.29年即3个月另14天达到翻一番的预定目标。

●2. 某地区社会商品零售额1988—1992年期间(1987年为基期)每年平均增长10%,1993—1997年期间每年平均增长8.2%,1998—2003年期间每年平均增长6.8%。问2003年与1987年相比该地区社会商品零售额共增长多少?年平均增长速度是多少?若1997年社会商品零售额为30亿元,按此平均增长速度,2004年的社会商品零售额应为多少? 解:设i年的环比发展水平为x i,则已知的三段年均增长率表示为:

199?219871988xx?x1987xxx?x1992xxx?x1997x1989xx19x901x5992,即为1992?(1?10%) ??99?11?110%x1987x9901991198x819x891?

199?7199219931994xx19x951x619975,即为1997?(1?8.2%) ??99?1?8.2%x1992x9951996199x319x941?

200?3199719981999xx20x002x01x200220036,即为2003?(1?6.8%) ??0??1?6.8%x1997x000x20012002199x819x992? 于是得:

40

本文来源:https://www.bwwdw.com/article/ctrg.html

Top