09级SG学院统计学部分课后习题答案

更新时间:2023-11-18 13:32:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

统计学

1、考试内容:一、二、三、四章,七章1、2、4,八章1、2, 十一章1、2、3,十三章1、2、4,十四章1、2(判断题) 2、以下只是简答和计算,选择和判断就大家去掌握啦!

简答题(从中抽取2道来考)

1、 统计数据可分为哪几种类型?(P7)不同类型的数据各有什么特点?(P5-6) 答:统计数据的类型:

1)按计算尺度:分类数据、顺序数据、数值型数据 2)按收集方法:观测数据、实验数据 3)按时间状况:截面数据、时间序列数据 数据的特点:

1)分类数据:只能归于某一类别的非数字型数据,它对事物进行分类的结果,数据表现为类别,用文字来表述。

2)顺序数据:只能归于某一有序类别的非数字型数据,数据表现为有序类别。

3)数值型数据:按数字尺度测量的观察值,结果表现为具体的数值。

4)观测数据:通过调查或观测收集到的数据,是在没有对事物人为控制的条件下得到的。 5)实验数据:是在实验中控制实验对象而收集到的数据。

6)截面数据:在相同或近似相同的时间点上收集的数据,在不同的空间上获得,用于描述现象在某一时刻的变化情况。

7)时间序列数据:在不同时间上收集到的数据,是按时间顺序收集到的,用于描述现象随时间变化的情况。

2、比较概率抽样和非概率抽样的特点。(P22-23)

答:1)概率抽样:依据随机原则抽选样本,根据调查的结果对总体的有关参数进行估计计算估计误差,成本较高且对统计学专业技术有较高的要求。

2)非概率抽样:不是依据随机原则抽选样本,无法使用样本的结果对总体相应的参数进行推断。操作简单、时效快、成本低,且对统计学专业技术要求不是很高。

3、直方图与条形图有何区别?(P65)

答:1)条形图是用条形的长度(横置时)表示个类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此高度与宽度均有意义。

2)分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。 3)条形图主要用于展示分列数据,而直方图则主要用于展示数值型数据。

4、制作统计表应注意那几个问题?(P77) 答:1)要合理安排统计表的结构。

2)表头一般应包括表号、总标题和表中数据的单位等内容。

3)表中的上下两条横线一般用粗线,中间其他线要用细线,这样使人看起来清楚、醒目。

1

4)在使用统计表时,必要时可在表的下方加上注释,特别要注意注明数据来源 。

5:、简述众数、中位数和平均数的特点和应用场合。(P95) 答:1)众数

特点:是一组数据分布的峰值,不受极端值影响,只有在数据量较大的情况下才有意义。 应用场合:主要用于测度分类数据的集中趋势,也适用于作为顺序数据及数值型数据集中趋势的测度值。

2)中位数

特点:是一组数据中间位置上的代表值,不受数值极端值的影响。

应用场合:主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势。 3)平均数

特点:是针对数值型数据计算的,利用了全部数据信息,是实际应用最广泛的集中趋势测度值。

应用场合:主要适用于数值型数据

6、为什么要计算离散系数?(P103) 答:方差和标准差是反映数据分散程度的绝对值,其数值大小受原变量值本身水平高低的影响,即与变量的平均大小有关;还与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,不能用标准差直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。

7、简述时间序列的构成要素。(P364)

答:1)趋势:是时间序列在长时期内呈现出来的某种持续向上或持续下降的变动,也称长期趋势。

2)季节性:是时间序列在一年内重复出现的周期性波动,也称季节变动。

3)周期性:是时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式变动,也称循环波动。

4)随机性:时间序列中除去趋势、周期性和季节性之后的偶然波动,也称不规则波动。

8、简述平稳序列和非平稳序列的含义。(P365)

答:1)平稳序列:是基本不存在趋势的序列,其观察值基本上在某个固定的水平上波动,在不同的时间段波动的程度不同,但不存在某种规律,是随机的。

2)非平稳序列:包含趋势、季节性或周期性的序列,可能只含有其中的一种成分,也可能是几种成分的组合。因此,分为有趋势的序列、有趣适合有季节性的序列、几种成分混合而成的复合型序列。

2

计算题(3道与以下题目类似,记住方法就可以啦)

3.1为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的

等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下:

B E C C A D C B A E

D A B C D B B

A D A B A E A

C B C C C C C

B C D E B C D

C C E D C A E

D A A B D D A

E E B C E C B

C D D C C B D

E C D B E A D

E B C C B E C

A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型; (2) 用Excel制作一张频数分布表;

(3) 绘制一张条形图,反映评价等级的分布。 (4) 绘制评价等级的帕累托图。 要求会画频数分布表、条形图(P55)、直方图(P65)、茎叶图(P67) 解:(1)由于表2.21中的数据为服务质量的等级,可以进行优劣等级比较,但不能计算差异大小,属于顺序数据。

(2)频数分布表如下:

服务质量等级评价的频数分布

服务质量等级

A B C D E 合计

家庭数(频数)

14 21 32 18 15 100

频率% 14 21 32 18 15 100

(3)条形图的制作:将上表(包含总标题,去掉合计栏)复制到Excel表中,点击:图表向导→条形图→选择子图表类型→完成(见Excel练习题2.1)。即得到如下的条形图:

EDCBA02040服务质量等级评价的频数分布 频率%服务质量等级评价的频数分布 家庭数(频数)

(4) 逆序排序后,制作累计频数分布表:(大家根据表来画图) 接收

频数

频率(%) 累计频率(%)

3

C B D E A

32 21 17 16 14

32 21 17 16 14

32 53 70 86 100

4.3某银行为缩短顾客到银行办理业务等待的时间。准备采用两种排队方式进行试验:一种

是所有颐客都进入一个等待队列:另—种是顾客在三千业务窗口处列队3排等待。为比较哪种排队方式使顾客等待的时间更短.两种排队方式各随机抽取9名顾客。得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟。第二种排队方式的等待时间(单位:分钟)如下:

5.5 6.6 6.7 6.8 7.1 7.3 7.4 7.8 7.8 要求:

(1)画出第二种排队方式等待时间的茎叶图。 (2)计算第二种排队时间的平均数和标准差。 (3)比较两种排队方式等待时间的离散程度。

(4)如果让你选择一种排队方式,你会选择哪—种?试说明理由。 解:(1)茎叶图如下:

茎 5 6 7 (2)x?叶 5 6 7 8 1 3 4 8 8 2频数 1 3 5 4.088?0.714

?xni?63/9=7,s??(xi?x)n?1?(3)由于两种排队方式的平均数不同,所以用离散系数进行比较。

第一种排队方式:v1=1.97/7.2=0.274;v2=0.714/7=0.102.由于v1>v2,表明第一种排队方式的离散程度大于第二种排队方式。

(4)选方法二,因为第二种排队方式的平均等待时间较短,且离散程度小于第一种排队方式。

4.8一项关于大学生体重状况的研究发现,男生的平均体重为60公斤,标准差为5公斤;

女生的平均体重为50公斤,标准差为5公斤。请回答下面的问题: (1)是男生的体重差异大还是女生的体重差异大?为什么?

(2)以磅为单位(1公斤=2.2磅),求体重的平均数和标准差。

(3)粗略地估计一下,男生中有百分之几的人体重在55公斤到65公斤之间? (4)粗略地估计一下,女生中有百分之几的人体重在40公斤到60公斤之间?

(强调两组比较时,先分析再判断。即先看平均数/中位数/众数,再看标准差,最后看离散程度=标准差/平均数)

解:(1)由于两组的平均体重不相等,应通过比较离散系数确定体重差异较大的组: 因为女生的离散系数为

s5V=x=50=0.1

4

男生体重的离散系数为

s5V=x=60=0.08

对比可知女生的体重差异较大。

(2) 男生:x=60kg×2.21=132.6(磅),s =5kg×2.21=11.05(磅); 女生:x=50kg×2.21=110.5(磅),s =5kg×2.21=11.05(磅);

(3)Z1= = =-1;Z2= = =1,根据经验规则,男生大约有68%的人体重在55kg一65kg之间。

(4)Z1= = =-2;Z2= = =2,根据经验规则,女生大约有95%的人体重在40kg一60kg之间。

4.9 一家公司在招收职员时,首先要通过两项能力测试。在A项测试中,其平均分数是100

分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该应试者哪一项测试更为理想?

解:应用标准分数来考虑问题,该应试者标准分数高的测试理想。 ZA= = =1;ZB= = =0.5

因此,A项测试结果理想。

7.7某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时):

3.3

4.4

3.1 2.0

6.2 5.4

5.8 2.6

2.3 6.4

4.1 1.8

5.4 3.5

4.5 5.7

3.2 2.3

2.1 1.9 1.2 5.1 4.3 4.2 3.6 0.8 1.5 4.7 1.4 1.2 2.9 3.5 2.4 0.5 3.6 2.5

求该校大学生平均上网时间的置信区间,置信水平分别为90%、95%和99%。 解:⑴计算样本均值x:将上表数据复制到Excel表中,并整理成一列,点击最后数据下面空格,选择自动求平均值,回车,得到x=3.316667,

⑵计算样本方差s:删除Excel表中的平均值,点击自动求值→其它函数→STDEV→选定计算数据列→确定→确定,得到s=1.6093

也可以利用Excel进行列表计算:选定整理成一列的第一行数据的邻列的单元格,输入“=(a7-3.316667)^2”,回车,即得到各数据的离差平方,在最下行求总和,得到:

(x?i-)x=90.65

2再对总和除以n-1=35后,求平方根,即为样本方差的值

s=(x?i-x)2n?1=90.6535=1.6093。

⑶计算样本均值的抽样标准误差:

5

已知样本容量 n=36,为大样本, 得样本均值的抽样标准误差为 σx=sn=1.609336=0.2682

⑷分别按三个置信水平计算总体均值的置信区间:

① 置信水平为90%时:

由双侧正态分布的置信水平1-α=90%,通过2β-1=0.9换算为单侧正态分布的置信水平β=0.95,查单侧正态分布表得 Zα 计算得此时总体均值的置信区间为

x?Zαs/2/2=1.64,

=3.3167±1.64×0.2682=

3.75652.8769n

可知,当置信水平为90%时,该校大学生平均上网时间的置信区间为(2.87,3.76)小时;

② 置信水平为95%时:

由双侧正态分布的置信水平1-α=95%,得 Zα 计算得此时总体均值的置信区间为

x?Zαs/2/2=1.96,

=3.3167±1.96×0.2682=

3.84232.7910n

可知,当置信水平为95%时,该校大学生平均上网时间的置信区间为(2.79,3.84)小时;

③ 置信水平为99%时:

若双侧正态分布的置信水平1-α=99%,通过2β-1=0.99换算为单侧正态分布的置信水平β=0.995,查单侧正态分布表得 Zα 计算得此时总体均值的置信区间为

x?Zαs/2/2=2.58,

=3.3167±2.58×0.2682=

4.00872.6247n

可知,当置信水平为99%时,该校大学生平均上网时间的置信区间为(2.62,4.01)小时。

7.8从一个正态总体中随机抽取容量为8 的样本,各样本值分别为:10,8,12,15,6,13,5,11。

求总体均值95%的置信区间。

8?1)解: 已知,总体服从正态分布,但?未知,n=8为小样本,?=0.05,t0.05(=2.365 2根据样本数据计算得:x=10,s=3.46

总体均值?的95%的置信区间为:

6

x?t?s2=10?2.365*

3.468n?10?2.89,即(7.11,12.89)

11.6下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:

地区 人均GDP(元) 人均消费水平(元) 北京 22 460 7 326 辽宁 11 226 4 490 上海 34 547 11 546 江西 4 851 2 396 河南 5 444 2 208 贵州 2 662 1 608 陕西 4 549

2 035

要求:

(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。

(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。 (3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。 (4)检验回归方程线性关系的显著性(a=0.05)。

(5)如果某地区的人均GDP为5 000元,预测其人均消费水平。 解:(1)散点图如下:

14000120001000080006000400020000010000200003000040000

由图可知:二者可能存在线性关系。 (2)相关性

系列1 人均GDP(元) 人均消费水平(元) 人均GDP(元) Pearson 相关性 1 .998(**) 显著性(双侧) 0.000 N 7 7 人均消费水平(元) Pearson 相关性 .998(**) 1 显著性(双侧) 0.000 N 7 7

**. 在 .01 水平(双侧)上显著相关。

7

有很强的线性关系。 (3)回归方程: 系数(a) 模型 非标准化系数 标准化系数 t 显著性 B 标准误 Beta 1 (常量) 734.693 139.540 5.265 0.003 人均GDP(元) 0.309 0.008 0.998 36.492 0.000 a. 因变量: 人均消费水平(元)

回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。 (4)F检验: ANOVA(b) 模型 平方和 df 均方 F 显著性 1 回归 81,444,968.680 1 81,444,968.680 1,331.692 .000(a) 残差 305,795.034 5 61,159.007 合计 81,750,763.714 6 a. 预测变量:(常量), 人均GDP(元)。 b. 因变量: 人均消费水平(元) 回归系数的检验:t检验 系数(a) 模-型 非标准化系数 标准化系数 t 显著性 B 标准误 Beta 1 (常量) 734.693 139.540 5.265 0.003 人均GDP(元) 0.309 0.008 0.998 36.492 0.000 a. 因变量: 人均消费水平(元)

(5)某地区的人均GDP为5 000元,预测其人均消费水平为2278.10657元。

8

本文来源:https://www.bwwdw.com/article/7xtv.html

Top