应用统计分析复习要点

更新时间：2023-10-19 07:59:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

应用统计分析作业答案推荐度：
相关推荐

《应用统计学》复习要点

（要求：每人携带具有开方功能的计算器）

一、名词解释

1.统计学

收集、处理、分析、解释数据并从数据中得出结论的科学。 2.方差分析

方差分析是通过分析数据的误差判断各总体均值是否相等，研究分类型自变量对数值型因变量的影响，分为单因素方差分析和双因素方差分析。 3.假设检验

假设检验是事先对总体参数或分布形式作出某种假设，然后利用样本信息来判断原假设是否成立。分为参数假设检验和非参数假设检验。一般采用逻辑上的反证法，依据统计上的小概率原理。 4.置信区间

置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中，一个概率样本的置信区间（Confidence interval）是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。 5.置信水平

置信水平是指总体参数值落在样本统计值某一区内的概率。 6.抽样分布

抽样分布：从已知的总体中以一定的样本容量进行随机抽样，由样本的统计数所对应的概率分布称为抽样分布。抽样分布是统计推断的理论基础。 7.方差分析

方差分析是通过分析数据的误差判断各总体均值是否相等，研究分类型自变量对数值型因变量的影响，分为单因素方差分析和双因素方差分析。 8.相关分析

相关分析（correlation analysis），相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间的相关关系的一种统计方法。 9.推断统计

推断统计是研究如何利用样本数据来推断总体特征的统计方法。包含两个内容：参数估计，即利用样本信息推断总体特征；假设检验，即利用样本信息判断对总体的假设是否成立。

二、计算题

1.在某地区随机抽取120家企业，按照利润额进行分组后结果如下：按利润额分组（万元） 300以下 300~400 400~500 500~600 600以上合计企业数（个） 19 30 42 18 11 120 计算120家企业利润额的平均数和标准差（注：第一组和最后一组的组距按相邻组计算）。解答：

2.某银行为缩短顾客到银行办理业务等待的时间，准备了两种排队方式进行试验。为比较哪种排队方式使顾客等待的时间更短，两种排队方式各随机抽取9名顾客，得到第一种排队方式的平均等待时间为7.2分钟，标准差为1.97分钟，第二种排队方式的等待时间（单位：分钟）如下：

5.5 6.8 7.4 6.6 7.1 7.8 6.7 7.3 7.8 (1) 计算第二种排队时间的平均数和标准差。

(2) 比较两种排队方式等待时间的离散程度。

(3) 如果让你选择一种排队方式，你会选择哪一种？试说明理由。

3. 某大学为了解学生每天上网的时间，在全校学生中随机抽取36人，调查他们每天上网的时间（单位：小时），得到的数据如下：

3.3 4.4 2.1 4.7 5.4 3.5 3.1 2.0 1.9 1.4 3.6 0.5 6.2 5.4 1.2 1.2 4.5 5.7 5.8 2.6 5.1 2.9 0.8 3.6 2.3 6.4 4.3 3.5 3.2 2.3 4.1 1.8 4.2 2.4 1.5 2.5 求该校大学生平均上网时间的置信区间，置信水平分别为90%，95%和99%。（注：z(0.1)、z(0.05)和z(0.01)统计量值分别为1.65、1.96和2.58）

4. 利用下面的信息，构建总体均值μ的置信区间。

(1)总体服从正态分布，且已知σ=500，n=15，=8900，置信水平为95%。（注：z统计量值为1.96）

(2)总体不服从正态分布，且已知σ=500，n=35，=8900，置信水平为95%。（注：z统计量值为1.96）

(4) 总体不服从正态分布，σ未知，n=35，=8900，s=500，置信水平为90%。（注：z统计

量值为1.65）

(5) 总体不服从正态分布，σ未知，n=35，=8900，s=500，置信水平为99%。（注：z统计

量值为2.58）

5.对消费者的一项调查表明，17%的人早餐饮料是牛奶。某城市的牛奶生产商认为，该城市的人早餐饮用牛奶的比例更高。为验证这一说法，生产商随机抽取550人的一个随机样本，其中115人早餐饮用牛奶。在α=0.05的显著性水平下，检验该生产商的说法是否属实？（注：z统计量值为1.96）

6.一项包括了200个家庭的调查显示，每个家庭每天看电视的平均时间为7.25小时，标准差为2.5小时。据报道，10年前每天每个家庭看电视的平均时间是6.7小时。取显著性水平α=0.01，这个调查能否证明“如今每个家庭每天收看电视的平均时间增加了”？（注：z统计量值为1.96）

7.下面是7个地区2000年的人均国内生产总值GDP（Y）和人均消费水平（X）的统计数据（注：此题对应的t统计量值为2.57）：地区北京辽宁上海江西河南贵州陕西合计∑ 人均GDP人均消费水Y-E(Y) X-E(X) （千元）Y 平（千元）X 22.460 11.226 34.547 4.851 5.444 2.662 4.549 85.739 7.326 4.490 11.546 2.396 2.208 1.608 2.035 31.609 10.212 -1.022 22.299 -7.397 -6.804 -9.586 -7.699 2.810 -0.026 7.030 -2.120 -2.308 -2.908 -2.481 (Y-E(Y)) ×(X-E(X)) 28.699 0.026 156.769 15.679 15.702 27.873 19.099 263.847 (X-E(X))2 (Y-E(Y))2 7.899 0.001 49.427 4.493 5.325 8.454 6.153 81.751 104.276 1.045 497.226 54.722 46.300 91.900 59.281 854.751 (1) 计算相关系数，说明二者之间的关系。

(2) 人均GDP作自变量，人均消费水平作因变量，利用最小二乘法求出估计的回归方程，

并解释回归系数的实际意义。

(3) 计算判定系数和估计标准误差，并解释其意义。

(4) 检验回归方程线性关系的显著性。（α=0.05）

(5) 如果某地区的人均GDP为5千元，预测其人均消费水平。

某地区的人均GDP为5 000元，预测其人均消费水平为2278.10657元 (6) 求人均GDP为5千元时，人均消费水平95%的置信区间和预测区间。

人均GDP为5 000元时，人均消费水平95％的置信区间为[1990.74915，2565.46399]，

预测区间为[1580.46315，2975.74999]。

8.随机抽取7家超市，得到其广告费支出（X）和销售额（Y）数据如下：（注：此题对应的t统计量值为2.57）超市 A B C D E F G 合计∑ 销售额广告费支出（万元）Y （万元）X 19 32 44 40 52 53 54 294 1 2 4 6 10 14 20 57 Y-E(Y) X-E(X) -23 -10 2 -2 10 11 12 -7.143 -6.143 -4.143 -2.143 1.857 5.857 11.857 (Y-E(Y)) ×(X-E(X)) 164.286 61.429 -8.286 4.286 18.571 64.429 142.286 447 (X-E(X))2 (Y-E(Y))2 51.020 37.735 17.163 4.592 3.449 34.306 140.592 288.857 529 100 4 4 100 121 144 1002 ⑴ 计算相关系数，说明二者之间的关系。

r = 63.86/(6.424*11.964)=0.831

⑵广告费用支出作自变量，销售额作因变量，利用最小二乘法求出估计的回归方程，并解释回归系数的实际意义。

⑶ 计算判定系数和估计标准误差，并解释其意义。

⑷ 检验回归方程线性关系的显著性。（α=0.05）

⑸ 如果某超市的广告费用支出为5万元，预测其销售额。

据此进行计算（x为广告费）=37.1364 ⑹ 求广告费用支出为5万元时，超市销售额95%的置信区间和预测区间。

三、论述题

1.简述样本量与置信水平、总体方差、估计误差的关系。

1. 估计总体均值时样本量n为

n?2222(z?)??222E2其中：

E?z?2?n

2. 样本量n与置信水平1-α、总体方差、估计误差E之间的关系为