应用统计分析复习要点

更新时间:2023-10-19 07:59:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

《应用统计学》复习要点

(要求:每人携带具有开方功能的计算器)

一、名词解释

1.统计学

收集、处理、分析、解释数据并从数据中得出结论的科学。 2.方差分析

方差分析是通过分析数据的误差判断各总体均值是否相等,研究分类型自变量对数值型因变量的影响,分为单因素方差分析和双因素方差分析。 3.假设检验

假设检验是事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立。分为参数假设检验和非参数假设检验。一般采用逻辑上的反证法,依据统计上的小概率原理。 4.置信区间

置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。 5.置信水平

置信水平是指总体参数值落在样本统计值某一区内的概率。 6.抽样分布

抽样分布:从已知的总体中以一定的样本容量进行随机抽样,由样本的统计数所对应的概率分布称为抽样分布。抽样分布是统计推断的理论基础。 7.方差分析

方差分析是通过分析数据的误差判断各总体均值是否相等,研究分类型自变量对数值型因变量的影响,分为单因素方差分析和双因素方差分析。 8.相关分析

相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。 9.推断统计

推断统计是研究如何利用样本数据来推断总体特征的统计方法。包含两个内容:参数估计,即利用样本信息推断总体特征;假设检验,即利用样本信息判断对总体的假设是否成立。

二、计算题

1.在某地区随机抽取120家企业,按照利润额进行分组后结果如下: 按利润额分组(万元) 300以下 300~400 400~500 500~600 600以上 合计 企业数(个) 19 30 42 18 11 120 计算120家企业利润额的平均数和标准差(注:第一组和最后一组的组距按相邻组计算)。 解答:

2.某银行为缩短顾客到银行办理业务等待的时间,准备了两种排队方式进行试验。为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下:

5.5 6.8 7.4 6.6 7.1 7.8 6.7 7.3 7.8 (1) 计算第二种排队时间的平均数和标准差。

(2) 比较两种排队方式等待时间的离散程度。

(3) 如果让你选择一种排队方式,你会选择哪一种?试说明理由。

3. 某大学为了解学生每天上网的时间,在全校学生中随机抽取36人,调查他们每天上网的时间(单位:小时),得到的数据如下:

3.3 4.4 2.1 4.7 5.4 3.5 3.1 2.0 1.9 1.4 3.6 0.5 6.2 5.4 1.2 1.2 4.5 5.7 5.8 2.6 5.1 2.9 0.8 3.6 2.3 6.4 4.3 3.5 3.2 2.3 4.1 1.8 4.2 2.4 1.5 2.5 求该校大学生平均上网时间的置信区间,置信水平分别为90%,95%和99%。(注:z(0.1)、z(0.05)和z(0.01)统计量值分别为1.65、1.96和2.58)

4. 利用下面的信息,构建总体均值μ的置信区间。

(1)总体服从正态分布,且已知σ=500,n=15,=8900,置信水平为95%。(注:z统计量值为1.96)

(2)总体不服从正态分布,且已知σ=500,n=35,=8900,置信水平为95%。(注:z统计量值为1.96)

(4) 总体不服从正态分布,σ未知,n=35,=8900,s=500,置信水平为90%。(注:z统计

量值为1.65)

(5) 总体不服从正态分布,σ未知,n=35,=8900,s=500,置信水平为99%。(注:z统计

量值为2.58)

5.对消费者的一项调查表明,17%的人早餐饮料是牛奶。某城市的牛奶生产商认为,该城市的人早餐饮用牛奶的比例更高。为验证这一说法,生产商随机抽取550人的一个随机样本,其中115人早餐 饮用牛奶。在α=0.05的显著性水平下,检验该生产商的说法是否属实?(注:z统计量值为1.96)

6.一项包括了200个家庭的调查显示,每个家庭每天看电视的平均时间为7.25小时,标准差为2.5小时。据报道,10年前每天每个家庭看电视的平均时间是6.7小时。取显著性水平α=0.01,这个调查能否证明“如今每个家庭每天收看电视的平均时间增加了”?(注:z统计量值为1.96)

7.下面是7个地区2000年的人均国内生产总值GDP(Y)和人均消费水平(X)的统计数据(注:此题对应的t统计量值为2.57): 地区 北京 辽宁 上海 江西 河南 贵州 陕西 合计∑ 人均GDP人均消费水Y-E(Y) X-E(X) (千元)Y 平(千元)X 22.460 11.226 34.547 4.851 5.444 2.662 4.549 85.739 7.326 4.490 11.546 2.396 2.208 1.608 2.035 31.609 10.212 -1.022 22.299 -7.397 -6.804 -9.586 -7.699 2.810 -0.026 7.030 -2.120 -2.308 -2.908 -2.481 (Y-E(Y)) ×(X-E(X)) 28.699 0.026 156.769 15.679 15.702 27.873 19.099 263.847 (X-E(X))2 (Y-E(Y))2 7.899 0.001 49.427 4.493 5.325 8.454 6.153 81.751 104.276 1.045 497.226 54.722 46.300 91.900 59.281 854.751 (1) 计算相关系数,说明二者之间的关系。

(2) 人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,

并解释回归系数的实际意义。

(3) 计算判定系数和估计标准误差,并解释其意义。

(4) 检验回归方程线性关系的显著性。(α=0.05)

(5) 如果某地区的人均GDP为5千元,预测其人均消费水平。

某地区的人均GDP为5 000元,预测其人均消费水平为2278.10657元 (6) 求人均GDP为5千元时,人均消费水平95%的置信区间和预测区间。

人均GDP为5 000元时,人均消费水平95%的置信区间为[1990.74915,2565.46399],

预测区间为[1580.46315,2975.74999]。

8.随机抽取7家超市,得到其广告费支出(X)和销售额(Y)数据如下: (注:此题对应的t统计量值为2.57) 超市 A B C D E F G 合计∑ 销售额 广告费支出(万元)Y (万元)X 19 32 44 40 52 53 54 294 1 2 4 6 10 14 20 57 Y-E(Y) X-E(X) -23 -10 2 -2 10 11 12 -7.143 -6.143 -4.143 -2.143 1.857 5.857 11.857 (Y-E(Y)) ×(X-E(X)) 164.286 61.429 -8.286 4.286 18.571 64.429 142.286 447 (X-E(X))2 (Y-E(Y))2 51.020 37.735 17.163 4.592 3.449 34.306 140.592 288.857 529 100 4 4 100 121 144 1002 ⑴ 计算相关系数,说明二者之间的关系。

r = 63.86/(6.424*11.964)=0.831

⑵广告费用支出作自变量,销售额作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。

⑶ 计算判定系数和估计标准误差,并解释其意义。

⑷ 检验回归方程线性关系的显著性。(α=0.05)

⑸ 如果某超市的广告费用支出为5万元,预测其销售额。

据此进行计算(x为广告费)=37.1364 ⑹ 求广告费用支出为5万元时,超市销售额95%的置信区间和预测区间。

三、论述题

1.简述样本量与置信水平、总体方差、估计误差的关系。

1. 估计总体均值时样本量n为

n?2222(z?)??222E2其中:

E?z?2?n

2. 样本量n与置信水平1-α、总体方差、估计误差E之间的关系为

? 与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需要的样本量越大;

? 与总体方差成正比,总体的差异越大,所要求的样本量也越大; ? 与与总体方差成正比,样本量与估计误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量越小。

2.简述评价估计量的三个标准。(15分)

1、无偏性:估计量抽样分布的数学期望等于被估计的总体参数

2、有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效 3、一致性:随着样本量的增大时,点估计量的值越来越接近被估总体的参数。

3.简要说明残差分析在回归分析中的作用。(15分)

残差是因变量的观测值y与根据估计的回归方程求出的预测值之差,它反映了用估计的回归方程去预测y而引起的误差。

4.简要误差分解的概念和基本原理。(15分)

1.误差概念 :精确值与近似值之差称为误差,也叫绝对误差。 2.产生误差的主要原因

① 模型误差:在解决实际问题时,在一定条件下抓住主要因素将现实系统理想化的数学描述称为实际问题的数学模型,这种数学描述常常是近似的,数学模型与实际系统之间存在误差,这种误差称为模型误差。

② 观测误差:数学模型中往往含有一些由观测得到的物理量(如温度、电阻、长度)或由物理量估算出的模型参数,这些观测物理量或模型参数常常与实际数据存在误差。这种由观察产生的误差称为观测误差。

③ 截断误差:数值计算中用有限运算近似代替无穷过程产生的误差。例如计算一个无穷次可微函数的函数值时,理论上只要能算出这个函数的泰勒级数值即可,但是实际工程上仅用泰勒级数中前面有限项来近似计算函数值,而舍去高阶无穷小量。这个被舍的高阶无穷小量正是截断误差。

④ 舍入误差:计算中按四舍五入进行舍入而引起的误差或因计算机字长有限,数据在内存中存放时进行了舍入而引起的误差。

误差分解指一个误差分配到几个变量上,这几个变量的误差各是多少。

本文来源:https://www.bwwdw.com/article/ifof.html

Top