中南财经政法大学统计学练习题和答案

更新时间:2024-04-18 00:39:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

学号: 班级: 姓名:

第一章 导 论

一、填空题

1.1.1 统计工作 是人们对客观事物数量方面进行调查研究的认识活动。

1.1.2 调查得到的经过整理具有信息价值的各种统计数据、图表和文字资料都是统计资料。 1.1.3 统计学是一门收集、整理和分析统计数据的 方法论 科学,其目的是探索数据的内在数量规律性 ,以达到对客观事物的科学认识。

1.1.4 统计数据按其采用的 计量尺度 不同可以分为分类数据、顺序数据、数值型数据。 1.1.5 分类数据 是指只能归入某一类别的非数字型数据。

1.1.6 分类数据是按 品质属性 对事物进行分类的结果,反映各个类型的数量结果。 1.1.7 顺序数据 是指归于某一有序类别的非数字型数据。

1.1.8 数值型数据 是指按数字尺度测量的观察值,也就是直接反映事物数量特征的数据。 1.1.9 统计数据按其 收集方法 不同,可以分为观测数据和实验数据。 1.1.10 观测数据 是指通过调查或观测而收集到的数据。

1.1.11 实验数据 是指在实验中控制实验对象而收集到的数据。 1.1.12 统计数据按被描述的对象和时间的关系不同分为 截面数据、时间序列数据 和 混合数据 。

1.1.13 截面数据 是指对不同单位在同一个时间点上收集的数据。

1.1.14 时间序列数据 是指对同一个单位的一个或多个变量在不同时间上收集到的数据。 1.1.15 混合数据 是指在数据集中含有时间序列和截面数据成分的数据。 1.1.16 以文字记述国家显著事项的学说在统计发展史上称为 国势学 。

1.1.17 从统计方法的构成看,统计学可以分为 描述统计学 和 推断统计学 。 1.1.18 从统计方法研究和统计方法的应用角度来看,统计学可以分为 理论统计学、应用统计学。

1.1.19 根据一定目的确定的所要研究事物的全体称为 统计总体 。 1.1.20 总体单位所具有的属性和特征通常称为 标志 。

1.1.21 反映统计总体数量特征的概念和数值称为统计指标。

1.1.22 标志是反映 总体单位 的属性和特征,而指标则是反映 总体 的数量特征。 1.1.23 统计指标按其所反映的数量特点不同,可以分为 数量指标 和 质量指标。 1.1.24 凡是反映现象总规模、总水平和工作总量的统计指标称为数量指标 。 1.1.25 凡是反映现象相对水平和工作质量的统计指标称为 质量指标 。 1.1.26 变量按其所受影响因素不同,可分为 确定性变量 和 随机变量 。 1.1.27 变量按其数值形式不同,可以分为 离散型变量 和 连续型变量 。

1.1.28 根据总体中包含的单位数是否有限,总体可以分为 有限总体 和 无限总体 。 1.1.29 统计学研究的对象是客观现象的 数量方面 。

二、单项选择题(在每小题的3个备选答案中选出1个正确答案,并将其字母填在题

干后面的括号内)

1.2.1 人们对客观事物数量方面进行调查研究的认识活动是指 ( A ) A.统计工作 B.统计学 C.统计资料

1.2.2 统计学是一门收集、整理和分析统计数据的 ( A ) A.方法论科学 B.实质性科学 C.实证科学

1.2.3 统计数据分为分类数据、顺序数据、数值型数据的依据是 ( C ) A.价值单位 B.计量单位 C.计量尺度

1.2.4 凡是可以用数值表示的标志,称为 ( A ) A.数量标志 B.数量指标 C.品质标志

1

学号: 班级: 姓名:

1.2.5 反映统计总体数量特征的概念和数值,称为 ( C ) A.数量标志 B.标志 C.统计指标

1.2.6 凡是反映总体现象相对水平和工作质量的统计指标称为 ( B ) A.数量指标 B.质量指标 C.数量标志

1.2.7 变量可以分为离散型变量和连续型变量,其依据是 ( A ) A.数值形式 B.计量单位 C.计量尺度

1.2.8 政治算术学派主要代表人物威廉·配第的代表作是 ( A ) A.政治算术 B.欧洲各国国势学概论 C.社会物理学

1.2.9 如果要研究某市30万在校高等学校大学生的月消费支出情况,总体单位是 ( B ) A.30万个大学生 B.每一位在校大学生 C.每一所大学

1.2.10 如果要研究某市3000家外资企业的基本情况,其中甲企业职工人数800人,这是一个什么指标 ( C ) A.数量指标 B.质量指标 C.数量标志值

1.2.11 如果要研究某市2万户贫困家庭的生活状况,总体是 ( B ) A.每一户贫困家庭 B.2万户贫困家庭 C.所有贫困人口

1.2.12 如果对连续生产线上的产品进行质量检验,那么研究对象是 ( A ) A.无限总体 B.有限总体 C.抽样总体

1.2.13 如果要研究某市人口的性别比例关系,那么,每个人的性别是 ( A ) A.品质标志 B.质量指标 C.数量标志

1.2.14 当研究对象为某班50名学生时,张三同学的年龄20岁是一个 ( B ) A.变量 B.变量值 C.统计指标

三、多项选择题(在下列4个备选答案中,至少有二个是正确的,请将其全部选出,

并把字母填在题干后面的括号内)

1.3.1 当人们谈及什么是统计时,通常可以理解为 ( ACD ) A.统计工作 B.统计整理 C.统计资料 D.统计学

1.3.2 调查得到的经过整理具有信息价值的统计资料包括 ( ABD ) A.统计数据 B.统计图标 C.统计软件 D.统计年鉴

1.3.3 以下关于统计学的描述,正确的有 ( ACD ) A.统计学是一门收集、整理和分析统计数据的方法论科学 B.统计学是一门收集、整理和分析统计数据的实质性科学 C.统计学的研究目的是探索数据的内在数量规律性 D.统计学提供了探索数据内在规律的一套方法

1.3.4 统计数据按其采用的计量尺度不同可以分为 ( ABC ) A.分类数据 B.顺序数据 C.数值型数据 D.截面数据

1.3.5 统计数据按其收集方法不同,可以分为 ( AB ) A.观测数据 B.实验数据 C.时序数据 D.混合数据

1.3.6 统计数据按被描述的对象和时间的关系不同分为 ( ABD ) A.截面数据 B.时间序列数据 C.观测数据 D.混合数据

1.3.7 从统计学的产生和发展过程来看,大致可以划分为三个时期,即 ( ABC ) A.古典统计学时期 B.近代统计学时期 C.现代统计学时期 D.应用统计学时期 1.3.8 从统计方法的构成看,统计学可以分为 ( AD ) A.描述统计学 B.理论统计学 C.应用统计学 D.推断统计学

1.3.9 作为一个统计总体,必须具有以下特征 ( ABD ) A.同质性 B.变异性 C.统一性 D.大量性

1.3.10 标志是指总体单位所具有的属性和特征,可以分为 ( AC ) A.数量标志 B.数量指标 C.品质标志 D.质量指标

1.3.11 如果要研究某市987家外资企业的基本情况,下列属于统计指标的有 ( ABD ) A.所有外资企业的职工平均工资 B.所有外资企业的平均利润

2

学号: 班级: 姓名:

C.甲企业的固定资产原值 D.所有外资企业平均职工人数

1.3.12 统计指标按其所反映的数量特点不同,可以分为 ( AD ) A.数量指标 B.数量标志 C.品质标志 D.质量指标

四、判断改错题

1.4.1 统计资料是统计工作的成果,包括调查得到的经过整理具有信息价值的各种统计数据、图表和文字资料。 ( √ )

1.4.2 统计学是一门收集、整理和分析统计数据的实质性科学。 (×,方法论科学) 1.4.3 分类数据是指只能归入某一类别的非数字型数据。 ( √ ) 1.4.4 顺序数据是按数量属性对事物进行分类的结果。 (×,品质属性) 1.4.5 分类数据和顺序数据相似之处在于两者都是非数字型数据。 ( √ ) 1.4.6 统计数据按其描述的对象不同,可以分为观测数据和实验数据。 (×,收集方法) 1.4.7 时间序列数据是指对不同单位在同一个时间点上收集的数据。 (×,截面数据) 1.4.8 从统计方法的构成看,统计学可以分为描述统计学和推断统计学。 ( √ ) 1.4.9 总体的数量特征都是从每个总体单位的特征加以逐级汇总而体现出来的。 ( √ ) 1.4.10 同质性是指构成总体的个别事物在某个方面必须具有相同的性质。 ( √ ) 1.4.11 若总体中所包含的统计指标数是有限的,则称为有限总体。 (×,总体单位数) 1.4.12 标志表现是指各种属性和特征在总体单位身上的具体体现。 ( √ ) 1.4.13 统计指标按其所反映的数量特点不同,可以分为相对指标和平均指标。 (×,数量指标和质量指标) 1.4.14 凡是反映现象总规模、总水平和工作总量的统计指标称为质量指标。(×,数量指标) 1.4.15 凡是反映现象相对水平和工作质量的统计指标称为数量指标。 (×,质量指标) 1.4.16 变量按其所受影响因素不同,可分为离散型变量和连续型变量。 (×,确定性变量和随机变量) 1.4.17 甲企业职工人数1248人,这是一个连续变量。 (×,离散变量)1.4.18 某地区2007年人均国内生产总值为13600元,这是一个离散变量。(×,连续变量)

五、简答题

1.5.1 如何理解统计学的性质?

答:为了更好地理解统计学的性质,我们应明确以下三个方面的问题。其一,统计学研究的对象是客观现象的数量方面;其二,统计学研究的是群体现象的数量特征与规律性;其三,统计学是一门方法论的科学。

1.5.2 统计数据有哪些基本分类? 答:统计数据有三种基本分类。一是按其采用的计量尺度不同,统计数据可以分为分类数据、顺序数据、数值型数据;二是按其收集方法不同,统计数据可以分为观测数据和实验数据;三是按被描述的对象和时间的关系不同,统计数据可以分为截面数据、时间序列数据和混合数据。

1.5.3 什么是描述统计学和推断统计学?

答:描述统计学(Descriptive Statistics)研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。

推断统计学(Inferential Statistics)则是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。

3

学号: 班级: 姓名:

1.5.4 什么是统计总体?它具有何特点?

答:统计总体就是根据一定目的确定的所要研究事物的全体。它是由客观存在的、具有某种共同性质的许多个别事物构成的整体,简称为总体。总体具有以下三个特点:

其一,同质性,是指构成总体的个别事物在某个方面(或某一点上)必须具有相同的性质,这是构成总体的必要条件。其二,变异性,是指构成总体的个别事物除了至少在某一个方面具有相同的性质以外,其他方面应该存在差异,这是进行统计研究的前提。其三,大量性,是指构成总体的个别事物要求足够的多,这是探究客观事物规律性的基础。

1.5.5 什么是样本?它具有何特点?

答:从全及总体中抽取出来,作为代表这一总体的部分单位组成的集合体称为样本。

样本有以下显著的特点:其一,构成样本的单位必须取自全及总体内部,不允许总体外部的单位参加抽样过程;其二,从一个全及总体中可以抽取许多个样本;其三,样本具有代表性;其四,样本具有客观性。从全部总体中抽取样本,必须排除主观因素的影响。

1.5.6 什么是统计指标与指标体系?

答:统计指标是反映统计总体数量特征的概念和数值。

统计指标体系是由一系列相互联系的统计指标所组成的有机整体,用以反映所研究现象各方面相互依存相互制约的关系。

4

学号: 班级: 姓名:

第二章 统计数据的收集、整理与显示

一、填空题

2.1.1 一切数据最初都来源于 调查与实验 。

2.1.2 自己进行调查与实验得到的数据称为 初级统计数据或者直接数据 。

2.1.3 抽样调查是按照 随机原则 从总体中抽取部分单位进行观察用以推算总体数量特征的一种统计调查方式。

2.1.4 调查对象 是根据调查目的确定的、在某种性质上相同的许多个体单位所组成的集合。 2.1.5 报告单位 是负责向调查研究机构提供所需统计资料的基层单位。 2.1.6 标志 是反映调查单位特征的变量。

2.1.7 调查表 是指把所要调查的项目按照一定的结构和顺序排列后形成的表格。

2.1.8 一览表 是指一份表格上可以同时登记两个及两个以上调查单位有关调查项目的调查表。

2.1.9 单一表 是指一份表格上只登记一个调查单位有关调查项目的调查表。

2.1.10 一般情况下,调查项目多宜采用 单一表 ,调查项目少则应采用 一览表 。 2.1.11 调查时间 是指调查资料所属的时间。

2.1.12 问卷中的开放性问题可以采用填空和 自由回答 两种方式。

2.1.13 数据数列分组的关键在于 分组变量的选择和各组界限的划分 。

2.1.14 某开口组的上限为30,相邻组组距是5,则其假定下限为 25 ,组中值为 27.5 。 2.1.15 某开口组的下限为280,相邻组组距是10,则其假定上限为 290 ,组中值为 285 。 2.1.16 在组距数列中,表示各组界限的变量值称为 组限 ,各组上限与下限之间中点位置值称为 组中值 。

二、单项选择题(在每小题的3个备选答案中选出1个正确答案,并将其字母填在题干后面的括号内)

2.2.1 主要用来调查时点现象总体特征的一次性全面调查称为 ( C ) A.抽样调查 B.统计报表调查 C.普查

2.2.2 按照随机原则抽取样本,并对总体的特征做出推断的调查方式是 ( A ) A.抽样调查 B.普查 C.统计报表调查

2.2.3 采用事先设计好的问卷进行调查的方法称为 ( B ) A.小组座谈法 B.问卷调查法 C.电话调查法

2.2.4 调查人员到现场对调查单位直接观察得到结果的方法称为 ( A ) A.观察法 B.实验法 C.电话调查法

2.2.5 在分类的基础上,将总体的所有单位按类进行整理,形成总体单位在各组间的分布,称为 ( C )

A.频数 B.次数 C.频数分布

2.2.6 在问卷中没有提供答案,由被调查者自由地选择回答形式的问题称为 ( B ) A.封闭性问题 B.开放性问题 C. 复杂性问题

2.2.7 上四分位数QU位置的计算公式是 ( A )

A.

3(n?1)n?1n?1 B. C. 4422.2.8 行标题通常用来表示横向变量的名称,一般在统计表的 ( B )

A.中间 B.左边 C.右边

2.2.9 一组数15,18,19,20,22,24,26,27,28,29,32的上四分位数值和下四分位数值分别是 ( A )

A.28,19 B.29,20 C.28,20

5

学号: 班级: 姓名:

2.2.10 一组数25,27,29,30,32,34的中位数值是 ( B ) A.29 B.29.5 C.30

2.2.11 在分组时,凡遇到某单位的标志值刚好等于相邻两组上下限数值时,一般是 ( C ) A.此值归入两组均可 B.将此值归入上限所在组 C.将此值归入下限所在组 2.2.12 人口普查的调查单位是 ( C ) A.全部人口 B.每户家庭 C.每个人

2.2.13 数据审核时,主要从及时性、准确性和完整性方面进行审核的数据是 ( A ) A.原始数据 B.二手数据 C.时间序列数据 2.2.14 在数值型数据的图示中,适用于多变量数据的图形有 ( B ) A.雷达图 B.直方图 C.茎叶图

三、多项选择题(在下列4个备选答案中,至少有二个是正确的,请将其全部选出,并把字母填在题干后面的括号内)

2.3.1 常用的统计调查方式有 ( ACD ) A.普查 B.科学试验 C.统计报表调查 D.抽样调查

2.3.2 属于数据收集方法的有 ( ABCD ) A.访问调查法 B.电话调查法 C.小组座谈法 D.实验法

2.3.3 设计调查表时是采用一览表还是单一表,取决于 ( AD ) A.调查单位与报告单位的关系 B.方便性 C.经费的多少 D.调查项目的多少

2.3.4 选择回答型的设计方法包括两项选择法及 ( ABCD ) A.多项选择法 B.顺序选择法 C.评定尺度法 D.双向列联法

2.3.5 对封闭性问题的设计,答案要遵循的原则是 ( CD ) A.完备性 B.系统性 C.穷尽性 D.互斥性

2.3.6 在分组汇总之前,要对原始资料的哪些方面进行审核 ( ABC ) A.及时性 B.准确性 C.完整性 D.互斥性

2.3.7 分类数据的图示方法主要包括 ( ABCD ) A.条形图 B.Pareto图 C.对比条形图 D.饼图

2.3.8 数据分组根据分组变量的多少可以分为 ( CD ) A.单层分组 B.多层分组 C.简单分组 D.复合分组。

2.3.9 从外形看,统计表都由哪些部分组成? ( ABCD ) A.表头 B.行标题 C.列标题 D.数字资料

2.3.10 属于数值型数据图示方法的有 ( ABCD ) A.直方图 B.箱线图 C.雷达图 D.茎叶图

2.3.11 多变量数据的图示方法包括 ( ABCD ) A.散点图 B.气泡图 C.雷达图 D.星座图

2.3.12 某次人口普查的标准时点为7月1日零点,今有甲,乙、丙、丁四人情况是:甲6月30日夜10点出生,乙6月30日夜11点去世,丙6月30日夜12点半出生,丁7月1日1点去世。调查员登记时,对这四人处理正确的选项是 ( ACD )

A.甲登记、乙不登记 B.甲不登记、乙登记 C.丙不登记 D.丁登记

四、判断改错题

2.4.1 调查单位与报告单位总是相同的。 (×,调查单位与报告单位不总是相同的)

2.4.2 两项选择法是指提出的问题只有两种备选答案的提问方法。 ( √ ) 2.4.3 复合分组是对被研究现象总体只按一个变量进行分组。 (×,简单分组是对被研究现象总体只按一个变量进行分组)

6

学号: 班级: 姓名:

2.4.4 简单分组是对原始数据按两个或两个以上变量进行层叠式分组。 (×,复合分组是对原始数据按两个或两个以上变量进行层叠式分组)

2.4.5 实验法具有方法科学、反映客观、过程容易控制等优点。 ( √ ) 2.4.6 小组座谈法有匿名性、定量化和轮回反馈式等特点。 (×,德尔菲法有匿名性、定量化和轮回反馈式等特点)

2.4.7 网络调查是指利用国际互联网搜集数据方法。 ( √ ) 2.4.8 开放性问题一般放在问卷的前面。 (×,开放性问题一般放在问卷的最后) 2.4.9 组织普查时要规定统一的时间。 (×,组织普查时要规定统一的标准时点) 2.4.10 在全国人口普查中,全国人口是调查对象。 ( √ ) 2.4.11 抽样调查属于全面调查方式。

(×,普查属于全面调查方式,抽样调查属于非全面调查方式)

2.4.12 我国在每逢年份的末尾数字为0的年份进行人口普查。 ( √ )

五、简答题

2.5.1 在选择次级数据时应该注意什么? 答:(1)应根据研究目的选择次级数据;(2)注意次级数据变量名称的含义是否发生变化; (3)注意次级数据的计算口径和计算方法是否一致;(4)注意尊重次级数据所有者的权益。

2.5.2 什么是普查?组织普查时,应该注意什么问题? 答:普查是国家为了详细地了解某项重要的国情国力而专门组织的一次性全面调查,主要用来调查属于一定时点上现象的总体特征。组织普查时,应该注意(1)要规定统一的标准时点;(2)严格设定必需的调查项目;(3)尽可能地缩短普查登记期限;(4)按一定的周期进行同类普查。

2.5.3 抽样调查具有什么特点? 答:(1)从总体中随机抽取样本单位;(2)抽样调查的目的是根据样本的数量特征推断总体的数量特征;(3)抽样误差可以事先计算并且加以控制。

2.5.4 统计数据的具体收集方法有哪些?

答:有访问调查法、问卷调查法、德尔菲法、电话调查法、电脑辅助调查法、小组座谈法、观察法、实验法、网络调查法等。

2.5.5 什么是访问调查法?访问调查法的特点是什么? 答:访问调查法是调查者通过与被调查者的当面交谈而得到所需资料的调查方法。在访问调查中,调查人员可以直接了解被调查者对调查问题的态度、观点、举止和调查现场的环境等,为判断调查资料的准确程度提供一定的依据。与其他调查法相比,访问调查法的特点有:回答率较高、数据比较准确、可使用较复杂的问卷、调查成本高等。

2.5.6 什么是德尔菲法?德尔菲法的特点是什么?

答:德尔菲法是指按照规定的程序,采用邮寄或电子邮件的方式,反复多次地收集各地专家的看法,使不同意见趋于一致的调查方法。德尔菲法有匿名性、定量化和轮回反馈式等特点。

2.5.7 一份完整的调查方案,应该包括哪些内容? 答:(1)调查目的;(2)调查对象、调查单位和报告单位;(3)调查项目与调查表; (4)调查时间、调查方式与方法;(5)调查的组织工作。

2.5.8 为了保证原始统计资料的准确性,在确定调查项目时应该注意什么问题? 答:(1) 调查项目的含义必须明确,不能模棱两可;(2) 考虑取得资料的可行性,有些调查项目虽然需要,但在现有条件下难以取得资料的则不应列入;(3) 调查项目的答案应满足完

7

学号: 班级: 姓名:

备性和互斥性。如果要求选择回答,则必须列出所有可能的答案,以免出现重复或遗漏;(4) 确定不同时期同类调查的调查项目时,前后时期的调查项目应互相衔接,以便进行动态比较分析。

2.5.9 设计问卷的提问项目时一般应注意遵循哪些规则? 答:(1)问题的顺序安排应注意逻辑性;(2)问题的顺序安排应注意兴趣;

(3)问题的顺序安排应注意先易后难;(4)开放性问题一般放在最后。

2.5.10 什么是问卷中的封闭性问题?封闭性问题答案的设计有哪些类型可供选择? 答:封闭性问题是指调查者已经设计好若干个答案,被调查者只需从中选择一个或一个以上答案的问题。其答案的设计有两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法等可供选择。

2.5.11 分类数据和顺序数据的图示方法各有哪些?

答:分类数据的图示方法包括条形图、Pareto图、对比条形图和饼图;顺序数据的图示方法包括累计频数分布图和环形图。

2.5.12 数据分组应注意什么? 答:(1) 保持组内单位的同质性和组间单位的差异性; (2) 统计分组要符合穷举性原则;(3) 统计分组要符合互斥性原则。

2.5.13 数值型数据的图示方法有哪些?

答:数值型数据的图示方法包括直方图、茎叶图、箱线图、线图、二维或三维散点图、气泡图、雷达图等。

2.5.14 统计表由哪几个部分组成?

答:统计表有多种具体形式,但不论哪种形式的统计表,从外形看都由表头、行标题、列标题和数字资料四个部分组成。

2.5.15 简述统计表的设计规则。 答:(1)合理安排统计表的结构;(2)统计表的总标题、行标题、列标题都要能简明扼要地说明有关内容;(3)统计表的左右两端一律不封口;表的上下两端一般用粗线,其他的中间线都用细线隔开;(4)表中数据一般采用右对齐形式,有小数点时以小数点对齐,同栏数据要具有同一精确度;不要求填写或不可能有答案的表格单元,一般用“—”表示,在数字资料区不能出现“同上”、“同左”等文字;(5)若使用的是次级资料,应在表的下方注明资料来源,既显示对原作者的尊重,又便于读者查对。有时还需要在表的下方附上简明的指标解释。

2.5.16 试设计一份调查大学生对本科教学计划意见的问卷,进行调查并将调查结果制成统计表和统计图。

答:略

2.5.17 调查本班同学的来源地(按省或按市),制作频数分布表、条形图、柱形图和Pareto图。

答:略

六、作图与计算题

2.6.1 为了解某大型居民小区的物业管理质量,随机抽取了由100个家庭组成的样本。质量等级的含义分别为:A.差;B.较差;C.一般;D.较好;E.好。有关资料如下:

C D B

A C C

B A E

B E B

D C A

8 A A B

D B C

D C D

C D B

B D B

学号: 班级: 姓名:

B B D D C E C

C C D C B C B

B D B A C D A

A E A B A D C

D B E C B B D

B C A C C A B

B C B D E A B

C C C A B C B

B C E C D C C

A B A E A A D

要求:(1)指出上面的数据的类型;(2)制作频数分布表;(3)绘制条形图反映质量等级的分布。

解:(1)顺序数据。 (2)频数分布表 等级 A B C D E 合计

户数 18 28 28 18 8 100

向上累积 (%)

18 46 74 92 100 —

(3)条形图

EDCBA051015202530

2.6.2 某生产车间30名工人日加工零件数(件)如下:

30 26 42 41 36 44 40 37 37 25 45 29 43 31 36 49 34 47 33 43 38 42 32 34 38 46 43 39 35 36

试根据以上资料分成如下几组:25—30,30—35,35—40,40—45,45—50,编制频数分布表,并绘制直方图。

解: 频数分布表 零件数(件) 25-30 30-35 35-40 40-45 45-50 合计

频率 4 6 9 8 3 30 9

百分比(%) 13.33 20 30 26.67 10 100

学号: 班级: 姓名:

直方图:

2.6.3 某调查公司对省内各市2007年度评选的“三八”红旗手的状况进行了调查,得到如下的百分比信息:

(1)所从事的行业:服务业41%,制造业35%,政府机关8%,个体户3%,其他13%; (2)学历状况:高中30%,本科45%,硕士15%,博士4%,其他6%; (3)婚姻状况:有配偶85%,未婚6%,其他9%。 要求:试利用上述信息对这些先进人物作出描述。

解:在所选的选的“三八”红旗手中,服务业和制造业占绝大多数,分别为41%和35%。

行业

其它13%个体户3%政府机关8%服务业41%服务业 制造业 政府机关个体户 其它 制造业35%

在学历中以高中生和本科生居多,分别占30%和45%。

10

学号: 班级: 姓名:

对于配偶情况,有配偶的占85%,未婚的占8%。

2.6.4 为了解某特定商品房型的价格变动情况,某市调查机构随机抽取了25个样本,得销售价格资料如下:

销售价格(单位:元)

5660 5899 5710 6090 5425

5595 6295 5950 5770 5367

6060 5749 5720 5682 6380

5500 5820 5575 6016 5945

5630 5843 5760 5650 6120

要求:试根据上表资料绘制茎叶图。 解:

销售价格茎叶图为: 树茎 53 54 55 56 57 58 59 60 61 62 63 67 25 7595 30506082 1020496070 204399 4550 166090 20 95 80 树叶 数据个数 1 1 3 4 5 3 2 3 1 1 1

2.6.5 D超市30天的销售额资料如下(单位:万元):

59 40 56 36 53

63 67 42 56 64

35 65 64 69 31

41 46 57 63 70

92 45 43 54 51

63 84 64 72 78

要求:试根据上表资料进行数据分组,并绘制这组数据的频数直方图。

11

学号: 班级: 姓名:

解: 将数据分为7组,组距为10。

频数分布表 按销售额分组(万元)

30-40 40-50 50-60 60-70 70-80 80-90 90-100 合计

频率 4 5 7 9 3 1 1 30

百分比(%)

13.3 16.7 23.3 30.0 10.0 3.3 3.3 100.0

直方图:

108642020-3030-4040-5050-6060-7070-8080-9090-100100-110

2.6.6 2006年世界十大富豪和中国内地十大富豪资产的资料如下: 世界(亿美元) 姓名 比尔·盖茨 沃伦·巴菲特 卡洛斯·贺鲁 英格瓦·坎普拉德 拉克什米·米塔尔 保罗·艾伦 伯纳德·阿诺特 阿尔瓦利德·塔拉尔 肯尼斯·汤姆森家族 李嘉诚 资产 500 420 300 280 235 220 215 200 196 188 中国内地(亿元人民币) 姓名 黄光裕 许荣茂 荣智健 朱孟依 张 茵 张 力 施正荣 刘永行 郭广昌 鲁冠球 资产 180.9 173.6 158 152.4 115 115.2 113 91.7 90.8 90.5 要求:试按照1美元=7元人民币的汇率,画出相应的对比柱形图和环形图。 解:

12

学号: 班级: 姓名:

对比柱形图

世界十大富豪和中国内地十大富豪资产柱形对比图600500400亿美元30020010001234567891011系列1系列2

(系列1为世界十大富豪,系列2为中国内地十大富豪) 环形图:

世界十大富豪和中国内地十大富豪资产环形图12.9312.9713.119620018825.8450024.842016.1421522016.4623516.4330022.5728021.7712345678910

2.6.7 试通过对次级资料的收集,绘制1990—2006年我国国内生产总值(GDP)的线图,(按当年价格计算,单位:亿元)。

解:

1990—2006年我国国内生产总值(GDP)的线图

1990—2006年我国国内生产总值(GDP)250000200000150000100000500000 总值19901991199219931994199519961997199819992000200120022003200420052006年份 2.6.8 某大型乳制品加工企业2006年在全国4个大区的销售额如下(单位:百万元):

月份 1 2 3 4 5 6 7 8 华北 110 115 107 105 101 99 96 100 华东 160 160 174 189 192 140 154 170 华中 81 82 76 77 80 77 76 69 华南 62 68 70 71 69 73 78 77

13

学号: 班级: 姓名:

9 10 11 12 108 113 125 129 177 188 151 179 66 75 89 95 89 92 95 98 要求:试根据上表资料绘制箱线图,并分析各大区销售额的分布特征。 解:

如图所示,华东地区的平均销售额最高,其次是华北地区,较低的是华中地区,排最后的是华南地区;从销售额分布的离散程度来说,华中地区(有两个离异点)和华南地区的销售额较为集中,,华北和华东地区的销售额则比较分散。

14

学号: 班级: 姓名:

第三章 数据分布特征的描述

一、填空题

3.1.1 集中趋势 是指一组数据向其中心值靠拢的倾向。 3.1.2 加权算术平均数受两个重要因素的影响,一个是 各组变量值 ;另一个是各组变量值出现的 频数或频率 。

3.1.3 计算比率的平均数时,如果已知比率及其基本计算式的分母资料,则采用 加权算术平均法 。

3.1.4 计算比率的平均数时,如果已知比率及其基本计算式的分子资料,则采用 加权调和平均法 。

3.1.5 几何平均法 是计算平均比率或平均发展速度最适用的一种方法。 3.1.6 众数 是指一组数据中出现次数最多的变量值。

3.1.7 四分位数 是指将按大小顺序排列的一组数据划分为四等分的三个变量值。 3.1.8 十分位数 是指将按大小顺序排列的一组数据划分为10等分的9个变量值。 3.1.9 在数据分布呈 完全对称的正态分布 时,算术平均数、众数和中位数三者相等。 3.1.10 异众比率是指 非众数组 的频数占总频数的比率。

3.1.11 上四分位数与下四分位数之差的简单算术平均数称为 四分位差 。 3.1.12 各个变量值与其算术平均数离差的绝对值的平均数称为 平均差 。

3.1.13 总体方差是各个数据与其 算术平均数 的离差平方的平均数,通常以?2表示。 3.1.14 皮尔逊测度法就是利用算术平均数与众数的关系来测度数据分布 偏斜程度 的一种方法。

3.1.15 中心矩法 是指用标准差的三次方除三阶中心矩计算偏态系数的一种方法。

二、单项选择题(在每小题的3个备选答案中选出1个正确答案,并将其字母填在题干后面的括号内)

3.2.1 先将一组数据的变量值按一定顺序排列,然后取某一位置的变量值来反映这些数据的一般水平,把这个特殊位置上的数值看作是平均数,称为 ( B )

A.数值平均数 B.位置平均数 C.离散系数

3.2.2 算术平均数反映的是数据分布的什么特征 ( A ) A.集中趋势 B.离散趋势 C.偏态趋势 3.2.3 根据算术平均数的性质,下列表达式正确的是 ( A )

A.?(x?x)f?0 B.

?x-xf=0 C.?(x-x)2f=0

3.2.4 如果分布数列中各变量值呈几何级数变化或频率分布极不对称,计算平均数的常用方法是 ( B )

A.算术平均法 B.几何平均法 C.调和平均法

3.2.5 用各组的组中值代表其实际数据计算算术平均数时,通常假定 ( A ) A.各组数据在组内是均匀分布的 B.各组次数相等 C.各组数据之间没有差异

3.2.6 当数据分布为右偏分布时,算术平均数与中位数、众数的关系表现为 ( A ) A.Mo?Me?x B.x?Me?Mo C.x?Mo?Me

3.2.7 离散程度测度指标中,受极端值影响最大的是 ( C ) A.平均差 B.标准差 C.全距

3.2.8 平均差与标准差的主要区别在于 ( B ) A.说明问题的角度不同 B.对离差的数学处理方法不同 C.计算对象不同

3.2.9 标准差系数消除了 ( B ) A.总体单位数多少的影响 B.平均数大小和计量单位的影响 C.离散程度的影响

15

学号: 班级: 姓名:

3.2.10 直接使用标准差比较分析两个同类总体平均数的代表性,其前提条件是 ( B ) A.两个总体的标准差应该相等 B.两个总体的平均数应该相等 C.两个总体的离差平方和应该相等

3.2.11 下列指标中,实际应用最广泛的离散程度测度指标是 ( B ) A.平均差 B.标准差 C.离散系数

3.2.12 皮尔逊测度法就是利用算术平均数与众数的关系来测度数据分布的 ( A ) A.偏斜程度 B.离散程度 C.集中程度

三、多项选择题(在下列4个备选答案中,至少有二个是正确的,请将其全部选出,并把字母填在题干后面的括号内)

3.3. 1 描述数据分布集中趋势的指标有 ( ABCD ) A.算术平均数 B.调和平均数 C.众数 D.中位数

3.3.2 描述数据分布离散趋势的指标有 ( ABCD ) A.全距 B.平均差 C.标准差 D.离散系数

3.3.3 算术平均数所具有的数学性质有 ( AC ) A.各个变量值与其平均数离差之和等于零

B.各个变量值与其平均数离差的绝对值之和等于零 C.各个变量值与其平均数离差的平方和为最小值 D.各个变量值与其平均数离差的平方和为最大值

3.3.4 下列不适于计算算术平均数的数据类型有 ( AB ) A.分类数据 B.顺序数据 C.数值型数据 D.截面数据

3.3.5 加权算术平均数中,各个变量值的权数要起作用必须具备两个条件 ( AD ) A.各个变量值之间有差异 B.各个变量值的权数相等 C.各个变量值相等 D.各个变量值的权数有差异

3.3.6 下列对众数的解释说明中,正确的有 ( ABCD ) A.众数是指一组数据中出现次数最多的变量值 B.一组数据中可能有多个众数,也可能没有众数 C.众数不受极端值的影响 D.众数缺乏灵敏性

3.3.7 下列对中位数的解释说明中,正确的有 ( ACD ) A.中位数不受分布数列的极大或极小值影响 B.中位数是指一组数据中出现次数最多的变量值 C.中位数缺乏灵敏性

D.当次数分布偏态时,中位数的代表性会受到影响

3.3.8 以SKp表示根据皮尔逊测度法计算的偏态系数,下列陈述中正确的是 ( ABCD ) A.经验证明,在适度偏态的情况下,?3?SKp?3 B.当x?Mo,SKp?0时,数据分布呈对称分布 C.当x?Mo,SKp?0时,数据分布呈右(正)偏分布 D.当x?Mo,SKp?0时,数据分布呈左(负)偏分布

3.3.9 下列关于四分位差的解释说明中,正确的有 ( ABCD ) A.四分位差就是上四分位数与下四分位数之差的简单算术平均数 B.四分位差越小,表明中位数的代表性越好 C.四分位差越大,表明中位数的代表性越差 D.四分位差可以避免受极端值的影响

3.3.10 比较不同总体平均数的代表性时,应该使用离散系数,因为 ( AB ) A.离散系数可以消除平均数大小的影响

16

学号: 班级: 姓名:

B.离散系数可以消除计量单位的影响

C.离散系数可以消除总体单位数多少的影响

D.离散系数可以消除变量值之间差异程度的影响

四、判断改错题

3.4.1 算术平均数既适用于数值型数据,也适用于分类数据和顺序数据。 ( ×,不适用于分类数据和顺序数据 )

3.4.2 根据分组数据计算的平均数只是实际平均数的近似值。 ( √ ) 3.4.3 简单算术平均数的大小只与变量值的大小有关,与权数无关。 ( √ ) 3.4.4 各变量值与其算术平均数的离差平方和为最小值。 ( √ ) 3.4.5 众数可直观地说明分布的离散趋势,可用它反映变量值一般水平的代表值。 ( ×,集中趋势 )

3.4.6 对于一组数据,可能存在一个或多个众数,也可能不存在众数。 ( √ ) 3.4.7 四分位数是将按大小顺序排列的一组数据划分为三等分的四个变量值。 (×,四等分的三个变量值)

3.4.8 十分位数是指将按大小顺序排列的一组数据划分为10等分的10个变量值。 ( ×,9个变量值 )

3.4.9 在左偏态分布中,众数最小,中位数适中,算术平均数最大,即Mo?Me?x。 ( ×,右偏态分布 )

3.4.10 数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。 ( √ ) 3.4.11 在实际工作中,全距常用来检查产品质量的稳定性和进行质量控制。 ( √ ) 3.4.12 偏态和峰态是对分布集中程度的测度。 ( ×,分布形状 ) 3.4.13 凡频率分布中各变量值对众数的相对位置都较正态曲线更为分散,其曲线较为平缓,则为低峰度。 ( √ )

3.4.14 如果以?表示峰度系数,当??0时,分布曲线为低峰曲线,表明变量值的差异程度大,平均数代表性差。 ( ×,??0 )

五、简答题

3.5.1 什么是集中趋势?测度集中趋势的主要指标有哪些? 答:集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。

取得集中趋势代表值的方法通常有两种:一是从一组数据(即各个变量值)中抽象出具有一般水平的量,这个量不是某一个具体变量值,但又要反映这些数据的一般水平,这种平均数称为数值平均数。数值平均数有算术平均数、调和平均数、几何平均数等形式。二是先将一组数据的变量值按一定顺序排列,然后取某一位置的变量值来反映这些数据的一般水平,把这个特殊位置上的数值看作是平均数,称作位置平均数。位置平均数有众数、中位数等形式。

3.5.2 什么是调和平均数?调和平均数与算术平均数有何关系? 答:调和平均数也称“倒数平均数”,它是对变量的倒数求平均,然后再取倒数而得到的平均数。

从数学定义角度看算术平均数与调和平均数是不一样的,但在社会经济应用领域,调和平均数实际上只是算术平均数的另一种表现形式,二者本质上是一致的,惟一的区别是计算时使用了不同的数据。

3.5.3 什么是几何平均数?其应用场合是什么?

答:几何平均数也称几何均值,它是n个变量值乘积的n次方根。几何平均法是计算平均比

17

学号: 班级: 姓名:

率或平均发展速度最适用的一种方法。如果分布数列中各变量值呈几何级数变化或频率分布极不对称,也常采用几何平均法来计算平均数。如果被平均的变量值中有一个为零,则不能计算几何平均数;如果变量值为负数,开奇次根会形成虚根,失去意义。

3.5.4 什么是离散趋势?测度离散趋势的主要指标有哪些?

答:离散趋势是指各个变量值远离其中心值的程度,是数据分布的另一个重要特征。

描述数据离散程度常用的测度值有全距、异众比率、四分位差、平均差、标准差以及离散系数,其中标准差最重要。

3.5.5 什么是偏度和峰度?如何根据偏态系数和峰度系数判断数据分布的形态? 答:偏度是描述数据分布对称性的特征值。

峰度是统计学中描述数据分布平坦或尖峭的程度的特征值。

根据皮尔逊测度法测算的偏态系数SKp,经验证明,在适度偏态的情况下,?3?SKp?3。当x?Mo,SKp?0时,数据分布呈对称分布;当x?Mo,SKp?0时,数据分布呈右(正)偏分布;当x?Mo,SKp?0时,数据分布呈左(负)偏分布。

根据中心矩法计算的偏态系数?,当??0时,数据分布呈对称分布形态;??0,数据分布呈负(左)偏态;??0,数据分布呈正(右)偏态;?值越接近于0,数据分布越趋于对称,?的绝对值越大,数据分布越偏斜。

根据峰度系数?,当??0时,分布曲线为正态曲线;当??0时,分布曲线为高峰曲线,表明变量值的差异程度小,平均数代表性好;当??0时,分布曲线为低峰曲线,表明变量值的差异程度大,平均数代表性差。

六、计算题

3.6.1 2007年某企业精加工车间20名工人加工A零件的产量资料如下:

按日产量分组(件) 28 29 30 31 32 合 计 工人人数(人) 2 4 7 5 2 20 要求:试计算20名工人日产量的算术平均数、众数和中位数。 解:

(1)20名工人日产量的算数平均数:

?xf28?2?29?4?30?7?31?5?32?2601。 x????30.05(件/人)

?f2020(2)从该企业的产量资料表可以看出,20名工人日产量的众数为30件; (3)20名工人日产量的中位数:

18

学号: 班级: 姓名:

工人总数的二分之一是10人,从小到大累计人数首次超过10的组所对应的日产量为30件,则中位数为30件。

3.6.2 2007年某管理局所属22个企业的工人工资及工人比重资料如下: 按月工资分组(元/人) 1000以下 1000~2000 2000~3000 3000以上 合 计 企业数 3 7 8 4 22 各组工人占工人总数的比重(%) 15 35 32 18 100 要求:试计算该管理局工人的月平均工资。 解:

根据已知资料,列表计算如下:

某管理局工人的月平均工资计算表

按月工资分组(元/人) 1000以下 1000~2000 2000~3000 3000以上 合 计 组中值x 500 1500 2500 3500 —— 各组工人占工人总数的比重(%)15 35 32 18 100 f/?f x?(f/?f) 7500 52500 80000 63000 203000 该管理局工人的月平均工资为: x??xii?1kfi?f?500?15?1500?35?2500?32?3500?18203000??2030(元/人)。

10020

3.6.3 某工业局所属生产同一产品企业19个,2007年按工人劳动生产率高低分组如下:

按劳动生产率分组(吨/人) 50~60 60~70 70~80 80~90 90~100 合 计 企业数 8 5 3 2 1 19 各组工人数(人) 2400 1600 1200 1200 1100 7500 要求:试计算该工业局工人平均劳动生产率。 解:

根据已知资料,列表计算如下:

该工业局工人平均劳动生产率计算表

按劳动生产率分组(吨/人) 50~60 60~70

组中值x 55 65 19

各组工人数(人)f 2400 1600 xf 132000 104000

学号: 班级: 姓名:

70~80 80~90 90~100 合 计 75 85 95 —— 1200 1200 1100 7500 90000 102000 104500 532500 该工业局工人平均劳动生产率为:

?xf55?2400?65?1600?75?1200?85?1200?95?1100532500。 x????71(吨/人)

?f75007500

3.6.4 某企业生产A种产品需要经过三个连续作业的车间才能完成。2008年1月第一车间粗加工产品的合格率为98%,第二车间精加工产品的合格率为95%,第三车间最后装配的合格率为92%。

要求:试计算该产品的企业平均合格率。 解:

该产品的企业平均合格率为:

Gm?n?xi?1ni?398%?95%?92%?94.97% 。

3.6.5 根据抽样调查结果,2008年2月某市居民通讯支出额的众数为120元,算术平均数为150元。

要求:试根据算术平均数、中位数及众数之间的关系,计算中位数的近似值,并说明该市居民通讯支出额分布的态势。

解:

(1)该市居民通讯支出额的中位数近似值为:

M?2x120?2?150。 M?o??140(元)

e33(2)由120?140?150显然有Mo?Me?x,即该市居民通讯支出额呈尾巴拖在右边的正偏态分布,也即右偏分布。

3.6.6 某投资银行的年利率按复利计算,1996~2007年的年利率分组资料如下:

按年利率分组(%) 6 8 9 12 15 合 计 年数(年) 2 4 3 2 1 12 要求:试计算1996~2007年的平均年利率。 解:

1996~2007年的平均年利率为: xG??f?xi?1kifi?100%?12106%2?108%4?109%3?112%2?115%?100%?9.14%

3.6.7 根据500户抽样调查结果,2007年某市城市居民家庭按月人均可支配收入分组的资料如下:

按月人均可支配收入分组(元/人) 各组家庭户数占总户数的比重(%)

20

学号: 班级: 姓名:

1000以下 1000~2000 2000~3000 3000~4000 4000以上 合 计 15 28 32 18 7 100 要求:根据上述资料计算2007年该市居民家庭月人均可支配收入及其平均差和标准差。 解:

(1)2007年该市居民家庭月人均可支配收入为: x??xii?1kfi?f?500?15?1500?28?2500?32?3500?18?4500?7。 ?2240(元/人)100(2)相关计算过程如下:

2007年该市居民家庭月人均可支配收入计算表

各组家庭户数占按月人均可支配收入分组(元/人) 组中值x 总户数的比重(%)x?x x?x f2?f(x?x)ff/?f15 28 32 18 7 ?f 1000以下 1000~2000 2000~3000 3000~4000 4000以上 合 计 500 1500 2500 3500 4500 —— 1740 740 260 1260 2260 6260 26100 20720 8320 22680 15820 93640 45414000 15332800 2163200 28576800 35753200 127240000 100 人均可支配收入的平均差为: AD??x?xf?f2?1740?15???2260?793640==936.40(元)

100100(3)标准差为:

S??(x?x)ii?1kfi?50017402?15???22602?7500127240000500??????1129.14(元) fi499100499100499

3.6.8 2006年某校学生会为了解在校大学生的消费支出情况,从全校本科学生中按性别随机各抽取100名,其月消费支出额分组资料如下: 月消费支出额(元) 男 生(人) 女 生(人) 21

学号: 班级: 姓名:

200以下 200~300 300~400 400~500 500~600 600~700 700以上 合 计 6 9 16 24 23 14 8 100 5 12 25 24 18 10 6 100 要求:根据表中资料

(1)分别计算男女学生的平均月消费支出;

(2)分别计算男女学生月消费支出的中位数和众数;

(3)分别计算男女学生月消费支出的下四分位数和上四分位数;

(4) 分别计算男女学生月消费支出的平均差、标准差、离散系数,并比较其平均月消费支出的代表性;

(5)分别计算男女学生月消费支出分布的偏态系数和峰度系数,判断其分布形态。 解:

(1)男学生的平均月消费支出为:

?xf150?6???750?847300; x????473(元)

?f100100同理得到女学生的平均月消费支出为442元。 (2)男学生月消费支出的中位数为:

对男学生而言,?f/2=50,首次超过50的累计次数为55,其所对应的组为400~500元,故该组为中位数所在的组;该组L=400,fm=24,Sm?1=31,d=100,代入公式求得:

Me?L?(?f/2)?Sm?1fm?d?400?50?31 ; ?100?479(元)24同理可得到女学生月消费支出的中位数为433元; 男学生月消费支出的众数为:

Δ124?16; Mo?L??d??400??100?489(元)

Δ1?Δ2(24?16)?(24?23)同理得到女学生月消费支出的众数为393元。

(3)男学生月消费支出的下四分位数为:

对男生而言,QL的位置=25,由小到大累计次数首次超过25的组是300~400,该组即为下四分位数所在的组,SQL?1=15,fQL=16,dQL=100,代入公式求得:

?f QL?LQL?4?SQL?1fQL?dQL?300?25?15?10?016;36元)2.5(

同理得到女学生月消费支出的下四分位数为332元。

男学生月消费支出的上四分位数为:

22

学号: 班级: 姓名:

3?fQU?LQU?4?SQU?1fQU?dQU?500?75?55 ?100?587(元)23同理得到女学生月消费支出的上四分位数为550元 (4)男学生月消费支出的平均差为: AD??x?xf?fx?150?473?6???750?473?8100?129(元)

同理可求得女生月消费支出的平均差为121元; 男生月消费支出的标准差为:

(x?x)f?2i?1kiS=?fi?1k??150?473?2?6????750?473??8100?12?159.45(元)

i?1同理求得女生月消费支出的标准差为152.21元; 男生月消费支出的离散系数为: VS?S159.45??0.3371 x473同理可求得女生月消费支出的离散系数为0.3444,前者小于后者,所以男学生的平均消费支

出代表性更强。

(5)三阶中心矩m3偏度系数:??m3?(X?X)??f3f ;四阶中心矩m4m4?3

?(X?X)??f4f

?3 ;峰度系数:???4根据公式计算得男生月消费支出的偏度为-0.1879,呈轻度左偏分布;峰度为-0.5550,呈轻度低峰分布;

对女生而言,月消费支出偏度为0.1727,呈轻度右偏分布;峰度为-0.5015,呈轻度低峰分布。

3.6.9 2007年第一季度某种药品在三个地区的销售额资料如下: 月 份 1 2 3 合 计 单价(元/合) 15 14 12 —— 销售额(万元) 甲地区 30 32 36 98 乙地区 45 35 42 122 丙地区 24 28 30 82 要求:根据上述资料, (1)分别计算甲、乙、丙三个地区第一季度该种药品的平均价格; (2)分别计算第一季度各月该种药品的平均价格; (3)计算该种药品第一季度总的平均价格。 解:

(1)甲地区第一季度该种药品的平均价格为:

23

学号: 班级: 姓名:

Hm??m?xi?1ki?1kikimi?980000?13.45(元/盒)

300000320000360000??151412同理得到乙地区和丙地区的平均价格分别为:13.56元/盒和13.44元/盒。

(2)1月份的平均价格为:

Hm??m?xi?1ki?1kiimi?300000?450000?240000990000; ??15(元)300000?450000?2400006600015同理可得2月份和3月份的平均价格分别为14元/盒和12元/盒。 (3)第一季度总的平均价格为: Hm??mi?1kimi?i?1xi?980000?1220000?820000?13.49(元/盒)

300000?450000?240000360000?420000?300000???1512

3.6.10 2007年5月,某高等职业技术学院200个班的女生比重及学生人数资料如下: (1)已知女生比重、班数及各组学生总人数: 女生比重(%) 10~20 20~30 30~40 40~50 50以上 合 计 班 数(个) 30 35 55 45 35 200 各组学生总人数(人) 1560 1680 2800 2080 1760 9880 (2)已知女生比重、班数及各组女生人数: 女生比重(%) 10~20 20~30 30~40 40~50 50以上 合 计 班 数(个) 30 35 55 45 35 200 各组女生人数(人) 234 420 980 936 968 3538 要求:根据上述两组资料分别计算全校女生的比重,并比较两种计算方法的特点。 解:

(1)这种情况下使用算术加权平均法,女生比重为:

?xf0.15?1560???0.55?17603538x????0.3581

?f98809880(2)这种情况下使用调和加权平均法,女生比重为:

24

学号: 班级: 姓名:

Hm??mi?1kkimi?i?1xi?3538234968???0.150.55?3538?0.3581 9880两种计算方法的结果完全一致。从数学定义角度看,算术平均数与调和平均数是不一样的;但在社会经济应用领域,调和平均数实际上只是算术平均数的另一种表现形式,二者本质上是一致的,惟一的区别是计算时使用了不同的数据。

第四章 抽样分布

一、填空题

4.1.1 按随机变量取值的特点不同,通常把随机变量分为两类,即 离散型随机变量 和 连续型随机变量 。

4.1.2 设(X1,X2,L,Xn)是抽自正态总体N(m,s2)的一个容量为n的简单随机样本(重复

骣s2÷1nm,÷抽样),则X=?Xi服从N?。 ?÷?÷ni=1桫n21n1n24.1.3 设X~N(m,s),X=?Xi是样本均值,S=?(Xi-X)是样本方

ni=1n-1i=12(n-1)S2X-mX-m22~N(0,1);t=~t(n-1);c=~c差,则统计量:Z= (n-1)。2ssnSn24.1.4 设(X1,X2,L,Xn)是正态总体N(m,s)的一个简单随机样本,则E(X)=m,

D(X)= s2。

二、单项选择题(在每小题的3个备选答案中选出1个正确答案,并将其字母填在题干后面的括号内)

4.2.1 设X的分布列为 X p -1 0.35 0 0.20 1 0.45 则F(3)的值是 ( B )

A.0 B.1 C.0.55 4.2.2 若X1,X2,?,Xn是来自正态总体N(m,s2)的一个简单随机样本,则统计量

1c=2s2?(x-x)ii=1n2的自由度为 ( A )

A.n-1 B.n-2 C.n

4.2.3 若X1,X2,?,Xn是来自总体N(m,s22)的样本,其中s2未知,且

2X-m1nT=S=X-X,则统计量的自由度为 ( B ) (i)?n-1i=1sn A.n B.n-1 C.n-2

25

学号: 班级: 姓名:

4.2.4 随机变量X的数学期望又叫X的 ( B ) A.一阶中心矩 B.一阶原点矩 C.二阶原点矩

4.2.5 若X1,X2,?,X15来自总体N(m,s2)的样本,令t=X-m,其中:s1521151152X=邋Xi,S=14i=1(Xi-X),则有 ( B )

15i=1A.t~t(15) B.t~t(14) C.t~N(0,1)

4.2.6 若不断重复某项调查,每次向随机抽取的100人提出同一个问题,则每次都能得到一个回答“是”的人数百分数,这若干百分数的分布称为 ( C )

A.样本平均数的抽样分布 B.总体成数的次数分布 C.样本成数的抽样分布

三、多项选择题(在下列4个备选答案中,至少有二个是正确的,请将其全部选出,并把字母填在题干后面的括号内)

1n4.3.1 设X1,X2,?,Xn是来自正态总体X的一个容量为n的样本,X=?Xi,

ni=121n2,则下列结论中不正确的有 ( ABCD ) S=X-X()?in-1i=1A.X~N(m,s2)E(X)=m B.X~N(0,1)E(X)=0

X~Nm,sC.

(2)2X-mX-m~N(0,1) D.X~N(m,s2)且s2未知,~t(n-1)

snSn221n4.3.2 设X~N(m,s),X1,X2,?,Xn是X的样本,S=X-X(i),则结论 ?n-1i=1正确的有 ( BCD )

(n-1)S2s222~c2(n-1) A.E(S)= B.当s=s0时,有2s0n-1X-m022~t(n-1) C.E(S)=s D.当m=m0时,有Sn2四、判断改错题

4.4.1 设总体X~N(m,s2),X1,X2,?,X7是X的一个样本,S2为样本方差,则有

(n-1)S24S26S2222~cn-1~c7~c。 ( ×,因,所以正确的结论应为 ()()(6) )222sss4.4.2 凡是总体参数q的无偏估计量都是q的有效估计量。 ( ×,总体参数q的有效估计量一定是它的无偏估计量,而无偏估计则不一定是有效估计,只有q的无偏估计量中其方差最小者,才能作为q的有效估计 )

4.4.3 对于同一险种,投保人越多,保险公司的相对风险会越小。

(√,根据大数定律,n充分大时,大量随机变量的总和或均值具有稳定性,随机事件发生的频率也具有稳定性。因此,对于同一险种,投保的个体越多,保险公司的相对风险会越小 )

4.4.4 若某种彩票中奖的概率为5?,那么随机购买1000注彩票将有5注中奖。

( ×,中奖概率为5?,意味着在试验次数非常多的情况下,平均每1000注彩票大约有5注会中奖。但并不意味着每1000注彩票必然有5注中奖 )

26

学号: 班级: 姓名:

五、简答题

4.5.1 说明随机变量X的方差D(X)的意义。

答:指X分布在其均值E(X)附近的分散程度,D(X)越小,分布越集中在E(X)的附近,反之,则越分散。

六、计算题

4.6.1 设X:N(3,4),试求:

⑴ P{X>2};⑵ P{X>3} 解:

⑴ P{X>2}=1-P{X?2}1-P{-2#X2}

轾骣2-3鼢骣-2-3=1-犏F珑-F=1-轾1-F(0.5)-1+F(2.5)鼢珑臌鼢珑犏桫2臌桫2 =1+F(0.5)-F(2.5)=1+0.6915-0.9938=0.6977 ⑵ P{X>3}=1-P{X?3}1-F(0)=0.5

4.6.2 一商店负责供应1000人的商品,某种商品在一段时间内每人需用一件的概率为0.6。假定各人在这段时间内购买与否彼此独立,问商店应备多少件这种商品,才能以99.7%的概率保证供应?

解:

每个人可能买,也可能不买该商品,可能买得概率是0.6,现有1000人,设售出此商品得件数为X,则X~B(1000,0.6),如果商店准备x件商品,就不会脱销,即

P{X3x}0.997

由棣莫弗-拉普拉斯(DeMoivre-Laplace)中心极限定理,得

禳镲x-np镲X-npP{X?x}P镲 睚镲np1-p)np(1-p)镲镲铪( 骣x-600÷=F? 0.997÷?÷?桫240即

x-600=2.75,x=643 240

4.6.3 有10000人参加一家保险公司得人身受命保险,每年没人付100元得保险费,而在一年内一个人死亡的概率是0.006。死亡时,其家属可以从保险公司领取赔偿费10000元。试求:⑴ 保险公司亏本的概率是多少?

⑵ 保险公司一年的利润不少于300000元的概率是多少? 解:

27

学号: 班级: 姓名:

假设一年内有X人死亡,易知X~B(10000,0.006),于是

np=60,np(1-p)=59.64

⑴ “亏本”即入不敷出,公司每年收入1000000元,死亡1人支出10000元,死亡100人时则收支平衡。当X>100时,公司就会亏本。所以有

禳X-60100-60镲P{X>100}=P镲>=1-F(5.18) 0 睚镲59.64镲铪59.64即公司基本不会亏本。

⑵ 利润不少于300000元,即支出要少于1000000-300000=700000元,因此,死亡人数不能多于700000/10000=70人。于是有

禳X-6070-60镲0-60P{0

镲59.64镲铪=F(1.295)+F(7.769)-1=90.32%

4.6.4 公共汽车车门的高度是按男子碰头的机会在1%以下来设计的。设男子身高服从正态分布,平均身高时170厘米,标准差是6厘米,问车门高度至少应为多少厘米?

解:

记男子身高为随机变量X,则X~N(170,62)。设车门高度为h,按题设要求有

P{X>h} 0.01P{X?h}骣h-170÷F?÷ 0.99 ??桫6÷h184h-170吵2.328,6

4.6.5 银行常以某一科目行社间往来账目记帐一笔为一标准工作量,。根据3个营业员72天的统计,会计日人均工作量为253.64(标准工作量),标准差为45.91(标准工作量)。假设会计员的日人均工作量X服从正态分布。若完成标准工作量在300笔以上时,给以物质奖励,求受物质奖励的面有多大?

解:

由题设X~N(253.64,45.91),所以为

2 28

学号: 班级: 姓名:

p=P{X>300}=1-P{X 300}禳X-253.64300-253.64镲 =1-P睚 镲45.91镲铪45.91=1-F(1.01)=1-0.8434=0.1562

第五章 统计推断

一、填空题

,H0m:=5.1.1 设样本X1,X2,?,Xn来自N(m,1.69)则对检验35,采用的检验量是

Z=X-35。

1.3n5.1.2 设X1,X2,?,Xn是来自总体X的一个样本,又设E(X)=m,D(X)=s,则总体

2(样本方差)均值m的无偏估计为X(样本均值);总体方差s的无偏估计为S。

5.1.3 若检验统计量的观测值落在拒绝域内,则应拒绝 H0。

221n25.1.4 设X=?Xi为来自正态总体N(m,s)的样本均值,m未知,欲检验

ni=1(n-1)S222H0:s=s0,检验的统计量为。 2s0已知s1=s2),检验量为5.1.5 两个正态总体均值的假设检验H0:m1=m2(22T=SpX-Y11+n1n2,拒绝域为T>ta(n1+n2-2)。

5.1.6 若其他条件不变,置信度越高,则置信区间 越长 。

二、单项选择题(在每小题的3个备选答案中选出1个正确答案,并将其字母填在题干后面的括号内)

5.2.1 对总体参数进行抽样估计的首要前提是必须 ( B ) A.事先对总体进行初步分析 B.按随机原则抽取样本

C.保证调查数据的准确性、及时性

5.2.2 若其它条件相同,则下列诸检验的P值中拒绝原假设理由最充分的是 ( A ) A.2% B.10% C.25%

5.2.3 某校有学生8000人,随即抽查100人,其中有20人对学生管理有意见,则该校学生中对学校后勤管理有意见的人数的点估计值为 ( C )

29

学号: 班级: 姓名:

A.20% B.20 C.1600

5.2.4 如果总体服从正态分布,但总体均值和方差未知,样本量为n,则用于构造总体方差置信区间的随机变量的分布是 ( C )

A.N(0,1) B.N(m,s2) C.c2(n-1)

5.2.5 其他条件相同时,要使抽样误差减少1/4,样本量必须增加 ( C )

A.1/4 B.4倍 C.7/9

5.2.6 影响区间估计质量的因素不包括 ( B ) A. 置信度 B. 总体参数 C. 样本量

5.2.7 某企业最近几批产品的优质品率分别为88%,85%,91%,为了对下一批产品的优质品率进行抽样检验,确定必要的抽样数目时,P应选 ( A )

A.85% B.87% C.90%

5.2.8 设X~N(m,s2),(X1,X2,?,Xn)是X的一个简单随机样本,则未知参数s2的矩

22估计量为 ( A )

A.

1?n(Xi-X) B. ?(Xi-m) C. n?(Xi-m)

2三、多项选择题(在下列4个备选答案中,至少有二个是正确的,请将其全部选出,

并把字母填在题干后面的括号内)

5.3.1 推断统计学研究的主要问题是 ( ABD ) A.如何科学地从总体中抽出样本 B.怎样控制样本对总体的代表性误差 C.怎样消除样本对总体的代表性误差 D.如何科学地由所取样本去推断总体

5.3.2 确定样本容量时,必须考虑的影响因素有 ( ACD ) A.总体各单位之间的离散程度 B.样本各单位之间的离散程度 C.抽样方式与抽样方法 D.抽样推断的把握程度

5.3.3 影响抽样误差大小的因素有 ( ACD ) A.总体各单位之间的离散程度 B.调查人员的素质 C.抽样方式与抽样方法 D.样本容量

?,q?都是总体参数q的无偏估计量,正确的说法是 ( BC )5.3.4 若q 12?£Dq?,则q?=q,q?=q B.若Dq?比q?更有效 A.q121212()()?2和q?也是q的无偏估计量 ?-q=0,Eq?-q=0 D.qC.Eq1125.3.5 在其他条件不变时,抽样推断的置信度1-a越大,则 ( ACD )

A.允许误差范围越大 B.抽样推断的精确度越高 C.抽样推断的精确度越低 D.抽样推断的可靠性越高

5.3.6 区间估计 ( BD ) A.没有考虑抽样误差大小 B.考虑了抽样误差大小

C.不能说明估计结果的可靠程度 D.能说明估计结果的可靠程度

5.3.7 关于原假设的建立,下列叙述中正确的有 ( CD ) A.若不希望否定某一命题,就将此命题作为原假设 B.尽量使后果严重的错误成为第二类错误

C.质量检验中若对产品质量一直很放心,原假设为“产品合格(达标)”

D.若想利用样本作为对某一命题强有力的支持,应将此命题的对立命题作为原假设。 5.3.8 计算抽样平均误差时,若总体方差未知,通常有下列替代方法 ( ABD ) A.大样本条件下,用样本方差代替 B.用以前同类调查的总体方差代替 C.有多个参考数值时,应取其平均数代替

D.对于成数p,有多个参考数值时,应取其中最接近0.5的数值来计算

30

()()

学号: 班级: 姓名:

5.3.9 用样本成数推断总体成数时,至少要满足下列哪些条件才能认为样本成数近似于正态分布 ( ABC )

A.np35 B.n(1-p) 5 C.n330 D.p31%

5.3.10 在假设检验中,a与b的关系是 ( BD ) A.a与b绝对不可能同时减小 B.在其他条件不变的情况下,增大a,必然会减小b C.只能控制a,不能控制b D.增加样本容量可以同时减小a与b

5.3.11 关于零假设和备择假设,正确的是 ( BCD ) A.零假设和备择假设可以交换位置 B.零假设表明结果的差异由随机因素引起 C.备择假设是研究者要证明的假设 D.零假设是受到保护的假设

5.3.12 关于P值,正确的说法是 ( AC ) A.P值是最小的显著性水平 B.P值是最大的显著性水平

C.P值越小,拒绝零假设的证据越强 D.P值越大,拒绝零假设的证据越强

四、判断改错题

5.4.1 对两个总体方差相等性进行检验,在a=0.01的显著性水平上拒绝了原假设,这表示原假设为真的概率小于0.01。

(×,指原假设为真时拒绝原假设的概率,即犯第一类错误的概率不大于0.01。原假设或成

立,或不成立,时未知不确定的,不能说有多大概率为真。)

5.4.2 检验改革开放后城镇居民和农村居民收入的方差是否相等,检验统计量时服从自由度

2为(n-1)的c分布。

(×,采用F检验,即检验统计量F服从自由度为(n1-1,n2-1)的F分布。)

5.4.3 在假设检验问题中,检验水平a的意义是:原假设H0成立,经检验不能拒绝的概率。 (×,在假设检验问题中,检验水平a是犯第一类错误的概率,即原假设H0成立,经检验被拒绝的概率。)

5.4.4 设总体X具有期望和方差,X1,X2,X3是X的一个样本,则

1111且h1较h2有效。( √ ) (X1+X2+X3)与h2=X1+X2+X3都是X的无偏估计,

36325.4.5 接受原假设H0,不一定H0是正确的。 ( √ ) 5.4.6 总体X不服从正态分布时,检验均值一定不能用Z检验。 (×,若总体X不服从

2正态分布,但D(X)=s已知,且样本容量很大时(n330),也可用Z检验。) h1=五、简答题

5.5.1 未知参数q的点估计与区间估计主要有哪些不同之处?

答:⑴ 定义不同。点估计就是用一个统计量T(X1,?,Xn)作为未知参数q的估计;而区间估计是指用两个统计量q(X1,?,Xn),q(X1,?,Xn)构造一个随机区间(q,q),该区间以1-a的概率包含未知参数q。

⑵ 估计可靠性的刻画不同。点估计没有给出估计的可靠性,而区间估计在给出随机区间的同时,也给出这一区间包含未知参数的概率。

31

学号: 班级: 姓名:

5.5.2 若总体X的分布未知,而方差s2已知,可否选用统计量Z=间估计?

答:当样本量n很大时(n330)是可以的,因由中心极限定理,知样本均值X渐近正态分

x-m对均值m进行区sn骣s2÷X-m÷m,Z=~N(0,1),故可用Z对进行区间估计。 布,即X~N?,从而?÷÷?桫nsn

5.5.3 有人认为:假设检验中,给定检验水平a,对于检验假设H0,犯弃真错误的概率为

a,则犯采伪错误的概率为1-a,你说对吗?

答:如果犯弃真错误的概率为a,犯采伪错误的概率为b,一般情况下,b?1a,因为

“采伪”与“弃真”并不一定是对立事件。在假设检验中,我们无论作出接受还是拒绝原假设的判断,都是依据小概率事件在一次试验中几乎不可能发生的原理,既然是几乎,当然就有例外,如果例外,就犯错误。

5.5.4 正态分布的主要特征有哪些?

答:(1)图形呈钟型、中间高、两头低、左右对称;(2)最高处对应于x轴的值就是均数(位置参数);(3)标准差决定曲线的形状(形状参数);(4)曲线下面积为1;(5)是一个正态分布簇,经Z变换可转换为标准正态分布;(6)其他分布(如t分布、F分布、c分布、二项分布、Poisson分布等)的基础。

5.5.5 简述评价估计量好坏的标准。

答:一般将同时满足以下三条标准的估计量称为优良估计量。

2?=q,称q?为q的无偏估计量。 ⑴ 无偏性,即Eq?=q,Eq?=q,且Dq?

⑶ 一致性,即当任意给定e>0时,有

()()()()()?-q

5.5.6 怎样确定假设检验问题的零假设和备择假设?

答:通常零假设表示结果的差异是随机因素引起,而不是系统性或结构性因素引起;备择假设是研究者要证明的假设,要认为其正确必须有显著证据才能被人接受;零假设是受到保护的假设。

5.5.7 临界值检验法有那些步骤?

答:(1)确定零假设和备择假设,(2)确定检验统计量及其分布,(3)根据样本观测数据计算检验统计量的观测值,(4)根据检验统计量的分布和显著性水平确定检验的临界值,进而确定拒绝域,(5)判断检验统计量的观测值是否落于拒绝域,是,则拒绝零假设,否则,不能拒绝。

5.5.8 怎样理解假设检验问题的P值?它与显著性水平什么关系?

答:P值是零假设为真时,检验统计量得到至小象观测值那么极端情形的概率,通常称为观测的显著性水平,是零假设能被拒绝的最小显著性水平。

32

学号: 班级: 姓名:

六、计算题

5.6.1 在一项新的安全计划制定出来之前,某厂每天的平均岗位事故数为4.5。为了确定这项安全计划在减少每天岗位事故数方面是否有效,在制定新的安全计划后随机取了一个120天的样本,并记录下每天的事故数。得出的样本均值和标准差分别为:x=3.7,S=2.6。问:有无充分证据(在0.01显著性水平下)作结论说,该厂每天岗位事故数在制定新的安全计划后有所减少?

解:记m为该厂制定新的安全计划后每天岗位事故的均值,为了确定安全计划是否有效,需检验如下假设:

H0:m=4.5(即平均每天岗位事故数无变化) H1:m<4.5(即平均每天岗位事故数有变化)

已知 n=120 属于大样本,故X的抽样分布接近正态分布,有:

Z=X-m~N(0,1) sn计算得:Z=3.7-4.5=-3.37 查表得Z0.01=-2.23

2.6120Z

所下降。

5.6.2 羊毛制品,在处理前后分别抽样分析其含脂率如下: 处理前,xi:0.19,0.18,0.21,0.30,0.41,0.12,0.27

处理后,yi:0.15,0.13,0.07,0.24,0.19,0.06,0.08,0.12

假定处理前后的含脂率都服从正态分布,且标准差不变,试问在处理前后含脂率的平均值是否有显著变化?(a=0.05)

解:检验假设H0:m1=m2,H1:m1 m2 检验量T=x-yn1n2(n1+n2-2)22(n1-1)S+(n2-1)S21n1+n2n1=7n2=8

~t(n1+n2-2)

经计算得:

x=0.24,y=0.13,S12=0.0078,S=0.0034,22将这些数据代如T得,T=2.68

当a=0.05时,查t分布表得

ta2(13)=t0.025(13)=2.16

由于T=2.68>t0.025(13)=2.16

33

学号: 班级: 姓名:

所以,拒绝原假设H0,即认为处理前后含脂率的平均值有显著变化,但由于T>0,x>y,因此可认为处理后含脂率的平均值显著下降。

5.6.3 为了了解各个省份男女人口比例,某机构进行了一项调查。其中从云南省随机抽取了4000人,结果男性比例为0.52。请在0.05的显著性水平下检验云南省男性比例是否显著不等于0.5。如果样本量为2000人,结果仍为男性比例为0.52,在同样的显著性水平下,你的检验结论又是什么?你是怎样理解52:48这个男女比例的?

解:检验假设H0:p=p0=0.5,H1:p p0

已知 n=4000 属于大样本,故p的抽样分布接近正态分布,有:

Z=p-p0p0(1-p0)n~N(0,1)

计算得:Z=0.52-0.50.5?(10.5)4000=2.35

查表得Z0.025=1.96

Z>Z0.025 说明有显著证据表明该省男女比例不等于0.5。

当样本量为2000时,用同样的方法可计算出Z=1.79,因Z

显著性检验结果受检验水平a和样本量n的影响,而检验结果是否显著不等于是否重要,男女比例为52:48是否说明比例失调属于社会问题。

5.6.4 北京市劳动和社会保障局公布的2004年的北京市职工年平均工资为28348元。北京市某大学教师想检验自己学校具有讲师职称的老师的平均工资与北京市平均工资有无显著差别,他随机抽取了36名大学职称为讲师的老师的年工资作为样本,结果显示:36人的年平均工资为29040元,标准差为2300元。请检验该大学具有讲师职称的教师的年平均工资与北京市职工年平均工资水平是否有显著差别。(a=0.05)

解:H0:m=28348(即两者的年平均工资水平无显著差别)

H1:m128348(即两者的年平均工资水平有显著差别)

已知 n=36 属于大样本,故X的抽样分布接近正态分布,有:Z=X-m~N(0,1) sn计算得:Z=29040-28348=1.81

230036 34

学号: 班级: 姓名:

查表得Z0.025=1.96

Z

年平均工资水平有显著差别。

5.6.5 某机构对两个大城市居民的消费习惯差异感兴趣,为了了解各项指标的差异进行了抽样调查,其中一项指标是两个城市每天乘小汽车的里程数的差异。从城市A抽取50个居民构成一个简单随机样本,结果显示均值为每天12.5公里,标准差为每天4.3公里;与A独立地从B城市抽取100个居民构成另一个简单随机样本,均值是每天11.2公里,标准差是每天3.8公里。

2250.请检验两个城市居民在使用小汽车方面是否有显著差异(假定sA=sB)。(a=0)

解:检验假设H0:mA=mB,H1:mA mB 检验量 Z=xA-xBss+nAnB2A2B~N(0,1)

经计算得:

xA=12.5,xB=11.2,22sA=SA=4.32,nA=50nB=100s=S=3.8,2B2B2

将这些数据代如Z得,Z=1.81

当a=0.05时,查Z分布表得

za/2=z0.025=1.96,因为Z

方面有显著差异。

5.6.6 某公司对本公司的产品在电视上打了一段时间的广告,管理者想知道广告是否有明显的效果。某市场研究公司对该问题进行了研究,公司调查了10个人在公告播出前后的购买潜力等级分值,分数越高说明购买潜力越高。

个体 1 2 3 4 5 6 7 8 9 10 广告后 6 6 7 4 3 9 7 6 5 6 广告前 5 4 7 3 5 8 5 6 4 6

请建立该研究问题的零假设和备择假设,并对检验问题在0.05的显著性水平下进行检验。

解:零假设:m后£m前,备择假设:m后>m前

t-检验: 成对双样本均值分析

平均 方差 观测值 泊松相关系数 假设平均差

df t Stat P(T<=t) 单尾 t 单尾临界

广告后 5.9 2.766666667

10 0.728601233

0 9 1.616447718 0.070226484 1.833113856

35

广告前 5.3 2.233333333

10

学号: 班级: 姓名:

P(T<=t) 双尾 t 双尾临界

0.140452969 2.262158887

由于t=1.62

5.6.7 某经济学家在北京和上海进行一项关于高速公路选择的研究项目。他提出一个机会模型以获取各种不同因素对决策的影响。“客观的政治和公众因素”包括各种政府机构、学校部门、商业部门、企业等的意见。为了查清这些因素对高速公路决策的影响,该经济学家做了显著性检验,零假设为客观的政治和公众因素对决策不起作用。观测的显著性水平约为3%。由于结果是统计显著但不是高度显著的,因此该经济学家下结论说“这些因素影响高速公路的决策,但影响力是相对弱的”。这结论是统计检验的结果吗?

解:3%是检验的P值,P值大小只说明差别的显著性,并不说明差别的大小及重要程度,因此不能据此说明影响力的强弱。

5.6.8 从某系一年级学生中随机抽取的10名学生所提供的年龄资料是:18,19,18,18,20,17,18,19,18,19。求该系一年级学生平均年龄95%的置信区间。

解:3%是检验的P值,P值大小只说明差别的显著性,并不说明差别的大小及重要程度,因此不能据此说明影响力的强弱。

5.6.9 某公司新推出一种营养型豆奶,为做好促销工作随机地抽取顾客作为样本,并问他们是否喜欢此豆奶,如果要使置信度为95%,抽样误差不超过0.05,则在下列情况下,你建议样本的容量为多大?

⑴ 假如初步估计,约有60%的顾客喜欢此豆奶。

⑵ 假如没有任何资料可用来估计大约有多少比率的顾客会喜欢此豆奶。

解:Z0.025=1.96 ⑴ s=0.5?0.5220.25′1.9620.25 , n==384.2,取n=385

0.0520.24′1.9620.24 , n==368.9,取n=369

0.052⑵ s=0.6?0.4

5.6.10 在对一种新生产方法进行测试过程中,随机选出9名员工,由他们尝试新方法。结果这9名员工使用新生产方法的平均生产率是每小时60个零件,而抽样总体标准差为每小时8个零件。试求这一新生产方法的平均生产率的置信区间(a=5%,1%)。

解:?X?N(m,s当a=5%时, Zan) \\h=X-mX-m=?N(0,1)

83sn2=1.96

8=5.233所以m的置信区间为[54.77,65.23]x-m41.968当a=%时,1Za/2=2.58 , x-m42.58=6.883所以m的置信区间为[53.12,66.88]

36

学号: 班级: 姓名:

第六章 非参数统计

一、填空题

6.1.1 现代非参数统计方法包括 估计 和 假设检验 两部分内容。

6.1.2 非参数统计主要是利用样本数据的 相对大小关系 来研究统计推断的问题。

6.1. 3 Wilcoxon符号秩检验是检验 关于中位数对称的总体的中位数是否等于某个特定值 。

6.1.4 Spearman秩相关系数为rs??(Ri?1ni?1ni?R)(Si?S)n?1?6?di2n(n?1)i?12n。

?(Ri?R)2?(Si?S)2i?16.1.5 Pearson相关系数r只能度量X与Y的 线性 关系。

二、单项选择题(在每小题的3个备选答案中选出1个正确答案,并将其字母填在题干后面的括号内)

6.2.1 以下为非参数检验的是 ( B ) A.正态总体的t检验 B.Brown-Mood 中位数检验 C.似然比检验

6.2.2 符号检验检验统计量在零假设下服从 ( C ) A.泊松分布 B.正态分布 C.二项式分布

6.2.3 Wilcoxon符号秩检验需假定样本点(符号检验不需要此假设) ( A ) A.X1,K,Xn来自连续对称总体 B.正态分布 C.随机样本

6.2.4 游程检验统计量在大样本情况下服从 ( B ) A.卡方分布 B.正态分布 C.二项式分布

6.2.5 配对Wilcoxon秩检验统计量在大样本情况下服从 ( B ) A.卡方分布 B.正态分布 C.二项式分布

三、多项选择题(在下列4个备选答案中,至少有二个是正确的,请将其全部选出,并把字母填在题干后面的括号内)

6.3.1 以下为非参数检验的是 ( ABCD ) A.配对Wilcoxon检验 B.Wilcoxon符号秩检验 C.符号检验 D.Mann-Whitney检验

6.3.2 符号检验检验可以对那些位置进行假设检验 ( ACD ) A.中位数 B.均值 C.分位数 D.方差

6.3.3 符号秩检验统计量可以是 ( ABCD ) A.正秩的总和T+ B.负秩的总和T- C.T=min(T+,T-) D.以上都是

6.3.4 以下为非参数相关性检验 ( AB ) A.Spearman相关系数 B.Kendallτ相关系数 C.Pearson相关系数 D.以上都是

四、判断改错题

6.4.1 非参数统计意味着与所有分布无关。

(×,参数检验有时会利用分布情况如分布的对称性)

37

学号: 班级: 姓名:

6.4.2 在所有的情况下非参数统计方法都优于参数统计方法。 (×,已知具体分布形式时,使用非参数统计会损失信息)

6.4.3 从非参数角度来看,一组数据的最基本的信息就是次序。 ( √ ) 6.4.4 卡方检验与待估参数个数无关。 (×,卡方检验自由度受待估参数个数影响) 6.4.5 符号秩检验在任何情况下都优于符号检验。

(×,符号检验主要检验位置参数,符号秩检验主要检验分布是否对称)

五、简答题

6.5.1 比较非参数统计方法与参数统计方法的区别。 答:(1)对总体依赖不同;(2)对参数的假定不同;(3)适用的数据类型不同;(4)适用的范围不同。

6.5.2 简述非参数检验的局限性。 答:(1)可能会浪费一些信息;特别当数据可以使用参数模型的时候。Example: Converting Data From Ratio to Ordinal Scale;(2)大样本手算相当麻烦;(3)一些表不易得到。

六、计算题

6.6.1 设某化妆品厂商有A和B两种品牌,为了了解客户对A品牌和B品牌在使用上的差异,将A品牌和B品牌同时交给45个客户使用,一个月以后得到以下数据:

喜欢A品牌的客户人数:22人;喜欢B品牌的客户人数:18人;不能区分的人数:5人。 试检验喜欢A品牌的客户和喜欢B品牌的客户比例是否相同。

解:假设检验: H0:喜欢A品牌的客户和喜欢B品牌的客户比例相同

H1:喜欢A品牌的客户和喜欢B品牌的客户比例不相同

Z=22-20+0.5=0.791

404结论:证据不足不能拒绝零假设,没有证据显示喜欢A品牌的客户和喜欢B品牌的客户比例不相同。

6.6.2 在试验少量酒精对反映时间的影响时,测试了10个人在喝了2杯啤酒前后的反应时间如下(单位:秒):

10个人在喝了2杯啤酒前后的反应时间统计表 喝前 喝后 0.74 0.85 0.84 0.66 0.81 0.55 0.33 0.76 0.46 0.64 0.81 0.63 0.62 0.86 0.80 0.75 0.88 0.78 0.77 0.86 该数据是否说明酒精和反应时间有关,试分别运用Brown-Mood 中位数检验、Wilcoxon(Mann-Whitney)秩和检验对该问题进行分析。

解:假设检验:H0:酒精和反应时间无关 H1:酒精和反应时间有关 Brown-Mood 中位数检验,p-value = 0.2476289

结论:证据不足不能拒绝零假设,没有证据显示酒精和反应时间有关。 Wilcoxon rank sum test with continuity correction data: x1 and x2

W = 29.5, p-value = 0.1303

38

学号: 班级: 姓名:

alternative hypothesis: true location shift is not equal to 0

结论:证据不足不能拒绝零假设,没有证据显示酒精和反应时间有关。

6.6.3 某医院对9对双胞胎的智力进行检验,并按百分制打分。现将资料如表所示。试用Kendall相关检验方法检验双胞胎的智力是否相关。

智力统计表 双胞胎对的编号 先出生的儿童 后出生的儿童 1 86 88 2 77 76 3 68 64 4 91 96 5 70 65 6 71 80 7 85 81 8 87 72 9 63 60 解:Kendall’s tau相关系数为 0.7222222 T = 31, p-value = 0.005886

alternative hypothesis: true tau is not equal to 0 sample estimates:

P?值小于0.05,所以拒绝原假设。

39

学号: 班级: 姓名:

第七章 方差分析与正交试验设计初步

一、填空题

7.1.1 方差分析 是一种检验多个总体均值是否相等的统计方法。 7.1.2 方差分析的英文缩写是 ANOVA 。

7.1.3 一般将方差分析研究的对象称为 因素 ,而因素中的内容称为 水平 。 7.1.4 方差分析实际上是要检验假设H0:m=mm H1:m1=m2=?1,m2,?,mm不全相等。 7.1.5 平方和分解公式的表达式是ST=SE+SA。

7.1.6 总离差平方和ST是描述 所有 数值离散程度的数量指标。

7.1.7 组内平方和SE反映了 样本 的随机波动。SE的自由度为fE=mk-m。

7.1.8 组间平方和SA反映了因素水平的不同及随机因素引起的差异。SA的自由度为fA?m?1。

7.1.9 单因素方差分析中的检验统计量为F=SA/fA。

SE/fE7.1.10 在方差分析中将各个因素不同水平的搭配所产生的新影响称为 交互作用 。 7.1.11 无交互作用的双因素方差分析离差总平方和ST的分解式是ST=SA+SB+SE。 7.1.12 与无交互作用双因素方差分析有关的自由度之间的关系是fT=fA+fB+fE。 7.1.13 无交互作用双因素方差分析使用的2个检验统计量计算公式分别 是FA?SA/fA~F(r?1,(r?1)(s?1)),FB?SB/fB~F(s?1,(r?1)(s?1))。

SE/fESE/fE7.1.14 有交互作用双因素方差分析使用的3个检验统计量计算公式分别是SA/(r?1)SB/(s?1)S/((r?1)(s?1)),FB?,FA?B?A?B。 FA?SE/(rs(t?1))SE/(rs(t?1))SE/(rs(t?1))7.1.15 在正交试验中,进行方差分析使用的检验统计量为Fj=Sj/(sfj)SE/(sfE)22=MSj/MSE。

7.1.16 当试验指标 不 服从正态分布时,可使用贡献率分析法进行分析。

二、单项选择题(在每小题的3个备选答案中选出1个正确答案,并将其字母填在题干后面的括号内)

7.2.1 反映样本随机波动的平方和是 ( B ) A.ST B.SE C.SA

7.2.2 反映因素水平不同及随机因素引起的差异的平方和是 ( C ) A.ST B.SE C.SA

7.2.3 无交互作用的双因素方差分析离差总平方和与其它平方和的关系是 ( A )

40

学号: 班级: 姓名:

A.ST?SA?SB?SE B.SA?ST?SB?SE C.SE?SA?SB?ST

7.2.4 实验设计的三个基本要素是 ( B ) A.实验对象、实验效应、观察指标 B.随机化、重复性、区组化 C.随机化、均衡性、齐同对比

三、多项选择题(在下列4个备选答案中,至少有二个是正确的,请将其全部选出,并把字母填在题干后面的括号内)

7.3.1 有交互作用双因素方差分析使用的检验统计量计算公式正确的是 ( ABC ) A.FA?C.FA?BSA/(r?1)SB/(s?1) B.FB?

SE/(rs(t?1))SE/(rs(t?1))S/((r?1)(s?1))S/(r?1) D.FA?T ?A?BSE/(rs(t?1))SE/(rs(t?1))7.3.2 试验设计的基本原则是 ( ABC ) A.重复性 B.随机化 C.区组化 D.不变性

四、判断改错题

7.4.1 方差分析是一种检验多个总体均值是否相等的统计方法。 ( √ ) 7.4.2 总离差平方和ST是描述所有数值集中程度的数量指标。 ( √ ) 7.4.3 方差分析采用t检验。 (×,方差分析采用F检验 ) 7.4.4 方差分析就是解决随机因素是否是造成数据差异的主要原因的问题。 (×,系统因素)

7.4.5 方差分析假定各水平观察值为来自正态总体的随机样本。 ( √ ) 7.4.6 组间方差为SE/(mk?m)。 (×,组间方差为SA/(m?1),SE/(mk?m)为组内方差 ) 7.4.7 检验统计量为F?SA/(m?1) ~F(m?1,mk?m) ( √ )

SE/(mk?m)7.4.8 如果F?Fa,则接受原假设H0 。 ( √ ) 7.4.9 多重比较法是通过对总体均值之间的配对比较来检验是哪些均值之间存在差异的 方法。 ( √ )

7.4.10 F检验不显著,也可以对均值作多重比较。

(×,要是F检验不显著,最好避免对数量很少的均值作多重比较,否则有可能出现模糊,甚至矛盾的结果。)

五、简答题

7.5.1 方差分析包括哪些类型?它们有什么区别?

答:方差分析包括单因素方差分析和双因素方差分析,双因素方差分析又分为有交互作用的双因素方差分析和无交互作用的双因素方差分析,单因素方差分析只能判断一个因素对试验数据是否有显著影响,双因素方差分析可以判断二个因素是否对试验数据有显著影响。

41

学号: 班级: 姓名:

7.5.2 简述方差分析的基本思想。

答:一方面,同一总体内部的各数据是不同的,其差异可以看成是由于随机因素造成的;另一方面,不同总体的各数据也是不同的,这既可能是由于总体数据的平均水平不同造成的,也有可能是由于随机因素造成的。要判断随机因素和总体均值差别哪个是造成各数据不同的主要原因,在假设遇到的都是正态总体、各总体的方差无显著差异和各数据相互独立的条件下,可进行正态总体均值是否相等的检验,即用F检验解决系统因素是否是造成数据差异的主要原因的问题。

7.5.3 方差分析中有哪些基本假定?

答:(1)遇到的都是正态总体;(2)各总体的方差无显著差异;(3)各数据相互独立。

7.5.4 简述方差分析的步骤。

答:方差分析的步骤为:(1) 建立假设;(2) 计算有关均值及平方和;(3) 列方差分析 表;(4) 统计决策。

7.5.5 简述单因素方差分析表的内容。

答: 单因素方差分析表

方差来源 组间 组内 总差异 离差平方和S 自由度f 均方MS F值 SA SE ST fA?m?1 fE?mk?k fT?n?1 SA/fA?MSA SE/fE?MSE F?SA/fASE/fE

7.5.6 如何进行方差分析中的多重比较?

答:多重比较法是通过对总体均值之间的配对比较来进一步检验到底是哪些均值之间存在差 异的统计方法。其基本步骤为:

(1) 提出原假设:H0:?i??j;(2) 计算各检验统计量xi?xj的值;(3) 计算LSD; (4) 根据显著性水平?进行决策:如果xi?xj?LSD的值,则拒绝H0;否则,则接受H0。

7.5.7 有交互作用双因素方差分析的检验统计量是什么? 答: FA?SA/(r?1)S/(s?1)?F(r?1,rs(t?1)),FB?B?F(s?1,rs(t?1))

SE/(rs(t?1))SE/(rs(t?1))FA?B?SA?B/((r?1)(s?1))?F((r?1)(s?1),rs(t?1))

SE/(rs(t?1))

7.5.8 简述双因素方差分析表的内容。

答: 双因素(无交互作用)方差分析表

42

学号: 班级: 姓名:

方差来源 平方和S 自由度f 均方MS F值 A的影响 SA?s?(xi??x)2 i?1srfA?r?1 MSA?SA/fA B的影响 误差 SB?r?(x?j?x)2 j?1fB?s?1 MSB?SB/fB MSE?SE/fE FA?FB?MSA MSEMSB MSESE???(xij?xi??x?j?x)2i?1j?1rsfE?(r?1)(s?1) 总和 ST???(xij?x)2 i?1j?1rsfT?rs?1 双因素(有交互作用)方差分析表

方差来源 因素A 因素B 因素A?B 误差 总和 平方和S 自由度f 均方MS F值 FA?MSA/MSE FB?MSB/MSE SA r?1 s?1 (r?1)(s?1) rs(t?1) MSA?SA/(r?1) SB SA?B SE ST MSB?SB/(s?1) MSA?B?SA?B/((r?1)(s?1)) MSE?SE/(rs(t?1)) FA?B?MSA?B MSErst?1

7.5.9 简述试验设计原则的内容。 答:

(1) 重复性原则:重复性是指对一项试验要在相同的条件下重复进行若干次。只有进行 多次的试验,才会对其有深刻的认识,并进一步掌握其规律性。

(2) 随机化原则:随机化是指试验材料和试验地点都要随机地确定。这样进行试验得出 的结论才具有客观性和普遍性,且每次进行的试验都可认为是相互独立的。

(3) 区组化原则:一组试验,试验者总希望在相同或近似相同的条件下进行,以便在相 互比较中得出正确的结论。

六、计算题(?=0.05)

7.6.1 某集团公司为了了解下属三个企业的工人对全面质量管理知识的认识程度,分别随机地抽取了六名工人进行考试,成绩如下表所示(总分100):

观察值序号 1 2 3 4 5 甲企业 90 70 80 75 70 乙企业 70 75 75 75 70 丙企业 60 65 65 70 75 43

学号: 班级: 姓名:

6 85 85 70 试问:这三个企业的工人的质量意识是否有显著差异?

解: (1) 建立假设

H0:?1??2??3 H1:?1,?2,?不全相等3(2) 计算相应的均值和平方和:

各水平均值:x1?78.3333,x2?75,x3?67.5,x?73.6111

ST???(xij?x)?990.2778,SE???(xij?xi)?620.8333,SA???(xi?x)2?369.4444

2mkmk2mki?1j?1i?1j?1i?1j?1(3) 列方差分析表: 方差来源 组间 组内 总差异 离差平方和S 369.4444 620.8333 990.2778 自由度f 2 15 17 均方MS 184.7222 41.3889 F值 4.463087 (4) 统计决策

对于显著性水平?=0.05,查表得临界值F0.05(2,15)?3.68232。

因为F?4.463087?F0.05(2,15),故拒绝H0,说明这三个企业的工人的质量意识有显著差异。

7.6.2 某地区2002年第一至三季度三类单位从业人员的劳动报酬如下(单位:元/人):

国有 城镇集体 其他 第一季度 2854 1700 3061 第二季度 2773 1647 3165 第三季度 2895 1755 3242 资料来源:中华人民共和国国家统计局网站。

要求:利用上表资料分析不同所有制城镇单位从业人员的劳动报酬是否有显著差异?

解:

(1) 建立假设 H0:?1??2??3 H1:?1,?2,? 不全相等3(2) 计算相应的均值和平方和:

各水平均值:x1?2840.6667,x2?1700.6667,x3?3156,x?2565.778

ST???(xij?x)?3547073.5,SE???(xij?xi)2?30043.3,SA???(xi?x)2?3517030.2

2i?1j?1mkmkmki?1j?1i?1j?1(3) 列方差分析表: 方差来源 组间 组内 总差异 离差平方和S 3517030.2 30043.3 3547073.5 自由度f 2 6 8 均方MS 1758515.1 5007.2 F值 351.196 44

学号: 班级: 姓名:

(4) 统计决策

对于显著性水平?=0.05,查表得临界值F0.05(2,6)?5.14325。

因为F?351.196?F0.05(2,6),故拒绝H0,说明不同所有制城镇单位从业人员的劳动报酬有显著差异。

7.6.3 为了能够对“窗口”行业的服务质量进行客观评价,某市消费者协会在保证行业内各企业的服务对象、服务内容和企业规模基本一致的条件下,分别对百货零售业、旅游业、交通业、餐饮业和房屋装修业等五个行业进行了抽样,选择了31家企业,共收集了一年来消费者对这31家企业的投诉次数,结果如下:

零售业 65 78 54 51 45 66 58 51 餐饮业 71 78 81 53 45 69 72 房屋装修业 85 91 78 69 99 87 旅游业 68 75 81 69 88 交通业 46 51 37 39 43 试分析这些行业的服务质量是否有显著差异? 解:

(1) 建立假设 H0:?1??2??3??4??5 H1:?1,?2,?3,?4,不全相等 ?5(2) 计算相应的均值和平方和:

各水平均值:x1?58.5,x2?67,x3?84.83,x4?76.2,x5?43.2,x?65.9

ST???(xij?x)?8488.709,SE???(xij?xi)2?2784.433,SA???(xi?x)2?5704.276

2i?1j?1mkmkmki?1j?1i?1j?1(3) 列方差分析表: 方差来源 组间 组内 总差异 离差平方和S 5704.276 2784.433 8488.709 自由度f 4 24 30 均方MS 1426.07 107.094 F值 13.3161 (4) 统计决策

对于显著性水平?=0.05,查表得临界值F0.05(4,24)?2.7425。

因为F?13.3161?F0.05(4,24),故拒绝H0,说明这些行业的服务质量有显著差异。

7.6.4 某市消费导报定期公布各大超市代表性商品的价格,现从四个超市的58种日杂类商品中随机挑选五种商品的价格如下表所示(单位:元):

商品1

超市1 1.1 超市2 1.2 45

超市3 1.4 超市4 1.2

学号: 班级: 姓名:

商品2 商品3 商品4 商品5 0.2 0.5 1.3 0.7 0.2 0.6 1.7 0.7 0.3 0.6 2.3 0.8 0.25 0.55 1.3 0.7 试问:这四个超市的日杂类商品的平均价格是否有显著差异?

解:

(1) 建立假设 H0:?1??2??3??4 H1:?1,?2,?3,? 不全相等4(2) 计算相应的均值和平方和:

各水平均值:x1?0.76,x2?0.88,x3?1.08,x4?0.8,x?0.88

ST???(xij?x)?3547073.5,SE???(xij?xi)?30043.3,SA???(xi?x)2?3517030.2

2mkmk2mki?1j?1i?1j?1i?1j?1(3) 列方差分析表: 方差来源 组间 组内 总差异 离差平方和S 0.304 5.433 5.737 自由度f 3 16 19 均方MS 0.1013 0.33956 F值 0.2984 (4) 统计决策

对于显著性水平?=0.05,查表得临界值F0.05(3,16)?3.2388715。

因为F?0.2984?F0.05(3,16),故不拒绝H0,说明这四个超市的日杂类商品的平均价格没有显著差异。

7.6.5 某电动车制造商在选择电动车电池时,为了比较电池的寿命(单位:分钟),从三个企业各抽10只电池进行试验,通过对电池寿命数据进行分析得到如下的方差分析表:

方差分析表 方差来源 组间 组内 总差异 离差平方和S 265 自由度f 29 均方MS 70 F值 (1)完成上面的方差分析表;

(2)在显著性水平?=0.05时,问这三个企业的电池寿命是否有显著差异?(F=3.354131)

解:

(1) 方差分析表

方差来源 组间 组内 总差异 离差平方和S 140 265 405 自由度f 2 27 29 均方MS 70 9.815 F值 7.135576 46

学号: 班级: 姓名:

(2)对于显著性水平?=0.05,临界值F0.05(2,27)?3.354131。

因为F?7.135576?F0.05(2,27),故拒绝H0,说明三个企业的电池寿命有显著差异。

7.6.6 为检验三个企业生产的机器混合一批原料所需时间是否相同,某公司对三台机器各进行了四次试验,结果如下(单位:分钟):

试验序号 1 2 3 4 企业1 20 26 24 22 企业2 28 26 31 27 企业3 20 19 23 22 若时间越短越好,试问:应该选择第几个企业的机器?

解:

(1) 建立假设 H0:?1??2??3 H1:?1,?2,? 不全相等3(2) 计算相应的均值和平方和:

各水平均值:x1?23,x2?28,x3?21,x?24

ST???(xij?x)2?148,SE???(xij?xi)2?44,SA???(xi?x)2?104

i?1j?1mkmkmki?1j?1i?1j?1(3) 列方差分析表: 方差来源 组间 组内 总差异 离差平方和S 104 44 148 自由度f 2 9 11 均方MS 52 4.8889 F值 10.6364 (4) 统计决策

对于显著性水平?=0.05,查表得临界值F0.05(2,9)?4.2565。

因为F?10.6364?F0.05(2,9),故拒绝H0,说明这几个企业的机器混合原料所需时间有显著差异。

由于时间越短越好,故选择均值最小的第三个企业的机器。

7.6.7 2003年4~7月我国四个直辖市城镇居民家庭可支配收入的有关资料如下(单位:元):

北京市 天津市 上海市 重庆市 2003年4月 1091.46 754.49 1187.6 616.61 2003年5月 1117.37 751.81 1159.5 580.54 2003年6月 1078.57 770.85 1138.71 582.58 2003年7月 1078.56 750.43 1179.32 662.74 资料来源:中华人民共和国国家统计局网站。

要求:试分析不同时间和不同地区对城镇居民家庭收支的影响?

47

学号: 班级: 姓名:

解:

(1) 建立假设 H01:?1??2??3??4 H02:?1 ??2??3??(2) 计算相应的均值和平方和

x1.?1091.49,x2.?756.895,x3.?1166.283,x4.?610.618,

x.1?912.54,x.2?902.305,x.3?892.678,x.4?917.763,x?906.321

ST???(xij?x)2?853691.06 SE???(xij?xi.?x.j?x)2?5658.7169

i?1j?1rs4444i?1j?122SA???(xi??x)?4??(xi??x)?846544.918 SB???(x?j?x)?4??(x?j?x)?1487.4289

22i?1j?1i?14444j?1i?1j?1(3) 列方差分析表

方差分析表 方差来源 行因素A 列因素B 误差E 总和 平方和S SA?846544.918 自由度f 3 3 9 15 均方MS 282181.639 495.81 628.746 F值 SB?1487.4289 FA?448.8 FB?0.788568 SE?5658.7169 ST?853691.06 (4) 统计决策 对于显著性水平?=0.05,查表得临界值F0.05(3,9)?3.862548。

因为 FA?448.?,故不拒绝H02。 H01;FB?0.788568?F0.058F0()3,故拒绝9(3,9).05,即根据现有数据,有95%的把握可以推断不同时间对城镇居民家庭收支的影响不大,而不同地区对城镇居民家庭收支有显著影响。

7.6.8 某产品的使用寿命与其制造材料和使用地点的温度有关,现取四种不同类型的材料、三种不同的温度的每种组合各作三次试验,资料如下。试对材料、温度及它们的交互作用作显著性检验。

温度(0C) 材料 B B1 B2 B3 A1 50,68,62 90,81,88 59,65,78 55,76,83 70,80,95 99,86,89 77,99,86 69,82,71 80,94,99 95,103,100 86,79,89 80,75,94 A A2A3A4解:

(1) 建立假设:H01:?1??2??3??4?0,H02:?1??2??3?0,H03:?11??12????12?0 (2) 计算相应的均值和平方和

48

学号: 班级: 姓名:

1x?rst???xi?1j?1k?1rstijk?81.4结构均值表

j?1 x11??60 x21??86.3 j?2 x12??81.7 x22??91.3 j?3 x13??91 x23??99.3 xi?? 77. 6 92.3 79.8 76.1 81.4 i?1 i?2 i?3 i?4 x?j? rst2x31??67.3 x41??71.3 71.23 x32??87.3 x42??74 83.6 r2x33??84.7 x43??83 89.5 ST????(xijk?x)?6242.89i?1j?1k?1rs2SA?st?(xi???x)?1484.22i?1rstSB?rt?(x?j??x)2?2080.72j?1sSA?B?t??(xij??xi???x?j??x)?626.61i?1j?1SE????(xijk?xij?)2?2051.33i?1j?1k?1 (3) 列方差分析表

方差分析表 方差来源 因素A 因素B 因素A?B 误差 总和 平方和S 1484.22 2080.72 626.61 2051.33 6242.89 自由度f 3 2 6 24 35 均方MS 494.7407 1040.361 104.4352 85.47222 F值 FA?5.7883 FB?12.1719 FA?B?1.2219 (4) 统计决策

由于FA?5.7883?F0.05(3,24)?3.0088,FB?12.1719?F0.05(2,24)?3.4028;说明材料、温度的不同对产品的使用寿命都有显著影响;又FA?B?1.2219?F0.05(6,24)?2.5082,故其交互作用不显著。由结构均值表可知,在材料中,第二种的均值较大;在温度中, 第三种的均值较大,故最优方案是A2B3。

49

学号: 班级: 姓名:

第八章 相关与回归分析

一、填空题

8.1.1 客观现象之间的数量联系可以归纳为两种不同的类型,一种是 函数关系 ,另一种是相关关系 。

8.1.2 回归分析中对相互联系的两个或多个变量可以区分为 因变量 和 自变量 。 8.1.3 函数关系 是指变量之间存在的严格确定的依存关系。

8.1.4 相关关系 是指变量之间客观存在的非严格确定的依存关系。 8.1.5 按相关关系 涉及变量 的多少可分为单相关、复相关和偏相关。

8.1.6 两个现象的相关,即一个变量对另一个变量的相关关系,称为 单相关 。

8.1.7 在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为 偏相关 。

8.1.8 按变量之间相关关系的 密切程度 不同,可分为完全相关、不完全相关和不相关。 8.1.9 按相关关系的 表现形态 不同可分为线性相关和非线性相关。 8.1.10 线性相关中按 相关的方向 可分为正相关和负相关。 8.1.11 按 相关的性质 可分为“真实相关”和“虚假相关”。

8.1.12 当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为 正相关 。

8.1.13 当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关 。

8.1.14 当两种现象之间的相关只是表面存在,实质上并没有内在的联系时,称之为 虚假相关 。

8.1.15 相关分析 是指研究一个变量与另一个变量或另一组变量之间相关方向和相关密切程度的统计分析方法。

8.1.16 回归分析 是指根据相关关系的具体形态,选择一个合适的数学模型来近似地表达变量间平均变化关系的统计分析方法。

8.1.17 相关系数 是反映变量之间相关关系及关系密切程度的统计分析指标。

8.1.18 偏相关系数 是在多元相关分析中考虑其他变量但假定其保持不变的情况下计算出来的反映某两个变量之间相关程度的统计分析指标。

8.1.19 复相关系数 是指反映一个因变量与两个及两个以上自变量组成的一组自变量之间相关程度的统计分析指标。

?和??,使因变量实际值与估计值的8.1.20 最小二乘法 就是寻找参数?和?的估计值?0101残差平方和达到最小。

8.1.21 正如标准差可以说明平均数代表性大小一样, 估计标准差 则可以说明回归线代表性的大小。

8.1.22 回归分析中的显著性检验包括两方面的内容,一是对 各回归系数 的显著性检验;二是对 整个回归方程 的显著性检验。

8.1.23 对各回归系数的显著性检验,通常采用 t检验 ;对整个回归方程的显著性检验,通常采用 F检验 。

8.1.24 当相关系数r?0时,只能认为变量之间不存在 线性相关 关系。

8.1.25 回归系数 的显著性检验就是要检验自变量x对因变量y的影响程度是否显著。

二、单项选择题(在每小题的3个备选答案中选出1个正确答案,并将其字母填在题干后面的括号内)

8.2.1 当一个或几个相互联系的自变量取一定的值时,因变量必定有一个且只有一个确定的值与之对应。这种关系称为 ( A )

50

本文来源:https://www.bwwdw.com/article/owip.html

Top