统计学原理复习重点概述 - 图文

更新时间:2024-01-16 18:27:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

统计学原理复习重点概述 本课程主要包括三部分知识。第一部分统计基础知识第一章和第二章数据收集部分。第二部分描述统计第二章统计数据整理部分(表格与图形法)、第三章数据分布特征的描述(静态数据描述法)和动态数据描述法,即第六章时间数列分析和第八章统计指数。第三部分推断统计第四章抽样估计和第五章假设检验与方差分析。

第一章 绪论。本章介绍统计学及相关概念,勾勒了本课程的框架结构——描述统计学和推断统计学。是统计的三层含义,总体、样本及指标等概念。 统计的三层含义及相互关系

统计学是一门关于数据的科学,是一门关于数据的收集、整理、分析、解释和推断的科学。

(一)统计工作(统计的基本含义)

即统计实践活动,是人们对客观事物的数据资料进行搜集、整理、分析的工作活动的总称。

(二)统计资料

是统计工作的成果,包括各种统计报表、统计图形及文字资料等。 (三)统计学

是一门收集、整理、描述、显示和分析统计数据的方法论的科学,其目的是探索事物的内在数量规律性,以达到对客观事物的科学认识。 (四)三者关系

统计学与统计实践活动的关系是理论与实践的关系,理论源于实践,理论又高于实践,反过来又指导实践 。统计工作和统计数据是工作和工作成果关系。 统计实践活动的产生与发展 三个主要的统计学派 1、政治算术学派

代表人物:英国的威廉·配第(1623-1687)、约翰·格朗特(1620-1674)等。 威廉·配第的代表著《政治算术》对当时的英、荷、法等国的― 国富和力量‖进行了数量的计算和比较;格朗特写出了第一本关于人口统计的著作。他们开创了从数量方面研究社会经济现象的先例。 可以说,威廉·配第是统计学的创始人。 2、记述学派(国势学派〕

代表人物:德国的康令(1606-1681)

阿亨瓦尔(1719-1772; 1764年首创统计学一词)

他们在大学中开设― 国势学‖课程,采用记述性材料,讲述国家― 显著事项‖,籍以说明管理国家的方法。特点是偏重于事物质的解释而忽视量的分析。 3、数理统计学派

代表人物:比利时的凯特勒(1796-1874)

他把古典概率论引进统计学,发展了概率论,推广了概率论在统计中的应用。 凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论家以融合改造为近代意义的统计学。他是数理统计学派的奠定人。 代表著作:社会物理学 有的教材分类

古典统计学时期(17世纪中后期~18世纪中后期)

1.政治算术学派:代表人物威廉·配第(政治经济学之父),首次运用数量对比分析法,又称―有名无实‖的统计学。

2.记述学派/国势学派:―统计学是研究一国或多国的显著事项之学‖,以文字描述为主,又称―有实无名‖的统计学。

3.图表学派:用统计图和统计表表现和保存统计资料。 近代统计学时期(18世纪末~19世纪末) 1.数理统计学派:创始人阿道夫·凯特勒,第一次将概率论引入社会经济现象的研究中,被誉为―近代统计学之父‖。

2.社会统计学派:代表人物恩格尔,采用大量观察法研究社会经济现象总体。 现代统计学时期(20世纪初至今)

1.主要成果:在随机抽样基础上建立了推断统计学。 2.数理统计学的发展特点与趋势 (1)数学方法的广泛应用。 (2)边缘统计学的形成。

(3)借助计算机手段,统计学的应用日益广泛和深入。 统计学的分类

从统计方法的构成角度分:

1、描述统计学(descriptive statistics)

研究如何取得、整理和表现数据资料,进而通过综合、概括与分析反映客观现象的数量特征。包括数据的收集与整理、数据的显示方法、数据分布特征的描述与分析方法等。

2、推断统计学(inferential statistics)

研究如何根据样本数据去推断总体数量特征的方法。包括抽样估计、假设检验、方差分析及相关和回归分析等。 描述统计学和推断统计学的关系

描述统计学是统计学的基础和统计研究工作的前提,推断统计学则是现代统计学的核心和统计工作的关键。

从统计方法的研究和应用角度分: 1、理论统计学(theoretical statistics)

利用数学原理研究统计学的一般理论和方法的统计学,如概率论与数理统计 2、应用统计学(applied statistics)*

研究如何应用统计方法解决实际问题,大多是以数理统计为基础形成的边缘学科。如自然科学领域的生物统计学、社会科学领域的社会经济统计学等。 统计学与其他学科的关系 (一)统计学与数学的关系 1、区别

(1)研究对象不同:数学研究抽象的量, 统计研究具体的量。

(2)研究方法不同:数学是演绎,统计是归纳和演绎的结合。 2.、联系

数学为统计研究提供数学公式、模型和分析方法。 (二、)统计学与其他学科的关系 统计几乎与所有学科都有联系。统计方法可以帮助其他学科探索学科内的数量规律性,但对这种数量规律性的解释与进一步的研究,只能由各学科自已的研究完

成。

统计的研究对象、特点、作用 统计的研究对象 、特点:

社会经济统计,也可称为经济统计,其研究对象是社会经济现象总体的数量规律,即通过对(社会)经济现象的规模、水平、结构、比例和速度等数量关系的调查研究,说明国民经济和社会发展在一定时间、地点、条件下的数量表现及变化规律,其中涉及到数量的多少、现象间的数量关系以及质量互变的数量界限等。社会经济统计学研究的就是在一定的质的规定下具体的不是抽象的数量表现与变化规律。

社会经济统计的特点:

1、数量性: 统计研究对象是客观事物的数量方面。

2、总体性: 社会经济统计认识社会经济现象时,主要是研究社会经济现象的总体数量规律,即通过大量的观察,获得足够多的统计资料,说明、认知总体现象的变化情况及规律。

3、具体性: 社会经济统计的研究对象是具体事物的数量,不是抽象的量。它与数学研究的数量是不尽相同的。

4、社会性:社会经济统计认识的对象是社会经济现象,它包括人类经济社会活动的各种条件(自然条件、社会条件)、人类各种活动的过程与结果(生产活动、交换活动、分配活动、消费活动等)。

统计的职能:信息职能、咨询职能、监督职能。

统计研究的基本环节统计调查、实验统计设计收集数据描述统计推断统计统计学论与理相实质关性学科理论整理与分析资料积累开发应用 统计学中几个基本概念 统计总体和总体单位

总体 即统计总体,是指客观存在的、在同一性质基础上结合起来的许多个别事物的整体。 例如:要研究全国城镇居民的收支情况,就以全国城镇居民作为一个总体。 特点:

同质性 是确定总体的前提和基础。它是根据统计的研究目的而定的。 研究目的不同,则所确定的总体也不同,其同质性的意义也随之变化。例如,研究城镇居民贫困户的生活状况,那么,贫困线下的城镇居民户则构成了统计总体,贫困线下的城镇居民户是同质的,而贫困线上的城镇居民户是非同质的。

大量性 统计总体应该由足够数量的同质性单位构成。实现统计研究目的的必要条件

差异性 构成总体的各个同质性单位的特征存在着差异。它是统计研究的前提和内容。

总体单位(简称单位)是组成总体的各个个体。根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。

总体和单位的概念是相对而言的,随研究目的不同,总体范围不同而变化。同一研究对象,在一种情况下为总体,但在另一情况下又可能变成单位。 根据总体所包含的单位数量,总体可以分为有限总体和无限总体两类。有限总体是由有限量的单位构成的总体。当总体单位数难以确定,其数量可能是无限时,便构成无限总体。

样本 由总体的部分单位组成的集合称为样本(又称子样)。 当总体单位数量很多甚至无限时,不必要或不可能对构成总体的所有单位都进行调查。这时,需要采用一定的方式,从由作为研究对象的事物全体构成的总体(又称全及总体、母体)中,抽取一部分单位,作为总体的代表加以研究。 样本也由一定数量的单位构成的,符合总体的概念;由样本单位组成的总体称为抽样总体,样本所包含的总体单位数称为样本容量。 标志和变量

总体各单位普遍具有的属性或特征称为标志。 标志分类:

品质标志:品质属性方面的特征,只能用文字、符号或数字代码来表现 。 数量标志:数量方面的特征,用数值来表现。

不变标志: 一个总体中各单位某标志的具体表现都相同,称之为不变标志。不变标志是总体同质性的基础。 一个总体至少要有一个不变标志,才能够使各单 位结合成一个总体。 变异标志:亦称可变标志,在一个总体中,当一个标志在各单位的具体表现有可能不同时,这个标志便称为可变标志。作为总体,同时必须存在变异标志,这表示所研究的现象在各单位之间存在着差异,才需要进行统计研究。

标志性别民族宗教信仰政治倾向年龄身高体重品质标志数量标志标志值男汉族佛教无党派43岁182cm75公斤文字表述数据表述 标志和变量不变标志不变标志决定总体的同质性总体单(标志表现无差别)品质标志位标志变异标志数量标志(标志表现有差别)(变量)变异标志决定总体的差异性 统计指标

统计指标是反映统计总体数量特征的概念和数值。如2002年我国国内生产总值104790.6亿元。

– 统计指标由两项基本要素构成,即指标的概念(名称)和指标的取

值。

– 指标的概念(名称)是对所研究现象本质的抽象概括,也是对总体

数量特征的质的规定性。确定统计指标必须有一定的理论依据,使之与社会经济或科学技术的范畴相吻合。同时,又必须对理论范畴和计算口径加以具体化。

– 指标的数值反映所研究现象在具体时间、地点、条件下的规模和水

平。在观察指标数值时,必须了解其具体的时间状态、空间范围、计量单位、计量方法等限定,同时注意由于上述条件的变化而引起数值的可比性问题。

特性:数量性、具体性、综合性 指标与标志的关系

– 标志反映总体单位的属性和特征,而指标则反映总体的数量特征。

标志和指标的关系是个别和整体的关系。需要通过对各单位标志的具体表现进行汇总和计算才能得到相应的指标。 – 总体和单位的概念会随着研究目的不同而变化,因此指标与标志的

概念也是相对而言的。例如,所要研究的是全国工业企业的情况,则各企业的职工人数、固定资产、工业增加值等都是总体单位(即各个企业)的标志,如果研究目的变成研究某一企业的职工状况,则该企业变成一个总体,企业职工人数变成了统计指标,每个职工的文化程度、技术等级、性别等就成为标志。

统计指标的基本分类时期指标(一段时期累计总量及据此计算的相对、平均指标)实物指标总量指标(单一计量单位)(单一计量单位)数数量量指指标标质质量量指指标标(吨、台等)价值指标(元、美元等)时点指标(瞬间的总量及据此计算的相对、平均指标)统计指标劳动指标相对指标(无计量单位)(无计量单位)(工、台时等)平均指标(双重计量单位)(双重计量单位)按时间特征分类按表现形式分类按内容特征分类按计量单位分类 统计指标体系统计指标体系具有某种内在联系的一系列统计指标所构成的整体存在确定的数量关系:产量×价格=产值存在某种共同性: 产销比率、盈利水平、劳动效率、偿债能力 统计数据

(一)变量与变量值

说明现象的某一数量特征的概念也被称为变量,变量的具体取值是变量值,统计数据就是统计变量的具体表现。

例如,固定资产是一个变量,各企业固定资产的具体数值是变量值。 为了区别,在本书中,凡是变量均用大写的英文字母表示,而变量值则用小写英文字母表示。 连续型变量是指变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。

例如,气象上的温度、湿度,零件的尺寸等。

离散型变量是指变量的其取值是整数值,可以一一列举。 例如,企业数,职工人数等。

确定性变量是受确定性因素影响的变量,即影响变量值变化的因素是明确的,是可解释和可控制的。

随机变量则是受许多微小的不确定因素(又称随机因素)影响的变量。变量的取值无法事先确定。

社会经济现象既有确定性变量也有随机变量。统计学所研究的主要是随机变量。 (二)数据的计量尺度

统计数据是总体单位标志或统计指标的具体数量表现。 根据对研究对象计量的不同精确程度,人们将计量尺度由低到高、由粗略到精确分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。 (三)数据的类型

横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。

时间序列数据又称为动态数据,它是指在不同时间对同一总体的数量表现进行观察而获得的数据。

例如,2005年全国各省市自治区的国内生产总值就属于横截面数据。而―十五‖期间我国历年的国内生产总值就属于时间序列数据。 (四)数据的表现形式

绝对数。现象的规模、水平一般以绝对数形式表现。绝对数的计量单位一般为实物单位或价值单位,有时也采用复合单位。实物单位可以是自然计量单位,也可以是物理计量单位,如人口数用人计量,机器数用台计量,对于一些化工产品和燃料,常常还折合成标准实物单位计量。复合计量单位是由两种或两种以上计量单位复合而成的,如以―吨公里‖为货物周转量的计量单位,以―千瓦时‖为用电量的计量单位。

相对数。相对数由2个互相联系的数值对比求得。常用的相对数包括:结构相对数、动态相对数、比较相对数、强度相对数、利用程度相对数、计划完成相对数等。

平均数。平均数反映现象总体的一般水平或分布的集中趋势。关于这部分的内容,将在第三章作详细介绍。

第二章统计数据的收集与整理。本章介绍统计数据的搜集及整理。重点在于统计调查方式和统计数据整理(分组)。 统计调查方式: 1、普查:

为某一特定目的而专门组织的一次性全面调查 如:人口普查、工业普查等 ●特点:

(1)通常是周期性的或一次性的,涉及面广、耗时、费力,一般需间隔较长时间;

(2)一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏; (3)准确性一般较高,较规范;

(4)适用的对象较窄,只能调查一些最基本、最一般的现象。 2、抽样调查:

从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查

结果推断总体数量特征。 ●特点:

(1)经济性强:工作量小、可节省人、财、物力 (2)时效性高:可迅速、及时地获得所需要的信息

(3)适应面广:可获得更广泛的信息,适用于各个领域、各种问题的调查; (4)准确性高:用工量小,从而工作可做得更细,误差往往很小。 3、统计报表

按国家有关法规规定,自上而下地统一布置,自下而上地逐级提供基本统计数据。

●特点:

统一的表式、统一的指标、统一的报送时间、统一的报送程序。 ●类型:

(1)按报送调查范围分:

全面报表:调查对象中的每一个单位都填报

非全面报表:只要求调查对象中的一部分单位填报 (2)按报送时间间隔分

日报、月报、季报、年报 (3)按报送地域(机构)范围分: 国家报表、地方报表、部门报表 4、重点调查

从调查对象的全部单位中选择少数重点单位进行调查(适用于“同类”中的“大户”)。

5、典型调查

从调查对象的全部单位中选择一个或几个有代表性的单位进行调查。(不一定针对“大户”) ▼注意:

重点调查、典型调查与抽样调查的不同处在于:

1、抽样调查是随机抽取调查单位,不存在对调查对象选择的主观性,因此可以根据抽样结果推断总体的数量特征;

2、重点调查和典型调查不是随机取样,具有一定的主观性,因此调查结果不能推断总体。 数据的搜集方法

1、访问调查(派员调查):调查者与被调查者通过面对面的交谈获取调查资料; 2、邮寄调查:通过邮寄或其他方式将问卷送至被调查者,由被调查者填写问卷并寄回或投放到指定收集点;

3、电话调查:调查者利用电话同受访者进行语言交流以获取信息; 4、座谈会(集体访谈):将受访者集中在调查现场,使其对调查主题发表意见以获取调查资料;

5、个别深度访问:一次只有一名受访者参加的特殊的定性研究。

统计数据的整理(summarizing data)是指对所搜集的数据进行加工整理、使之系统化、条理化,以符合分析的需要。 统计数据的整理通常包括: 数据的预处理 分类或分组

汇总 数据分组与频数分布

统计分组是将预处理过的数据按照某种特征或标准分成不同的组别。

◎统计分组标志:分组时所依据的特征或标准,有品质标志和数量标志。

◎频数分布表:对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。 概念:频数/次数分布;相对频数;百分数频数

◎ 频数分布或次数分布(Frequency distribution):全部数据按其分组标志在各组内的分布状况。

分布在各组内的数据个数称为频数或次数。

A frequency distribution is a tabular summary of a set of data showing the frequency (or number) of items in each of several nonoverlapping classes.

◎相对频数(Relative frequency)/频率/比重:各组频数与全部频数之和的比重。 The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n)

◎百分数频数(Percentage frequency):is the relative frequency multiplied by 100.

数值数据的分组与频数分布 分组计频基本步骤:

确定组数?? 确定组距??(按组)整理成分布频数表

第一步,确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定

经验上以5~20之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。

实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:

N2

1010

第二步,确定组距(Width of classes):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定: 组距=(最大值 - 最小值)/组数

第三步,确定各组组限(Class limits)并据此整理频数分布表。 1、分组所遵循的主要原则是“不重不漏”(each data value belongs to one class and only one class)。因此,

最低组限(The lower class limit) ? 数据的最小值, 最大组限(The upper class limit) ?数据的最大值;

另外,数据在每组中的归属习惯上采用“上组限不在内”。 2、对离散型数据,可采用相邻两组组限间断的办法解决“不重”的问题(如6~10,11~15,16~20等); 3、对连续型数据,往往采用相邻两组组限重叠,根据“上限不在内原则”解决“不重”问题(如[5,10),[10,15),[15,20)等)。 注意:

1、在最大值与最小值与其他数据相差悬殊时,为避免空白组出现,第一

K?1?loglog组和最后一组可采用―XX以下‖及―XX以上‖这样的开口组;

2、在组距分组时,如果各组组距相等则称为等距分组,否则为不等距分组。 不等距分组各组的频数受组距大小不同的影响,因此需要计算频数密度(=频数/组距),才能准确反映频数分布的实际;

3、有时为了统计需要,需进一步计算累积频数(某数值以上或以下的频之数和)。

统计分组的概念、原则、则和方法统计表(补充讲义14页word文档)。

分配数列/次数分布数列

由两个要素构成,一是组别,二是各组次数或频率。根据需要,可以编制简单次数分布表和累计次数分布表。 次数分布

主要有钟形分布、U形分布和J形分布。 统计表和统计图

统计表和统计图是显示统计数据的两种重要形式。统计表的结构从形式看可分为总标题、横表目、纵标目和指标数值;从内容上看可分为主词和宾词两部分。统计图主要有条形图、直方图、圆形图等。

第三章、数据分布特征的描述。本章主要介绍数据的集中趋势和离散趋势。重点是各种平均指标及离散指标概念、计算方法和适用条件。

统计学中刻划数据分布特征的最主要的代表有二:数据分布的集中趋势与数据分布的离散程度。

集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。

均值(Mean) 均值就是一组数据的平均值(average value),用来测度中心位置(central location)。

1、算术平均数

简单算术平均数 加权算术平均

加权算术平均往往适用于对分组后的数据求均值,这时Xi为各组变量代表值(往往取组中值),Fi 为各组变量值出现的频数。 算术均值具有如下性质:

(1)各变量值与其均值的离差和为零: (2)各变量值与其均值的离差平方和最小:

(3)对被平均的变量实施某种线性变换后,新变量的算术平均数等于对原变量的算术平均数实施同样的线性变换的结果。

(4)对于任意两个变量x和y,它们的代数和的算术平均数等于两个变量的算术平均数的

总体标志总量算术平均数?总体单位总量

代数和。

均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的“平均水平”时失去意义,这时往往用“剔除极端值”的方法加以修正。 2、几何平均数

(1)几何平均数是N个变量值乘积的N次方根 (2)加权几何平均数

几何平均数的对数是各变量值对数的算术平均。 几何平均主要用于计算比率或速度的平均 几何平均数的应用及特点 :

我国国内生产总值2001年、2002年、2003年的环比发展速度分别是107.5%,108.3%,109.3%,则各年的平均发展速度是

G?31.075?1.083?1.093?1.084?108.4%

某人有一笔款项存入银行10年,前2年的年利率为6%,第3至5年的年利率是5%,后5年的年利率3%,如果按复利计算,这笔款项的平均年利率为多少?

G?101.062?1.053?1.035?1.0421.042?1?0.042?4.2%

这笔款项的平均年利率为4.2%。 ①应用条件

a.变量值是相对数据,如比率或发展速度。 b.变量值的连乘积等于总比率或总发展速度。 ②特点

a.如果数列中有一个标志值等于零或负值,则无法计算。 b.受极端值影响较小,故较稳健。

(3)调和平均数,是各数据倒数的(简单)算术平均数的倒数: 价格=金额/购买量

例4,某农贸市场某日鸡蛋价格及销售额资料如下表所示,试求其鸡蛋的平均售价。鸡蛋种类价格(元/KG)销售额(元)A 7.6 15200B 8.0 8000C 8.2 4100鸡蛋的平均价格等于销售总额除以销售量:XH??M1?X?M?15200?8000?4100?7.8111?15200??8000??41007.68.08.2 由相对数和平均数计算平均数

根据相对数和平均数计算平均数时,如何正确选择和应用算术平均数与调和平均数,

在缺少被平均标志x的分子资料时,要采用算术平均数,即“缺分子,用算术”。如上述平均计划完成程度,其分子是实际利润额,分母是计划利润额,当已知各企业的利润计划完成程度和计划利润额时(缺少实际利润额),则采用算术平均数。

利润计划完成程度x (%) 80~90 90~100 100~110 合计 企业数 (个) 2 5 3 10 计划利润额 (万元) 500 1600 800 x??xf85?500?95?1600?105?800??96.03% ?f500?1600?800在缺少被平均标志的分母资料时,要采用调和平均数,即“缺分母,用调和。”如例4.6中,

当已知各企业的利润计划完成程度和实际利润额时(缺少计划利润额资料),则采用调和平均数。

中位数(Median)

中位数是一组数据按大小排序后,处于中间位置上的变量值。 1、 对于未分组数据:

(1)如果数据个数为奇数,则中位数恰为处于中间位置的数: Me?X?N?1???2 ??(2)如果数据个数为偶数,则为中间位置两个数的平均数

(2)单项数列的中位数

计算各组的累计频数(向上累计或向下累计);根据中位数位置确定中位数。

n

fi

中位数的位置=i?1 2对于分组后的数据

下限公式:

f ?Sm?12 Me?L??dfm上限公式:

f ?Sm?12 Me?U??dfm

式中:m为中位数所在的组,d为该组组距,

L、U分别为该组的下限值与上限值, fm为该组的频数,

Sm-1 为该组以下各组的频数总和, Sm+1为该组以上各组的频数总和, 显然 Sm?1?fm?Sm?1?f

众数(Mode)

众数是一组数据中出现次数最多的变量值。 在分组数据中,众数可按下式计算: 下限公式: fm?fm?1 Mo?L??d (fm?fm?1)?(fm?fm?1) 上限公式: fm?fm?1?d Mo?U?(fm?fm?1)?(fm?fm?1)

式中: fm为某数值出现次数(频数)最多的组(第m组)的频数, fm-1与fm+1分别为第m-1组与m+1组的频数,

L、U分别为第m组的下限与上限值,d为该组组距。

?1???Me??X?N??X?N??????1??2??2????2?????1、如果某组统计数据中没有哪个数值出现较多的频率(次数),则可认为该组数无众数;如果有多个数据出现的次数(频率)较多,则认为有多个众数。 在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助。

2、对描述品质数据的分布特征的―位置‖测度只能用众数。 中位数、众数与算术平均数的关系

四、中位数、众数与算术平均数的关系1、如果数据具有单一众数,且分布是对称的,则众数Mo、中位数Me与均值X相等,即Mo?Me?X;2、对于非对称分布,当分布左偏时(说明存在极端小的值)X?Me?Mo当分布右偏时(说明存在极端大的值)X?Me?Mo3、在偏斜度适度的情况下,不论是左偏还是右偏,中位数与算术平均数之差约等于众数与算术平均数之差的1/3,即有如下经验公式:1Me?X?(MO?X)3 ? 众数、中位数和均值都是对数据集中趋势的测度,

1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。

2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。

3、众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。

4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。

5、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。

分布离散程度的测度

对数据分布特征的另一个测度指标是数据分布离散程度。 它反映各数据远离其中心值的程度,因此,也称离中趋势。 集中趋势反映的是各变量值向其中心值聚集的程度, 离中趋势反映各变量值之间的差异状况。 注意:

集中趋势的测度值概括地反映了数据的一般水平,它对该组数据的代表程度,取决于该组数据的离散水平。

数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。 极差(Range)

极差是最简单的测度离中趋势(分散程度)的指标,也称全距,是一组数据最大值与最小值之差:

Range=Largest Value - Smallest Value 对于组距分组数据,极差可近似地表示为: R=最高组上限 - 最低组下限 ▲注意:

1、极差易受极端值的影响;

2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。 方差(Variance)

方差是各变量值与其均值离差(deviation about the mean)平方的平均数。 总体方差(Population Variance) 总体方差用?2表示

其中:Fi为第i组数据的频数Xi为第i个数(未分组)或第i 组组中值(分组) 样本方差(Sample Variance) 样本方差用S2表示

其中:fi为第i组数据的频数xi为第i个数(未分组)或第i 组组中值(分组) 标准差:方差的平方根(正)。

1、由于方差计算中使用了平方运算,因此方差的单位也是平方,如上述班级规模例中方差为64(学生)2,其具体意义不明确。因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义。

2、标准差是对方差的开方运算,因此,其单位与原始数据的单位一致,它与均值及其他用同一单位测度的数据相比较也容易一些。

(标准差就是指数据“离散程度的测度值”距“均值”的距离)。 离散系数(Coefficient of Variation)

离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:

四、离散系数(Coefficient of Variation)离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:例:五个班级规模的例中,若视为总体,离散系数为:7.15/44=0.16,若视为样本,则离散系数为:8/44=0.182。

1、对不同组数据,其离散程度既受其数据本身的水平的影响,也受数据计量单位的影响,因此对不同(性质)组别的数据,不好用离差或标准差来比较它们的离散程度;

2、由于离散系数消除了来自这两方面的影响,因此可以用它进行不同数据组的比较。

分布偏态与峰度的测度

偏态(Skewness)和峰度(Kurtosis)是对数据分布特征的进一步描述。

平均数与标准差相同的数据组,其频数分配(分布)也可能不同,如果频数分布是对称的,则称为对称分布,否则为偏态分布。 偏态及其测度

测定偏态的方法主要有两种: (1)算术平均数与众数比较法, (2)动差法。

算术平均数与众数比较法

完全对称分布:算术平均数、中位数、众数重合 非对称分布:三者相互分离,

算术平均数 < 中位数 < 众数

可用算术平均数与众数之间的距离作为测度偏态的一个尺度: 偏态 = 算术平均数 - 众数

这是偏态的绝对数,它以原有数据的单位为单位。

同样地,偏态绝对数不能用来比较不同数据组、不同计量单位数据的偏态程度,为了使不同数据组的偏态数值能相互比较,需计算偏态的相对数:SKp?X?Mo? 在计算偏态系数时,如果众数不易计算,可用中位数代替SKp?3(X?Me)?在上述班级规模例子中,均值为44,众数为46,标准差为7.15,因此,偏态的相对值为SKp?44?46??0.2797.15 (二)动差法动差又称矩,可用来说明数据频数分布的特征。一般地,取数据中的a点为中心点,所有数据与a之差的k次方的平均数:?(X?a)Nk称为数据X关于a的k阶动差(k阶矩)。当a=0时,即数据以原点为中心,上式称为原点k阶动差(矩)当a?X时,数据以算术平均数为中心,上式称为中心k阶动差(矩)。统计学中常以中心3阶动差(矩)来测度分布的偏态。 偏态是对分布偏斜方向及程度的测度,通过偏斜系数进行测度?3??(Xi?1Ki?X)3Fi?3?Fi?1Ki式中,?3表示偏态系数,?3是标准差的三次方。因此,该指标是相对指标。?3=0时,为对称分布;?3>0时,为正偏(右偏)分布;?3<0时,为负偏(左偏)分布。在上述班级规模的例子中,以中心3阶动差(矩)计算的偏态系数值为: 峰度及其测度

峰度是频数分布的另一重要特点。

其测度的是: 某种频数分布的曲线与正态分布曲线相比,是尖顶,还是平顶,其尖或平的程度如何。

峰度就是频数分布曲线顶端的尖峭程度。

峰度的测度,往往以中心4阶动差为基础进行;

将4阶动差的数值,除以标准差的4次方,化为相对数,就是峰度的测度值,即峰度系数:?4??(Xi?1Ki4?X)4Fi??FiKi经验上,峰度系数为3时,恰为正态分布,因此,当峰度系数<3时,为平顶分布曲线;当峰度系数>3时,为尖顶分布曲线;当峰度系数接近于1.8时,则频数分布曲线趋向于一条水平线;当峰度系数小于1.8时,为U型曲线。 第四章抽样估计。本章主要介绍了抽样估计的基本概念及抽样估计。点估计和区间估计。其中区间估计是主要方法。应理解置信区间、置信度、显著性水平的含义,领会区间估计精确度和可靠度之间的关系,重点掌握总体均值和总体比例的区间估计方法、样本容量的确定方法。

一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。

抽样估计的特点

? 按随机原则抽取样本单位 ? 目的是推断总体的数量特征

? 抽样推断的结果具有一定的可靠程度,抽样误差可以事先计算并控制

(四)抽样估计的一般步骤设计抽样方案抽取样本单位收集样本数据计算样本统计量推断总体参数 抽样推断中的基本概念 全及总体和样本

1.全及总体:是由被调查对象的全部单位所构成的集合体,简称总体。 总体容量:总体中的单位数,用N表示。

2.样本:样本是从总体中抽取的进行调查的部分单位的集合体,又称抽样总体。 样本容量:样本中的单位数,用n表示。

大样本和小样本:n≥30时称大样本,n<30称小样本。

**应用:在班级40名学生中随机选取15人进行健康状况调查,说明其中的总体、样本及容量。 概率抽样与非概率抽样

1.概率抽样:又称随机抽样,是按随机原则抽取样本单位。本章所指的均为概率抽样。 2.非概率抽样:又称非随机抽样,是指从研究的目的和需要出发,根据调查者的经验或判断,从总体中有意识地抽取部分单位构成样本。

**应用举例:重点调查、典型调查应为非概率抽样。

重复抽样和不重复抽样

1.重复抽样:又称有放回的抽样,从总体中抽取样本时,每次被抽中的单位都再被放回总体中参与下一次抽样。

2.不重复抽样:又称无放回的抽样,总体中随机抽选的单位经观察后不放回到总体中,即不再参加下次抽样。

(三)重复(置)抽样与不重复(置)抽样?重复抽样例如从:A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2–考虑顺序时:样本个数–不考虑顺序时:样本个数?不重复抽样:例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2Nn?52?25n?CNN!(N-n)!n!n?PNN!(N-n)!考虑顺序时:样本个数不考虑顺序时:样本个数nCN?(N?n-1)!?n-1(N-1)!n! 总体参数和样本统计量

1.总体参数:是反映总体数量特征的数值。在抽样推断 中,参数是未知的、待估计的确定值。

2.样本统计量:是根据样本资料计算的反映样本数量特征的变量,它的值随着样本的不同而变化,因此是一个随机变量。

总体参数总体参数指被估计的总体指标,又被称为全及指标设总体中N个总体单位某项标志的标志值分别个总体单位某项标志的标志值分别设总体中为X1,X2?,XN,其中具有某种属性的有,其中具有某种属性的有N1个个为单位,不具有某种属性的有N0个单位,则个单位,则单位,不具有某种属性的有⒈总体平均数(又叫总体均值):X??Xi?1NiN或X??Xi?1mmifi?i?1fi

⒉总体单位标志值的标准差:??21NXi?X或???Ni?1??1?fii?1m??Xi?1mi?X?f2i⒊总体单位标志值的方差:12??N??Xi?1Ni?X或???221?fii?1m??Xi?1mi?X?f2i ⒋总体成数:P?NN1,Q?0?1?PNN⒌总体是非标志的标准差:?P?P?1?P??PQ?当P?Q?0.5时,?P有最大值?⒍总体是非标志的方差:?P?P?1?P??PQ2

指根据样本单位的标志值计算的用样本指标样本指标以估计和推断相应总体指标的综合指标,又被称为估计量或统计量设样本中n个样本单位某项标志的标志值个样本单位某项标志的标志值设样本中分别为x1,x2?,xn,其中具有和不具有某,其中具有和不具有某分别为种属性的样本单位数目分别为n1和和n0个,则种属性的样本单位数目分别为个,则⒈样本平均数(又叫样本均值):x?nm?xi?1in或x??xi?1mifi?i?1fi 为自由度⒉样本单位标志值的标准差:21ns?xi?x或s??n?1i?1??1mi?1为?的无偏估计i?1f?1?i??x?x?f2imi⒊样本单位标志值的方差:n2122s?xi?x或s??n?1i?1??1mi?1为?2的无偏估计i?1f?1?i??x?x?f2imi ⒋样本成数:p?nn1,q?0?1?pnn为?P的⒌样本单位是非标志的标准差:无偏估计nnsp?p?1?p??pqn?1n?1⒍样本单位是非标志的方差:nn2sp?p?1?p??pqn?1n?1

2为?P的无偏估计 三、抽样推断的理论依据(一)大数定理?1n?limp??Xi??????1n???ni?1?当样本容量n充分大时,可以用样本平均数估计总体平均数。?m?limp??p????1n???n?当试验次数n充分大时,可以用频率代替概率。大数定理的意义:个别现象受偶然因素影响而表现出差异性,但是,对总体的大量观察后进行平均,就能使偶然因素的影响相互抵消,从而使总体平均数稳定下来,反映出事物变化的一般规律,这就是大数定理的意义。 (二)中心极限定理?中心极限定理的意义:在一定条件下,大量相互独立的随机变量之和的概率分布是以正太分布为极限的。其主要内容是:如果总体分布未知,且存在有限的均值和方差,则当样本容量足够大时,抽样平均数近似服从正态分布。??2?X~N???,n???? 平均数的抽样分布平均数的抽样分布?全部可能样本平均数的均值等于总体均(x?X)值,即:E(x)?X?从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。?从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。1?样本均值的标准差为总体标准差n的。2x~N(X,?n)

比率的抽样分布比率的抽样分布?全部可能样本比率的均值等于总体比率,即:E(p)?P(p?P)?从非正态总体中抽取的样本比率,当n足够大时其分布接近正态分布。?从正态总体中抽取的样本比率,不论容量大小其分布均为正态分布。1?样本比率的标准差为总体标准差n的。p~N(P,P?1?P?n)np?5,n(1?p)?5抽样误差的概念及其影响程度

第三节抽样平均误差一、抽样误差的概念及其影响程度在统计调查中,调查资料与实际情况不一致,两者的偏离称为统计误差。?登记误差??系统性误差?统计误差???代表性误差?随机误差?实际误差??????抽样平均误差 抽样误差即指随机误差,这种误差是抽样调查固有的误差,是无法避免的。

抽样误差1.抽样误差抽样误差是指不包括登记性误差和系统性误差在内的随机误差,它衡量了抽样估计的精确度。2.与抽样误差有关的三个概念(1)抽样实际误差:指某一次具体抽样中,样本指标值与总体参数真实值之间的偏差。(2)抽样平均误差:是指所有可能的样本指标与总体指标之间的平均差异程度,即样本估计值的标准差。(3)抽样极限/允许误差:又称置信区间,是指一定概率下抽样误差的可能范围,说明样本估计量在总体参数周围变动的范围,记作Δ。 抽样平均抽样平均误差误差指每一个可能样本的估计值与总体指标值之间离差的平均数,即样本估计量的标准差?x?1M??xi?1Mi?X?2?x为样本平均数的抽样平均误差;式中:M为2注意:不要混淆抽样(x?x)可能的样本数目;xi为第i个可能样本的平均S?标准差与样本标准差!数;X为总体平均数n?1? 四、影响抽样误差大小的因素?抽样平均误差受以下几方面的因素影响:?总体各单位的差异程度(即标准差的大小):越大,抽样误差越大;?样本单位数的多少:越大,抽样误差越小;?抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小;?抽样组织方式:简单随机抽样的误差最大。

简单随机抽样的抽样平均误差

简单随机抽样的抽样平均误差?抽样平均数的平均误差?(x)??重置抽样:n不重置抽样:?(x)??n?N?nN?1?抽样成数的平均误差?(p)?P(1?P)重置抽样:n不重置抽样:?(p)?P(1?P)?N?nnN?1 (一)点估计就是由样本指标直接代替全及指标,不考虑任何抽样误差因素。即用x直接代表X,用p直接代表P。例 在全部产品中,抽取100件进行仔细检查,得到平均重量x?1002克,合格率p?98%,我们直接推断全部产品的平均重量X?1002克,合格率P?98%。

只要在样本代表性大,且对全及指标精确性要求不高的情况下,可采用点估计法。如能满足下列三个准则:无偏性一致性有效性就会得到合理的估计

(二)区间估计是根据样本指标和抽样误差去推断全及指标的可能范围,它能说清楚估计的准确程度和把握程度。 根据中心极限定理,得知当n足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称臵信区间,即在概率F(t)的保证下:抽样极限误差△=tμ,(t为概率度)可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。

抽样误差范围的实际意义是要求被估计的全及指标X或P落在抽样指标一定范围内,即落在x??x或p??p的范围内。例当F(t)=68.27%时,抽样极限误差等于抽样平均误差的1倍(t=1);当F(t)=95.45%时,抽样极限误差等于抽样平均误差的2倍(t=2);当F(t)=99.73%时,抽样极限误差等于抽样平均误差的3倍(t=3);

抽样极限抽样极限误差误差由于提高把握程度,会增大允许误差,使估计精度降低,而缩小允许误差,提高估计的精度,又会降低估计的把握程度,所以在实际中应根据具体情况,先确定一个合理的把握程度再求相应的允许误差或先确定一个允许误差范围再求相应的把握程度。

指在一定的概率保证程度下,抽样误差不允许超过的某一给定范围,也称作允许误差、误差范围、误差臵信限等抽样极限误差的计算公式抽样极限误差的计算公式(大样本条件下)⒈样本平均数的极限误差:⒉样本成数的极限误差:?x?z?x?p?z?pZ为概率度,是给定概率保证程度下样本均值偏离总体均值的抽样平均误差的倍数。 抽样极限误差的计算公式抽样极限误差的计算公式(大样本条件下)Z与相应的概率保证程度存在一一对应关系,常用Z值及相应的概率保证程度为:z值概率保证程度1.00 0.6827 1.65 0.9000 1.96 0.95002.00 0.95452.58 0.99003.00 0.99731?? ?总体均值区间估计程序yesyesn>=30?Noyesyes用s代替总体是否接近正太分布?NoNo?知否?No知否?用s代替???x?z?2?nx?z?2snx?z?2增大样本容量至n>=30?nx?t?2sn 总体均值区间估计总结1:已知为正态总体X???X所服从的分布?X重复抽样区间上下限?/nX?z?X?z?总体方差已知总体方差未知?2N(0,1)nN?nN?1不重复抽样重复抽样不重复抽样?nN?nN?1?2nt(n-1)大样本时近似服从S/nSnN?nN?1X?t?X?t?2,n?1SnN?nN?1 N(0,1)2,n?1Sn总体均值区间估计总结2:不是正态总体或分布未知总体方差已知,且是大样本X??近似服从~N(0,1)?X??/n或??X?nN?nN?1?X?S/n总体方差未X??近似服从~N(0,1)SN?n知,且是大?或?X样本nN?1因此,大样本情况下,直接用标准正态分布求置信区间即可。 区间估计的步骤

区间估计根据给定的条件不同,有两种估计方法:

? ⑴ 给出允许误差(Δ),求概率保证程度F(t)。 ? ⑵ 给出概率保证程度F(t),求估计区间。 ⑴ 给出Δ,求F(t)

? ① 抽取样本,计算样本指标(样本平均数、样本方差、抽样平均误差); ? ② 根据给定的抽样误差——允许误差Δ计算估计区间的上、下限; ? ③ 求出概率度t,F(t),对总体参数作区间估计。 ⑵ 给出概率保证程度F(t),求估计区间。

? ① 抽取样本,计算样本指标(样本平均数、样本方差、抽样平均误差); ? ② 根据给定的F(t),查表求出t;

? ③ 求出抽样极限误差Δ和估计区间的上、下限,对总体参数作区间估计。 区间估计注意

? 首先确定被估计总体指标的种类,是平均数还是成数; ? 其次取定抽样方法,是重置抽样还是不重置抽样;

? 然后再根据给定的样本资料和抽样条件(给定概率保证程度还是给定抽样极限误

差),确定计算步骤,进行计算。

四、样本容量的确定?1、为什么要研究样本容量确定问题?z???X???z??X???F(z)?1??当抽样平均误差保持不变时,极限误差Δ(体现估计精度)与概率度z(体现可靠性)两者同向变化。因此,抽样估计的精度与可靠性之间存在矛盾。为了调和这一矛盾的,可以适当降低抽样平均误差。而要降低?x,则必须增加样本容量n。样本容量n究竟取多大合适? → 必要的样本容量:使抽样误差不超过给定的允许误差范围时至少应该抽取的样本单位数,也称必要的抽样数目。 2、确定样本容量在抽样设计时,先确定允许的误差范围和必要的概率保证程度,然后根据历史资料或试点资料确定总体的标准差,最后来确定样本容量。z?2?2?重复估计总体均值时样抽样本容量的不重复确定抽样?x?z??22n?n?2?x2?x?z?Nz?2?2n21?N?n?N?2?z2?2nx?2估计总体重复成数时样抽样本容量的不重复确定抽样

n?z?22p?1?p??p2n?Nz?22p?1?p?22N?p2?z?p?1?p?

3、影响必要抽样数目的因素1)总体内部差异程度。越大则要求的必要必要抽样数目越多;2)抽样极限误差。越小则必要抽样数目越多;3)概率保证程度。越大则必要抽样数目越多;4)抽样方法。不重复抽样比重复抽样所需的样本容量要多;5)抽样组织形式。不同的抽样组织形式所需的样本容量不同。

4、确定样本容量应注意的问题?计算样本容量时,一般总体的方差与成数都是未知的,可用有关资料替代:–一是用历史资料已有的方差与成数代替;–二是在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差;–三是成数方差在完全缺乏资料的情况下,就用成数方差的最大值0.25代替。?如果进行一次抽样调查,同时估计总体均值与成数,用上面的公式同时计算出两个样本容量,可取一个最大的结果,同时满足两方面的需要。上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例如计算得到:n=56.03,那么,样本容量取57,而不是56。?

抽样组织方式设计类型概念。

第五章 假设检验与方差分析。理解原假设、备择假设、两类错误、单侧检验、双侧检验、方差分析等概念。掌握总体方差已知或未知时正态总体的均值假设检验和总体比例的假设检验。重点是三种不同情况下的假设检验方法,总体方差已知时正态总体均值和总体比例的假设检验。难点是总体方差未知时正态总体均值的假设检验和方差分析。 假设检验的概念

假设(hypothesis),又称统计假设,是对总体参数的具体数值所作的陈述。

假设检验(hypothesis test) 是先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。 (一)原假设与备择假设

原假设(null hypothesis),又称零假设,用 表示,是指研究者想收集证据予以反对的假设。

备择假设(alternative hypothesis),用 或 表示,是指研究者想收集证据予以支持的假设,它与原假设陈述的内容相反。

假设检验的三种形式设?0表示在原假设和备择假设中考虑的某一特定数值,?表示总体的实际值。对总体的假设检验一定要采取下面的三种形式之一:H0:???0H1:???0⑴H0:???0⑵H1:???0H0:???0⑶H1:???0

(二)拒绝域与检验统计量?拒绝域是指能够作出拒绝原假设这一结论的所有可能的样本取值范围。?检验统计量是根据样本数据计算出来的,并据以对原假设和备择假设作出决策的某种样本统计量。

(三)单侧检验与双侧检验?单侧检验是指检验统计量的取值位于其抽样分布的某一侧范围内时拒绝原假设,也就是说抽样分布的某一侧构成了拒绝域。?双侧检验是指检验统计量的取值位于其抽样分布的任何一侧范围内时拒绝原假设,也就是说抽样分布的左右两侧共同构成了拒绝域。

二、假设检验中的两类错误**?第Ⅰ类错误/弃真错误(type Ⅰerror)当原假设为真时拒绝原假设。犯第Ⅰ类错误的概率通常记为?。?第Ⅱ类错误/取伪错误(type Ⅱerror)当原假设为假时没有拒绝原假设。犯第Ⅱ类错误的概率通常记为?。?在统计实践中,进行假设检验时一般先控制第Ⅰ类错误发生的概率,并确定犯第Ⅰ类错误的概率最大值,称为检验的显著性水平。显著性水平一般选择为0.05和0.01。

三、几种常见的假设检验 (一)假设检验的步骤 1.确定原假设和备择假设。 2.选择检验统计量。

3.确定检验的显著性水平 。

4.用显著性水平来确定拒绝原假设 的检验统计量的临界值、拒绝域。 5.根据样本数据,计算检验统计量的值。 6.⑴将统计量的值与临界值进行比较,并作出决策:若统计量的值落在拒绝域内,

拒绝原假设 ,否则不拒绝原假设 。

或⑵根据第5步的检验统计量的值计算 值。运用 值来确定是否拒绝。

(二)总体方差已知时正态总体均值的假设检验当总体方差?已知,用正态分布来检验总体均值的假设值的情况如下:⑴当样本数n?30(大样本)时的任意分布总体(根据中心极限定理);⑵当样本数n?30(小样本)但是总体是正态分布的。2

(三)总体方差未知时正态总体均值的假设检验?⑴如果样本数n?30,根据中心极限定理,可以假定抽样分布近似为正态概率分布;?⑵如果样本数n?30,但均值的抽样分布是正态分布时。?无论哪一种情况,都应当使用T分布计算标准的检验统计量,在计算检验统计量时,我们用样本标准差s来代替总体标准差?。?检验统计量t?X??0X??0?ssXn (四)总体比例的假设检验?总体比例又称总体成数,是指总体中具有某种相同特征的单位数所占的比例。?一般用P来表示总体比例,P0表示总体比例的某一特定假设值。总体中的某种特征可以是数值型的,如一定的重量、一定的长度或一定的规格等;也可以是品质型的,如男女性别、学历等级、城市农村等。总体比例的假设检验步骤?⑴建立总体比例检验的原假设和备择假设。?⑵用样本比例p和样本标准差?p的来计算检验统计量Z?p?P0的值,?p因为是大样本,中心极限定理保证了统计量p服从正态分布,那么统计量z就近似服从正态分布。?⑶将检验统计量的值与临界值相比较,确定是否应该拒绝原假设。 例:

(一) 双边检验H0:μ=μ0;H1:μ≠μ0在假设的双边检验中,如果检验统计量的数值过大或过小,都将否定原假设。否定域位于正态分布曲线两边,在显著性水平?条件下,每个尾部的面积分别?为,临界值为Z?和?Z?。当检验统计量的数值Z?Z?时,就否定原假设H0;2222Z?Z?时,认为差异不显著,就接受原假设,见图:2?21???2?Z?(临界值)否定域2Z?(临界值)2接受域否定域 例某种产品的直径为6cm时,产品为合格,现随机抽取100件作为样本进行检查,得知样本平均值为6.1cm,现假设标准差为0.2cm,令α=0.05,检验这批产品是否合格。解: H0:??6cm;H1:??6cm方法1:选择检验统计量U?X????6.1?6?50.2n100??0.05时,对应的临界值Z??1.962因为Z?Z?,说明样本平均数和总体平均数存在显著差异,2因此这批产品不合格。(即有95%的可靠程度否定原假设)

方法2:如果求出的区间包含?,就不否定原假设HO,??的95%的区间为:X?1.96??n?6.1?1.96?0.2100即: (6.06 , 6.14)???6未包含在该区间内,所以该批产品不合格。 (二) 单边检验在单边检验中,如H1:???0,则为左边检验; 如H1:???0,则为右边检验,见下图:右边检验1??Z?接受域否定域否定域左边检验??1???Z?接受域当??0.05时,Z??1.645, ?Z???1.645因为正态分布是双边的,当单边检验时,取2??0.1,再查得临界值 Z??1.645, ?Z???1.645 例1根据过去学校的记录,学生的统计学考试的平均分数为65分,标准差为16分。现在学校改革了教学方法,经抽取64名学生作调查,得平均分数为69分,问平均分数有无显著提高?(α=0.05)解: H0:??65分;H1:??65分Z?X??69?65??2?16n64??0.05时,Z??1.645因为Z?Z?,检验统计量的数值落在否定域内,否定原假设,说明样本平均数69分与总体平均数65分存在显著差异,即新的教学方法提高了学生的成绩。(右边检验) 例2某工厂生产瓶装1千克的某饮料,标准差为0.02千克,现随机抽取36瓶进行检验,得平均重量为0.9962千克,问能否相信该厂生产的饮料每瓶重量为1千克。(α=0.05)解: H0:??1千克;H1:??1千克Z?X??0.9962?1???1.14?0.02n36??0.05时,?Z???1.645因为Z??1.645,所以认为抽样平均数x?0.9962千克与总体平均数无显著差异,可以相信该厂生产的某饮料平均重量为1千克。(左边检验)

区间估计与假设检验的关系

一、区间估计与假设检验的关系1、区别:区间估计是依据样本资料估计总体的未知参数的可能范围;假设检验是根据样本资料来检验对总体参数的先验假设是否成立。区间估计通常求得的是以样本为中心的双侧置信区间;假设检验不仅有双侧检验也有单侧检验。 区间估计立足于大概率,通常以较大的把握程度(可信度)1-?去估计总体参数的置信区间;假设检验立足于小概率,通常是给定很小的显著性水平?去检验对总体参数的先验假设是否成立。2、联系都是根据样本信息对总体参数进行推断;都是以抽样分布为理论依据;都是建立在概率基础上的推断,推断结果都有风险;对同一问题的参数进行推断,使用同一样本、同一统计量、同一分布,因而二者可以相互转换。 一、方差分析的内容方差分析主要用来对多个总体均值是否相等作出假设检验。例5:某饮料制造商生产一种新型饮料,共有四种颜色:(1)橘黄、(2)粉红、(3)绿色、(4)无色。该制造商想知道颜色是否对销售量有显著影响,随机抽取了5家超市前一期的销售量(表4.1)进行分析。

二、方差分析的假设1、相关术语因素:是一个独立的变量,是方差分析的研究对象(例5中的饮料颜色);水平:因素中的内容(例5中饮料的四种颜色:无色、粉色、橘黄色、绿色)单因素方差分析:只针对一个因素进行分析;多因素方差分析:同时针对多个因素进行分析。

2、进行方差分析必须满足如下假设(1)每个总体的相应变量(因素)服从正态分布(2)所有总体相应变量(因素)的方差相等?2(3)不同观察值(水平)相互独立(每个样本点的取值不影响其他样本点的取值)

进一步的理解:观察值之间的差异来自两个方面:某因素不同水平的影响(系统性影响)水平间方差(组间方差)其他随机因素的影响(随机性影响)水平内方差(组内方差)如果原假设成立:说明某因素不同水平的影响不显著(无系统性影响),只剩下随机性影响,因此组间方差与组内方差差别不大,它们的比接近于1。如果原假设不成立:说明某因素不同水平的影响显著(存在系统性影响),组间方差与组内方差差别较大,它们的比远超出1。F?组间方差组内方差 第五节单因素方差分析与多因素方差分析一、单因素方差分析(一)离差平方和的计算方差分析需考察某因素的影响是否具有系统性,因此,需要将样本总体离差分解为两部分:(1)反映系统性影响(因素水平影响)的组间离差;(2)反映随机性影响(其他随机因素影响)的组内离差。

设xij=第j个子样本中第i个观测值;nj=第j个子样本的样本容量xj??xijnj=第j个子样本的样本均值i?1njx???xijn=全体子样本合并的大样本的样本均值j?1i?1rnj其中,n=n1+n2+…+nrr为子样本个数于是,大样本的总离差平方和(Sum of Squares for Total,SST)为:SST???(xij?x)2j?1i?1rnj 设xij=第j个子样本中第i个观测值;nj=第j个子样本的样本容量xj??xijnj=第j个子样本的样本均值i?1njx???xijn=全体子样本合并的大样本的样本均值j?1i?1rnj其中,n=n1+n2+…+nrr为子样本个数于是,大样本的总离差平方和(Sum of Squares for Total,SST)为:SST???(xij?x)2j?1i?1rnj

本文来源:https://www.bwwdw.com/article/iefo.html

Top