《统计学原理》教案

更新时间:2024-02-28 10:29:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

统计学原理教案 第一章 总论

一、社会经济统计的研究对象 1、统计的涵义

统计一词在不同的场合可以有不同的涵义。统计有时指统计工作,即统计实践活动,是对社会经济现象的数量方面进行搜集、整理和分析的全过程;统计有时指统计资料,即通过统计工作过程所取得各项数据资料和与之相关的其他实际资料;统计有时指统计科学,即关于认识客观现象数量特征和数量关系的原理原则和方式方法的科学。

统计的三种涵义是密切联系的。统计工作和统计资料是统计活动和统计成果的关系,统计学和统计工作是理论和实践的关系。 2、社会经济统计学的研究对象

社会经济统计学的研究对象是社会经济现象总体的数量特征和数量关系,通过这些数量方面的研究反映社会经济现象发展变化的规律性。统计学和统计工作是理论和实践的关系,它们所要认识的研究对象是一致的。 3.社会经济统计学研究对象的特点可概括为: 社会性;总体性;变异性。 二、统计工作过程及统计研究方法 1、统计工作过程

统计工作过程所包括的环节有统计设计、统计调查、统计整理、统计分析、统计资料的提供与开发。 2、统计研究方法

统计研究方法有大量观察法、统计分组法、综合指标法、统计模型法、归纳推断法。

三、国家统计的职能

国家统计兼有信息职能、咨询职能、监督职能等三种职能。 四、统计学的几个基本概念及相互关系

1、统计总体与总体单位

统计总体是根据统计研究的任务目的所确定的研究事物的全体,是客观存在的具有共同性质的个体所构成的整体。

构成统计总体的个体单位称总体单位。

在一次特定范围、目的的统计研究中,统计总体与总体单位是不容混淆的,二者的含义是确切的,是包含与被包含的关系。但是随着统计研究任务、目的及范围的变化,统计总体和总体单位可以相互转化。

统计总体同时具有大量性、同质性、变异性等特点。大量性是指构成总体的总体单位数要足够的多,总体应由大量的总体单位所构成,大量性是对统计总体的基本要求;同质性是指总体中各单位至少有一个或一个以上不变标志,即至少有一个具有某一共同标志表现的标志,使它们可以结合起来构成总体,同质性是构成统计总体的前提条件;变异性就是指总体中各单位至少有一个或一个以上变异标志,即至少有一个不同标志表现的标志,作为所要研究问题的对象。变异性是统计研究的重点。 2、标志与标志表现

标志是说明总体单位所共同具有的属性和特征的名称。标志有品质标志和数量标志之分。品质标志说明总体单位的属性特征,无法量化,如职工的性别、文化程度,企业的经济成份,产品品牌等。数量标志说明总体单位的数量特征,能够量化,如职工的工龄、工资水平,企业的职工数、总产值、总产量、劳动生产率等。

总体单位与统计标志是有区别的。总体单位是统计标志的直接承担者,是载体;统计标志依附于总体单位并说明总体单位的属性和特征。依附于某个总体单位的标志可以有多个。

标志表现即标志特征在各单位的具体表现。如果说标志是统计所要调查的项目,那么标志表现是调查所得结果,标志的实际体现。

标志表现有品质标志表现和数量标志表现之分。品质标志表现只能用文字表述,因此不能转化为统计指标,但对其对应的单位进行总计时就形成统计指标。数量标志表现是一具体数值,也称标志值。

就一个品质标志或数量标志而言,其具体表现可能多种多样,不能将标志与标志表现混为一谈。如对三个工人的月工资计算平均数,只能说是对三个标志表现或三个标志值(变量值)计算平均数,不能说对三个数量标志计算平均数,因为数量标志只有一个,即工人“月工资”。 3、变异与变量

如果某一标志的具体表现在总体各单位相同,则称该标志为不变标志;如果某一标志的具体表现在各单位不尽相同,则称该标志为可变标志。可变标志的标志表现由一种状态变到另一种状态,统计上把这种现象或过程称变异。变异是一种普遍现象,有变异才有必要进行统计。

变异有属性变异和数量变异之分。属性变异表明质的差别,数量变异表明量的差别。

不变的数量标志称常量或参数。

可变的数量标志和所有的统计指标称变量。变量的数值表现称变量值,即标志值或指标值。

变量按其数值是否连续可分为连续性变量和离散性变量。连续性变量的数值是连续不断的,任意两个变量值之间可以做无数种分割,如工业总产值、商品销售额、身高、体重等,既可用小数表示,也可用整数表示;离散变量的取值可以按一定次序一一列举,如工厂数、工人数、机器台数等,变量值通常用整数表示。

4、统计指标和指标体系

统计指标是反映社会经济现象总体综合数量特征的科学概念或范畴。 正确理解统计指标时应注意:①统计指标反映现象总体的数量特征;②一个完整的统计指标应该由总体范围、时间、地点、指标数值和数值单位等内容构成。 统计指标和统计标志是一对既有明显区别又有密切联系的概念。二者的主要区别是:

① 指标是说明总体特征的,标志是说明总体单位特征的;

② 指标具有可量性,无论是数量指标还是质量指标,都能用数值表示,而标志不一定。数量标志具有可量性,品质标志不具有可量性。

标志和指标的主要联系表现在: ① 指标值往往由数量标志值汇总而来;

② 在一定条件下,数量标志和指标存在着变换关系。

统计指标按其反映的数量特点不同可分为数量指标和质量指标。

数量指标是反映现象总规模水平或工作总量的指标,也称总量指标,一般通过数量标志值直接汇总而来,用绝对数表示,指标数值均有单位;质量指标是反映现象总体相对水平或工作质量的统计指标,又分为相对指标和平均指标,分别用相对数和平均数表示,它们通常是由两个总量指标对比派生出来的,

反映现象之间内在联系和对比关系。

数量指标和质量指标的关系表现在:数量指标是计算质量指标的基础,质量指标往往是相应的数量指标进行对比的结果。

统计指标体系是各种互相联系的指标群构成的整体,用以说明所研究的社会经济现象各方面互相依从和互相制约的关系。一个指标的作用总是有限的,它只能反映现象总体的某一侧面,只有使用指标体系才能反映现象总体全貌。 统计指标体系大体上可分为基本统计指标体系和专题统计指标体系两大类。

第二章 统计调查 一、统计调查的基本任务和要求 1、统计调查

统计调查是按照预定的统计任务,运用科学的方法,有组织有计划地向客观实际搜集资料的过程。统计调查既是对现象总体认识的开始,也是进行资料整理和分析的基础环节。 2、统计调查的基本任务

统计调查既是对现象总体认识的开始,也是进行资料整理和分析的基础环节。统计调查的基本任务是取得反映社会经济现象总体全部或部分单位以数字资料为主体的信息。 3、统计调查的基本要求

统计调查的基本要求是准确性和及时性,是衡量统计工作质量的重要标志。 二、统计调查方案

统计调查方案是调查工作有计划、有组织、有系统进行的保证。统计调查方案应确定的内容有:调查目的、调查对象、调查项目、调查表、调查时间和调查时限、调查的组织工作。 1、调查目的

确定调查目的是任何一项统计调查方案首先要解决的问题。不同的调查目的需要不同的调查资料,不同的调查资料又有不同的搜集方法。调查目的明确了,搜集资料的范围和方法也就确定下来了。 2、调查对象

调查对象即统计总体,是根据调查目的所确定的研究事物的全体。统计总体这一概念在统计调查阶段称调查对象。

在确定调查对象时,还必须确定调查单位和报告单位。调查单位也就是总体单位,它是调查对象的组成要素,即调查对象所包含的具体单位。调查对象和调查单位的概念不是固定不变的,随着调查目的的不同二者可以互相变换。 报告单位也称填报单位,也是调查对象的组成要素。它是提交调查资料的单位,一般是基层企事业组织。

调查单位是调查资料的直接承担者,报告单位是调查资料的提交者,二者有时一致,有时不一致。如工业企业生产经营情况调查,每一工业企业既是调查单位,又是报告单位;工业企业职工收入状况调查,每一职工是调查单位,每一工业企业是报告单位。 3、调查项目

调查项目即依附于调查单位(总体单位)的统计标志,其标志表现就是统计调查所得的资料。

确定调查项目时,首先应注意所选择的项目能够取得确切资料,其次注意所选择的项目应有确切的涵义和统一解释,另外要注意各项目之间的联系和衔接,便于核对和分析。 4、调查表

调查表是用来表现调查项目的表格,其目的是保证统计资料的规范化和标准化。

调查表有单一表和一览表两种形式。单一表是一个调查单位填写一份表格,可以容纳较多的项目。一览表是许多调查单位共同填写一份表格,在调查项目不多时较为简便,且便于合计和核对差错。为了正确填写调查表,须附有填表说明和项目解释。 5、调查时间和时限

调查时间指调查资料所属时间。如果调查的是时期现象,调查时间是资料所反映的起讫时间;如果调查的是时点现象,调查时间是统一规定的标准时点。调查时限是进行调查工作的期限,包括搜集资料和报送资料的整个工作所需要的时间。如某管理局要求所属企业在1996年1月底上报95年工业总产值资料,则调

③统计分组按分组标志的性质分为品质分组和变量分组。品质分组是将总体按品质标志进行分组,如企业按经济成份、地理位置分组,职工按性别、文化程度分组等;变量分组是将总体按数量标志进行分组,如企业按职工人数、劳动生产率分组,职工按工龄、工资分组等。 3、分组体系与分组标志的选择 ①分组体系

统计分组后所形成的一系列互相联系、互相补充的组的整体称分组体系。分组体系有平行分组体系和复合分组体系两种。平行分组体系是选择两个或两个以上的标志对总体进行一次次简单分组后所形成的体系;复合分组体系就是复合分组后形成的体系。 ②分组标志的选择

分组标志的选择是统计分组的关键。分组标志,即将同质总体区分为不同组的标准或依据。分组标志一旦选定,就必然突出了总体在该标志下的性质差别,其他的差别看不见了。分组标志选择不当,不但无法显示现象的根本特征,甚至会混淆事物的性质,歪曲社会经济的真实情况。

正确选择分组标志,必须根据统计研究的任务目的,抓住反映现象本质区别和内在联系的标志作为分组标志。 4、统计分组的方法 (1)品质标志分组方法

品质标志分组一般较简单,分组标志一旦确定,组数、组名、组与组之间的界限也就确定。有些复杂的品质标志分组可根据统一规定的划分标准和分类目录进行。

(2)数量标质分组方法

按数量标志分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上的变化来区分各组的不同类型和性质。数量标志分组方法从以下几个方面来说明:

①单项式分组和组距式分组

对离散变量,如果变量值的变动幅度小,就可以一个变量值对应一组,称单项式分组。如居民家庭按儿童数或人口数分组,均可采用单项式分组。 离散变量如果变量值的变动幅度很大,变量值的个数很多,则把整个变量值依次划分为几个区间,各个变量值则按其大小确定所归并的区间,区间的距离称为组距,这样的分组称为组距式分组。

也就是说,离散变量根据情况既可用单项式分组,也可用组距式分组。在组距式分组中,相邻组既可以有确定的上下限,也可将相邻组的组限重叠。 连续变量由于不能一一列举其变量值,只能采用组距式的分组方式,且相邻的组限必须重叠。如以总产值、商品销售额、劳动生产率、工资等为标志进行分组,就只能是相邻组限重叠的组距式分组。

在相邻组组限重叠的组距式分组中,若某单位的标志值正好等于相邻两组的上下限的数值时,一般把此值归并到作为下限的那一组(适用于连续变量和离散变量)。

组距式分组使资料的真实性受到一定程度的损害。组距式分组的假定条件是:变量在各组内的分布都是均匀的(即各组标志值呈线性变化)。

通过组距式分组以后,把各组内部各单位的次要差异抽象去了,而把各组之间的主要差异突出出来,这样,各组分配的规律性可以更容易显示出来。根据这个道理,如组距太小,分组过细,容易将属于同类的单位划分到不同的组,因而显示不出现象类型的特点;但如果组距太大,组数太少,会把不同性质的单位归并到同一组中,失去区分事物的界限,达不到正确反映客观事实的目的。因此,组距的大小、组数的确定应根据研究对象的经济内容和标志值的分散程度等因素,不可强求一致。 ②等距分组和不等距分组

等距分组是各组保持相等的组距,也就是说各组标志值的变动都限于相同的范围。不等距分组即各组组距不相等的分组。

统计分组时采用等距分组还是不等距分组,取决于研究对象的性质特点。在标志值变动比较均匀的情况下宜采用等距分组。等距分组便于各组单位数和标志值直接比较,也便于计算各项综合指标。在标志值变动很不均匀的情况下宜采用不等距分组。不等距分组有时更能说明现象的本质特征。 ③组限和组中值

组距两端的数值称组限。其中,每组的起点数值称为下限,每组的终点数值称为上限。上限和下限的差称组距,表示各组标志值变动的范围。

各组标志值的平均数,各组标志数的平均数在统计分组后很难计算出来,就常以组中值近似代替。组中值仅存在于组距式分组数列中,单项式分组中不存在组中值。

组中值的计算是有假定条件的,即假定各组标志值的变化是均匀的(与组距式分组的假定条件相同)。一般情况下,组中值=(上限+下限)÷2

对于第一组是 “多少以下”,最后一组是“多少以上”的开口组,组中值的计算可参照邻组的组距来决定。即:缺下限开口组组中值=上限—1/2邻组组距,缺上限开口组组中值=下限+1/2邻组组距。 三、统计分布(分配数列) 1、分配数列的概念、构成要素

在统计分组的基础上,列出各组对应的单位数,形成总体单位数在各个组的分布,称统计分布,又称分配数列或次数分布。分配数列包括两个要素:总体按某标志所分的组和各组对应的单位数(频数) 2、分配数列的类型

分配数列包括品质分配数列和变量分配数列,分别由品质标志分组和数量标志分组形成。变量数列又有单项式数列和组距式数列,分别由单项式分组和组距式分组形成。 3、频数和频率

统计分组后各组对应的单位数称频数,也叫次数;各组单位数占总体单位总数的比重称频率。各组的频率大于0,所有组的频率总和等于1。

在变量分配数列中,频数(频率)表明对应组标志值的作用程度。频数(频率)数值越大表明该组标志值对于总体水平所起的作用也越大,反之,频数(频率)数值越小,表明该组标志值对于总体水平所起的作用越小。

组距数列中,影响各组次数分布的要素是组数、组距、组限和组中值。

有时为了更简便地概括总体各单位的分布特征,还需要编制累计频数数列和累计频率数列。累计有向上累计和向下累计的方法。向上累计是指将各组频数和频率由变量值低的组向变量值高的组累计,表明在这些数值以下所有数值所占的比重;向下累计是指将各组频数和频率由变量值高的组向变量值低的组累计,表明在这些数值以上所有数值所占的比重。(分布数列) 组别 … … … 各组单位数 (频数或次数) … … 比重(%) (频率) … … 品 质 数 列 — 按品质标志分组形成的分配数列

变 量 数 列 — 按数量标志分组形成的分配数列 变量数列的编制步骤 (1) 将原始资料顺序排序,确定变量值的变动范围;

(2) (3)

(4)

例如:

确定组数、组 距、组 限;

汇总,计算各组单位数,各组单位数所占比重, 以及各组的累计频数和累计频率等; 编制统计表

某班级40名学生学习成绩分组资料 按成绩分组 学生人数 比重(%) 60以下 3 7.5 60-70 6 15.0 70-80 15 37.5 80-90 12 30.0 90-100 4 10.0 合计 40 100 例如:某车间40名工人完成生产计划百分数资料: 90,65,100,102,100,104,112,120,124,98, 110,110,120,120,114,100,109,119,123,107, 110,99,132,135,107,107,109,102,102,101, 110,109,107,103,103,102,102,102,104,104 按完成计划百分数分组(%) 90以下 90-100 100-110 110-120 120-130 130-140 合计 工人数 1 3 22 7 5 2 40 比重(%) 2.5 7.5 55.0 17.5 12.5 5.0 100 按完成计划百分数分组(%) 90以下 90-100 100-110 110-120 120-130 130-140 合计

进行向下累计。

向上累计工人数 1 4 26 33 38 40 —— 向上累计比重(%) 2.5 10 65 82.5 95 100 —— 按完成计划百分数分组(%) 向下累计工人数

向下累计比重(%)

90以下 90-100 100-110 110-120 120-130 130-140 合计

4、次数分布特征

40 39 36 14 7 2 —— 100 97.5 90 35 17.5 5 —— 现象总体的性质不同,其次数分布也不同。归纳起来主要有四种类型: ①钟型分布 特征是“两头大,中间小”,即靠近中间的变量值分布的次数多,靠近两边的变量分布次数少,形若古钟。

②U型分布 其特征与钟型分布正相反,靠近中间的变量值分布的次数少,靠近两端的变量值分布次数多,形成“两头大,中间小”的U字型分布。如人口死亡现象按年龄分布便是如此。

③J型分布 在社会经济现象中,一些统计总体分布曲线呈J型。 ④洛伦兹分布 洛伦兹曲线专门用以检定社会收入分配的平等程度。洛伦兹曲线拓展可运用于其他社会经济现象,研究总体各单位标志分布集中状况或平均性。洛伦兹曲线又称集中曲线,其运作的条件是:现象总体各组频率与相应的各组标志总量的比重。

5、变量分配数列编制的步骤(3,3,5) ①将原始资料按其数值大小重新排列

只有把得到的原始资料按其数值大小重新排列顺序,才能看出变量分布的集中趋势和特点,为确定全距、组距和组数作准备。 ②确定全距

全距是变量值中最大值和最小值的差数。确定全距,主要是确定变量值的变动范围和变动幅度。如果是变动幅度不大的离散变量,即可编制单项式变量数列,如果是变量幅度较大的离散变量或者是连续变量,就要编制组距式变量数列。 ③确定组距和组数

前面已经介绍过组距数列有等距和不等距之分,应视研究对象的特点和研究目的而定。

组距的大小和组数的多少,是互为条件和互相制约的。当全距一定时,组距大,组数就少;组距小,组数就多。在实际应用中,组距应是整数,最好是5或10的整倍数。在确定组距时,必须考虑原始资料的分布状况和集中程度,注意组距的同质性,尤其是对带有根本性的质量界限,绝不能混淆,否则就失去分组的意义。

在等距分组条件下,存在以下关系: 组数=全距/组距 ④确定组限

组限要根据变量的性质来确定。如果变量值相对集中,无特大或特小的极端数值时,则采用闭口式,使最小组和最大组也都有下限和上限;反之,如果变量值相对比较分散,则采用开口式,使最小组只有上限(用“XX以下”表示),最大组只有下限(用“XX以上表示)。如果是离散型变量,可根据具体情况采用不重叠组限或重叠组限的表示方法,而连续型变量则只能用重叠组限来表示。 在采用闭口式时,应做到最小组的下限低于最小变量值,最大组的上限高于最大变量值,但不要过于悬殊。 ⑤编制变量数列

经过统计分组,明确了全距、组距、组数和组限及组限表示方法以后,就可以把变量值归类排列,最后把各组单位数经综合后填入相应的各组次数栏中。 四、统计表

1、统计表的概念、构成

统计表是纵横交叉的线条所绘制表现统计资料的一种表格形式。广义统计表包括统计工作各阶段所使用的一切表格。

从形式上看,统计表是由总标题,横行标题、纵栏标题和指标数值四部分组成;从内容上看,统计表是由主词和宾词两部分构成。主词是统计表要说明的总体或总体分成的多个组,宾词是说明主词的统计指标。 2、统计表的种类

统计表根据主词是否分组及分组情况分为简单表、简单分组表和复合分组表;统计表按作用不同分为调查表、汇总表和分析表。

表标题

横 行 标 题

统计表的类型: 简单表(不分组) 简单分组表 复合分组表 统计表的设计及填写要规范 1、 各项标题应简明确切; 2、 内容应简明扼要;

3、 各栏目按逻辑顺序依次排列,可编号; 4、 左右开口,同一栏数字对齐; 5、 缺数字用· · ·,不存在数据用——; 6、 注明计量单位;

7、 需要时注明资料来源。 等等。 四、统计图 用统计图可以更直观、更形象地表示统计资料。常用的统计图有直方图、折线图、曲线图、饼图等,有平面图,也有立体图。

100806040200第一季度第三季度东部西部北部 纵栏标题 指标数值 直方图

100806040200东部西部北部度度度季季季一二三第第第第四季度折线图

第一季度第二季度第三季度第四季度饼图

100806040200第一季度第三季度东部西部北部柱形图

1008060402000246东部西部北部曲线图

100806040200东部西部北部第一季度第二季度第三季度第四季度直方图

100?`@ %0%北部西部东部第一季度第二季度第三季度第四季度直方图

第四章 综 合 指 标

一、总量指标

1、总量指标的概念 总量指标又称统计绝对数,它是反映社会经济现象发展的总规模、总水平的综合指标。

2、总量指标的种类 总量指标的种类有以下几种划分方法:

按其反映总体内容的不同,分为总体单位总量和总体标志总量,前者是总体内所有单位的总数,后者是总体中各单位标志值的总和。总体单位是标志的直接承担者,标志总量不会独立于单位总量而存在。在一个特定的总体内,只存在一个单位总量,而同时并存多个标志总量,构成一个总量指标体系。同一总量指标在不同情况下可有不同的性质。例如对各企业工人总数指标来说,当研究企业平均规模时,以企业为总体单位,企业总数为单位总量,各企业工人总数为标志总量;当研究企业劳动效益时,以工人为总体单位,各企业工人总数为单位总量,这时企业的总产量成为标志总量。所以说总体单位总量和总体标志总量并不是固定不变的,二者随研究目的不同而变化。

按其反映时间状况的不同,分为时期指标和时点指标。时期指标是反映某种社会经济现象在一段时间发展变化结果的总量指标;时点指标是反映社会经济现象在某一时间(瞬间)状况上的总量指标。

按其所采用计量单位的不同分为实物指标、价值指标和劳动量指标。实物指标是以实物单位计量的统计指标;价值指标是以货币单位计量的统计指标;按实物单位计算的指标最大的特点是它直接反映产品的使用价值或现象的具体内容,能具体表明事物的规模和水平,但指标的综合性能较差,无法进行汇总。按价值单位计量的最大优点是它具有最广泛的综合性和概括能力,可以表示现象的总规模和总水平,但它脱离了物质内容。二者要结合应用。劳动量指标是以劳动单位即工日、工时等劳动时间计量的统计指标。

3、总量指标的作用 总量指标的作用表现在以下几方面:(1) 总量指标是对社会经济现象总体认识的起点。(2) 总量指标是编制计划,实行经营管理的主要依据。(3)总 量指标是计算相对指标和平均指标的基础。

二、相对指标

1、相对指标的概念和表现形式 相对指标又称统计相对数。它是两个有联系的现象数值的比率,用以反映现象的发展程度、结构、强度、普遍程度或比例关系。在统计分析中运用相对指标,可使我们能够更清楚地认识现象之间的关系,可以使不能直接对比的现象找到可以对比的基础。相对指标就是应用对比的方法,来反映社会经济现象中某些相关事物间数量联系程度的综合指标,其表现形式为相对数。相对指标可以反映现象之间的相互联系程度,说明总体现象的质量,

准差和变异系数。

全距是测定标志变异程度的最简单的指标,它是标志的最大值和最小值之差,反映总体标志值的变动范围。用公式表示为:

全距=最大标志值-最小标志值

从计算可知,全距仅取决于两个极端数值,不能全面反映总体各单位标志值变异的程度,也不能拿来评价平均指标的代表性。

平均差是各单位标志值对其算术平均数的离差绝对值的算术平均数,反映的是各标志值对其平均数的平均差异程度。其计算方法有简单和加权两种形式。 标准差是总体中各单位标志值与算术平均数的离差平方的算术平均数的平方根,又称为均方差。它是测定标志变动程度的最主要的指标。标准差的实质与平均差基本相同,只是在数学处理方法上与平均差不同,平均差是用取绝对值的方法消除离差的正负号然后用算术平均的方法求出平均离差;而标准差是用平方的方法消除离差的正负号,然后对离差的平方计算算术平均数,并开方求出标准差。标准差的计算也有简单和加权两种形式,计算公式如下:

σ=; σ=

变异系数是以相对数形式表示的变异指标。它是通过变异指标中的全距、平均差或标准差与平均数对比得到的。常用的是标准差系数。变异系数的应用条件是:当所对比的两个数列的水平高低不同时,就不能采用全距、平均差或标准差进行对比分析,因为它们都是绝对指标,其数值的大小不仅受各单位标志值差异程度的影响,而且受到总体单位标志值本身水平高低的影响;为了对比分析不同水平的变量数列之间标志值的变异程度,就必须消除数列水平高低的影响,这时就要计算变异系数。

变异系数反映的是单位平均水平下标志值的离散程度,因而通过计算变异系数为水平高低不同的两个数列提供了对比的基础。标准差系数的计算方法如下

例3、两种不同水稻品种,分别在5个田块上试种,其产量如下:

甲 品 种 田块面积(亩) 产 量 (公斤) 乙 品 种 田块面积(亩) 产 量 (公斤) 1.2 1.1 1.0 0.9 0.8 600 495 445 540 420 1.5 1.4 1.2 1.0 0.9 840 770 540 520 450 要求:假定生产条件相同,确定哪一品种具有较大稳定性,宜于推广。 解:

甲 品 种 X 500 450 445 600 525 合计 注:

f 1.2 1.1 1.0 0.9 0.8 xf 600 495 445 540 420 — -50 -55 100 25 — 2750 3025 9000 500 x f 1.5 1.4 1.0 1.2 0.9 乙 品 种 xf 840 770 520 540 450 40 30 — -70 -20 2400 1260 — 5880 360 9900 5.0 2500 — 560 550 520 450 500 合15275 计 6.0 3120 —

⑶因V乙

故乙品种具有较大稳定性,宜于推广。

第五章 抽样推断

教学目的和要求:

通过本章学习,要对抽样推断的特点、作用及一些基本概念有正确的理解。掌握抽样推断的抽样平均误差、极限误差的计算方法。在此基础上,能运用抽样推断的一般原理,对全及总体的指标值作出具有一定概率保证程度的推断,并能正确进行相应的假设检验。

统计是研究总体的,总体中包含若干个总体单位。但在很多情况下我们不可能或没有必要对总体中包含的所有单位进行观察。例如,城乡居民家庭收支情况、森林木材蓄积量、某些产品的性能和使用寿命检验等。因此只能在了解部分单位情况的基础上对总体进行统计推断。

所谓统计推断是按随机原则从总体中抽取部分单位作为样本,利用样本资料所提供的信息对总体数量规律做出科学推论的一种统计分析方法。根据统计推断所研究问题的侧重点不同,具体分为参数估计(Parameter estimation)和假设检验(Hypothesis testing)。参数估计是在未知总体数量特征情况下,根据样本数据对总体数量特征做出科学的估计;假设检验是根据样本数据对事先为总体数量特征做出的某种假设进行验证,来判断这种假定的真伪。参数估计和假设检验所依据的基本理论是相同的,即都是抽样分布理论。

第一节 抽样分布中的几个基本概念

一、总体与样本

总体(Population)是研究对象的全体,它是由许多具有某种相同性质的个体单位组成的,总体中所包含的单位数用N表示。总体各单位的标志值用X1,X2,X3,?,XN表示。在统计推断中,总体又分为目标总体和抽样总体。目标总体是统计推断所要估计的总体;而被抽样总体是直接从中抽取样本单位的总体,又称为作业总体。两者有时是一致的,有时是不一致的。例如,对某种待出厂的产品进行质量检验,目标总体和被抽样总体都是该种产品的全部;而对我国某种产品在国际市场上的销售情况进行研究,目标总体是在国际市场销售该种商品的全部,被抽样总体只能是在指定地点和时间条件下销售的该种商品,目标总体和作业总体是不一致的。这种情况下,要特别注意作业总体的确定,作业总体确定的基础原则就是从作业总体中抽取的样本能基本上反映目标总体的情况。

样本(Sample)是从总体中随机抽取的n个单位组成的集合体,对这n个某项标志进行观察所得的数据(x1,x2,?,xn)称为样本观察值。从总体中抽

取样本要采取一定抽样组织方式,主要有简单随计抽样、系统抽样、分层抽样和整群抽样等。其中简单随机抽样是最基本的,但这种方式的使用往往是建立在其他几种方式的基础之上。简单随机抽样一般适用于总体单位数较少、情况较简单的现象;而对于总体单位数较多、情况较复杂的现象,就需要采用其他几种抽样组织方式特别是一些社会经济问题的研究。关于抽样组织方式我们要在本章的第四节介绍。在确定了抽样组织方式基础上,还有一个抽样方法即重复抽样和不重复抽样的问题。

作为统计推断对象的总体是确定的,惟一的;而作为观察对象的样本,是不确定的,随机的。

二、总体参数与样本统计量 总体的数量特征就是总体参数,简称参数,因为总体是确定的、惟一的,所以参数也是惟一的、确定的,而且在抽样推断前是未知的,例如,总体平均数、总体比率、总体方差等。样本统计量是样本的数量特征,是根据样本构造出的,统计量是样本的函数,所以统计量也是随机的。与总体参数相对应,常使用的样本统计量有;样本平均数、样本比率、样本方差等。

三、样本容量与样本个数

样本容量是样本中所包含的单位数,一般用n表示,当n﹥30时称为大样本,当n≤30时称为小样本。某些情况下,样本容量不同,其抽样分布也不同。样本个数的多少与样本容量、抽样方法和抽样组织方式等因素有关。

四、抽样方法

样本有三种,即方便样本、判断样本和随机样本。在此讨论的抽样方法是指随机样本的抽取方法。根据从总体中随机抽取某一单位后是否将其放回到总体中去参加下一次抽取,抽样方法可分为重置抽样和不重置抽样。若放回,就是重置抽样;若不放回,就称为不重置抽样。重置抽样的特点是:n个单位的样本是由n次连续抽取的结果构成的;每次抽取的结果与前一次和后一次的结果无关,即每一次抽取都是相互独立的;每次抽取中被抽中的机会是均等的。因此,重置抽样下每次抽取都是在总体N个单位中进行的,同一单位有重复被抽取的可能。不重置抽样的特点是:n个单位的样本是由n次连续抽取构成的,但由于每次抽取不重复,因此相当于从总体中同时抽取n个单位样本;每次抽取的结果是不独立的,上一次抽取的结果影响下一次的抽取;每个单位在每次抽取时中选机会是均等,但在不同次抽取中中选机会是不均等的。因此,不重置抽样每次抽取都是在(N-m)个单位中进行的,其中m是已经抽取的单位数,这样同一个单位就没有重复中选的可能。很显然,在样本容量相同情况下,重置抽样的样本个数多于不重置抽样的样本个数,而不重置抽样的样本代表性高于重置抽样。

另外,根据从总体中抽取的n个样本单位的方法,按照是否考虑中选顺序可以分为考虑顺序抽样和不考虑顺序抽样。考虑顺序抽样是指从总体中抽取n个样本单位构成样本,不仅要考虑样本各个单位的不同性质,还要考虑各单位的中选顺序。相同性质单位构成的样本,由于中选的先后顺序不同,就作为不同的样本。不考虑顺序抽样,只考虑样本的组成单位性质如何,而不考虑单位中选的先后顺序,只要样本单位性质相同,各个单位中选顺序不同,也视为一个样本。

在社会经济现象和企业管理问题研究中,常使用的是不考虑顺序的不重置抽样。

第二节 抽样分布

抽样分布就是样本统计量的概率分布。所谓样本统计量是指样本指标,它是定义在一个样本空间上的样本随机变量的函数。一个样本可以构造出去多统计量,如样本平均数、样本成数、样本方差等等,根据统计推断的需要而定。而且统计量的观察值是建立在随机抽样的基础上,随着抽到的样本单位不同,其观察值也会有变化,统计量的取值也随之变化,所以统计量本身也是随机变量。从同一总体中抽出样本容量相同的所有可能样本后,计算每个样本统计量的取值和相应的概率,就组成样本统计量的概率分布,简称抽样分布。

统计量的取值不但和样本容量有关,而且和抽样方法(试验方法)有关,我们从最简单的情况入手。本节讨论简单随机样本,重置试验的抽样分布和不重置试验的抽样分布。

一、 重置抽样分布 ㈠样本平均数的分布

样本平均数是由总体中全部样本平均数的可能取值和与之相应的概率组成。先举例说明。

某施工班组5个人的日工资为34、38、42、46、50元,则: 总体工人日平均工资

X??xN?34?38?42?46?505?42(元)

总体日工资方差

??X??2?34?42??38?42??46?42??50?42?2?2?2?25?32?元?2

现在用重置抽样的方法从5人中间随机抽2个构成样本,并求样本平均工资来推断总体的平均工资水平。由于是重置抽样,所以第一个单位是从总的5种工资中取第一种,第二单位也是从同一总体的5种中取一种,共有25个样本,各样本的日平均工资如表4-1所示。

表4-1 样本日工资平均数 单位:元

样本变量 34 38 42 46 50 34 34 36 38 40 42 38 36 38 40 42 44 42 38 40 42 44 46 46 40 42 44 46 48 50 42 44 46 48 50 从上表容易看出样本的平均数及其次数,可以整理列出样本平均数的分布表以及图示如下:

根据以上资料,可以计算样本日工资平均数的平均数E?x?和样本日工资平均数的方差?2?x?。

本例两者都等于42元,这也表明,用不重置样本平均数来估计总体平均数,从总体来看,所有样本平均数平均数说来是没有离差的。

第二,

抽样平均数的标准差??x?也是放映样本平均数与总体平均数的平

均差程度。即:

E?x?E?x??2?E?x?X? (4.45)

2所以抽样平均数的标准差也可称为抽样平均误差,或抽样标准误差,用?来表示,不重置抽样的抽样平均误差等于重置抽样的抽样平均误差乘以修正因子

N?nN?1,即:

?2 ????x???X??Nn?n??? (4.46) N?1??用各项数字代入上式得: ????x??32?5?2????2?5?1?12?3.464

所得结果与上面按定义计算的完全一致。这说明不重置抽样的平均误差总是小于重置抽样的平均误差,从样本平均数分布来看,样本平均数更集中于总体平均数。但如果总体单位数N很大,修正因子

N?nN?1 接近于1,则两者几乎没

有什么差别,因此在大样本情况下,通常可以用重置抽样误差来代替不重置抽样误差。

以上结论也具有普遍意义,现在加以一般的推导。

设总体变量X:X1,X2,?XN,其平均数为X,标准差为??X?。样本容量为n的变量x:x1,x2,?,xn。

x?x1?x2???xnn

1. 按照平均数的定义: E?x??E? ?1n?x1?x2???xn??n??

?E?x1??E?x2????E?xn??

在不重置抽样条件下,x1,x2,?,xn的抽选不是独立的,现在分别讨论E(x1),

E(x2),?,E(xn)。

E(x1)表示抽第1单位为X1,X2,?,xN的平均数。每单位出现的概率相等,均为1/N。所以: E?x1??N?i?1XiPi?1NN?i?1Xi?X

E(x2)表示抽第2单位为X1,X2,?,XN的平均数。但要第二单位抽中某Xi则必须第一单位不为Xi,所以第1单位不为Xi而第2单位为Xi的概率为: Pi?N?1N?N1N?1?1N

N? E?x2???Xi?1NiPi?1NN?Xi?1i?X依此类推

N?2N?11N?2 E?x3???i?1XiPi??i?1XiN?1N??

?1N?Xi?X

? E?xn??NN?i?1XiPi??i?1XiN?1N?N?2N?1?1N?n?1

?1N?Xi?X

所以 E?x?? ?1n1n?E?x1??E?x2????E?xn??

?X?X???X??1n?nX??2X (4.47)

2. 按照抽样平均误差的定义: ?2?E?(x?Ex)??E?x?X?

2?x1?x2???xnX?X???X??E? ??

nn??2 ? ?1n2Ex1?X?x2?X???xn?X????????2

1?Exi?X2??n?????E?x2i?ji??Xxj?X?

????由于是不重置抽样,样本xi与xj不是独立的,共有n(n-1)项的E(xi-X)(xj-X)≠0,现在分别讨论E(xi-X)2与E(xi-X)(xj-X)。

E?xi?X??2??i?1NPiXi?X?2?1N??Xi?1Ni?X?2??2?X?

E?xi?X??xj?X?? ??P?Xk,Lk?Lk?X??XkL?X?

L?X?N?N?1?k?L1?XX???X

?式中k,L=1,2,?,N,PkL表示第i个被抽中的单位取值为Xk,第j个被抽中的单位取值为XL的概率。其概率等于

又由于

1N?N?1? 。

??Xk?Lk?XX??L?N?X=??X?j?1??j??X???2???Xj?1Nj?X?2

????Xj?X???N?2?X?

2j?1N?

E?xi?X??xj?X???N??X??N?N?1?2??2?X?N?1

代入上式求得:

2? ??1?EXi?X2??n?????E?x2i?Li??Xxj?X?????

1? ?2?n?n?2?X??n?n?1???2? N?1??X?? ??2?X??nn?1???X??N?n?1??? ???N?1nN?1????2? ???2?X??Nn?n??? (4.48) N?1??当总体N很大时,N-1≈N则有 ???2?X??nn??1?? (4.49)

N??㈡样本成数的分布

总体成数P可以表现为是非标志(0,1)分布的平均数,而它的标准差σ也可以从总体成数推出来。即

XP?P ; ?P?P?1?P?

p

从总体N个单位中,用不重置抽样方法取n个单位计算样本成数p,它的分布就是(0,1)样本不重置平均数的分布。即有

E?p??P

?p?P?1?P??N?n??? n?N?1?P?1?P??n??1?? nN?? ?在得布道总体成数P的资料时,也可以用实际样本的抽样成数p来代替。

例如,要估计某地区10000名适龄儿童的入学率,用不重置抽样方法从这个地区抽取400名儿童,检查有320名儿童入学,求样本入学率的平均误差。

根据已知条件:p=320/400=80%

σ2=P(1-P)=80%×20%=16%

1. 在重置抽样下,入学率的抽样平均误差?p为: ?p?P?1?P?n?0.8?0.2400?2%

2. 在不重置抽样下,入学率的抽样平均误差?p为: ?p?P?1?P??n?1????nN??0.16?400?1????1.96% 400?10000?两者相比,抽样平均误差相差甚少。当总体的单位数很大时,不重置抽样

分布也就趋近于重置抽样分布,抽样平均误差就接近一致了。

现在把各种抽样平均误差公式汇编列表如下:

表4—5 抽样平均误差公式汇编

重置抽样 不重置抽样 样本平均数误差

?2?X?n

?2?X??nn?1??? N??样本成数误差

P?1?P?n

P?1?P??n??1?? nN??第三节 正态分布和正态逼近

重置抽样分布和不重置抽样分布都是离散型变量分布,正态分布则是连续型

的变量分布。许多客观现象属于连续型变量,例如农作物亩产量、棉花纤维长度、机械零件尺寸、测量误差等等,都必须用连续型的正态分布来描述其变化规律。在统计推断中正态分布居于特别重要地位,它作为抽样平均数和抽样成数分布的极限式,可以为抽样的概率估计提供简便的方法。

一、 正态分布的密度函数 对于连续变量可以用密度函数来描述其概率分布情况,正态分布的密度函数为:

f?x??1?2?e?x?x??2/2?2

式中x为正态分布的平均数,σ﹥0是它的标准差。这两个参数决定正态分布函数的形状。所以正态分布可以简记为N?x,?2?,其图形如图4—8。

F(x)

0 x-σ x x+σ x

图4—8正态分布图

正态分布密度函数有如下特性:

1. 对称性。即以x?x为对称轴,曲线完全对称地向两边延伸。 2. 非负性。密度函数f(x)都处于ox轴的上方。 3. 当x?x时f?x??1? 为最大值。f(x)的值随x递增而递减。

2?变动平均数x而σ不变,则并不改正态分布的形状,而只改变正态分布的中心位置,如图4—9。

4. 在x??处为密度函数f(x)的拐点,即在x???x?x??的区间里,曲线凸向上。如图4-8。

变动标准差σ而x不变,则并不改变正态分布的中心位置,而只改变分布曲线的尖峭程度,如图4-10。当σ变小时,密度函数曲线的中心部分纵坐标升高,曲线两侧迅速趋于X,表示变量分布比较集中。反之,当σ变大时,则曲线呈现扁平,表示变量分布比较分散。

F(x)

X=-5 0 X=5

图4—9 不同平均数的正态分布

5. 当X→±∞时,密度函数f(x)→0,即曲线向两边下垂,伸向无穷远处。 F(x) σ=0.5 σ=1 σ=2 x 图4—10 不同标准差的正态分布

二、 正态分布函数及其标准化 根据正态分布密度函数f(x)为:

f?x??1?2?e?x?x??2/2?2 (4.50)

可以看出正态分布的函数F(x)为:

x F?x?????f?x?dx?1x?2??e???x?x??22?2dx (4.51)

可以证明作为分布函数的两个基本性质: 第一,

对于任何有x,有 f?x??其二,

11?2?e?x?x??2/2?2?0 (4.52)

??2??e???x?x??2/2?2dx?1 (4.53)

令 t??x?x? , dx?2?2?dt

?12???e???x?x??2/2?2dx?1??12???e??2?t22?dt

???e???tdt?1

正态分布的密度函数和分布函数的图形对比见图4—11和图4—12。 f(x) F(x) 1 0.5 x

x X 图4-11正态密度函数图 图4-12 正态分布函数图

利用正态分布函数可以计算x落在区间(x-a,x+a)之间的概率,即: P?x?a?x?x?a??P?x?x??a ?1x?a?2??x?ae?x?x??2/2?2dx (4.54)

不同现象的随机变量就有不同的平均差和方差,不同的正态分布参数也就有不同的正态分布形式,要利用上述分布函数F(x)对各类不同的正态分布求某点或某区间的概率是很困难的。为此我们需要对各种正态分布加以标准化,使不同的正态分布变换为具有相同参数的标准正态分布。标准正态分布要求:第一,分布的平均数(数学期望)为0:第二,分布的方差为1。现在我们对随机变量x作下列变换使新的随机变量z等于:

z?x?x?

?x?x?E?x??x???0 则 E?z??E????????x?x?x?x???? ?2?z??E??E???????????2?x?x?? ?E??????2 ?1?2Ex?x??2???22?1

所以,标准状态分布的密度函数f(z)为: f?z??12?e?z/22 (4.55)

标准正态分布的分布函数F(z)为: F?z??并简记为N(0,1)。

标准正态分布的几何意义是将分布曲线的中心移到原点,使z?0,并对x?x的离差化为以σ为单位的相对离差,即σ作为新变量z的计量单位。将标准正态

密度函数和标准正态分布函数图形比较如图4—13、图4—14。

f(z) F(z) 1 0.5 Z Z

0 0

图4-13 标准正态密度函数 图4-14 标准正态分布函数

12?z?e???z/22dx (4.56)

在统计推断中,常常需要求解变量离中心±z间的概率,即变量落在(-z,z)

区间的概率,并且考虑到正态分布的对称性,则所要求的概率积分可以给出如下形式:

F?z??P??z?Z?z??P?Z?z??22??ze?z/22dx (4.57)

0这就是标准正态分布概率积分的标准式。由此可知,标准正态分布函数F(z)是z的函数。给定z值就有相应的F(z)。为了应用上的方便,把z从0—5相应的概率编成正态分布概率表,列于本书的附表中,实际工作可以直接查用,不必计算概率积分。

如果所研究的随机变量服从于标准正态分布(0,1),则可以直接查用概率表,从给定的z值查所需的概率,或从给定的概率反查相应的z值。

1. 求Z距中心的绝对值不超过a的概率,如图4-15所示的阴影部分。就

可以从概率表中查出当z=a时,对应的F(a)值。例如: 当: z=0.5,F(0.5)=0.3829

z=1.0,F(1.0)=0.6827

z=2.0,F(2.0)=0.9545 等。

f(z) Z -a 0 a

图4-15 正态分布图

2. 给定F(z),求z距中心的绝对值a。例如 给定: F(z)=0.1585, z=0.2 F(z)=0.8030, z=1.29

F(z)=0.9973, z=3.0 等。 如果所研究的随机变量服从于一般态度分布N?x,?2?,要估计变量x与平均

数x的离差绝对值不大于某数a的概率,或变量x落于?x?a,x?a?区间的概率。根据正态分布标准化的要求,第一步将x变换为新变量z,使 z?二步将区间?x?a,x?a?相应变换为????aa?? ??x?x? :第

?, 即(-z,z),然后根据标准正态分

布函数计算新区间的概率。

【例4-7】某农场的小麦亩产量服从正态分布,已知平均亩产为550公斤,标准差为50公斤,求亩产在525~575公斤间所占的比例。

根据正态分布标准化的要求,令z?x?x??x?55050,按题意要求x落在

?x?a,x?a?区间的概率,这里

?aa?,????0.5,0.5? ??????a=25公斤,所以新变量z的区间相应为

。当z=0.5,查概率表得:

?25?? ?50? P?525?x?575??P?x?550?25??F? ?F?0.5??0.3829

即约有38.29%的亩产量在525—575公斤之间。

【例4-8】解放军战士的身高是按正态分布的,经抽查平均身高175公分,标准差4公分,现在军服厂要裁制1000000套军服,问身高在171~179公分之间应裁几套?

根据正态分布标准化的要求z?x?x?44?1 ,查概率表则有:

?P?171?x?179??P?x?175?4??F?1??0.6827

即身高在171~179公分之间需裁制100000×0.6827=68270(套)。 三、 关于正态分布的定理

单变量的概率分布,包括单变量的正态分布,我们已经讨论过了,但是不论是样本平均数x还是样本成数p,都是多变量和的运算结果,例如样本容量为n的样本平均数x是n个变量和的平均,因而要估计x落在某一区间的概率就要考虑n个变量和的分布,显然它比单变量的分布要复杂得多,以下关于正态分布的两个定理帮助我们解决这个难题。

㈠正态分布再生定理

如果变量X服从于其总体平均数为X、总体标准差σ(X)的正态分布,即总体变量X服从正态分布N?X,?2?X??,则从这个总体中抽取容量为n的样本平均数x也服从于正态分布,其平均数E?x?仍为X,其标准差??x???,即样本平均数x服从于正态分布N(X,μ2)。而标准随机变量z?x?X? 则服从于标准

正态分布N(0,1)。

这条定理表示,只要总体分布是正态的,则不问样本单位数n是多少,样本平均数都服从正态分布,分布的中心不变,而标准差即抽样误差则视重置抽样或不重置抽样分别为

??Xn? 或

?2?X??nn??1?? ,它们比总体标准差都大大缩

N??小了,因而样本平均数的分布是更加集中于总体平均数周围。

㈡中心极限定理

如果变量X分布的平均数X和标准差σ(X)都是有限的数,则从这个总体所抽取的容量为n的样本,样本平均数x的分布随着n的增大而趋近于平均数X、标准差为σ(x)=μ的正态分布,即样本平均数趋近于正态分布N(X,μ2)。而样本变量 z?x?X? 则趋近于标准正态分布N(0,1)。

这条定理并不要求总体分布是正态的,甚至可以是不知道的。客观上存在着总体平均数和标准差,只要样本的单位数增多,则样本平均数x就趋近于正态分布。这和正态分布在生定理限制总体为正态,而对样本单位数不加限制的情况是不同的。

我们知道,总体成数P是服从于平均数P为方差P(1-P)的(0,1)分布,而样本成数p则是n个(0,1)变量的平均。因此中心极限定理也适用于样本成数的分布。具体说,从任一总体成数为P、方差为P(1-P)的(0,1)分布总体中,抽取容量为n的样本,其样本成数p的分布随着样本单位数n的增大而趋近于平均数E(p)=P,标准差为??p???p的正态分布,即样本成数p趋近于正态分布N(P,μp2)。而样本标准变量z?p?P?p 则趋近于标准正态分布N(0,

1)。

这条定理是中心极限定理的推广。

在实际工作中,总体变量的分布通常是不知道,样本平均数或成数的分布是否接近于正态,或接近到什么程度,起决定作用的因素是样本容量n。样本容量n越大,样本平均数或成数的分布也越接近正态。一般认为样本单位数不少于30的是大样本,抽样分布就接近于正态分布。

四、 抽样分布的正态逼近

统计量是建立在随机抽样实际观察取值的基础上,所以抽样分布都是离散型的概率分布。要估计样本统计量的取值落在某一区间的概率,最精确的方法是将统计量的所有可能取值全部列出,并计算相应的概率,编制统计变量的分布列,然后再计算指定区间内各项概率之和。但是这种方法通常计算工作量很大,对于复杂的抽样方法,甚至统计量的概率分布都难以描述,要估计统计量取值某一点或某个区间的概率就没有办法做到。

利用正态分布的有关定理,我们知道当样本的容量相对大(不少于30)时样本平均数和样本成数都趋近于正态分布,因此可以利用正态分布来近似地估计样本平均数和样本成数取值某一点或某个区间的概率。现在举例说明如下。

【例4-9】某地区高等学校考生入学考试成绩平均X=550分,标准差σ=250分,现在从考生中随机抽取100名,问100名考生的平均成绩落在540~580分之间的概率是多少?

依题意求概率P?540?x?580?先计算两个标准变量z1,z2。 z1?x1?X?540?550250100x2?X?580?550250100?1.2 ?1025?0.4

?n z2??n P?540?x?580?? ? ?

121212?P?x?X?10?Px?X?301??2??

?F?z1??F?z2????F?0.4??F?1.2?? ?0.3108??54.04% ?0.7699f(x) 540 550 580 x

图4-16 正态分布图

从以上解题中,我们可以认识到:

1. 全地区高等学校的入学考生成绩未必形成正态分布,但是100名样本平均成绩则趋近于正态分布,这是因为样本容量n=100,是属于大样本的平均数。

2. 全体考生的每人成绩的分布可能相当分散,有的成绩高有的成绩低,但样本100名平均成绩则是相当集中的,成绩在平均数550分附近的540—580分间占考生总数的54.04%。依此推算样本平均数成绩在525—575分约占考生总人数的68.27%。

【例4-10】某县粮食平均亩产X=760公斤,亩产标准差σ=380公斤。现在随机抽取400亩,求样本平均亩产在800公斤以上的概率。

依题意求P?x?800?,先计算标准变量z。 z?x?X?800?7603804001?n?4019?2.1

?? P?x?800 =?1?0.9643??1.785%

2

760 800 x

21?1?P?x?X?40??

f?x? 图4—17 正态分布图

如果全县粮食亩产量是按正态分布,则以计算亩产在800公斤以上的概率为

P?X?800??PX?X?40???1?1?P?X?X2?40??40??1???11?F?????1?0.0797??23802????=46% 。这意味着亩产在800公斤以上的可能性达到46%是相当大的。但400

亩样本平均亩产在800公斤以上的概率只有1.785%,几乎是很少可能的。这是因为样本平均数的抽样误差仅及总体亩产误差的1/20。

【例4—11】某厂零件加工不合格品率达到6%,现在从加工件中随机抽取36件,求样本不合格率在4%以下的概率。

已知总体不合格品P=6%,(1-P)=94%, ?p?依题意求概率P?p?4%?。

P?p?4%?? ?1212P?1?P?n?0.06?0.9436?4% 。

?1?P?p?P?2%???11??2%1?F??2??4%??????

?1?F?0.5????1?0.3829??30.9%

2即样本不合品率在4%以下的概率为30.9%。

4% 6% p

图4—18 正态分布图

第四节 总体参数估计的一般原理

一、科学的抽样估计方法要具备三个基本条件。

首先是要有合适的统计量作为估计量。我们知道统计量是样本变量的函数,根据样本变量可以构造多种统计量,但不是所有的统计量都能够充当良好的估计量,例如,从一个样本可以计算平均数、中位数、众数等等,现在要用来估计总体平均数,究竟以哪个样本统计量

作为估计量更合适,如果采用样本平均数作为估计量,这就需要回答样本平均数和总体平均数存在什么样的内在联系,以样本平均数作为良好估计量的标准是什么等等。只有这些问题解决了,才能通过样本的实际观察确定估计值。

其次,要有合理的允许误差范围。允许误差范围又称抽样极限误差,指样本统计量与被估计总体参数离差的绝对值可允许变动的上限或下限。离差的绝对值愈小表明抽样估计的准确度愈高,反之,就表明准确度愈差。由于统计量本身也是随机变量,所以要使所做的估计完全没有误差是难以实现的,但估计意味着也不能太大,估计意味着如果超过了一定限度参灵敏估计本身也就会失去价值。当然也不见得误差愈小就是愈好的估计,因为减少误差势必增加费用、时间,增加人力、物力、财力的负担,这样甚至会失去组织抽样调查的意义。所以在做估计的时候应该根据所研究对象的变异程度和分析任务的要求确定一个合理的允许误差范围,凡估计值与被估计值之间的离差不超过允许范围,这种估计都算是有效的。例如估计粮食亩产600公斤,允许误差范围6公斤,这意味着如果实际的粮食亩产在594~606公斤之间都应该认为估计是有效的。我们把允许误差的区间596~606公斤称为估计区间,允许意味着与估计值之比称为误差率,(1-误差率)称为估计精度,上例误差率为6/600=1%,估计精度为1-1%=99%。

再次,要有一个可接受的置信度。估计置信度又称估计推断的概率保证程度,这是估计的可靠性问题。由于抽样是随机抽样,统计量是随机变量,估计值所确定的估计区间也是随机的,在实际抽样中并不能保证被估计的参数真值都落在允许误差的范围内。这就产生要冒多大风险想念所作的估计。如果一种估计可信度很低,这就意味着所冒的风险很大,这咱估计也就没有什么价值。例如我们愿意冒10%的风险,这表示如果进行多次重复估计,则平均每100次估计将有10次是错误,90次估计正确。90%就称为置信度或称概率保证程度。在抽样估计中要求达到100%的置信度是难以做到的,但置信度小了,估计结论的可靠性太低,又会影响估计本身的价值,所以在做估计的时候,也应该根据所研究问题的性质和工作的需要确定一个可接受的估计置信度。当然估计置信度的要求和准确度的要求应该结合起来考虑,估计的准确度很高而置信度很低或准确度很低而置信度很 二、优良估计量的标准

根据样本资料对未知的总体参数进行推断的方法叫参数估计。参数估计分为点估计(Point Estimation)和区间估计(Interval Estimation),点估计是用样本统计量的值直接作为总体参数的估计值,如用样本平均数代表总体平均数,用样本成数直接代表总体成数。区间估计是根据样本统计量的值结合抽样分布理论,以一定的概率保证程度对未知总体参数给出一个估计范围。由于点估计不是正确的就是错误的,所以只有点估计是不够的,实际工作中常常使用的是区间估计。

不论是点估计还是区间估计,都有一个估计量的选择问题。估计量就是用来估计总体参数的统计量。对同一总体参数,往往可以选择若干个不同的样本统计量作为估计量,如估计总体算术平均数,可以选择样本算术平均数、样本中位数等。这样,就有必要对各种估计量进行比较,从中确定最优的估计量。通常优良估计量的标准有:无偏性、有效性和一致性。

1. 无偏性(Unbiasedness)

我们是选择某一个样本统计量来估计未知总体参数的,而样本统计量是一个随机变量。从总体中抽出所有可能的k个样本,就可以得到k个样本统计量的值。这些样本统计量的值构成一个频数分布。如果该样本统计量的频数分布的期望值等于该统计量所要估计的总体参数,则这个样本统计量就是被估计总体参数的一个无偏估计量。

例如,样本算术平均数就是总体算术平均数的无偏估计量,因为所有样本平均数的期望值等于总体平均数,即E(?)=X。而样本方差sn?2n?xi?xi?1??2n就不

是总体方差σ2的无偏估计量,因为以样本单位数n作分母计算的所有样本方差的期望值不等于总体期望值,即E?sn???;总体方差σ2的无偏估计量是

22s2n?1?即以n-1作为分母的样本方差的期望值才等于总体方差,??xi??n?1?,

2i?122n即E?sn?1???。这也正是在总体方差σ2未知时,用样本方差来代替总体方差使用的是sn?1而不是sn1的缘故。但要注意样本标准差s不是总体标准差σ的无便估计量。

很显然,无偏性是从平均意义上来评价一个统计量的,也就是说这种估计方法若

重复进行,从估计量所获得的平均数等于被估计的总体参数。而抽样时一般只抽一个样本,因此估计量只满足无偏性是不够的,在此基础上还要满足下面所讲到的有效性和一致性。

2. 有效性(Effectiveness)

当满足无偏性的样本统计量不止一个时,就有个选择的问题。因为无偏性只考虑估计值的平均结果是否等于被估计的总体参数,而不考虑每个估计值与被估计总体参数之间的差异程度的大小。我们在选择估计量时,不仅希望估计是无偏的,而且希望估计值的差异程度尽可能的小。这就涉及到估计量的有效问题。如果用来估计总体参数的两个无偏估计量中,其中一个样本统计量的方差比另一个估计量的方差小,则该统计量就是一个有效估计量。

例如,用样本平均数或总体中的任何一个变量值来估计总体平均数,这两个估计量都是满足无偏性的,即它们的期望值都等于总体均值。但这两个估计量的方差是不同的,样本平均数的方差等于?(或?n2222N?nN?1n),而总体中变量值的方

差等于σ2,因此样本平均数是更为有效的估计量。又例如,在正态总体的样本平均数中,样本平均数x和样本中位数me均是总体算术平均数X的无偏估计

本文来源:https://www.bwwdw.com/article/he4a.html

Top