国民经济统计概论讲义(2015版)
更新时间:2024-01-17 03:11:01 阅读量: 教育文库 文档下载
- 国民经济统计概论难吗推荐度:
- 相关推荐
第一章 绪论
第一节 统计学的性质及分类
一、统计学的性质
(一)统计学的概念(识记)
统计学是研究如何有效地搜集数据、整理数据、分析或推断数据,并以此为依据对所研究对象做出判断或者决策的一门方法论科学。
(二)统计学的性质(领会)
统计学是一门研究客观现象总体的数量表现及其变动规律的方法论科学。
【例题.单选题】统计学的性质不包括( )。 A.其研究对象是社会经济现象和自然现象
B.统计学研究的是总体现象的数量表现及其规律 C.统计学研究的是个体现象的数量表现及其规律 D.统计学是一门研究数量方面的方法论科学
『正确答案』C
二、统计学的分类(领会)
(一)理论统计学和应用统计学→理论与实践
统计理论与方法都是在实践中提出并发展起来的,反过来这些理论与方法又被不断地应用于实践。
第 1 页 共 112 页
从统计学理论方面来看,人们在认识数量方面时,常常受到研究方法的制约,这就需要应用相关科学的基本理论与数学原理,寻求研究客观现象数量方面的具体方法,并从理论上对其加以科学论证,使其真正成为科学的方法论。
从统计学应用方面看,统计学又是一门应用性非常强的科学。在人类活动的一切领域中都能不同程度地找到统计方法的应用。例如,统计方法在国民经济领域中的应用形成了国民经济统计学;在生物领域中的应用形成了生物统计学;在人口研究和管理中的应用形成了人口统计学;等等。所有这些都属于应用统计学的主要内容。 两者之间的关系:
理论统计学所提出的科学的数量方法为应用统计学研究提供了理论依据和条件,而应用统计学的发展又可进一步改进、完善和发展理论统计学所提出的数量方法。 (二)描述统计学和推断统计学→统计方法
统计学按所处的发展阶段和采用的研究方法不同,可分为描述统计学和推断统计学。
描述统计学研究如何对客观现象的数量进行计量、观测、概括和表述。描述统计学是统计学的基础和统计研究工作的第一步,其内容包括统计指标及其设计、统计调查、统计整理、统计图表、集中趋势测度、离散程度测度、统计指数和时间序列常规分析等理论方法。
推断统计学研究如何根据总体中的部分数据(样本指标)去推断总体数据(总体参数)的方法。推断统计学是现代统计学的核心内容,它以概率论为理论依据,利用部分数据对总体数据的某些性质或数量特征进行推断和检验。其主要内容包括概率与概率分布、抽样分布、参数估计、假设验证、方差分析、相关与回归分析、统计预测和统计决策等。
两者之间的关系:
描述统计学是整个统计学的基础,推断统计学则是现代统计学的主要内容。 推断统计学是统计学的核心内容,描述统计学也很重要。
从描述统计学发展到推断统计学,既反映了统计学发展的巨大成就,也是统计学发展成熟的重要标志。 【例题.判断题】描述统计学是统计学的核心内容。( )
『正确答案』错
『答案解析』推断统计学是统计学的核心内容。
第二节 统计学的基本概念
一、总体和个体(识记。重点、难点)
构成统计活动研究对象的全部事物所组成的整体,就称为统计总体,简称总体或母体。 总体中的每个个体事物则称为个体。
总体中全部个体事物的数量称为总体容量,通常用N表示。 两种总体:
在实际研究中所遇到的统计总体,一般有下列两种:一种总体是由自然物体所组成的总体。例如,要研究全国人口状况,则全国人口就是总体,每一个人是个体。又如,要研究一批产品的质量状况,则这批产品的全部产品就是总体,每件产品是个体。
另一种总体是由变量值所组成的总体。例如,要研究某企业职工的平均工资,则该企业每个职工的工资水平的集合构成总体,每个职工的工资水平是个体。
这两种不同类型的总体,分别属于不同的研究对象和目的。一般来说,由自然物体所组成的总体能够满足多方面的研究需要,而由变量值所组成的总体主要是满足对该变量的研究需要。 有限总体与无限总体:
如果总体中只包含有限个个体,即总体容量是一个有限数,则称为有限总体;如果总体中包含有无限多个个体,即总体容量为无穷大,则称为无限总体。例如,全国人口、某地区工业企业、某企业职工工资水平都是有限总体;而宇宙中的星球、海洋中的鱼等则可看作无限总体。 总体的确定:
确定统计总体就是确定统计活动的研究对象及范围,这需要根据统计研究的目的来进行。研究目的不同,统计
第 2 页 共 112 页
总体往往也不同,例如,研究目的是了解某行业的生产经营状况,则总体就是该行业的全部企业所组成的集合;而假若研究目的只是了解该行业的职工生活情况,则总体就是该行业的全部职工所组成的集合。
在实际应用中,有时总体中的个体是很不明显的。如,要考察某一段河流的水质污染情况,则总体就是该段河流中的全部水,而个体很不明确。在上述情况发生的条件下,一般是将每个观察单位看作一个个体,而观察单位的大小以及计量方法则根据观察手段而定。如,将每立方米水域或者每升水看作一个个体。
【例题.判断题】要研究一批产品的质量状况,则这批产品的全部产品就是总体,每件产品是个体。( ) 『正确答案』对 二、样本
样本是指从总体中随机抽取出来,并作为其代表的那一部分个体所组成的子集。构成样本的个体数目称为样本容量,通常用n表示。
通常将由样本构成的总体称为抽样总体。 样本的特点:
(1)样本中的每个个体都必须取自于总体的内部。
(2)从一个总体中可以抽取许多个不同的样本。总体是唯一确定的,而样本则是不确定的,一般情况下,从一个总体中能抽取许多个容量相同的不同样本。 (3)样本是总体的代表。 (4)样本的随机性。
三、变量(识记。重点、难点) (一)概念
广义的变量是指对客观现象进行计量的概念,凡是客观现象的特征取值或类别在一个以上者,均可定义为变量。它包括可以用数字表示变量取值的数字变量,如年龄、收入和消费支出等;也包括不能用数字计量、只能用类别表示的属性变量,如反映人口特征的性别,产品质量的合格与不合格,宗教信仰和文化程度等。 狭义的变量仅指可用具体数字表示取值的数字变量。 (二)变量的特征
(1)变量是用于研究总体和个体具有属性变异与数值变异的量化概念。
(2)变量是一个具有量化性质的概念或名称,它不是指具体的数字。变量所表现的具体数字称为变量值,变量与变量值是两个不同的概念。
(3)变量的取值有两个方面,一是在时间上取值,如历年职工工资水平;二是在空间上取值,如某一时期内不同行业或地区的职工工资水平。 (三)变量的分类
(1)变量按其取值是否可用数字表示,一般分为属性变量与数字变量两种。
(2)变量按其取值是否连续,可分为离散变量和连续变量。凡变量的取值只能是整数而不会出现小数时,这样的变量被称为离散变量,如职工人数、设备台数、家庭人口等,通常采用点计的方法取得变量值。凡变量的取值在整数之间可以取无限的数值,即变量的数值是连续不断的,这样的变量被称为连续变量,如身高、体重、收入、支出等。
(3)变量按其变动是否具有确定性,可分为确定性变量和随机变量。凡变量的变动具有确定性、方向性的,称为确定性变量,如每个工业企业的职工人数、设备台数等都是确定的,并随企业规模增大而增大。凡变量的变动没有确定的方向,并具有一定偶然性的,称为随机变量。如一支股票价格水平,由于受宏观政策、基本面情况、技术面情况、行业情况以及各种客观环境等因素的影响,具体表现出很大的不确定性,因此,其价格就是一个随机变量。 (4)变量按其在因果关系中所处的位置不同,可分为因变量与自变量。因变量是受其他因素影响的结果性变量,通常作为研究的目的或对象来对待,又称为被解释变量;自变量是影响因变量的各种原因性变量,又称解释变量。例如,用居民收入解释支出时,收入为自变量,支出为因变量。
(5)变量按其是否由研究对象体系范围内决定,可分为内生变量和外生变量。内生变量是由研究对象体系范围决定的,外生变量是由研究对象体系范围之外决定的。外生变量数值的变化影响内生变量的数值变化,但它并不受内生变量数值变化的影响。例如,研究农产品的供求关系时农产品的供应量、需求量和价格等都是在农产品市场范
第 3 页 共 112 页
围内决定的,都是内生变量,而土地资源、雨量、农业投资和科技投入等都是在农产品市场范围以外决定的,都是外生变量。内生变量与外生变量是建立经济计量模型的重要概念。
(6)变量按其取值是否具有客观性,可分为实在变量和虚拟变量。凡取值是客观实际存在的变量,称为实在变量或实体变量。虚拟变量则是为了满足统计研究的需要,对客观现象的各类属性表现人为规定的数字,又称工具变量或开关变量。如男性定为1,女性定为0;合格定为1,不合格定为0;旺季定为1,淡季定为0。虚拟变量在定性分析、建立经济计量模型中也往往要用到。
【例题.多选题】变量按其是否由研究对象体系范围内决定,可分为( )。 A.自变量 B.因变量 C.内生变量 D.外生变量 E.虚拟变量
『正确答案』CD
『答案解析』AB是按变量在因果关系中所处的位置不同划分的。
【例题.单选题】( )是指变量的取值只能是整数而不会出现小数的变量。 A.随机变量 B.离散变量 C.实在变量 D.确定性变量 『正确答案』B
四、指标及其测度(领会)
在统计活动中,人们所真正关心的主要是总体的某些特征数量,而总体特征数量的数值则完全取决于总体中各个个体的相应特征数量。
例如,国家对全国的人口总体进行调查,主要是要了解全国人口总数以及性别、民族、年龄、文化程度和职业等的人口数量及其分布状况。
用来测度研究对象某种特征数量的概念称为统计指标,简称指标。其中,测度总体特征数量的概念称为总体指标,而测度个体特征数量的概念则称为个体指标。例如,人口数、产品产量、销售收入、经营利润等都是统计指标,显然,统计指标是可以测度计量的数量概念,对于任何一个统计指标,只要给定相应的总体或个体,都可以通过测度计量得出其具体的指标数值。
例如,某地区人口总体,2013年年底的人口总数为1253万人,其中,男性人口总数为615万人,女性人口总数为638万人。
一般来说,总体指标的数值往往都是未知的,而个体指标的数值则是可以通过观测得到的。统计活动最初的基本任务就是通过对研究总体中的个体的某种或某些特征的观测计量来取得数据,进而推断得出所需要的总体指标的数值。
要对所研究总体中个体的特征进行观测计量,就必须有科学的测度计量尺度。 四种计量尺度:
定类尺度、定序尺度、定距尺度、定比尺度 (一)定类尺度 1、定义:
定类尺度又称为名义尺度,它是对个体进行类别划分的测度计量尺度。例如,根据人的性别特征,可将人口划分为男性和女性两类。这种既不能用数值大小直接测度,又不能用等级顺序计量,而只适合用划分类别来测度的计量尺度就称为名义尺度或定类尺度。 特征:
定类尺度是最简单、计量层次最低的个体特征测度计量尺度,主要用于对个体品质特征的测度计量。
在统计分析中,为了将定类尺度的测度计量结果也用数值表示,通常将人们重点关注的那一类别记作1,而将
第 4 页 共 112 页
其他类别都记作0。例如,可以用1表示男性,用0表示女性。通过这种数量化方法,定类尺度的测量结果也就全是取1和0的数值了。 (二)定序尺度 1、定义
定序尺度又称为顺序尺度,是对个体进行排序或分等基础上的测度计量尺度。这种不能直接用数值大小测度而只能用顺序等级来说明个体特征表现位次的测度计量尺度称为顺序尺度或定序尺度。
特征:定序尺度虽然比定类尺度精细,但是相邻顺序等级之间的差距却并不一定相等。
对于定序尺度的测量计量结果,可以分别用自然数1、2、3、4、5、6等来依次表示各种顺序等级,从而也将其测度计量结果完全数量化。
【单选题】将银行柜台人员的服务质量分为非常满意、满意、不满意、非常不满意,属于指标的( )。 A定比尺度 B定类尺度 C定距尺度 D定序尺度 『正确答案』D (三)定距尺度
定距尺度又称差距尺度,它是对个体特征的差距进行测量的测度计量尺度。这种测量得出的数值结果是相对于某一个标准水平的差距数值。 (四)定比尺度
定比尺度又称为比例尺度,它是对个体特征的绝对数量大小进行测量的测度计量尺度。例如,对于某种工业产品的产量如电视机的产量,可以逐台地点数得出。在这种测度计量尺度中存在着数值绝对零点,如电视机的产量为0台,就是没有产出。
特征:用这种具有绝对零点的测度计量尺度测量得出的数值除了具有差距尺度数值的全部特性以外,还具有数值之间存在比例关系的特性,如,产量500万台是产量10万台的50倍。这种具有绝对零点的测度计量尺度就称为比例尺度或定比尺度。
上述四种测度计量尺度对个体特征的测量层次是依次递升的,其中定类尺度是最粗略的测度计量尺度,而定比尺度则是最精细的测度计量尺度。 不同层次计量尺度的转化:
对于不同层次的测度计量尺度的测量结果,如果要统一化为同一层次的测度计量尺度的测量结果,则只能将高层次的测度计量尺度的测量结果转化为低层次测度计量尺度的测量结果,而不可能将低层次测度计量尺度的测量结果转化为高层次测度计量尺度的测量结果。
要取得总体的某个指标数值,就需要对总体中的个体的相应指标进行观测。显然,不论采用何种测度计量尺度进行测量,个体不同,其观测指标的数值也就可能不同,这表明个体的观测指标往往可以取多个不同的数值,因此可以将个体的观测指标看作一个变量,并可用变量X或y等来表示。要得到总体观测指标的确切数值,就必须了解总体中全部个体观测指标的取值。通常将所考察的个体观测指标全部取值的集合称为总体,并将其每个可能的取值
第 5 页 共 112 页
称为个体。如果统计活动所要考察的个体指标只是一个,那么就称为单变量总体或一元总体;如果统计活动所要考察的个体指标有多个,那么就称为多变量总体或多元总体。对于单变量总体,可以用一个代表所要考察个体指标的变量x或y等来表示;而对于多变量总体,则可以用一个代表所要考察个体指标集的向量X或Y等来表示。 第三节 统计指标体系及其设计 一、统计指标体系的概念(识记)
为什么要构建统计指标体系?因为一个统计指标一般只能反映研究对象一个方面的特征数量,而一系列相互联系、相互补充的统计指标的集合就可以全面地反映和描述所研究对象的各个方面的特征数量。
而任何一个统计总体都有许多方面的特征,要完整地对总体的各个方面进行系统的描述,就需要通过测度取得总体各个方面的特征,
从而就必须对该总体中各个个体的相应方面的特征数量进行测度。这就需要设计和构造出反映总体及所含个体各个方面特征数量的一系列统计指标,用于对总体及其个体特征的观测分析。
统计指标体系的概念:反映总体及其所含个体的各个方面特征数量的一系列相互联系、相互补充的统计指标所形成的体系,称为统计指标体系。
例 二、统计指标体系中指标的分类(识记)
一个统计指标体系通常由许多个统计指标所构成。这些指标之间相互联系、相互补充,共同用来描述总体的各个方面特征。从一个统计指标体系中所包含的指标的表现形式上看,一般分为绝对数指标、相对数指标和平均数指标三大类。这里只介绍绝对数指标和相对数指标,平均数指标在第四章中介绍。 (一)绝对数指标
所谓绝对数指标,是反映统计研究对象某一方面绝对数量的统计指标,通常又称总量指标。这类指标的主要功能是用来描述研究对象的规模大小或者水平高低,如人口数、财政收入、货币供应量、社会商品零售额、进出口总额、利润总额、存款总额等。其数值的表现形式为绝对数,都有计量单位。
绝对数指标按其所反映的时间状况不同,可分为时期指标(流量)和时点指标(存量)两类。时期指标是反映研究对象在某一段时间内累计发生数值总量的指标,如全年社会商品零售总额、季工业增加值、月商品销售额、年新增人口数等都属于这类指标。时点指标是反映研究对象在某个时点上所表现数值总量的指标,如年初(末)人口数、月初(末)库存数、季初(末)存款余额、年初(末)固定资产占用额等。 时期指标与时点指标相比较具有不同的特点。具体表现是:
(1)时期指标数值的大小与其所反映的时期长度有直接关系,而时点指标数值的大小与其所统计的时间间隔长短没有直接关系;
(2)时期指标的前后各时期上的指标值直接相加有实际意义,而时点指标前后各时点上的指标数值直接相加没有实际意义。
【单选题】下列指标中,属于总量指标的是( )。 A.劳动生产率 B.商品库存量 C.单位产品成本 D.计划完成程度 『正确答案』B
按其所使用的计量单位不同,总量指标又可分为实物指标和价值指标两类。
实物指标是指使用实物单位进行计量的指标。如以自然单位计量:个、辆、公斤、件等。价值指标是指使用货币单位进行计量的指标。如固定资产总额以人民币计量,进出口总额以美元计量等。
实物指标意义具体明确,但综合性能差,不同物品的总量不能相加汇总;价值指标综合性能强,任何物品的价值总额都可以相加汇总,但意义却比较抽象。因此,在经济统计中,单一物品的总量往往用实物指标表示,而多种物品的总量则用价值指标表示。
【单选题】将统计指标分为实物指标和价值指标的依据是( )。 A数据的内容不同 B计量单位不同
第 6 页 共 112 页
C反映的时间特点不同 D反映总体特征的性质不同 『正确答案』B (二)相对数指标
所谓相对数指标,是指由两个相互联系的统计指标相除而得出的比率,又称为比率指标,它反映了研究对象内部各部分之间或各方面之间的相互关系。
其数值表现形式有无名数和有名数两种,其中绝大部分相对指标的数值都采用无名数表现,最常用的是系数和百分数,而仅有部分强度相对指标的数值采用有名数表现。 常见指标:结构、比值、动态、弹性、强度相对指标 1.结构相对指标
是指总体中部分数值与全部数值的比率,它可用来反映研究对象内部的构成状况。计算公式为: 结构相对指标=总体中部分数值/总体中全部数值
例如,投资额与国民收入的比率称为投资率,消费额与国民收入的比率称为消费率。又如,居民家庭用于食物支出的金额与全部消费支出总金额的比率为食物消费支出比重,通常称为恩格尔系数,可用来反映一个国家或地区居民家庭消费结构和经济的发展水平。恩格尔系数达59%以上为贫困,50-59%为温饱,40-50%为小康,30-40%为富裕,低于30%为最富裕。 2.比值相对指标
是指某个总体对另一个总体或某个个体对另一个个体的同一指标数值的比率,它可用来反映两个总体或两个个体之间的差异程度。其计算公式为:
比值相对指标=某个总体(或个体)的某个指标数值/另一总体(或个体)的同一指标数值
如,一个国家的人均国内生产总值与另一个国家的人均国内生产总值的比值,反映了两个国家经济发展水平之间的差距;又如一个企业的劳动生产率与另一个企业劳动生产率的比值,反映了两个企业劳动生产率的差异。 3.动态相对指标
是指本期(报告期)数量与过去某期(基期)相同性质数量的比率,或者本期与过去某期相减的增长量与过去该期数量的比率,统称为动态相对指标。在实际中又分别称为发展速度和增长速度,可用来反映事物发展变化的相对程度。其计算公式为:
动态相对指标=报告期水平/基期水平
或:(报告期水平一基期水平)/基期水平
例如,本年国内生产总值与上年国内生产总值的比率,为国内生产总值的年度发展速度;本年与上年相减的国内生产总值的增长量与上年国内生产总值的比率,为国内生产总值的年度增长速度,分别是对一年的经济发展速度和增长速度的测度。
又如,2010年国内生产总值与2000年国内生产总值的比率,是2000—2010年国内生产总值的总发展速 度;而2010年与2000年相减的国内生产总值的增长量与2000年国内生产总值的比率,则是2000—2010年的10年的国内生产总值的总增长速度。 4.弹性相对指标
弹性相对指标又称弹性系数,是指一定时期内相互联系的两个经济指标增长速度的比率,它反映一个经济变量的增长幅度对另一个经济变量增长幅度的依存关系。其计算公式为: 弹性系数=一个经济变量的增长率/另一个经济变量的增长率 5.强度相对指标
是指两个性质不同但有联系的总量指标值的比率。
强度相对指标=某一总量指标值/另一有联系但性质不同的总量指标值 如,某地区人口密度=该地区人口总数/该地区土地总面积
再如,某年的粮食总产量与该年人口总数的比率称为该年人均粮食产量。
第 7 页 共 112 页
强度相对指标主要用来反映事物的密度、强度和普遍程度。
对时间的规定:强度相对指标可以是两个存量指标的比率,也可以是一个流量指标与一个存量指标的比率。为了保证相互比较的两个指标的可比性,进行比较的两个指标其数值的时间规定必须相同。 若相互比较的两个指标是存量指标,则二者的数值必须是同一个时点上的。
若相互比较的两个指标一个是流量指标另一个是存量指标,则该存量指标的数值必须按照该流量指标所属时期的长度进行平均,如上述人均粮食产量指标的计算就是如此。
三、统计指标体系设计的内容(领会、重点) 统计指标体系的设计是进行统计活动的前提。 统计指标体系的设计主要有下列四个方面的内容。 (一)设置统计指标体系的框架
研究的目的→确定需要对所研究总体及其所含个体的哪些方面进行观察计量→每个方面需要设置哪些指标→确定出指标体系的框架结构
例如,要研究一个国家或地区居民的生活状况,则需观测与分析研究的总体就是该国家或地区的居民家庭,对于这一总体中的每个居民家庭,从生活水平的角度考虑,有衣、食、住、行,以及医疗保险、文化教育、社会安全等各个方面,可在每一方面设置若干个适合该国或地区实际情况的统计指标,这样就可以构建出一套反映居民生活水平的统计指标体系及其框架。
指标:城镇居民人均可支配收入、人均电话通话次数、户均文化消费支出、每万人拥有医疗设施数等。 (二)确定每一个指标的内涵和外延
通过对每个指标下定义来揭示指标的内涵与外延。
统计指标的外延又称为指标口径,是指统计指标所包括的具体范围。
例如,对于工业企业总体,工业企业数、职工人数、工资总额是三个不同的指标。对于工业企业数来说,其指标口径是指哪些企业应包括在内。对于职工人数来说,其指标口径是指上述企业内的哪些职工应该包括在内,固定工与合同工无疑应该包括在内,而临时工与退休职工以及在外进行学习的职工呢?客观现实的复杂性和多样性使得每一个统计指标都必须明确其外延即指标口径。 (三)确定每个统计指标的计量单位
统计指标是对研究对象某一方面特征数量的计量测度,因而都具有计量单位。许多统计指标往往可以有多种计量单位,所以必须对其进行选择,挑选出最适当的计量单位。 (四)确定每个统计指标的计算方法
任何统计指标的计算方法都既要符合数学原理,也要符合研究目的所属领域的专业理论。对于有些指标来说,从数学的角度来讲往往会有不止一种计算方法,这就需要根据研究目的所属领域的专业理论来进行比较,选择出最恰当的计算方法,但若结合研究目的所属领域的专业理论来考虑,一般只有一种计算方法是适当的。 四、统计指标体系设计的原则(领会) 四项:目的性、科学性、可行性、联系性 (一)目的性原则
设计统计指标体系应紧紧围绕着研究的目的,满足科学研究或生产管理的需要。即使是对于同一总体,研究目
第 8 页 共 112 页
的不同,观测和分析的角度也不同,所用的统计指标也就不同。 (二)科学性原则
统计指标体系的设计要符合科学的原理,准确地刻画和描述研究对象的各种特征数量。要做到这一点,不仅要考虑研究目的所属领域的专业理论和数学原理,而且有时还必须考虑到研究对象所处的自然历史环境。 (三)可行性原则
统计指标体系的设计必须实用可行,每个指标都必须能够准确地计算出其指标数值。因此,设计统计指标体系时,还必须考虑到计量手段的特点和计量方法是否简便可行,使得每个统计指标的计量与计算都具有可操作性。 例如,劳动生产率是指单位劳动时间内所生产的产品数量。对于一个班组来说,可以直接按此定义计算,但是若要计算全部职工或者全社会的劳动生产率,则按此定义直接计算显然是不可行的。需按下面这个公式进行计算:劳动生产率=总产值/平均职工人数 (四)联系性原则
统计指标体系的设计,必须考虑到指标体系内各个指标之间的相互联系,避免信息的重复与遗漏。统计指标体系是全面测度描述研究对象各个方面的一个完整体系,其中的各个指标应当是相互联系、相互补充的。 如何做到不重不漏:
一方面,对于研究对象的某个方面来说,往往可用若干个不同的统计指标来测度描述,但是这些指标往往提供重复的信息,因此,应当只挑选一个最具有代表性的、包含信息量最多的指标纳入指标体系,其余指标则应舍弃。另一方面,对于研究对象的每个方面来说,都应当用一定的统计指标来测度描述,而不能有所遗漏。 【多选题】统计指标体系设计的原则包括( )。 A.目的性 B.科学性 C.客观性 D.联系性
『正确答案』ABD
『答案解析』选项C应为可行性。 五、案例——社会经济统计指标体系
社会经济统计指标体系作为描述人类社会经济活动状况的指标体系,按照人类社会经济活动的内容可划分为环境、社会、经济、科技四大部分。因此,相对应的统计指标体系也分这四部分。 (一)环境统计指标体系
环境统计指标体系主要包括地理环境、资源环境、社区环境、环境污染和环境保护五个方面。 1.地理环境统计指标
地理环境就是某一地域范围内的地貌状况和气候状况等地理要素状况。具体有平原、山地、丘陵面积、耕地、森林、水域面积、气温、降水以及旱涝灾害等指标。 2.资源环境统计指标
资源环境就是指各种自然资源的拥有和蕴藏量,包括土地资源、水资源、生物资源、矿产资源、旅游资源等方面的指标。
3.社区环境统计指标
社区环境就是社会生活环境,包括社区面积、社区绿化、公园建设等方面的指标。 4.环境污染统计指标
环境污染是指生产和生活中排放的废弃物质超过环境容量和自净能力而对环境的破坏,包括废水污染、废气污染、废渣污染、噪声污染和光污染等方面的指标。 5.环境保护统计指标
环境保护是指对自然资源的保护和环境污染的治理,包括动植物保护种类,自然保护区数目,废水、废气、废渣处理率及三废综合利用成果等方面的指标。 (二)社会统计指标体系
包括社会生活主体状况、社会物质生活、社会精神文化生活、社会组织管理四个方面。
第 9 页 共 112 页
1.社会生活主体状况指标
社会生活主体状况指标也就是人口和家庭状况指标,包括人口的数量和构成以及出生、死亡、迁徙变动指标,就业、婚姻、家庭以及生育等方面的指标。 2.社会物质生活指标
社会物质生活指标包括家庭收入、住房、饮食、营养、衣着、交通、医疗等方面的指标。 3.社会精神文化生活指标
社会精神文化生活指标包括社会教育、文化娱乐、新闻出版、文艺创作、体育活动、宗教生活等方面的指标。 4.社会组织管理指标
社会组织管理指标包括社会成员政治活动参与程度,如政府管理水平、管理效率、廉洁程度、选民投票率、党派组织活动、社会治安与秩序等方面的指标。 (三)经济统计指标体系
由宏观经济指标体系和微观经济指标体系两部分构成。 1.宏观经济指标体系
宏观经济指标体系是反映社会再生产状况的指标体系,主要包括六个方面的内容:
(1)社会生产条件。主要包括社会劳动力数量及其构成,国民财产数量及其构成,如固定资产数量及其构成、流动资产数量及其构成等指标。
(2)社会生产成果指标。包括各种总产出指标和净产出指标,如社会总产出、国内生产总值等。
(3)社会产品分配指标。主要反映社会产品在家庭、企业和政府各部门的分配状况,如工资、税收、利润、国民总收入、国民可支配收入等指标。
(4)社会商品流通指标。既包括国内市场商品流通,也包括国际市场商品流通,有国内市场商品零售额、进出口贸易额、各种物价指数等指标。
(5)社会产品消费指标。包括居民家庭消费和政府团体消费两方面,有各种商品消费额及其构成比例和人均消费支出等指标。
(6)储蓄投资积累指标。储蓄以至投资到积累形成新的资产,将推动再生产过程的进一步循环。主要有银行存款、股票和债券的发行与交易、外资引进、固定资本形成、库存增加、新增固定资产等指标。 2.微观经济统计指标体系
微观经济指标体系是反映企业生产经营状况的指标体系,又称为企业指标体系,主要有以下四个方面的内容。 (1)生产条件指标。包括企业劳动力数量及构成、各种机器设备数量、资金总额及构成等指标。
(2)生产投入指标。包括劳动工时投入、原材料投入与消耗、能源投入与消耗、固定资产投入与消耗以及总成本等指标。
(3)生产产出指标。包括各种产品的产量、产值、增加值、质量、销售收入、纯收入、利润总额等指标。 (4)经济效益指标。主要是投入和产出的比率指标,反映企业各种投入的产出效益,有资金利润率、成本利润率、劳动生产率等指标。 (四)科技统计指标体系
由科技活动投入、科技活动过程、科技产出成果三部分构成。 1.科技活动投入指标
科技活动投入指标主要是科技活动人力和物力资金的投入数量及其构成,有从事科技活动的科学家与工程师人数、科技活动投入经费等指标。 2.科技活动过程指标
科技活动过程指标主要有研究与开发课题数,即基础研究课题数、应用研究课题数、实验开发课题数,以及研究生教育和科技培训数目等指标。 3.科技产出成果指标
科技产出成果指标主要有科技专利数、科技论著数、科技成果转让数,以及新技术、新产品产值、科技成果转让收益等指标。
第二章
数据的调查与整理
第 10 页 共 112 页
第一节 数据调查的方式与程序 一、数据调查的方式
数据调查的概念(识记):统计数据的调查就是根据统计研究目的要求,对所研究总体中个体的相应特征进行观测记录取得数据的工作过程。
所调查到的数据资料要具有代表性和真实性是对统计资料调查的基本要求(识记)。 代表性,就是要求所抽取的样本必须对所研究总体具有代表性。 真实性,则是要求所调查的数据必须真实可靠。
根据研究目的和研究对象的不同,统计数据的调查方式主要有现场调查和试验观测两种(领会:两种方法的特点和适用场合)。
现场调查是指为了了解客观对象的实际情况而对其进行的直观的观测。如,为了了解某城市居民生活水平而对该市居民家庭收入和支出状况的访问调查。
特点:由于现场调查中的观测是在事物处于自然条件下进行的,所得到的数据资料都是反映事物在自然状态下的现状,这种数据资料通常称为原始资料。现场调查过程中对影响所观测事物的各种因素都无法加以控制。它是人们观察和认识客观世界的基本现状及其发展变化的重要依据。
试验观测是指为了揭示事物之间的因果关系而在人为安排的环境条件下对所研究对象进行的观测。例如,在市场研究中为了了解产品包装对产品销售量的影响,将几种不同包装的产品安排在若干个商店销售,观测不同包装产品的销售状况。
特点:试验观测中对事物的观测都是在人为安排的环境条件下进行的,在试验观测过程中,人们对影响所观测事物的各种主要因素都进行了严格的控制,所得到的数据除各种随机因素的影响外单纯反映了所考察的因素对观测事物的影响,从而能够准确揭示所考察因素与观测事物之间的内在联系。
上述两种采集数据的方式各有不同的目的和特点,适用于不同的场合。在对实物产品研制与生产工艺革新过程中,采集数据资料的主要方式是试验观测;而在对社会经济和大自然现象的研究过程中,采集数据资料的主要方式则是现场调查。
【多选题】下列关于数据调查的说法正确的是( )。 A.现场调查适用于对实物产品研制过程中的数据采集
B.在对社会经济的研究过程中,采集数据资料的主要方式是试验观测方式
C.试验观测过程中,人们对影响所观测事物的各种主要因素都进行了严格的控制 D.现场调查过程中对影响所观测事物的各种因素都无法加以控制 E.现场调查是为了了解客观对象的实际情况
『正确答案』CDE
『答案解析』本题考查数据调查的方式。 二、数据调查的一般程序(识记)
三个环节:制订数据调查的方案、现场观察登记取得数据、数据的整理与显示。 (一)数据调查方案的制订
包括:制定调查目的、确定调查对象和调查单位、确定调查项目和调查表、确定调查时间和调查期限、调查的组织实施
1.确定调查目的:首要问题
数据调查目的是调查项目和调查方法选择的依据和出发点,数据调查的目的不同,调查的项目和使用的方法也有所不同。
2.确定调查对象和调查单位
所谓调查对象是指需要进行调查的客观现象总体,它是由性质上相同的许多个体所组成的集合体。确定调查对象就是要明确规定总体的界限,以防止在调查过程中产生重复和遗漏。
调查单位是调查对象中所要调查的具体单位,它与总体中的个体可能一致,也可能不一致。总体中的个体是观察指标的具体数值的承担者,是统计分析的基本单位,而调查单位则是数据调查过程中进行观测记录的基本单位。
第 11 页 共 112 页
在对调查对象进行全面调查时,总体中的个体都是调查单位;而在抽样调查的条件下,调查单位就是样本单位。 3.确定调查项目和调查表
调查项目就是调查中所要登记的调查单位特征。例如,1990年全国人口普查根据调查的目的拟定了人的姓名、性别、年龄、民族、文化程度、职业、婚姻状况等19个调查项目。
将各个调查项目按照一定的顺序排列在一定的表格上,就构成了调查表。调查表一般有两种形式,一种是单一表,另一种是一览表。
4.确定调查时间和调查期限
调查时间是指调查资料所属的时间。
如果所调查的客观现象属于时期现象,就要明确规定调查资料所反映的起止时间。如果所要调查的是时点现象,调查时间就是规定的统一标准时点。
调查期限则是指进行调查工作的时限,包括搜集资料和报送资料的工作所需要的时间。任何调查都应尽可能缩短调查期限来保证统计资料的准确性和时效性。 5.调查的组织实施
调查组织工作包括调查机构的设立,组织和培训调查人员,落实调查经费的来源,编制调查经费的使用预算,以及确定调查资料的报送方法和公布调查结果的时间等。 (二)现场观测登记
有了数据调查方案,就应根据调查方案的安排对所研究总体中个体的观测指标进行具体的观测,并将观测到的数据登记在观测指标数值登记表中。现场观测登记是数据调查活动中工作量最大的一个环节。 (三)数据的整理显示
调查得到各种数据资料以后,接着还需要对其加以整理,使之系统化、条理化,并需采用一定的方法将其显示出来,这就是资料的整理显示。它是数据资料调查活动的最后一个环节。数据资料的整理显示应当根据统计分析推断的要求进行,所以,这一环节既是数据资料调查过程的结束,又是统计分析推断过程的开始。 第二节 现场调查
一、调查的抽样方式(重点:各种方式、简单应用) 现场调查适用于自然和社会经济现象的数据调查。 普查、抽样调查。
抽样调查:从总体中抽取部分个体进行观测取得样本数据,然后再依据样本数据推算总体数据。 现场调查:随机抽样调查和非随机抽样调查(识记)。 (一)随机抽样调查
随机抽样调查又称为概率抽样调查。它是指在抽样调查中,被调查总体中的每个个体被抽中或不被抽中的概率是相同的(概率可被计算出来)。在实际抽样调查工作中,随机抽样调查的基本方法主要有下列几种:简单随机抽样、等距抽样、分层抽样、整群抽样(识记)。 1.简单随机抽样(识记)
简单随机抽样是以总体中的个体为抽样单位,并使得每个个体被抽中的机会都相等的一种抽样方式。简单随机抽样可利用随机数表抽签法得以实现,即先将总体中的每个个体制作成一个完全相同的签,将各个个体的名称或编号写到签上,并把所有的签都放在一个容器内掺和均匀,然后逐次随机地抽出若干个签,则抽出的签上所列的个体就是所抽中的样本单位。
在抽签过程中,每次抽出一个签后可将该签放回去再进行下一次抽取(如,商场购物以乒乓球抽奖),也可以不放回去再接着进行下一次抽取(如,欢乐喜剧人),前者称为放回抽样或重复抽样,后者则称为不放回抽样或不重复抽样。
简单随机抽样是最基本的随机抽样方式,它也可利用随机数表法抽签或摇号法得以实现。 2.等距抽样
这种抽样方式又称为系统抽样。它是先将总体中各个个体按照某种特征值的顺序排队,然后按固定的顺序和间隔在总体中抽取若干个个体组成样本的一种抽样方式。 等距抽样的优点是抽样组织方式简便,易于实施。
第 12 页 共 112 页
3.分层抽样
这种抽样方式又称为类型抽样。它是先将总体中各个个体按照某种特征分成若干大类(或组),每类(或组)内部的各个个体都相差不大,而类与类之间则相差较大,然后在每一类内采用简单随机抽样方式抽取若干个体,所有类中抽出的个体的集合构成样本。
这种抽样方式能够使总体中的每个类型都有一些个体被抽入样本,有助于提高样本的代表性。 当总体内部差异较大且有明显的不同类型界限或标志时,采用这种抽样方式常较为适合。 4.整群抽样
这种抽样方式是先将总体分成若干个群,它与分层抽样不同,当总体内部差异较大而又没有明显的类型标志或界限时,便不能将总体分成内部相似而外部差异较大的不同类型,这时只能依据其他外观或地域标志将总体分成若干个相互之间差异很小、内部却差异很大的群体,然后再随机地抽取一些群体组成样本来进行调查。
如果对被抽取出群体中的个体全部进行调查,则称为单级整群抽样;若在被抽出的群体中再进行以个体为单位的随机抽样,则称为两级抽样或两阶段抽样。类似地,还可有三阶段抽样、四阶段抽样等。两阶段及两阶段以上的抽样统称为多阶段抽样。
整群抽样编制抽取单位的名单即抽样框比较容易,它只需要群体的名单而不需各个个体的名单,并且被调查的个体相对集中便于调查的组织和实施,因而在大规模的社会经济调查中被广泛应用,如我国农村经济调查就是采取这种抽样方式。
【单选题】下列关于抽样组织形式的表述中,正确的是( )。 A.简单随机抽样使每个总体单位都有同等的机会被抽中 B.等距抽样是按随机的间隔在排好序的总体单位中抽取样本 C.类型抽样要求在各组内以相同比例进行抽样
D.整群抽样是随机地抽取一些群体组成样本来进行调查
『正确答案』D
『答案解析』本题考查随机抽样调查的几种方式。 (二)非随机抽样调查
非随机抽样调查又称为非概率抽样调查,其调查样本的抽取或是凭调查人员的主观判断进行选取,或是完全由调查人员视调查的便利而随意地选取。每个样本被选中的机遇无法计算出来,更不能用概率表示。非随机抽样的方式主要有下列三种:任意抽样、立意调查、配额抽样。 1.任意抽样
这种抽样方式又称为便利抽样或偶遇抽样。它是任由调查者的便利而随意选取一些个体作为样本,如电视台记者在街头随意采访一些过往行人。在非概率抽样方式中,任意抽样方法使用最方便,但所抽取样本可能仅出自总体的某一阶层,对总体的代表性较低,所得结果可能存在很大的系统性偏差,故该样本抽取方法一般只在正式调查之前的试验性调查中使用。
2.立意调查(我国统计界称其为典型调查)
这种抽样方式又称为判断抽样或典型调查,它是在对所研究总体中各个体的一般情况已有相当了解的基础上,选择出一个或少数几个比较具有代表性的典型个体即与大多数个体相似的个体作为样本,进行更深入细致的调查,所以,这种方式是一种专家判断抽样方式。
这种调查方式选取的样本中个体很少且都具有代表性,故可对其做更深入细致的调查研究,了解很多详细资料,但由于其样本完全是凭主观判断选取的,所以极易产生抽样偏误。 3.配额抽样
这种抽样方式又称为定额抽样。它是在调查总体中依据一定的标准规定地区别或职业别等不同群体的样本个体数配额,然后在每个群体中由调查人员按照配额主观判断抽出一定数额的个体组成样本,所以这种抽样方式实质上是一种分层判断抽样即划类选典抽样方式。
配额抽样实施简单,并且所抽出的样本不致偏重某一阶层或地区,代表性高,因此,在市场调查中有着广泛的应用。
第 13 页 共 112 页
概率抽样和非概率抽样的区别(领会):
概率抽样和非概率抽样二者所得到的数据资料虽然都可以用来推算总体的指标数值,但是由于非概率抽样不能计算出每个可能样本被抽出的概率,所以,无法计算用样本估计总体所产生的误差的大小;而概率抽样则可以计算其所产生的误差,并可对此误差加以控制。因此,从估计误差的计算和控制上来说,概率抽样明显地比非概率抽样优越。
在实践中,重要的抽样调查均采用概率抽样调查方式,推断统计学的主要研究内容就是围绕概率抽样及其所得数据资料的分析方法而展开的。
二、调查的观测方式(识记:各种观测方式。领会:各种方式的优缺点。简单应用:各种观测方式。重点:各种观测方式)
两种方式:访问法和观察法 (一)访问法
访问法就是将所要调查的个体指标拟成问题,用口头或书面形式向被调查者提出询问,根据被调查者的回答取得所需的数据资料的一种方法。 1.口头访问
口头访问可以是当面访问,也可以是电话访问,其过程是调查人员向被调查者提问并记录其回答,然后根据记录填出调查问卷。
实践中,究竟是采用当面访问还是采用电话访问,这需要根据调查对象的特点和调查项目的多少以及难易程度而定,如对商店顾客的调查只能是当面访问,而对居民家庭的调查则可采用电话访问。
当面访问有个别访问和小组访问即召集若干被调查者一起开调查会两种形式。这种调查方法的优点是访问时间可以长些,并可在询问时观察被调查者的反应,能得到较深入的资料,且问卷回收率较高;其缺点是调查成本较高,调查结果正确与否受调查人员访问技术熟练程度以及被访问者诚实与否的影响很大。 2.书面访问
书面访问过程是先将调查问卷交给被调查者,由被调查者填好后再将其收回。调查问卷的送交和收回有两种方式,一是通过邮局邮寄或者通过互联网的电子邮件系统传递,二是调查人员登门送收。
实践中选用哪种方式,这要视被调查者散布地域的大小及调查经费的多少而定。邮局邮寄和利用互联网传递的方式成本较低,但问卷回收率一般也较低,且回收的问卷可能只来自某一阶层,从而会影响调查结果的代表性。调查人员登门送收方式成本较高,但问卷回收率也较高。 (二)观察法
观察法就是调查人员到调查现场,对被调查对象亲自进行观察、计数和记录,以获取所需要的数据资料。例如:调查人员到商店里观察登记进入商店的顾客数量和顾客进入商店后的动作行为。
观察法的优点是调查过程中被调查者并不知晓自己正在接受调查,一切动作行为均为自然状态,故所得资料真实可靠,若在调查中能使用仪器如摄像机等则所得到的资料会更为真实详细。
这种方法的缺点是调查过程中观察不到诸如行为动机等内在因素,并且有时需要作较长时间的观察才能得到结果,调查成本较高,而且实践中使用这种方法的限制性条件也较多,对有些现象的调查如居民家庭收支情况调查就不能采用这种方法进行。
第 14 页 共 112 页
【单选题】下列搜集资料的方法中,属于访问法的是( )。 A.空间遥感调查法 B.电话调查法 C.直接观察法 D.实验法
『正确答案』B
『答案解析』本题考查调查的观测方式。
三、调查问卷的设计(重点:设计方法。识记:设计方法)
在现场调查中,各个调查项目通常需要拟成问题,做成问卷形式,以便于调查数据资料的记录和整理。要使所设计的问卷条理清晰、易于回答且又合乎调查目的的要求,以保证取得真实准确的资料,就必须掌握问卷设计的各种技术。
问卷设计技术主要包括提问方式和提问次序两个方面。 (一)提问方式
现场调查问卷中,调查问题是其核心内容,问题的提出方式是否恰当,对调查结果的影响很大。 调查问卷的提问方式:封闭型提问、开放型提问。 1.封闭型提问
封闭型提问的优点主要是调查时节省时间,从而可多问一些问题,且资料分类整理易于处理。
缺点是被调查者不能自由表达看法,问卷上给出的答案可能并不包含被调查者想要给出的回答,从而被调查者只好选择一种并非真正代表自己意见的答案,降低了调查所得资料的客观性。 2.开放型提问
开放型提问方式是在问卷上仅给出问题,并不给出可供选择的答案,由被调查者根据问题自由回答。 (二)提问次序
调查问卷中提问次序安排得是否合理,往往也会影响调查所得数据资料的质量,因此,对提问的次序也有要求。 一般来说,问题提出的次序应该是先易后难,先一般后特殊,即所谓漏斗式。问卷开始所提出的问题性质宽泛,被调查者容易回答,然后逐渐缩小范围,到最后则属特殊的专门性问题。
提问的次序安排还应考虑到调查中采用的是哪种访问方法。一般来说,若采用口头访问法,则问卷开始应安排一些开放型问题,以便于被调查者能多说话,创造一个和谐轻松的调查气氛,便于整个调查工作的开展;若采用的是书面访问方式,则可将封闭型问题安排在问卷开头,使被调查者感到易于回答,有兴趣参加此项调查,而将开放性问题放在后面。
在实际工作中,为了避免提问次序对调查结果产生不良影响,可将问卷分成几部分,各部分的提问次序或封闭问题答案的次序不同,从而使提问次序所产生的偏差相抵消,以保证调查结果的质量。 第三节 试验观测
一、试验观测设计的原则
试验观测就是在对其他各种主要因素加以控制的条件下,令所考察的因素变动,以观测所研究事物的反应,从而揭示所考察因素与所研究事物之间的因果规律。
在试验观测中,所要考察的因素称为因子,所考察因素的各种不同状态称为水平或位级。 试验观测必须遵循以下两个原则:均衡分散性原则、整齐可比性原则。 (一)均衡分散性原则
所谓均衡分散性原则是指所进行的试验应均衡地分散在各个因素的不同水平或位级的全部各种可能配合之中,以便保证试验结果具有较强的代表性。倘若所做试验都集中于部分水平的特定配合之上,那么试验结果就可能具有某种偏差,不能全面准确地反映所考察因素与所考察事物之间的因果关系。 (二)整齐可比性原则
所谓整齐可比性原则是指试验考察某个因素的各个水平或位级的效应时,其他因素应保持相同的水平,以便保证在该因素各个水平或位级的效应中能最大限度地排除其他因素的干扰,从而能有效地进行比较。
第 15 页 共 112 页
二、试验观测的方法
在试验观测中,承受试验的个体称为试验单位,如在学生心理试验中被测试的每个学生。如何挑选所考察各因素水平的配合以及如何将各个实验单位安排到所选出的因素水平配合之中,是试验观测设计的基本问题。 (一)完全随机试验观测
完全随机试验观测类似于现场调查中的简单随机抽样调查,即将各试验单位随机地安排到所要进行试验的因素与水平配合之中进行试验观测。
对于一个因素或多个因素的情形都可用完全随机试验观测。 (二)随机区组试验观测
随机区组试验观测类似于现场调查中的分层随机抽样调查。
先将各个试验单位按其差异程度的大小分成若干类,每类称为一个区组,然后将每个区组中的各个试验单位随机地指派到各个因素水平上进行试验观测,这种安排试验的方法就称为随机区组试验观测。
作为随机区组试验观测的一个重要类型,当所考察的因素水平只有两种不同情形时,可将试验单位配成两两相似的若干对组合,随机抽取每对中的一个试验单位进行一种水平的试验观测,而另一个试验单位则进行另一种水平的试验观测,这种试验观测方法称为配对试验观测。 第四节 数据整理与显示 一、调查资料数据库的构建
对于通过数据调查而取得的各种数据资料,不仅应当建立各种各样的电子计算机数据库将它们妥善保存,而且还应当尽可能地提供给相关的部门和分析研究人员,对其进行各种各样的科学分析与研究,充分挖掘其中所含的有用信息,为政府和企业的相关决策提供科学的依据。 二、调查数据的分类显示(重点) (一)观测个体的分类(识记)
将其中的各个观测个体按照在某个项目上的取值或者属性差异进行分类,然后进行类与类之间的分析和比较研究。
分类具有两方面的功能,对总体和样本而言是分,即将总体或样本划分成若干个不同的组;对个体而言是合,即将相似或相同的个体合并为一个组。
分类是揭示事物内在规律的一种重要手段。
分类是对总体或样本的划分和对个体的合并,所以,任何分类都必须遵循两个原则(识记。重点): (1)互斥性,即所分各类不能交叉重叠,每个个体只能划归入一个类别之中。
(2)完备性,即所分的类能够涵盖全部个体,总体中的任何一个个体都有一个类可以归入,而且只能有一个类可归入,不能有遗漏。
互斥性和完备性保证了分类的不重不漏。
对观测个体进行分类,也就有单值分类和组距分类两种不同的分类方法(领会:单值分类和组距分类的方法与应用。重点)。
如果作为分类依据的个体项目只能取很少的几个数值,那么就可以将每个不同的取值作为一类,分类项目有几个不同的取值就可以分成多少类。例如,人口按性别分类,只能分为男性和女性两类。
如果作为分类依据的个体项目的不同取值个数很多,那么就可以将该个体项目的取值范围划分成若干个不同数值的区间,在同一区间内取值的个体为一类,一共划分了多少个区间就有多少类,如工业企业按职工人数分类,可分为99以下、100~999、1000~9999、10000以上,这种分类称为组距分类。
对同一总体或样本采用若干个不同的分类项目进行一系列的分类所形成的体系称为分类体系。在一个分类体系中,若各种不同项目的分类是相互独立平行的,则这种分类体系称为平行分类体系;若各种不同项目的分类逐一嵌套复合的,则这种分类体系称为复合分类体系。平行分类体系中的类别总数等于各种分类的类别数之和,而复合分类体系中的类别总数等于各种分类的类别数之积。
例如,企业职工按性别可分为男性和女性两类,按工作岗位分可分为生产工人、技术人员、管理人员、服务人员四类,则采用平行分类形成的平行分类体系中共有2+4=6类,而采用复合分类形成的复合分类体系中共有2×4
第 16 页 共 112 页
=8类。因此,复合分类体系比平行分类体系可以提供更多的信息,但为了不使分类过于庞大,复合分类体系中嵌套复合的分类项目一般不宜过多。
【多选题】观测个体的分类应遵循以下原则( )。 A.包容性 B.互斥性 C.科学性 D.完备性 E.同质性
『正确答案』BD
『答案解析』本题考查观测个体的分类。 (二)统计表的编制
所谓统计表,就是用来显示统计数据资料的表格(识记)。 用统计表显示统计数据资料具有系统条理且便于比较的优点。 1.统计表的结构(识记)
统计表一般由五个部分构成,分别为:总标题,横行标题,纵栏标题,数据资料,表末附注。
总标题是统计表的名称,概括扼要地指明统计表所显示的内容;横行标题是横行的名称,可以是统计表所要显示的总体或样本及其各个组别或各个个体的名称,也可以是所要显示的数据资料的指标名称,通常视统计表如何设计美观而定;纵栏标题是纵栏的名称,可以是统计表所要显示的数据资料的指标名称,也可以是所要显示的总体或样本及其各个组别或各个个体的名称,也视统计表如何设计美观而定;
数据资料就是统计表所要显示的内容,列于横行与纵栏交叉所形成的格子中,不过实践中这些中间格子一般不画出来;表末附注是列在表下部表示表中数据资料来源等必要说明事项的附带注释,视情况可有可无。 2.编制统计表应注意的问题 (1)全面安排,合理布局。 (2)各种标题应简明扼要。
(3)项目排列应合理。统计表中横行和纵栏项目应当按照逻辑顺序,如时间顺序、地理顺序等排列。当表中既有水平指标又有比率指标时,应当水平指标在前,比率指标在后。
(4)计量单位必须注明。统计表中各种数据都应注明计量单位,当表中数据只有一种计量单位时,可以把计量单位写在表的右上角;当表中数据的计量单位不同时,横行的计量单位可以专设一栏,纵栏的计量单位要与纵栏标题写在同一格内,并用括号括住。
(5)栏数多时应加以编号。统计表的栏数较多时,通常需要编号。对于文字栏,通常编号为(甲)、(乙)、(丙)??对于数据栏,通常编号为(1)、(2)、(3)??在数据编号栏中,有时还可注明该栏数据的计算方法,如表2—1编号栏中的(5)=(3)/(1)表示第(5)栏的数据是由第(3)栏的数据除以第(1)栏的数据而得到的。
(6)数字填写,整齐规格。统计表中的数据应该填写整齐,上下对准位数。表中相同的数据都必须写上,不能用“同前”、“同上”、“同左”、“同右”等字样表示,不可能有数据的空格用实线段“—”表示,应该有数据而缺资料时用虚线段“?”表示。
(7)若有必要,加注说明。说明或注解一般写在表的下端。
第三章 次数分布
第一节 次数分布的编制与显示 一、次数分布的概念(识记。重点)
概念:观测变量的各个不同数值及每个不同数值的出现次数的顺序排列,称为变量的次数分布。 列出观测变量的次数分布是展示统计活动所取得数据的分布状况的最基本方法,也是描述观测数据状况的首要方法。
第 17 页 共 112 页
得出次数分布的方法:
(1)如果所研究的总体是有限总体,并且对总体中的每个个体都进行了观测,如在现场调查中对所研究总体中的全部个体进行了普查,那么人们就可以得到总体中全部个体的观测变量值,从而就可以列出观测变量总体的次数分布。
(2)如果使用列出总体次数分布的方法,将样本中观测变量的各个不同数值及每个不同数值的出现次数顺序列出,就得到了观测变量的样本次数分布。观测变量的样本次数分布是其总体次数分布的一个代表,如果总体的次数分布未知,那么就可以用样本次数分布对总体的次数分布进行估计。
次数分布的作用:由于观测变量的次数分布包含了观测变量在所研究总体或所取得样本中取值的全部信息,因此,列出观测变量的次数分布就是进行统计分析推断的基础。有了观测变量的次数分布,就可以根据这一次数分布对观测变量的各种分布特征进行描述和分析,如分析观测变量取值的分布中心和离散程度,从而揭示出所研究总体或所取得样本的各种特征。 二、次数分布表及其编制
概念(识记):观测变量的次数分布通常用统计表来表示,这种表示观测变量的次数分布的统计表就称为次数分布表。
一个次数分布表必须由两列或两行构成,一列或一行是观测变量的各个不同数值;另一列或另一行是观测变量的各个不同数值出现的次数。顺序一一列出的观测变量的每一个不同取值就形成了一个组,称为次数分布表的组变量值;而每个组变量值的次数则是该组变量值在总体或样本中出现的次数,称为组次数;各组次数与总次数的比值,称为组比重或组频率。
一个次数分布表,可以列出各个组变量值和相应的各组次数,也可以列出各个组变量值和相应的各组频率,还可以同时列出各个组变量值和相应的各组次数以及各组频率。由此可见,各组变量值和各组次数或各组频率是次数分布表的两个必不可少的要素。
种类(识记):按照观测变量取值形式的不同,通常可将观测变量划分为定性变量和定量变量两大类。凡是用名义尺度和顺序尺度计量的观测变量通常称为定性变量,用差距尺度和比例尺度计量的观测变量称为定量变量。虽然定性变量取值的表现形式不是数值,但是通过量化后就可以将定性变量转换为定量变量的形式。
实践中,编制观测变量次数分布表的方法通常有单值分组次数分布表和组距分组次数分布表两种形式。 (一)单值分组次数分布表(重点。简单应用)
在编制次数分布表时,会遇到所观测变量是离散的且只取少数几个不同数值的情况,要列出其次数分布,就可以采用单值分组的方法,将此观测变量的每一个不同取值作为一组,即用每一个不同的取值代表一个组的变量值,并计算出各组变量值出现的个数即各组次数,然后顺序列在次数分布表中。这样的次数分布表就称为单值分组次数分布表。
(二)组距分组次数分布表(重点。简单应用)
在统计实践活动中,当遇到取值较多的离散型变量或者是连续型变量时,则需编制组距分组的次数分布表,例如,对于许多用差距尺度和比例尺度计量的观测变量就是如此。需要采用组距分组的方法来编制其次数分布表。所谓观测变量的组距分组次数分布表,就是将观测变量的整个取值范围依次划分成若干个区间,每个区间作为一个分组,并计算出每个分组区间上观测变量的变量值的个数,然后依次将各个分组区间和各分组区间上变量值的个数在一个统计表中顺序列出,就得到了观测变量的组距分组次数分布表。 要求:编制组距分组次数分布表。
通常,编制组距分组次数分布表有以下五个步骤。 1.确定组数
采用组距分组方法对变量的取值进行分组,各组的区间长度可以相等,也可以不等,各组区间长度相等的称为等距分组,各组区间长度不相等的称为异距分组。若观测变量的取值变动不均匀,如急剧增大、变小,变动幅度很大时,应采用异距分组;若观测变量的取值变动均匀,则应采用等距分组。等距分组便于比较和分析处理,因此,在实践中应尽量采用等距分组。
组距分组的组数究竟应该取多少并没有绝对的标准,一般来说,组数的多少应根据所取得的观测变量中观测值的个数来确定,当变量的观测值较多时,组数应多些,而观测值较少时,组数应少些。分组的组数不宜太少,也不第 18 页 共 112 页
宜过多。组数太少难以反映出变量分布的实际特征,组数太多则太琐碎,也难以反映出观测变量分布的特征。对于异距分组,组数的多少,可在考虑观测变量值个数多少的基础上,再考虑变量取值变动的特点而确定。对于等距分组,斯特吉斯曾给出一个大致的计算组数的公式,可作为参考。记变量值的个数为N,组数为m,则斯特吉斯公式为: m=1+3.322IgN
实践中,对于给定的一组数据,可先使用斯特吉斯公式计算出一个等距分组的组数值,作为确定组数的一个参考,然后再根据变量中变量值的特点具体确定出分组的组数。
对于[例3—3]中某城区居民家庭2010年3月份的食品消费支出金额数据资料,其中共有60个变量值,即有N=60,使用斯特吉斯公式,可计算出等距分组的组数m为: m=l+3.322lg60=7 2.确定组距
在组距分组中,每组的最大值(max)和最小值(min)之间的距离称为组距。确定了分组的组数之后,接下来就需要确定出分组的组距。等距分组的组距可根据变量值的取值范围和已确定的数组而定,记观测变量中的第i个变量值为xi,等距分组的组距为w,则由下式可计算出w的最低值为: W=【max(xi) -min(xi)】/m
对于[例3—3]中某城区居民家庭月食品消费支出金额数据,其中最大值为1040 元,最小值为350元,若分为7组,则用下面的公式可计算出组距的最低值为: w=(1040-350)/7=98. 57(元)
采用上述公式计算出的组距是在确定的组数下组距的最小值,在实际分组中,为了使全部变量值都能有组可归,实际的组距只能比此值大,而不能比此值小。在实践中,人们为了计算和使用方便,通常采用5或10及其整数倍等整数作为组距,所以,在具体分组时,应用上述公式计算的组距值如果接近于5或10的倍数,则可用5或10的倍数作为组距,对于[例3—3]中居民家庭月食品消费支出金额数据来说,用上式计算出的组距值为 98.57,所以,可用100作为组距。 3.确定组限
在组距分组中,每组的最大值称为该组的上限,每组的最小值称为该组的下限,上限和下限统称为组限。在确定了分组的组数和组距之后,就需要确定各组的组限。各组的组限应尽量用整数,特别是5或10的倍数来表示。 因此,在确定各组的组限时,如果变量的最小值为整数,就可将此变量的最小值作为最低一组的下限;如果变量的最小值不是整数,就可用比此变量的最小值稍小一点的整数值作为最低一组的下限。确定了最低一组的下限以后,依次每增加一个组距就是一个组限,当组限值增加到比变量的最大值还大时即为最高组的上限。这样,就实现了观测变量的组距分组。
组限的表示方法根据变量的不同也有所不同。若变量是离散变量,则相邻两组中变量值较小一组的上限和变量值较大一组的下限可分别用相邻的两个整数值表示;若变量是连续变量或是可取整数又可取非整数的离散变量,则相邻两组变量值较小的一组的上限和变量值较大一组的下限只能用同一数值表示。为了不违反分组的互斥性原则,在后一种情况下一般规定上限不包含在本组之内,称为“上限不在内原则”。
例如,在[例3—3]中居民家庭月食品消费支出金额数据中,其中的最小值为350 元,则此时可以将最低一组的下限确定为350元,然后顺次加上100元,就可得出各个组限值分别为450、550、650、750、850、950、1050元。这样就得出了全部分组的组限。
需要特别指出的是,本例中的全部变量值都被归入所划分的7个组中,假若在实际中,遇到某些变量的取值出现特别小的数值或者特别大的数值时,其最小的变量值无法归入最小一组中,或者最大的变量值也无法归入最大一组中,这时我们就需要将最小一组的组限表示为“某某以下”,或者将最大一组的组限表示为“某某以上”的形式,即最小一组只给出上限或者最大一组只给出下限,一般将这种缺下限或者缺上限的组称为“开口组”。 4.计算各组的次数(频数)
在确定了各组的组限以后,就需要计算出变量值中落入各组之内的个数,每组所分配的变量值的个数也就是该组的次数(频数)。
5.列出组距分组次数分布表
当各组变量值的变动范围和各组的次数确定之后,接下来就可以将各组变量值按照从小到大的顺序排列,并列
第 19 页 共 112 页
出相对应的次数,就形成组距分组次数分布表,通常又将这种次数分布表称为变量数列。根据 [例3—3]资料,经过整理,。
(三)累计频数和累计频率 1.累计频数(或频率)分布数列
在研究频数(或频率)分布时,还常常需要编制累计频数数列和累计频率数列。累计频数(或频率)可以采用向上累计频数(或频率),也可以采用向下累计频数(或频率)。
向上累计频数(或频率)的具体做法是:由变量值低的组向变量值高的组依次累计频数(或频率)。向上累计频数的结果表明某组上限以下的各组次数(或频数)之和是多少;向上累计频率的结果表明某组上限以下的各组次数(或频数)之和占总次数(或总频数)的比重是多少。因此,当我们所关心的是变量值比较小的现象的次数分布情况时,通常采用向上累计,以表明所关注的某一较低变量值以下的变量值出现的次数占总次数的比重。
向下累计频数(或频率)的具体做法是:由变量值高的组向变量值低的组依次累计频数(或频率)。向下累计频数的结果表明某组下限及以上各组次数(或频数)之和是多少;向下累计频率的结果表明某组下限及以上各组次数(或频数)之和占总次数(或总频数)的比重。因此,当我们所关心的是变量值比较大的现象的次数分布情况时,通常采用向下累计,以表明所关注的某一较高变量值以上的变量值出现的次数占总次数的比重。 【例3—4】以表3—3资料为例,分别计算向上和向下累计。 解:所得结果如表3—4所示。
表3—4 某城区60户家庭月食品消费支出金额的次数分布累计表
月食品消费支出(元) 350~450 450~550 550~650 650~750 750~850 850~950 950~1 050 合计 家庭数(频数) (户) 2 6 10 13 20 8 1 60 比重(频率)(%) 3.3 10.0 16.7 21.7 33.3 13.3 1.7 100.0 向上累计 向下累计 频数 频率(%) 频数 频率(%) 2 8 18 31 51 59 60 — 3.3 13.3 30.0 51.7 85.0 98.3 100.0 — 60 58 52 42 29 9 1 — 100.0 96.7 86.7 70.0 48.3 15.0 1.7 —
由表3—4中的向上累计结果可以看出:在60个家庭中,月食品消费支出在650元以下的有18个家庭,占家庭总数的30%,月食品消费支出在850元以下的有51个家庭,占家庭总数的85%;由向下累计可以看出,月食品消费支出在650元及以上的有42个家庭,占家庭总数的70%,月食品消费支出在850元及以上的有9个家庭,占家庭总数的15%。
2.累计频数(或频率)分布曲线
累计频数和累计频率不仅可以用上述的表格形式表示,还可以用图形表示。累计频数 (频率)的分布图分为向上累计频数(频率)分布图和向下累计频数(频率)分布图。不论是向上累计还是向下累计,均以分组变量为横轴,以累计频数(频率)为纵轴。
在直角坐标系上将各组组距的上限与其相应的累计频数(频率)构成坐标点,依次用折线(或光滑曲线)相连,即是向上累计分布图。对于向下累计频数分布图,在直角坐标系上将各组组距下限与其相应累计频数(频率)构成坐标点,依次用折线(或光滑曲线)相连,即是向下累计分布图,如图3—1所示。
累计频数和累计频率可以概括地反映变量取值的分布特征,向上累计分布曲线呈上升状,向下累计分布曲线呈下降状。组的次数(或频数)较少,曲线显得平缓;组的次数 (或频数)较密集,曲线显得较陡峭。 (四)变量数列分布图
变量的次数分布除了可以用上面的次数分布表来表示外,在实际研究中,还可以使用变量的次数分布图来显示。
第 20 页 共 112 页
变量的次数分布图就是用线和面等形状来显示次数分布的几何图形,常用的次数分布图主要有柱状图、直方图和折线图等几种。 1.柱状图
所谓柱状图,就是用顺序排的柱状线段的高低来显示各组变量值出现次数的多少或频率高低的图形。柱状图通常用来显示单项分组的次数分布。如根据表3—2给出的某小区居民家庭人口数的次数分布可作出柱状图,如图3—2所示。
2.直方图
所谓直方图,就是用顺序排列的各区间上的直方条表示变量在各区间内取值的次数或频率的图形。直方图可用来显示变量的组距分组次数分布。如根据表3—3给出的某城区60个居民家庭月食品消费支出金额次数分布就可以做出其次数分布直方图如图3-3所示。
在直方图中,横轴表示变量,纵轴可以表示各组次数或各组频率,也可以表示各组的次数密度或频率密度。所谓次数密度是各组的次数与其组距的比率,而频率密度则是各组频率与其组距的比率,它们的计算公式分别为: 次数密度=次数/组距 频率密度=频率/组距 次数密度和频率密度分别表示各组距内单位区间上的次数和频率,是标准化的次数和频率。如果纵轴表示次数或频率,则各直方条的高就表示各组的次数或频率;如果纵轴表示次数密度或频率密度,则各直方条的面积为各组的次数或频率,所有直方条的总面积等于总次数或频率总和。对于等距分组次数分布,纵轴的上述四种表示方法均可;但对于异距分组的次数分布,由于各组组距不等,组距大,组内的次数和频率相应就多,组距小,组内的次数和频率相应就少,所以,为了避免直方图的图形失真,其纵轴只能表示次数密度或频率密度。 3.折线图
在直方图中将各直方条顶端中点用线段连接起来,并在最低组之前和最高组之后各延长半个组距,将所连折线再连接到横轴上,所形成的图形就称为次数分布折线图。折线图也可用来显示组距分组的次数分布。如根据表3—3给出的某城区60个居民家庭月食品消费支出金额数据和图3—3的直方图,可以做出如图3—4所示的某城区60个居民家庭月食品消费支出金额的次数分布折线图。
与直方图类似,分布折线图中的纵轴也有四种表示方法,即可表示次数、频率、次数密度或频率密度。在实际分析中,最有用的分布折线图是纵轴为频率密度的分布折线图,在此类分布折线图中,分布折线下某一区间图形的面积近似地等于变量在该区间内取值的频率,而分布折线与横轴所围成的整个图形的总面积近似等于1。当变量的变量值很多且分组较多较细时,分布折线图就趋近于一条光滑的曲线。 第二节 次数分布的理论模型
—、次数分布理论模型的概念和意义
识记概念:统计活动中所观测研究的变量,由于其取值随着观测个体的不同而不同,并具有随机性,因此,都被定义为随机变量。而随机变量取某一个数值或在某个区间上取值被看作一个随机事件,随机变量在某个数值上或在某个区间内取值的频率,就是该随机事件发生的频率,因此,随机变量次数分布的理论模型也称为该变量的概率分布模型。 随机变量的概率分布的表示方法主要有三种,即概率分布表、概率分布图和概率分布函数。其中概率分布模型的数学函数式在理论分析研究中具有重要的地位和作用。在实际应用中一般使用理论概率分布模型的函数表和分布图。
两类:离散型随机变量概率分布模型和连续型随机变量分布模型。(识记两类模型分别有哪些表示方法。掌握下列各种模型的概念)
二、离散型随机变量的概率分布
若随机变量的所有可能取值是有限个或可列无限多个,则这种随机变量称为离散型随机变量。 要掌握一个离散型随机变量X的概率分布,不仅要知道X的所有可能取值,而且还要知道它取每个值的概率。 设离散型随机变量X所有可能的取值为xk( k= 1,2,?),X 取各个可能值的概率,
第 21 页 共 112 页
即事件{ X = xk}的概率为:
P{X=xk}=Pk, k= 1 ,2,? (3.1) 由概率的定义知,PK满足如下两个条件: (1) Pk≥0 k= l, 2,...
(2)
我们称式3. 1为离散型随机变量X 的概率分布或分布律。分布律也可以用表格的形式来表示,见表3—5。 表3-5 分布律 X Pk X1 X2 ? Xn ? P1 P2 ? Pn ? 由分布律的定义知:若要求离散型随机变量X 的分布律,首先需要知道X 的所有可能取值;然后求出X 取每个值的概率;最后将X 的全部取值与取每个值的概率用表3—5的形式表示出来即可。 【例3—5】随机变量X 表示掷一颗骰子出现的点数,求X 的分布律。 解:X 所有可能的取值为:1,2,3,4,5,6,且相应的概率为: P { X = k } = 1/6 (k= 1 ,2,3,4,5,6) 其分布律见表3—6。 表3-6 分布律
X Pk 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6
下面介绍几种常用的离散型随机变量的概率分布。 两点分布、超几何分布、二项分布、泊松分布 (一)两点分布
两点分布的应用条件是:若互相独立的重复试验只有“成功”和“失败”两种结果,这种试验称为贝努里试验。如掷硬币、产品质量(合格和不合格)、未出生婴儿的性别、某类电视节目(观看和未观看)等的实验都属于贝努里试验。这类实验具有以下特征:
(1)实验只有两种对立的结果。假定一种是“成功”,另一种就是“失败”。
(2)若成功事件的概率是P ,那么失败事件的概率为1-P 或者q,即: p + q = 1。 (3)实验为独立试验。
两点分布的分布律如表3—7 所示。 表3-7 分布律 X Pk a 1-p b p 0<P<1,(a≠b),特别是a=0,b=1时,两点分布称为0-1分布,其分布律如表3-8所示。 表3-8 分布律
X Pk 0 1-p 1 p
(二)超几何分布
超几何分布的应用条件是:
(1)从一个含有N个个体的总体中,以不重复方式随机抽取n 个个体作为样本,各次抽样(试验)并非独立; (2)总体中的全部个体分为两类,
假设为“成功”与“失败”,其中“成功”类的个体数目为D 个,“失败”类的个体数目为N-D 个;
第 22 页 共 112 页
(3)样本中从“成功”类D 中抽取个体数目为k 个,从“失败”类N—D 中抽取个体数目为n—k 个。若要确定n 次实验中恰好出现k次成功的概率,则需采用概率模型为:
K=0,1,2?,n (3.2)
式3. 2 是超几何分布的分布律。 (三)二项分布
二项分布的应用条件是:在n次贝努里试验的基础上,若要确定其恰好有k次成功的概率,其中随机变量X 表示实验次数,则其概率模型为:
k=0,1,2,?,n (3.3)
式3. 3是二项分布的分布律,式中:0<p <1 ; n 为正整数;n 和p 为二项分布的两个重要参数。
此外,在二项分布中,当n = 1 时,二项分布就变为两点分布,因此,两点分布可以看作二项分布在n=1时的一个特例。
(四)泊松分布
服从泊松分布的随机变量对于描述在一个特定时间或空间范围内某一事件发生的次数很有用。比如,电话交换台在10分钟时间内收到用户的呼叫次数;在1小时内到达某售票口的人数等。在通常条件下,如果满足下面两个特点,那么,某一事件发生的次数就是一个可以用泊松分布来描述的随机变量。其一,任何两个相等的间隔期内某一事件发生次数的概率相等;其二,在某一间隔内某一事件的发生与否和其他任何一个间隔期内该事件的发生与否相互独立。
泊松分布的分布律为:
P {X=k} =
K=0,1,2,?
记作X ~P (λ) ,式中λ>0为参数。
【多选题】下列( )属于离散型随机变量的概率分布的表示方法。 A.两点分布 B.F分布 C.超几何分布 D.正态分布 E.泊松分布
『正确答案』ACE
『答案解析』BD属于连续型随机变量的概率分布的表示方法。
三、连续型随机变量的概率分布
由于连续型随机变量的取值是不可数且又不可列的,因此,其概率分布不能像离散型随机变量那样用分布律去描述,这时,我们需要根据连续型随机变量的变动特点,引入一个新的概念―― 概率分布密度,即用概率分布密度来描述连续型随机变量的变动规律。 定义:对于随机变量X 的分布函数F(x) ,如果存在非负函数f(x) ,使对任意实数x有: F(x)=
则称X为连续型随机变量,f(x)为X的概率分布密度,简称分布密度或概率密度。 分布密度的图形叫做分布密度曲线,如图3-5所示。
连续型随机变量的分布函数F(x)的几何意义是:F(X)在点X处的值等于在区间 (-∞,x]上方,分布密度
第 23 页 共 112 页
曲线f(X)下方与横轴之间的面积,如图3-5所示。
图3—5 分布密度曲线
分布密度f(x )具有下列性质: (1)f(x )≥0,﹣∞<x<+∞ (2)P{a<X<b}=F(b)-F(a)=
这一性质的几何意义是:随机变量X落在区间(a,b]上的概率等于由直线x=a,x=b,x轴及密度曲线f(x)所围成的图形的面积。 (3)
(4)若f(x)在x处连续,则F'(x)=f(x )
若X是连续型随机变量,则对于任意实数a,都有P{X=a}=0。 下面我们讲解几种常用的连续型随机变量的概率分布。 (一)均匀分布
假定一个随机变量X,它表示一架从深圳飞往北京的飞机的飞行时间。再假定飞行时间X在180~200分钟之间取值。因为随机变量X在这个区间可以取任何值,所以X是连续型随机变量。假定从众多的实际飞行数据中,我们可以得出结论:从180分钟到200分钟任何一分钟间隔内飞行时间的概率相等。因为在每一分钟间隔内,飞行时间的概率都相等,所以称随机变量X服从均匀分布,其概率密度为:
若连续型随机变量X的概率密度为:
则称随机变量X在[a,b]上服从均匀分布。 (二)正态分布
正态分布是连续型随机变量最常用的一种分布,其在实际中的应用非常广泛。例如: 当将人的身高和体重、智商的量化值、学生的学习成绩以及证券的收益率等作为随机变量时,它们都可能近似地服从正态分布。若随机变量X的概率密度为:
,﹣∞<x<+∞
其中,ζ>0为常数,则称X服从参数为μ、ζ的正态分布,记作X~N(μ、ζ2)。正态分布的概率分布密度曲线,简称正态曲线,如图3—6所示。
第 24 页 共 112 页
图3-6正态分布概率密度曲线 正态分布具有下列重要性质:
(1)f(x)关于直线x=μ对称;在x=μ±ζ处有拐点。
,该处也是分布的中位数和众数。
(2)f(x)在x=μ处达到最大值
(3)当x→∞时,f(x) →0,即曲线y= f(x)以x轴为渐近线。
(4)当ζ越大时,曲线越平缓;当越小时,曲线越陡峭,如图3—7所示。
图3—7 ζ变动对一般正态分布曲线的影响
对于一般正态分布而言,若μ=0,ζ2= 1,即X~N(0,1)时,则称X服从标准正态分布。其概率密度为:
φ(x)=,﹣∞<x<∞
标准正态分布的密度曲线φ(x)如图3—8所示。
图3-8 标准正态分布概率密度曲线
若X~N(μ,ζ2),我们只要通过一个线性变换就能将它化成标准正态分布。即:如果X~N(μ,ζ2),则Z=(x-μ)/ζ~N(0,1).
Z通常称为X的标准化。这就是说,对于任一正态分布,我们都可以通过标准化使其变为标准正态分布。 为了便于计算正态分布的分布函数值,本书中附有标准正态分布表(见附录1.1),当 Z>0时,φ(Z)的值可由该表直接査出;当Z<0时,可由等式φ(Z) = 1-φ(﹣Z),通过查φ(Z)的值来换算φ(﹣Z)的值。 【例3-6】设X~N(1.5,4),要求计算:
(1) P{X<3.5}; (2) P{X>5.5}; (3) P{ |X-3|>6.5}
解:(1) P {X<3. 5} =P{(X-1.5)/2<(3.5-1.5)/2}=φ(1)=0. 8413
(2) P{X>5.5} = 1-P{X≤5.5} = 1-φ[(5.5-1.5)/2] =1-φ(2)=0. 022 8
(3) P{|X-3|>6.5}=P{X>9.5}+P{X<-3.5}
=1-φ[(9. 5-1.5)/2]+φ[(-3.5—1.5)/2]=1-1+1-φ(2.5)=1-0.0038=0.0062
【例3—7】某一轮胎制造商为了对一新型号轮胎制定质量担保协议,需制定一个担保寿命,若使用寿命小于该
第 25 页 共 112 页
寿命,则允许其退货。为此,对该轮胎的使用寿命进行测试,得到其使用寿命服从正态分布,μ为76 640公里,ζ为3 280公里。制造商要设置一个担保的使用寿命使其退货的概率小于4%。试问该担保的使用寿命应为何值?
解:设该轮胎的使用寿命为X,则
2
X~N(76640,3280)
设制造商制定的担保寿命为x,则按题意有
P{X<x}=0.04 即φ[(x-76640)/3280]=0.04
又因为φ(1.75)=0.96,所以φ(﹣1.75) = 1-φ(1.75)=0.04 则有(x-76640)/3280=-1.75 解得x=70 790 (公里)
故制造商制定的担保寿命应为70 790公里。 (三)指数分布
指数分布通常用来描述完成某项任务所需的时间,比如,乘客在公共汽车站等车的时间,灯泡的使用寿命(等待用坏的时间),两辆汽车到达某一洗车点的时间间隔,给一辆卡车装货所需要的时间,高速公路上两个主要疵点之间的距离,电话交换台收到两次呼叫的时间间隔,等等。指数分布的概率密度函数为:
其中λ>0为参数。(注:式3.4指数分布的期望值即均值为λ。)
例如,给一辆卡车装货所需的时间服从指数分布,若均值或平均装载时间是15分钟 (μ=15),则其概率密度函数为:
需要特别指出的是:指数分布和泊松分布之间存在一定的关系,在通常情况下,泊松分布用来描述某区间内某事件的发生次数,而指数分布则用来描述两次事件之间的长度。
假定用均值为每小时10辆汽车的泊松概率分布来描述在1小时到达某个洗车点的汽车数,给出每小时有x辆汽车到达洗车点的概率的泊松分布函数为:
f(x)=
x=0,1,?
因为每小时平均有10辆汽车到达洗车点,两辆汽车到达之间的时间即为: 1小时/10辆汽车=0.1小时/辆汽车
因此,对应的描述两辆汽车到达之间的指数分布的均值就是μ=0.1小时/辆汽车,则其指数分布密度函数为:
f(x)=
2
(四)χ分布
2
χ分布是若干个相互独立的标准正态随机变量平方和的概率分布模型。所谓若干个随机变量相互独立,是指这些随机变量的取值及其概率相互没有影响。若一个随机变量是若干个相互独立的标准正态变量的平方和,则该随机2
变量的概率分布就是χ分布。 假如随机变量Z1,Z2,?,Zn都服从标准正态分布N(0,1),且相互独立,若记这些标准正态变量的平方和为X,即令
第 26 页 共 112 页
X=
则该随机变量X服从χ(n)分布,其概率密度函数为:
2
22222
χ分布有一个参数n,它也称为χ分布变量的自由度。χ分布一般记作χ (n)。若 随机变量X服从χ分
22
布,则记作X~χ (n)。χ分布变量的概率密度函数的图形,随着其参数即自由度n的不同而有不同的形状,如图3—9所示。 (五)t分布
22
设随机变量Z服从标准正态分布,随机变量X服从自由度为n的χ分布,即有Z~ N (0,1),X~χ (n),且二者相互独立,则随机变量
t=
服从学生t分布。此随机变量t的概率分布是由英国学者戈塞特给出的,由于戈塞特在发表此分布时使用了“学生”的笔名,所以,此分布通常也就称为学生分布。学生t分布的概率密度函数为:
,﹣∞<x<∞
2
t分布也有一个参数,即其分母中χ变量的自由度n,也称为t分布变量的自由度。t 分布一般记作t(n)。若随机变量t服从自由度为n的t分布,则记作t~t(n)。t分布的概率密度函数的图形是一条以纵轴为对称轴的对称曲线,很接近标准正态分布概率密度曲线。实际上,当t分布变量的自由度n趋近于无穷时,t分布的极限分布就是标准正态分布。而当其自由度n>=30时,t分布与标准正态分布的差别就已经很小,就可以用标准正态分布来代替t分布。t分布的概率密度曲线如图3—10所示。
(六)F分布
2
F分布是两个互相独立的χ分布随机变量除以各自的自由度以后二者再相除之商所构成的随机变量的概率分布模型。
2222
设随机变量Um服从自由度为m的χ分布,随机变量Vn服从自由度为n的χ分布,即有Um~χ (m),Vn~χ (n)且二者相互独立,则二者分别除以各自的自由度后再相除所构成的随机变量 F=(Um/m)/(Vn/n)
服从F (m, n)分布,其概率密度函数为:
第 27 页 共 112 页
F分布也有两个参数,一个是分子中随机变量Um的自由度m,另一个是分母中随机变量Vn的自由度n,这两个自由度仍称为F分布的自由度,分别叫做F分布的第一自由度和第二自由度。F分布一般记作F(m,n),若随机变量X服从第一自由度为m和第二自由度为n的F分布,可记作X~F(m,n)。F分布的概率密度函数的图形也随着其分子和分母自由度的不同而有所不同,如图3—11所示。
2
正态分布、χ分布、t分布和F分布在统计分析推断中具有十分重要的地位和作用。虽然从理论上讲,服从这些分布的随机变量在任一区间取值的概率可根据其分布密度函数用定积分的方法计算出来,但是由于这些分布的密度函数都十分复杂,其积分的计算方法也都十分复杂,不便于应用,所以一般是专家事先根据这些密度函数用电子计算机计算出这些随机变量在各个区间取值的概率,编制成概率分布数值表,实际应用中只需查表即可。本书附录1中的常用统计用表给出了这几种概率分布模型的常用概率数值。 【单选题】( )通常用来描述完成某项任务所需的时间。 A.二项分布 B.指数分布 C.F分布 D.正态分布
『正确答案』B
『答案解析』指数分布通常用来描述完成某项任务所需的时间。
【总结】
第四章 分布特征的测度
第一节 分布中心的测度 一、分布中心的概念及意义
上一章我们学习了变量的次数分布,但仅仅掌握变量的次数分布是不够的,它无法对其作出全面系统的评价。为了对变量进行更深入的研究,还需要进一步揭示出变量的其他各种分布特征。其中,分布中心就是变量的一个最重要的分布特征。
第 28 页 共 112 页
定义(识记):所谓分布中心,是指距离一个变量的所有取值最近的数值。 揭示变量的分布中心有着十分重要的意义(领会):
(1)变量的分布中心是变量取值的一个代表,可以用它来反映其取值的一般水平。一个变量往往有许多个不同的取值,假若要用一个数值作为它们的代表,反映其一般水平,分布中心值无疑是一个最合适的数值。
(2)变量的分布中心可以揭示其取值的次数分布在直角坐标系上的集中位置,可以用来反映变量分布密度曲线的中心位置,即对称中心或尖峰位置。 二、分布中心的测度指标及其计算方法 算术平均数、中位数、众数。
识记、应用(重点):三个指标的概念和计算公式。 (一)算术平均数
算术平均数又称均值,它是一组变量值的总和与其变量值的个数总和的比值,是测度变量分布中心最常用的指标。 主要有简单算术平均数和加权算术平均数两种。 1.简单算术平均数
如果所掌握的资料是未经分组整理的一组变量值,就需要采用简单算术平均的方法计算其算术平均数。 设某一变量X的不同取值为x1,x2,?,xn,则其算术平均数的计算公式为:
=(x1+x2+?+xn)/n
【例4—1】已知某班级10名学生的数学期末考试成绩(分)为:56、58、64、65、72、75、79、84、86、95,则这10名学生数学期末考试成绩的算术平均数为:
=(56+58+64+65+72+75+79+84+86+95)/10=73.4(分/人)
2.加权算术平均数
如果所掌握的资料是已经经过分类整理的变量数列资料,包括单项分组的单项数列和组距分组的组距数列,要计算其变量值的算术平均数,就需要采用加权算术平均的方法。 设x1,x2,?,xn代表各组的变量值,f1, f2,?,fn,代表各组变量值出现的次数,也称权数,则加权算术平均数的计算公式为:
=Σxifi/Σfi=Σxi*(fi/Σfi)
式中fi/Σfi为各组的频率。
(1)单项数列算术平均数的计算方法。
由单项数列计算算术平均数可用xi(i=1,2,?,n)代表各组的变量值,用fi(i=1,2,?,n)代表各组变量值出现的次数,直接用上面公式计算。
【例4-2】某企业各类工人的工资水平和人数资料如表4-1所示。 表4-1 某企业平均工资计算表
工资等级 1 2 3 4 5 合计 月工资(元)(x) 1500 1650 1850 2150 2500 工人数(f) 8 10 20 8 4 50 工资总额(元)(xf) 12000 16500 37000 17200 10000 92700 第 29 页 共 112 页
则该企业工人月平均工资为:
=Σxf/Σf=92700/50=1854(元/人)
【例4-3】现仍用表4-1的资料,先计算各组工人数(频数)占总工人数的比重(频率),然后将各组频率乘以各组工人月工资(组变量值),并将各组计算结果加总,得工人平均工资,如表4-2所示。 表4-2 某企业平均工资计算表 月工资(元)(x) 1500 1650 1850 2150 2500 合计 工人数(f) 8 10 20 8 4 50 人数比重(%)(f/Σf) 16 20 40 16 8 100 月工资乘以人数比重 (xf/Σf) 240 330 740 344 200 1 854
=Σx(f/Σf)=1854(元/人)
从上述计算结果可以看出,对于同一资料而言,利用权数f与权数f/Σf的计算结果完全相同,而不同的只是使用了不同的权数形式。通常情况下,若已知各组变量值出现的次数(频数),即fi(i=1,2,?,n),使用公式Σxf/Σf计算,其权数形式为绝对数;若已知各组变量值出现的频率,即f/Σf,使用公式Σx(f/Σf)计算,其权数的形式为相对数。
(2)组距数列算术平均数的计算方法。
组距数列与单项数列计算算术平均数的方法的区别在于:组距数列首先需要计算出每个组的组中值,组中值就是各组变量值的代表值,其计算公式如下: 组中值=(上限+下限)/2 缺下限组的组中值=上限-邻组组距/2 缺上限组的组中值=下限+邻组组距/2 当我们按照上述公式将组距数列各组的组中值都计算出来之后,其实就相当于将组距数列变成了单项数列,接下来求其算术平均数的方法与单项数列完全相同。下面举例说明。
【例4-4】已知某班40名同学英语考试成绩如表4-3所示。试求其平均成绩。 表4-3 某班40名同学英语成绩分布 成绩分组(分) 60以下 60~70 70~80 80~90 90以上 合计 人数(人) 3 6 14 11 6 40 比重(%) 7.5 15.0 35.0 27. 5 15.0 100.0
解:由表4-3计算得表4-4。 表4-4 计算表 组中值x(分) 55 人数f(人) 3 频率f/Σf(%) 7.5 xf 165 x(f/Σf) 4.125 第 30 页 共 112 页
65 75 85 95 合计 6 14 11 6 40 15.0 35. 0 27.5 15.0 100 390 1050 935 570 3110 9. 75 26. 25 23. 375 14. 25 77. 75 =Σxf/Σf=3100/40=77.75(分)
=Σx(f/Σf)=77.75(分)
或:
3.应用算术平均数应注意的几个问题
(1)算术平均数容易受极端变量值的影响。变量取值中存在极小值或者极大值时应首先将其剔除,然后求余下的变量值的算术平均数,这样做的目的就是要剔除极端变量值对其平均数代表性的影响。
(2)权数对算术平均数大小起着权衡轻重的作用,但不取决于它的绝对值的大小,而是取决于它的比重。如果各组绝对权数按统一比例变化,则不会影响其算术平均数的大小,故比重权数更能反映权数的实质。
(3)根据组距数列求加权算术平均时,需用组中值作为各组变量值的代表。这样做的前提是假定各组内部的所有变量值是均匀分布的,但实际并非如此,故由组距数列计算的平均数在一般情况下只是一个近似值。 4.算术平均数的数学性质
(1)各变量值与其算术平均数离差的总和等于零。 Σ(x-
)=Σx-Σ
=Σx-n
=0
(2)各变量值与其算术平均数离差平方和为最小。 5.算术平均数的变形——调和平均数
已知变量数列中各组的变量值与各组的变量值总和时,不能直接使用加权算术平均数的计算公式,而应当使用加权算术平均数的变形——调和平均数,其变形公式如下:
令xf=m
【例4-5】已知某县甲、乙、丙、丁四乡的粮食平均亩产量和粮食总产量资料如表4-5所示,求该县的平均亩产。
表4-5 某县粮食产量情况表 乡名 甲 乙 丙 丁 合计 平均亩产(公斤)x 500 700 800 1000 - 粮食总产m(xf)(吨) 1300 3500 3600 3000 11400 播种面积(亩)f 2600 5000 4500 3000 15100
解:在上述资料中,若已知平均亩产与粮食总产两项,要求其平均亩产,则需采用下面的方法计算。
=Σm/(Σ*m)
=(1300000+3500000+3600000+3000000)
/(1300000/500+3500000/700+3600000/800+3000000/1000)=754.97(公斤)
第 31 页 共 112 页
若仅已知平均亩产与播种面积两项,要求其平均亩产,则需要采用下面的方法计算:
=Σxf/Σf=11400000/15100=754.97(公斤)
6.理论分布的算术平均数——数学期望
随机变量的期望值也称为平均值,它是随机变量取值的一种加权平均数,是随机变量分布的中心。 (1)离散型随机变量X的数学期望定义为: E(X)=Σxipi
【例4-6】设有两种投资方案,它们获取的利润如表4-6所示。 表4-6 两种投资方案分布表 利润(万元) 概率 甲方案 乙方案 100 0.2 0. 28 150 0.7 0.6 200 0.1 0.12
试比较两种投资方案哪种较好。
解:设X表示甲方案所获取的利润;Y表示乙方案所获取的利润。
要比较甲、乙两投资方案的优劣,也就是要比较两种方案谁获得的平均利润高 E(X)=100×0.2+150×0.7+200×0.1=145(万元) E(Y)=100×0.28+150×0.6+200×0.12=142(万元) 计算结果表明:甲方案略好于乙方案。
(2)连续型随机变量X的数学期望的定义为: E(X)=∫xf(x)dx
【例4-7】设市场对某种商品的需求量为随机变量X(单位:吨),它的分布密度为: f(x)=①1/2000, 2000<x<4000 ②0 其他
若售出这种商品1吨,可获利3万元;若销售不出去,则每吨需付仓储费1万元,应组织多少吨货源才能使收益的数学期望最大?
解:设m(吨)为组织货源,Y(万元)为收益,则有 Y=①3m,x≥m ②3x-(m-x),x<m
6
E(Y)= ∫yf(x)dx=1/2000*(∫(4x-m)dx+∫3mdx)=1/1000(-m2+7000m-2*10) dE(Y)/dm=1/1000(-2m+7000) 令dE(Y)/dm=0,
即1/1000(-2m+7000)=0, 得m=3500
故应组织3500吨货源才能使收益的数学期望达到最大。 (3)数学期望的性质:
1)设c为常数,则E(c)=c。
2)设X为随机变量,a为常数,则E(aX)=aE(X)。
3)设X、Y是两个随机变量,则E(X士Y)=E(X)+E(Y)。 4)设X、Y是相互独立的随机变量, 则E(XY)=E(X)E(Y)。 (二)中位数 1.中位数的概念
所谓中位数,是指将某一变量的变量值按照从小到大的顺序排成一列,位于这列数中心位置上的那个变量值。中位数表明在所有顺序排列的变量值中,小于中位数的变量值的个数与大于中位数的变量值的个数是相等的。因此,用中位数来代表所排列变量值的一般水平能够避免受到这些变量值中出现的极端变量值的影响,在某些特定条件下它更具有代表性。
第 32 页 共 112 页
2.中位数的确定
由于所掌握的资料不同,确定中位数的方法也有所区别。
(1)未分组资料中位数的确定。由未分组资料求中位数,首先将所有的变量值由小到大排列;然后用(n+1)/2确定中位数所处的位置;最后,寻找该位置的变量值,即为中位数;若变量值的个数n为偶数时,则应以排在数列中第n/2项与(n+1)/2项变量值的简单算术平均数作为中位数。
【例4一8】某车间甲、乙两个班组分别有9名和10名工人,其日产量资料如下: 甲班组 20 21 21 23 24 25 25 26 27 乙班组 19 21 22 22 24 26 27 28 29 30 试确定中位数。
解:甲班组工人日产量中位数是24件,乙班组工人日产量中位数是(24+26)/2=25件。
(2)单项数列中位数的确定。由单项数列确定中位数,首先应计算向上或向下累计次数,然后由公式计算结果与累计次数的结果确定中位数在单项数列中所处组的位置,则该组位置上的变量值就是中位数。 【例4-9】某小区居民家庭人口数分组资料如表4-7所示。 表4-7 居民家庭人口数分组表 家庭人口数(人) 1 2 3 4 5 合计 户数(户) 50 230 480 120 20 900 向上累计 50 280 760 880 900 — 向下累计 900 850 620 140 20 —
试确定该小区居民家庭人口数的中位数。 解:
中位数的位置=Σ(f+1)/2=(900+1)/2=450.5
从表中资料可以看出,中位数应为第三组的变量值,即me=3(人)。
(3)组距数列中位数的确定。由组距数列确定中位数,首先根据组距数列资料计算向上或向下累计次数;然后由公式的计算结果与累计次数的结果来确定中位数在数列中所在的组;最后由下列两个公式中任意一个均可确定中位数。
下限公式:me=L+(Σf/2-Sm-1)/fm*d 上限公式:me=U-(Σf/2-Sm+1)/fm*d 其中:me代表中位数;
L、U分别代表中位数所在组的下限和上限; fm代表中位数所在组的次数;
Sm-1代表变量值小于中位数的各组次数之和; Sm+1代表变量值大于中位数的各组次数之和; d代表中位数所在组的组距。
【例4-10】某村2000户居民人均年纯收入的分组资料如表4-8所示。 表4一8 居民人均年纯收入的分组表
人均年纯收入(元) 3000以下 3000~4000 4000~5000 5000~6000 户数 30 120 150 300 向上累计 30 150 300 600 向下累计 2000 1970 1850 1700 第 33 页 共 112 页
500 400 300 120 80 2 000 1100 1500 1800 1920 2000 — 1400 900 500 200 80 — 6000~7000 7000~8000 8000~9000 9000~10000 10000以上 合计
试确定该村2000户居民人均年纯收入的中位数。
解:根据(Σf+1)/2=(2000+1)/2 =1000.5和累计次数确定中位数的位置应在组距数列第五组。 按下限公式计算中位数: me=L+(Σf/2-Sm-1)/fm*d
=6000+(2000/2-600)/500*1000=6800(元) 按上限公式计算中位数: me=U-(Σf/2-Sm+1)/fm*d
=7000-(2000/2-900)/500*1000=6800(元) (三)众数 1.众数的概念
所谓众数,是指某一变量的全部取值中出现次数最多的那个变量值。 2.众数的确定
由于掌握资料不同,众数的确定方法也有所不同。
若掌握某一变量的一组未分组的变量值,则只需要统计出现次数最多的那个变量值即可;若掌握的资料是单项数列,则频数(或频率)最大组的变量值就是众数。
若掌握的资料是组距数列,要确定众数,首先依据各组变量值出现次数的多少确定众数所在的组;然后采用上限公式或者下限公式确定众数即可。其计算公式如下: 下限公式:m0=L+△1/(△1+△2)*d 上限公式:m0=U-△1/(△1+△2)*d 式中:m0代表众数;
L和U分别代表众数组的下限和上限; d代表众数组的组距;
△1代表众数组的次数与前一组次数之差; △2代表众数组的次数与后一组次数之差。
【例4-11】现仍以【例4-10】居民人均年纯收入资料为例,说明组距数列众数的确定方法。
由表4-8很明显地看出,居民人均年收入出现次数最多的是第五组,所对应的变量值是6000~7000元之间。 按下限公式计算:
m0=L+△1/(△1+△2)*d=6000+(500-300)/[(500-300)(500-400)]*1000=6666.67(元) 按上限公式计算:
m0=U-△1/(△1+△2)*d=7000-(500-400)/[(500-300)(500-400)]*1000=6666.67(元) 三、算术平均数、中位数和众数三者之间的关系
算术平均数、中位数和众数三者之间在数量上的关系取决于变量值在数列中的分布状况。
在正态分布的情况下,算术平均数、中位数和众数三者在数量上完全相等。它们在分布图形中处于同一位置(如图4一1所示)。
在偏态分布的情况下:
(1)当有极大变量值出现时,算术平均数向右远离众数,中位数居中,众数的位置在图形的最左边,它们三者之间在数值上的关系是:m0<me<,这种偏态分布称为正偏分布或右偏分布。如图4一2所示。
第 34 页 共 112 页
(2)当有极小的变量值出现时,也是对算术平均数的影响最大,它向左远离众数,中位数次之,其位置仍处于三者的中间,众数不受影响,其位置处于三者的最右边。<me<m0, 从上述的偏态分布可以看出:无论是左偏还是右偏,中位数总是在众数与算术平均数的中间位置。经验表明,在适度偏斜的情况下,众数与中位数的距离约为中位数与算术平均数距离的2倍。 三个经验公式:
=(1/2)*(3me-m0)
me=(1/3)*(m0+2 ) m0=3me-2
对于算术平均数、中位数和众数三者之间只要已知其中的两个,就可以使用上面的经验公式进行近似的推算。 【例4-12】已知某班学生统计学考试成绩的算术平均数为78分,众数是84分,则该班学生统计学成绩的中位数的近似值为:
me=(1/3)*(m0+2)=(1/3)*(84+2*78)=80(分)
三者关系为m0>me>`X ,属于偏左分布。
【例4-13】已知某单位职工年收入的众数是58000元,中位数是62000元,则该单位职工年收入的算术平均数的近似值为:
=(1/2)*(3me-m0)
=(1/2)*(3×62000-58000)=64000(元) 三者之间的关系是:>me>m0,属于右偏分布。
第二节 离散程度的测度 一、离散程度
首先,通过对变量取值之间离散程度的测定,可以反映各个变量值之间的差异大小,从而也就可以反映分布中心指标对各个变量值代表性的高低。
若变量的取值紧密地围绕着其分布中心而分布,则各个变量值之间的差异程度小,分布中心指标与其所代表的各个变量值之间的差异也就小,分布中心指标的代表性就高;反之,各个变量值之间的差异程度大,分布中心指标对各个变量值的代表性也就低。
其次,通过对变量取值之间离散程度的测定,可以大致反映变量次数分布密度曲线的形状。由于随机变量的分布密度曲线与代表变量的横轴之间所夹面积等于总频率或总概率即等于1,所以若变量的取值差异很小,都紧密地围绕在分布中心两侧,则其分布密度曲线必然是又瘦又高的形状;反之,若变量的取值差异很大,分布很宽,则其分布密度曲线必然是又矮又胖。因此,描述变量取值离散程度的指标也可用来描述分布密度曲线的形状。 二、离散程度的测度指标
极差、四分位全距、平均差、标准差、方差和变异系数。
识记、应用(重点):极差、平均差、标准差、变异系数的概念和计算公式。 (一)极差
极差又称全距,是指一组变量值中最大变量值与最小变量值之差,用来表示变量的变动范围。通常用R代表极差。 R=max(xi)- min(xi)
(1)在未分组情况下,极差的计算使用上述公式;在单项数列的情况下,极差=最大一组变量值-最小一组变量值;
第 35 页 共 112 页
2.不重复抽样
不重复抽样(即不重置抽样或不放回抽样)是指每次从有限总体中随机抽取一个个体,登记结果后不放回原总体,下一个个体继续从总体中余下的个体中随机抽取。其特点是:第一,n个个体的样本是由n次抽取的结果组成。 第二,每次抽取的结果不是独立的。
第三,虽然在同次试验中每个个体被抽中的概率是相同的,但在不同次试验中每个个体被抽中的概率是不相同的。
(二)其他抽样方法
简单随机抽样、类型抽样、等距抽样、整群抽样。
二、抽样分布
(一)抽样分布的概念(识记。重点)
对于给定的总体和抽样方式以及样本容量,样本指标取值的概率分布就称为抽样分布。
【例5—2】对于由6、7、8三个数组成的总体,若给定样本容量为2,并采用有放回的简单随机抽样方式,则样本均值这一统计量共有5个不同的取值,且这5个不同取值出现的概率不同。列出此样本均值的概率分布,如表5—1所示。
表5—1 样本均值的概率分布 样本均值 概率 6 1/9 6.5 2/9 7 3/9 7.5 2/9 8 1/9 样本统计量的精确分布通常也称为正态总体小样本分布;样本统计量的极限分布称为任意总体大样本分布。在使用样本统计量的极限分布时,通常都要求样本容量至少在50以上。 (二)常用的抽样分布
样本均值、样本比例和样本方差(领会)。 1.样本均值的抽样分布
不论所考察总体的概率分布如何,只要样本容量n足够大,其样本均值望,以
为标准误差的正态分布,即有:
2
2
的概率分布趋近于以总体均值μ为期
在实践中,总体的方差ζ总是未知的,通常需要用其估计量即样本方差S来代替。由于修正的无偏样本方差
是总体方差的无偏估计,所以实际应用中,通常都用无偏样本方差S来代替总体方差。
在小样本的情况下,记用s替换ζ后的随机变量为t,对于抽自正态总体的简单随机样本,就有:
2.样本比例的抽样分布
样本比例是总体比例的估计量,只能给出大样本条件下样本比例的抽样分布。
将样本比例作为一个数学期望为0、方差为1的标准正态变量,记此标准化变量为Z,则有:
2
3.样本方差的抽样分布
主要是在正态分布总体中应用。
第 41 页 共 112 页
第三节 点估计
一、总体参数与其估计量
在统计中需要使用一定的方法根据样本数据来推断总体的指标数值,总体指标又称为参数。根据样本来推断总体指标数值就称为抽样估计。它是推断统计学的主要内容之一。
估计量、估计值(识记):用来估计总体指标数值的统计量又称为该总体指标的估计量,该估计量的数值就称为该总体指标的估计值。
总体指标的估计量是一个随机变量,其数值随着所抽取的样本不同而不同,总体指标的估计值就是其估计量在某个给定样本上的取值。
二、构造估计量的方法——矩法估计(领会)
所谓矩法估计,是指用样本矩作为总体同一矩的估计量或者用样本矩的函数作为总体相应矩的函数的估计量。也就是说,若总体指标是所考察的随机变量的某阶矩,则可用样本观测值的同阶矩作为其估计量;若总体指标虽不是所考察随机变量的某阶矩,但却是某些矩的函数,则也可用样本相应的这些矩来构造成同样的函数作为其估计量。总体指标的估计量通常用代表该总体指标的字母戴一个尖帽表示。 三、判断估计量优劣的标准(领会)
常用的标准主要有一致性、无偏性、有效性、充分性和稳健性等。 (一)一致性
对于总体指标θ,若其估计量的取值随着样本容量的增大越来越接近于总体指标的真值,则该估计量 就称为总体指标θ的一致估计量,或称为相合估计量。一致性是对估计量的最基本的要求。
可以证明,由矩法估计所构造出来的估计量都是所要估计的总体指标的一致估计量,即都具有相合性。如样本均值是总体均值μ的一致估计量,样本比例p是总体比例P的一致统计量,样本方差S也是总体方差ζ的一致估计量。
(二)无偏性
虽然用样本指标去估计总体指标必然存在着估计误差,但是却不应该存在系统性的偏差,即不应该存在一贯偏大或偏小的偏差。因此,有无系统性偏差存在就可以作为判断估计量优劣的又一个标准。
对于总体指标θ若其估计量取值的数学期望等于总体指标θ的真值,即E()=θ,或估计误差(-θ)的数学期望为0,即E(-θ)=0,则该估计量就称为总体指标θ的无偏估计量。若E(-θ)=B,且B不为0,则就是总体指标θ的有偏估计量,即B为估计偏差。
同样也可以证明,样本均值是总体均值μ的无偏估计量,而常规的样本方差s并不是总体方差σ的无偏估计量。
2
修正的无偏样本方差的数学期望正好等于被估计的总体方差σ。 以上结论由【例5—3】验证。
修正的无偏样本方差与常规样本方差相比,只是分母少1。对于小样本来说,常规样本方差和无偏样本方差的值会有一定的差距,估计总体方差时应采用无偏样本方差作为其估计量。而对于大样本来说,常规样本方差和无偏
2
样本方差的值则相差无几,估计总体方差ζ时,用哪一个作估计量都可以。 (三)有效性
用样本指标来估计总体指标,显然估计误差越小越好,根据这一直观想法可得出判断估计量优劣的第三个标准。 对于任一总体指标θ,若存在两个无偏估计量计误差,则称估计量
1
1
2
2
2
2
和
2
,其中估计量
1
的估计误差平均来说小于估计量
2
的估
比
2
有效。
第 42 页 共 112 页
两个无偏估计量比较,方差较小者较为有效。
两个估计量的方差之比:
比
有效。
称为二者的相对效率。若比率ω<1,则称估计量
12
对于一个总体指标来说,若在其所有无偏估计量中能够找到一个估计量,其方差最小,则该估计量就称为该总体指标的最佳估计量。可以证明,样本均值就是该总体指标均值μ的最佳无偏估计量。
有效性标准是对估计量的方差进行比较,这只能用于无偏估计量的比较判断,而不适用于有偏估计量之间或有偏估计量与无偏估计量之间的比较判断。
为了给出适用于所有估计量之间比较判断的指标,可对有效性标准进行适当的修改,即可将判断估计量是否优良的指标改为估计量的均方误差,在待估总体指标的所有估计量中,均方误差最小的估计量可认为是最好的估计量,该标准可称为均方误差最小标准。
对于两个估计,若两个均为无偏估计量,则其方差最小者也就是均方误差最小者,故方差最小者较好;若其中一个是无偏估计量,另一个是有偏估计量,或者两个均为有偏估计量,则均方误差最小者较好,所以均方误差最小标准也是无偏性标准和有效性标准的综合。 (四)充分性
在进行总体指标的估计时,应充分利用样本资料提供的信息,以免造成浪费。根据这一思想,可给出判断估计量优劣的第四个标准。
对于总体指标θ,若其估计量提取了样本中包含的有关总体指标θ的全部信息,则估计量 就称为总体指标θ的充分估计量。
判断样本指标是否为某个总体指标的充分估计量,一般比较麻烦,不过在多数情况下,常用的总体指标的估计
22
量均是充分的。如在正态分布总体下,样本均值 是总体均值μ的充分估计量,样本方差s同样也是总体方差ζ的充分估计量。 (五)稳健性
在样本数据的采集和整理过程中,难免会发生一些差错,造成样本数据的污染。显然,用来估计总体指标的样本指标抗污染能力的强弱,也是衡量该估计量优劣的一个标准。如果用来估计总体指标θ的样本估计量对样本数据的污染不敏感,也就是说,估计量的数值不受被污染数据的干扰或受其干扰不大,那么该估计量就是总体指标θ的一个稳健统计量。
样本均值的抗污染能力很差,也就是说它不是一个稳健估计量。样本中位数是总体均值的一个稳健估计量。 一般来说,考虑到稳健性,往往会损失一定的有效性,因此,估计量的选择需要根据样本数据的特点在有效性和稳健性二者之间进行折中。例如,在估计总体均值时,考虑到样本均值有效性很高,但稳健性却较低,而样本中位数稳健性很高,但有效性却较低。所以,可以将样本均值和中位数的计算方法综合折中构造一种兼具二者特点的新估计量,这类估计量主要有切尾均值等。所谓切尾均值就是将样本数据按大小顺序排列以后,切掉序列两端的部分数据,只用序列中间的部分数据计算出的均值。实践中常用的一种切尾均值是中均值,即将样本数据排序序列两端各25%的数据切掉,只用中间一半数据计算的均值。
现实中,在人们的主观判断起主要作用的场合,切尾均值的使用十分普遍,如在歌手的唱歌比赛中,对歌手的评分就常采用评委打分的切尾均值。
上述各个标准均是优良的估计量所应该具备的性质。但是,正如我们已经看到的,一个估计量往往很难同时具备所有这些优良性质,这就需要我们根据研究的目的和样本数据的特点性质进行权衡选择或者进行折中选择。 【多选题】下列关于稳健性的说法正确的有( )。
A.由矩法估计所构造出来的估计量都是所要估计的总体指标的一致估计量 B.样本均值是总体均值的一个稳健估计量
第 43 页 共 112 页
C.常用的总体指标的估计量均是充分的
D.两个无偏估计量比较,方差较大者较为有效
E.对于小样本来说,估计总体方差时应采用无偏样本方差作为其估计量
『正确答案』ACE 『答案解析』选项 B,样本中位数是总体均值的一个稳健估计量,样本均值不是总体均值的一个稳健估计量。
选项D,两个无偏估计量比较,方差较小者较为有效。 四、估计量的标准误
样本估计值与总体指标真值之间总是存在着或大或小的抽样估计误差。估计误差愈大,抽样估计的精确程度就愈低。因此,有必要对抽样估计误差及其影响因素加以研究,以便把它控制到一个较小的范围之内,确保抽样估计的精度,减少决策的失误。
(一)标准误的概念(识记)
衡量抽样估计误差不能用抽样误差的直接平均,而应该采用将其平方后再平均的方法,即用样本估计量的方差或标准差。实践中一般均采用样本估计量的标准差作为衡量抽样估计误差的指标。样本估计量的标准差通常称为该估计量的标准误差,简称标准误。设所要估计的总体指标为θ,其估计量为,则此估计量的标准误就定义为:
2
【例5—4】在【例5—2】由6、7、8组成的总体中,总体均值为μ=7,总体方差ζ=2/3。抽取容量为2的简单随机样本,全部9个可能样本的均值已在表5—2的第2列中列出,由此可计算出样本均值无的方差和标准误分别为:
ζ=D()=E[-E()]2=E(-μ)2=(6-7)2×1/9+(6.5-7)2+(7-7)2×3/9+(7.5-7)2×2/9+(8-7)2×1/9=1/3
意义(领会):标准误是衡量一个估计量抽样估计误差大小的尺度。在抽样估计中,由于待估计的总体指标是未知的,所以,抽样估计误差的具体数值是不可知的,而标准误则给出了抽样估计误差的一般数值,可用于估计实际抽样估计误差的大小。
(二)标准误的计算(领会)
根据定义公式直接计算样本指标的标准误是不可能的。因此,标准误只能通过它与其他指标的关系用间接的方式求出。
1.样本均值的标准误
样本均值是总体均值μ的无偏估计量,所以其标准误可由其方差导出。不过,在不同的抽样方式之下,样本均值的方差是不相同的,因而其标准误也就不相同。 (1)若所得样本是采用有放回简单随机抽样方式抽取
有放回简单随机抽样所得的样本就是由若干个相互独立且与总体被观测变量分布完全相同的随机变量x1,x2,?,xn所组成的一个集合。
样本均值的标准误公式为:
2
2
例如,在例5-4中的6、7、8所组成的总体中,已知ζ=2/3,故对于容量为2的有放回简单随机样本,其样本均值的标准误为:
第 44 页 共 112 页
=3
/3
ζ=(2/3/2)
可见,用该公式计算的结果与用样本均值标准误定义公式计算结果相同。 (2)若所得样本是采用不放回简单随机抽样方式抽取
则样本的各次抽取不独立,从而使样本观测变量x1,x2,?,xn相互也不独立,前面的观测结果对后面的观测结果有影响,所以,样本均值的方差不能像有放回抽样方式下样本均值的方差那样很容易地导出。不放回抽样下样本均值的方差为:
2
例如,在上述6、7、8所组成的总体中,有N=3,ζ=2/3,若采用不放回简单随机抽样方式,则对于容量为n=2的样本来说,其样本均值的标准误为: ζ=[2/3/2(3-2)/(3-1)]
=6
/6
实践中,总体容量N一般都很大,为了计算简单,常将不放回抽样下样本均值标准误的计算公式近似地写为:
其中,n/N称为抽样比,表示总体中抽出的个体数占全部个体数的比重。
有放回抽样和不放回抽样各自样本均值的方差的比较:(1)不放回抽样下样本均值的方差公式中比有放回抽样下样本均值的方差公式中多了一个因子(N-n)/(N-1),由于该因子小于1,即(N-n)/(N-1)<1,所以,不放回抽样下样本均值的标准误比放回抽样下样本均值的标准误小。因此,实践中一般只采用不放回抽样的方式抽取样本,而很少采用有放回的抽样方式。
(2)当总体为无限总体时,不放回抽样下样本均值的标准误公式就简化为与有放回抽样下样本均值的标准误公式相同,故因子(N-n)/(N-1)通常称为有限总体校正因子。不过当总体容量N较大而抽样比n/N很小时,有限总体校正因子(N-n)/(N-l)或(1—n/N)通常可忽略不计。因此,实践中一般只使用有放回抽样的公式来计算其标准误。
由样本均值的标准误公式可以看出:要计算出样本均值标准误的数值,必须已知总体方差
222
ζ的数值,但实践中,总体方差ζ一般都是未知,需用其样本方差s来代替计算,故可得有放回抽样和不放回抽样下样本均值标准误的估计量公式分别为: 有放回抽样:
不有放回抽样:
【例5—5】某工厂收到供货方发来的一批电子元件共1000件,随机抽取了10件进行检验,测得各电子元件的使用寿命分别为1256、1307、1180、1450、1225、1198、1365、1420、1295、1304小时,试估计该批电子元件的平均使用寿命及其标准误。
解:由样本观测数据可计算出样本均值和样本方差分别为:
=(1256+1307+?+1304)/10=13000/10=1300(小时)
所以该批电子元件平均使用寿命的估计值为: μ==1300(小时)
第 45 页 共 112 页
正在阅读:
国民经济统计概论讲义(2015版)01-17
运动会场景描写片段02-07
保护水资源,从身边做起作文600字07-08
市税务局年度工作总结和下一年工作思路08-04
中级会计职称《财务管理》知识点:购买或经营租赁固定资产的决策11-01
网络复习考试个人整理07-05
2016六年级数学上册第一单元测试题01-12
大学物理第二册习题答案详解10-30
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 讲义
- 国民经济
- 概论
- 统计
- 2015
- 省级矿产资源总体规划编制技术规程(2015年)
- 儿少心理健康量表 MHS-CA
- 实验诊断学习题集
- 二年级必须掌握的词语
- 外墙装饰瓷项目可行性研究报告(目录) - 图文
- 银行轮岗办法
- 支付结算执法检查要点
- 北师大版三年级品德与社会下册期中检测题
- 企业6s知识竞赛试题及参考答案一
- 2017全国高考优秀作文素材精选
- 精品课第二章三相变压器题库
- 《马克思主义基本原理概论》第三章复习题
- 冶金热工基础推钢式加热炉课程设计
- 大学物理(科学出版社,熊天信、蒋德琼、冯一兵、李敏惠)第七、八章习题解
- 微观经济学(西方经济学,高鸿业—)复习题目
- 茶文化
- 陕西省学校发展水平督导评估316工程普通高中指标体系(试行)
- 钻井事故与复杂问题-2第二章 钻具断落事故 - 图文
- 成都信息工程学院C语言考试题及答案
- 网络安全实验报告1