统计学笔记(精修版)

更新时间:2024-03-07 00:47:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

.

绪论

第一节统计学的含义和作用

一、 什么是统计学 1.统计学的含义

统计学是有效收集、处理、分析和解释数据,发现规律,以便更好决策的一门方法论学科。

? 2. 分析数据的方法有描述统计、推断统计。 ⑴描述统计

①描述统计是将所收集的数据处理后,用数值、表格或图形形式表现的有用信息。 ②描述统计是基础,它为推断统计、统计咨询、统计决策提供必要 ⑵推断统计就是根据样本数据特征去估计或检验总体的数据特征。 二、 统计学的作用和重要性 1. 统计学的作用

人们用数据发现的规律做出更好的决策。

2. 要发现规律,对统计数据通常有要求:客观性、适用性、准确性和及时性。 三、 统计学是如何解决实际问题的? 统计学解决实际问题的基本思路是: ①提出与统计有关的实际问题; ②建立有效的指标体系; ③收集数据;

④选用或创造有效的统计方法处理、显示所收集数据的特征;

⑤根据所收集数据的特征、结合定性、定量知识作出总体特征的合理推断; ⑥根据推断给出更好决策的建议; 不解决问题时,重复第②-⑥步。

第二节统计学的基本概念

? 一、总体、单位和样本 1.总体

统计总体是根据一定目的确定的,由客观存在的、具有某种同质性的许多个别事物构成的整体。

⑴同质性是确定统计总体的基本标准,它是根据统计的研究目的而定的。研究目的不同,所确定的总体也不同,其同质性的意义也随之变化。

⑵统计总体还应具备大量性,即统计总体应应该由足够数量的同质性单位构成。

2.总体单位(简称单位)是组成总体的各个个体。如典型案例1中英军的每架战机;事例4中的每个居民。

3.由总体的部分单位组成的集合称为样本(又称子样)。构成样本的单位称为样品,样本中样品的数目称为样本容量。

4. 统计学解决问题的目的是认识总体的数据特征。但是,当调查是破坏性的,或者出于成本、时间等因素考虑时,不必要或不可能对构成总体的所有单位都进行调查。

word范文

.

? 二、标志、指标(参数)和统计量 1.标志:

(1)总体单位普遍具有的属性或特征称为标志。 (2)标志按其表现分为品质标志和数量标志两种。

? ①品质标志表明单位属性方面的特征,品质标志的表现只能用非数值来描述. (如:典型案例1中英军战机的类型,事例4中每个居民的性别。) ? ②数量标志表明单位数量方面的特征,其表现用数值来描述

(如: 典型案例1中英军战机的弹孔位置,事例4中每个居民的收入。) 2.参数(标志)

⑴统计总体具有的数量特征的概念和数值称为统计指标,也称为参数。 ⑵统计指标由两项基本要素构成,即指标的概念和指标的取值。

(指标的概念是对所研究现象本质的抽象概括,也是对总体数量特征的质的规定性。) (例如事例4中居民人口数100万人,总收入31.4亿元。) ⑶统计指标按表示形式可以分为数量指标和质量指标.

①凡是反映现象总规模、总水平的统计指标称为数量指标,用绝对数来表示。例如事例 4中居民总数100万人、总收入31.4亿元等,

②凡是反映现象相对水平和工作质量的统计指标称为质量指标,用相对数或平均数来表示.例如企业职工平均工资5000元、工人出勤率93%等。质量指标是总量指标的派生指标,以反映现象之间的内在联系和对比关系。 ⑷单个指标不能反映总体的全貌,这便需要设立指标体系。统计指标体系是由一系列相互联系的统计指标组成的有机整体,用以反映所研究现象各方面相互依存相互制约的关系。 3.统计量

⑴统计量是样本观测量的一个已知函数,用来说明样本的特征。是样本观测量的一个已知函数,用来说明样本的特征。

⑵抽取的样本不同,统计量的观测值也就不同。如样本平均数、样本方差、样本比例是统计量,抽取样本后,人们通常用与总体参数对应的统计量观测值,作为总体参数的估计.

(如某汽车制造企业从生产的一批轿车中抽取了16辆轿车,用这些轿车的平均行驶里程值、合格率值分别作为该批轿车平均行驶里程、合格率的估计。) 三、数据

? (一)变量与变量值

1.即说明现象的某一事实或数量的特征称为变量,将上述标志、指标和统计量的名称进行归纳就是变量。

2.变量的具体表现是变量值,数据就是变量及其表现,也可称为反映客观事物的事实或数量依据。

如:收入是一个变量,收入的表现是变量值。

3. 将在特定研究过程中收集的所有数据集合在一起,称为数据集。

4. 根据变量值的确定与否,变量分为确定性变量(受确定性因素影响,因素是明确的,可

解释,可控制的)与随机变量(受许多不确定因素影响,如员工的起床时间)。 (二)数据的计量尺度

收集数据时需要用到以下四种由低到高的计量尺度:定类尺度、定序尺度、定距尺度和定比尺度,计量尺度的不同决定了不同的数据分析与处理方法。

1.定类尺度是说明客观现象无序类别的计量。定类尺度的主要数学特征是“=”或“≠”.如居民的性别是男、女计量,战机的类型是战斗机、轰炸机、侦察机等计量,这一场合的所使用的数值只作为无序分类的代码。

word范文

.

2. 定序尺度是说明客观现象有序类别的非数值计量。定序尺度的主要数学特征是“<”或“>”.例如,对居民的满意度计量可以分为非常满意、满意、一般、不满意、非常不满意五类。这一场合的所使用的数值只作为有序分类的代码。

3. 定距尺度是说明客观现象数值间距有意义的计量。其用确切的数值反映现象之间在量方面的差异,定距尺度的主要数学特征是“+”“–” 。如总量指标是定距尺度计量的。 (0不代表不存在)

4.定比尺度是说明客观现象两个数值比有意义的计量。定比尺度的主要数学特征是“x”“/” 如质量指标中的相对数、平均数是定比尺度计量的(0代表不存在) 5数据分类

⑴定类尺度,定序尺度的数据统称为定性数据。定性变量是指带有定性数据的变量。 ⑵定距尺度,定比尺度的数据统称为为定量数据。定量变量是指带有定量数据的变量。

根据定量变量值连续出现与否,定量变量分为连续性变量与离散型变量。 ①连续型变量是指变量在某一区域内的取值是连续不断的,无法一一列举。如:军机的弹孔位置,产品的寿命等。

②离散型变量是指变量的取值是间断的,可以一一列举。例如,产品数等。 (三)数据的类型

根据对客观现象观察的角度不同,统计数据可分为:横截面数据、时间序列数据和面板数据。 1.横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位进行观察而获得的数据。例如,2014年全国各省、市、自治区的居民收入总值就属于横截面数据。 2.时间序列数据又称为动态数据,它是指在某一段时期内按时间顺序对同一总体进行观察而获得的数据。例如,“十二五”期间我国按年份顺序的居民收入总值就属于时间序列数据 3 .面板数据则是同时在时间和截面空间上取得的二维数据。例如2005-2014年30个企业的总产值数据。面板数据则由30个企业10年的数据组成,共有300个观测值。从某一年份看,它是由30个企业总产值数

第二章收集数据

第一节统计调查方案设计

调查方案设计是指导整个调查过程的纲领性文件,其主要内容主要包括以下几个方面: 一、确定调查目的

1. 调查要达到的具体目标 2. 回答“为什么调查?” 3. 调查之前必须明确

二、确定调查对象和调查单位

1. 调查对象:调查研究的总体或调查范围

2. 调查单位:需要对之进行调查的单位。可以是调查对象的全部单位(全面调查),也

可以是调查对象中的一部分单位(非全面调查) 3. 回答“向谁调查?

三、选择合适的调查方式、调查方法

1. 调查方式是指调查的组织方式,主要有:普查、抽样调查、典型调查、重点调查和

统计报表制度

2. 调查方法是指收集统计资料的方法,主要有:问卷法、访谈法、观察法和实验法

word范文

.

四、设计调查项目和调查表

1. 调查项目:调查的具体内容

2. 调查表:表现调查项目的表格或问卷。有单一表和一览表两种形式。 3. 回答“调查什么?” 五、确定调查时间

统计调查时间包括两种涵义:调查时间和调查期限 1. 调查时间:调查资料的所属时间(时期或时点)。

2. 调查期限:进行调查工作的时间,包括搜集资料和报送资料的整个工作所需要的时间 六、调查报告的撰写

调查报告的撰写包括:调查过程的描述、依据调查数据所做的决策、对调查结果的评价 【在调查方案中,应给出:提交调查报告的具体时间,并对调查的精度、费用等提出具体要求】

七、制订调查工作的组织实施计划

第二节数据收集来源

一、 数据收集的来源

1.原始数据:必须要求调研者亲自收集

2.二手数据:调研者需要识别和评估二手数据的有效性 二、二手数据的收集 1. 二手数据的来源 ⑴内部二手数据 ⑵外部二手数据

2.二手数据收集的特点

优点:快捷、成本低、易获取

缺点:相关性差、时效性差、可靠性低 四、 二手数据收集的注意事项 二手数据的评估主要包括:

1. 研究目的的评估——调研的目的是什么 2. 二手数据来源评估——谁收集了这些资料 3. 研究内容评估——收集了一些什么样的资料 4. 调查方式、方法评估——这些资料如何获得的

5. 二手数据相关性评估——这些资料与其他资料的一致程度如何 6. 二手数据时效性评估——这些资料是何时收集的

第三节原始数据的收集

一、 数据收集的分类

1. 按数据收集的组织方式不同,分为统计报表和专门调查

统计报表:按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级填报的一种调查组织方式。

专门调查:为了某一特定目的或专门问题而专门组织的调查

2. 按数据收集对象包括范围的大小不同,分为全面调查和非全面调查

全面调查:对构成调查对象中的所有党委进行一一不漏的调查

非全面调查:是在统计调查过程中,仅对调查中的一部分单位进行调查。包括:抽样调查、

word范文

.

重点调查、典型调查和非全面统计报表

3. 按数据收集的登记时间是否连续,分为经常性调查和一次性调查 经常性调查:又称连续性调查,它是为了观察社会经济现象在一定时期内的数量变化所进行的调查登记或数据收集 一次性调查:又称不连续性调查,它是对所研究的社会经济现象间隔一段时间所进行的调查登记或数据收集

4. 按数据收集实施主体的不同,分为政府统计调查和民间统计调查 ? 二、数据收集的调查方式

数据收集的调查方式,按照组织方式主要有:普查、抽样调查、典型调查、重点调查和统计报表制度

1. 普查:专门组织的一次性全面调查

普查的特点:

⑴通常是一次性调查,周期性强

⑵全面性调查,收集的资料全面、系统、准确 ⑶普查的点多面广,工作量大,投入多 普查应遵循以下原则: ⑴时间统一性原则

⑵登记工作的规范性原则 ⑶普查项目统一规定原则 ⑷同类普查同周期性原则

2. 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本数据推断总体

数量特征的一种非全面调查。

⑴概率抽样:根据随机原则从总体中抽选样本,并根据样本信息对总体的某些特征做出估计推断,对推断可能出现的误差可以从概率意义上加以控制 非概率抽样:调查组根据自己的方便或主观判断抽取样本的方法 ⑵抽样调查优势:经济性、时效性、准确性 ⑶几种具体的抽样方式:

① 简单随机抽样——是指从总体N个单位中随机抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。

② 分层抽样——主要特征分层按比例抽样,主要使用于总体中的个体有明显差异。共同点:每个个体被抽到的概率都相等N/M。

③ 整群抽样——是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。【应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小】

④ 等距抽样——首先将总体各单位按一定顺序排列,更具样本容量大小确定抽选间隔,然后随机抽取一个进入样本,直到满足要求为止的一种抽样方式

⑤ 多阶段抽样——是指将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将各种抽样方法结合使用,其在大型流行病学调查中常用。

第一阶段,将总体分为若干个一级抽样单位,从中抽选若干个一级抽样单位入样; 第二阶段,将入样的每个一级单位分成若干个二级抽样单位,从入样的每个一级单位中各抽选若干个二级抽样单位入样……,依此类推,直到获得最终样本 3. 典型调查:

从调查对象的全部单位中选择少数典型单位进行调查。目的是描述和揭示事物的本质特征和规律。调查结果不能用于推断总体

word范文

.

4.重点调查:

从调查对象的全部单位中选择少数重点单位进行调查。调查结果不能用于推断总体

5. 统计报表制度:按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级填报的一种调查组织方式。

统计报表内容:报表目录、报表表式、填表说明

统计报表的资料来源:原始记录、统计台账、企业内部报表 三、数据收集的方法

1.问卷法: 邮寄调查、电话调查、电脑辅助电话调查、网络调查 2.访谈法

优点:广泛地认识客观现象、深入地研究问题、资料收集可靠和应用面很广

缺点:必须依赖具有较高素质的访问员、直接交谈会对获取资料的客观性产生负面影响、在不便询问时访谈无法实施、调查费用大、时间长,可能会碰到意料不到的困难

集体访谈:将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料 【常用的有:头脑风暴法、德尔非法(专家意见法)、深度访谈法】 个别访谈:调查者对每一名受访者进行一对一单独访谈。 3. 观察法:

就调查对象的行动和意识,调查人员边观察边记录以收集所需信息 调查人员不是强行介入

能够在被调查者不察觉的情况下获得资料 4.实验法

在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料。有室内实验法和市场实验法

第四节统计数据的质量

一、统计数据的误差

统计调查误差分为登记性误差和代表性误差

1) 登记性误差:由于调查者或被调查者的人为因素所造成的误差。理论上讲可以消除 2) 代表性误差:用样本数据进行推断时所产生的误差。通常无法消除,但事先可以进行控

制和计算

第三章 整理和显示数据

第一节数据的整理与显示问题的提出

1.根据解决问题的目的确定分组的变量,如典型案例4中分组的变量为收入。

2.确定组数等,如典型案例4中,收入由贫到富分为5组,连续型变量如收入还涉及到确定每组组距、上限和下限。

3.按不重不漏的原则对数据进行分组,确定各组频数、频率,典型案例4还涉及到每组的收入值等。

4.用表、图显示整理的数据,如表3-1、图3-1

word范文

.

第二节 定量数据的整理与显示

? 一、定量数据的整理

1.主要采用统计分组来整理。数据分组后,把每组的个数称为频数。每组个数所占比例称为频率。

2.统计分组就是指根据统计研究的目的和客观现象的内在特点,按某个变量(或几个变量)把被研究的总体划分成为若干个不同性质的组,然后再统计出各组的频数,就形成了一张频数分布表。

3.统计分组方法:单变量值分组和组距分组

1) 单变量值分组就是将一个变量值作为一组,适合变量值较少的情况。

比如居民家庭按照人口数进行分组,可分为1口人家庭、2口人家庭、3口人家庭、4口人家庭、5口人以上家庭的组别。

2) 组距式分组是将变量值的一个区间作为一组,适合于连续变量和变量值较多的离散型变

量情况。组距式分组可采用等距分组,也可采用不等距分组。 ① 等距分组是指每组组距相等。 等距分组的基本步骤有:

第一步:确定组数:一般情况下,一批数据所分的组数不应少于5组且不多于15组。在实

际分组时,可以参考经验公式来确定组数K,即

第二步:确定组距:组距是一组的上限与下限之差 组距=( 最大值 - 最小值)÷组数

第三步:统计出各组的频数并整理成频数分布表。 【统计各组频数时要注意遵循不重不漏的原则。为解决不重的问题,统计分组时习惯规定“上组限不在组内”比如100这一数值不能算在“90~100”这一组,而是算在“100~110”这一组内。】

闭口组:有上、下限值 开口组:“××以下”及“××以上”

组中值——常用作各组的代表值:下限与上限之间的中点值,即:

(100以下,缺下限)

缺上限的开口组的组中值=下限值+邻组组距2(90以上,缺上限)

② 不等距分组是指并非所有组距都相等。

word范文

.

二、定量数据的图示

定量数据常用的统计图主要有直方图、茎叶图、曲线图、散点图等。

三、频数分布图的类型

频数分布图则属于其中一种统计图,其主要类型有如下三种。 钟型分布:“两头小,中间大”即中间变量值分布的频数多,两端分布频数少,

(Ⅲ)中,其分布特征是以变量的平均数为对称轴,左右两侧对称分布 (Ⅰ)(Ⅱ)中为非对称分布,(Ⅰ)是右偏分布(Ⅱ)是左偏分布, U型分布:“两头大,中间小”即中间的变量值分布频数少,两端的变量值分布频数多,与钟型分布刚好相反

J型分布:有两种类型,一种是正J型,即频数随着变量的增大而增多;另一种则呈反J型,即频数随着变量的增大而减少

第三节 品质数据的整理与显示

一、定类数据的整理与图示 (一)定类数据的整理

定类数据整理主要用频数分布表进行。 (二)定类数据的图示

定类数据的图示主要有条形图、饼图等 二、定序数据的整理与图示 (一)定序数据的整理

定序数据也是采用频数分析表进行整理。

还可以计算累计频数和累计频率,累计方法有两种:向上累计和向下累计。 (二)定序数据的图示

定序型数据的统计图主要有累计频数分布图和环形图。(P50-51)

word范文

.

第四节 图表的合理使用

一、鉴别图形优劣的准则

(一)一张好的图形应具有的特征 1. 反映数据分布特征和规律。 2. 便于比较。

3. 有对图形的描述和文字说明。 (二)鉴别图形优劣的准则

1. 是否有助于真实、准确洞察问题的实质。

2. 是否提供完整的信息量,是否使复杂的观点简单化。 二、统计表的设计

(一)统计表的概念和结构 1. 概念

统计表是表现统计资料的一种形式。 2. 结构

从形式上看,由四部分构成:

A、总标题:是表的名称,概括统计表中要说明的内容; B、横行标题:是各组的名称,反映总体各组成部分;

C、纵览标题:是分组标志或指标的名称,说明纵行所列各项资料的内容; D、指标数值:也称数字资料,是统计表的具体内容。

从内容上看,由主词和宾词两个部分组成。主词是统计表所说明的总体,总体的各组或各组的名称。宾词是用于说明主词的各种指标。通常,统计表的主词列在表的左方,宾词列在表的右方,如表3-10所示(P52) (二)统计表的种类

统计表按照总体分组情况不同,可分为简单表、分组表和复合表三类。 (三)统计表的编制

1.统计表线条的绘制。

通常统计表的上下端以粗线绘制,表内纵横线以细线绘制。表格的左右不封口。 2.合计栏的设置。

统计表各纵列需要合计时,可将合计列放在最后一行,各横行若需要合计时,可将合计列放在最前一栏或最后一栏。 3.标题的设计。

统计表的标题要简明扼要,以简练而准确的文字来概括统计资料的内容、资料所属时间、空间等。

4.计量单位的列法。

指标数值一般要有计量单位,若只有一种计量单位时,可在表右上端注明。如果计量单位不统一,可专设计量单位栏。 5.标志值的书写。 标志值应该填写整齐,对准位数。当数值太小可忽略不计时,写上“0”;当缺失某项资料时,用符号“…”表示;不应有数字时,用符号“-”表示。 6.注解或资料来源的标明。

word范文

.

一般而言,统计表下方应该注明资料来源,以便查考。

第四章数据分布的数字特征

第一节 数据集中趋势的测定

一、集中趋势测定问题的提出和作用 (一)问题的提出

对于总体中的个体数据,有时会呈现出在一定范围内以某个数据为中心上下波动的分布特征,即数据有时具有它分布的中心,我们称之为数据分布的集中趋势。该如何测定一组数据的集中趋势呢?

二)集中趋势测定的作用 1.集中趋势指标的分类

2.集中趋势指标的作用

(1)可以反映一组数据分布的中心或一般水平;

(2)可以反映同一现象在不同时间或空间条件下的发展趋势或差异; (3)可以用来分析现象之间的依存关系;

(4)样本平均数是统计推断的一个重要统计量。 ? 二、集中趋势的测定 (一)数值平均数

数值平均数只适用于定量数据(数值型数据),而不适用于定性数据。 ? 1.算术平均数 (1)简单算术平均数

简单算术平均数是根据未分组数据(原始数据)计算的一种平均数,它是将所有的原始数据相加再除以数据总个数得到的。

① 样本计算的简单算术平均数的计算公式是:

② 总体数据计算的简单算术平均数的计算公式为:

word范文

.

(2)加权算术平均数

① 加权算术平均数是根据分组数据计算的一种平均数。设样本被分为k组,各组的频数为

fi样本计算的加权算术平均数的计算公式为:

其中,Xi有两种情况:在单变量值分组中,Xi代表各组的变量值;在组距式分组中,Xi代

表各组的组中值,称作权重(频率)。

② 总体数据计算的加权算术平均数的计算公式为:

(3)算术平均数的主要数学性质

①各变量值与其算术平均数的离差之和等于零;

即:

②各变量值与其算术平均数的离差平方和最小。

即:

2.调和平均数

调和平均数加权算术平均数的一种变形。

调和平均数与加权算术平均数的关系是:

若已知各组变量值及其标志总量mi(mi=xifi ),而缺乏fi的数据时,则加权算术平均数可通过变形得到fi(fi=mi/xi)后,再以mi为权数的调和平均数形式来计算。

3.几何平均数

word范文

.

几何平均数是 n个变量值连乘积的n 次方根 (1)简单几何平均数

当样本数据中各变量值出现的次数都相同时,用简单几何平均数公式。

式中,xi代表各变量值,n为样本容量,为连乘符号

(2)加权几何平均数

当样本数据中各变量值出现的次数不全相同时,用加权几何平均数公式。

式中,xi代表各变量值,n为样本容量,

为连乘符号

的公式与样本数据的基本

【如果获得一组总体数据,根据总体数据计算的几何平均数

相同。】

需要注意的是:

当数据中出现零或负值时不宜计算几何平均数; 几何平均数是一种适用于特殊数据的平均数,当变量值之间具有连乘积关系时,采用几何平均数更加合理; 现实生活中,几何平均数主要用于计算现象的平均增长率和平均发展速度(详见本书第九章)。

(二)位置代表值 ? 1.众数

1) 众数(Mode)是一组数据中出现频数最多的变量值,通常用符号表示。

2) 众数代表的是最常见、最普遍的情况。众数不仅可以度量定性数据的集中趋势,还可以

度量定量数据的集中趋势。 3) 众数的特点:

① 众数是位置型平均数,它只与位置有关,不受数据中极端值的影响; ② 从分布形态上看,众数是一组数据分布最高峰点所对应的变量值; ③ 众数具有不唯一性(可以有一个或多个或没有)

4) 组距式分组数据中众数的求解较为复杂。在组距式分组数据中,求解众数的步骤: ① 先要确定众数所在组;

如果是等距分组数据,那么次数最多的那一组就为众数组;如果是不等距分组数据,那么组密度(组频率/组距)最大的组就为众数组。

② 之后再按照下列公式求解众数的近似值。计算公式如下:

下限公式:

或上限公式:

word范文

.

? 1) 2) 3) ① ② ③ 4) ①

2.中位数

中位数是一组数据从小到大排序后位于中间位置上的变量值,通常用符号表示。 由于中位数和位置有关,所以中位数只能度量定序数据和数值型数据的集中趋势; 求解中位数的步骤: 首先,对数据进行排序;

其次,确定中位数的位置,即中间位置; 最后,计算中间位置上的变量值。 中位数的位置计算公式为: 数据个数n为奇数,

中位数为:

② 数据个数n为偶数

中位数为:

③ 分组数据中位数的求解

对于分组数据而言,不需要再另外排序,直接按照分组的顺序即可。 分组数据中位数的位置计算公式:

求出中位数位置后,按照下列公式求解中位数的近似值。

下限公式: ?fMe?L?或上限公式: i2?Sm?1fm?d (4.13) ?fMe?U?2i?Sm?1fm?d (4.14) (看例题P68)

5) 中位数特点及应用

① 中位数是位置型度量值,其特点是不受极端值的影响,因此具有稳定性; ② 在实际运用中,当数据的偏斜程度较大时,用中位数作为该组数据一般水平的代表值比

较合适。 6) 分位数

word范文

.

① 实际上,测度数据在特定位置上的水平,还可以计算四分位数、十分位数和百分位数等,

我们统称它们为分位数。 ② 四分位数的计算方法:

A. 四分位数:定义:一组数据由小到大排序后位于25%位置和75%位置处的变量值。

【位于在25%位置处的变量值(即下四分位数,用符号QL表示)和处在75%位置处的变量值(即上四分位数,用符号QU表示),上、下四分位数之间恰好包含了50%的数据。】 B. 求解四分位数的步骤 a) 先排序;

b) 然后确定上、下四分位数的位置;

c) 最后,求相应位置上的变量值。(看例题P69)

7) 箱线图

将中位数、四分位数和其他指标结合起来,可以更详细的反应数据的分布特征。箱线图是由一组数据的最小值(Xmin)、最大值(Xmax)、下四分位数(QL)、上四分位数(QU)和中位数(Me)这五个特征值构成。通过箱线图,可以观察数据的中心位置、离散程度及对称性等特征,同时还可以进行多组数据分布的比较。

? (三)算术平均数、众数和中位数三者的比较与应用

(1)算术平均数属于数值型平均数,它是根据全部数据计算的集中趋势测度值,因此可以综合反映全部数据的信息;众数和中位数属于位置型代表值,它们是根据数据分布的特定位置确定出的集中趋势测度值,因此不能概括全部数据的信息

(2)算术平均数和中位数在任何一组数据中都存在且具有唯一性,但不一定所有数据都存在众数,且众数也不具有唯一性。一般情况下,在数据量充分大并且具有明显集中趋势时,计算众数才有意义;

(3)算术平均数只适用于定量数据,中位数适用于定序数据和定量数据,众数则适用于所有数据,即定性数据和定量数据均可;

(4)算术平均数受极端值的影响,因此,当数据偏斜程度较大时(数据中存在极端值),不宜用算术平均数来代表数据的一般水平。众数和中位数不受极端值的影响,因此,当数据偏斜程度较大时,可以考虑用众数或中位数来代表数据的一般水平;

(5)算术平均数可以估计或推断总体特征值。而众数和中位数不宜用作此类推断 (6)算术平均数和众数、中位数的数量关系主要取决于数据分布的偏斜程度(非对称程度)

word范文

.

① 对于呈现单峰分布的数据,如果数据的分布是对称的,则众数M0、中位数Me和算术平

均数X三者相等,即M0=Me=X

② 如果数据呈现左偏(负偏)分布,说明数据中存在极小值

从而略使中位数偏小,而众数则完全不受极小值大小和位置的影响,因此一般情况下,三者的关系表现为X<Me<M0

③ 如果数据呈现右偏(正偏)分布,则一般有:M0<Me<X

(7)皮尔逊经验公式数据呈现偏斜但偏斜程度不大时,算术平均数、众数和中位数之间存在一定的比例关系,即

第二节 数据离散程度的测定

一、离散程度测定问题的提出和作用 (一)离散程度测定问题的提出 由于差异性是数据的本质属性,所以各个数据与其分布中心之间总是存在着不同程度的偏离。我们把数据偏离其中心值的程度叫做离散程度,离散程度可以说明数据之间差异程度的大小,那么如何测定一组数据的离散程度呢? (二)离散程度测定的作用

离散程度的大小主要通过变异指标来测定。变异指标的主要作用有: 1. 可以衡量平均指标的代表程度。变异指标值越大,则数据的离散程度越大、数据越分散,继而平均指标的代表性就越弱;反之,变异指标值越小,则数据的离散程度越小、数据越集中,继而平均指标的代表性就越强;

2.可以反映数据的稳定性和均衡性。变异指标值越大,则数据的离散程度越大,数据的稳定性和均衡性就越差;反之,则数据的离散程度越小,数据的稳定性和均衡性就越好。

word范文

.

二、离散程度的测定 (一) 异众比率

1. 异众比率是指非众数组的频数占总频数的比重,通常用Vr表示,计算公式为:

f?f?V??firim?1?fm?fi

是变量值的总频数

式中:是众数组的频数;

2. 异众比率的特点:

1) 可用来衡量众数的代表性强弱,即,异众比率越大,则众数的代表性越弱;反之,众数

的代表性就越强;

2) 异众比率主要用于测度定性数据的离散程度,也可以用于定量数据离散程度的测度。 (二) 极差、四分位差和平均差

1.极差

极差(Range)又称全距,是一组数据中最大值与最小值之差,通常用R表示。计算公式为:

R?max(xi)?min(xi)

1) 对于原始数据和单变量值分组数据:

为一组数据的最大值;

为一组数据

的最小值。

2) 对于组距式分组数据,极差就用变量值最大组的上限减去变量值最小组的下限近似得到。 3) 极差的特点:极差是变异指标中最简单的测度值,其优点是计算简便、易于掌握。但因

极差只利用了一组数据两端的信息,容易受到极端值的影响。因此,极差不能全面、稳定地反映数据的离散程度。 2.四分位差

1) 四分位差是指上四分位数(QU)与下四分位数(QL)之差,因此也叫内距或四分间距,

通常用表示。计算公式为:

2) 四分位差特点:

① 四分位差只能说明中间50%数据的离散程度,它依然不能充分反映全部数据的离散状况。

四分位差越大,说明中间50%数据的离散程度越大;四分位差越小,说明中间50%数据的离散程度越小;

② 在一定程度上,四分位差也可以反映中位数的代表性好坏; ③ 四分位差是一种顺序统计量,因此四分位差适用于测度定序数据和定量数据的离散程度。 3.平均差

1) 平均差(mean deviation)是各变量值与其算术平均数离差绝对值的平均数。因此,也称

平均绝对离差,通常用M.D表示。 2) 平均差的计算有两种情况 ① 简单平均法

如果数据是未分组数据(原始数据),则用简单算术平均法来计算平均差:

word范文

.

② 加权平均法

如果数据是分组数据,采用加权算术平均法来计算平均差:

3) 平均差的特点:

① 平均差意义明确,计算结果易于理解,并且利用了全部数据的信息,反映了每个变

量值与平均数的平均差异程度。因此能全面地反映一组数据的离散状况。平均差越大,则数据的离散程度越大;平均差越小,则数据的离散程度越小; ② 为了避免正负离差相互抵消的现象发生,平均差在计算时给离差加上了绝对值。但

由于绝对值的出现给计算带来了很大的不便,因此在实际应用中受到很大的限制。

? (三)方差和标准差

1) 方差是各变量值与其算术平均数离差平方的算术平均数。标准差就是方差的平方根。 2) 方差、标准差特点:

① 方差、标准差利用了全部数据的信息,能较好地反映数据的离散程度; ② 方差、标准差是通过平方的方法消去离差的正负号,这更便于数学上的处理。因此,

方差、标准差是统计中最重要的变异指标,同时也是实际中应用最广泛的离散程度测度值。

3) 方差、标准差计算公式 总体数据

①未分组数据(原始数据)的总体方差和标准差的计算公式分别为: ?2??(xi??)2i?1NN, ???(xi?1Ni??)2 (4.20) N②分组数据的总体方差和标准差的计算公式分别为: ?2??(xi?1KiK??)fi, ??i2?(xi?1KiK??)2fi(K为组数) (4.21) i?fi?1?fi?1

样本数据

①未分组数据(原始数据)的样本方差和样本标准差的计算公式分别为:

②分组数据的样本方差和样本标准差的计算公式分别为:

word范文

.

(k为组数)

? (四)标准化值(标准分数)

标准化值就是用各变量值与其平均数的离差再除以其标准差。 1) 标准化值的计算公式为:

2) 标准化值的特点:

标准化值具有均值为0,标准差为1的特性。 3) 经验法则【3σ质量管理法则的原理】

使用条件:在正态分布或近似正态分布(对称的钟型分布)的条件下 ? 大约有68%的数据位于均值±1个标准差范围内; ? 大约有95%的数据位于均值±2个标准差范围内; ? 大约有99%的数据位于均值±3个标准差范围内 4) 切比雪夫定理

利用切比雪夫定理来判断有多少的数据落入以均值为中心的k(标准化值)个标准差范围内。

使用条件:任意分布形态的数据:

根据切比雪夫定理的内容,至少有(

)的数据落入均值左右k个标准差范围

内,其中k为大于1的任意数,当然也可以为小数。

? k =2说明至少有75%的数据落入均值±2个标准差范围内; ? k =3说明至少有89%的数据落入均值±3个标准差范围内; ? k=4说明至少有94%的数据落入均值±4个标准差范围内。

? (五)离散系数

? 离散系数也称变异系数(coefficient of variation),它是极差、四分位差、平均差

或标准差等变异指标与其算术平均数对比的结果。 ? 常用的离散系数有极差系数、平均差系数和标准差系数,但应用最广泛的是标准差系数。 ? 标准差系数的计算公式:

word范文

.

(1)对于总体数据,其标准差系数计算公式为: v??? (4.25) ?其中:v?为总体标准差系数,?为总体标准差,?为总体算术平均数。 (2)对于样本数据,其标准差系数计算公式为: vs?S (4.26) X

其中:vs为样本标准差系数,S为样本标准差,X为样本算术平均数。 ? 离散系数的作用

离散系数是测度数据离散程度的相对统计量,可用于比较不同变量值水平或不同计量单位的不同组别数据的离散程度。离散系数大的,则该组数据的离散程度就大;离散系数小的,则该组数据的离散程度就小。

总结:反映数据离散程度的各测定值的应用场合

1)对于分类数据,主要用异众比率来测度其离散程度; 2)对于顺序数据,主要用四分位差来测度其离散程度;

3)对于数值型数据,主要用方差或标准差来测度其离散程度。

4)当需要对不同组别数据的离散程度进行比较时,则使用离散系数。

第三节 数据分布形态的测定

一、分布形态测定问题的提出和作用 (一)分布形态测定问题的提出

集中趋势和离散程度是数据分布特征的两个重要方面,但要想全面了解数据的分布特点,我们还需要知道数据的分布形状,那么如何测定一组数据的分布形状呢? (二)分布形态测定的作用

通过分布形态的测定,我们可以了解数据分布形状的对称性以及分布曲线的扁平陡峭程度。将这两点结合,我们还可以判断数据是否接近于正态分布。 二、矩

1. 数据分布形态的测度主要是通过偏度系数和峰度系数来实现的。矩又是计算偏度系数和

峰度系数的基础

2. 矩可分为总体矩和样本矩 样本距 一般来说,将一组样本X1,…,Xn与其算术平均数X离差的k次方的平均数称为样本的k 阶中

ak??(Xi?1nin?X)kfi (阶数k是正整数) ?i?1fi心矩,即

word范文

.

算术平均数: 一阶原点矩

方差 : 二阶中心矩 阶数k=3和k=4时,矩则可以反映数据的分布形态特征。矩可以看成是一系列反映数据分布特征指标的统称。

? 三、偏度

偏度(skewness)是指数据分布的不对称程度或偏斜程度。偏度也就是对数据非对称程度和方向的测度。用来测定偏度的统计量是偏度系数,记作SK 。 对于分组数据,偏度系数SK 的计算公式为:

SK=3a3 (4.29) 3S其中,a3为样本的3阶中心矩,S为样本标准差的三次方。

偏态系数性质:

① 如果分布是对称的,则SK=0;

② 如果SK≠0,说明分布是非对称的,

? 当SK>0时,表明分布是右偏分布(正偏分布); ? 当SK<0时,表明分布是左偏分布(负偏分布)。SK的数值越大,表明数据的偏斜程度

越大。

四、峰度

1. 峰度(kurtosis)是指数据分布曲线的陡峭或扁平的程度。 2. 对峰度的度量通常以正态分布曲线为标准进行比较。如果比正态分布曲线更加尖峭,称

为尖峰分布;如果比正态分布曲线更加扁平,称为扁平分布。 3. 测度峰度的统计量是峰度系数,记作K。

对于分组数据,峰度系数K 的计算公式为:

4. 峰态系数性质:

? 当K=0 时,说明分布为正态分布;

? 当K>0 时,说明曲线是尖峰(陡峭)分布,即数据比正态分布更集中,K的数值越大,

则曲线越陡峭;

? 当K<0 时,说明曲线是扁平分布,即数据比正态分布更分散, K的数值越小,则曲线

越平缓。

word范文

.

第五章抽样分布

第一节抽样分布基本概念

一、样本容量和样本个数

1. 总体是研究的所有个体构成的集合, 常用表示

2. 从中随机抽取部分个体构成一个样本,构成样本的个体的数目,常用n表示,称为样本

容量,也称样本量。

二、参数和统计量

2

1. 参数是用来描述总体数量特征的,如总体均值μ、总体比例π、总体方差σ等 2. 统计量是用来描述样本数量特征的,是由样本构造的函数,如样本均值X、样本比例P、

2

样本方差S等

3. 由于总体是唯一的、固定不变的,故参数往往是一个未知的常数;而样本不唯一,且一

旦抽取出来,就成为已知,故统计量是随机变量,其取值随着样本的变化而改变。 4. 抽样的目的就是要根据样本统计量去估计或推断总体参数。

三、抽样分布

1. 统计量是随机变量。抽样分布就是统计量的概率分布

2. 样本均值的概率分布、样本比例的概率分布、样本方差的概率分布等都称为抽样分布。 3. 现实世界中,我们面对的总体往往很大,进而样本数目将很可观,不可能将所有的样本

都抽取出来。因此抽样分布实质上是一种理论分布。它可能是精确的某已知分布,也可能是以某已知分布为极限的极限分布。

4. 抽样分布理论在推断统计中具有重要的作用,它是后续参数估计和假设检验的

理论依据和基础。 四、抽样分布的数字特征

(一)样本均值的数字特征

2

1. 设总体的平均数为μ,方差为σ,采取重复抽样的方式,从中抽取独立同分布

的样本:X1,…,Xn。根据数学期望和方差的性质,可推出样本均值X数学期望(平均数)、方差与总体的平均数、方差之间的关系

例题:

样本均值的平均数

总体均值

word范文

.

样本均值的方差

总体方差

,n =2

【】

2. 以上结论均建立在重复抽样情形下,

若是在不重复抽样情形下,方差需要用系数进行修正,从而样本均值的数字特征为:

(二)样本比例的数字特征

1. 比例:总体(或样本)中具有某种属性的个体数与全部个体数之比,总体比例记为π。

根据数学期望和方差的性质,可推出样本比例p的数学期望、方差与总体的平均数、方差之间的关系:

用P估计π理论依据成立

2. 以上结论均建立在重复抽样情形下,若是在不重复抽样情形下,当样本容量很大时,方

差需要用系数进行修正,从而样本比例的数字特征为:

(三)样本方差的数字特征

2

设总体X方差为σ,采取重复抽样

的方式,从中抽取独立同分布的样本:X1…,Xn根据数学期望和方差的性质,可推出样本方差的数学期望、方差与总体的方差之间的关系为:

以上结论均建立在重复抽样情形下,若是在不重复抽样情形下,方差需要用系数进行修正,从而样本方差的数字特征为

word范文

.

(四)标准误(重点)

统计量抽样分布的标准差,称为统计量的标准误,也称标准误差 标准误可用于说明抽样误差的大小。抽样误差是指由抽样的随机性引起的样本结果与总体的真实值之间的差异,它描述的是所有样本可能的结果与总体真值之间的平均性差异。若总体标准差未知,可用样本标准差代替,此时的标准误称为估计标准误。 ? 样本均值的标准误为σX ? 样本比例的标准误为σP

2

? 样本方差的标准误为σS

第二节几个常见的抽样分布

? 一、样本均值的抽样分布

1. 样本均值的抽样分布,就是采取重复抽样的方式,选取容量为的所有样本,由样本均

值所有可能的取值形成的概率分布。

2. 分两种情况来讨论样本均值的抽样分布类型。 1) 总体服从正态分布

2

① 正态分布的再生定理:若总体变量X ~N(μ,σ),从这个总体中抽取容量为n的

2

样本,则样本均值X ~N(μ,σ/n) a) 什么是正态分布

若X的概率密度函数为:

其中,μ和σ都是参数,且σ>0,则称X服从参数为μ和σ的正态分布,记作

2

X ~N(μ,σ)。

b) 正态分布的概率密度曲线是一条对称的钟型曲线。μ决定了图形的中位置,σ决定了

图形中曲线的陡峭程度。

当参数μ=0,σ =1时,这样的正态分布为标准正态分布,记为N(0,1),其概率密度函数

为:

2) 总体服从非正态分布

② 独立同分布中心极限定理表明:无论总体服从何种分布,只要其平均数和方差

存在,那么从中抽取的独立同分布样本X1,…Xn,,其均值在当n很大时,就会近似

2

服从正态分布X ~N(μ,σ)。 大样本:n≥30

word范文

.

总结:

? 二、样本比例的抽样分布

1. 样本比例是一种特殊的样本均值。从而,根据样本均值的抽样分布理论可得样本比例

的抽样分布

2. 大样本:同时满足np≥5和n(1-p)≥5

3. 当样本容量很大时,样本比例P的抽样分布为:

??1????P~N????,???n

?4. 在不重复抽样情形下,当样本容量很大时,样本比例的抽样分布为:

P~N???,????1???N?n??

nN?1??n?5%时,修正系数趋于1,方差可以N? 需要修正:对于有限总体,要用修正系数修正 ? 不需要修正:无限总体/此时N很大而抽样比

按重复抽样情形时(即不用修正)的公式计算

? 三、样本方差的抽样分布(不考)

2

样本方差S的抽样分布,就是采取重复抽样的方式,选取容量为n的所有样本,由样本方

2

差S的所有可能的取值形成的概率分布。

2

设总体服从均值为μ,方差S的正态分布,X1…,Xn为来自该总体的样本,则样本方差S2

?n的抽样分布为:

?1?S2?2~?2?n?1?

?n称

?1?S2?2服从自由度为n-1的X分布(卡方分布)。

2

卡方分布的数字特征,可得:

在不重复抽样情形下,方差为:

四、t分布和F分布

word范文

.

1. t分布

2X~N(0,1),Y~?(n),设

且X与Y相互独立,则称随机变量服从自由

度为n的t分布,记作 t ~t(n)。

? t分布概率密度函数曲线是以纵轴为对称轴的单峰对称图形。自由度n越大,分布越趋

近于标准正态分布,当n??时,分布与标准正态分布完全一致。

? t分布的数字特征为:

总体平均数: E(t)=0(n?2)

n(n?3)D(t)?方差: n?2

2. F分布

22若?~?n1,Y~?n2且X与Y相互独立,则随机变量F?????X/n1服从自由度

Y/n2为n1,n2的F分布,记作F~Fn1,n2。其中,n1称为第一自由度,n2称为第二自由度

F分布的数字特征为: 总体平均数: (X)=n2E

??n2?22(n2?2)2n2(n1?n2?2)方差: D(X)?(n2?4)n1(n2?2)2(n2?4)

第六章 参数估计

统计方法 描述统计 推断统计 参数估计 假设检验

第一节点估计

1. 点估计的相关概念

?的某个取值直接作为相应总体参数θ的估计值。 1) 点估计是用对应的估计量?【如:我们用样本均值作为总体均值的估计,用样本比例作为总体比例的估计,用样本方差

作为总体方差的估计等】

word范文

.

2) 估计量:用于估计总体参数的随机变量

3) 估计值:估计参数时计算出来的统计量的具体值【如果样本均值x =80,则80就是

的估计值】

2. 点估计的求解方法 ① 矩估计法

? 用样本原点矩作为总体原点矩的估计。

??(??????,求k个参数?设k个参数??(?1,?2,??k)1,?2,??k)矩估计

需要建立k个方程,方法是:

设总体的一个样本观测值是(x1,x2,?,xn),其l阶原点矩Al?1nlxi,总体观测量?i?1nlX的l阶原点矩ml?E(X)?ml(?),用样本原点矩Al作为总体原点矩ml的估计,得出

k个方程

A1?m(??)(l1?1,...k),解此方程组得出的即为参数θ的矩估计。

2

【例6-1】设总体X的均值μ及方差σ都存在但均未知,设来自总体X的一个样本是

(x1,x2,?,xn),求μ,σ的矩估计??2。 ?,?解:是两个参数,故需要建立两个方程

因为

?A1??? ?A2???2???2? 得?即 ????A1??A2?A??221

? 结论:总体均值的矩估计是样本均值,而总体方差(即总体的二阶中心矩)矩估计是样

本二阶中心矩【求总体均值与方差的矩估计无需知道总体服从什么分布。】 ② 最大似然估计法

?)达到最大? 固定样本观测值(x1,x2,?,xn),在可能的取值中,挑选使似然函数L(?(从

?称之为参数θ的最大似然估计。而概率p达到最大)的作为参数θ的估计。这样得到的??)的最大值问题了。 因此,求参数θ的最大似然估计问题就转化为求似然函数L(?word范文

.

? 求总体均值与方差的最大似然估计需要知道总体分布。

3.估计量的优良性标准

? 参数估计量的评价标准:无偏性、有效性和一致性,我们称之为估计量的优良性标准。 1) 无偏性

设?为总体参数,?为?的一个估计量,如果E(?)??,则称?是?的无偏估计量。即?是

????重心,?与?的距离最近。

??2) ?有效性 ???D(?)?D(?)12设为的两个无偏估计量,如果有:,则称。即对于同一总体参数的两个无偏估计量来说,?1比?2有效?1θ、?2方差越小的估计量越有效。

3) ?一致性 ??n??设为此即随着样本容?θ的一个估计量,若当时,依概率收敛于?θ,则称为θ的一致估计量。?量n的增大,点估计量越来越接近被估总体参数θ

2

? 估计量样本平均、样本比例p、样本方差S分别是总体平均μ、总体比例π、总体方差xσ的无偏、有效、一致估计量。即满足优良性标准。 ? 点估计的优点是简洁明了,给出了具体的估计值;缺点是无法提供估计的精度和估计的

可靠程度

??? 第二节区间估计

? 围绕点估计值构造总体参数的一个区间,这就是区间估计 1. 区间估计的概念

1) 区间估计就是总体参数θ落在区间估(计量?内的概率为1-α,即??1,?2)????P?θ的置信度为1-α的置信区间。 (?1????2?1??。称区间为总体参数1,?2)2) 包含总体参数真值的区间所占的比例称为置信水平,表示为 (1 – α) 3) α是未包含总体参数的区间所占的比例 4) 常用的置信水平值有 99%, 95%, 90% 【相应的α为0.01,0.05,0.10】

5) 由样本统计量所构造的总体参数的估计区间称为置信区间。其中区间的最小值称为置

信下限,最大值称为置信上限。

6) 统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区

间。

7) 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的

区间是否包含总体参数的真值。

8) 构造参数的区间估计时,要权衡以下两个方面,一是估计量的精度要求,二是估计量

的可靠性程度。

word范文

?? .

9) 精度要求就是要把估计误差控制在一定的范围内,我们用极限误差?????2??12来反

映。△越小,表示估计的精度越高;△越大,表示估计的精度越低。

10) 可靠性是指区间估计结果正确的概率保证。用置信度来反映。

11) 在其它条件不变的情况下,置信度与精度二者呈反方向变化,要想提高置信度,置信

区间就会增大,精度就会下降;要想提高精度,置信度就会下降。

12) 在实际中,通常根据实际问题和研究的需要,选择合适的置信度和精度,再确定样本

2. 总体均值的区间估计【分四种情况来讨论。】

2

① 总体服从正态分布,总体方差σ已知

x???2~N(0,1)。根据正态分布再生定理,样本均值x~N(?,),将x标准化,记z?

n?n对于概率可靠程度1-α,有:P?z?z?2??1??

将z?x??代入上式,经过不等式的等价变形,得:

?n??????P?x?z?2???x?z?2??1??

nn??总体均值μ在置信度1-α下的置信区间为: x?z?2???其中:为抽样极限误差。 ??z??22nn? n影响极限误差的因素:总体数据的离散程度,用σ来测度

样本容量,?X?置信水平 (1 - α),影响 z 的大小

置信水平的z?2值,查标准正态分布表得到。 例如:1-α=95%

则:α=0.05 1-α/2=1-0.025=0.975

找到0.975,其对应的横+竖的值,为我们所求的z?2值

word范文

.

对于总体分布未知,大样本(n≥30),总体方差σ已知

2

?2根据中心极限定理,样本均值近似服从N(?,),因而同样可以用式(6.3)得出估计

n区间。x?z?2??n

2

③ 总体分布未知,大样本,方差σ未知

运用中心极限定理,总体均值μ在置信度1-α下的置信区间为:

x?z?2?s n2

④ 总体服从正态分布,小样本,总体方差σ未知

总体均值μ在置信度1-α下的置信区间为:

x?t?2(n?1)

s使用t分布 n置信水平的tα/2(n-1)值,查t分布表得到:

例如:1-α=95%,n=16

则:α=0.05 α/2=0.025,n-1=15

找到α=0.025,v=15,其对应的值,为我们所求的tα/2(n-1)值

三、总体比例的区间估计

? 总体比例,是指总体中,具有某种特征的单位个数与全部单位数之比,记为π ? 样本比例,是指样本中,具有某种特征的单位个数与样本容量之比,记为P ? 总体比例是一种特殊的总体均值 ①

当样本量充分大(np?5和n(1?p)?5)时,近似服从正态分布

总体比例π在置信度1-α下的置信区间为:

p?z?2?②

?(1??) n总体比例π是未知的,通常用样本比例p来代替总体比例π

p?z?2?p(1?p) n? 总体方差的区间估计 【不考】

word范文

.

第七章 假设检验

第一节假设检验的基本原理

? 假设检验的基本原理

用t分布、区间估计中区间事件的余集是小概率事件和小概率原理,得出了检验统计量t的数值及拒绝域,在样本有代表性时,用统计量t和拒绝域可得出检验的更好决策。该方法称为t检验使产品质量检验由大样本被小样本替代 一、假设检验的概念

假设检验依据的是小概率原理,即小概率事件在一次试验中是几乎不可能发生的,如果小概率事件发生了,我们拒绝H0,即H1成立;否则,我们不能拒绝H0。将t称为检验统计量,α称为显著性水平,水平,t?t?/2(n?1)称为拒绝域 二、假设检验的基本步骤 以P112为例

1.建立假设 H0:μ=μ0=5 H1:μ≠μ0= 5, 2.确定检验统计量,并计算检验统计量值

t?x??04.5?5???6.25

sn0.4/253.给定显著水平α=0.05,查表得拒绝域(小概率事件)

t?t?/2(n?1)?2.064

4.判断,t=-6.25落入拒绝域,拒绝H0,即此次抽样认为该厂生产的笔记本电脑不符合规定标准

[补充:检验规则有两种临界值规则和P-值规则,计算机软件中通常用P-值规则。]

三、假设检验中的两类错误

? 第Ⅰ类错误是指原假设H0为真,却拒绝H0的错误,也叫弃真错误或α错误。 ? 第Ⅱ类错误是指原假设H0为假,却接受H0的错误,也叫取伪错误或β错误。

? 对于这两类错误,人们总是希望α和β、越小越好。但当样本容量n一定时,不能同时

做到α和β都很小,若减少犯第一类错误的概率,则犯第二类错误的概率往往增大,即此时α和β反向变化。若要使犯两类错误的概率都减小,只能增加样本容量。 ? 在假设检验中,人们往往认为犯第一类错误后果更严重,而犯第二类错误后果的严重性

会低一些。因此在实际检验中,犯第一类错误的概率总是优先加以控制。

第二节 一个总体参数的检验

两种检验方式:

t检验

(1)建立假设 H0:①μ=μ0 H1:μ≠μ0,双侧检验 ②μ≤μ0 μ>μ0,右单侧检验 ③μ≥μ0 μ<μ0,左单侧检验

(2)确定检验统计量,并计算检验统计量值

word范文

.

t?X??0Sn

根据前面两步可确定①是双侧检验,②是右单侧检验,③是左单侧检验 (3)给定显著水平α,求得拒绝域(小概率事件) ①︱t︱≥tα/2(n-1)(双侧检验) ②t≥tα (n-1) (右单侧检验) ③t≤-tα (n-1) (左单侧检验)

(4)判断,如果t落入拒绝域,拒绝H0;如果t不落入拒绝域,不能拒绝H0。

Z检验

(1)建立假设 H0:①μ=μ0 H1:μ≠μ0,双侧检验 ②μ≤μ0 μ>μ0,右单侧检验

③μ≥μ0 μ<μ0,左单侧检验 (2)确定检验统计量,并计算检验统计量值

z?X??0?n

根据前面两步可确定①是双侧检验,②是右单侧检验,③是左单侧检验 (3)给定显著水平α,拒绝域(小概率事件), ①②

z?z?/2(双侧检验)

z?z?(右单侧检验)

z??z?(左单侧检验)

(4)判断,如果z落入拒绝域,拒绝H0;如果z不落入拒绝域,不能拒绝H0。

? 一、总体均值的检验 1. 小样本(n<30),总体服从正态分布

① 总体标准差σ未知时,用t检验 ② 总体标准差σ已知时,用Z检验

2. 大样本(n>30)

① 总体标准差σ未知时,用Z检验 ② 总体标准差σ已知时,用Z检验

二、总体成数(或总体比例)的检验

? 总体中只有两种结果可用正态分布来近似。

word范文

.

服从二项分布

抽得大样本情况下,即满足:

n?0?5n(1??0)?5

对于双侧检验,单侧检验有如下检验步骤: 1.建立假设 H0 :

???0 H

1:

μ≠μ0

???0μ

>μ0

<μ0

???0μ

2.确定检验统计量,并计算检验统计量值

z?X??0sn

根据前面两步可确定①是双侧检验,②是右单侧检验,③是左单侧检验 3.给定显著水平α,拒绝域(小概率事件) ①②

z?z?/2(双侧检验)

z?z?(右单侧检验)

③(左单侧检验)

4.判断,如果z落入拒绝域,拒绝H0;如果z不落入拒绝域,则不能拒绝H0。 三、总体方差的检验(不考)

z??z?第八章 相关与回归分析

第一节相关分析

一、函数关系与相关关系 1.相关关系的定义

变量之间有确定的关系,称为函数关系。[如销售额与价格、销售量的关系]

变量之间有关系,但不确定,称为相关关系[如学生的学习时间与考试成绩之间的关系。] 2.相关分析的作用

1) 寻找变量之间数量方面的相互变动规律,为进一步研究现象之间的内在因果联系提供数

据参考

2) 许多有趣的经济金融科学问题的提出往往源于变量之间的相关关系

二、相关关系的描述与度量

相关分析一般按照以下步骤进行:

(1) 确认变量之间是否存在关系,如果存在关系,确认它们之间是否是相关关系。

(绘制散点图)

? 散点图能初步直观地判断变量之间相关关系的类型、方向和强弱程度。

word范文

.

? 从相关的方向来看,相关关系分为正相关和负相关

? 从相关的形式来看,相关关系可以划分为线性相关与非线性相关

? 从相关关系的强弱来看,相关关系可以划分为完全相关、不完全相关与不相关

(2) 如果是相关关系,确认变量之间关系的类型、方向与强度。

(计算相关系数)

? 相关系数是测度线性相关关系方向与强弱程度的常用方法。 ? 相关系数分为两种:

1) 一种是总体相关系数,其是用于测度x和y之间真实的线性相关程度,一般以

下相关系数计算公式为:

【ρ:总体相关系数,Cov(X,Y):变量X和Y的协方差,Var(X)、Var(Y)分别表示X和Y的方差】

总体相关系数通常是未知的。可以利用样本相关系数作为总体相关系数的估计。样本相关系数r的计算公式为:

也可以按照以下公式进行计算:

相关系数r的性质与特点:

1) r的取值范围介于-1与1之间。

① 0<r ≤1,说明x和y两个变量正线性相关; ② -1 ≤ r <0,说明x和y两个变量负线性相关; ③ r =1,说明x和y两个变量完全正线性相关; ④ r =-1,说明x和y两个变量完全负线性相关;

⑤ r =0,说明x和y两个变量之间没有线性相关关系。 ⑥ r ?说明两个变量之间的线性关系越强; 1⑦

r?0说明两个变量之间的线性关系越弱。

? 相关系数r的绝对值与相关关系:

word范文

.

r?1?X、Y完全线性相关r?0.8?X、Y高度线性相关0.5?r<0.8?X、Y中度线性相关0.3?r<0.5?X、Y低度线性相关

r<0.3?X、Y基本无线性相关r?0?X、Y没有线性相关2) 相关系数r具有对称性,即X和Y之间的相关系数与Y和X之间的相关系数相等。 3) r是一个相对数,其取值与X和Y这两个变量具体的计量单位无关。 ? 相关系数r需要注意的地方:

r是对变量之间线性相关关系的度量,r=0只是说明两个变量之间不具有线性相关关系,但这不意味着两个变量之间不存在其他类型的相关关系。

r仅仅是对两个变量之间线性关系的一个测度,即便是r 不为零0,也只能从数量关系的角度反映两个变量之间的联系形式及其密切程度,但据此依然无法判断两个变量是否存在因果关系或者逻辑上的内在联系。仅仅依靠相关分析及回归分析来分析,往往是一种“伪相关”或“伪回归”。

(3) 样本所反映的变量之间的关系能否代表总体变量之间的关系?

(相关系数的显著性检验)P129

第二节一元线性回归

? 一、一元线性回归的相关概念

? 相关分析不能判断变量之间相关关系的具体数学形式,也无法通过一个变量的变化来

预测另一个变量的变化情况,而回归分析可以解决此问题。 ? 回归分析主要解决以下几个方面的问题:

(1)从一组样本数据出发,确定变量之间的数学关系式。

(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的。

(3)利用所求出的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。 ① 猜测两个变量的数量关系如下:

【一元线性总体回归模型】

y是x的线性函数加上随机误差项u 上式中,

为一元线性总体回归模型

x为确定性变量,β0和β1是未知的参数,又叫回归系数。 Yi和Xi分别是Y和X的第i个观测值。

ui是相应的第i个随机误差项,是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。

word范文

.

根据回归模型中的假定,Eui???0, 对式(8.3)两边取平均值有:

E?y???0??1x【一元线性总体回归方程,也称为直线回归方程】

其中β0是回归直线在y轴上的截距,β1是直线的斜率,它表示当x每变动一个单位时,y的平均变动值。

③ 一元线性样本回归方程:

? 由于回归参数β0和β1是未知的,它们只能从总体中抽取样本得到的数据去估计

一元线性回归模型对应的样本回归直线可表示为:

?β1的估计? ?式中,、为β?0和o1

? 需要注意的地方:

实际观测到的因变量YI值,并不完全等于y用ei表示二者之差(ei?yi?y?i,?i), 则有:

?0???yi??1xi?ei

上式称为样本回归模型。式中ei称为残差。 二、回归模型参数的估计 (一)参数的最小二乘估计

?0和??? 下面用最小二乘法求总体回归系数β0、β1的估计值?1。

最小二乘法,也称最小平方法。它是通过使因变量的观测值yi与估计值y?i之间的残差平方和Q达到最小来估计β0和β1的方法。

??? 即令:minQ(?0,?1)?ei?i2?(yi?i?y?i)2?[yi?i2???(?0??1xi)]

? 根据微积分多元函数极值原理,要使上式达到最小,对β0和β1的一阶偏导数都等于零,

?0,????Q(?1)?0??0???即:?

????Q(?0,?1)?0??1????解方程组得:?1?n?xiyi?i?1nnxi?yi?ii?1nnn?xi2????xi??i?1?n?12??

?i?1nn??1?0???yi?????x?y??1?i?1x ??n?i?1i?1?word范文

.

相关系数 判定系数R2 Se ββ0 1

t统计量

(1) 请写出最小二乘估计的回归方程,并解释回归系数的含义。

(2)判定系数是多少?比萨饼需求量的变差中有多大比例是由价格的变动引起的?说明该回归方程拟合的情况。

(3)说明用估计的回归方程预测因变量比萨饼需求量y时,平均的估计误差是多少? (4)说明该模型的自变量价格和因变量比萨饼需求量之间是否存在显著线性关系?并说明原因。

(5)当价格为x=43元时,比萨饼需求量的点预测是多少?

(二)最小二乘估计的优良性质

? 回归系数的最小二乘估计具有线性性、无偏性、方差最小性。即最小二乘估计与用其他

参数估计方法求得的任何线性无偏估计相比,具有方差最小、一致的优良统计性质。

? 最小二乘估计具有上述优良统计性质是有前提的,古典线性回归模型需要满足以下五个

基本假定条件:

(1)误差项零均值假定,即E(ui)=0,i=1,2,… (2)误差项同方差假定,即Var(ui)=σu2,i=1,2,… (3)误差项无序列相关假定

Cov(uiuj)=E[ui-E(ui)]E[ui -E(ui)]

=E(uiuj)= 0,i≠j (4)解释变量与误差项不相关假定: Cov(ui,Xi)=E[ui-E(ui)]E[Xi-E(Xi)]

=E(uiXi)=0,i=1,2,…

(5)误差项正态性假定:ui服从正态分布,

2

即ui~N(0,σu)

word范文

.

以上五条称为线性回归分析的“古典假设”,是古典线性回归模型的经典假定。 三、一元线性回归模型的统计检验 (一)回归模型检验的类型:

回归模型的检验包括理论意义检验、统计检验(一级检验和二级检验)。 理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。 ? 一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,

具体又可分为拟合程度评价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过的检验。

? 二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行

检验,具体包括序列相关检验、异方差性检验、多重共线性检验等。二级检验对于社会经济现象的定量分析具有特别重要的意义。

(二)回归模型的拟合优度检验 ? 1.判定系数

? 为辨别估计的样本回归直线拟合实际样本数据的优劣程度,需要计算判定系数。 ? 为了说明判定系数的含义,需要对因变量y取值的总离差平方和进行分解。因变量y

的取值是不同的, y取值的这种波动称为变差。n次观测值的总变差可由“总离差平方和”来表示。

? 为考察所有Yi离差平方和的分解问题。所有Yi离差的平方和记为

SST?(Yi?i?Y)2,称“总离差平方和”。分解可得:

222SST?(yi?y)??(y?i?y)??(yi?y?) ?iii【总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)】 即总离差平方和SST可分解为两部分,一部分为:记为SSR;另一部分为:

称为“回归平方和”,

ei?i2?(Yi?i2?Y?i)称为“残差平方和”,记为SSE

回归平方和(SSR):反映了y的总变差中由于x与y之间的线性关系引起的y的变化部分,它是可以由回归直线来解释的y变差部分; 残差平方和(SSE):它是除了x对y的线性影响之外的其他因素引起的y的变化部分。

? 判定系数:是回归平方和与总离差平方和之比。

R2SSRSSE??1?SSTSST

式中的定义,正是反映解释变量对被解释变量决定程度的指标,称之为“样本判定系

数”,也叫决定系数,通常用R2表示。前一部分SSR相对于后一部分SSE越大,说明回归拟合程度越好,Y与X之间的线性决定关系越明显。

判定系数的性质与解读:

word范文

.

R是样本回归线与样本观测值拟合优度的度量指标,其数值在0到1之间。 2

R=0,解释变量X与Y没有线性关系; 2

R=1,样本回归线与样本观测值重合,X与Y在一条直线上;

22

0

注:一元线性回归中,判定系数R2?r2,r为x和y的相关系数。

? (三)回归系数的显著性检验

2

? 判定系数R用来判断样本回归直线对样本观测值的拟合优度,但是却不能告诉我们自

变量x对因变量y是否具有统计意义上的显著影响。

? 如果通不过回归系数的显著性检验,我们还是不能认为自变量x对因变量y具有显著

的影响。

? 回归系数的显著性检验,即检验模型回归系数是否显著异于0,是基本的一种假设检验。

若β1的估计数值较大,说明两变量的关系是明显的,若β1的估计数值较小,甚至无法排除它等于0的可能性,说明这两个变量之间的关系不明显,模型的基本设定不成立。

? 回归系数显著性检验的步骤如下:

(1)提出假设, 即

(2)在原成立时的检验统计量

2

??~tt(?n-2) 1?)S(?1

其中,

为回归系数估计量的标准差,其计算公式为:

S =

(3)给定显著性水平α,查t分布表,得拒绝域:

(4)判断,如果t统计检验值落入拒绝域,拒绝原假设,说明变量x对变量y具有显著的

影响。

? 估计标准误差

就是度量各实际观测点在直线周围的散布状况的一个统计量,它是均方残差(MSE)平方根,用Se来表示,其计算公式为:Se???yi?y?i?2n?2?SSE?n?2MSE

估计标准误差反映了用估计的回归方程预测因变量y时预测误差的大小。Se越小,回归直线对各观测点的代表性就越好,可见,估计标准误差从另一个角度说明了回归直线的拟合优度。

第九章时间序列分析

word范文

.

第一节时间序列的基本概念

一、时间序列的含义和作用

1.含义:时间序列是不同时间上同一现象的观测数据按时间顺序排列而成的数据列。 时间序列的两大要素:时间和观测值 时间序列(举例) 时间 观测值 国内生产总值(万亿元) 国内生产总值增长率(%) 2010年 41 2011年 48 2012年 53 2013年 59 2014年 63 2015年 68 10.6 9.5 7.8 7.7 7.3 6.9 2.作用

描述被研究现象的发展过程、历史状态和结果;

分析被研究现象的增长量、发展速度、趋势,探索其发展变化的规律; 利用时间序列数据可建立计量模型,进行现象变动的趋势分析和预测,为更好的决策提供依据;

将不同但又相互联系的时间序列进行对比分析,可以研究同类现象在不同国家、地区之间的联系以及发展变化的差别。

3.时间序列分析的目的 1) 分析过去描述变化过程 2) 认识规律揭示变化规律 3) 预测未来未来的数量趋势 4)

二、时间序列的分类 1. 绝对数时间序列

? 也叫总量指标时间序列,其描述现象总量指标的变化,反映了各时间某个指标发展的绝

对水平。

? 根据绝对数时间序列的时间不同,我们又可以将绝对数时间序列分为: 时期时间序列: 表示现象在某段时期内的总量,将不同时期的时期指标按时间顺序排列而成的数据列称为时期时间序列。[如:某企业连续12个月的利润额。] 时点时间序列: 表示现象在某个时点上所处的状态和所达到的水平,将不同时点上的时点指标按时间顺序排列而成的数据列称为时点时间序列。[如:连续12个月月初工厂上班的工人人数]

【注意】时期时间序列和时点时间序列的区别:

(1)定义上:时期时间序列反映现象在各个时期内达到的总量,因此实际中又称其为流量数据;时点序列反映现象在各个时点上所处的状态和所达到的水平,因此实际中又称其为存量数据。

word范文

.

(2)可加性上:时期时间序列具有可加性,相加后表示更长一段时期的总量,如2013年GDP、2014年GDP相加后是2013年和2014年的GDP;时点时间序列不具有可加性,如2013年末人口数、2014年末人口数相加后没有意义。 (3)数值大小与时间的长短关系上:时期时间序列数值大小与时间的长短有关,时间越长,同一现象同一总量指标的时期时间序列数值就越大;时点时间序列数值大小与时间的长短没有关系。

(4)数据收集上:时期时间序列的每个数据是每段时期内连续登记的结果;时点时间序列只需要收集现象代表性时点上的数据。 2.相对数时间序列

? 指不同时间上的相对指标按时间顺序排列而成的数据列,其反映了不同现象的对比关系

或同一现象不同时间上的发展情况。 如:人均GDP时间序列,CPI时间序列等。

? 由于相对数时间序列的比较基数不同,相对数时间序列不具有可加性。

3.平均数时间序列

? 指不同时间上的平均指标按时间顺序排列而成的数据列,其反映了事物平均水平的发展

情况。

如:平均工资时间序列

? 与相对数时间序列类似,由于其比较的基数不同,平均数时间序列也不具有可加性。

三、时间序列的编制原则

保证时间序列中各项观察值具有可比性: 1.时间(长度或间隔)一致 2.范围一致

3.内容、计算口径和计算方法一致

第二节时间序列的描述性分析

一、时间序列的图形分析 P144-146[用Excel画线图]

二、时间序列的水平分析

水平分析是指对事物变化的状态进行的分析,描述事物发展变化的指标有: 1. 发展水平

时间序列数据本身就描述了事物的发展水平。 2. 序时平均数【绝对数、相对数、平均数】 1) 表示不同时间上数据的平均数。

2) 在具体计算序时平均数时,我们需要根据时间序列数据的类型分别计算: ? 绝对数时间序列的序时平均数

绝对数时间序列有时期时间序列和时点时间序列,故其有两种序时平均数。 ① 时期时间序列的序时平均数 时期时间序列具有可加性,相加后等于现象在一段时期内的总量,所以计算序时平均数采用

简单算术平均法。

word范文

.

② 时点时间序列的序时平均数 时点时间序列不具有可加性,因此其序时平均数的计算与时期时间序列不一样,其根据时间间隔是否相等有不同的计算方法。

a) 时间间隔相等的时点时间序列序时平均数

采用首末折半法

其中:yi表示各时点的发展水平,n=数据项数-1

b) 时间间隔不等的时点时间序列序时平均数

以每两个相邻时点指标的平均作为该时段指标估计值,把时段的时间间隔长度作为权数,用它们的加权算术平均数作为序时平均数。

其中:yi表示各时点的发展水平,fi为对应时段的时间间隔长度。

? 相对数时间序列的序时平均数P150例9-5 相对数时间序列中各相对数的分母通常不一致,在计算其序时平均数时,不能直接计算平均。 按照以下步骤计算:

(1)设相对数 y=a/b,先分别计算分子a和分母b的序时平均数,记为(2)相对数时间序列的序时平均数

计算中,对时期时间序列的序时平均数采用简单算术平均法,对时点时间序列的序时平均数采用首末折半法。

? 平均数时间序列的序时平均数

与相对数时间序列的序时平均数方法相同。【例9-6】

3. 增长量

? 描述事物报告期比基期增长变化的绝对量,计算公式:

增长量=报告期水平-基期水平 ? 根据基期水平不同,增长量分:

① 逐期增长量=报告期水平-前期水平=yi -yi-1,i=1,2,...,n ② 累计增长量=报告期水平-固定基期水平=yi –y0,i=1,2,...,n ③ 逐期增长量与累计增长量的关系:

逐期增长量的和=相应时期内累计增长量,即: (y1 –y0)+(y2-y1)+…+( yn –yn-1)= yn-y0

相邻两个累计增长量之差=逐期增长量,即: (yi-y0) - (yi-1-y0)=yi -yi-1

此外,为了消除季节变动的影响,有:同期增长量=报告期水平-上年同期水平

word范文

.

4. 平均增长量

? 指各个时期增长量的平均值。 第1至第n期的平均增长量为:

其中:yi表示时间i上的发展水平,n=数据项数-1

? 三、时间序列的速度分析

指事物变化的快慢程度。描述事物变化的快慢程度指标有: 1. 发展速度

1) 描述了事物在报告期相对于基期发展的倍数。

发展速度=报告期水平/基期水平

2) 在具体计算时,根据基期水平的不同,发展速度分为: ① 环比发展速度=报告期水平/前期水平

= yi /yi-1,i= 1,2,...,n

② 定基发展速度=报告期水平/固定基期水平

= yi/y0,i=1,2,...,n

③ 环比发展速度与定基发展速度的关系: 环比发展速度连乘积=相应时期内定基发展速度,即

相邻两个定基发展速度之商=环比发展速度,即

此外,为了消除季节变动的影响有: 同期发展速度=报告期水平/上年同期水平 2. 增长速度【例9-10】P153

1) 表示事物报告期较基期增长的倍数或百分之几:

增长速度=报告期增长量/基期水平=发展速度-1

2) 在具体计算时,根据基期水平的不同,增长速度分为: 环比增长速度=逐期增长量/前期水平=环比发展速度-1

=( yi/yi-1)-1,i=1,2,...,n

定基增长速度=累计增长量/固定基期水平=定基发展速度-1

=( yi/y0)-1,i=1,2,...,n

此外,为了消除季节变动的影响有: 同期增长速度=同期发展速度-1

word范文

.

3.平均发展速度和平均增长速度

1) 平均发展速度是环比发展速度的平均,表示所观察时间段内环比发展速度的一般水平。 2) 由于各期环比发展速度的基数不同,不能用各期环比发展速度相加后计算平均发展速

度,其计算方法有两种:

① 几何平均法【例9-11】P154 假定各期环比发展速度yi/yi-1=平均发展速度

平均发展速度:

其中:yi表示时间i上的发展水平,n=数据项数-1 因此,平均增长速度:

且有对未来时期数据的预测公式为: ② 由公式

累计法【例9-12】P155

有:

,将此代入各期实际水平的总和中有:

所以:

解上述方程,其正根为平均发展速度。 平均增长速度:

3) 根据发展速度与增长速度的关系,有:平均增长速度=平均发展速度-1

四、水平分析与速度分析的结合应用 (一)正确选择基期 (二)注意数据的同质性

(三)将总平均速度与分段平均速度及环比速度结合分析 (四)将速度与水平结合起来分析

把相对速度与绝对水平结合,可计算增长1%的绝对量。增长1%的绝对量是用来补充说明增长速度的。一般只对环比增长速度计算,其计算公式为:

增长1%的绝对量=前一期发展水平/100=yi-1/100(i=1,2,...,n) 【例9-13】P156

word范文

.

第十章指数分析

第一节指数的基本概念 一、指数的含义与作用

? 指数,或称统计指数,广义来说,凡是两个数值对比而形成的相对数都可以称为指数。

狭义指数是反映数量上不能直接加总或加总后对比没有意义的多个个体或多个项目组成的总体数量的综合变动程度。是一个特殊的相对数。 ? 狭义指数的性质

(1)相对性。指数的含义指明指数是相对数,具有相对性。

(2)综合性。狭义指数综合反映多个个体构成的现象总体的数量变动。例如,帕氏价格指数Ip=∑p1q1/∑p0q1综合反映多种商品价格水平的综合变动程度。

(3)平均性。狭义指数具有平均的性质,它反映现象总体中各个个体变动的平均水平。例如,帕氏价格指数Ip =∑p1q1 /∑p0q1所表明的是各种商品价格变动的平均水平。 ? 指数的作用

(1)综合反映社会经济现象总体的变动方向和程度。 (2)利用指数体系进行因素分析。

(3)分析社会经济现象的长期发展趋势。 (4)对社会经济现象进行综合评价和测定。 二、指数的分类

(1)按所考察对象的范围不同,分为个体指数和总指数。

① 个体指数是考察单个个体或单个项目数量变动的相对数。例如,某种商品的价格指数

p1/p0、某种商品的销售量指数q1/q0等都是个体指数。

② 总指数是反映由多个个体或多个项目构成的总体数量综合变动的相对数。例如,反映

多种商品价格综合变动的帕氏价格指数Ip、反映多种商品销售量综合变动的销售量指数Iq等都是总指数。

(2)按指数化指标的性质不同,分为数量指标指数与质量指标指数。

① 如果指数的指数化指标具有数量指标的特征(也即表现为总量或绝对数的形式),它就

属于数量指标指数,如拉氏销售量指数。

② 如果指数的指数化指标具有质量指标的特征(也即表现为平均数或相对数的形式),它

就属于质量指标指数,如帕氏价格指数。

(3)按所反映的时间状况不同,分为动态指数和静态指数。 ① 动态指数是同类现象在两个不同时间上的数量对比。 ② 静态指数是同类现象在同一时间上的数量对比,主要包括空间指数和计划完成情况指数。 空间指数是同一时间不同空间的同类现象的数量对比,如两个城市的同期物价水平的对比。计划完成情况指数则是现象的实际水平与计划水平对比的结果,如能耗降低计划完成指数。 第二节综合指数

综合指数是设法将各个个体的数量先综合以后再通过两个时期的综合数值对比来计算的总指数,其编制特点是:先综合,后对比。 先综合,即将总体中不能直接加总或加总后不能进行对比的不同度量现象,通过一个或一个以上因素的乘入,使其成为能够加总后进行对比的价值指标。

乘入的因素称为同度量因素,如帕氏价格指数中的同度量因素是销售量q,拉氏销售量指数中的同度量因素是价格p。同度量因素起着同度量化的作用,把不同使用价值和不同计量单位的数值转化为同度量的数值。

后对比,即将乘入的因素固定在同一时期,将报告期与基期的价值指标进行对比,得出

word范文

.

的总指数就是所要研究的现象综合变动的程度 一、帕氏指数

以报告期物量加权来计算物价指数,该方法可推广到各种质量指标指数和数量指标指数的计算。统计上把同度量因素固定在报告期所计算的综合指数称为帕氏指数。 帕氏质量指标综合指数为:

IP??Pq?pq11

01

二、拉氏指数

以基期价格加权来计算销售量指数,该方法可推广到各种数量指标指数和质量指标指数的计算。统计上把同度量因素固定在基期所计算的综合指数称为拉氏指数。 拉氏数量指标综合指数为:

Iq??pq?pq01

00

三、综合指数的编制步骤

(1)确定指数化指标。 (2)选择同度量因素。

(3)固定同度量因素的时期。 一般来说,编制数量指标综合指数采用拉氏指数;编制质量指标综合指数采用帕氏指数。

第三节平均指数

由于权数的不同,平均指数有算术平均指数和调和平均指数。 总指数具有平均的性质,其反映的是全部个体变化程度的平均水平。平均指数在实际中不仅作为综合指数的变形使用,而且它也有广泛的应用价值。

平均指数的编制特点是:先对比,后平均,即先计算出个体指数,再利用一定的权数将个体指数加以平均求得总指数。

一、算术平均指数

Iq??kqpq?pq0000

称为算术平均指数,其中kq=q1/q0为数量指标个体指数,p0q0为权数,是基期的总量数据。实质上,该算术平均指数是拉氏数量指标综合指数的变形 二、调和平均指数

Ip??pq1?kpq11

11p称为调和平均指数,其中kp=p1/p0为质量指标个体指数,p1q1为权数,是报告期的总量数据。实质上,该调和平均指数是帕氏质量指标综合指数的变形

word范文

.

第四节指数体系与因素分析 一、指数体系

在经济分析中,经常研究现象发展的总量变化及其原因。例如,销售总额变化及其原因,这就需要建立指数体系进行分析。

不同时期总量的比值是一个相对数,属于广义指数范畴,通常称之为“总量指数”,其反映了总体在不同时期的总量水平的变动情况。如销售额指数:

Ipq??pq?pq11指数体系

00? 销售额指数Ipq与价格指数Ip、销售量指数Iq有相对数关系:

?pq?pq11?00?pq?pq001101??pq?pq01

00? 销售额变化的绝对量与价格变化产生的绝对量、销售量变化产生的绝对量有关系式:

?pq11??pq?(?p1q1??pq)?(?pq0101??pq)

00? 指数体系的含义与作用

销售额=价格×销售量,销售额的变动受两个因素影响:价格和销售量。 ① 由式(10.10)、(10.11),可进行总量变动的因素分析。

② 式(10.10)称为指数体系,指数体系是指几个指数之间在一定的经济联系基础上所构

成的数量关系式。

③ 指数体系的分析作用主要有两个:一是进行因素分析,即分析现象的总变动中各有关因

素的影响程度;二是进行指数推算,即根据已知的指数推算未知的指数。 ? 常见的指数体系

总产值指数=产量指数×产品价格指数 总成本指数=产量指数×单位产品成本指数 总产量指数=员工人数指数×劳动生产率指数

原材料消耗总额指数=产品产量指数×单位产品原材料消耗量指数×单位原材料价格指数

二、总量变动的两因素分析

【例10-4】根据表10-1给出的资料,对该超市三种商品销售总额的变动进行因素分析。

解:(1)销售额指数Ipq?销售额增减额=

word范文

?pq?pq1111?00277000?120.43%

23000000?pq??pq ?277000?230000?47000(元) .

(2)价格指数Ip?价格变动的影响额??pq?pq1101?277000?107.78%

25700001?pq11?01?pq? ?277000?257000?20000(元)(3)销售量指数Iq?销售量变动的影响额??pq?pq00257000?111.74%

23000000?pq01??pq ?257000?230000?27000(元)(4)三者之间的数量关系为:

120.43%=111.74%×107.78%

47 000(元)= 27 000(元)+20 000(元) (5)因素分析

三种商品的销售总额增长了20.43%,增加的绝对额为47000元。原因是:销售价格提高了7.78%,使得销售额增加20000元;销售量增长11.74%,使得销售额增加27000元。

四、 平均数变动的因素分析p169

第五节几种常见的指数p171

欢迎您的光临,word文档下载后可以修改编辑。双击可以删除页眉页脚。谢谢!单纯的课本内容,并不能满足学生的需要,通过补充,达到内容的完善欢迎您的光临,word文档下载后可以修改编辑。双击可以删除页眉页脚。谢谢!单纯的课本内容,并不能满足学生的需要,通过补充,达到内容的完善

word范文

本文来源:https://www.bwwdw.com/article/ytra.html

Top