第三章+数据分布特征的描述(教案)

更新时间:2024-06-17 15:26:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第三章 数据分布特征的描述

(一)教学目的

通过本章的学习,使同学们正确理解各种指标的概念及计算方法,学会运用相应的统计指标对数据的分布特征进行分析说明。

(二)基本要求

使学生熟练掌握数据分布特征的描述方法。 (三)教学要点

1、集中趋势的测度指标及其计算方法; 2、离散趋势的测度指标及其计算方法; 3、总体分布的偏度与峰度的测度。 (四)教学时数 9——10课时 (五)学习内容 本章共分三节:

第一节 数据分布集中趋势的测定

一、定类数据集中趋势的测度——众数(Mode) (一) 概念要点

众数是指一组数据中出现次数最多的变量值,用

Mo表示。从变量分布的角度看,众数

是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,也就有多个众数。

1.集中趋势的测度值之一 2.出现次数最多的变量值 3.不受极端值的影响

4.可能没有众数或有几个众数

5.主要用于定类数据,也可用于定序数据和数值型数据 众数的不唯一性:

无众数原始数据: 10 5 9 12 6 8 一个众数原始数据: 6 5 9 8 5 5 多于一个众数原始数据: 25 28 28 36 42 42 (二)众数的计算

根据未分组数据或单变量值分组数据计算众数时,我们只需找出出现次数最多的变量值即为众数。对于组距分组数据,众数的数值与其相邻两组的频数分布有一定的关系,这种关系可作如下的理解:

设众数组的频数为fm,众数前一组的频数为f?1,众数后一组的频数为f?1。当众数相邻两组的频数相等时,即f?1=f?1,众数组的组中值即为众数;当众数组的前一组的频数多于众数组后一组的频数时,即f?1>f?1,则众数会向其前一组靠,众数小于其组中值;当众数组后一组的频数多于众数组前一组的频数时,即f?1<f?1,则众数会向其后一组靠,

1

众数大于其组中值。基于这种思路,借助于几何图形而导出的分组数据众数的计算公式如下:

下限公式:

Mo?L? 上限公式:

fm?f?1??d?L?1?d(fm?f?1)?(fm?f?1)?1??2 (3.1) fm?f?1??d?U?2?d(fm?f?1)?(fm?f?1)?1??2 (3.2)

Mo?U?

式中:L表示众数所在组的下限; U表示众数所在组的上限; d表示众数所在组的组距。

[例3.1] 现利用表3.1—1资料计算3000户农民家庭年人均收入的众数。

表3. 1 某地区农民家庭收入资料

从表3.1中的数据可以看出,出现频数最多的是1050,即众数组为1400—1600这一组

fm=1050,f?1=480,f?1=600,根据(3.1)式可得众数为:

Mo?1400?

1050?480?200(1050?480)?(1050?600)

=1511.8(元)

利用上述公式计算众数时是假定数据分布具有明显的集中趋势,且众数组的频数在该组内是均匀分布的,若这些假定不成立,则众数的代表性就会很差。从众数的计算公式可以看出,众数是根据众数组及相邻组的频率分布信息来确定数据中心点位置的,因此,众数是一个位置代表值,它不受数据中极端值的影响。

二、定序数据集中趋势的测度——中位数和分位数 (一)概念要点

中位数是将总体各单位标志值按大小顺序排列后,处于中间位置的那个数值。 1.集中趋势的测度值之一 2.排序后处于中间位置上的值

2

3.不受极端值的影响

4.主要用于定序数据,也可用数值型数据,但不能用于定类数据 5.各变量值与中位数的离差绝对值之和最小,即

?Xi?1ni?Me?min(3.3)

(二)中位数的计算

根据未分组资料和分组资料都可确定中位数。有三种情况:

1.对于未分组的原始资料,首先必须将标志值按大小排序。设排序的结果为:

x1?x2?x3?????xn

位数就可以按下面的方式确定:

Me=

则中

xn?12 ,当n为奇数 (3.4)

x?xnn2Me=

2?12,当n为偶数 (3.5)

2.对于单项式变量数列资料,由于变量值以及序列化,故中位数可以直接按下面的方式确定:

xMe=

?f?12 ,当?f为奇数 (3.6)

x?f2?x?f22?1,当?f为偶数 (3.7)

3.对于组距式变量数列,确定中位数也需要分两步进行:

(1)从变量数列的累计频数栏中找出第?f个单位所在的组,即“中位数组”,该组

2的上、下限就规定了中位数的可能取值范围;

(2)假定在中位数组内的各单位是均匀分布的,就可利用下面的公式计算中位数的近似值:

3

?fMe?LMe?2?sMe?1fMe?dMe (3.8)

?f

?UMe?2?s?Me?1fMe?dMe

(3.9)

上面两式分别称作中位数的“下限公式”。式中,Me?1是到中位数组前面一组为止的向上累计频数,Me?1则是到中位数组后面一组为止的向下累计频数;

ss?dMe=UMe?LMe为中位数组的组距。

(三)分位数

中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数(quartile)、十分位数(decile)和百分位数(percentile)等。它们分别是用3个点、9个点和99个点将数据四等分、10等分和100等分后各分位点上的值。这里只介绍四分位数的计算,其他分位数与之类似。

一组数据排序后处于25%和75%位置上的值,称为四分位数,也称四分位点。

四分位数是通过三个点将全部数据等分为四部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(下四分位数)和处在75%位置上的数值(上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置。

1.四分位数位置的确定

设下四分位数为QL ,上四分位数为QU,对于未分组的原始数据,各四分位数的位置分别为:

(1)未分组数据:

QL位置?n+14Qu位置=3(n+1)4

当四分位数的位置不在某一个位置上时,可根据四分位数的位置,按比例分摊四分位数两侧的差值。

[例3.2]在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元),1500、750、780、1080、850、960、2000、1250、1630,计算人均月收入的四分位数。

n+19+1QL的位置===2.544解:,即QL在第2个数值(780)和第3个数值(850)之间0.5的位置上,因此

QL=(780+850)÷2=815(元)

4

QU的位置=3(n+1)3?(9+1)==7.544,即QU在第7个数值(1500)和第8个数值(1630)

之间0.5的位置上,因此

QU=(1500+1630)÷2=1565(元)

QL和QU之间包含了50%的数据,因此,我们可以说有一半的家庭人均月收入在815~1565元之间。

(2)组距分组数据:

QL位置??f4 QU位置?3?f4

数值型分组数据的四分位数(计算公式)

QL??LL下四分位数:L()

?f?SL?4?iLfL(3.

10)

四分位数上

10)

QU??LUUU

三、数值型数据集中趋势的测度

33?f?f??SSUU44????iiUUffUU(3.

(一)算术平均数

算术平均数(Arithmetic mean)也称为均值(Mean),是全部数据算术平均的结果。算术平均法是计算平均指标最基本、最常用的方法。计算公式为:

算术平均数?总体标志总量

总体单位总量

很多社会经济现象,总体标志总量常常是总体单位变量值的算术总和。例如,工人工资总额是总体中每个工人工资的总和,某地区小麦总产量是所有耕地小麦产量的总和。在总体标志总量和总体单位总量的基础上,就可以计算平均指标。

算术平均数与强度相对数都是两个总量指标的比值,也都是有名数,都反映了相互联系的两个现象之间的数量对比关系,计算方法也非常相似。但它们却是两个性质不同的统计指标,主要区别有两点:

其一,子项指标与母项指标的关系不同。平均数的子项指标与母项指标属于同一个统计总体,是同一统计总体的总体标志总量与总体单位总量的比值,而强度相对数则是来自两个不同总体但有联系的总量指标之比;

其二,算术平均数的子项指标(标志总量)随着母项指标(总体单位数)的变动而变动,二者互相适应,而强度相对数的子项指标同母项指标之间不存在这样的关系。

5

算术平均数在统计学中具有重要的地位,是集中趋势的最主要度量值,通常用x(读作

x?bar)表示。根据所掌握数据形式的不同,算术平均数有简单算术平均数和加权算术平

均数。

1.简单算术平均数(Simple arithmetic mean) 未经分组整理的原始数据,其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。设统计数据为

x1,x2,?,xn,则算术平均数x的计算公式为:

x?x???xnx?12?n?xi?1nin (3.11)

[例3.3] 某班级40名同学统计学的考试成绩原始资料如表3.1—2所示。

表3.2 40名同学统计学原始成绩

该班40名同学统计学的平均成绩为:

X?64?70???78?753089??77.234040(分)

2.加权算术平均数(Weighted arithmetic mean)

根据分组整理的数据计算算术平均数,就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。设原始数据被分成k组,各组的变量值为次数或频数分别为

x1,x2,?,xk,各组变量值的

f1,f2,?,fk,则加权的算术平均数为:

xf?xf???xkfkx?1122?f1?f2???fk?xfi?1kkii?fi?1i (3.12)

[例3.4] 根据例3.3提供的40名同学的统计学成绩原始资料分组整理如表3.1—3,根据此

表资料计算平均成绩。

表3. 3 40名同学统计学成绩汇总表

6

根据(3.12)式得

Kx?

?xfi?1Kii??fi?13060?76.540(分)

i根据(3.12)式计算的平均成绩是76.5分,而与根据(3.11)式计算的平均成绩77.23分相比,相差0.73分,显然77.23分是准确的平均成绩,因为(3.11)式所用的是原始数据的全部信息。而(3. 12)式是用各组的组中值代表各组的实际数据,使用代表值时是假定各组数据在各组中是均匀分布的,但实际情况与这一假定会有一定的偏差,使得利用分组资料计算的平均数与实际的平均值会产生误差,它是实际平均值的近似值。

加权算术平均数其数值的大小,不仅受各组变量值(xi)大小的影响,而且受各组变量值出现的频数即权数(fi)大小的影响。如果某一组的权数大,说明该组的数据较多,那么该组数据的大小对算术平均数的影响就越大,反之,则越小。实际上,我们将(3.12)式变形为下面的形式,就更能清楚地看出这一点。

x?

?xfi?1KKii?fi?1??xii?1Kfii?fi?1Ki (3.13)

由(3.13)式可以清楚地看出,加权算术平均数受各组变量值(xi)和各组权数即频率

fi?f大小的影响。频率越大,相应的变量值计入平均数的份额也越大,对平均数的影响

i就越大;反之,频率越小,相应的变量值计入平均数的份额也越小,对平均数的影响就越小。这就是权数权衡轻重作用的实质。

当我们掌握的权数不是各组变量值出现的频数,而是频率时,可直接根据(4.3.3)式计算算术平均数。如例3. 2,根据各组的频数计算的频率分别为:0.05、0.2、0.4、0.25、0.1,各组频率之和为1,则用频率计算的加权算术平均数为:

7

x??xii?1Kfi?fi?1Ki

?55?0.05?65?0.2?75?0.4?85?0.25?95?0.1

?76.5(分)

从计算结果看,用频率加权计算的结果与用频数加权计算的结果是一致的。 需要指出的是,当各组变量值出现的频数(fi)或频率

fi?fi相等时,权数的作用就

消失了,这就意味着各组变量值对总平均的结果所起的作用是一样的,此时,加权算术平均数就等于简单算术平均数。

在实际生活中,我们也会经常遇到由相对数计算平均数的情况。一般地说,求相对数的平均数应采用加权平均的方法,此时,用于加权平均的权数不再是频数或频率,而应根据相对数的含义,选择适当的权数。下面举一个实例说明。

[例3.5] 某公司所属10个企业资金利润率分组资料如表3.4,要求计算该公司10个企业的平均利润率。

表3.4 某公司所属10个企业资金利润率分组资料

该例子的平均对象是各企业的资金利润率,表中的企业数虽然是次数或频数,但却不是合适的权数。要正确计算公司10个企业的平均资金利润率,因为资金利润率=利润总额/资金总额,所以计算平均资金利润率需要以资金总额为权数,才能符合该指标的性质。因此,该公司10个企业的平均利润率为:

x??xi?1Ki?1Kifi?i

算术平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。从统计思想上看,算术平均数是一组数据的重心所在,它是消除了一些随机因素影响后或者数据误差相互抵消后的必然性的结果。例如每年分季度的观测数据,各年同季的数据由于受一些偶然性随机因素的影响,其数值表现出一定的差异性,但将各年同季的数据加以平均,计算的算术平均数,就消除了一些随机因素的影响,反映出季节变动必然性的数量特征。再如,对同一事物进行多次测量,由于测量误差所致,或者其它因素的偶然影响,使得测量结果不一致,但利用算术平均数作为其代表值,则可以使误差相互抵消,反映出事物固有的数量特征。另外,算术平均数具有下面一些重要的数学性质,这些数学性质在实际中有着广泛的应用,同时也体现了算术平均数的统计思想。

⑴各变量值与其算术平均数的离差之和等于零,即

?f5%?40?10%?80?15%?14031?=11.9@?80?140260 8

?(xi?1ni?x)?0 或

?(x?x)fii?1kki?0

⑵各变量值与其算术平均数的离差平方和最小,即

?(x?x)ii?1n2?min(最小) 或

?(x?x)ii?12fi?min(最小)

(二)调和平均数(Harmonic mean)

在实际工作中,经常会遇到只有各组变量值和各组标志总量而缺少总体单位数的情况,这时就要用调和平均数法计算平均指标。

为了方便调和平均数的概念和计算方法的说明,我们先看一个简单的例子。

[例3.6] 市场上早、中、晚蔬菜的价格分别是早晨: 0.67公斤/元,中午0.5公斤/元,晚上0.4公斤/元。现在,我们分别按四种方法在购买蔬菜,分别计算平均价格(不管按什么方法购买,平均价格都应该等于花费的现金除所买蔬菜的数量):

第一种买法:早、中、晚各买一公斤

x?X?n则蔬菜平均价格为:

0.67?0.5?0.43=0.523(元/公斤)

第二种买法:早晨买1公斤,中午买2公斤,晚上买3公斤

xf?X??f则蔬菜平均价格为:

0.67?1?0.5?2?0.4?31?2?3=

=0.523(元/公斤)

第三种买法:早、中、晚各买一元 在这种情况下,计算蔬菜平均价格比上述两种方法稍微复杂一些,我们得先计算出一元钱所购买蔬菜的数量,然后再计算蔬菜的平均价格。

要计算蔬菜的平均价格,首先应该计算出早、中、晚各花费1元钱所购买蔬菜的数量:

其中:早晨购买蔬菜的数量=

1=1.5(公斤); 0.671中午购买蔬菜的数量==2(公斤);

0.51晚上购买蔬菜的数量==2.5(公斤)。

0.4蔬菜平均价格为:X?1?1?13??0.5(元/公斤)

1111.5?2?2.5??0.670.50.4这种计算平均指标的方法同算术平均法有很大的不同,由于资料中缺乏总体单位总量,所以,就不可能直接用算术平均的方法计算平均指标。为了达到计算目的,首先要用变量值的倒数计算出总体单位总量来,然后再计算平均指标,调和平均数法因此而得名,也正是由于这个原因,调和平均数又称为倒数平均数。

第四种买法,早晨买1,中午买2,晚上买3元钱

和第三种买法一样,我们还是得先计算出早晨、中午和晚上所购买蔬菜的数量,然后再计算平均价格。

9

1=1.5(公斤); 0.674中午购买蔬菜的数量==4(公斤);

0.53晚上购买蔬菜的数量==7.5(公斤)。

0.4早晨购买蔬菜的数量=蔬菜平均价格为:X?1?2?36??0.46 =(元/公斤)

1231.5?4?7.5??0.670.50.4在上述计算平均价格的过程中,早、中、晚三个时段购买蔬菜所花费的现金是计算平均价格的权数,这种方法我们称为加权调和平均法。

由以上分析过程得出调和平均数的定义:

调和平均数是各个变量值倒数的算术平均数的倒数,习惯上用(H)表示。计算公式为: 简单调和平均数:

H?1111????x1x2xnn?n?xj?1k (3.14)

j

加权调和平均数

i?1i (3.15)

在实际工作中,调和平均数通常是作为算术平均数的变形使用的,也就是由于受所掌握资料的限制,有时不能直接采用算术平均数的计算公式计算平均数,这就需要使用调和平均数的形式进行计算。为了更好地理解调和平均数的应用场合,我们看下面的例子。

[例3.6] 某商品有三种不同的规格,销售单价与销售量如表3.5所示,求这三种不同规格商品的平均销售单价。

表3.5 某商品三种规格的销售数据

m?m2???mkH?1?mkm1m2????x1x2xk?m?xi?1KKimi

从平均价格的实际意义看,其计算方法应该是:

平均价格?

销售额

销售量10

四分位差主要用于测度顺序数据的离散程度。当然,对于数值型数据也可以计算四分位差,但不适合于分类数据。

[例3.11]根据例3.2资料计算上下四分位数,那么家庭人均月收入的四分位差为:

Qd?QU?QL?1565?815?750

四、全距

全距又称极差,是一组数据的最大值与最小值之差,用R表示。计算公式为: 式中,

R?max(Xi)?min(Xi) (3.20)

max(Xi)、min(Xi)分别表示为一组数据的最大值与最小值。由于全距是根据一组

数据的两个极值表示的,所以全距表明了一组数据数值的变动范围。R越大,表明数值变动的范围越大,即数列中各变量值差异大,反之,R越小,表明数值变动的范围越小,即数列中各变量值差异小。

[例3.12] 例3.1给出的40个同学统计学的考试成绩,其最高成绩为99分,最低成绩为36,则全距为:

R?99?36?63(分)

如果资料经过整理,并形成组距分配数列,全距可近似表示为:

R≈最高组上限值-最低组下限值

全距是描述离散程度的最简单度量值,计算简单直观,易于理解,但其数值大小易受极端变量值的影响,且不反映中间变量值的差异,因而不能准确描述出数据的离中程度。

五、平均差(Mean deviation)

平均差是各变量值与其算术平均数离差绝对值的平均数,用Md表示。根据掌握资料的不同,平均差有以下两种计算方法:

1. 简单平均法

对于未分组资料,采用简单平均法。其计算公式为:

?x?xin

MD=

i?1n (3.21)

[例3.13] 某厂甲、乙两组工人生产某种产品的产量资料如表3.8所示。

表3.8 平均差计算表

16

根据表3.8资料可得:

x甲??xi?1ninxi?x?3756i?1??75?1.2M55nD甲(件) ==(件) xi?x?37580i?1??75?16M5n(件) D乙==5(件)

nn

x乙??xi?1nin从计算结果看,甲、乙两组平均生产件数相等,但由于甲组的平均差(1.2件)小于乙

组的平均差(16件),因而其平均数的代表性比乙组大。 2. 加权平均法

在资料分组的情况下,应采用加权平均式:

?x?xii?1kfiM D=

?fi?1ki (3.22)

[例3.14] 某企业100名工人的月工资资料如表3.9所示。 表3.9 平均差计算表

根据表3.9资料可得该企业的月平均工资和平均差为:

X??66250450?10?550?30?650?40?750?20?850?5??631105105 (元) 8475?80.7105(元)

MD?计算结果表明,该企业105名工人的月工资水平差异程度平均为80.7元。

平均差计算简便,意义明确,而且平均差是根据所有变量值计算的,因此它能够准确地、全面地反映一组数值的变异程度。但是,由于平均差是用绝对值进行运算的,它不适宜于代数形式处理,所以在实际应用上受到很大的限制。

六、方差和标准差(Variance 、Standard deviation)

方差是各变量值与其算术平均数离差平方的算术平均数。标准差是方差的平方根。 方差和标准差同平均差一样,也是根据全部数据计算的,反映每个数据与其算术平均

17

数相比平均相差的数值,因此它能准确地反映出数据的差异程度。但与平均差不同之处是在计算时的处理方法不同,平均差是取离差的绝对值消除正负号,而方差、标准差是取离差的平方消除正负号,这更便于数学上的处理。因此,方差、标准差是实际中应用最广泛的离中程度度量值。由于总体的方差、标准差与样本的方差、标准差在计算上有所区别,因此下面分别加以介绍。

(一)总体的方差和标准差

设总体的方差为?,标准差为?,对于未分组整理的原始资料,方差和标准差的计算公式分别为:

2?2??(Xi?1Ni?X)2 (3.23)

N2(X?X)?ii?1N??NK (3.24)

对于分组数据,方差和标准差的计算公式分别为:

?2?

?(Xi?1iK?X)2Fii?Fi?1 (3.25)

??

?(Xi?1KiK?X)2Fii?Fi?1 (3.26)

[例3.15] 现仍利用[例4.4.5]资料计算方差和标准差,计算过程见表3.10。

表3.10 方差和标准差计算表

?2? ???(Xi?1KiK?X)2Fii?Fi?11061905?10113.38105=(元2 ) ??2?10113.38?100.57(元)

18

(二)样本的方差和标准差

样本的方差、标准差与总体的方差、标准差在计算上有所差别。总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1去除总离差平方和。

设样本的方差为s,标准差为s,对于未分组整理的原始资料,方差和标准差的计算公式为:

2S2??(x?x)ii?1n2n?1 (3.27)

2S??(x?x)ii?1nn?1 (3.28)

对于分组数据,方差和标准差的计算公式为:

S2?

?(x?x)ii?1ki?1k2fi(?fi)?1 (3.29)

S??(x?x)ii?1ki?1k2fi(?fi)?1 (3.30)

[例3.16] 如果表3.10的数据为样本资料,则计算的样本方差和标准差为:

S2?

?(x?x)ii?1ki?1k2fi?1061905?10210.63105?1

(?fi)?1 S ?10210.63?101.05(元)

这与根据总体的方差和标准差计算公式计算的结果相差不大。当n很大时,样本方差S22与总体的方差?的计算结果相差很小,这时样本方差也可以用总体方差的公式来计算。 (三)是非标志的方差与标准差

在实际生活中,有些事物或现象的特征只表现为两种性质上的差异,例如,产品的质量表现为合格或不合格,人的性别表现为男或女,人们对某种意见表示为同意或不同意;对学生考试成绩分为及格和不及格,等等。这些只表现为是与否、有或无的标志,称为是非标志,也称为交替标志。在进行抽样估计时,是非标志的方差或标准差具有很重要的意义。

1. 成数(比例)

19

如前所述,是非标志只有两种表现,我们把总体中或样本中具有某种表现或不具有某种表现的单位数占全部单位数的比重称为成数,它反映了总体或样本中“是”与“非”的构成,并且代表着两种表现或性质各反复出现的程度,即频率。例如,某一批产品,合格品占95%,不合格品占5%。在这里。95%和5%均为成数。

若以

N1表示总体中具有某种表现的单位数,N0表示总体中不具有某种表现的单位数,

N表示总体单位数,则成数可表示为:

??

NN11???0N 或 N

对于样本来说,与总体则有

N1对应的就是n1,与总体N0对应的就是n0,样本单位数为n,

p?

nn11?p?0n 或 n

2. 是非标志的平均数

是非标志是一种品质标志,其表现为文字。因此,在计算平均数时,首先需要将文字表现进行数量化处理。用“1”表示具有某种表现,用“0”表示不具有某种表现,然后以“1”和“0”作为变量值,计算加权算术平均数。现以总体为例予以说明。

X??

1?N1?0?N0N1???N1?N0N (3.31)

p。

由此可知,总体是非标志的平均数,即为被研究标志具有某种表现的成数P,同样可

得样本是非标志的平均数即为被研究标志具有某种表现的成数

3. 是非标志的方差与标准差

将经过量化处理的是非标志的表现“1”和“0”作为变量值代入总体的方差计算公式:

??

2?(Xi?X)2Fi(1??)2N1?(0??)2N0???FiN1?N0

??(1??)

2?? 为区别于一般变量值的方差,我们将是非标志的方差记为,即 2???(1??) (3.32) ?

是非标志的标准差为:

????(1??) (3.33)

2类似地,可得样本是非标志的方差s和标准差s为:

20

s2p?p(1?p) (3.34) (3.35)

sp?p(1?p)[例3.17] 从一批产品中随机抽取100件产品进行质量测试,测试的结果为96件合格,

4件不合格,试计算成数的方差和标准差。

根据所给资料可得:

p?

496?96%1?p??40100

s2p?96%?4%?3.84%sp?3.84%?19.6%

是非标志的方差、标准差,当p?0.5时取得最大值,方差最大值为0.25,标准差最大值为0.5,也就是说,此时是非标志的变异程度最大。如某学生群体中男生数和女生数相等,

即男女生的成数均为0.5(或50%),说明该学生群体性别差异程度最大。是非标志的方差、标准差的最小值均为0。

4. 方差的数学性质

⑴ 变量的方差等于变量平方的平均数减去变量平均数的平方,即

222X?(X)?? (3.36)

NNX?其中,

2?Xi?12iNX? ,

?Xi?1iN

方差的该数学性质可使变量方差的计算更为简便。

⑵各变量值对算术平均数的方差,小于等于对任意常数的方差。用公式表示即为:

?(Xi?1Ni?X)2?(Xi?1Ni?A)2 (A为任意常数) (3.37)

N≤

N(四)相对位置的度量:标准分数

有了均值和标准差之后,我们可以计算一组数据中各个数值的标准分数(Standard score),以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群值。

变量值与其平均数的离差除以标准差后的值,称为标准分数,也称标准化值或Z值。

设标准分数为Z,则有:

zi?xi???或zi?xi?xs (3.38)

标准分数也给出了一组数据中各数值的相对位置。比如,如果某个数值的标准分数为-2,我们就知道该数值低于均值2倍的标准差。 (4.4.21) 式也就是我们常用的统计标准化公式,在对多个具有不同量纲的变量进行处理时,常常需要对各变量数值进行标准化处理。

【例3.18】根据例3.2的数据,计算每个家庭人均收入的标准分数。

,s?431.68。计算每个家庭人均月收入的标准 解:根据已知数据计算得:x?1200 21

分数如表3.11所示。

表3.11 9个家庭人均月收入的标准分数

由表3.11可知,收入最低的家庭其人均收入与平均数相比低1.042个标准差;而收入最高的家庭人均收入比平均数高1.853个标准差。

标准分数均值为0,标准差为1,即:

?zi1??xi?x?10z??????0nnsns??zi?z???zi?0??z21??xi?x?s22s??????2?12nnnnss22(3.39) (3.40)

实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据

中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0、标准差为1。

经验法则表明:当一组数据对称分布时

——约有68.27%的数据在平均数加减1个标准差的范围内 ——约有95.45%的数据在平均数加减2个标准差的范围内 ——约有99.73%的数据在平均数加减3个标准差的范围内。

由此可见,一组数据中低于或高于平均数3个标准差以上的数据很少。因此,在统计上,往往将平均数3个标准差以外的数据称为异常值或离群值。

七、相对离散程度:离散系数

前面介绍的全距、平均差、方差和标准差都是反映一组数值变异程度的绝对值,其数值的大小,不仅取决于数值的变异程度,而且还与变量值水平的高低、计量单位的不同有关。所以,不宜直接利用上述变异指标对不同水平、不同计量单位的现象进行比较,应当先做无量纲化处理,即将上述的反映数据的绝对差异程度的变异指标转化为反映相对差异程度的指标,然后再进行对比。

离散系数是反映一组数据相对差异程度的指标,是各变异指标与其算术平均数的比值。离散系数是一个无名数,可以用于比较不同数列的变异程度。离散系数通常用V表示,常用的离散系数有平均差系数和标准差系数,其计算公式分别为:

VM?MD?100%X (3.41)

V???X?100% (43.42)

22

[例3.19] 甲乙两组工人的平均工资分别为138.14元、176元,标准差分别为21.32元、24.67元。两组工人工资水平离散系数计算如下:

V?甲?V?乙21.32?100%?15.438.14 24.67??100%?14.026

从标准差来看,乙组工人工资水平的标准差比甲组大,但不能断言,乙组平均工资的代

表性小。这是因为两组工人的工资水平处在不同的水平上,所以不能直接根据标准差的大小作结论。而正确的方法要用消除了数列水平的离散系数比较。从两组的离散系数可以看出,甲组相对的变异程度大于乙组,因而乙组平均工资的代表性要大。

第三节 数据分布偏度与峰度的测定

偏度是对数据分布在偏移方向和程度所作的进一步描述;峰度是用来对数据分布的扁平程度所做的描述。

对于偏斜程度的描述用偏态系数,扁平程度的描述用峰度系数。 集中趋势和离中趋势是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰度就是对这些分布特征的描述。

一、偏态的度量

偏态是对分布偏斜方向及程度的度量。从前面的内容中我们已经知道,频数分布有对称的,有不对称的即偏态的。在偏态的分布中,又有两种不同的形态,即左偏和右偏。我们可以利用众数、中位数和算术平均数之间的关系判断分布是左偏还是右偏,但要度量分布偏斜的程度,就需要计算偏态系数了。偏态系数的计算方法很多,这里仅介绍两种。

(一) 由算术平均数与众数之间的关系求偏态系数 任何一个频数分布的算术平均数与众数之间的差异情况,与这个频数分布的形态有固定的关系。若频数分布是对称的,则算术平均数等于众数;若频数分布为右偏,则算术平均数大于众数;若频数分布为左偏,则算术平均数小于众数。用其二者的差量除以标准差,即可求得偏态系数,计算公式为:

SK? 当

X?Mo? (3.43)

X?M0时,SK?0,大体表明频数分布是对称的;当X>Mo时,SK>0,表明

Mo,SK<0,表明频数分布

频数分布右偏,偏态系数越大,表明右偏程度越大;若X<

左偏,偏态系数越小,表示左偏程度越大。

(二)动差法 动差又称矩,原是物理学上用以表示力与力臂对重心关系的术语,这个关系和统计学中变量与权数对平均数的关系在性质上很类似,所以统计学也用动差来说明频数分布的性质。 一般地说,取变量的a值为中点,所有变量值与a之差的K次方的平均数称为变量X关于a的K阶动差。用式子表示即为:

?(X?a)KN

23

当a?0时,即变量以原点为中心,上式称为K阶原点动差,用大写英文字母M表示。

一阶原点动差:

M1??XN ,即算术平均数

?X2M2?N ,即平方平均数 二阶原点动差:

?X3M3?N ,等等 三阶原点动差:

当a?X时,即变量以算术平均数为中心,上式称为K阶中心动差,用小写英文字母m表示。

一阶中心动差:

m1??(X?X)?0N

?(X?X)2m2???2N二阶中心动差: ?(X?X)3m3?N三阶中心动差: ,等等

需要注意的是,计算各阶原点动差和各阶中心动差,如果依据的资料是分组资料,则应

用各组的频数或频率加权平均。由于中心动差计算起来比较繁杂,而计算原点动差相对比较简单,通常多从原点动差来推算中心动差。只要展开中心动差的各项,就容易求得它与原点动差的关系。

2m?M?M?0m?M?M111221 3m?M?3MM?2M3211 324m?M?4MM?6MM?3M431211,等等。 4采用动差法计算偏态系数是用变量的三阶中心动差m3与?进行对比,计算公式为:

3??

m3?3 (3.44)

当分布对称时,变量的三阶中心动差m3由于离差三次方后正负相互抵消而取得0值,则??0;当分布不对称时,正负离差不能抵消,就形成正的或负的三阶中心动差m3。当m3为正值时,表示正偏离差值比负偏离差值要大,可以判断为正偏或右偏;反之,当m3为负

24

值时,表示负偏离差值比正偏离差值要大,可以判断为负偏或左偏。

m3越大,表示偏斜的

3程度就越大。由于三阶中心动差m3含有计量单位,为消除计量单位的影响,就用?去除m3,使其转化为相对数。同样的,?的绝对值越大,表示偏斜的程度就越大。3.12

表3.12 某地区农民家庭人均收入数据偏态计算表

注:表中

Kpi为各组户数在总户数中所占比重,即频率。

??xipi?i?1k根据表4.5.1数据计算得:

x??xii?1fi

?fi?1ki1596(元)

2k??

?(xi?1ki?x)fi?i?fi?1?(xi?1ki?x)2pi?305.26(元)

m3??(xi?x)i?1k3nfi

?fi?1??(xi?x)3pi?i?1ik18838272

m3?18838272?0.662??33(305.26)?将计算结果代入(4.5.1)式得:

从计算结果可以看出,偏态系数为正值,而且数值较大,说明该地区农民家庭人均收入的分

布为右偏分布,即人均收入较少的家庭占据多数,而人均收入较高的家庭则占少数,而且偏斜的程度较大。

二、峰度的度量

峰度是用来衡量分布的集中程度或分布曲线的尖峭程度的指标。计算公式如下:

??

m4?4?3 (3.45)

分布曲线的尖峭程度与偶数阶中心动差的数值大小有直接的关系,

m2是方差,于是就

25

本文来源:https://www.bwwdw.com/article/fok3.html

Top