四、几种常见的统计指标与参数

更新时间:2023-05-23 18:39:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

计量地理学自学学习必备渭南师范学院

上机实习内容2

几种常见的统计指标与参数

一、描述地理数据集中趋势的指标 1、 平均数(Mean)

(1) 算术平均数(Arithmetic mean) ① 简单算术平均数(Simple arithmetic mean)

设有n个地理数据x1,x2,x3, ,xn,其算数平均数可按下式计算:

x1 x2 x3 xn1n xi

nni 1

练习1

求上海市1873-1940年100年内的年平均降水量的简单算术平均数。

/*调用Excel中的average()函数求样本的简单算数平均数*/ 注意:

样本的简单算术平均数易受极端值的影响,如有以下样本资料:

表1-1 13个样本的属性值

全部资料的简单算术平均数约为7.08,实际上大部分数据(有10个)不超过7,如果去掉第13个属性值20,则剩下的12个数的平均数为6。 ② 加权算术平均数(Weighted arithmetic average)

设有n个地理数据x1,x2,x3, ,xn,其权重系数分别为f1,f2,f3, ,fn,其加权算术平均数可按下式计算:

xf x2f2 x3f3 xnfn 11

f1 f2 f3 fn

xf

i 1n

n

ii

i

f

i 1

练习2

根据黄土高原西部地区某山区县的人工造林地调查的分组数据求其加权算术平均数。

表1-2 某县人工造林地面积的统计分组数据 (单位:ha)

分组序号 组中值 频数

1 0.5 25

2 1.5 96

3 2.5 136

4 3.5 214

5 4.5 253

6 5.5 286

7 6.5 260

8 7.5 203

9 8.5 154

10 9.5 85

11 10.5 24

/*运用Excel中的相对引用功能和求和sum()函数*/

0.5*25 1.5*96 10.5*24

5.494

25 96 24

计量地理学自学学习必备渭南师范学院

(2) 几何平均数(Geometric mean)

设有n个地理数据x1,x2,x3, ,xn,其几何平均数g可按下式计算:

g x1 x2 xi xn

练习3

一位投资者持有一种股票,1997-2000年收益率如下表,计算该投资者在这四年内的平均收益率。

.045*1.02*1.035*1.054 1.038

2、 中位数(Median)

将各个数据从小到大排列,居于中间位置的那个数就是中位数。 (1) 未分组资料的中位数

①当地理数据项数n为奇数时,变量按大小顺序排列,第

n 1

位数是中位数me,即 2

me xn 1

2

练习4 求某地9年年平均气温的中位数。

㈠ 对原始数据序列排序

㈡ 根据公式求得中位数

me x9 1 x5 4.7

2

②当地理数据项数n为偶数时,变量按大小顺序排列,第数me,即

nn

项与第+1项的平均数为中位22

1

me (xn xn)

122

2

计量地理学自学学习必备渭南师范学院

练习5 求某地8年季节性冻土深度的中位数。

计算步骤:

㈠ 对原始数据序列排序

㈡ 根据公式求得中位数

111

me (x8 x8) (x4 x5) *(53.5 53) 53.25

122222

(2) 分组资料的中位数

对于分组的资料,可按下式计算中位数

n

( fm 1)h

Me Lme

fm

式中,n为样本大小,Lme为中位数所在组的下限值,fm 1为中位数所在组的前一组的累积频数,fm为中位数所在组的频数,h为组距。

练习6 求上海市1873-1940年100年内的年平均降水量的分组资料的中位数。 计算步骤:

首先求出分组资料的累积频数,如表

组序 组上限 组下限 频数 累积频数 1 649.7 768.7 1 1 2 768.7 887.7 7 8 3 887.7 1006.7 16 24 4 1006.7 1125.7 27 51 5 1125.7 1244.7 22 73 6 1244.7 1363.7 14 87 7 1363.7 1482.7 8 95 8 1482.7 1601.7 3 98 9 1601.7 1720.7 2 100

由样本的大小(数据个数,为100)和累积频数可知,中位数所在的分组为累积频数小于51的分组,即中位数在第4组。

则根据公式可求出该分组资料的中位数为

100( 24)*119Me 1006.7 1121.293

27

有没有更简单的方法?直接调用Excel中的median()函数。 3、 众数(Mode)

众数是一个地理观测系列中出现频数(次数)最多的数。 (1)未分组资料的众数

计量地理学自学学习必备渭南师范学院

根据每一个数据出现的频数大小直接确定众数。 练习7 求如下数据序列的众数。

1 2 3 4 5 6 7 8 9 序号

161 73 163 165 74 76 72 73 169 属性值

根据目视结果可知,属性值73出现了两次,其他属性值只出现一次,因此该数据序列的众数为73。

/*当样本较大时,可先运用Ecxel中的排序功能对数据排序,再确定众数*/ (2)分组资料的众数

对于分组的资料,可按下式计算众数Mo

Mo Lmo

fm 1

h

fm 1 fm 1

式中, Lmo为众数所在组的下限值,fm 1为众数所在组的前一组的频数,fm 1为众数所在组的后一组的频数,h为组距。

练习8 求上海市1873-1940年100年内的年平均降水量的分组资料的众数。 计算步骤:

组序 组上限 组下限 频数 1 649.7 768.7 1 2 768.7 887.7 7 3 887.7 1006.7 16 4 1006.7 1125.7 27 5 1125.7 1244.7 22 6 1244.7 1363.7 14 7 1363.7 1482.7 8 8 1482.7 1601.7 3 9 1601.7 1720.7 2

根据频数分布表可知众数所在组为第4组。 则根据公式可求出该分组资料的众数为

Me 1006.7

22

119 1075.6

16 22

有没有更简单的方法?直接调用Excel中的mode()函数。

/*在调用mode()函数时,若样本中无重复属性值,则函数出错*/

计量地理学自学学习必备渭南师范学院

二、描述地理数据分散趋势的指标 1、极差(Range) 2、离差(Deviation)

每一个地理数据与平均值的差。

di xi (i 1,2, ,n)

/*缺点:离差会得到一系列的数据,不便于两个样本的比较。 如:我国辽宁省朝阳县和宁夏回族自治区固原县两地多年平均降水量资料如下表,分别计算两地多年平均降水量的离差,得到结果如下

表2-1 两地多年平均降水量及离差 (单位:mm)

1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 年份

520.526.朝年降水

412 633.7 608 606.3 436.2 402.7 371.9 692.8

5 3 阳 量

-109.112.6-84.8-118.-149.171.7

86.96 85.26 -0.54 5.26 离差

04 6 4 34 14 6

475.434.固年降水

732.4 412.5 373.4 766.4 619.2 515.6 501.1 352.6

9 2 原 量

214.0-105.-144.248.0-42.4100.8-17.2-165.-84.1

-2.73 离差

7 83 93 7 3 7 3 73 3

由表可得到每个地区的多年平均降水量波动情况,但两个地区的多年平均降水量变动幅度大小很难比较*/

4、 离差平方和(Sum of squares) 各数据的离差平方后再相加。

目的:一是为了消除正负号;二是使离散程度更清楚。

d

i 1

n

2i

(xi )2

i 1

n

/*调用Excel中的devsq()函数求样本的离差平方和*/ 5、 方差(variance)

各离差平方和除以其数据的个数。 对于总体方差 ,其计算公式为

2

1n

(xi )2

ni 1

2

/*调用Excel中的varp()函数求总体方差*/ 对于样本的方差S,其计算公式为

2

1n

S (xi )2 n 1i 1

2

/*调用Excel中的var()函数求样本的方差*/

/*式中n 1称为自由度。其含义可做如下解释。设一个样本含有n个变量,从理论上讲n个

计量地理学自学学习必备渭南师范学院

变量都同样用来计算方差,每一xi与比较就有n个离差。但均值本身也是从样本资料中估算出来的,即由每一个变量各贡献就等于各个变量与其自身的

1

而组成,如每一个变量与作一次比较,这无形中n

1

做比较,因此每一离差比独立比较时要稍微减小些,表面上n

虽有n个比较,但实质上仅相当于n 1个独立比较。所以,在估计方差时,用n 1来除。

*/

6、 标准差(Standard deviation) 标准差为方差的算术平方根。 总体的标准差计算公式为

(x )

i

i 1

n

2

n

/*调用Excel中的stdevp()函数求总体的标准差*/

样本的标准差计算公式为

S

(x )

i

i 1

n

2

n 1

/*调用Excel中的stdev()函数求样本的标准差*/

7、 变异系数(Variation coefficient) 标准差与均值的比值。

当两个系列数值的单位不同或均值相差较大,或它们的标准差相同时,就不能简单地用标准差的绝对值来比较不同均值时随机系列的离散程度。 变异系数Cv的计算公式为

2

(x ) ii 1n

Cv

S1

n 1

三、描述地理数据分布特征的指标

1、 偏度系数(Coefficient of skewness)

描述了地理数据分布的不对称性,刻画了以平均值为中心的偏向情况,其计算公式为

1x 3

g1 (i)

n i 1

n

g1<0,表示负偏,即均值在峰值的左边;g1>0,表示正偏,即均值在峰值的右边;g1=0,

表示对称分布。

/*调用Excel中的skew()函数求样本的偏度系数*/

计量地理学自学学习必备渭南师范学院

2、 峰度系数(Coefficient of kurtosis)

描述了地理数据在均值附近的集中程度,其计算公式为

1x 4

g2 (i) 3

n i 1

标准正态分布的峰度系数g2=0;g2>0,表示地理数据分布的集中程度高于正态分布(曲线相对尖锐);g2<0,表示地理数据分布的集中程度低于正态分布(曲线相对平坦)。

/*调用Excel中的kurt()函数求样本的峰度系数*/

标准正态分布的偏度系数为0,峰度系数为3。 练习

计算某农场各农田地块的面积的偏度和峰度值,以此判断分布类型。 表2-2 某农场各农田地块的面积 (单位:ha)

1 2 3 4 5 6 7 8 9 编号

面积 12 83 50 35 55 50 72 40 85

n

10 29 11 65 12 75

本文来源:https://www.bwwdw.com/article/r0f4.html

Top