ArcGIS地统计分析总结

更新时间:2024-04-17 10:34:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

ArcGIS地统计分析(Geostatistical Analyst) 1 介绍

1.1为什么使用ArcGIS Geostatistical Analyst

人为判断总是会遗漏某些重要信息,同时也会无中生有。而ArcGIS Geostatistical Analyst提供客观的数据驱动方法,定量预测数据变化趋势和从空间数据中发掘特征模型。 如果数据不够精确或者模型不够准确,这样势必影响输出的地图和从中得到的结论。而ArcGIS Geostatistical Analyst可以提供一个概率框架,来定量计算生成数据面时的不确定性。

元统计分析方法利用属性数据之间的相关来推断不同变量之间的联系,ArcGIS Geostatistical Analyst可以联合各种数据来做更精确的预测。 ArcGIS Geostatistical Analyst可以有效地推测一些空间现象的未知部分,因此,对采样计划的设计和优化非常关键。

1.2使用ArcGIS Geostatistical Analyst的各个领域

这个模块的应用对象不计其数,可以使用这个工具包开发任何一种地理数据集(比如坐标和属性),下面列出几个成功应用ArcGIS Geostatistical Analyst的典型领域: 气象学家和统计学家应用ArcGIS Geostatistical Analyst来进行气象数据分析。 采矿行业广泛的应用ArcGIS Geostatistical Analyst,涉及从最初的地质特征研究到产量控制的各个阶段。

石油工业成功的应用ArcGIS Geostatistical Analyst,来分析包括地震数据和油井数据集成的空间数据,并且用来研究物理特性和地震属性之间的相关关系。

在环境问题的研究中,ArcGIS Geostatistical Analyst的应用提供了一个分析空气、土壤和地下水污染高效和一致的模型。演示、个例研究和研究教育论文提供了大量的应用ArcGIS Geostatistical Analyst的例子。同时,ArcGIS Geostatistical Analyst也成为评估渔业产量的一个标准方法。

精细农业所应用的土壤特性的图形分析中,ArcGIS Geostatistical Analyst也得到广泛应用。越来越多的农民或者农村顾问使用ArcGIS Geostatistical Analyst来增加作物产量、提高利润、减小对环境的不利影响。

2基本原理

地统计学与经典统计学的共同之处在于:它们都是在大量采样的基础上,通过对样本属性值的频率分布或均值、方差关系及其相应规则的分析,确定其空间分布格局与相关关系。但地统计学区别于经典统计学的最大特点即是:地统计学既考虑到样本值的大小,又重视样本空间位置及样本间的距离,弥补了经典统计学忽略空间方位的缺陷。

地统计分析理论基础包括前提假设、区域化变量、变异分析和空间估值。

2.1 前提假设

(1) 随机过程

与经典统计学相同的是,地统计学也是在大量样本的基础上,通过分析样本间的规律,探索其分布规律,并进行预测。地统计学认为研究区域中的所有样本值都是随机过程的结果,即所有样本值都不是相互独立的,它们是遵循一定的内在规律的。因此地统计学就是要揭示这种内在规律,并进行预测。

(2) 正态分布

在统计学分析中,假设大量样本是服从正态分布的,地统计学也不例外。在获得数据后首先应对数据进行分析,若不符合正态分布的假设,应对数据进行变换,转为符合正态分布的形式,并尽量选取可逆的变换形式。 (3) 平稳性

对于统计学而言,重复的观点是其理论基础。统计学认为,从大量重复的观察中可以进行预测和估计,并可以了解估计的变化性和不确定性。对于大部分的空间数据而言,平稳性的假设是合理的。这其中包括两种平稳性:一是均值平稳,即假设均值是不变的并且与位置无关;另一类是与协方差函数有关的二阶平稳和与半变异函数有关的内蕴平稳。二阶平稳是假设具有相同的距离和方向的任意两点的协方差是相同的,协方差只与这两点的值相关而与它们的位置无关。内蕴平稳假设是指具有相同距离和方向的任意两点的方差(即变异函数)是相同的。二阶平稳和内蕴平稳都是为了获得基本重复规律而作的基本假设,通过协方差函数和变异函数可以进行预测和估计预测结果的不确定性。

2.2 区域化变量

当一个变量呈现一定的空间分布时,称之为区域化变量,它反映了区域内的某种特征或现象。区域化变量与一般的随机变量不同之处在于,一般的随机变量取值符合一定的概率分布,而区域化变量根据区域内位置的不同而取不同的值。而当区域化变量在区域内确定位置取值时,表现为一般的随机变量,也就是说,它是与位置有关的随机变量。在实际分析中,常采用抽样的方式获得区域化变量在某个区域内的值,即此时区域化变量表现为空间点函数:

Z?x??Z?xu,xv,xw?

根据其定义,区域化变量具有两个显著特征:即随机性和结构性。首先,区域化变量是一个随机变量,它具有局部的、随机的、异常的特征;其次,区域化变量具有一定的结构特点,即变量在点x与偏离空间距离为h的点x+h处的值Z(x)和Z(x+h)具有某种程度的相似性,即自相关性,这种自相关性的程度依赖于两点间的距离h及变量特征。除此之外,区域化变量还具有空间局限性(即这种结构性表现为一定范围内)、不同程度的连续性和不同程度的各向异性(即各个方向表现出的自相关性有所区别)等特征。

2.3 变异分析

(1) 协方差函数 协方差又称半方差,表示两随机变量之间的差异。在概率论中,随机变

量X与Y的协方差定义为:

Cov?X,Y??E??X?E?X???Y?E?Y???

借鉴上式,地统计学中的协方差函数可表示为:

1N?h?C?h??Z?xi??Z?xi?Z?xi?h??Z?xi?h? ?N?h?i?1????

其中,Z(x)为区域化随机变量,并满足二阶平稳假设,即随机变量Z(x)的空间分布规律不因位移而改变;h为两样本点空间分隔距离;Z?xi?为Z(x)在空间点处xi的样本值。

Z?xi?h?是Z(x)在处距离偏离h的样本值[i=1,2,…,N(h)];N(h)是分隔距离为h时的

样本点对总数;Z?xi?和Z?xi?h?分别为Z?xi?和Z?xi?h?的样本平均数,即:

1nZ?xi???Z?xi?

ni?1

1nZ?xi?h???Z?xi?h?

ni?1

(2) 半变异函数 半变异函数又称半变差函数、半变异矩,是地统计分析的特有函数。区域化变量Z(x)在点x和x+h处的值Z(x)与Z(x+h)差的方差的一半称为区域化变量Z(x)的半变异函数,记为r(h),2r(h)称为变异函数。

根据定义有:

1r?x,h??Var[Z(x)?Z(x?h)]

2

112r?x,h??E[Z(x)?Z(x?h)]?{E[Z(x)]?E[Z(x?h)]}2

22

区域化变量Z(x)满足二阶平稳假设,因此对于任意的h有:

E[Z(x?h)]?E[Z(x)]

因此,半变异函数可改写为:

1r?x,h??E[Z(x)?Z(x?h)]2

2

由上式可知,半变异函数依赖于自变量x和h,当半变异函数r(x,h)仅仅依赖于距离h而与位置x无关时,r(x,h)可改写为r(x),即:

1r?h??E[Z(x)?Z(x?h)]2

2具体表示为:

1N(h)2r?h??[Z(xi)?Z(xi?h)] ?2N(h)i?1

各变量的含义同前。也有将r(h)称为变异函数,两者使用上不引起本质上的差别。

(3) 变异分析 半变异函数和协方差函数把统计相关系数的大小作为一个距离的函数,是地理学相近相似定理定量量化。

图10.1和图10.2显示,半变异值的变化随着距离的加大而增加,协方差随着距离的加大

而减小。这主要是由于半变异函数和协方差函数都是事物空间相关系数的表现,当两事物彼此距离较小时,它们是相似的,因此协方差值较大,而半变异值较小;反之,协方差值较小,

而半变异值较大。此外,协方差函数和半变异函数随着距离的加大基本呈反向变化特征,它们之间的近似关系表达式为:

r(h)?sill?C(h)

半变异函数曲线图和协方差函数曲线反映了一个采样点与其相邻采样点的空间关系。此外,它们对异常采样点具有很好的探测作用,在ArcGIS地统计分析模块中可以使用两者的任意一个,一般采用半变异函数。在半变异曲线图中有两个非常重要的点:间隔为0时的点和半变异函数趋近平稳时的拐点,由这两个点产生四个相应的参数:块金值(Nugget)、变程(Range)、基台值(Sill)、偏基台值(Partial Sill)它们的含义表示如下:

块金值(Nugget):理论上,当采样点间的距离为0时,半变异函数值应为0,但由于存在测量误差和空间变异,使得两采样点非常接近时,它们的半变异函数值不为0,即存在块金值。测量误差是仪器内在误差引起的,空间变异是自然现象在一定空间范围内的变化。它们任意一方或两者共同作用产生了块金值。

基台值(Sill):当采样点间的距离h增大时,半变异函数人r(h)从初始的块金值达到一个相对稳定的常数时,该常数值称为基台值。当半变异函数值超过基台值时,即函数值不随采样点间隔距离而改变时,空间相关性不存在。

偏基台值(Partial Sill):基台值与块金值的差值变程(Range):当半变异函数的取值由初始的块金值达到基台值时采样点的间隔距离称为变程。变程表示了在某种观测尺度下,空间相关性的作用范围,其大小受观测尺度的限定。在变程范围内,样点间的距离越小,其相似性,即空间相关性越大。当h>R时,区域化变量Z(x)的空间相关性不存在,即当某点与已知点的距离大于变程时,该点数据不能用于内插或外推。

当限定的样本点间隔过小时,可能出现曲线图上曲线为一近似平行于横坐标的直线,此时半变异函数表现为纯块金效应。这是由于所限定的样本间隔内,点与点的变化很大,即各个样点是随机的,不具备空间相关性,区域内样点的平均值即是最佳估计值。此时只有增大样本间隔,才能反映出样本间的空间相关性。

空间相关性的强弱可由Partial_Sill/Sill来反映,该值越大,空间相关性越强,相应地,Nugget/Sill称为基底效应,表示样本间的变异特征,该值越大,表示样本间的变异更多得是由随机因素引起的。

2.4 空间估值

一个完整的地统计分析过程,或者说空间估值过程,一般为:首先是获取原始数据,检查、分析数据,找寻数据暗含的特点和规律,比如是否为正态分布、有没有趋势效应、各向异性等等;然后选择合适的模型进行表面预测,这其中包括半变异模型的选择和预测模型的选择;最后检验模型是否合理或几种模型进行对比。

3 克里格插值

克里格插值(Kriging)又称空间局部插值法,是以变异函数理论和结构分析为基础,在有限区域内对区域化变量进行无偏最优估计的一种方法,是地统计学的主要内容之一。南

非矿产工程师D.R.Krige(1951年)在寻找金矿时首次运用这种方法,法国著名统计学家G.Matheron随后将该方法理论化、系统化,并命名为Kriging,即克里格方法。

克里格方法的适用范围为区域化变量存在空间相关性,即如果变异函数和结构分析的结果表明区域化变量存在空间相关性,则可以利用克里格方法进行内插或外推;否则反之。其实质是利用区域化变量的原始数据和变异函数的结构特点,对未知样点进行线性无偏、最优估计。无偏是指偏差的数学期望为0,最优是指估计值与实际值之差的平方和最小。也就是说,克里格方法是根据未知样点有限邻域内的若干已知样本点数据,在考虑了样本点的形状、大小和空间方位,与未知样点的相互空间位置关系,以及变异函数提供的结构信息之后,对未知样点进行的一种线性无偏最优估计。

地统计分析的核心就是通过对采样数据的分析、对采样区地理特征的认识选择合适的空间内插方法创建表面。插值方法按其实现的数学原理可以分为两类:一是确定性插值方法,另一类是地统计插值,也就是克里格插值,如图所示。

确定性插值方法以研究区域内部的相似性(如反距离加权插值法)、或者以平滑度为基础(如径向基函数插值法)由已知样点来创建表面。地统计插值方法(例如克里格法)利用的则是已知样点的统计特性。地统计插值方法不但能够量化已知点之间的空间自相关性,而且能够解释说明采样点在预测区域范围内的空间分布情况。

确定性插值方法有可以分为两种:即全局性插值方法和局部性插值方法,如图10.4所示。全局性插值方法以整个研究区的样点数据集为基础来计算预测值,局部性插值方法则使用一

个大研究区域内较小的空间区域内的已知样点来计算预测值。

克里格方法与反距离权插值方法有些类似,两者都通过对已知样本点赋权重来求得未知样点的值,可统一表示为:

Z(x0)???iZ(xi)i?1n

式中,Z(x0)为未知样点的值,Z(xi)为未知样点周围的已知样本点的值,λi为第i个已知样本点对未知样点的权重,n为已知样本点的个数。

不同的是,在赋权重时,反距离权插值方法只考虑已知样本点与未知样点的距离远近,而克里格方法不仅考虑距离,而且通过变异函数和结构分析,考虑了已知样本点的空间分布及与未知样点的空间方位关系。

空间插值方法根据是否能保证创建的表面经过所有的采样点,又可以分为精确性插值和非精确性插值。精确性插值法预测值在样点处的值与实测值相等,非精确性插值法预测值在样点处的值与实测值一般不会相等。使用非精确性插值法可以避免在输出表面上出现明显的波峰或波谷。反距离权插值和径向基插值属于精确性插值方法,而全局多项式插值、局部多项式插值,以及克里格插值都属于非精确性插值方法。

Z?xi? Z?xi? Z?xi?h? Z?xi?h? xi

本文来源:https://www.bwwdw.com/article/mjjp.html

Top