区域土地利用数据的偏最小二乘回归分析以上海市嘉定区为例

更新时间:2023-09-06 08:24:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

华中农业大学学报(社会科学版),(总53期)2004(3):46~50

JournalofHuazhongagr’iculturalUnivez’sity(SocialSciencesEdition)

区域土地利用数据的偏最小二乘回归分析

一以上海市嘉定区为例

(同济大学测量与国土信息学系,上海,200096)

摘要回归分析是研究与构建土地利用变化机制量化模型的~种常用方法,偏最4'-乘回归是一种能在一个算法下同时实现回归建模、数据简化和两组变量间相关分析的新型多元回归分析方法。文章选取上海市嘉定区1984~2001年土地利用与社会经济数据,选取6种基本土地利用分类指标作为被解释变量,12个基本社会经济统计指标为解释变量,分别应用普通最小二乘回归和偏最小二乘回归方法,对该地区土地利用变化与社会经济变量间的关系进行分析。

关键词

土地利用数据;偏最小二乘回归;上海嘉定

在土地利用/土地覆盖变化机制量化研究中,回归分析是不同土地利用类型受不同自然、社会经济因素驱动影响关系研究中经常使用的数理统计方法[1]。上海地区的自然环境极其优越,因此土地利用变化主要受到社会、经济因素的影响,如

一、变量选取与数据分析

在区域土地利用统计中,商服业、工业仓储、住

宅、交通、农业和公共用地是六种基本用地统计指

标,选取它们组成被解释变量集合。选取12个基本经济统计指标组成自集合,所选取的解释变量主要包括以下几个方面:①反映地区规模的人口指标,包括总人口和非农人口,实际中,总人口和非农业人口变化对地区土地利用结构变化有极大影响;②反映投资规模的外资投资、固定资产投资完成额和财政支出等指标,国家和外商投资的方向和力度是地区土地利用结构调整的重要动力;③反映地区经济发

人口规模、经济发展水平、基本建设投资、国民经

济各部门产值、人均收入和消费水平等等,并随着这些因素的变化而变化。本文尝试将士地利用分

类指标作为被解释变量,基本经济统计‘指标作为

解释变量,以嘉定地区土地利用统计数据为例,应用偏最小三乘回归和普通最小二乘回归两种方法,建立该地区的土地利用变化回归模型,并加以初步的分析对比。

法,该方法能在一个算法下同时实现多元线性回归分析、数据结构简化和两组变量问相关分析的内容,在方法上,偏最小二乘回归分析不再直接考虑被解释变量与解释变量的回归建模,而是对变量系统中的信息重新进行综合筛选,从中选取若干对系统具有最佳解释能力的新综合变量,用它们进行回归建模,这是与普通多元线性回归方法的主要区别。特别当各变量集合内部存在较高程度的相关性,或样本点数据较少时‘,普通多元线性回归方法往往难以处理,用偏最小二乘回归方法建模,其结论的可靠性和整体性较好[2 ̄5]。

收稿日期:2004-05—24

展水平的综合性指标,包括经济增加值、工农业总产

展促使产业结构不断调整,就必然促使土地利用结

偏最小二乘回归方法是一种新型的多元统计方值、外贸出口和社会消费品零售总额等变量,经济发

构发生调整,产业结构的不断调整已成为各地区土

地利用变化的主要原因;④反映城乡居民收入水平的变量,如城镇届民人均纯收入、农村人均纯收入等。

本文中各类用地面积数据取自上海市嘉定区土地利用年度统计,社会经济数据取自嘉定统计。年鉴[6],所有样本数据首先进行标准化处理,以下、均针

对标准化数据进行分析。样本数据采集自1984开

始到2001年截止,所采集总样本点个数共为18个,与选取的指标变量个数相差很小。

杨武;男,1972年生,同济大学测量与国主信息学系博士研究生、上海市嘉定区房屋土地管理局工程师;研究方向:土地利用与管理、数据处理

第3期

●_-。。。●。-●。●。_●。-●。。●。-_。●_-_。。_^-_-。‘。●_-●。一●-…_一。

杨武:区域土地利用数据的偏最小二乘回归分析一一以上海帝嘉定区为例

表1变量名称和缩写代号

47

经济增加值外资总投资外贸出口

D功D

商服业用地(y1)社会消费品零售总额固定资产投资完成额农业总产值工.业总产值总人口

工业仓储用地公共用地住宅用地

(妒)

(y3)、(y4)

被解释变量y解释变量x

交通用地(如)

(y6)

农业用地非农业人口财政支出

城镇居民人均纯收入农村人均纯收入

㈤㈣㈤㈤,釉㈤∞∞㈨…㈨㈤㈣㈣

表2显示:在解释变量系统内存在多重相关性:在两组变量阔,除y5与.z8的相关系数(o.34)/J、于o.5外,被解释变量与解释变量均显著相关,其中

各被解释变量间相关关系相对较弱。因此,本文中

样本数据存在数据量少,变量集合内部存在较高程

度的多重相关性问题。

.y4与各解释变量之间的相关关系相对较弱艘8与

表2解释变量与解释变量、被解释变量与解释变基相关系数表

二、偏最小二乘回归分析方法原理

在偏最小二乘回归建模过程中,首先从解释变量系统中提取若干对系统具有最佳解释能力的新综

合变量(Component),然后再利用这些成分,应用最

小二乘原理建立线性回归模型。建模的同时,完成

~些类似于主成分分析和典型相关分析的研究内容,如精度分析、相关关系判断、某一解释变量对被

48

华中农业大学学报(总53期)

解释变量的解释作用分析和对成分的解释等等,称为辅助分析技术。

累计解释能力为:

1.偏最15--.乘回归模型的回归系数迭代计’算方

rd(x;t“)一÷∑产(∞,t6)

Pi=1

Rd(X;女1,…,矿)=∑Rd(X,t“)

1)以原始数据x和y作为初始值XO和yo,在解释变量系统x中提取成分t,分别实施解释变量系统和被解释变量系统在第一个成分£1上的最小

二乘回归,得到回归系数乡1和,1,残差矩阵X1和

yI:

成分矿对y的解释能力和累计解释能力为:

R矗(y;矿)=音量户(y^,th)

Rd(Y;t1,一,矿)一∑R矗(y,th)

2)变量投影重要性:对每~个解释变量5E'i在解释变量Y时的作用大小,可通过它的变量投影重要

f=即叫,训为X∥Pyo。Xo最大特征值所对

3—1

应的单位特征向量

的单位特征向量

痧一(f7£)一1tXoX1一Xo--tp

r =(≠’£)--1£Py1=yo--tTz

u-__yo“c 为P。XoXo’P最大特征值所对应

3-23"3

性指标ⅥP,来测量,值越大说明解释变量的重要

程度越大。

仰,如赤而磐d(y∽确

3)对成分的解释和组间相关关系的判断:根据

2)取Xo—X1和p=P,根椐3—1式重新计算铷和t,分别实施解释变量系统和被解释变量系统

铷;值的大小可以评判变量勘在构造成分t“时的边际贡献,进而解释成分的经济含义。通过n值的大小来解释成分t。对y的作用。为直观地观察各变量间的相关关系结构,可绘制原变量与£1,t2的相关系数图,图中某些变量间的位置越接近,则认为它们的相关关系密切。

在第二介成分£2上的回归,由3-2和3-3式得到回

归系数乡2和,’2,残差矩阵X2和y2。计算新增加

成分的交叉有效性:对每…个解释变量.啦和全部

被解释变量y,第五成分琥的交叉有效性定义为:

Qj|一1一躲,

立^=1

∑PRESS肚

Q||一1一

∑SS(^-1)女

=1-一甓

三、偏最小二乘回归结果分析

应用偏最小.二乘回归方法对样本数据进行计。算:提取2个成分进行建立模型,其中成分一t1携

PRESS倒一∑(.3,d--2蛳一i))2,

PRESSh一∑备1PRESS,j

带了解释变量集合X中86.5%的变异信息,成分二

£2携带了7.7%的变异信息,2个成分对X的信息

s‰=.堇(.YF_夕坼)2,s&一.2.ss,,

上式中,.弛(书是排除第i个样本点后的样本点集拟合含^个成分的回归方程得到的第i’个样本的

利用率累计达到94.2%,说明两个成分对解释变量

集合X的代表性很强。同时£1对被解释变量集合y中变异的解释能力为78.5%,t2能够解释7.1%的y中的变异,2个成分累计能够解释85.6%的对被解释变量集合y中的变异,证明成分一是一个很强的解释因素,而成分二是一个相对弱的解释因素,解释变量系统X与被解释变量系统y的相关度较高。

分别绘制tl/ul、t2/ul图观察£1、彪与甜1之间的线性相关关系(图1):在tl/ul图中,所有样本点的排列呈现出清晰的线性形式,说明£1与轧1的线性关系较强,£2与“1的线性关系明显减弱。这进一步证实,解释变量系统与被解释变量系统具有较显著的相关关系,采用偏最小二乘回归方法建立y对X的线性模型是合理的。

预测值。‰是采用全部样本点拟合含五个成分的

回归方程得到的第i个样本点的预测值。

3)若新增加成分的交叉有效性满足条件:Q矗2

≥o.0975或Qhk2≥0.0975(临界值取l~o.952)时。,继续提取新成分,否则,迭代计算终止。最终得到选取^个成分建立的偏最小二乘回归模型和其回

归系数B—PLS:

^一】h

∞“6一Ⅱ(j一∥声J’)wh净B—PLS----∑∞+,rJ。

,=1

j=l

,夕=B_PLS*X。

2.在算法中同时实现的辅助分析技术

1)精度分析:定义成分琥对X的解释能力和

第3期

杨武:区.域土地利用数据的偏最/J、-'--.乘回归分析~一以上海市嘉定区为例

49

_。∥

Sigof

//

.’

●●

图1tl/ul、t2/ul图

再采用逐步进入法进行普通最小二乘线性回归乘回归与偏最小二乘回归模型的回归系数。对同样

建模,以回归模型显著性检验F统计量的相伴概率作为引入或剔除的标准:0.05>一Sig

of

的解释变量集合X和被解释变量集合y,偏最小二乘回归模型中都包含了所有解释变量,而普通最小

F,引入;

F>=0.10,剔除,最终可得到各被解释变量二乘线性回归模型中,仅保留1~2个解释变量,其

它大部分解释变量被剔除。

的普通最sb-_:、乘线性回归模型。表3为普通最tb-.

普通最小二乘法回归模型系数(逐步进入)

y1

,z1.z2

966

-0.429

0y2

y3

3,4

表3两种多元线性回归模型回归系数

偏最小二乘法回.!日模型系数(成分数2)

y6

y10.113

y20.0990。0230.1060..0950.0500.0470.|1000.0150.0990.1090.0870.069

y5y3

0.127

y4一O..015

0.247

.y50。156

.y6

—1。139

一O.170

一O.063

0.0230.121

一O。018

—0.090一O.11430.191——0.042

0..142

c鑫砖拍娟卯

{s20.145——0.064

0.1190.0290.0290.1129

0.,002

0。.108

—1.161

0.055O.051

—0.069

0..181

0。159

一O..015~ 0,129—0。010一O.1150。1600.193

0..1620.203

0.114

--0:235

0.0210.113

1.102

—0..020一O.341一O。025一O.079

0.044

—0.0610.165~0.058~O.037一O..085一O..110

0.083

O.1290.1510.1000.064

z11

z12

O.1250.098

1.289

1.848

0.1080.044

0.0770.118

表4多元线性回归方程的残差平方和

这两个变量,无论是采用偏最小二乘回归还是普通

最小二乘回归,其模型的拟合效果均比其它被解释

变量的要差。

对各类用地回归模型的系数经济含义进行解释,有助于理解和利用回归模型,分析各经济变量变化对土地利用变化的影响。分析各用地类型的普通

表4为分别用两种回归方法得到的各被解释变

最小二乘回归模型系数,商服业用地增长的主要因

素是地区经济增长;外贸出口增长促进!工业仓储用地增加;城镇居民纯收入和外资总投资因素的变化对公共用地作用显著;而住宅用地随着农村人均纯

量回归模型的残差平方和,可以看到:对同一被解释

变量,用两种回归方法所得到模型的拟合质量差距不大;同一种方法所建立的模型中,被解释变量.y2和.3,4的残差平方和都明显大于其它变量,说明对

收入的提高而增长,随经济增加值的增大而减少;交

华中农业大学学报

(总53期)

通用地随财政支出的增大而增大,随外资投资量的农人口的影响作用最大;对公共用地影响作用明显的

增大而减少;农业用地随着固定资产投资和总人口社会经济因素与商服业、工业相同,但随着外资投入的增长而减小。由于在模型中仅包含1到2个社会的增加,会使公共用地面积有所减少;对住宅用地影经济解释变量,显然无法衡量各解释变量对被解释响最大的是总人口、外资、固定资产投资完成额等因变量系统的解释能力,无法全面反映出社会经济、人素,其中总人口的减少会影响该类用地增长;交通用口因素对土地利用结构的影响大小和方向。

从偏最小二乘回归模型系数取值分析,随着所有

地随财政支出、总人口和外贸出口的增大而显著增

大,随外资投资量的增大而减少;农业用地与除总人

社会经济因素的增长,商服业、工业用地逐渐增大,其口外的所有社会经济因素都负相关,总人口、外资、固

中财政支出、外贸出口、T业总产值、经济增加值和非定资产投资完成额等因素影响作用最显著。

在偏最小二乘回归分析中,通过变量投影重要性指标ⅥP可以衡量解释变量.z,对被解释变量系

,_—-’…。_-h●—_…一‘————’——“—…’’—。’…’1。‘。。‘。—‘——————_—…’—1’。“。———————————’—’——————————。———一

z1

z2

z3

z4

z5

z6

z7

表5各变量zj在解释y时的作用

.z8

z9z10zllz12

1042092110221.0390.9960.9021.0420..9021.027

1..0311.0371.023

释能力相差不大,除.z2、.z5、~廿8对被解释变量的

解释作用相对稍弱外,其它变量对y的解释能力均较强(表5)。

统y的解释能力。ⅥP结果显示:各解释变量的解

表6组问相关关系的结构分析

yly2

y4.y5y6

一O.122—0.101

一O.215o.468一O..387-0.168

对于偏最小二乘回归分析中提取的两个新综合变量,分析解释变量集合中第一主轴W1的构成,其中除总人口因子权重偏小外,其它各因子的权重基本相等;在X第二主轴W。构成中,总人口变量对应的权重最大。在被解释变量集合回归系数厂。1中,除

正的最终模型,而是在线性模型框架下的最终产物。相比较,偏最小二乘回归分析的内容较为丰富,在最终模型中包含了原有的全部解释变量,模型整体性强,回归模型更为合理,回归参数的经济含义较易解释,但回归方程的拟合质量比普通最小二乘法的差。

两种回归方法都能够构建多元线性回归模型,可用来量化分析多种社会经济因素对区域土地利用变化的驱动影响。本文依据嘉定地区1984~2001年问土地、经济、人El等方面相关统计数据,在普通最小二乘线性回归分析中,未能全面反映出所选择的社会经济因素变化对各土地利用类变化的影响作

住宅甩地和未利用地的权重稍小外,其它变量的权

重数值基本相等;回归系数r2中的住宅用地对应的权重数值最大(表6)。因此,可以解释成分一是反

映诙地区总体经济水平的综合指标,主要解释该地

区土地利用结构的总体变化;成分二是反映该地区人口规模的综合指标,主要用于解释y中住宅用地的变异信息。

用。在偏最小=乘线性回归分析中,反映出该地区

四、结

整体经济综合水平和人口规模水平是影响土地利用变化的主要影响因素。各用地类模型的预测效果本文未作讨论。

通过建立回归模型,解释回归系数的经济含义,

由于解释变量集合中变量间多重相关性,以及

样本点个数太少问题的存在,在普通最小=.乘法得

到的回归模型中,许多实际具有显著影响作用的社会经济因子被剔除,模型整体性较差,回归参数的经济含义解释较为困难。最终得到的EI!Jzt模型并非真

分析与预测各种社会经济因子对未来土地利用结构

变化的作用方向和贡献大小,尚有许多问题有待进

(-F‘转92页)

92

华中农业大学学报(总53期)

40秒读完-10个最常用的中文词,要求参加实验的74位同学边昕、边译、边写,目的是检验学生在没有更多时间思维的情况下,大脑对于瞬间的语言信号是如何提取和加工,的。共收回试卷73份,结果见表1。

上述实验表明,平均59.7%的同学选用的都是初、高中阶段所首次接触到的词}:[:。仅有不到20%

时候禁止学生使用“Ithink...,’等学生口语中喜欢和方便选用的词汇和词组,并在给学生做议论的示范

时有意识地强化语义词的活用。反复数次后,学生

的口语谴词能力明显加强;词汇丰富,并能够根据不同的结构正确选择词性。

一继一、:日

{五

p目

的同学选用j了大学阶段所学的词汇。还有~个不容

忽视的情况,有128人次犯有用错词性的错误。这实际上包括两个问题:~是习惯,二是缺乏运用练习。为了使话语的错误减少或不犯错误,为了能说英语,他们采用最保险、最便捷的方式组旬,周而复

研究生的口语教学亟待强化是一个不容置疑的问题,它涉及到研究生的语言应用能力。但是,客观分析影响学习客体学习成效的这些因素和正视口语教学中这些问题,分清问题的主次,明确问题的所在,探讨问题的实质,了解解决问题的可行性,有利于帮助口语教师理清教学思想,帮助学习者了解自己,了解教学,明确学习目标,正确运用学习方法和手段,客观地对待口语教学并取得良好的学习成效。

婀,凋汇复现率越来越高,能说出口的也就那么些单

词和句子了。谴词方法单一,可用词汇有限,结构简单等问题可以被视为教师在课堂可以解决的问题。对于这种顽疾,必须经过不懈的努力,有意识的运用,反复练习才能改变。RichardSchmidt通过自己学习葡萄牙语的实践指出了第二语言学习者只有对所学加以有意识的关注,才能为我所用。他分析r自己的输出语句发现,许多词句都是来源于同学

参考文献

1萤燕、郭晓明.|浅谈“自助式”教学法的词汇教学原则.高等农业

教育,2003(II)

2一RodEllis;.Second

20003

Patsy

或他人曾经说过的句子≯如果没有有意识地去关注

和学习,他不可能会牢牢记住并运用在自己的口语实践中(Rod

Ellis.SecondLanguageAcquisition.

Larl_gua醇Acquisition.上海外语教育出版衽;

Learn-

Lightbown&NinaSpada.HowLanguagesAre

ed.上N夕bN教育出版社,2002

1997)。笔者根据调查结果做了一个实验,将"use”的同义词“employ”,‘'inter‘esting”的近义词“amus—ing”,“active"的同义词‘'positive”有意识地提出来在例句中反复使用,鼓励学生用这些词造句;在某些

WilliamLittlewood.Communicative育与研究出版社,2000

Language

Teaching.外语教

NorbertSchmitt&MichaelMcCarthy.Vocabulaiy:Description,

Acquisition

and

Pedagogy.上海外语教育出版社,2002

(上接50页)

~步研究解决,如解释变量如何选取,多重相关性对回归模型可靠性和准确性的影响机制等等。全面获取区域的社会经济和土地利用数据,对所建立的土地利用变化量化模型的可靠性和准确性至关重要。

参考

文献

134--。140

2王惠文.偏最小二乘回归方法及其应用.|国防大学出版社,19983李秀彬..全球环境变化研究的核心领域.地理学报,1996,51(6):

554~557

3李平等..我国现阶段土地利用变化驱动力的宏观分析.地理研

究,2001,20(2):129~131

4高志强.中国土地利用/土地覆盖时空变化及成因综合分析.博士

后研究报告,2000..中科院地理科学与资源研究所

I汪承杰.城市土地管理,.南京.南京大学出版社,1994:lll~114,

区域土地利用数据的偏最小二乘回归分析--以上海市嘉定区为例

作者:作者单位:刊名:英文刊名:年,卷(期):引用次数:

杨武

同济大学测量与国王信息学系,上海,200096

华中农业大学学报(社会科学版)

JOURNAL OF HUAZHONG AGRICULTURAL UNIVERSITY(SOCIAL SCIENCES EDITION)2004,(3)0次

参考文献(5条)

1.汪承杰 城市土地管理 1994

2.王惠文 偏最小二乘回归方法及其应用 19983.李秀彬 全球环境变化研究的核心领域 1996(6)

4.李平.李秀彬.刘学军 我国现阶段土地利用变化驱动力的宏观分析[期刊论文]-地理研究 2001(2)5.高志强.中科院地理科学与资源研究所 中国土地利用/土地覆盖时空变化及成因综合分析 2000

相似文献(0条)

本文链接:http://www.77cn.com.cn/Periodical_hznydxxb-shkxb200403014.aspx

下载时间:2010年5月5日

本文来源:https://www.bwwdw.com/article/nqyh.html

Top