多元统计分析方法在区域经济领域的应用及区域经济发展差异指标的

更新时间:2024-05-03 03:30:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

多元统计分析方法在区域经济领域的应用及区

域经济发展差异指标的研究

武汉理工大学组

组长:刘京

组员:张扬 薛彪 唐正霜 沈亦天 赵一 于晓龙 王淼 池浩斌 洪婉芳 唐晓军 周溪 罗洋 贾龙波 万恩铭 胡朝根

引言:

我国改革开放发展市场经济以来,经济保持了高速增长的势头,取得了举世瞩目的成绩,我国的改革开放是渐进式的,这避免了经济制度的突然变革给社会发展带来的诸多弊端,但是也使得区域间经济增长不平衡问题突显。如何对通过多元统计学的方法对区域经济进行分析并进行合理的划分,并对区域经济差异原因进行研究,剖析各区域经济发展不平衡的各方面原因,针对各地区经济发展问题进行分析并提出科学的建议,有利于更加准确对我国区域经济发展状况进行了解并促进各区域经济平衡发展。

另外,根据2011年国家统计局公布的2011年1-3季度全国经济运行数据,其中最表征一个国家地区经济实力的国际通用指标—GDP为320692亿元,同比去年增长9.4% ,2011年9月份,全国居民消费价格总水平CPI同比上涨6.1%。2011年中国经济面对比较复杂的国内外经济环境,中国经济在前三季度仍然保持了平稳较快的发展。但不可否认,中国经济增速开始减缓,通胀压力日益增大。而且由于通胀压力的增大,地区经济发展不平衡的问题日益突出。本文拟以实证的方法, 对地区经济差距做一些分析, 并通过差异指标对中国区域经济状况进行了的测度解读,并讨论其在区域经济差距中的影响及其经济增长效应。 本文提供的关于区域经济划分的一个主要思路:我们可以通过选择某几个对区域经济影响比较大的差异指标作为变量,收集这些变量的历史数据,寻找这些变量之间的关系,根据这些变量的性质和之间的关系选择一个对应的多元统计分析方法,选择方法之后,再对这些数据进行处理,如果是聚类分析法,那么就可以将某个范围的数据进行聚类,从数据的角度进行相似性分析,这样就可以对区域经济进行划分,也可以继续研究这些差异指标对区域经济发展的影响,确定这些差异指标的作用大小,寻找差异原因和解决方法,并给于政策建议。

关键词 区域经济 多元统计分析方法 聚类分析 经济差异指标

1. 多元统计分析方法综述

多元统计方法是数理统计学中近二十年来迅速发展起来的一个重要分支。它是实用性很强的一门学科,尤其是近年来计算机的普及,使得多元统计方法在许多领域中,例如生化、医药、地质、气象、工程技术、社会经济、企业管理、教育学、人文科学等都得到日益广泛的应用。因此,这门学科受到了科学工作者、工程技术人员的普遍重视。如何将隐藏在大规模原始数据群体中的重要信息集中提炼出来,简明扼要地把握系统的本质特征,找出原始数据中隐含的内在规律,这就是多元统计数据分析所要解决的问题。

多元统计学方法可以分为回归分析 、趋势面分析、判别分析、聚类分析、主成分分析和因子分析、色谱分析法等。下面就以聚类分析方法对区域经济进行分析。

1.1多因素方差分析法:

在科学试验和生产实践中,影响一事物的试验结果因索往往是很多的,例如,在化肥的生产过程中,影响化肥产品质量的可能因素有,原料成分、原料剂量、催化剂、反应温度、压力、溶液浓度、反应时间、机器设备及操作人员的技术等因素。每一因素的变化都有可能影响产品的数量和质量,显然在众多因素中,有些因素对产品的质量影响较大,有些较小,为了使生产过程得以稳定、保证优质、高产,就有必要在众多因素中找出对产品质量有显著影响的那些因素,而方差分析就是根据试验的结果进行分析,进而鉴别各个有关因素对试验结果影响程度的一种统计方法。

在实验中,我们将试验结果又称为试验指标,影响试验指标(试验结果)的条件称为因素。因素可分为二类,一类是人们可以控制的(可控因素);一类是人们不能控制的。以下我们所说的因素都是可控因素。因素所处的状态,称为该因素的水平。如果在一项试验中只有一个因素对试验结果有影响称为单因素方差分析,如果多于一个因素对试验结果有影响

称为多因素方差分析。简言之方差分析的研究对象就是研究因素对试验结果的影响程度是否显著。但多因素方差分析计算比较困难,准确度也不高,一般多用单因素方差计算和双因素方差计算。

1.2多元回归分析方法:

当变量间的关系为在生产过程和科学实验中,我们经常是需要研究变量与变量间的关系。变量间的关系,总的来说可分为两种,即函数关系和相关关系。

确定性关系,即对于一个变量的每一个值都有另一个变量的一个或几个完全确定的值与它对应,我们就说变量间存在函数关系,对两个变量的函数关系可表示为y?f(x),一旦变量间的函数关系建立,事物发展变化的规律就随之确定。由此可以看出,建立变量间的函数关系,研究函数关系在生产实践中就显得特别重要。 然而在许多实际问题中,由于各种关系错综复杂,要精确的建立变量间的数学表达式又特别困难,同时很多工程问题的变量之间还受到其它偶然因素的影响,使它们之间的关系具有不确定性,因此在这种情况下要建立准确的数学关系是不可能的,该如何解决这个问题呢? 回归分析方法就是在大量试验观测数据的基础上,找出这些变量之间的内部规律性,从而定量地建立一个变量和另外多个变量之间的统计关系的数学表达式。因此简单地说,回归分析就是研究一个变量与其它变量间关系的一种统计方法。

回归分析中被回归的变量y称为因变量,影响y变化的其它变量x1,x2,?,xm称为自变量。如果自变量只有一个,称为一元回归;如果自变量是两个或者以上,则称为多元回归;如果y与x1,x2,?,xm间的关系是线性的,则称线性回归,否则称非线性回归。

1.3判别分析法:

判别分析是由Pearson于1921年提出,当时主要是为了解决人种的定量识别以及考古的需要,直到1936年Fisher才第一次提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪个已知类别的数学模型,从此以后判别分析得到广泛的应用。

判别问题或称识别问题(又可称为归类问题)在生产、科研和日常生活中是经常遇到,例如,某个病人生病了,医生可根据这个病人的体温高低、白血球数目多少等项检查作出判断该病人是患了感冒病、肺炎病,还是其它病。这里病人患病可看成待判样品,体温高低,白血球多少,可看成特征变量,感冒病、肺炎病可看成不同总体。医生诊断的过程是根据病人的体温、白血球等多项指标,来判断病人是患了感冒病、肺炎或其它的病,这显然是一个识别问题或者说是归类问题。

又如,在地质勘探中,根据某地区发掘的矿石标本的多项指标,来判断该地区地下是何种矿藏,并进而确定是富矿还是贫矿。这里把各种矿藏看成不同总体,矿石标本看成是样品,根据矿石标本判断是何种矿藏,就是判断样品归属于哪一个总体的判别分析问题。 再如,在天气预报中,根据现有的数据资料(如气温、气压等)来判断明天是晴天还是阴天、雨天。这里,把睛、阴雨等天气,看成是不同的类别,现有资料看成是待判样品,这显然也是一个判别分析问题。

此外,在动植物的分类、社会调查、考古研究、刑侦等领域中都在广泛的应用判别分析方法。

于是我们给出判别分析问题的一般提法是:设有k个总体G1,?Gk,已知待测样品X来自k个总体的某一个,但不知X究竟来自其中的哪一个。判别分析就是要根据对k总体的已知知识和对待判样品X的某些特征指标值,去判断样品X应归属于哪一个总体。

从上面的分析,可以看出:要对待判样品作出正确的归类,首先要对不同总体的性质和特征进行研究,为此首先我们来解释所谓的同一总体是指的什么?同一总体是指具有相同属性或特征指标的样品集合。在同一总体内样品间具有相似性且样品间距离较小。反之,不同总体样品所代表的属性不同,且不同总体的样品间相似性很小或不具备相似性,也可说不同总体间距离很大,简言之,同一总体样品间距离小,不同总体样本间距离大,需要说明的是,在实际问题中总体与总体间在某些性质和特征上又可能存在不同程度上的重迭,比如,在人

种的识别过程中,需要区分白种人、黄种人、黑种人,如果我们只在这三个总体中提取一个特征变量(观测指标)皮肤颜色,就可能对待判的某人错分,因为黄种人中,也有皮肤白的,错分的原因是三类人种就皮肤颜色这一特征指标可能发生重迭,若我们再加上身高,头发,体形等多项特征指标,就可减少总体间的重迭,便于区分。

1.4聚类分析法: 为了研究各个事物间的相同点和不同点,往往要对各种事物进行分类,传统的分类主要依靠经验和专业知识,很少使用数学思想。随着人们对各领域研究的深入,对分类的要求越来越细,以至单纯的依靠经验和专业知识进行的分类无法满足人们的需要,于是统计的方法被引入到分类学中,伴随多元统计方法的发展,分类学中分离出了聚类分析的这个分支。聚类分析的基本思想是:我们所研究的样本间不同程度的存在相似性,于是可以根据不同样本的多个指标,找到能够度量样本间相似度的统计量,以这些统计量为依据, 按相似程度的大小把不同样本聚类,相似程度大的聚在一类,各类别间的相似程度不同这样就将样本分为若干类,便于比较同一类的相似处和不同类之间的区别。

1.5主成分分析方法:

在实际工程问题的统计分析中,为了获取充分的信息,对问题作出较可靠的推断,我们往往选择多个特征变量(指标)去进行观测,而这些特征变量甚至会多到十几个或几十个,因为每个特征变量都在不同程度上反映所研究问题的信息。但是,特征变量个数太多常常会增加对问题分析的复杂性。因此,人们自然希望选取的特征变量个数较少而得到的信息较多。在很多情况下,这些特征变量之间有一定的相关关系,当两个特征变量有一定相关关系时,可以解释为这两个特征变量反映的信息有一定的重迭。于是,从数学上考虑,就是要求有这样一种数学方法:对原来提出的所有特征变量(设为p个)综合成尽可能少的几个(设为q个,q

例如,在服装定型的研究中,要加工一件上衣,需要测量身长、袖长、领围、袖围、胸围、腰围、肋围、肩宽、肩厚、背宽等十几项指标,显然可以看出上述这些指标之间有一定相关关系。现在的问题是如何从这些指标中综合出较少的几个主要指标,由此根据这少数几个主要指标,使加工出来的上衣就能适合大多数人的体型,也就是说,这几个综合指标已充分把握了上衣的主要特征。事实上,服装厂加工上衣是根据衣长、胸围、型号(肥、瘦)这三个综合指标,使加工出来的上衣能适合绝大多数人穿用。

主成分分析就是为解决类似于上述问题而引进的统计方法。简而言之,主成分分析是研究如何将多个特征变量综合成少数几个变量的一种统计方法。

1.6因子分析法 基本思想:

很多变量间存在着某种相似性(彼此之间相关系数较高),本质上影响这些变量观测值结果的可能是其背后看不到的共同原因所致。因子分析就是要从彼此相关的变量中找出这些原因。

作法:

用较少数个公共因子的线性组合与特殊因子的之和来表示原观察变量,以便达到降维的目的,并清楚暴露新变量与原变量间的相关关系。主成份分析是寻求因子的一种方法。 1.7色谱分析法

色谱分离是一个非常复杂的过程 它是色谱体系热力学的综合表现 。 热力学过程是指与组分在体系中分配系数相关的过程 ;动力学过程是指组分在该体系两相间扩散和传质的过程 。 组分 、流动相和固定相三者的热力学性质使不同组分在流动相和固定相中具有

不同的分配系数 ,分配系数的大小反映了组分在固定相上的溶解———挥发 面 ,也更具有针对性 ,因人而异。 或吸附———解吸的能力 。 分配系数大的组分在固

定相上的溶解或吸附能力强 ,因此在色谱柱内的移动速度慢。 反之 ,分配 系数小的组分在固定相上的溶解或吸附能力弱 ,在柱内的移动速度快 。 经过一定时间后 ,

由于分配系数的差别,使各组分在柱内形成差速移行 ,达到分离的目的 。 下面以聚类分析为例对我国区域经济进行划分,并结合金融发展和经济学指标衡量各区域经济现状和差异比较。

2聚类分析法在区域经济分类中的应用

2.1区域划分

传统的区域划分有“七五”计划时期提出的东中西部划分法,但是三大地带的划分方法比较粗略,只是按地理位置的接近来划分,现实中各地区经济和社会差异很大,并且这种划分方法对所要分析的问题缺乏针对性。另外国务院发展研究中心根据“十一五”规划的需要,综合分析各区域经济状况,同时考虑制定经济政策的可行性,提出了八大区域的划分方法,这个方法虽然比三大地带划分法更细致,考虑的更全面,但是由于本文考察的是金融发展水平对经济增长的影响,那么金融发展就是区域划分中必然考虑的重要因素。 因此本文除了考虑地理位置和其它经济、人文等因素外,还将金融发展的影响引入到区域划分中。具体的,选择合适的指标衡量我国区域金融发展水平,并以此为分类标准使用聚类分析的方法,将各省分为金融发展水平高低不等的几个区域,然后再根据地理上的位置关系和政策制定执行时的方便程度给予必要的调整,完成最后的分类,并通过计量经济学中面板数据研究方法将区域金融发展与区域经济增长间关系数量化,使得两者间的关系更加明晰,为提出针对性的政策建议做出准备。

2.2区域经济发展的衡量指标

如何衡量区域经济发展是经济发展理论中的重要组成部分,从现有的研究文献来看还没有关于区域经济发展的完整的研究体系,因此也没有衡量区域经济发展的指标,在具体实践中由于区域经济发展是宏观经济发展在中观领域的延伸,因此在国家层面衡量经济发展的指标适用于衡量区域经济发展。区域经济发展可以从金融发展方面的指标来考虑,选择以下指标:

1.衡量金融发展的指标

前文已经选择了本文使用的衡量金融发展的指标,在此明确计算公式

(1)金融相关比率

这个指标是戈德史密斯在1969 年提出的,该指标表示一国金融工具的总价值与实物形式的国民财富总价值的比。麦金农提出的衡量金融发展的指标是货币存量(M2)与国内生产总值的比。本文选择各地全部金融机构贷款和存款余额与国内生产总值的比来计算各地的金融相关比率。 用FIR 表示。由于资料的限制,本文选择各省全部金融机构存款(用C 表示)和贷款(用D 表示)来近似表示一国金融资产总量,用国内生产总值(GDP)表示国民财富。公式为: FIR= (C+D)/GDP

(2)贷存款转换率 用SLR 表示。使用全部金融机构的贷款(D)与存款(C)之比计算SLR,公式为: SLR=D/C 考察的金融发展指标就是以上两个指标,具体方法是利用系统聚类的思想,使用欧式距离计算个省之间的相似性,采用组内连接法为聚类方法, 将各省分类,最终的分类数由碎石图提供的信息和实际的经济地理情况两方面确定。

2. 经济增长的衡量

本文选择人均实际GDP 环比增长速度(用RGDP 表示)来衡量经济增长,由于使用的是剔除价格影响的实际值,因此在各区域间和各时期间对比时更有说服力。 3.控制变量

现实中影响经济增长的因素很多,为了使模型更符合实际的经济情况,在模型分析时引

入控制变量。使用政府消费占GDP 的比(XG),衡量各地政府对经济的干预,出口额占GDP 的比(CG)表示各地经济的对外依存度,居民消费价格指数(HP)表示通货膨胀因素。

2.3聚类分析过程

每年各地的金融发展指标都会发生变化,但是金融发展是一个渐进的过程,本文可以将聚类时选择在某几个年份作比较,选择聚类样本,比如全国各省,最终目标是将他们分成金融发展程度不同的几类。考察的金融发展指标就是上文提到的两个指标,具体方法是利用系统聚类的思想,使用欧式距离计算个省之间的相似性,采用组内连接法为聚类方法,将各省分类,最终的分类数由碎石图提供的信息和实际的经济地理情况两方面确定。

具体到本文,由于数据收集的原因,我们的聚类目标中不包括西藏,新疆,另外重庆市1997年才从四川省分离因此将重庆市合并入四川省,实际聚类样本是27省,可以选择1990年和2007年做比较。

1990年根据碎石图(图1)显示分为六类比较合适。第一类:湖北、湖南、安徽、江西、四川、内蒙古;第二类:云南、福建、浙江、甘肃、河南、贵州、山东、广西、 江苏、山西、河北;第三类:吉林;第四类:广东、黑龙江、上海、宁夏、青海、陕西、辽宁;第五类:海南、天津;第六类:北京。

1995年根据碎石图(图2)显示分为六类比较合适。 第一类:青海、吉林;

第二类:湖南、四川、广西、河南、安徽、贵州、湖北、江西、黑龙江、辽宁、

内蒙古;

第三类: 山东、福建、浙江、江苏、云南、河北;

第四类:海南;

第五类:广东、上海、山西、 陕西、宁夏、甘肃、天津;第六类:北京。

2007年根据碎石图(图3)显示分为六类比较合适。第一类:上海;第二类:四川、 海南、甘肃、辽宁、陕西、山西、广东、青海、贵州;第三类:湖南、江西、广西、河 南、湖北、福建、安徽、江苏、吉林、山东、内蒙古;第四类:黑龙江、河北、云南; 第五类:浙江、天津;第六类:北京

2.4聚类分析划分结果分析及金融发展等指标对经济增长的影响分析

从以上三次分类的情况看,许多分类与我们通常的区域划分结果并不符合,这是因为系统聚类的方法只是根据数值计算的相似性分类,并不考虑样本的地理位置等条件,本文分析区域金融发展对区域经济增长的影响,是为了更好的制定有利于区域金融发展的政策从而促进区域经济增长,因此我们除了借助于聚类的方法外还需要全面衡量。分析上面三次分类的结果,我们发现北京市都是单独划分为一类,上海市2007年也被单独划为一类,由于后文还需进行计量分析,鉴于北京、上海、广东是我国三个区域金融中心,因此把这三个地区分为一类。宁夏、青海、甘肃、贵州在三次分类中虽然与一些经济较发达地区分为一类,但这反映的是西部落后地区在我国银行体系普遍使用分支行制度情况下,在资金的分配上有被东中部地区“抽血”的现象,因此还应该单独成类。综合上面的分析结果和后文计量分析的要求,最终将上述各地分为五类,第一类:北京、上海、广东;第二类:山东、江苏、浙江、第三类:天津、河北、福建、海南、云南;第四类:湖北、湖南、安徽、江西、内蒙古、广西、河南、吉林、黑龙江、辽宁、山西、四川;第五类:陕西、贵州、青海、宁夏、甘肃。

区域划分之后,可以通过matlab分析这几类区域的金融相关比率和贷存款转换率图,从而得出个地区经济发展的不同比较,并可以研究我国各区域内金融发展对经济增长的影响,在此就不再做具体研究。最后提出各区域经济发展的建议,不同区域可以根据当地的产业发展状况、金融改革进展等因素推行差别性的金融发展政策,同时促进区域间金融协调发

展,突出金融发展程度、高速度快的地区的辐射带动作用,促进区域经济增长,缩小区域经济差距。

3.我国区域经济发展差异指标研究 3.1区域经济发展差距总览

改革开放以来, 从绝对意义上来讲, 我国各地区经济呈现较快的增长。但在增长过程中, 各地区经济增长率呈现出显著的差异性, 地区间收入差距不断扩大, 欠发达地区相对落后, 已经成为我国经济发展中影响整个国民经济持续快速发展、社会安定、民族团结的一大矛盾。

自1981年迄今为止,我国东,中,西部地区的城镇居民收入都有大幅提高,但是随着地区经济发展的差距,地区间居民收入的差距也在逐步扩大,而且差距呈现越来越大的趋势。以2009年东、西、中及东北地区城镇家庭基本情况为例,此处忽视地区划分的影响,不考虑分区内部数据分布情况,数字对比明显。

3.2区域经济发展差距指标综述

现阶段对中国区域经济发展差异研究的两种方法:、

其一是采用各种指数,如基尼系数、标准差、变差系数、加权变异系数、熵指数以及泰尔系数等测量中国经济在不同时间段和空间尺度上的差异性,从而描绘中国经济发展差异的演变。

基尼系数,是20世纪初意大利经济学家基尼,根据劳伦茨曲线所定义的判断收入分配公平程度的指标。是比例数值,在0和1之间,是国际上用来综合考察居民内部收入分配差异状况的一个重要分析指标。泰尔系数,作为衡量个人之间或者地区间收入差距(或者称不平等度)的指标,这一指数经常被使用。泰尔熵标准是由泰尔(Theil,1967)利用信息理论中的熵概念来计算收入不平等而得名。

泰尔系数和基尼系数之间具有一定的互补性。基尼系数对中等收入水平的变化特别敏感。泰尔T指数对上层收入水平的变化很明显,而泰尔熵L和V指数对底层收入水平的变化敏感。

4.第二种方法则是从经济增长出发,采用计量经济模型考察省区、地带初始人均GDP 或人均收入及其他因素对区域经济增长速度的影响,从而判断区域经济是否收敛。对于第二种方法已经在本文前半部分就金融发展方面做过研究,下面将就区域竞争力和非正规金融发展的区域差异对经济增长的影响作如下分析:

3.2区域经济核心竞争力及区域经济发展差距指标研究

区域经济是研究经济活动 在一定自然区域或 行政区域中变化或运动规律及其作用、机制的科学。区域竞争力是当代区域经济学研究的重要课题之一,它从提升区域竞争力的方位切入,将研究对象(区域)置于一个更大的范畴,运用管理学、区域经济学、比较经济学等原理进行比较分析,判断出相对优势、劣势,为政府制定区域发展政策和区域发展规划提供依据,进而实施区域经济发展战略,推动区域经济快速健康发展。

世界经济论坛(WEF)、瑞士洛桑国际管理与开发学院(IMD)及世界其他许多机构都提出了各自的评价竞争力的指标体系,甚至有的还给出了标准值,这与我们的研究对象接近,有很大的参考价值,提取出以下16条作为指标方向:

(1)人均国内生产总值。它是用来反映一个地区的经济在一定时期内所达到的相对规模和资源投入绩效的重要指标之一。

(2)第三产业增加值占国内生产总值比重。它用来反映地区现代化的水平。 (3)第三产业从业人口占总从业人口的比重。用来反映地区现代化的水平。

(4)城镇登记失业率。它是城镇登记失业人员与城镇单位就业人员(扣除使用的农村劳动力、聘用的离退休人员、港澳台及外方人员)、城镇单位中的不在岗职工、城镇私营业主、个体户主、城镇私营企业和个体就业人员、城镇登记失业人员之和的比。用来评价一个地区人民的基本生活质量。

(5)人文发展指数(HDI)。出联合国开发计划署(UNDP)提出,按人口的预期寿命、成人识字率及按实际购买力平价讲一算的人均GDP等三项指标综合计算而得,用来评价一个地区人民的基本生活质量。

(6)基尼系数。它是指洛仑兹曲线和对角线所加的面积与对角线和横坐标秘夹的面积之比,用来描述各地区人民的基本生活质量。

(7)恩格尔系数。指食品支出总额占个人消费支出总额的比重。用来反映当地人民的基本生活质量。

(8)人均住房使用面积。用来反映当地人民的基本生活质量。

本文来源:https://www.bwwdw.com/article/u2mg.html

Top