多指标面板数据的聚类分析研究
更新时间:2023-09-21 07:25:01 阅读量: 自然科学 文档下载
- 面板数据聚类分析推荐度:
- 相关推荐
管理信息系统课程小组作业
多指标面板数据的聚类分析研究
——以我国15个副省级城市综合竞争力评价为例
小组组长:XXXXX 小组成员:XXXXX
XXXXX
完成时间: 指导教师: 徐德华
1
目 录
1 选题背景与意义 ................................................................ 4 2 聚类分析与聚类算法 .......................................................... 5
2.1 聚类分析 ............................................................. 5
2.1.1 相关概念与定义 ................................................................................. 5 2.1.2 相似度计量模型 ................................................................................. 5 2.2 聚类算法 ............................................................. 7
2.2.1 传统聚类算法及其比较 ........................................................................ 7 2.2.2 扩展聚类算法 ................................................................................... 13
3 面板数据及其聚类方法 ..................................................... 15
3.1 面板数据概述 ........................................................ 15
3.1.1 概念及发展 ...................................................................................... 15 3.1.2 面板数据的特点 ............................................................................... 15 3.1.3 面板数据的分析处理方法 .................................................................. 16 3.2 单指标面板数据的数据形式和聚类分析方法 .............................. 16 3.3 多指标面板数据的数据形式和聚类分析方法 .............................. 17
3.3.1 多指标面板数据的数据形式 ............................................................... 17 3.3.2 常见的多指标面板数据聚类分析方法 .................................................. 17
4 实证研究 ........................................................................ 23
4.1 城市竞争力研究综述 .................................................. 23
4.1.1 城市竞争力内涵研究综述 .................................................................. 24 4.1.2 城市竞争力模型研究综述 .................................................................. 26 4.1.3 城市竞争力评价体系研究综述 ............................................................ 29
2
4.2 城市竞争力指标选取 .................................................. 30
4.2.1 城市竞争力评价指标选取的原则 ......................................................... 30 4.2.2 我国15个副省级城市竞争力评价指标体系 .......................................... 31 4.3 聚类分析 ............................................................ 32
4.3.1 基于主成分分析的聚类 ...................................................................... 32 4.3.2 基于指标距离求和的聚类 .................................................................. 38 4.3.2 基于概率连接函数的聚类 .................................................................. 40 4.4 结果分析 ............................................................ 42
5 结论与展望 ..................................................................... 44
5.1 结论…………………………………………………………………………………………………………44 5.2 不足与展望 .......................................................... 44
主要参考文献 ..................................................................... 45 附录 .................................................................................. 46
附录1……………………………………………………………………………………………………………46 附录2……………………………………………………………………………………………………………46 附录3……………………………………………………………………………………………………………48
3
1 选题背景与意义
面板数据(Panel Data)作为截面数据与时间序列数据的组合数据集,同时体现了空间维度和时间维度的数字特征,克服了时间序列数据多重共线性、数据量不足等困扰,逐渐发展成为现代计量经济学领域统计分析与统计研究的重要方法和工具。运用多元统计方法对面板数据进行聚类分析是统计学的新兴研究领域。
聚类分析作为一种数据挖掘手段,已被广泛地应用在许多领域中,包括模式识别、数据分析、图像处理、市场研究、管理评价等。传统的聚类分析对象一般是固定时期的不同个体截面数据,二维数据聚类分析往往不能满足人们分析问题的需要,而且基于单一的固定时期的聚类分析往往抹杀了指标的动态发展趋势及其发展状态,无法预测其未来发展轨迹和所属类别。例如:在城市竞争力聚类分析中,竞争力存在着随时间动态变化过程,仅仅固定在某一年度的截面数据分析就显得有失偏颇,如果根据一个较长时期的面板数据进行聚类分析则显得较为合理。
城市竞争力是国内近年来正在兴起的一个新课题,目前处于起步研究阶段,还未形成公认的完整体系。经济全球化,知识经济时代的到来,促使我国城市必须进行转型改革,走上新型的发展道路。我国现阶段的城市要从建设城市转向管理和经营城市,就是要重塑城市资源整合和配置资源机制,提高城市对社会资源的吸引力和创造社会财富的能力,从根本上就是提高城市竞争力。城市竞争力评价是典型的综合评价,在不同的评价体系下有不同的指标指标,而且必须考虑时间因素,因此相关的数据就是典型的多指标面板数据。
1994年5月,经中央机构编制委员会第6次会议通过,决定将原来的14个计划单列市和杭州、济南2市正式确定为副省级市(其中,重庆市97年恢复直辖)。将这15个城市定为副省级市,是中央对于区域经济发展的重要决策,加强了省级机构统筹规划和协调的地位和作用,不仅有利于加快这些城市的经济与社会发展,而且有利于更好的发挥这些中心城市的辐射作用。在国家政策层面和经济决策权待遇同等的情况下,经过20年,这15个副省级城市的发展出现了很大差异,城市竞争力也日趋呈现差异化。鉴于此,我们小组决定利用多指标面板数据的聚类方法对此进行探析,一方面介绍面板数据的一些处理思路,另一方面通过聚类寻找15个城市类别之间的差异,以提出相关建议。
4
2 聚类分析与聚类算法 2.1 聚类分析
2.1.1 相关概念与定义
聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种方法,其目的是将有限个无标注数据划分到有限个离散的组或类中,发现数据隐藏的内部结构。聚类分析是数据挖掘的一种重要手段,是一种无监督的模式分类方法,在分类时只依赖对象自身所具有的属性来区分对象之间的相似程度。聚类分析作为一种有效的数据分析方法被广泛应用于数据挖掘、机器学习、图像分割、语音识别、生物信息处理等方面。
给定一个对象集合X??x1,x2,,xn?,假设每个对象xi,i?1,,n含有 m 个
特征,在此用向量的方式来表示对象的特征,xi??l1,l2,来获得聚类结果。聚类的结果用C??c1,c2,件:ci??,i?1,,lm?,聚类分析的过
程就是根据对象的特征来分析对象之间的相似程度,并根据某种聚类决策准则
,ck?表示,则聚类结果满足以下条
,k。模糊聚类的结
,k;
ki?1ic?X;ci?cj??,i?j,i,j?1,果没有上面的约束条件,模糊聚类给出的结果只是对象隶属于每个类的程度。
通常聚类分析一般包含四个部分:(1)特征获取与指标选择;(2)计算相似度;(3)聚类分组;(4)结果分析。 2.1.2 相似度计量模型
给定数据矩阵,通常需要通过某种相似度计算模型来计算相似度矩阵。相似性计算模型一般需满足如下三个条件:
(1)非负性:对于任两个对象x和y,有0?s(x,y)?1; (2)对称性:对于任两个对象x和y,有s(x,y)?s(y,x); (3)s(x,x)?1。
相似度的计算依赖于数据的特性,针对不同的数据类型,目前有许多相似度的计算公式,下面列出一些常见的计算公式: (1)数值型数据的相似度
数值型数据的相似度通常利用数据间的距离来构造,可以利用公式
s(x,y)?1d(x,y),s(x,y)?e?d(x,y)或s(x,y)?1?
d(x,y)?1max_d5
将距离转化为相似度,其中max_d表示集中数据之间的最大距离。 常见的距离公式有:
?p?? 闵可夫斯基(Minkowski)距离:d(x,y)???xi?yi?
?i?1?n1p? 切比雪夫(Chebyshev)距离:d(x,y)??xi?yi
i?1n? 马氏(Mahalanobis)距离:d(x,y)???x?y?TS?1(x?y)
?12其中,?表示取大运算。闵可夫斯基距离是一个一般化的距离度量,当p=1是为曼哈顿距离,当p=2是为欧式距离。 (2)二元数据的相似度
二元数据是由二元变量构成,二元变量只能有两种取值状态:0或1,其中0表示该特征为空,l表示该特征存在。如果二元变量的两个状态是同等价值的具有同样的权重称为对称的二元变量,否则称为不对称的二元变量。
对于对称的二元变量评价两个对象和之间相似度的最著名的系数是简单匹配系数:d(x,y)?r,其中r为x和y取值不相同的属性的个数,s为x和yr?s取值相同的属性的个数。对于非对称的二元变量,常用系数来表示,其中最常用的是Jacard系数。下面给出常见系数的计算公式,设x??x1,x2,,xn?y??y1,y2,,yn?为二元数据,常用0-0匹配表示xi=0且yi=0,同理可用0-1、
1-0及1-1匹配表示xi及yi相应的取值,其中fij表示集合
??x,y?x=i且ykkkk=j,k?1,2,,n?的基数,i,j??0,1?。
? Jacard系数 J?f11
f01?f10?f11f11?f00
f00?2(f01?f10)?f11? Rogers-Tanimoto系数 RT?? Sokal-Sneath-a系数 Sa?(3)其他相似度
2(f11?f00)
2f00?f01?f10?2f11nxy,其中xy=?xiyi,x?? 余弦相似度 cos(x,y)?xyi?1?xi?1n2k 1+corr(x,y) 2? 相关系数构成的相似度 s(x,y)??corr(x,y)?或者s(x,y)=
6
2.2 聚类算法
2.2.1 传统聚类算法及其比较
聚类分析的核心就是聚类算法,在不断的发展过程中演化出了多种经典的聚类算法,在现有文献中,传统的聚类算法主要有几种类型:划分方法、层次方法、密度方法、模型方法和网格方法。 (1)基于划分的方法
对于给定的包含n个数据对象的数据库,通常基于划分的方法要求用户给定构建数据的最终划分数目k,通过采用目标函数最小化策略,将数据分成k个簇。可以看出,算法将整个数据集划分为k个簇,同时满足以下两个条件:①每个簇至少包含一个数据对象;②每个数据对象必须属于且唯一的属于一个簇。但在某些模糊划分技术中,如在FCM算法中,第二个要求可以放宽。给定划分数目k,基于划分的方法首先创建一个初始划分,通常采用的方法是随机选取k个数据对象作为初始聚类中心点,然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分,采用的准则是:在同一个簇中的数据对象尽可能相似,不同的簇中的数据对象尽可能相异。根据对象在划分之间移动的衡量参数和簇的表示方法不同,基于划分的方法主要包括有K-Means法,K-中心点算法以及对他们的扩展。
(2)基于层次的方法
层次的方法按数据分层建立簇,形成一棵以簇为节点的树。根据层次如何形成,层次的方法可以分为凝聚的和分裂的。凝聚的方法,也称自底向上的方法,该方法从数据点作为个体簇开始,每一步合并两个最接近的簇,直到所有的簇合并为一个(层次的最上层),或者达到一个终止的条件。在这里,判断最接近的簇需要簇的临近性定义。大多数的层次聚类算法都属于这类。分裂的方法,也称为自顶向下的方法,它与凝聚的方法正好相反,该方法从包含所有点的一个簇开始,每一步分裂一个簇,最终每个对象在单独的一个簇中,或者达到一个终止条件,比如达到某个希望的簇数目,或者两个最近的簇之间的距离超过了某个闭值。在这种情况下,我们需要确定每一步分裂哪一个簇,以及如何分裂。无论是凝聚算法还是分裂算法都要采用一个划分准则,以便判定簇之间的相似性或相异性,五个广泛采用的簇间距离度量方法如下:
7
ⅰ.最小(单链)距离:
dmin(Ci,Cj)=minPi-Pj, Pi?Ci,Pj?Cj
ⅱ.最大(全链)距离:dmin(Ci,Cj)=maxPi-Pj, Pi?Ci,Pj?Cj
ⅲ.平均值(质心)距离:dmean(Ci,Cj)=mi-mj,其中mi、mj是Ci,Cj的质心 ⅳ.平均(组平均)距离:davg(Ci,Cj)=1nn??Pi-Pj, Pi?Ci,Pj?Cj
ijⅴ.中心点距离:dmedian(Ci,Cj)=Mi-Mj,其中Mi、Mj是Ci,Cj的中心点。
这里Pi-Pj表示两个对象Pi和Pj之间的距离,mi是簇Ci的平均值(质心),
Mi是簇Ci的中心点,而ni是簇Ci中对象的数目。
如图2.1所示,凝聚的层次算法和分裂的层次算法在包含五个对象的数据集合上的处理过程。凝聚的方法将每个对象看作一个簇,然后将这些簇一步一步进行合并。图中簇a和b相似性最高首先进行合并,其次是d和e,再de合并的簇与簇c合并,最终与a,b组成的簇合并,合并过程反复进行直到最终合并为一个簇。而在分裂方法处理的过程中,初始时所有对象都放到一个簇中,根据数据对象之间的相异性将该簇分裂,簇的分裂过程反复进行,直到最终每个簇中只包含一个对象。
图2.1 凝聚和分裂层次聚类算法
8
层次聚类算法可以在不同粒度水平上对数据进行探测,而且很容易实现相似度量或距离度量。但是层次聚类算法由于合并或分裂簇的操作不可逆,也给聚类结果带来不准确性。有一些技术试图克服“合并是最终的”这一限制。一种方法试图通过移动树的分支以改善全局目标函数。另一种方法使用划分聚类技术来创建许多小簇,然后从这些小簇出发进行层次聚类。凝聚层次聚类技术使用各种标准,在每一步局部地确定哪些簇应当合并(或分裂,对于分裂方法)。这种方法产生的聚类算法避开了解决困难的组合优化问题。这样的方法没有很难确定初始点和局部最小问题。但是,在很多情况下,O(n2log n)的时间复杂度和O(n2)的空间复杂度阻碍了它们的应用。通常在解决实际聚类问题时把层次方法与其他方法结合起来。改进层次方法聚类质量的一个很有前途的方向,是把层次聚类和其他聚类方法相结合起来,形成多阶段的聚类,改善聚类质量。这类方法包括BIRCH和CURE算法等。
BIRCH算法利用层次方法进行平衡迭代归约和聚类。它引入了两个概念:聚类特征和聚类特征树。聚类特征是一个反映类内对象信息的三元组,包含类内数据点的个数、线性和以及平方和。它首先将对象划分成树形结构,然后采用其他聚类算法对聚类结果求精。BIRCH算法采用多阶段聚类技术,对数据集进行一遍扫描后生成初步簇的CF树,再经过一遍或多遍扫描改进CF树的质量。CF树建好后,可以使用任何聚类算法,如典型的划分方法,对其叶节点进行聚类。BIRCH算法支持增量聚类。当插入新数据对象时,CF树可以动态构造,CF树的重建类似于B+树构建中的节点插入和分裂。但由于CF树的每个节点的大小的限制,可能导致节点并不总是对应于用户所认为的一个自然聚类。而且,如果簇不是球形的,BIRCH算法不能很好地工作,因为它用了直径的概念来控制聚类的边界。
CURE算法使用各种不同的技术创建一种能够处理大型数据、离群点和具有非球形和非均匀大小的簇的数据的方法。CURE使用簇中多个代表点来表示一个簇。实际上,CURE是从一个簇中选择一定数目散布很好的点来代表该簇,这些点能够用于确定簇的形状和大小。一旦选定代表点,他们就以一定的收缩因子向簇中心收缩,这有助于减轻离群点的影响。使用这些点收缩之后的位置来代表簇,从中找到最近的两个簇,然后把它们进行合并。CURE算法克服了利用单个代表点或基于质心的方法的缺点,可以发现非球形及大小差异明显的簇。同时采用了收缩因子在处理孤立点上也更加健壮。 (3)基于密度的方法
很多算法中都使用距离来描述数据对象之间的相似性,前面提到的两种聚类方法就是基于这种相似性进行聚类,这样的聚类方法对于大部分的球形簇聚类效果较好。但往往对任意形状的簇聚类结果较差,甚至无法进行有效聚类,
9
因此提出了基于密度的聚类方法。这类方法将簇看作是数据空间被低密度区域分割开的高密度区域。该类算法除了可以发现任意形状的类,还能够有效去除噪声。典型的基于密度的聚类方法包括DBSCAN和OPTICS。
1)DBSCAN算法
主要思想是:只要临近区域的密度(对象或数据点的数目)超过某个预先设定的闭值,该数据对象就属于此簇,并继续聚类,直至所有的对象都唯一的划定到一个簇中。
基于密度的聚类方法通常是对于给定类中的每个数据点,在一个给定范围的区域中设定必须至少包含数据点的数目。它定义簇为密度相连点的最大集合。以下为有关密度的一些相关概念:
ⅰ.e-邻域:给定对象e半径内的区域称为该对象的e-邻域;
ⅱ.核心对象:如果一个对象的e邻域至少包含最小数目MinPts个对象,则称该对象为核心对象,MinPts由用户给定;
ⅲ.直接密度可达:给定一个对象集合D如果p是在q的 e-邻域内,而q是一个核心对象,我们说对象p从对象q出发是直接密度可达的;
ⅳ.密度可达:如果存在对象链P1,P2,
,Pn,P1=q,Pn=p对Pi?D
(1£i£n),Pi+1是从Pi关于e和MinPts直接密度可达的,则对象P是从对象q关于e和MinPts密度可达的(Density一Reachable);
ⅴ.密度相连:如果对象集合D中存在一个对象O,使得对象p和q是从O关于e和MinPts密度可达的,那么对象p和q是关于e和MinPts密度相连的(Density一Connected)。
密度可达是直接密度可达的传递闭包,这种关系是非对称的。只有核心对象之间是相互密度可达的。然而,密度相连性是一个对称的关系。
基于密度的聚类算法通过检查数据库中每个数据对象的:e-邻域来寻找最终的聚类。如果一个数据对象P的e-邻域包含多于MinPts个其他数据对象,则创建一个以P作为核心对象的新簇。然后,反复地寻找从这些核心对象直接密度可达的对象。这个过程可能涉及一些密度可达簇的合并。当没有新的点可以被添加到任何簇时,该过程结束。这样算法得到的簇是是基于密度可达性的最大的密度相连对象的集合,其他不包含在任何簇中的对象被认为是“噪声”。这样的方法可以用来过滤“噪声”,去除孤立点数据,并且可以发现任意形状的簇。
对于基于密度的算法聚类过程而言,它的优点是具有相对较低的时间复杂度(如果采用空间索引,DBSCAN的计算复杂度是O(nlogn),否则,计算复杂度是O(n2),这里n是数据库中对象的数目),另外可以根据给定输入参数e和MinPts对数据对象进行较好的聚类,但是对于用户而言,参数的取值通常依靠
10
家庭。在微观的水平上许多变量能被更为精确的测量,因此有测量误差所引起的偏能够得到减轻。
3.1.3 面板数据的分析处理方法
从20世纪70年代末以来,面板数据回归模型的理论方法己日渐成熟,涌现了大量有关面板数据理论和经验分析文章,形成了现代计量经济学中一个相对独立的分支。绝大多数有关面板数据的分析处理理论,一方面从从计量建模的角度着手,从单方程模型到联立方程模型,从变截距模型到变系数模型,从线性模型到非线性模型等等,另一方面着重于模型参数估计方法的研究。目前,用面板数据建立的模型通常有3种,即混合模型、固定效应模型和随机效应模型,其中固定效应模型又可分为个体固定效应模型、时点固定效应模型和个体时点双固定模型三类。常用的面板数据模型估计方法有混合最小二乘估计、组内最小二乘估计、组间最小二乘估计、广义最小二乘估计、协方差估计、一阶差分估计和最小二乘虚拟变量估计,其中前两种适用于混合模型,组内、组间和广义最小二乘估计适用于堆积效应模型,后三种适用于固定效应模型。
Bonzo D.C 和 Hermosilla A.Y 等统计学家开创性的将多元统计方法引入到面板数据的分析中来,并运用概率连接函数和遗传算法改进了聚类分析的算法,从而将聚类分析用于面板数据的分析。运用多元统计方法对面板数据进行聚类分析是统计学的新兴研究领域。
3.2 单指标面板数据的数据形式和聚类分析方法
单指标面板数据的数据格式可以用一个二维表来表示.单指标面板数据聚类分析有两种处理方法:一种是转换方法,将单指标面板数据的时间维度转换为截面数据的指标维度表示,两种数据的统计描述特征相似,在聚类分析中,二者关于样品距离的算法、聚类过程都是相同的,因此,单指标面板数据的聚类分析可以借鉴截面数据的聚类分析,可以直接运行相关软件进行计算。另一种是一维有序样品聚类方法,将单指标面板数据的空间维度转换为有序样品的指标维度表示,但需要进行降维处理得到一维指标。目前有不少专业软件可以完成一维样品有序聚类计算,比如DPS 等。
由于面板数据自身复杂的数据结构,对于面板数据聚类分析的研究早期多停留在单指标面板数据上较多,例如:Michel和Jeroen(2005)用逐步回归的方
16
法对缺省数据的单个指标面板数据进行了聚类分析研究;朱建平和陈民恳(2007)利用差异上确界、差异欧式距离、差异绝对值等方法研究了单个指标面板数据的聚类分析,构造了度量单个指标面板数据中横截面个体之间相似性的统计指标,并对全国31个省市城镇居民的收入和支出分别作了系统聚类分析。对单个指标面板数据的聚类分析在理论研究上就是一个简化问题,其聚类算法和聚类过程都类似于多指标横截面数据或者时间序列的聚类分析。因此,单指标面板数据的聚类分析相对比较简单,数据也易于处理。但是,实际情况往往是复杂的,单个指标包含的信息太少,不能充分反映现实情况的特征。因此,单指标面板数据的聚类分析在实际应用中往往受到很大限制。
3.3 多指标面板数据的数据形式和聚类分析方法
3.3.1多指标面板数据的数据形式
在实际中,由于现象的复杂性,研究对象往往表现为多指标面板数据。多指标面板数据的结构要复杂一些,严格上应该用三维表来表示,在在平面上我们可以将其转换为一个二级二维表的形式,如表3.1所示。研究总体共有N个,每个样品的特征用p个指标表示(X1,X2,?,Xj,?,Xp),时间长度为T,则
Xij(t)表示第 个样品第j个指标在t 时间的数值。
表3.1 多指标面板数据的数据形式
3.3.2 常见的多指标面板数据聚类分析方法 (1)主成分分析方法
主成分分析法是利用主成分分析构造一个综合指标,再对综合指标进行聚类分析。例如,肖泽磊等(2009)对多指标面板数据在各时刻t的横截面数据进行主成分分析,构造出了多指标面板数据在时刻t的综合指标Fn,t:
17
(2-1)
然后将综合指标Fn,t间的距离定义为面板数据中横截面个体间的距离或者相性指标,肖泽磊等(2009)定义了如下3个度量横截面个体相似性的指标:
(3-3)
(3-4)(3-2)
上述式(2-2)、式(2-3)和式(2-4)分别将综合指标Fi,t和Fj,t的绝对距离、欧氏距离以及极差距离作为度量横截面个体i和j相似性的指标。将Xn,t的样本观测值xn,t带入Fn,t中,可以直接得到相似性指标对应的样本值,由该样本值可以直接度量横截面个体间的相似性。
虽然上述综合指标Fn,t通常能够包含p维随机变量Xn,t的大部分信息,例如肖泽磊等(2009)在利用主成分分析构造综合指标时,考虑综合指标的累积贡献率都在85%以上。但是,上述3个相似性指标只度量了在综合指标上横截面个体i和j间的相似性,未必能够度量在p维随机变量Xn,t上横截面个体i和j是否是相似的。
除此之外,主成分分析法还在数据方面存在着一定的不足。第一点是指标的量纲问题,不同的指标具有不同的经济意义或者经济解释,往往可能具有不同量纲或者单位。虽然可以通过总体样本的均值x.t和总体样本的方差矩阵S.t进行标准化处理将各指标的量纲剔除,但是综合指标往往还是无法给出其经济意义或者经济解释的。第二就是指标的数量级问题,不同的指标往往数量级也有可能是不同的。在主成分分析法中,如果指标数量级差异较大,综合指标间的距离往往就会只由数量级较大的指标决定,而数量级较小的指标往往可能对综合指标间的距离影响很小。这样就会直接对数量级较小的指标造成较大的信息损失,可能会导致对横截面个体间相似性度量不够准确。第三是面板数据出现异常值的问题。当面板数据中的某个横截面个体样本观测在某些期出现异常值时,主成分分析法往往会对该横截面个体与其他横截面个体间相似性的度量上出现问题。例如,横截面个体i在t*期样本出现异常值,致使横截面个体i与j18
间的距离在t*期很大,从而造成了相似性指标的样本值也较大,认为横截面个体i与j的相似性不大;但是在其他各期上横截面个体i与j间的距离都是较小的,只是因为在t*期出现了异常值,才使得横截面个体i与j间的判别距离很大。因此,在面板数据中出现了异常值时,主成分分析法往往可能会对横截面个体间相似性在整个观测期上的度量出现失误。 (2)指标距离求和法
指标距离求和法是在指定时间上,将横截面个体间每个指标间的距离看作是等价的,将所有指标间距离求和作为度量横截面个体间相似性的指标。例如,郑兵云(2008)定义了横截面i和j的欧式距离:
2?ss2?d(i,j)????(Xi,t?Xj,t)?,i,j?1,2,?t?1s?1?Tp1,N(3-5)
除此之外,李因果和何晓群(2010)在上述的欧式距离中,还考虑加入横截面个体在时间变化上的距离和“变异系数”距离。其形式如下:
(3-6) 其中Y=DX/DXsi,tsi,tsi,t-1,DX=X-Xsi,tsi,tsi,t-1*1ps1p,Z=X/si,t,X=?Xi,t,si,t=?(Xis,t-Xi,t),
ps=1ps=1si,t*i,t*i,t2上述第二个求和项就是横截面个体在时间变化上的距离,第三个求和项就是“变异系数”距离。
将横截面个体的样本观测值xi,t和xj,t带入式(2-5)和式(2-6)中,可以得
到相似性指标d(i,j)对应的样本值,由相似性指标对应的样本值可以直接度量横截面个体间的相似性。在上述式(2-5)和式(2-6)中,构造欧式距离时,虽然该方法看似对各指标都进行了比较,但是却将每个指标间的距离看作是等价的,将面板数据中的指标看作是“可退化的”。与主成分分析法的区别是,主成分分析法是将面板数据中的p个指标变为一个综合指标,指标距离求和法是直接将面板数据中的指标退化,将p个指标的T次观测直接退化为对一个指标的p*T次观测。郑兵云(2008)也认为指标距离求和法存在着直接忽略了不同指标的概率分布特征的缺陷。对于面板数据来说,不同指标的数字特征和概率分布特征往往是不同的。对于面板数据中某个给定的横截面个体,某一个指标的T次观测往往反映了该指标的概率分布特征,指标距离求和法是无法反映出任何指标的概率分布特征。
19
与主成分分析法一样,指标距离求和法也在数据方面存在着三点不足。第一是指标的量纲问题,虽然在指标距离求和法中没有构造综合指标,但是却直接对指标进行退化求距离,而指标退化所求的距离往往也是无法给出其经济解释的。第二是指标的数量级问题,指标退化的求和距离往往也是由数量级较大指标决定,而数量级较小的指标往往可能对指标距离求和影响很小。第三是面板数据出现异常值的问题。和主成分分析法一样,当面板数据中的某个横截面个体样本观测在某期出现异常值时,在该期横截面个体间的距离往往可能会过大,影响了对整个观测期相似性的度量。 (3)概率连接函数
Bonzo(1998)首先提出了面板数据的“聚类概率性结构”这个概念,认为不同指标的概率分布情况是不同的,在面板数据中性质相类似的横截面个体应该在各个指标的概率分布特征以及在多个指标的联合概率分布特征上是类似的。 主成分分析法和指标距离求和法都无法反映面板数据中各指标的概率分布特征,这两种方法自然也就无法反映面板数据中多个指标的联合概率分布特征,包括了不同指标间的相关性等。因此,这两种方法都存在着一个缺陷:破坏由Bonzo(1998)提出的面板数据“聚类概率性结构”或者“概率性结构”。
Bonzo(1998)在研究面板数据的聚类分析时,采用了概率连接函数(probability link function)来代替一般的距离函数作为横截面个体间的相似性指标。假设整个面板的N个横截面个体可以被分为m个类。记C为整个面板数据,C1,C2,?,Cn分别表示面板数据的m个分类。记:
为了研究多指标面板数据中横截面个体在其指标概率分布特征上的相似性,Bonzo和Hermosma(2002)假设Xj是Ck类中横截面个体j的p维随机变量,且对于\j?Ck在t时刻都有相同的期望向量mk,t及相同的方差矩阵?k,t。
若j1,j2?Ck,Bonzo和Hermosilla(2002)在研究概率连接函数(probability link function)时,首先定义了如下的两个马氏距离:
?0k(Xj1,t,Xj2,t)?(Xj1,t??k,t)???1?1k,t(Xj2,t??k,t)(3-7)
(3-8)
?0k(xj1,t,xj2,t)?(xj1,t??k,t)
??k,t(xj2,t??k,t)上述马氏距离D0k(Xj1,t,Xj2,t)度量了t时刻横截面个体j1与j2之间样本观测值的相似性。Bonzo和Hermosilla (2002)不再简单地对指标进行降维或退化
20
处理,而是直接从横截面个体p维随机变量Xj的联合概率分布出发,定义了由分布概率值构成的相似性指标。
Bonzo和Hermosilla (2002)定义了如下的概率连接函数:
T?k(j1,j2)??atP[?0k(Xj1,t,Xj2,t)??0k(xj1,t,xj2,t)](3-9)
t?1T
其中常数序列
是在时间t上的权重系数,?at=1,在通常
t-1情况下,Bonzo和Hermosilla (2002)认为更加关心近期得到的观察数据,因此通常都把
定义为随时间t非递减的常数序列。
dk(j1,j2)是横截面个体j1与j2在一个概率尺度上的相似性度量,实际上是
马氏距离D0k(Xj1,t,Xj2,t)在时间上的加权概率值,因此也把概率连接函数称作为“概率相似系数”。可以看出,概率连接函数dk(j1,j2)对横截面个体j1与j2在各时间t上都进行了相似性的度量,然后把各期的相似性度量综合起来。因此,概率连接函数作为横截面个体间相似性的度量,具有以下的四个优点。
第一,上述概率连接函数dk(j1,j2)首先在考虑了Xj1,t和Xj2,t的概率分布特征情况下,再来研究马氏距离D0k(Xj1,t,Xj2,t)的概率分布。这里并没有直接釆用马氏距离D0k(Xj1,t,Xj2,t)来度量横截面个体j1与j2在时间t期上的相似性,而是考虑了马氏距离的概率分布,而马氏距离的概率分布情况是由p维随机变量
Xj1,t和Xj2,t的概率分布所决定的。因此,再通过样本观测数据,将概率值P[D0k(Xj1,t,Xj2,t)£D0k(xj1,t,xj2,t)]作为度量在t时刻上横截面个体j1与j2间的相似性指标。因此,概率连接函数dk(j1,j2)能在很大程度上体现横截面个体在其概率分布特征上是否相似。概率连接函数dk(j1,j2)考虑的是横截面个体p维随机变量的联合分布,它不仅包含了各指标的概率分布特征,而且还包含了不同指标间的相关性等特征。因此,概率连接函数充分保留了面板数据的概率性结构。
第二,因为这里直接考虑橫截面个体j1与j2的多维指标变量Xj1,t和Xj2,t的概率分布,不再是对指标进行降维或退化处理,因此,这里直接就不存在指标量纲的问题。
第三,对于指标的数量级问题,在Bonzo和Hermosilla (2002)定义的概率连接函数中D0k(Xj1,t,Xj2,t)是个马氏距离,直接通过该马氏距离就可以将该问题解决。而且Bonzo和Hermosilla (2002)还考虑了该马氏距离的分布情况。
21
第四,对于横截面个体在某些时期的数据出现了异常值的问题,由于概率连接函数dk(j1,j2)是将Pt=P[D0k(Xj1,t,Xj2,t)£D0k(xj1,t,xj2,t)]作为个体j1与j2在时间t期上的相似性度量,而且由概率函数Pt?[0,1]的特性,因此即使面板数据在t*,1£t*£T期出现了异常值,该期的概率函数Pt<1。由dk(j1,j2)在时间t上的加权,只要观测期T较长的话,t*期的异常值也不会对概率连接函数
dk(j1,j2)产生较大的影响。
在给定观测数据的情况下,Bonzo和Hermosilla(2002)考虑到用样本观测数据来估计概率连接函数dk(j1,j2)。若j1,j2?Ck,Bonzo和Hermosilla (2002)又定义了如下的两个马氏距离:
?0k(Xj1,t,Xj2,t)?(Xj1,t?Xk,t)?Sk?,1t(Xj2,t?Xk,t)?0k(xj1,t,xj2,t)?(xj1,t?xk,t)?Sk?,1t(xj2,t?xk,t)(3-10) (3-11)
其中Xk,t为在t时刻Ck类中横截面个体随机变量的均值,也称之为Ck类中横截面个体的重心,xk,t为在t时刻类中横截面个体的样本重心,在t时刻类中不同横截面个体间的样本协方差矩阵,Nk为Ck类所包含的横截面个体的总个数,又Xk,t,xk,t,Sk,t形式分别如下:
Xk,t=1Nk1Nk?Xj?Ckj.t
xk,t=?xj?Ckj.t
Sk,t=1(xj1.t-xk.t)(xj2.t-xk.t)t ??Nk(Nk-1)j1?Ckj2?Ck,j11j2在给定样本观测数据的情况下,Bonzo和Hermosilla(2002)给出了概率连接函数dk(j1,j2)的估计
,其形式如下:
?k(j1,j2)?atP[?0k(Xj1,t,Xj2,t)??0k(xj1,t,xj2,t)](3-12)
t?1?T
22
4 实证研究
4.1 城市竞争力研究综述
随着我国改革开放程度、以及经济市场化程度的进一步加深,伴随着经济全球化和知识经济时代的到来,我国的大中型城市必须走向转型改革的道路。我国现阶段的城市要从建设型城市转向管理、经营和服务型城市,就是要重塑城市资源整合和配置资源机制,提高城市对社会资源的吸引力和创造社会财富的能力,从根本上就是提高城市竞争力。
1994年5月,经中央机构编制委员会第6次会议通过,决定将原来的14个计划单列市和杭州、济南2市正式确定为副省级市(其中,重庆市97年恢复直辖),如图4.1所示。将这15个城市定为副省级市,是中央对于区域经济发展的重要决策,加强了省级机构统筹规划和协调的地位和作用,不仅有利于加快这些城市的经济与社会发展,而且有利于更好的发挥这些中心城市的辐射作用。在国家政策层面和经济决策权待遇同等的情况下,经过近20年的时间,这15个副省级城市的发展出现了很大差异,城市竞争力也日趋呈现差异化。通过选取合适的评价指标,利用多指标面板数据聚类分析的方法处理,来发现这15个城市类别之间的差异,进而以提出相关建议。
图4.1 我国15个副省级城市分布图
23
4.1.1城市竞争力内涵研究综述
20 世纪 80 年代以来,随着经济全球化和一体化趋势越来越明显,各国
的城市进入国际发展的范畴,在全球范围内形成新的城市等级体系,城市竞争力的研究也扩展到全球范围。作为一个新的研究领域,尽管国内外学术界对城市竞争力已经做过许多有益的探索,但目前为止,尚未能形成公认的理论体系,关于城市竞争力的概念,不同的学者从各自的研究领域进行了不同的理解。 (1)国外学者的主要观点
国外学者关于城市竞争力的研究要早于国内,早在上世纪八十年代国外就有学者开始了城市竞争力的研究,经过20多年的探索,国外学者提出的城市竞争力的概念主要有以下几种:
① Paul Cheshire认为城市竞争力就是指一个城市相对其他城市而言,能够给自身城市创造更多的就业机会和提高其收入水平的能力。
② Douglas Webster 指出,城市竞争力是指一个城市能够生产和销售比其它城市更好的产品,非交易性劳务也是竞争力的一个重要组成部分。
③ Ivan 和 William借鉴英国政府白皮书关于企业竞争力的定义、OECD 关于国家竞争力的定义,总结出城市竞争力的定义:城市竞争力就是城市生产产品和提供服务,能够满足区域、国家和国际市场,同时能够提高居民实际收入、改善居民生活水平和促进可持续发展的能力。
④ Iain 认为城市竞争力是一个城市在自由、公平的市场经济条件下,为满足国际、区际或者城市间市场的需要而生产产品和提供服务的能力,并且能够同时增加其居民长远的实际收入。
⑤ Kresl是少数几个试图清晰地定义城市竞争力的学者之一,他提出了影响城市竞争力的6个要素:给居民提供的工作应该是高技术、高收入的工作;生产的产品应一该是符合环保要求的;生产的产品应该是质量优良,并且其需求的收入弹性较大;经济增长率能够满足充分就业的需求;在专业化发展中,城市能自主地控制自己的未来,而不是被动地接受命运的安排;城市政府能够不断改进行政管理绩效。 (2)国内学者的主要观点
在国内,关于城市竞争力的研究还是一个比较新的课题,较早提出城市竞争力概念的是南开大学的郝寿义教授等人,然后一些科研机构和高等院校研究
24
者也相继提出了城市竞争力的概念,其中主要的有以下几种:
①南开大学的郝寿义教授(1999)认为,城市竞争力是指一个城市在国内外市场上与其它城市相比所具有的自身创造财富和推动地区、国家或世界创造更多社会财富的能力。城市竞争力反映的是一个城市的生产能力、生活质量、社会全面进步以及对外影响。
②上海社科院(2001)通过研究认为,一个城市的竞争力是指该城市在一定区域范围内集聚资源、提供产品和服务的能力,是城市经济、社会、科技、环境等综合发展能力的集中体现。
③北京国际城市发展研究院认为,所谓的城市竞争力是指一个城市在经济全球化和区域一体化背景下,与其它城市比较,在资源要素流动过程中,所具有的抗衡甚至超越现实的和潜在的竞争对手,以获取持久的竞争优势,最终实现城市价值的系统合力。
④华东师范大学城市与区域发展研究所的宁越敏教授(2001)认为,城市竞争力是指在社会、经济结构、价值观、文化、制度政策等多个因素综合作用下创造和维持的,一个城市为其自身发展在其从属的大区域中进行资源优化配置的能力,从而获得城市经济的持续增长。
⑤中国社会科学院的倪鹏飞博士指出,城市竞争力是一个城市在竞争和发展过程中与其它城市相比较所具有的吸引、争夺、拥有、控制和转化资源,争夺、占领和控制市场,以创造价值,为其居民提供福利的能力。
⑥东南大学经济管理学院院长徐康宁教授依据城市作为竞争主体的特征,定义城市竞争力的概念为:城市竞争力是指城市通过提供自然的、经济的、文化的和制度的环境,集聚、吸引和利用各种促进经济和社会发展的文明要素的能力,并最终表现为比其它城市具有更强、更为持续的发展能力和发展趋势。
通过对上述城市竞争力概念的回顾可以看出,虽然不同的学者有不同的理解,但基本都使用了以下一些标准:
ⅰ.城市获得持续发展能力为标准(如宁越敏、徐康宁);
ⅱ.以城市生产产品和提供服务、并能增加居民实际收入的能力为标准(如Ivan 和 William、Iain、上海社科院等);
ⅲ.以城市获取各种流动资源和占领市场以及配置资源的能力为标准(如倪鹏飞、宁越敏等)。
25
4.1.2 城市竞争力模型研究综述
(1)国外关于城市竞争力模型的研究
哈佛大学的波特教授是国际公认的研究竞争力的专家,他创立了国家竞争力模型。他认为,一个国家或地区竞争力大小,既与该国家或地区的政治环境和宏观经济条件有关,也与该国家或地区的微观经济基础密切相关,具体表现在以下几个方面:生产要素,需求状况,支持产业,企业战略、结构和竞争的优劣程度以及政府行为和机遇等六个方面,它们构成了著名的“钻石模型”,如图4.2所示。这一理论模型为城市竞争力的研究和衡量提供了理论基础和基本方法。
图4.2 波特的竞争力钻石模型
美国巴克内尔大学彼得教授是研究城市竞争力的先驱之一,他在上个世纪80年代开启了对城市竞争力的开拓性研究。他的主要贡献是提出城市综合竞争力的评价框架是显示性框架和解释性框架的结合,他强调在评估城市竞争力时,指标选择至关重要,并且对城市竞争力与国家竞争力加以区别是评价城市竞争力的关键,并用多变量把抽象的竞争力显示成具体可比较的竞争力。
卡尔斯教授发表了《城市竞争力:美国》、《城市竞争力决定性因素:一个评论》和《竞争力和城市经济:24个美国大城市区域》三篇论文,对城市竞争力作了开拓性的研究。卡尔斯认为,城市竞争力不具有可直接测度的性质,但是可以用其所投下的影子来估量其本质和量值。他应用一些具体可度量的指标来表示以上各个因素,用多变量把抽象的竞争力显示成为具体的可比较的竞争力,对城市竞争力研究作出重要贡献。
道格拉斯对城市竞争力也进行了比较深入的研究,他将决定城市竞争力的
26
因素划分为四个方面,即经济结构、区域资源禀赋、人力资源和制度环境,其中经济结构是竞争力评价的焦点。他建立了一套指标体系,该模型最主要的贡献是提出了国家政策和人力资源对城市竞争力的影响越来越重要的观点。
伊恩·贝格认为城市的最终目标是为了提高居住在城市中人们的生活标准,从这个角度出发建立了“迷宫模型”,如图4.3所示。在该模型中,伊恩·贝格将影响城市竞争力的因素分为显性因素和决定性因素,将两者结合起来,阐述了城市竞争力实际上就是一种城市绩效的“投入”与“产出”的函数关系。这里的“投入”主要是指自上而下的部门趋势和宏观影响、公司特质、贸易环境、创新和学习能力等方面;“产出”则是指由生产、城市就业率共同决定的城市居民生活质量。
图4.3 伊恩的城市竞争力迷宫模型
综上所述,国外学者对城市竞争力评价的研究表现为一段动态的发展历程,慢慢趋向于完善,从一开始单方面的不同学科发展到较全面的多方面学科的研究,从一开始强调客观指标慢慢趋向于注重客观与主观指标的整合,为城市竞争力的研究提供了坚实的理论基础。 (2)国内关于城市竞争力模型的研究
我国有关城市综合竞争力的研究起步较晚,始于 20 世纪 90 年代。有关城市竞争力的理论模型,比较全面系统的就是北京国际城市发展研究院的“城市价值链模型”和倪鹏飞的“弓弦模型”。
27
北京国际城市发展研究院以国际竞争力理论和产业竞争力理论为基础提出,城市竞争力必须“以市场为目标、以战略为核心、以整合为导向”,建立了城市价值链模型,该模型采用定性与定量相结合,理论分析与数据处理统一的分析方法进行研究,最终完成了中国竞争力分析,这是对城市竞争力研究的一大贡献。城市价值链模型如图 4.4所示。
图4.4 城市竞争力价值链模型
中国社会科学院倪鹏飞博士建立了弓弦模型,如图4.5所示。他假定城市竞争力与城市价值收益正相关,在假定了它们之间的关系后,将城市的竞争力归结为城市的产业竞争力,具体表现为创造有价值产品的产业增加值。而制约产业增加值的约束条件又分为两类:硬竞争力和软竞争力。在该模型中他把硬要素比作弓,把软要素比作炫,把城市产业比作箭,这三者彼此相互作用和影响,形成了城市竞争力,指出弓弦质量越好,搭配的越恰当,所形成的力就会越大,产业箭射的就会越远,获得价值也就越大。
28
图4.5 城市竞争力“弓弦模型”
总的来看,国内的城市竞争力模型均着眼于城市的整体竞争能力,力求能够全面的反映城市竞争力而建立了较为复杂的城市竞争力模型,进而构建了更为复杂的指标体系。但由于指标过多,特别是一些软指标需要进行问卷调查和专家评估,也就使得资料采集比较困难而且易受专家的主观影响,并且对数据的整理和分析的难度也较大。 4.1.3 城市竞争力评价体系研究综述
城市竞争力是个综合的概念,许多学者或机构就到底用什么指标来衡量它也进行了相关研究。从国内来说,南开大学的郝寿义教授(1999)选择综合经济实力、资金实力、开放程度、人才及科技水平、管理水平和基础设施六个方面共21原始指标或生成统计指标组成了城市竞争力评价指体系,其中人才及科技水平由城市所拥有的人才数量和在科技上得资金投入量来衡量;蔡旭初(2002)从城市竞争力的影响因素出发,从总体经济实力、国际化程度、城市基础设施、集散能力、政府作用、管理绩效、科技开发、人力资本投入、生活质量这几个要素构建城市竞争力的评价体系;寇亚辉(2007)在从城市资源聚集力、价值创造和实现力和居民生活质量提高力三个方面构成城市竞争力的评价模型;高铭(2012)在其硕士论文《石家庄城市竞争力的综合评价》中,结合实际情况,考虑资料的可获得性,选取了城市综合经济实力、人力资本要素和基础设施与服务设施3个一级指标,下设16个二级指标。
目前,国内外比较典型的关于城市竞争力的指标评价体系如表4.1所示。
29
表4.1 国内外典型的城市竞争力评价指标体系
代表性体系 指标系统 WEF-IMD“国际竞争力理论” 理论体系 国内经济实力、国际化程度、政府作用、金融环境、基础设施、企业管理、科学技术和市民素质 城市实力系统、城市能力系统、城市活力系统、 城市潜力系统 总量指标、质量指标、流量指标 IUD的城市竞争力评价指标体系 上海社会科学院的城市综合竞争力比较指标体系 从上述城市竞争力的指标体系中,不同的研究者从自身对城市竞争力理解的基础出发,重点关注城市竞争力的一个或几个方面,建立了一系列的评价模型和指标体系。但是由于该领域研究的时间不长,学术力量对此关注的较晚,加上这方面的研究涉及多种学科,所以上述模型仍缺乏全面,测算指标体系缺乏理论基础,有关城市竞争力的研究还有待于深入,有关城市竞争力的指标体系还有待于慢慢完善。
4.2 城市竞争力指标选取
4.2.1 城市竞争力评价指标选取的原则
如前文所述,城市竞争力是一个综合的概念,影响因素较多,因此在研究城市竞争力时,建立一套合理、科学、可比较的城市竞争力评价指标体系显得尤为重要。一般在建立指标体系时应遵循以下基本原则:
(1)科学性。指标的选取要与城市的发展要素紧密相关,数据的获取和计算要有一定的科学依据。
(2)动态性。在经济全球化迸程中,随着经济环境不断变化发展中,城市竞争力指标体系也有进一步修正和完善的必要。
(3)可比性。竞争是界定在城市之间,评价指标的设计在相互之间能够比较,在众多城市之中的横向比较,同一城市在不同时期的纵向比较。
(4)灵活可操作性。设计的指标一方面要便于获得,另一方面要容易量化。
30
4.2.2 我国15个副省级城市竞争力评价指标体系
在参考国内外比较有代表性的城市竞争力评价指标体系的基础上,按照上述原则,结合数据的可获得原则和可靠性原则,以《中国统计年鉴》、《中国城市统计年鉴》、《中国经济与社会发展统计数据库》的数据为基础,选取了7个一级评价指标,下设18个二级评价指标,具体如表4.2所示:
表4.2 本文选取的城市竞争力综合评价指标体系
一级指标 二级指标 GDP总量 单位 亿元 % 元 % % 家 人 万元 万人 家 册/百人 公顷 万元 万元 亿元 亿元 % 亿美元 综合经济实力 GDP增长率 人均GDP 经济结构 第二产业占GDP比重 第三产业占GDP比重 高新技术企业数量 高新技术从业人数 高新技术企业总产值 普通高等学校在校学生人数 医院、卫生院的数量 公共图书馆藏书 城市绿化覆盖面积 环境卫生设施建设固定资产投资额 环境污染治理投资额 地方财政预算内收入 科技教育实力 卫生文化设施 城市绿化与环境 政府管控能力 对外开放程度 地方财政预算内支出 政府登记失业率 实际利用外资额 在城市竞争力聚类分析中,竞争力存在着随时间动态变化过程,仅仅固定在某一年度的截面数据分析就显得有失偏颇,如果根据一个较长时期的面板数据进行聚类分析则显得较为合理。因此,我们选取了15个副省级城市2002-2011年近10年的上述18个二级指标的数据进行聚类分析。(具体数据见附录1)
31
4.3 聚类分析
4.3.1基于主成分分析的聚类 (1)主成分分析的基本理论
主成分分析的基本思想是降维,是在尽可能多地保留原始变量信息的条件下,将多个指标转化为少数几个综合性指标的多元统计分析方法。将转化得到的综合性指标称之为主成分,它们是原始变量的线性组合,且各主成分之间互不相关。在解决复杂问题时我们可以只考虑少数几个主成分,从而能够更容易地抓住问题的主要矛盾,揭示内部变量间的规律,同时使得问题简化,提高分析和解决问题的效率。
设原始数据样本矩阵为:
?x11?x21X???...??xn1?x12x22...xn2...x1p?...x2p?? (4-1) ......??...xnp??其中,n为样本数,p为指标数。利用 p个指标的 n个样本,构造出m个新变量。要求在m个新变量中,包含p个变量的所有信息,同时m个变量之间互不相关,将 m个新变量定义为:
?z1?a11x1?a12x2?...?a1pxp?z?ax?ax?...?ax?22112222pp (4-2) ?...???zm?am1x1?am2x2?...?ampxp在上式中,z1是原始变量的线性组合,并且新变量之间相互独立。z1是
x1,x2,...,xp所有线性组合中具有最大方差者,z2是与z1不相关的x1,x2,...,xp所有线性组合中具有最大方差者,zm是与z1,z2,...,zm?1都不相关的x1,x2,...,xp所有线性组合中具有最大方差者。新变量z1,z2,...,zm为原始变量的第一、第二,?,第 m 主成分。
主成分分析的重点是确定原始变量对新变量zj的系数 aij,aij就是原始变
32
量相关矩阵的前m 个具有较大特征值对应的特征向量,zj的方差则是相应的特征根?i。一般认为,当前k个主成分的累计贡献率达到 85%,前k个主成分基本上就包含了全部指标数据的信息,主成分个数就选择为 k。 2. 主成分分析在统计软件 SPSS 中的运用
本文利用 SPSS 统计软件中的主成分分析法对数据进行处理,具体步骤主要包括:①指标数据的标准化;②求指标数据的相关矩阵;③计算特征根与相应的标准正交特征向量;④计算主成分的贡献率和累计贡献率;⑤确定主成分个数;⑥计算主成分。
通过 SPSS 统计软件对指标数据进行主成分分析处理,以下以2002年的数据为例,得到表4.3和表4.4。
表4.3 解释的总方差 成份 合计 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 5.762 4.070 1.740 1.586 1.525 1.064 .721 .621 .361 .238 .175 .113 .016 .007 3.764E-16 2.215E-16 2.326E-17 -7.674E-16 初始特征值 方差的 % 32.012 22.612 9.666 8.813 8.473 5.911 4.006 3.450 2.007 1.323 .973 .626 .091 .039 2.091E-15 1.231E-15 1.292E-16 -4.263E-15 累积 % 32.012 54.624 64.290 73.102 81.575 87.486 91.492 94.942 96.949 98.271 99.244 99.870 99.961 100.000 100.000 100.000 100.000 100.000 合计 5.762 4.070 1.740 1.586 1.525 1.064 提取平方和载入 方差的 % 32.012 22.612 9.666 8.813 8.473 5.911 累积 % 32.012 54.624 64.290 73.102 81.575 87.486 33
表4.4 成份矩阵a表
1
Zscore: GDP总量(亿元) Zscore: GDP增长率(%) Zscore: 第二产业占GDP比重(%) Zscore: 第三产业占GDP比重(%)
Zscore: 人均GDP(元) Zscore: 高新技术企业数量(个) Zscore: 高新技术从业人数(人)
.753 .361 .338 -.192 .735 -.334 -.378
2 .479 -.653 -.817 .838 -.487 .397 .452 .038 .802 .264 .140 .325
3
成份
4 -.056 -.011 -.059 .066 .013 -.539 .014 .197 -.075 .616 .143 .051
5 .064 .465 -.231 .277 .003 .431 .176 -.127 -.312 .161 -.219 .254
6 -.296 -.070 .103 .048 .139 .163 -.041 .307 .172 .138 .617 -.099
-.224 .096 .317 -.122 -.268 .260 .709 .679 .075 -.164 -.026 .024
Zscore: 高新技术企业总产值(万元) .545 Zscore: 普通高等学校在校学生人数
(万人)
Zscore: 医院、卫生院数量(个) Zscore: 公共图书馆藏书(册/百人) Zscore: 城市绿化覆盖面积(公顷) Zscore: 环境卫生设施建设固定资产
.633
投资额(万元)
Zscore: 环境污染治理投资额(万元) -.281 Zscore(地方财政预算内收入(亿元)) Zscore(地方财政预算内支出(亿元))
Zscore: 实际利用
-.119
外资额(万美元) Zscore: 政府登记失业率(%)
-.369
34
-.313 -.420 .682 .890
.610 -.007 .083 -.283 .034
-.065 .302 .320
-.184 -.008 -.145
.776 -.064 -.034
.331 .097 .173
.127 .079 -.210
.935 .887
.178 .006 .193 -.685 -.383
.049 -.610 -.429 -.089 .403
表4.3中,列出了所有的主成分,按照特征根从大到小进行排序,我们可以得到:第一主成分F1的特征根为5.762,能够反映2002年城市竞争力的32.012%的信息;第二主成分F2的特征根为4.070,能够反映2002年城市竞争力的22.612%的信息;第三主成分F3的特征根为1.740,能够反映2002年城市竞争力的9.666%的信息;第四主成分F4的特征根为1.586,能够反映2002年城市竞争力的8.813%的信息;第五主成分F3的特征根为1.525,能够反映2002年城市竞争力的8.473%的信息;第六主成分F6的特征根为1.064,能够反映2002年城市竞争力的5.911%的信息;经过主成分分析可得,前六个主成分指标能够反映2002年城市竞争力的87.486%的信息。此时,认为反映2002年各副省级城市的竞争力情况的指标可以用这六个主成分指标来代替。
表4.4是成分得分系数矩阵,通过成分得分系数矩阵我们可以将前六个主成分表示为各个指标变量的线性组合,将18个二级指标分别用x1~x18来表示,则第一主成分F1可以如下表示:
F1?0.753x1?0.361x2?0.338x3?0.192x4?0.735x5?0.334x6 ?0.378x7?0.545x8?0.313x9?0.42x10?0.682x11?0.89x12 +0.633x13?0.281x14?0.935x15?0.887x16?0.119x17?0.369x18
同理,F2、F3、F4、F5、F6也可以表示成x1~x18的线性表达式,且彼此不相关。 另外,根据表 中个主成分的特征根,可以得到综合指标F的表达式。
F?5.762F1?4.070F2?1.740F3?1.586F4?1.525F5?1.064F6(4-3)
表4.5 2002年15个副省级城市的6个主成分数值
根据原始数据,进一步可得到如下的表4.5。
哈尔滨 长春 沈阳 大连 济南 青岛 南京 杭州 宁波 F1 -2.41652 -4.16558 -1.97108 -1.45342 -3.77869 0.156153 2.579297 0.766543 -3.44692 F2 -1.92983 0.552486 -0.43834 -1.73584 -0.63198 -0.93854 3.119229 0.791929 -1.97154 F3 -0.99772 1.966457 -2.27333 -0.25384 -0.94453 0.539897 0.422407 -1.25805 -1.36365 35
F4 1.222214 1.747287 -1.545 -1.475 3.635241 -0.45208 -0.11087 -0.48292 -1.0817 F5 -0.02831 0.156581 1.031304 0.657187 0.96543 0.957488 -3.55634 -1.09094 0.522479 F6 -0.28402 -0.95568 1.831853 -0.09315 1.208125 -0.69691 1.394102 0.084786 -1.86323
厦门 广州 深圳 武汉 西安 成都 -1.70056 11.78703 12.70035 -2.00397 -4.93167 -2.121 -5.76355 2.719294 1.219541 1.925951 1.585927 1.495257 -0.43759 -0.9857 2.768995 0.122132 2.894567 -0.20006 0.310951 -0.90035 1.22705 -1.31067 -2.20673 1.42258 0.668165 -0.2013 1.762459 -1.63864 1.71784 -1.92341 0.317876 -1.21342 0.508371 0.714527 0.388728 -1.34197 根据式(4-3)可以进一步得到表4.6。
表4.6 2002年15个副省级城市的综合主成分F数值
城市 哈尔滨 长春 沈阳 大连 济南 青岛 南京 杭州 F 城市 -21.9214 宁波 -16.3387 厦门 -16.0255 广州 -17.3174 深圳 -1.97903 武汉 24.17624 西安 3.111584 成都 -33.1594 F -32.1673 74.24325 88.13575 -7.31316 -17.3916 -8.58844 -32.1673 这样,2002年的15个副省级城市的综合指标得分就得到了,以此类推,2002年-2011年10年的情况如下表4.7所示。
表4.7 2002-2011年15个副省级城市的综合主成分F数值
哈尔滨 长春 沈阳 大连 济南 青岛 南京 杭州 2002 -21.9214 -16.3387 -16.0255 -17.3174 -17.4653 -1.97903 24.17624 3.111584 2003 -29.9653 -38.0434 -25.7234 -16.4953 -20.627 -1.80748 21.45519 16.63651 2004 -43.0204 -42.5206 -26.9287 -20.899 -38.7337 -3.11491 48.97847 6.717851 2005 -26.4305 -41.2245 -18.5155 -14.0889 -22.795 -7.56592 27.48473 3.030876 2006 -29.1232 -54.5346 -23.9894 -6.25368 -26.6808 -19.8719 23.32308 -2.11451 36
2007 -48.6086 -25.3643 -14.6138 6.646864 -36.211 -5.69647 19.54983 -0.57686 2008 -41.3758 -43.8646 -25.6188 - 19.82 -37.5685 -0.09332 51.47662 4.515102 2009 -38.6331 -56.0701 -18.5622 -7.29649 - 30.09 -29.8807 27.68053 3.25151 2010 -37.5515 -50.8681 -18.6511 -8.82807 -20.4643 -30.4425 19.47852 11.84106 2011 -43.2725 -55.9795 -19.637 -3.89841 -17.3792 -31.3652 21.89846 14.59898
宁-波 33.15厦门 广州 深圳 武汉 西安 成都 94 -32.1673 74.24325 88.13575 -7.31316 -17.3916 -8.58844 -8.96142 -7.15594 91.61706 113.0061 -25.1257 -52.3577 -16.4522 -12.3895 -34.7353 103.0475 128.268 -10.9834 - 41.39 -12.2965 -23.6862 -51.0339 101.2727 117.4347 -7.29136 -21.973 -14.6179 -22.1358 -46.9421 112.3856 131.8105 -2.84192 -19.5774 -13.4536 -5.70159 -32.1259 87.44332 111.2257 -19.3783 -17.7969 -18.7916 -13.5248 -35.3553 99.56671 127.1972 -11.2905 -41.5761 -12.6681 -40.9502 -59.1215 129.2113 118.1517 6.80497 -18.745 14.24947 -60.0248 -65.2616 130.9375 85.18206 22.40239 -10.3158 32.56651 -57.444 -59.538 131.6238 91.74085 25.0186 -14.7323 18.36558 至此,主成分提取部分完成,将表4.7导入SPSS,进行聚类,采用系统聚类中的质心方法,得到聚类结果如图4.6所示。
图4.6 系统聚类结果树状图
37
从图4.6中可以看出,这15个副省级城市可以归为三类,对应于其编号,得到第一类城市:广州、深圳;第二类城市:南京、杭州、武汉、成都;第三类城市:哈尔滨、长春、沈阳、厦门、济南、青岛、宁波、西安、大连。 另外采用k-means方法进行聚类,可以得到表4.8,根据对应的编号,可以得出其结果与系统聚类结果完全一致。
表4.8 k-means方法聚类结果
4.3.2 基于指标距离求和的聚类
指标距离求和法是在指定时间上,将横截面个体间每个指标间的距离看作是等价的,将所有指标间距离求和作为度量横截面个体间相似性的指标。例如,郑兵云(2008)定义了横截面i和j的欧式距离:
2?ss2?d(i,j)????(Xi,t?Xj,t)?,i,j?1,2,?t?1s?1?Tp1,N(4-4)
除此之外,李因果和何晓群(2010)在上述的欧式距离中,还考虑加入横截面个体在时间变化上的距离和“变异系数”距离。其形式如下:
(4-5) 38
1ps1psssssss其中Yi,t=DXi,t/DXi,t-1,DXi,t=Xi,t-Xi,t-1,Zi,t=X/si,t,X=?Xi,t,si,t=?(Xis,t-X*i,t)ps=1ps=1
*i,t*i,t2上述第二个求和项就是横截面个体在时间变化上的距离,第三个求和项就是
“变异系数”距离。
鉴于技术手段限制,此处采用(4-4)定义的欧式距离作为度量横截面个体间相似性的指标。则所有样本之间的距离就形成了如下的对称的距离矩阵:
0d12d210......dN1dN2...d1N...d2N (4-6)
.........0另外,作为面板数据,时间维度的影响很大,时间越靠近当前,其对结果的影响程度也越大,因此在计算过程需要对时间进行权重的分配。具体的分配方法是第t个时间段的权重为, t/?t?t?1,2,...,T?,用matlab软件进行编程
t?1T后(具体程序代码见附录2),运行的结果如表4.9所示:
表4.9 最终的对称距离矩阵
再进一步调用matlab中 cluster函数进行聚类,得到如图4.7聚类结果:
39
图4.7 系统聚类结果树状图
从图4.7中可以看出,这15个副省级城市可以归为三类,对应于其编号,得到第一类城市:深圳;第二类城市:广州;第三类城市:其他13个城市。
此时可以看到基于指标距离求和的聚类结果并不理想,且类别间的差异并不大,聚类也失去了意义。 4.3.2 基于概率连接函数的聚类
重心系统聚类法的原理是将两个类中样品(横截面个体)重心间的判别聚类或者相似性指标定义为这两个类之间的判别距离。因此基于概率连接函数的重心系统聚类法就是将两个类中横截面个体重心间的概率连接函数定义为这两个类之间的判别距离。假设在整个面板数据中N个横截面个体已经被分为m个类:其中类Ck中有Nk个横截面个体,类Cl中有Nl个横截面个体。那么在t时刻,类Ck中横截面个体的重心为Xk,t(具体定义见前面),类Cl中横截面个体的重心为Xl,t。
为了简化计算,假设15个副省级城市竞争力的面板数据中横截面个体互不相关。此时,如果类Ck和类Cl合并为一个新类Cr,即Cr?Ck?Cl,那么在任意时刻t类Ck和Cl中横截面个体的p维随机变量都独立分布于一个多元正态分
?Xj,t?Cr,X,jt~N??,r,t?r布。则有:?k,t??l,t??r,且?。 t?k??l??r,即
40
据此可知:Xk,t~N?r,t,?Nk???1?r?且Xl,t~N?r,t,?Nl???1?r?。根据横截面个
(4-7)
体互不相关情况下概率连接函数的定义,则Xk,t与Xl,t之间的马氏距离为:
?r(Xk,t,Xl,t)?
NkNl?1(Xk,t?Xl,t)??r(Xk,t?Xl,t)~?2?p?Nk?Nl由式(4-8)可得类Ck中横截面个体重心与类Cl中横截面个体重心间的概率连接函数D0?k,l?,其定义如下:
D0?k,l???atP??rXk,t,Xl,t??rxk,t,xl,t? (4-8)
??t?1T????进一步可得:
D0?k,l???at?p2??rxk,t,xl,t? (4-9)
??t?1T??D0?k,l?就可以看作是度量类Ck与Cl间相似性的概率连接函数。因此,有D0?k,l?的估计D0?k,l?如下:
D0?k,l???atP??rXk,t,Xl,t??rxk,t,xl,t? (4-10) ??t?1T????由此可知将D0?k,l?作为类Ck与类Cl间的判别距离,度量类与类之间的相似度。根据概率连接函数的性质,可知当D0?k,l?越小,越接近0,则类Ck与类
Cl间相似度越大,类Ck与类Cl就越有可能被合并成一类。
利用matlab进行编程(具体程序代码见附录3),得到基于重心的系统聚类结果如图4.8所示。
41
图4.8 基于概率连接函数的重心法系统聚类结果树状图
从图4.8中可以看出,这15个副省级城市可以归为三类,对应于其编号,得到第一类城市:广州、深圳;第二类城市:哈尔滨、沈阳、济南、南京、杭州、武汉、成都、西安、大连;第三类城市:长春、青岛、宁波、厦门。
4.4 结果分析
根据4.3节分别运用三种不同的多指标面板数据的聚类方法(基于主成分分析的方法、基于指标距离求和的方法、基于概率连接函数的方法)得出的聚类结果,综合考量后可以大致将我国15个副省级城市按照综合竞争力分成四类,如下表4.10所示:
表4.10 按照综合竞争力进行聚类后分为四类的结果
类别 第Ⅰ类 第Ⅱ类 第Ⅲ类 第Ⅳ类 42
城市 广州、深圳 南京、杭州、武汉、成都 哈尔滨、沈阳、济南、西安、大连 青岛、长春、宁波、厦门 参照《2012年中国城市竞争力蓝皮书:中国城市竞争力报告》和《2012年中国城市竞争力排行榜》,我们认为表4.10得出的结果与现实情况还是比较吻合的,也说明了这三种处理多指标面板数据的方法还是比较合理的。显然,此处类别越高,则其综合竞争力越强:
即综合竞争力:第Ⅰ类 > 第Ⅱ类 > 第Ⅲ类 > 第Ⅳ类。
再返回原始数据(见附录1),寻找各类之间的差异,可以得到以下: 结论:
(1)第Ⅰ类城市(广州、深圳):在经济指标方面(尤其是GDP、人均GDP)、政府管控能力方面(地方财政预算收入和支出、就业率)、高新科技产业指标方面(高新技术企业数量、从业人员、总产值)等全方位领先; (2)第Ⅱ类城市(南京、杭州、武汉、成都):经济结构比较合理、科技教育实力方面(高新技术企业数量,普通高等学校在校人数)突出,在城市基础设施方面(医院、公共藏书、环境设施等)比较完善。
(3)第Ⅲ类城市(哈尔滨、沈阳、济南、西安、大连):整体发展比较均衡,没有特别突出的指标,也没有特别落后的指标。
(4)第Ⅳ类城市(青岛、长春、宁波、厦门):较之第Ⅰ、Ⅱ类城市,该类城市的经济产业结构不够合理(第二产业产值占GDP总量 > 第三产业产值占GDP总量 ),科技教育实力(高新技术企业数量、从业人员、总产值,通高等学校在校人数)较低,吸引外资能力(实际利用外资额)不足。
建议:
(1)第Ⅰ类城市(广州、深圳):要保持既有的竞争优势,在此基础上要注意发展经济的同时保护环境,进一步加大高新技术开发和环境卫生等基础设施的投入,为更多企业和人才提供更好的经济政策环境以及自然环境。 (2)第Ⅱ类城市(南京、杭州、武汉、成都):要发现与第Ⅰ类城市的差距,要充分利用自身的优势,进一步扩大开放程度,吸引更多的国内外投资。 (3)第Ⅲ类城市(哈尔滨、沈阳、济南、西安、大连):要在兼顾全面发展的同时,注重培养突出的竞争优势。
(4)第Ⅳ类城市(青岛、长春、宁波、厦门):要全方位认识到自身发展的不足之处,加快产业转型,扩大高等教育和高新技术投入,提高投资吸引力。
43
5 结论与展望 5.1 结论
本文着眼于多指标面板数据的聚类分析,探讨了三种处理多指标面板数据聚类问题的思路,重点探讨了采用何种统计量作为多指标面板数据中横截面个体之间的相似性指标的问题。并将这三种方法运用到解决实际问题中来,选取我国15个副省级城市的综合竞争力作为研究对象,以2002-2011共10年的数据为面板数据,分别进行了聚类分析。主要工作与结论有以下几点: (1)针对多指标面板数据的聚类分析问题,一般研究人员都是做“退化处理”(例如直接对时间序列求均值、取中位数等),而文中提出了三种处理思路,具有一定的参考借鉴意义。
(2)运用科学定量化的手段,针对我国15个副省级城市的综合竞争力,建立了一套评价体系,并运用三种方法分别进行了系统聚类分析,得出的结果与现实情况比较吻合。
5.2 不足与展望
由于时间和精力等一些客观条件的限制,加上小组成员水平有限,本文存在一些不足之处在所难免。综合考虑,主要体现在以下几点:
(1)基于指标距离求和的方法,在案例应用中,由于matlab编程水平的限制,忽略了截面个体在时间变化上的距离和“变异系数”距离,导致得出的结果不是很理想,未能修正;
(2)基于概率连接函数的方法,只探讨了横截面个体互不相关时的情况,没有进一步研究在横截面个体相关时的概率连接函数。
(3)案例部分,在选取城市综合竞争力评价指标时:①由于数据获取渠道有限,加上数据量过大会导致处理过于复杂的考虑,以至于我们最终只选取了7个一级指标和18个二级指标,而根据蓝皮书和文献等资料可以知道这些指标不足以全面合理地评价一个城市的综合竞争力;②选取的指标相互之间存在着一定的相关性,在处理过程中没有考虑。
(4)三种方法聚类出来的结果还是有不小差异,甚至存在一些不合理的地方,没有能够进一步分析这种差异和不合理的原因所在。
以上不足,在以后的相关研究中有待于进一步深入探讨。
44
主要参考文献
[1]贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述.计算机应用研究.2007(1). [2]马飞.数据挖掘中的聚类算法研究[D].南京:南京理工大学,2008. [3]李仁义.数据挖掘中的聚类分析算法的研究与应用[D].西安:电子科技
大学,2012.
[4] V.Ganti, J.E.Gehrke.CACTUS-clustering categorical data using summaries. In
Proc.1999 Int.Conf.Knowledge Discovery and Data Mining, San Diego, CA, 1999.
[5]朱建平,陈民恳.面板数据的聚类分析及其应用[J].统计研究,2007(4). [6]郑兵云.多指标面板数据的聚类分析及其应用[J]. 数理统计与管理,2008(2). [7]肖泽磊,李帮义,刘思峰.基于多维面板数据的聚类方法探析及实证研究[J]. 数理统计与管理,2009(5).
[8]李因果,何晓群.面板数据聚类方法及应用[J]. 统计研究,2010(9). [9]任娟.多指标面板数据聚类方法及其应用[J].统计与决策,2012(4):92-95. [10]Bonzo D C. A stochastic clustering algorithm for panel data with applications to
polling [J]. Philippine Statistician, 1998:1-9.
[11]Bonzo D C, Hermosilla AY. Clustering panel data via perturbed adaptive
simulated annealing and genetic algorithms [J]. Advances in Complex system, 2002(4).
[12]Zhao Weiya, Hang Yin. Method and application of system clustering analysis for
panel data via probability link function[C]. Proceedings of International Symposium on Statistic and Management Science, 2010:356-360. [13]M.Porter. The Competitive Advantage of Nations. The Free Press, 1990. [14]姜杰,张喜民,王在勇.城市竞争力[M].济南:山东人民出版社,2003.
[15]赵富强.基于城市竞争力的城市经营理论研究[D].武汉:武汉理工大学,2004. [16]吴峥嵘.开发区综合竞争力评价指标体系研究[D].上海:同济大学,2004. [17]刘卿.城市竞争力评价指标体系和评价方法研究[D].天津:天津大学,2006. [18]数据挖掘常用聚类算法.http://bidwhome.itpub.net/post/2087/156213. [19]中华人民共和国国家统计局.http://www.stats.gov.cn/.
[20]中国经济与社会发展统计数据库.http://tongji.cnki.net/kns55/index.aspx. [21]国泰安数据库. http://www.gtadata.cn/p/user/home.aspx.
45
正在阅读:
多指标面板数据的聚类分析研究09-21
职位说明书08-27
坐飞机作文600字06-16
曾都区尚市国土资源所(工作总结)03-20
关于公布青州市初中英语课堂教学暨才艺展展评活动获奖名单的通知01-18
天干地支藏干十神表11-22
工程经济学作业05-30
(目录)2018-2023年中国磨边倒角机行业市场与投资规划分析报告05-20
2017最新签名(三篇)02-15
谁说我不行作文350字07-13
- XX大型商场全年度营销策划活动方案规划商业计划书
- 遗传学课后习题答案
- 2015年浙江会计从业资格无纸化考试最新考试大纲《会计电算化》第3章 会计软件的应用-浙江财会网
- 机场值机内部考核题
- 小学英语作业设计与命题
- 射线检测二级试题
- 部编版小学语文一年级上册 3.口耳目(导学案)
- 新能源车辆使用 GPS定位
- 电动玩具车控制器设计
- HeinOnline 数据库介绍及使用指南
- 地理专题练习 - 等高线图之一
- 高中语文经典话题作文题写作指导融合
- 微生物学名词解释及习题
- 全国市级联考河南省信阳市2018届九年级下学期中考模拟语文试题(解析版)
- 中国历史上中华民族四次大融合时期都有哪些?
- 电力电子技术MATLAB仿真实验报告 - 图文
- qq空间说说早安心语经典小清新短语优美的图片
- 北京一零一中初二物理第二学期期中考试(北师大版) - 图文
- 京信大功率femto设备(AU+RRU)系统开通简易指导手册
- 灵南小学第6届秩序册正式版888(1)