多指标面板数据的聚类分析研究

更新时间:2024-05-22 01:09:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

管理信息系统课程小组作业

多指标面板数据的聚类分析研究

——以我国15个副省级城市综合竞争力评价为例

小组组长:XXXXX 小组成员:XXXXX

XXXXX

完成时间: 指导教师: 徐德华

1

目 录

1 选题背景与意义 ................................................................ 4 2 聚类分析与聚类算法 .......................................................... 5

2.1 聚类分析 ............................................................. 5

2.1.1 相关概念与定义 ................................................................................. 5 2.1.2 相似度计量模型 ................................................................................. 5 2.2 聚类算法 ............................................................. 7

2.2.1 传统聚类算法及其比较 ........................................................................ 7 2.2.2 扩展聚类算法 ................................................................................... 13

3 面板数据及其聚类方法 ..................................................... 15

3.1 面板数据概述 ........................................................ 15

3.1.1 概念及发展 ...................................................................................... 15 3.1.2 面板数据的特点 ............................................................................... 15 3.1.3 面板数据的分析处理方法 .................................................................. 16 3.2 单指标面板数据的数据形式和聚类分析方法 .............................. 16 3.3 多指标面板数据的数据形式和聚类分析方法 .............................. 17

3.3.1 多指标面板数据的数据形式 ............................................................... 17 3.3.2 常见的多指标面板数据聚类分析方法 .................................................. 17

4 实证研究 ........................................................................ 23

4.1 城市竞争力研究综述 .................................................. 23

4.1.1 城市竞争力内涵研究综述 .................................................................. 24 4.1.2 城市竞争力模型研究综述 .................................................................. 26 4.1.3 城市竞争力评价体系研究综述 ............................................................ 29

2

4.2 城市竞争力指标选取 .................................................. 30

4.2.1 城市竞争力评价指标选取的原则 ......................................................... 30 4.2.2 我国15个副省级城市竞争力评价指标体系 .......................................... 31 4.3 聚类分析 ............................................................ 32

4.3.1 基于主成分分析的聚类 ...................................................................... 32 4.3.2 基于指标距离求和的聚类 .................................................................. 38 4.3.2 基于概率连接函数的聚类 .................................................................. 40 4.4 结果分析 ............................................................ 42

5 结论与展望 ..................................................................... 44

5.1 结论…………………………………………………………………………………………………………44 5.2 不足与展望 .......................................................... 44

主要参考文献 ..................................................................... 45 附录 .................................................................................. 46

附录1……………………………………………………………………………………………………………46 附录2……………………………………………………………………………………………………………46 附录3……………………………………………………………………………………………………………48

3

1 选题背景与意义

面板数据(Panel Data)作为截面数据与时间序列数据的组合数据集,同时体现了空间维度和时间维度的数字特征,克服了时间序列数据多重共线性、数据量不足等困扰,逐渐发展成为现代计量经济学领域统计分析与统计研究的重要方法和工具。运用多元统计方法对面板数据进行聚类分析是统计学的新兴研究领域。

聚类分析作为一种数据挖掘手段,已被广泛地应用在许多领域中,包括模式识别、数据分析、图像处理、市场研究、管理评价等。传统的聚类分析对象一般是固定时期的不同个体截面数据,二维数据聚类分析往往不能满足人们分析问题的需要,而且基于单一的固定时期的聚类分析往往抹杀了指标的动态发展趋势及其发展状态,无法预测其未来发展轨迹和所属类别。例如:在城市竞争力聚类分析中,竞争力存在着随时间动态变化过程,仅仅固定在某一年度的截面数据分析就显得有失偏颇,如果根据一个较长时期的面板数据进行聚类分析则显得较为合理。

城市竞争力是国内近年来正在兴起的一个新课题,目前处于起步研究阶段,还未形成公认的完整体系。经济全球化,知识经济时代的到来,促使我国城市必须进行转型改革,走上新型的发展道路。我国现阶段的城市要从建设城市转向管理和经营城市,就是要重塑城市资源整合和配置资源机制,提高城市对社会资源的吸引力和创造社会财富的能力,从根本上就是提高城市竞争力。城市竞争力评价是典型的综合评价,在不同的评价体系下有不同的指标指标,而且必须考虑时间因素,因此相关的数据就是典型的多指标面板数据。

1994年5月,经中央机构编制委员会第6次会议通过,决定将原来的14个计划单列市和杭州、济南2市正式确定为副省级市(其中,重庆市97年恢复直辖)。将这15个城市定为副省级市,是中央对于区域经济发展的重要决策,加强了省级机构统筹规划和协调的地位和作用,不仅有利于加快这些城市的经济与社会发展,而且有利于更好的发挥这些中心城市的辐射作用。在国家政策层面和经济决策权待遇同等的情况下,经过20年,这15个副省级城市的发展出现了很大差异,城市竞争力也日趋呈现差异化。鉴于此,我们小组决定利用多指标面板数据的聚类方法对此进行探析,一方面介绍面板数据的一些处理思路,另一方面通过聚类寻找15个城市类别之间的差异,以提出相关建议。

4

2 聚类分析与聚类算法 2.1 聚类分析

2.1.1 相关概念与定义

聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种方法,其目的是将有限个无标注数据划分到有限个离散的组或类中,发现数据隐藏的内部结构。聚类分析是数据挖掘的一种重要手段,是一种无监督的模式分类方法,在分类时只依赖对象自身所具有的属性来区分对象之间的相似程度。聚类分析作为一种有效的数据分析方法被广泛应用于数据挖掘、机器学习、图像分割、语音识别、生物信息处理等方面。

给定一个对象集合X??x1,x2,,xn?,假设每个对象xi,i?1,,n含有 m 个

特征,在此用向量的方式来表示对象的特征,xi??l1,l2,来获得聚类结果。聚类的结果用C??c1,c2,件:ci??,i?1,,lm?,聚类分析的过

程就是根据对象的特征来分析对象之间的相似程度,并根据某种聚类决策准则

,ck?表示,则聚类结果满足以下条

,k。模糊聚类的结

,k;

ki?1ic?X;ci?cj??,i?j,i,j?1,果没有上面的约束条件,模糊聚类给出的结果只是对象隶属于每个类的程度。

通常聚类分析一般包含四个部分:(1)特征获取与指标选择;(2)计算相似度;(3)聚类分组;(4)结果分析。 2.1.2 相似度计量模型

给定数据矩阵,通常需要通过某种相似度计算模型来计算相似度矩阵。相似性计算模型一般需满足如下三个条件:

(1)非负性:对于任两个对象x和y,有0?s(x,y)?1; (2)对称性:对于任两个对象x和y,有s(x,y)?s(y,x); (3)s(x,x)?1。

相似度的计算依赖于数据的特性,针对不同的数据类型,目前有许多相似度的计算公式,下面列出一些常见的计算公式: (1)数值型数据的相似度

数值型数据的相似度通常利用数据间的距离来构造,可以利用公式

s(x,y)?1d(x,y),s(x,y)?e?d(x,y)或s(x,y)?1?

d(x,y)?1max_d5

经验,如果用户对数据集不熟悉,又或者是数据集为一个高维数据集,这时用户就很难确定参数e和MinPts,而算法参数取得是否得当直接影响最终的聚类效果。该算法对用户定义的参数十分敏感,因此在实际应用中聚类效果较差,往往全局密度参数不能刻画其内在的聚类结构。基于密度的算法一般采用给定特定函数,来减少用户人为给定的参数对最终聚类结果的影响。

2)OPTICS算法

OPTICS算法是通过对象排列识别聚类结构的密度聚类算法,它为自动和交互的聚类分析计算一个簇次序。这个次序代表了数据的基于密度的结构,这个次序的选择根据最小的e值密度可达的对象,以便高密度的聚类能被首先完成,基于这个想法,每个对象需要存储两个值)——核心距离(core—distance)和可达距离(reach ability—distance)。

ⅰ.核心距离:一个对象p的核心距离是使得p成为核心对象的最小e。如果p不是核心对象,p的核心距离没有定义;

ⅱ.可达距离:一个对象q关于另一个对象p的可达距离是p的核心距离和p与q的欧几里得距离之间的较大值。如果p不是一个核心对象。p和q之间的可达距离没有定义。

OPTICS算法创建了数据库中对象的一个次序,额外存储了每个对象的核心距离和一个适当的可达距离,基于产生的次序信息,OPTICS来抽取聚类。 (4)基于网格的方法

基于网格的聚类方法采用多分辨率的网格数据结构,把对象空间量化为有限数目的单元,形成一个网格结构,所有操作都在这个网格结构上进行。这种方法的主要优点是处理速度快,处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。代表性的算法是STING算法和CLIQUE算法。

1)STING(Statistical Information Grid)是基于网格方法的一个非常典型的例子。该算法基于网格的多分辨率聚类技术,它将要聚类的空间区域划分为矩形单元。针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构:高层的每个单元被划分为多个低一层的单元。关于每个网格单元属性的统计信息(例如平均值、最大值、最小值)被预先计算和存储,以便于进行查询处理。

该算法的主要优点是它的网格结构有利于并行处理和增量更新而且效率非常的高,主要不足是由于它采用了一个多分辨率的方法来进行聚类分析,它的聚类的质量取决于网格结构最低层的粒度,如果粒度比较细,处理的代价会显著的增加,但如果最低层的粒度太粗将会降低聚类分析的质量;而且STING在构建一个父亲单元时没有考虑孩子单元和其相邻单元之间的关系,所以其聚类

11

边界只能是水平的或竖直的,没有对角的边界。因此,尽管该技术有快速的处理速度,但可能降低簇的质量和精确性。

2)CLIQUE(Clustering In Quest,自动子空间聚类算法)聚类算法综合了基于密度和基于网格的聚类方法。它对于大型数据库中的高维数据的聚类非常有效。CLIQUE的中心思想如下:

ⅰ.给定一个多维数据点的大集合,数据点在数据空间中通常不是均衡分布的。CLIQUE区分空间中稀疏的和“拥挤的”区域,以发现数据集合的全局分布模式。

ⅱ.如果一个单元中的包含数据点超过了某个输入模型参数,则该单元是密集的。在CLIQUE中,簇定义为相连的密集单元的最大集合。

CLIQUE分两步进行多维聚类:首先,CLIQUE将数据空间中分布不均匀的数据对象,按照n维数据空间划分为互不相交的长方形单元,并识别其中的密集单元,该工作对每一维进行;其次,CLIQUE为每个簇生成最小化的描述。对每个簇,它确定覆盖相连的密集单元的最大区域,然后确定最小的覆盖。

CLIQUE将基于密度和基于网格的算法相结合,它能够自动地发现最高维的子空间,高密度聚类存在于这些子空间中,对元组的输入顺序不敏感,无需假设任何规范的数据分布。它随输入数据的大小线性地扩展。当数据的维数增加时具有良好的可伸缩性。但是。由于方法大大简化。聚类结果的精确性可能会降低。

(5)基于模型的方法

基于模型的方法为每个簇假定一个模型,寻找数据对给定模型的最佳拟合。一个基于模型的算法可能通过构建反映数据点分布的密度函数来定位聚类。基于模型的聚类方法试图优化给定的数据和某些数学模型之间的适应性,这样的方法经常是基于这样的假设:数据是根据潜在的概率分布生成的。基于模型的方法主要分两类:统计学方法和神经网络方法。

大多概念聚类都采用了统计方法,也就是利用概率参数来帮助确定概念或聚类。每个所获得的聚类通常都是通过概率描述来表示的。COBWEB是一个常用并且简单的增量式概念聚类方法。它的输入对象是采用符号量来描述,采用分类树的形式创建一个层次聚类。一个分类树中的一层形成一个划分。

COBWEB是基于属性概率分布相互独立的假设,属性取值多时较难存储和更新聚类。COBWEB另外一个版本是CLASSIT,它可以对连续取值属性进行增量式聚类。这两个方法都不适合对大数据库进行聚类。

神经网络聚类方法是将每个聚类描述成一个例证,每个例证作为聚类的原型。然后根据某种度量,将新的对象分配到最相似的聚类之中。主要的方法有:竞争学习方法和自组织特征映射方法。

12

(6)几种传统聚类算法比较

基于上述的分析,下面对传统聚类方法中的一些常用聚类算法的性能从可伸缩性、发现聚类的形状、对“噪声”的敏感性、对数据输入顺序的敏感性、高维性和算法效率六个方面进行比较,结果如表2.1所示。

表2.1 聚类算法比较

性能 算法 可伸缩性 发现聚类的形状 凸形或 球形 对“噪声”的敏感性 不敏感 对数据输入顺序的 敏感性 非常敏感 敏感 不太敏感 敏感 不敏感 敏感 不太敏感 敏感 高维性 算法效率 CLARANS CURE BIRCH DBSCAN STING COBWEB K-means SOM 好 一般 好 好 一般 好 好 一般 好 较低 较高 高 一般 高 较低 一般 一般 较差 任意形状 不敏感 较差 凸形或 球形 一般 较好 任意形状 不敏感 好 任意形状 不敏感 一般 敏感 敏感 较好 任意形状 较好 球形 较好 任意形状 由表2.1的比较可以看出,现有传统聚类算法在某些方面达到数据挖掘对聚类分析的要求,但是没有哪一种算法是绝对优越的。由于数据挖掘在不同领域的应用对聚类算法提出了各自特殊的要求,我们可以根据具体的要求选择适当的聚类算法。 2.2.2 扩展聚类算法 (1)模糊聚类算法

如果数据对象分布在明显分离的组中,则把对象明确分成不想交的簇是一种理想的方案。然而,在大部分情况下,数据集中的对象不能划分成明显分离的簇。传统聚类把每个样本严格地划分到某一类,随着模糊集理论的提出,传统聚类被推广为模糊聚类。在模糊聚类中,每个样本不再仅仅属于某一类,而是以一定的隶属度属于某一类。通过模糊聚类分析,得到了样本属于各个类别的不确定性程度,即建立起了样本对于类别的不确定性描述。

13

基于目标函数的模糊聚类方法首先由Ruspini提出,但真正有效的算法模糊C均值算法却是由Dunn给出的。Bezdek将其进一步扩展,建立起了模糊聚类理论。 (2)综合聚类算法

现在有很多算法是将不同算法进行综合,以此来获得不同算法的优点。DENCLUE(DENsity-based CLUstEring)就是一个综合了划分方法、层次方法和密度方法的综合方法。该算法主要基于以下理论:

① 每个数据点的影响可以用一个数学函数形式化地模拟,它描述了一个数据点在领域内的影响,被称为影响函数;

② 数据空间的整体密度可以被模型化为所有数据点的影响函数的总和; ③ 聚类可以通过密度吸引点来得到,这里的密度吸引点是全局密度函数的局部最大值。

(3)新的对象的聚类算法

近年来越来越多的应用产生流数据。它不同于传统的存储在磁盘上的静态数据,而是一类新的数据对象,它是连续的、有序的、快速变化的、海量数据。

相应地,流环境下的流聚类问题研究也成为聚类分析中的一个热点。流数据是数据点x1,x2,...,xn的一个有序序列,它只能被顺序访问,而且仅能被扫描一次货有限的几次。数据流是快速变化的,因而对流数据聚类也要能随着时间而不断地进行。流数据是海量且有序的,不可能保证存储整个数据集,只能分析一定范围内的数据,因而要有效地利用有限的空间。

随着人们对面板数据认知的加深,对面板数据的聚类也成为聚类分析中的另一热点。面板数据的有序聚类是难点,如何保证在聚类的过程中,同时保留面板数据的以下三个特征是当前研究的热点:

① 某时期指标发展的绝对水平;

② 特定个体的指标发展的动态水平,即指标随时间变化的增量水平或增速; ③ 特殊个体某项指标发展的协调水平,即指标的变异程度或波动程度。

14

3 面板数据及其聚类方法 3.1 面板数据概述

3.1.1 概念及发展

面板数据,即Panel Data,也叫“平行数据”,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据,也就是把截面数据和时间序列数据融合在一起的一种数据。最早做面板数据收集和研究的是美国,开始于十九世纪六十年代,两个著名的例子一是由米歇根大学的社会研究协会做的关于收入动态的面板研究;二是由俄亥俄州立大学人力资源研究中心和人口普查局所做的劳动力市场经历的国家平行数据调查。欧洲这方面起步相对比较晚,开始于十九世纪八十年代。我国这方面起步则更晚,面板数据的收集还不是很健全。

近20多年来,面板数据模型在计量经济学理论和方法上都取得了重要发展,新方法、新观点层出不穷。在经济分析中,面板数据模型起着只利用截面数据和时间序列数据模型所不可替代的作用,具有很高的应用价值。 3.1.2 面板数据的特点

面板数据从横截面上看,是由若干个体在某一时刻构成的截面观测值,从纵剖面上看则是一个时间序列。面板数据可以用三下标变量表示,例

xijt,i?1,2,N,j,?1,2,mt,?,1,T2, ,N表示面板数据中含有的个体数;m表

示指标变量的总数;T表示时间序列的最大长度。

相对只利用截面数据模型和只利用时间序列数据模型进行经济分析而言,面板数据模型具有许多优点:

第一,减少多重共线性。面板数据通常提供给研究者大量的数据,包含更多的变量,这样就增加了自由度,减少了解释变量之间的共线性。

第二,相对于纯横截面和纯时间序列数据而言,面板数据可以从多种层面分析经济问题。

第三,面板数据能够更好的识别和测量一些效应,而这些效应是单纯的时间序列数据或横截面数据所不能简单觉察的。

第四,控制个体效应。面板数据通常以微观单元来收集,如个人、公司和

15

4.2.2 我国15个副省级城市竞争力评价指标体系

在参考国内外比较有代表性的城市竞争力评价指标体系的基础上,按照上述原则,结合数据的可获得原则和可靠性原则,以《中国统计年鉴》、《中国城市统计年鉴》、《中国经济与社会发展统计数据库》的数据为基础,选取了7个一级评价指标,下设18个二级评价指标,具体如表4.2所示:

表4.2 本文选取的城市竞争力综合评价指标体系

一级指标 二级指标 GDP总量 单位 亿元 % 元 % % 家 人 万元 万人 家 册/百人 公顷 万元 万元 亿元 亿元 % 亿美元 综合经济实力 GDP增长率 人均GDP 经济结构 第二产业占GDP比重 第三产业占GDP比重 高新技术企业数量 高新技术从业人数 高新技术企业总产值 普通高等学校在校学生人数 医院、卫生院的数量 公共图书馆藏书 城市绿化覆盖面积 环境卫生设施建设固定资产投资额 环境污染治理投资额 地方财政预算内收入 科技教育实力 卫生文化设施 城市绿化与环境 政府管控能力 对外开放程度 地方财政预算内支出 政府登记失业率 实际利用外资额 在城市竞争力聚类分析中,竞争力存在着随时间动态变化过程,仅仅固定在某一年度的截面数据分析就显得有失偏颇,如果根据一个较长时期的面板数据进行聚类分析则显得较为合理。因此,我们选取了15个副省级城市2002-2011年近10年的上述18个二级指标的数据进行聚类分析。(具体数据见附录1)

31

4.3 聚类分析

4.3.1基于主成分分析的聚类 (1)主成分分析的基本理论

主成分分析的基本思想是降维,是在尽可能多地保留原始变量信息的条件下,将多个指标转化为少数几个综合性指标的多元统计分析方法。将转化得到的综合性指标称之为主成分,它们是原始变量的线性组合,且各主成分之间互不相关。在解决复杂问题时我们可以只考虑少数几个主成分,从而能够更容易地抓住问题的主要矛盾,揭示内部变量间的规律,同时使得问题简化,提高分析和解决问题的效率。

设原始数据样本矩阵为:

?x11?x21X???...??xn1?x12x22...xn2...x1p?...x2p?? (4-1) ......??...xnp??其中,n为样本数,p为指标数。利用 p个指标的 n个样本,构造出m个新变量。要求在m个新变量中,包含p个变量的所有信息,同时m个变量之间互不相关,将 m个新变量定义为:

?z1?a11x1?a12x2?...?a1pxp?z?ax?ax?...?ax?22112222pp (4-2) ?...???zm?am1x1?am2x2?...?ampxp在上式中,z1是原始变量的线性组合,并且新变量之间相互独立。z1是

x1,x2,...,xp所有线性组合中具有最大方差者,z2是与z1不相关的x1,x2,...,xp所有线性组合中具有最大方差者,zm是与z1,z2,...,zm?1都不相关的x1,x2,...,xp所有线性组合中具有最大方差者。新变量z1,z2,...,zm为原始变量的第一、第二,?,第 m 主成分。

主成分分析的重点是确定原始变量对新变量zj的系数 aij,aij就是原始变

32

量相关矩阵的前m 个具有较大特征值对应的特征向量,zj的方差则是相应的特征根?i。一般认为,当前k个主成分的累计贡献率达到 85%,前k个主成分基本上就包含了全部指标数据的信息,主成分个数就选择为 k。 2. 主成分分析在统计软件 SPSS 中的运用

本文利用 SPSS 统计软件中的主成分分析法对数据进行处理,具体步骤主要包括:①指标数据的标准化;②求指标数据的相关矩阵;③计算特征根与相应的标准正交特征向量;④计算主成分的贡献率和累计贡献率;⑤确定主成分个数;⑥计算主成分。

通过 SPSS 统计软件对指标数据进行主成分分析处理,以下以2002年的数据为例,得到表4.3和表4.4。

表4.3 解释的总方差 成份 合计 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 5.762 4.070 1.740 1.586 1.525 1.064 .721 .621 .361 .238 .175 .113 .016 .007 3.764E-16 2.215E-16 2.326E-17 -7.674E-16 初始特征值 方差的 % 32.012 22.612 9.666 8.813 8.473 5.911 4.006 3.450 2.007 1.323 .973 .626 .091 .039 2.091E-15 1.231E-15 1.292E-16 -4.263E-15 累积 % 32.012 54.624 64.290 73.102 81.575 87.486 91.492 94.942 96.949 98.271 99.244 99.870 99.961 100.000 100.000 100.000 100.000 100.000 合计 5.762 4.070 1.740 1.586 1.525 1.064 提取平方和载入 方差的 % 32.012 22.612 9.666 8.813 8.473 5.911 累积 % 32.012 54.624 64.290 73.102 81.575 87.486 33

表4.4 成份矩阵a表

1

Zscore: GDP总量(亿元) Zscore: GDP增长率(%) Zscore: 第二产业占GDP比重(%) Zscore: 第三产业占GDP比重(%)

Zscore: 人均GDP(元) Zscore: 高新技术企业数量(个) Zscore: 高新技术从业人数(人)

.753 .361 .338 -.192 .735 -.334 -.378

2 .479 -.653 -.817 .838 -.487 .397 .452 .038 .802 .264 .140 .325

3

成份

4 -.056 -.011 -.059 .066 .013 -.539 .014 .197 -.075 .616 .143 .051

5 .064 .465 -.231 .277 .003 .431 .176 -.127 -.312 .161 -.219 .254

6 -.296 -.070 .103 .048 .139 .163 -.041 .307 .172 .138 .617 -.099

-.224 .096 .317 -.122 -.268 .260 .709 .679 .075 -.164 -.026 .024

Zscore: 高新技术企业总产值(万元) .545 Zscore: 普通高等学校在校学生人数

(万人)

Zscore: 医院、卫生院数量(个) Zscore: 公共图书馆藏书(册/百人) Zscore: 城市绿化覆盖面积(公顷) Zscore: 环境卫生设施建设固定资产

.633

投资额(万元)

Zscore: 环境污染治理投资额(万元) -.281 Zscore(地方财政预算内收入(亿元)) Zscore(地方财政预算内支出(亿元))

Zscore: 实际利用

-.119

外资额(万美元) Zscore: 政府登记失业率(%)

-.369

34

-.313 -.420 .682 .890

.610 -.007 .083 -.283 .034

-.065 .302 .320

-.184 -.008 -.145

.776 -.064 -.034

.331 .097 .173

.127 .079 -.210

.935 .887

.178 .006 .193 -.685 -.383

.049 -.610 -.429 -.089 .403

表4.3中,列出了所有的主成分,按照特征根从大到小进行排序,我们可以得到:第一主成分F1的特征根为5.762,能够反映2002年城市竞争力的32.012%的信息;第二主成分F2的特征根为4.070,能够反映2002年城市竞争力的22.612%的信息;第三主成分F3的特征根为1.740,能够反映2002年城市竞争力的9.666%的信息;第四主成分F4的特征根为1.586,能够反映2002年城市竞争力的8.813%的信息;第五主成分F3的特征根为1.525,能够反映2002年城市竞争力的8.473%的信息;第六主成分F6的特征根为1.064,能够反映2002年城市竞争力的5.911%的信息;经过主成分分析可得,前六个主成分指标能够反映2002年城市竞争力的87.486%的信息。此时,认为反映2002年各副省级城市的竞争力情况的指标可以用这六个主成分指标来代替。

表4.4是成分得分系数矩阵,通过成分得分系数矩阵我们可以将前六个主成分表示为各个指标变量的线性组合,将18个二级指标分别用x1~x18来表示,则第一主成分F1可以如下表示:

F1?0.753x1?0.361x2?0.338x3?0.192x4?0.735x5?0.334x6 ?0.378x7?0.545x8?0.313x9?0.42x10?0.682x11?0.89x12 +0.633x13?0.281x14?0.935x15?0.887x16?0.119x17?0.369x18

同理,F2、F3、F4、F5、F6也可以表示成x1~x18的线性表达式,且彼此不相关。 另外,根据表 中个主成分的特征根,可以得到综合指标F的表达式。

F?5.762F1?4.070F2?1.740F3?1.586F4?1.525F5?1.064F6(4-3)

表4.5 2002年15个副省级城市的6个主成分数值

根据原始数据,进一步可得到如下的表4.5。

哈尔滨 长春 沈阳 大连 济南 青岛 南京 杭州 宁波 F1 -2.41652 -4.16558 -1.97108 -1.45342 -3.77869 0.156153 2.579297 0.766543 -3.44692 F2 -1.92983 0.552486 -0.43834 -1.73584 -0.63198 -0.93854 3.119229 0.791929 -1.97154 F3 -0.99772 1.966457 -2.27333 -0.25384 -0.94453 0.539897 0.422407 -1.25805 -1.36365 35

F4 1.222214 1.747287 -1.545 -1.475 3.635241 -0.45208 -0.11087 -0.48292 -1.0817 F5 -0.02831 0.156581 1.031304 0.657187 0.96543 0.957488 -3.55634 -1.09094 0.522479 F6 -0.28402 -0.95568 1.831853 -0.09315 1.208125 -0.69691 1.394102 0.084786 -1.86323

本文来源:https://www.bwwdw.com/article/7v27.html

Top