主成份分析因子分析毕业论文终稿

更新时间:2024-01-24 22:20:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

学科分类号 110

黑龙江科技大学

本科学生毕业论文

题 目 主成分与因子分析对黑龙江 省城市经济发展水平的评价 The principal components and factor analysis of urban economic development level

evaluation of heilongjiang province

姓 名 学 号 院 (系) 理学院 专业、年级 数学与应用数学 指导教师

2014年6月12日

摘 要

经济是指一个国家国民经济的总称。我们要提高某地方人民的生活水平,要更好更快地发展某个地区,就必须充分了解这个地区现有的经济发展状况。因此,现有的经济发展状况研究对将来的发展有着非常重要的指导意义。

主成分分析也称主分量分析,就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子的相互关系,同时根据不同因子还可以对变量进行分类。主成分分析与因子分析都是多元分析中处理降维的一种统计方法。本文通过学习与查阅相关资料找到黑龙江省12个地级市的10个具有代表性指标,运用spss统计分析软件对这些指标进行主成分分析和因子分析得到特征值、方差贡献率及公共因子等相关数据。并利用这些数据对12个市经济水平划分等级。

关键词 主成分分析 因子分析 经济 spss统计分析软件

I

Abstract

Economy refers to the floorboard of the national economy of a country. We will improve the level of a local people's life, to somewhere better and faster development, we must fully understand the current situation of economic development. Therefore, the existing research on the development of future economic development has a very important guiding significance.

Principal component analysis (also called principal component analysis, is to try the original index combined into a new set of several comprehensive index instead of the original index has nothing to do with each other, at the same time, according to the actual need to recommend a few less comprehensive response as much as possible the original information of indicators. Is a generalization of the principal component analysis and factor analysis, it is also will have the intricate relationship between variables comprehensive to a small number of several factors, and to recreate the relationship of the original variables and factor, at the same time according to different factors can also categorize variables,. Principal component analysis and factor analysis is a multivariate analysis of a statistical method of dealing with the dimension reduction. In this article, through learning and access to relevant data found nine representative indexes of 12 cities in heilongjiang province, using the SPSS statistical analysis software to the indicators of principal component analysis and factor analysis of the characteristic value, the variance contribution rate and public factor and related data. And using the data of 13 cities economic grade level.

Key words Principal component analysis Factor analysis Economic SPSS statistical analysis softwar

II

目 录

摘 要 .......................................................................................................................... I Abstract ..................................................................................................................... II

第1章 绪 论 .................................................................................................... 1

1.1 选题的背景和提出 ................................................................................... 1

1.1.1 选题的背景 ....................................................................................... 1 1.1.2 选题的提出 ....................................................................................... 2 1.2 选题的意义和目的 ................................................................................... 3

1.2.1 选题的意义 ....................................................................................... 3 1.2.2 选题的目的 ....................................................................................... 3 1.3 主成分分析和因子分析的发展及应用 ................................................... 4

1.3.1 主成分分析的发展及应用 ............................................................... 4 1.3.2 因子分析的发展及应用 ................................................................... 4 1.4 本文主要研究内容 ................................................................................... 5 第2章 主成分与因子分析 ................................................................................... 6

2.1 主成分分析的内容 ................................................................................... 6

2.1.1 主成分分析原理和基本思想 ........................................................... 6 2.1.2 主成分的几何意义 ........................................................................... 6 2.1.3 主成分分析的性质 ........................................................................... 8 2.2 主成分分析的求解方法和数学模型 ....................................................... 8 2.3 主成分分析的基本步骤 ......................................................................... 11 2.4 因子分析的内容 ..................................................................................... 12

2.4.1 因子分析原理和基本思想 ............................................................. 12 2.4.2 因子分析的性质 ............................................................................. 13 2.5 因子分析的求解方法和数学模型 ......................................................... 13

III

2.5.1 数学模型(正交因子模型) ......................................................... 13 2.5.2 因子模型中公共因子,因子载荷量的统计意义 ......................... 14 2.5.3 因子旋转与因子得分 ..................................................................... 15 2.6 计算步骤 ................................................................................................ 16 第3章 主成分与因子分析在黑龙江省城市经济水平研究中的应用 .............. 17

3.1主成分分析法 .......................................................................................... 18 3.2 因子分析法 ............................................................................................ 21 3.3 综合评价结果分析 ................................................................................. 25

结 论 ......................................................................................................................... 27 致 谢 ......................................................................................................................... 28 参考文献 ................................................................................................................... 29

IV

1.3 主成分分析和因子分析的发展及应用

1.3.1 主成分分析的发展及应用

主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。首先是由K皮尔森对非随机变量引入的[3],而后H霍特林将此方法推广到随机变量的情形。信息的大小通常用离差平方和或方差来衡量。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素)因为每个变量都在不同程度上反映这个课题的客观信息。在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。主成分分析往往会在大型研究中成为一个中间环节,用于解决数据信息浓缩等问题,这就可能产生各种各样的组合方法。主成分所关心的问题,是通过一组变量的几个线性组合来解释这组变量的方差-协方差结构,它的一般目的是数据的压缩以及数据的解释。

在一些欧美国家用核主成分分析的方法也就是主成分分析的改进方法,其采用非线性方法提取主成分,把核主成分分析应用到人脸识别中。在国外运用主成分分析的方法对肝素钠、肝素钙等低分子肝素相关产品的销售额数据进行处理,形成新的指标体系,而后应用BP神经网络的方法建立模型,评价模型的拟合能力。在日本运用主成分分析的方法对地质行分析,从而来预测地震避免不必要的损失。同时,主成分作为一种优秀的降维提取主要信息的手段,先后在海洋学、地质学、地球物理学、资源科学等中都得到了一定程度的应用。我国经过近几十年来的发展,运用主成分分析的方法对高光谱遥感矿物信息特征提取已经取得了很大进展。在国内运用主成分分析的方法对人口、教育、地区的经济发展等方面研究,都取得了一定的成果。

1.3.2 因子分析的发展及应用

在对某一个问题进行论证分析时,采集大量多变量的数据能为我们的研究分析提供更为丰富的信息和增加分析的精确度。然而,这种方法不仅需要巨大的工作量,并且可能会因为变量之间存在相关性而增加了我们研究问题的复杂性。因而分析法就是从研究变量内部相关的依赖关系出发把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。这样我们就

4

对原始的数据进行分类归并,将相关比较密切的变量分别归类,归结多个综合指标,这些综合指标互不相关,即它们所综合的信息互相不重叠。这些综合指标就称为因子或公共子因子。因子分析法是两种分析形式的统一体,即验证性分析和纯粹的探索性分析。

因子分析最早是由英国的心理学家CharlesSpearman在1904年的时候,提出单一化的智能因子(ASingleIntellectualFactor)开始。随着试验的深入,大量个体样本被分析研究,证明了Spearman的单一智能因子理论是不充分的。同时,人们渐渐认识到有必要考虑多元因子。20世纪30年代,瑞典心理学家Thurstone打破了流行的单因子理论假设,经长期实践研究,他大胆提出了多元因子分析(MultipleFactorAnalysis)理论。Thurstone在他的《心智向量》(VectorsofMind,1935)一书中,阐述了多元因子分析理论的数学和逻辑基础。因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。因子分析法(Factor Analysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别[4]。

因子分析在市场调研中有着广泛的应用,主要包括:经济发展的研究、评价指标结构、消费者习惯和态度研究(U&A)、品牌形象和特性研究、服务质量调查、个性测试、形象调查、市场划分识别、顾客、产品和行为分类。

1.4 本文主要研究内容

本文首先是了解了国内外经济发展的基础及黑龙江省经济发展的现状,接着学习研究主成分分析和因子分析的基本思路和步骤,并将其理论与本文所研究的内容结合,其目的在于找到目前影响黑龙江省经济发展指标的主要因素,并根据得到的数学模型对黑龙江省经济发展情况进行综合分析。然后通过学习与查阅相关资料找到黑龙江省12个地级市的10个具有代表性指标,运用spss统计分析软件对这些指标进行主成分分析和因子分析得到特征值、方差贡献率及公共因子等相关数据。并利用这些数据对12个市经济水平划分等级。最后对论文进行总体的评价,指出本文的不足,以期待改进的新方案。

5

第2章 主成分与因子分析

2.1 主成分分析的内容

2.1.1 主成分分析原理和基本思想

Karl parson在1901年最先引进了主成分的概念[5],但是当时只是对非随机变量讨论的。Hotelling在1933年将这个概念推广到随机变量。主成分分析的思想是降维,在损失很少信息的前提下把多个指标转化为较少的几个综合指标。通常情况下将转化生成的综合指标称为主成分,原始变量的线性组合就是每个主成分,且各个主成分之间是各不相关的,这就使得主成分比原始变量具有更优越的性能[3]。

通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,但是这种现行组合,如果不加以限制,则可以有很多,我们应该选取方差最大的作为第一主成分,较大的作为第二主成分,一次类推可以构造出第三、四,……等p个主成分。不难想像这些主成分之间不仅不相关,而且他们的方差一次递减。因此在实际问题中,就挑选前几个最大成分,虽然这样会损失一些信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新信息,因为在某次额实际工作中的研究中得益较多,这种不仅减少了变量的数目还抓住了主要矛盾的做法更有利于问题的分析和处理。

2.1.2 主成分的几何意义

从代数学的点看,成分就是p个变量X1,...,XP的一些特殊的线性组合[6],在几何上这些线性组合正是把X1,...,XP构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样品变差最大方向(或说具有最大的样品方差)。下面以最简单的二元正态变量来说明主成分的几何意义[6]。

设有n个样品,每个样品有p个变量记为X1,...,XP,它们的综合变量记为F1,F2,...,FP。当p?2时,原变量是X1,X2,设X?(X1,X2)'~N2(?,?),它们有图3-1的相关关系:

6

F2

X2 F1

X1

图3-1 相关关系图

对于二元正态分布变量,n个点的散步大致为一个椭圆,若在椭圆长轴方向取坐标轴F1,在短轴方向取F2,这相当于在平面上作一个坐标变换,即按逆时针方向旋转?角度,根据旋轴变换公式新老坐标之间有关系:

?F1?X1cos??X2sin? ?F??Xsin??Xcos??212我们看到F1,F2是原变量X1和X2的线性组合,用矩阵表示是

?F1??cos?sin???X1??F????sin?cos???X???2??2??显然U'U?I。

UX

从上图还容易看出二维平面上的n个点的波动(可用方差表示)大部分可

以归结为在F1轴上的波动,而在F2轴上的波动是较小的。如果上图的椭圆是相当扁平的,那么我们可以只考虑F1方向上的波动,忽略F2方向的波动。这样一来,二维可以降为一维了,只取第一个综合变量F1即可。而F1是椭圆的长轴。

一般情况,p个变量组成p维空间,n个样品就是p维空间的n个点,对p元正态分布变量来说,找主成分的问题就是找p维空间中椭球体的主轴问题。

7

2.1.3 主成分分析的性质

(1) 各主成分之间互不相关,若原变量服从正态,则各主成分之间互相独立[7];

(2) 全部m个主成分所反映的n例样品的总信息,等于m个原变量的总信息。信息量的多少,用变量的方差来度量。若将m个原变量标准化后,每个变量的方差都为1,故方差之和为m,此时,求得主成分的方差之和也为m;

(3) 各主成分的作用大小是:F1?F2???Fm; (4) 第i个主成分的贡献率是(?i/k)×100%,k为贡献率之和; (5) 前P个主成分的累计贡献率是((?P100%。在应用时,一般i=?i)/m)×

取累计贡献率为70~85%或以上所对应的前P个主成分即可。在资料所含的变量个数、样品数及累计贡献率固定的前提下,P/m的比值越小,则说明此资料用主成分分析越合适。

2.2 主成分分析的求解方法和数学模型

求解主成分的方法主要有两种,一是从原始变量的协方差矩阵结构入手,二是从原始变量的相关性矩阵结构入手。

(1) 从协方差矩阵出发求解主成分为[8]:

设矩阵A'?A,将A的特征值?1,?2,...,?n依大小顺序排列,不妨设

?1??2?...??p?,1?,意向量x有

2,...?p为矩阵A各特征值对应的标准正交特征向量,则对任

maxx'Axx'Ax??1,min??p x'xx'x所以我们把X1,X2,...,Xp的协方差矩阵?的非零特征值

?1??2?...??p?0,对应的标准化特征像量?1,?2,,?p,分别作为系数向量

F1??1'X,F2??2'X,...,Fp??p'X第二主F1??1'X,F2??2'X,Fp??p'X分别称为随机向量X的第一主成分,成分,…,第i主成分。

于是随机X与Y随机向量之间存在关系:

8

?l???1??l??Y?l?X??2???1?2??p????????lp?????X2?????X2? (2-1) ???????Xp??(2) 从相关系数矩阵出发求解主成分为: 首先数据矩阵元素进行标准化

Zi?Xi?ui?ii,i?1,2,...p;ui?(?xi)/n;?i??(xi?x)/(n?1); (2-2)

i?1i?1nn式中,ui和?ii分别表示变量Xi的期望与方差,于是有

E(Zi)?0,var(Zi)?112???11??0????0?000?22012?1?pp??? (2-3) ????于是对原始变量进行如下标准化:Z?(?)(X?u) (2-4) 显然有

12?112?1E(Z)?0;cov(Z)?(?)?(?)?R (2-5)

因此,原始变量X1,X2,...,Xp的相关矩阵实际是对原始变量标准化后的协方差阵。由相关阵求主成分的过程与主成分个数的确定准则实际上是与由协方差阵出发求主成分的过程与主成分个数的确定准则是一致的。求得的主成分与原始变量表示为:Yi??iZ??i(?)(X?u),i?1,2,...,p。

9

''12?1

数学模型

设有n个样品,每个样品观测p项指标(变量):X1,X2,...,Xp,得到原始

?x11x12?x21x22?数据资料库:X?????xn1xn2......x1p??x2p???xnp??(X1,X2,...,XP) (2-6)

?x1i???x2i其中Xi???,i?1,....,p 。

?????xni?用数据矩阵X的p个向量(即p个指标向量)X1,...,XP作线性组合(即综合指标向量)为[9]:

?F1?l11X1?l12X2?...l1pXp???F?lX?lX?...lX?22112222pp? (2-7) ?????F?lX?lX?...lX?mpp??mm11m22上述方程要求:l1i2?l2i2??lpj2?1且系数lij由下列原则决定:

(1) Fi与Fj(i?j;i,j?1,2,...,p)不相关;

(2) F1是与X1,X2,...,Xp的一切线性组合(系数满足上述方程组)中方差最大的,F2与F1是不相关的X1,X2,...,Xp的一切线性相关中方差最大的,F1,...,Fk是与F1,F2,...,Fk?1都不相关的X1,X2,...,Xp的所有线性组合的最大者。

这里要说明两点:一个是数学模型中为什么作线性组合?基于两种原因:

① 数学上比较容易处理

10

② 在实践中效果很好。另一个要说明的是每次选取的主成分要使Var(Fi)最大,如果不加限制就可使Var(Fi)??,这样就没什么意义了,常用的限制是要求l1j2?l2j2??lpj2?1,j?1,,p。

2.3 主成分分析的基本步骤

设原始资料矩阵为:

?x11?X???x?n1x1p????(X1,X2,xnp??,XP)

(1) 将原始数据进行标准化处理:

进行标准化的目的在于消除原始数据各指标的量纲不同,公式如下:

yij?xij?xjsj,(i?1,2,...,n;j?1,2,...,p) (2-8)

1n其中xj??xij为每一列指标的标准值;sj?ni?1?(xi?1nij?xj)2为每一列指标n?1的均方差。标准化处理后,得到新的矩阵Yn?p?(yij)n?p

(2) 建立变量的相关系数阵:

1根据公式R?Y'Y建立样本的相关系数矩阵R;

n(3) 求特征根和特征向量:

根据公式R??E?0求出其前p个特征值?1??2?...??p?0;

根据公式R??iEx?0解出与特征值?1,?2,...,?p对应的单位正交化特征向

11

量e1,e2,...,ep。

4. 写出主成分

将原变量Xi转换成主成分Fm的线性组合,且具有正交特征,综合成为相应m(m?p)个变量(F1,...,Fm),而基本信息量保持不变。这样确定的综合变量F1,...,Fm分别称作原变量的第一、第二、…第m个主成分,且F1,...,Fm应在总方差中所占比例依次递减。

?F1?l11X1?l12X2?...l1pXp???F?lX?lX?...lX?22112222pp??? ???F?lX?lX?...lX?mpp??mm11m222.4 因子分析的内容

2.4.1 因子分析原理和基本思想

1904年,Charles Spearman发表一篇著名论文《对智力检验得分进行统计

分析》视为因子分析的起点[10]。因子分析的形成和发展有相当长的历史,最早用以研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长的时间。后来,由于电子计算机的出现,才使因子分析的理论研究和计算问题,有了很大的进展。目前这一方法的应用范围已十分广泛,在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域都取得了显著的成绩。

因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。

因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不同的变量相关性较低。

12

因为因子分析的内容很丰富,本文仅介绍因子分析常用的两种类型:R型因子分析(对变量作因子分析)和Q型因子分析(对样品作因子分析)。

2.4.2 因子分析的性质

因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量解释原始变量之间的相关关系[11]。

因子性质主要表现变量之间关联度上,根据关联度可以划分为特殊因子和公共因子,利用因子分析,减少分析变量个数,通过对变量的相关关系探测,将原始变量进行分类。其中共同度hi2表明X的第i个分量xi对于F的每一分量F1,F2,,Fm共同依赖程度。如果它的值越大,依赖程度就越大.方差贡献gj2是衡量公共因子相对重要性的指标。gj2越大,表明公共因子Fj对X的贡献越大,或者说对X的影响和作用就越大[12]。

2.5 因子分析的求解方法和数学模型

2.5.1 数学模型(正交因子模型)

R型因子分析数学模型[13]

?X1?a11F1?a12F2??a1mFm??1?X?aF?aF??aF???22112222mm2 ???Xp?ap1F1?ap2F2??apmFm??p?简记为

X?AF??

(p?m)(m?1)(p?1)(p?1)且满足:

i) m?p;

ii) Cov(F,?)?0 即F和?是不相关的;

13

?1?1iii) D(F)?????0??12?2?2D(?)??????00????Im 即F1,??1?0??? 即?,1?2??p??,Fm不相关且方差皆为1.

,?p不相关,且方差不同。

其中X?(X1,F?(F1,,Xp?)是可实测的p个指标所构成的p维随机向量,

?是不可观测的向量,F称为X的公共因子或潜因子,即前面所 ,Fp)说的综合变量,可以把它们理解为高维空间中相互垂直的m个坐标轴;aij称为因子载荷是第i个变量在第j个公共因子上的负荷,如果把变量Xi看成m维因子空间中的一个向量,则aij表示Xi在坐标轴Fj上的投影,矩阵A称为因子载荷矩阵;?称为X的特殊因子,通常理论上要求?的协方差阵是对角阵,?包括随机误差[14]。

因子分析的目的就是通过模型X?AF??以F代替X,由于m?p,m?n,

从而达到简化变量维数的愿望。

2.5.2 因子模型中公共因子,因子载荷量的统计意义

为了便于对因子分析计算结果做解释,将因子分析数学模型中各个量的统计意义加以说明是十分必要的。

假定因子模型中,各个变量以及公共因子、特殊因子都已经是标准化(均值为0,方差为1)的变量[15]。

(1) 因子载荷的统计意义 已知模型:

Xi?ai1F1?ai2F2??aijFi??aimFm??i

由于在标准化下有:

14

E(F)?0,E(?)?0,Var(?i)?1,E(Xi)?0,VarXi?1

因此E(XiFj)?rXiFj,E(FFij)?rFiFj,E(?iFj)?r?iFj公式中F同一 所以上式可写成:

rXiFj?ai1rF1Fj?ai2rF2Fj??aijrFjFj??aimrFmFj?r?iFj?aij

(因为各因子不相关,所以相关系数为0)

故因子载荷aij的统计意义就是第i个变量与第j个公共因子的相关系数即表示。因此用统计学的术语应该叫做权,但由于历史的原 Xi依赖Fj的分量(比重)

因,心理学家将它叫做载荷,即表示第i个变量在第j个公共因子上的负荷,它反映了第i个变量在第j个公共因子上的相对重要性。

(2) 公因子Fj的方差贡献率的统计意义 将因子载荷矩阵中各列元素的平方和记为

2 Sj??aiji?1pj?1,,p

称Sj为公共因子Fj对X的贡献,即Sj表示同一公共因子Fj对诸变量所提供的 方差贡献之总和,它是衡量公共因子相对重要性指标。

2.5.3 因子旋转与因子得分

建立因子分析数学模型的目的不仅要找出公共因子以及对变量进行分组,更重要的是要知道每个因子的意义,以便对实际问题作出科学的分析,如果每个公共因子的涵义不清,不便于进行实际背景的解释,这时根据因子载荷阵的不唯一性,可对因子载荷阵实行旋转即用一个正交阵右乘A使旋转后的因子载荷阵结构简化,便于对公共因子进行解释。所谓结构简化就是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上的载荷比较小,至多是中等大小。这种变换因子载荷的方法称为因子轴的旋转,而旋转的方法有很多。如正交旋转,斜交旋转等。

因子分析的最后一步是计算因子得分。因子变量确定后,便可计算各因子得分即每个样本上的具体数值,新变量形成了因子变量,它和原变量的得分是

15

相对应的。想要在以后分析中用因子变量代替原有变量进行数据建模,就要有因子得分,或利用因子变量对样本进行分类或评价等研究,进而实现降维和简化的目标[16]。

2.6 计算步骤

因子分析法的步骤入下:

(1) 将原始数据标准化,为书写方便记为Xij; (2) 建立变量的相系数阵R?(rij)p?p;

(3) 求R的特征根及相应的单位特征向量,分别记为?1??2???p?0和

u1,u2,,up;

(4) 对A施行方差最大正交旋转; (5) 计算因子得分。

16

第3章 主成分与因子分析在黑龙江省

城市经济水平研究中的应用

对黑龙江省12个地级市选取10个主要经济指标[17](见表3-1),X1-国内生产总值(亿元)、X2-工业总产值(亿元)、X3-人均GDP(元)、X4-工业企业单位数(个)、X5-固定资产投资(亿元)、X6-社会消费品零售总额(亿元)、X7-财政收入(万元)、X8-金融机构存款年底余额(亿元)、X9-年末人口数(万人)、X10-财政支出(万元)。运用spss软件进行主成分和因子分析。

表3-1 经济指标

城市 哈尔滨 齐齐哈尔 鸡西 鹤岗 双鸭山 大庆 伊春 佳木斯 七台河 牡丹江 黑河 绥化

X1

4550.2 1176.1 582.3 358.2 565.4 4001.1 260 668.3 298.9 981 366.1 1063.5

X2

2503.7 891.9 370.4 306.9 632.3 4280.3 178.8 506.5 368.2 725.1 108.9 620.8

X3

45810 22139 31076 32968 37490 142067 20686 27774 32308 37001 18892 18474

X4

1142 302 122 143 193 413 112 306 114 441 85 267

X5

4127.7 735.6 299.3 261.3 514.8 1407.9 238.2 466.4 169.2 733.8 233.2 648.8

表3-1 经济指标续

城市 哈尔滨 鸡西

X6 X7 X8 X9 X10

2394.6 5814206 7360.3 993.5 8417764

896871 1151.7 559.1 3086815 749852

17

齐齐哈尔 480.2

162.3

737.4 185.9 1298696

鹤岗 双鸭山 大庆 伊春 佳木斯 七台河 牡丹江 黑河 绥化

91.1 88.5 76.5 277.4 74.2 73.5 353.1

455351 540332 205743 642216 430529 340828 947769

424.1 108.5 851063 533.7 150.4 1034629 453 338.2

124.1 936280 92.4

649334

803.1 2240559 1970.6 281.7 3082478

805.9 239.4 1697016

346.2 1245000 1034.2 259.6 1992704

500.8 172.8 1250417 763.9

577

2851102

3.1主成分分析法

将数据标准化,标准化后相应数据记为F1、F2、F3、F4、F5、F6、F7、

F8、F9、F10,如表3-2所示[18],

表3-2 标准化指标

城市 哈尔滨 齐齐哈尔 鸡西 鹤岗 双鸭山 大庆 伊春 佳木斯 七台河 牡丹江 黑河 绥化

F1

2.27566 -0.04341 -0.45154 -0.60556 -0.46315 1.89826 -0.67306 -0.39243 -0.64632 -0.1775 -0.60013 -0.1208

F2

1.26782 -0.05406 -0.48176 -0.53383 -0.26696 2.72485 -0.63889 -0.37014 -0.48356 -0.19086 -0.69622 -0.2764

F3

0.20617 -0.49912 -0.23283 -0.17646 -0.04173 3.07419 -0.54241 -0.33122 -0.19613 -0.0563 -0.59586 -0.60832

F4

2.88968 -0.00459 -0.6248 -0.55244 -0.38016 0.37786 -0.65925 0.00919 -0.65236 0.47434 -0.75228 -0.12519

F5

3.01543 -0.07665 -0.47436 -0.509 -0.27792 0.53619 -0.53005 -0.32204 -0.59295 -0.07829 -0.53461 -0.15577

18

表3-2 标准化指标续 城市 哈尔滨 齐齐哈尔 鸡西 鹤岗 双鸭山 大庆 伊春 佳木斯 七台河 牡丹江 黑河 绥化

F6

2.99173 0.06892

F7

2.97526 -0.20173

F8

3.09104 -0.09641 -0.3091 -0.46995 -0.41368 0.32401 -0.45511 -0.27394 -0.51405 -0.15673 -0.43057 -0.2955

F9

2.54129 0.92135 -0.47037 -0.75901 -0.60275 -0.11312 -0.70083 -0.27086 -0.81904 -0.19553 -0.51922 0.9881

F10

2.89315 0.38751 -0.45294 -0.66333 -0.57706 0.38547 -0.62328 -0.26572 -0.75815 -0.12674 -0.47563 0.27672

-0.41643 -0.29671 -0.52514 -0.48698 -0.52911 -0.43208 0.56191 -0.2407 -0.13566

0.6664 -0.36626 0.02319

-0.54743 -0.64825 -0.55094 -0.50302 -0.55201 -0.56098 -0.12513 -0.16884

利用spss软件进行主成分分析,得出方差解释表,见表3-3。

表3-3 方差解释表

表3-3给出12个地级市经济发展水平的特征值、各主成分方差在总方差中的比重。表中显示第一主成分的特征值为8.098,方差在总的方差中的比重为80.976%;第二主成分的特征值为1.629,方差在总的方差中的比重16.293%。前

19

两个特征值的累积贡献率达到97.269%,且其特征值均大于1,也就是说这两个主成分基本涵盖指标因子的主要信息,并且由于主成分分析得到的主成分彼此相互独立,互相不可替代。于是,取前2个因子作为主成分,碎石土的分析也说明了这一点[19]。

图3-1 碎石图

图3-1是分析结果碎石图,明显拐点为2,可以得出保留前2个因子将能概括大部分信息,前2个因子贡献占总方差的比例为97.269%,说明提取前2个因子是比较合适的。

表3-4 主成分载荷表

20

从表3-4可以看出,固定资产投资、社会消费品零售总额、财政收入在第一主成分上的载荷较大,即与第一主成分的关系数较高;人均GDP在第二主成分上的载荷较大,即与第二主成分的关系数较高。因此可将主成分命名如下:第一主成分:产出及收入主成分;第二主成分:效益主成分[12]。

表3-5 成分得分系数矩阵

表3-5给出了用原始变量表示主成分得分的系数信息。

标准化第一主成分=0.117*F1+0.092*F2+0.053*F3+0.119*F4+0.122*F5+ 0.122*F6+0.122*F7+0.119*F8+0.106*F9+0.12*F10 标准化第二主成分=0.1957*F1+0.405*F2+0.554*F3-0.1*F4-0.076*F5- 0.078*F6-0.047*F7-0.114*F8-0.028*F9-0.1272*F10

到目前为止,通过主成分分析法,将10个指标转化为了具有典型经济涵义的2个综合评价指标。

3.2 因子分析法

首先,对这组数据的原始值进行KMO和Bartlett’s检验[20],以判断数据是否适合进行因子分析。结果为,KMO抽样适度测定值统计量为0.621,在0.5以上,Bartlett球度检验统计量为305.380,足够大,且其相应的P值(Sig=0.000)<0.05,表示可以拒绝偏相关系数为0和相关系数矩阵(见表3-6)为单位阵的原假设,所以数据适合进行因子分析(如表3-7所示)。

21

表3-6 相关系数矩阵 F1 F2 F3 F4 F5 F6 F7 F8 F9 F10

表3-7 KMO和Bartlett的检验

F1 1 0.918 0.693 0.848 0.887 0.892 0.903 0.849 0.71 0.86

F2 0.918 1 0.913 0.599 0.64 0.645 0.668 0.579 0.43 0.597

F3 0.693 0.913 1 0.273 0.313 0.311 0.358 0.249 0.03 0.23

F4 0.848 0.599 0.273 1 0.974 0.972 0.97 0.962 0.855 0.958

F5 0.887 0.64 0.313 0.974 1 0.995 0.994 0.993 0.854 0.973

F6 0.892 0.645 0.311 0.972 0.995 1 0.992 0.992 0.873 0.983

F7 0.903 0.668 0.358 0.97 0.994 0.992 1 0.988 0.832 0.963

F8 0.849 0.579 0.249 0.962 0.993 0.992 0.988 1 0.842 0.965

F9 0.71 0.43 0.03 0.855 0.854 0.873 0.832 0.842 1 0.946

F10 0.86 0.597 0.23 0.958 0.973 0.983 0.963 0.965 0.946 1

在进行因子分析之前,每项指标的原始值也需进行标准化处理,以消除变量间在数量和量纲上的不同。进行标准化处理后,平均水平为0,后面分析的结果会出现正值和负值,正值表示高于平均水平,负值表示低于平均水平。

运用SPSS软件对10个变量的原始观测值进行相关系数的因子载荷估计,为了使主因子有明显地含义,采用方差最大正交法对因子载荷阵进行旋转,表3-8为旋转后主因子对应特征值的方差贡献率。以特征值大于1为标准提取主因子,可以发现,前两个因子的累积方差贡献率达到97.269%,能够反映原始数据的大部分信息。因此,可以运用这两个因子代替上面的10个指标对黑龙江省个地级市经济发展状况进行综合评价。

22

表3-8 解释的总方差

利用方差极大法对因子载荷矩阵进行旋转根据SPSS输出的旋转后的因子载荷阵,如表3-9所示,可以看出10个原始变量与两个因子的载荷情况。第一主因子拥有69.835%的解释变量,在财政支出(X10)、金融机构存款年底余额(X8)、社会消费品零售总额(X6)等几个指标上有较高的载荷,主要反映了各市的经济规模和经济结构。第二主因子拥有27.434%的解释变量,对人均GDP(X3)有较大载荷[15],主要反映了各市的经济发展水平。这两个主因子的累计方差贡献率为97.269%,可以比较准确的反应该系统中各原始指标的综合状况。

表3-9 旋转成份矩阵

由于主因子的数值无法直接观测,所以我们通过具体原始数据来描述主因子的变化特征和水平差异。利用公共因子和原始变量之间的关系,采用回归方

23

法可以估计两个主要因子的得分系数矩阵(见表3-10)。

表3-10 成份得分系数矩阵

由此可的因子得分公式

第一主因子得分Fs1=0.025*F1-0.085*F2-0.1813*F3+0.15*F4+0.142*F5+ 0.143*F6+0.13*F7+0.156*F8+0.191*F9+0.62*F10 第二主因子得分Fs2=0.226*F1+0.406*F2+0.526*F3-0.041*F4-0.018*F5- 0.02*F6+0.008*F7-0.054*F8-0.164*F9-0.066*F10

在上式的基础上,用两个主因子的方差贡献率占累计贡献率的比重作为权重计算各个城市的综合得分ZF(表3-11),得到综合评价函数为:

ZF?0.718?Fs1?0.282?Fs2

某区域ZF值的大小反映了该市经济发展状况在黑龙江省的相对位置。最后,可以针对两个主因子的得分以及加权后的综合得分,对各市的经济发展状况做出综合评价法[21]。

表3-11 经济系统主因子得分即综合得分

第一主

城市 哈尔滨 鸡西

排名 第二主因子得分

排名 综合因子得分

排名

因子得分 3.024333 -0.39883

1 2 7

0.154057 -0.46719 -0.25627

24

2 9 7

2.214915 0.076201 -0.35863

1 3 7

齐齐哈尔 0.289623

鹤岗 双鸭山 大庆 伊春 佳木斯 七台河 牡丹江 黑河 绥化

-0.55711 -0.4828 -0.3494 -0.50688 -0.1823 -0.62523 -0.0167 -0.43199 0.237297

11 10 6 9 5 12 4 8 3

-0.21436 -0.04802 3.096883 -0.47383 -0.32913 -0.18902 -0.11346 -0.5449 -0.61476

6 3 1 10 8 5 4 11 12

-0.46046 -0.36019 0.622455 -0.49756 -0.22371 -0.50222 -0.04399 -0.46383 -0.00298

9 8 2 11 6 12 5 10 4

3.3 综合评价结果分析

由主成分和因子分析综合来看,财政(收入及支出)和社会消费品零售总额是影响这12个城市经济发展的第一主要因素;人均GDP是影响这12个城市经济发展的第二主要因素。这些就是导致黑龙江省各市经济发展存在差异性的主要因素。从表3-11可以看出,综合得分排名与第一主因子得分排名大体一致,这是因为第一主因子方差贡献率达到了69.835%,在很大程度上反映了实际情况。

由上表可知,第一因子得分较高的是哈尔滨、齐齐哈尔、绥化,说明这三个城市的消费能力及政府财政力度上比较大;第二因子得分高的是大庆、哈尔滨、双鸭山,说明这三个城市经济实力比较强。

以上的结果可以将这些城市大致分为三类,第一类是比较发达的城市:哈尔滨、大庆齐齐哈尔;第二类是发展中城市:绥化、牡丹江、佳木斯;第三类是有待发展的城市:鸡西、双鸭山、鹤岗、黑河、伊春、七台河。

综合得分排在第一的哈尔滨市在财政、社会消费品零售总额和人均GDP上都比较高。作为黑龙江省的省会,它可以带动其他城市经济的发展。促进消费是改进其他城市经济发展的有力手段。可以根据在哈尔滨消费的调查,找到人们消费的热点商品,然后再将这些商品推广到其他城市,以此来带动各市的消费水平。

从本文的研究结果可以看出,财政的支出和收入对城市的经济也有着很大的影响,提高了财政收入的同时也要增加财政支出。各市政府可以将财政支出多用在科教、卫生、医疗等方面。让人们享受到更多的社会福利,对于提高人们生活水平和促进其他消费有很大的推动作用。

25

各市在以后的工作中,在努力增加财政收入的同时要努力改善财政支出结构体系以有效的加大财政支出。其次是想办法提高人们对社会消费品的消费水平。我认为这样对促进各市经济全面、协调、共同的发展,会有一定的作用。

26

结 论

本文通过查阅2013年的黑龙江省统计年鉴,在介绍了国内外经济发展的基础上,阐述了黑龙江省的经济现状,结合黑龙江省的实际情况得到了12个地级市的10个具有代表性的经济指标。然后分别用主成分分析法和因子分析法两种方法对黑龙江省12个地级市的10个经济指标做出了综合分析,找到了影响经济发展的两个主要因素,并对各因素的含义做了详细解释,对以后各市经济发展的调整提供了有利条件,也为促进各市经济同步发展找到了一个大致的方向。并利用这些数据对黑龙江省地级市经济发展情况进行了排名。

从本文可以看出,虽然主成分分析和因子分析都是从原始数据的协差阵(有时是相关系数阵)出发[22],计算特征值与特征向量,按照累计贡献率大于85%的原则确定新的指标个数。但是为了避免混淆两种方法,在解释新的指标时应该回归到各自的模型上面来。即:按照主成分分析原理,新指标仅仅是原始指标的简单汇总,如果想用较少的几个变量替代原来的变量则用主成分分析;而对于因子分析新指标则是对所有原始指标皆有影响的那些公共因子,所以当需要寻找潜在的影响要素时,倾向于用因子分析。明白了这一点,对新指标的解释也就变得顺理成章了。

在《黑龙江省地级市综合竞争力分析》中[23],从综合经济竞争力、人民生活水平、环境质量状况、基础设施竞争力、对外开放程度、科技文化竞争力6个方面选取42项指标利用均差法获取各因素权重,利用现行加权法对黑龙江省12个地级市的综合竞争力进行评价的结果是哈尔滨综合竞争力最强大,大庆、牡丹江、齐齐哈尔和佳木斯较强,鸡西、黑河双鸭山、七台河、鹤岗、伊春、绥化较弱。而本文得出的排名虽然与其有些差异,但基本一致,主要是由于可以衡量一个地区经济发展的评估指标体系涉及的指标变量很多,本文在选取经济指标的数量上不够全面。但本文仅用10项指标,就得到了基本一致的结果。说明了本文采取的方法有一定的优越性。虽然本文用了两种统计方法,但还有很多统计分析评价方法可以进行综合评价,今后还有待于进一步的提高。

27

致 谢

四年的本科学习即将过去,在我的论文完成之际,在黑龙江科技大学的学习期间,我不仅学到了文化知识,还锻炼了自己的能力,更收获了快乐。

首先我要感谢我的老师们,是你们为我创造了良好学习的机会和环境,并给了我悉心指导和孜孜不倦的教诲,使我能在工作和学习上克服困难,取得进步。我的导师刘华南老师在本次的论文写作中,从论文的选题到最后定稿都给了我详细的指导,使我受益匪浅,在此表示我最衷心的感谢。

我还要感谢我的同学们,她们在我这四年的学习生活中给予的帮助与关心让我轻松的完成了学业,并感到充实。再次我对她们表示最真挚的感谢!

我特别要感谢我的父母。他们无微不至的关怀与支持,让我倍感温暖,没有负担,并鞭策着我不断前进。

最后祝我的老师们、同学们以后的生活更加美满幸福!

28

参考文献

1 王艳杰,郑小贤. 可持续发展指标体系研究概述[J]. 北京:北京林业大学学报,2001,35(5):103-106.

2 李艳双,曾珍香,张闽等. 主成分分析法在多指标综合评价中的应用[J]. 河北 工业大学学报,1999,28(24):94-97.

3 何晓群. 现代统计分析方法与应用[M]. 北京:北京中国人民大学出版社, 2007:98-105.

4 黄润龙. 数据统计分析与分析技术-SPSS软件使用教程[M]. 北京:北京高等 教育出版社,2007:89-92.

5 崔立瑶,刘忠. 区域工业发展水品评价方法研究[J]. 四川大学学报(自然科学 版),2006,17(1) :250-255.

6 杨小平. 统计分析方法与SPSS应用教程[M]. 北京:北京清华大学出版社, 2008:106-109.

7 Reuven R.Levary. Using the analytic hiearchy process to rank forign suppliers

based on supply risks[J]. Computers & Industrial Engineering ,2008, (55): 535- 542.

8 M.A.Papalexandrou,P.A.Pilavachi,A.I.Chatzimouratidis. Evaluation of

liquidbio-fuels using the Analytic Hierarchy Process[J]. Process Safety And Environment Protection,2008,(86):360-374.

9 卢文岱. SPSS for Windows统计分析(第二版)[M]. 北京:电子工业出版

社,2003:311-330.

10 童其慧. 主成成分分析法在指标综合评价中的应用[J]. 北京理工大学学

报,2002,45(4):59-61.

11刘政永,孙娜. 基于因子分析的福建城市竞争力研究[J]. 现代商贸工业报,

2008,31(2) :314-317.

12 王庆丰,党耀国,王丽敏. 基于因子分析和聚类分析的县域经济发展研究—

以河南18个省(市)为例[J]. 数理统计与管理,2009,28(3):495-501.

13 廖为鲲,蔡国梁,徐文桃. 基于因子分析法的城市经济发展评价[J]. 统计与

决策,2005,19(24) :110-115.

14 薛薇. 基于SPSS的数据分析[M]. 北京:中国人民出版社,2006:78-85.

15 袁万海. 基于主成分分析的多元集成综合评价模型[J]. 技术与创新管理

29

报,2011,15(4) : 14-17.

16 何晓群. 多元统计分析[M]. 北京:中国人民大学出版社, 2011:78-82.

17 黑龙江省统计局. 黑龙江统计年鉴2013[M]. 北京:中国统计出版社,2013. 18 RICHARD A,JOHNSON,DEAN W ICHERN. 陆璇,叶俊译. 实用多元统计分

析(6版)[M]. 北京:清华大学出版社, 2008:99-118.

19 Landgrebe, J. Wurst, W. & Weizi, G. Genome Biol. 3, RESEARCH0019(2002): 177-196

20 Li, C.M. & Klevecz, R.R. Proc. Natl. Acad. Sci. USA 103, 16254-16259(2006): 105-143

21管琳,李春兰,张博. 基于主成分分析法的我国农村居民消费结构的综合评价[J]. 安徽农业科学报,2011,16(14):114-117.

22 赵凡莹. 全国各省市农业发展规模综合评价[J]. 中国证券期货报, 2011, 25 (7) :74-77.

23 李建平. 中国省域经济综合竞争力发展报告(2009-2010)蓝皮书[M]. 北京:社会科学文献出版社,2011:1-10.

30

本文来源:https://www.bwwdw.com/article/62yw.html

Top