主成分分析在区域经济分析中的应用

更新时间:2023-06-08 09:42:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

主成分分析在区域经济分析中的应用

2042009,45(19)ComputerEngineeringandApplications计算机工程与应用

主成分分析在区域经济分析中的应用

2

李雪梅1,,张素琴1

2,LIXue-mei1,ZHANGSu-qin1

北京1000841.清华大学计算机科学与技术系,

太原0300132.山西大学工程学院信息工程系,

1.DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084,China

2.DepartmentofInformationEngineering,EngineeringCollegeofShanxiUniversity,Taiyuan030013,China

lscc2008@E-mail:

LIXue-mei,puterEngi-

(19):neeringandApplications,2009,45204-206.Abstract:Chinaisacountrywithalotofdifferencesamongdifferentregionsineconomy,society,resourceandenvironment.To

makeapolicywhichcanimproveregioneconomyeffectively,itisnecessarytoevaluateproperlythedevelopmentlevelindifferentregions,andfindoutthekeyfactorswhichleadthosedifferences.Thispaperanalyzesandcomparestheindicessystemoftheregionaleconomybyusingthemethodsofprincipalcomponentsanalysisandfactorcommonlyusedinthedataminingfield.Bytheanalysiswithhistoricaldata,thepapercancometoaconclusionmatchingthereality,whichishelpfulinexploringthepotentialandmakingpolicyinsocialandeconomicdevelopment.

Keywords:principalcomponentsanalysis;factoranalysis;regionaleconomy摘

要:我国是一个经济与社会发展水平,资源与环境禀赋情况在各区域间差异非常大的国家,要制订出促进区域经济协调发展

的有效政策,必须对区域经济发展的水平做出合理的评价,从中找出形成区域经济发展水平差异的关键因素。应用主成分分析和因子分析的方法对区域经济指标体系进行了比较、分析,并且使用历史数据进行了验证,得出与实际情况相一致的科学结论,为挖掘社会经济发展的潜力提供了一定的借鉴作用,同时也为进一步制定经济发展决策提供了有力的支持。关键词:主成分分析;因子分析;区域经济DOI:10.3778/j.issn.1002-8331.2009.19.063

文章编号:(2009)1002-833119-0204-03

文献标识码:A

中图分类号:TP311

1引言

主成分分析是一种常用的多元统计分析方法,相对于其他

了对国民经济发展特点和水平的综合分析、比较和评价。

统计学方法,它更强调用数据本身来指导分析过程,而不是依赖于事先给定的某些假设。其主要目的是希望用较少的变量去解释原始资料中的大部份变异,期望能将许多相关性很高的变量转化成彼此互相独立的变量,能从其中选取较原始变量个数少且能解释大部份资料中的变异的几个新变量(降低原始变量的维数),也就是所谓的主成分,而这几个主成分也就成为用来解释资料的综合性指标。

经济指标体系是描述和度量国民经济发展的现状特征和变化趋势的,每一个指标都从不同的层次、侧面和方位反映了国民经济发展中某一局部的特征,各单项指标既相互独立,有相互关联,如果仅仅单项比较或简单地加权叠加,都难以准确、全面地综合反映国民经济全局发展水平的客观实际,在这里应用主成分分析和因子分析的方法对经济指标体系中各单项指标的原始数据进行加工、整理和分析,提取出指标群中具有表征意义的极少数特征指标,改善和简化了观测系统,从而实现

2主成分分析和因子分析的基本思想

主成分分析的主要应用在于简化观测系统,将原始因子变换为新因子,把多个单项指标转化为最少数量的综合指标。其设计思想[1]是通过对每个变量的实际观测值的协方差矩阵进行

计算,依次提取方差贡献最大的各个主成分,以达到选择、浓缩和提炼变量的目的。主成分分析中的因子分析所涉及的计算与此类似,它是研究一组样品之间的相关关系的一种统计方法,即对于一组具有复杂的相关关系的样品,可以通过研究它的相关矩阵的内部结构,找出若干个对这组样品起着支配作用的独立的新因子(它们实际上是原始变量在通常的、或者是最小二乘意义上的线性组合),用这些独立的新因子(称为公因子或称主因子,它们的数目往往比原始变量的数目要少)来表达所有观测数据,既极少损失总的关于原始变量的相关信息,又合理解释了包含在原始变量(样品)的相关性,这样就简化了观测系统,抓住了影响所有观测数据的主要矛盾。具体做法为:设原始

作者简介:李雪梅(1962-),女,副教授,清华大学访问学者,研究方向:数据库与数据挖掘;张素琴(1945-),女,教授,研究方向:程序设计语言设计

编译优化。与实现、

收稿日期:2008-04-17

修回日期:2008-07-10

主成分分析在区域经济分析中的应用

李雪梅,张素琴:主成分分析在区域经济分析中的应用

因子为p项指标x1,x2,…,xp,将它们变换为新因子m项指标

(m<<p)…,即:E1,E2,Em,

E1=L11x1+L12x2+…+L1Pxp

Em=Lm1x1+Lm2x2+…+LmPxp

各项中系数的平方和恒等于1,新因子E1,…,E2,Em之间线性

…,无关,而且依次形成对原始因子x1,x2,xp的一切线性组合中

…,方差贡献率从小到大的排列。这样的新因子E1,E2,Em就被

依次称为原始因子x1,…,第二主成分、…、x2,xp的第一主成分、

第m主成分,再以达到累积方差贡献率80%以上选择主成分个数,并根据其经济含义形成新的综合指标。

其中:均值j=1

n

2009,45(19)205

Σx

i=1

n

ij

(j=1,…,)2,p

2軃)方差sj=1Σ(xij-x(j=1,…,)2,pj

ni=1

假定经过变换后为X,则X的元素xij的均值为0,方差为

各单项指标具有相同度量尺度和一致的变化范围。然后计算1,

相关矩阵及其特征根,选取主成分。

相关矩阵R是一个对称矩阵R=(rij),其中rij=1

n

n

Σxx

i=1

kikj

3经济指标体系的确立与建立数据指标数据库

(i,…,)。j=1,2,p

在此基础上利用雅可比法求R的全部特征根λ(由大到i全部特征根λ1>λ2>…>λp均大于小排列)及相应的特征向量ai,等于零,算出每一特征值对总体方差的贡献率及累积贡献率总和为1,其结果如图1所示。

宏观经济指标分析体系工作首先要确立经济指标体系,在

这里根据经济专家的指导和实际工作中的使用情况确定了具有普遍代表性的经济指标体系包括国民经济综合指标、农业、工业、固定资产投资、邮电、交通和运输、商业、旅游和外贸、科技、文化教育、卫生、人民生活水平、总人口、总面积等10个方

并对指标体系在国家统计局年鉴的面9个专题的149个指标,

基础上进行了标准化和统一化,对各子专题对应的指标进行了重新划分。

确定经济指标体系以后,就需要建立统一的、规范化的数据库系统,该数据库包括28个省、市(自治区)的宏观经济指标(不包括新成立的省、市),以关键字提取、存取数据,运用数据挖掘技术根据实际需要从中选取几个较少的综合指标,从而尽可能多地反映原来的指标的信息。虽然这些综合指标是不能直接观测到的,但这些综合指标之间互不相关,且能反映原来那些指标的信息。为了实现这一目的将各个地区的原始数据进行了统一的、规范化的处理,并存储到数据库系统中,并在此基础上确立了指标群中具有表征意义的31个特征指标,如:工农业总产值、国民收入、国民生产总值、农业总产值、粮食总产量、工业总产值、产值利税率、资金利税率、全员劳动生产率、全社会固定资产投资、货运周转量、邮电业务总量、商品零售总额、出口总值、高校在校人数、病床拥有数、城镇居民人均生活费收入、农民人均纯收入、人均储蓄额、年末总人口等,用这些新的特征指标来表达所有观测数据,这样既可以以极少损失总的关于原始变量的相关信息,又合理解释了包含在原始变量之间的相关性。

根据累积贡献率大于80%确定主成分个数m=2,这样就由若干个单项指标变换得到两项综合指标。

4.2求各项指标对综合指标的相关程度

选取了m=2个公因子之后,则取载荷矩阵的前m=2列为计算初始因子载荷矩阵:初始因子载荷矩阵A,

an1…anm

4对区域宏观经济指标分析的实现步骤4.1对原始矩阵进行标准化

首先选择所确立的宏观经济指标作为样品的原始数据组成矩阵,设有N个地区,对它们各观测P个指标变量,其原始矩阵为:

x11…x1p

… x21x2p

X=

xn1…xnp

其中xij表示第i个地区的第j个指标的值(i=1,…,2,n;j=1,2,…,)。p

对原始数据进行标准化处理,形成标准化矩阵:

軃x-xxij′=ijj

sj

(i=1,…,…,)2,p;j=1,2,n

其中aij=ai*姨ji=1,…,…,)。2,n;j=1,m

初始因子载荷矩阵A的因子载荷aij反映的是初始因子(变量i)对新因子(主成分j)的载荷强度(即相关程度),为了促)对新因子(主成分j)上的载荷分布向0或使初始因子(变量i使处于中间状态的载荷强度趋于消失,需要对载1两极分化,

荷矩阵A实施方差极大化旋转,从而获得经济含义鲜明的主特征分析。所以对载荷矩阵进行方差极大化正交旋转,首先计算公共因子方差:

(i=1,…,)hi=Σaij2,n;j=1,2

j=12

m

2

然后求正交因子解--方差极大正交因子旋转,用hi除A的各个元素将因子载荷矩阵正规化,再将m个因子轴两两组合进行旋转,共旋转m*(m-1)/2次。第r个和第s个公共因子旋转后的载荷由B=A*T决定。

A=

a11…a1m

a21…a2m

主成分分析在区域经济分析中的应用

2062009,45(19)其中:T=cosφ2sinφ

r′

δ

2

2

2

ComputerEngineeringandApplications计算机工程与应用

-sinφcosφ

2

(air-air)2Σ2airaiδΣ

i=1

i=1

p

p

2

2

tg4φ=

n

(air-air)-r′=2Σ2airaiδ

i=1n

2

2

2

p

2

(2airaiδ)-δ=Σ2airaiδ([air-aiδ)]-i=1

ΣΣΣ

ki=1

(air-aiδ)-

22

Σ2Σ2a-a2Σ

2

n

2

i=1

ir

p

(r=1,…,(m-1),…,)2,s=r+1,m得正交变换T1=T12T13…Trs…T(m-1)*m,旋转因子载荷矩阵B1=A*T1及因子载荷平方的方差:

V=1

b

(-ΣΣΣΣh

iji

4

j=1

i=1

j=1

i=1

m

n

m

22

n

bijhi

2

2

2

以B1作为新的初始因子载荷矩阵,重复上一步,直至最后两次的V之差绝对值小于所要求的精度要求为止。将最后求得的旋转因子载荷矩阵进行正规化还原,得G=(bij*h)i即为所求的正交因子解。

通过以上方法求得的各单项指标对综合指标的相关程度如图2所示,从图中可以看出,第一主特征与各总量指标高度相关,相关系数都在70%以上,说明这一主特征反映了国民经济发展的总体规模和实力水平,因此可称第一主特征为“总体规模”指标;第二主特征与人均水平、经济效益指标明显相关,而与总量指标相关程度较小,说明这一主特征反映了国民经济发展中的经济社会效益状况,因此第二主特征称为“综合效益”指标。

4.4进行结果分析

解释并进行结果评估,这个过程主要是对挖掘生成的结果进行技术评价,需要对整个挖掘实施过程进行回顾以确定下一步的方案。通常使用的办法是运用可视化技术的方法,通过图表或图像等手段直观地反映给用户,并通过交互的方式对模型进行调整或改进。

从上面所得出结果用主成分图(如图4)可以看出,各省区经济发展状况的大致分类结果如下:

第一类:北京、上海、天津。总体规模适中,综合效益好。第二类:辽宁、江苏、浙江、山东、广东。总体规模大,综合效益好。

以上两类为东部经济发达的地区,其人口多、生活水平高、外部投资环境与交通发展环境优越、竞争力强,发展势头好。

第三类:河北、河南、黑龙江、安徽、湖南、湖北、四川。总体

4.3计算各地区总体规模和综合效益得分

利用公式:F=A*R-1*X(其中A为载荷矩阵,R为相关矩

阵,)可计算出各个样本(N=28个地区)的在新因X为原始矩阵子(P=31个指标)上的得分,根据得分排出如图3所示的位次。从图上可以很直观的看出某一地区在总体规模和综合效益两方面在全国所处的位置,再根据某一时间段内位次的变化就可以分析其中的原因。

规模大,综合效益一般。为中部经济较为发达、具有较好发展潜力的地区。

第四类:山西、陕西、内蒙、贵州、江西、吉林、福建、广西、云南、甘肃、新疆、青海、宁夏。总体规模小,综合效益一般。大部分是西部地区最不发达的区域,该区域的省份的经济实力相对落后、交通条件差,人口稀少、车辆保有量低、外部投资环境差。

(下转238页)

主成分分析在区域经济分析中的应用

2382009,45(19)ComputerEngineeringandApplications计算机工程与应用

第6行:约简为{tq},对应决策t-1q0→v0;第7行:约简为{q},对应决策q-1→v-1。对上述约简综合可得简化的决策规则:)t(∨t1q0→v10q0∨q1

t1q1∨t-1q0→v0

q-1→v-1

所得决策规则用于计算机调度过程的指导。为了更好的做出满意的调度,计算机还需学习决策者针对某种调度状态所采取的行为,例如将作业改派其他机器、延迟某些作业等;这些行为可以直接记录在数据库中以备随时调用,或采用与本章所述类似的规则提取方式获得。

得该决策表的约简{t,两者都可作为决策表的约简;q}和{t,i},核是{t}。取约简{t,(第8行)后的决策表如表2q}并去掉重复行所示。得到属性约简后可根据区分矩阵继续求值约简,方法为:

表2约简后的决策表

序号1234567

t01-101-10

q10-1010-1

v11-1100-1

)将原区分矩阵各元素中不属于约简的属性删除(并删(1除重复对象)获得新区分矩阵。对属性约简后的决策表直接计算区分矩阵可得同样结果;

(2)将新区分矩阵每行视为一个单独的决策表求属性约简,每个约简在行中对应的值组成一个决策;

(3)所有行约简获得的决策剔除重复项后组成最终决策集。此方法借鉴了文献[4],但步骤更简练且意义明了。以表2对应的决策表为例,其对应区分矩阵为(需要对整行约简,故上三角元素不能省略):

对象1234567

ttqq

qttqtq

tq

tqtqq

tqtq

tq

tq

1

2

3tqtq

tq4

5tqtqtq

6tqtqt

qtqtq7qtq

4结论

提出的约简方法将属性约简和值约简都通过区分矩阵操

作进行,步骤简单明了,非常利于计算机实现。将其应用于生产调度决策规则的提取获得了较好效果。该方法的缺点在于当决策表比较庞大时,对应区分矩阵占用资源较大,对系统运行效率有消极影响。

参考文献:

科学出版社,[1]张文修.粗集理论与方法[M].北京:2001.

[2]ZiarkoW,CerconeN,HuX.Rulediscoveryfromdatabaseswith

decisionmatrices[C]//9thIntSymposiumonFoundationofIntelli-gentSystem,1996:653-662.

何亚群.粗糙决策理论与应用[M].北京:北京航空航天出版[3]胡寿松,

社,2006.

周艳聪,宋洁,等.一种新的求解属性值约简算法[J].南开大[4]顾军华,

(4):学学报:自然科学版,2003,3638-42.

[5]JelonekJ,KrawiecK,SlowinskiR.Roughsetreductionofattributes

andtheirdomainsforneuralnetworks[J].InternationalJournalof(2):1995,putationalIntelligence,

黄翠微,赵斌.基于逼近精度的一个粗糙集属性约简算法[J].福[6]叶东毅,

(1):州大学学报,2000,287-10.

娄臻亮,张永清.一种改进的粗糙集属性约简启发式算法[J].[7]石峰,

上海交通大学学报,(4):2002,36478-481.

沈钧毅,李昌彪.样本信息处理中一种属性约简方法的研[8]夏克文,

究[J].西安交通大学学报,(6):2005,39558-602.

对各行求约简得:

第1行:约简为{tq},对应决策t0q1→v(下标表示属性的取1

值);

第2行:约简为{tq},对应决策t1q0→v1;

约简为{q},对应决策q-1→v-1;第3行:第4行:约简为{tq},对应决策t0q0→v1;第5行:约简为{tq},对应决策t1q1→v0;

(上接206页)

5结论

参考文献:

中国人民大学出版社,[1]何晓群.现代统计分析方法与应用[M].北京:

1998.

[2]LuCong-de,ZhangChun-mei,ZhangTai-yi,etal.Kernelbased

symmetricalprincipalcomponentanalysisforface[J].Classification,Neurocomputing,2006.

NgS.Aremoredataalwaysbetterforfactoranalysis?[J].[3]BoivinJ,

JournalofEconometrics,2006.

中国统计出版社,[4]朱建平.数据挖掘的统计方法及实践[M].北京:

2005.

吉林出版社,[5]丁士晟.多元分析方法及其应用[M].吉林:1987.北京大学出版社,[6]高惠璇.应用多元统计分析[M].北京:2005.中国地质大学出版社,[7]向东进.实用多元统计分析[M].武汉:2005.科学出版社,[8]张润楚.多元统计分析[M].北京:2006.

以上是通过主成分分析和因子分析对我国区域经济发展进行比较分析的一个应用实例,采用了20世纪80年代的历史数据进行了比较分析,从结果中可以看出完全符合当时我国区

应用主成分分析的方法即可以在运域经济的发展状况。总之,

算结果的基础上,对各省区经济发展战略模式和经济发展总体水平进行综合性的比较、分析和评价,为制定决策提供科学的依据。该方法一直在区域宏观经济分析系统中使用,也得到了有关方面的一致好评,但由于实际数据的保密性,就不便将结果显示出来了。实践证明该方法不仅实用,而且也有着很好的发展前景,随着其研究和应用的进一步深入,目前已在数据库和数据挖掘等领域得到广泛的应用,并取得了很好的社会效益。

本文来源:https://www.bwwdw.com/article/pad1.html

Top