主成分与因子分析区别

更新时间:2024-06-07 12:17:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

主成分分析与因子分析方法的比较

The Comparison of Principal Component Analysis Method and Factor

Analysis Method

内容摘要:主成分分析和因子分析都是简化数据结构的重要方法,二者既有区别也有联系。二者都可以运用SPSS软件求解分析,同时,主成分分析还可以应用matlab软件编程求解。文章首先从概念上介绍这两种方法,说明两种方法的原理;同时,通过这两种方法对安徽省15个县的经济发展的指标数据进行实证分析和比较,在两种模型的建立与求解过程中,不同方法得到的排名结果不同。再结合两种方法的原理及应用的区别,就四个方面具体比较两种方法。分析比较之后,得出明显的结论:两种方法的排名结果差别比较大,这对于建立完善的评估体系是无益的,对于经济社会的发展起不到应有的作用。因此,熟悉两种方法的区别,并判别不同问题的使用方法,才能在实际应用时选择更实用更合理的方法,对经济现象进行更有效的分析和评价。

关键词: 主成分分析;因子分析;SPSS;matlab;经济发展

目 录

主成分分析与因子分析方法的比较 ......................................... 1 1. 引言 ................................................................ 1

1.1 选题背景 ........................................................ 1 1.2 国内研究成果 .................................................... 1 1.3 本文研究思路 .................................................... 2 2. 主成分分析与因子分析原理 ........................................... 2

2.1 主成分分析原理 .................................................. 2 2.2 因子分析原理 .................................................... 3 3. 实证分析 ............................................................ 4

3.1 数据准备 ........................................................ 4 3.2 主成分分析 ...................................................... 4 3.3 因子分析 ........................................................ 6 4. 结论 ................................................................ 8

4.1 结果分析 ........................................................ 8 4.2 主成分与因子分析的区别 .......................................... 9 5.结束语 .............................................................. 10 参考文献 .............................................. 错误!未定义书签。 附录 1 ............................................... 错误!未定义书签。 附录 2 ............................................... 错误!未定义书签。 附录 3 ............................................... 错误!未定义书签。 附录 4 ............................................... 错误!未定义书签。

1. 引言

在分析省内几个地区的发展状况时,为了尽可能全面反映评价对象的整体情况,需要选取恰当的、客观的评价指标。由于数据的复杂性, 综合评价通常涉及到多指标,这不仅会增加评价的工作量而且会因评价指标间的相关性造成评价信息相互干扰,从而难以客观地反映评价对象的真实属性。

1.1 选题背景

在实际工作中,需要精简指标,将原来的指标重新组合成一组相互无关的综合指标以此来尽可能多地反映原来指标信息量,主成分分析与因子分析为解决此类问题提供了很好的方法。

主成分分析和因子分析都是简化数据结构的重要方法,二者既有区别也有联系。主成分分析方法是一种将多维因子纳入同一系统进行定性、定量化研究,理论比较完善的多元统计分析方法。研究如何通过少数几个主成分来解释多变量的方差、协方差结构的分析方法,也就是求出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此不相关。因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。这两种方法是处理多变量、大样本时经常采用的方法,其二者的最终目的都是降维。

但这两种综合评价方法往往易混淆,因此比较两种分析方法的异同点对于解决问题有重要作用。

1.2 国内研究成果

主成分分析方法和因子分析方法都是寻求从高维空间到低维空间的映射的方法,国内文献中就其区别研究,主要分为以下几种:统计依据、数学模型、计算方法、综合指标的选取等方面比较它们的异同①,以理论的分析具体理解两种分析方法。

另外,国内文献中,也从主成分分析法、因子分析法的基本思想、使用方法及统

①钱道翠:《综合评价主成分分析方法与因子分析方法的比较》,浙江:浙江统计,2004年,第32页。

1

计量的分析等多角度进行比较,并辅以实例分析研究②。

1.3 本文研究思路

本文给出选出的安徽省内15个县的经济指标数据,由于指标过多,并可能存在共线性问题,考虑利用主成分分析方法和因子分析方法进行比较综合评价。

以实际数据建立模型求解分析,运用matlab软件实现主城分析建模求解,运用spss软件分析因子分析的结果,在建模求解、结果分析的过程中比较两种评价方法的特点。

2. 主成分分析与因子分析原理 2.1 主成分分析原理

主成分分析法①是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。

设X1,X2,?,XP为实际问题的p个n维随机变量(p项指标)记X?(X1,X2,?,XP),其协方差矩阵为

??(?ij)p?E[(X?E(X))(X?E(X))T]

它是一个p阶的非负定矩阵。设变量X1,X2,?,XP经过线性变换后得到新的综合变量Y1,Y2,?,YP,即

?Y1?l11x1?l12x2???l1pxp?Y?lx?lx???lx?22112222pp ?????Yp?lp1x1?lp2x2???lppxp其中系数li?(li1,li2,?,lip)(i?1,2,?,p)为常数向量。且系数需要满足以下三个条件:

(1)系数向量是单位向量,即 li1?li2??lip?1,i?1,2,?,p (2)不同的主成分不相关,即 cov(Yi,Yj)?0,(i?j,i,j?1,2,?,p)

② 王 芳:《主成分分析与因子分析的异同比较及应用》,南京:统计教育,2003年,第14页。

①王 芳:《主成分分析与因子分析的异同比较及应用》,南京:统计教育,2003年,第14页。

2

222

(3)各主成分的方差递减,即 var(Y1)?var(Y2)???var(Yp)?0

称Y1为第一主成分,Y2为第二主成分,依此类推,YP称为第p个主成分。主成分又叫主分量。这里lij我们称为主成分的系数。

2.2 因子分析原理

因子分析①是研究从变量群中提取共性因子的统计技术,可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。

例如:有n个地理样本,每个样本共有p个指标变量,构成一个n?p阶的地理数据矩阵。当p较大时,在p维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。记x1,x2,…,xP为原变量指标,

z1,z2,…,zm(m?p)为新变量指标(主成分),则其线性组合为:

?z1?l11x1?l12x2???l1pxp??z2?l21x1?l22x2???l2pxp????zm?lm1x1?lm2x2???lmpxp?

lij是原变量在各主成分上的载荷。

因子分析过程一般经过以下步骤(可以由SPSS18.0软件直接得出结果): ①原始数据的标准化,标准化的公式为xij?(xij?xj)/?j,其中xij为第i个样本的第j个原指标值,而xj和?j分别为j指标的均值和标准差。标准化的目的在于消除不同变量的量纲的影响,而且标准化转化不会改变变量的相关系数;

②计算标准化数据的相关系数阵,求出相关系数矩阵的特征值和特征向量; ③进行正交变换,使用方差最大法。其目的是使因子载荷两极分化,而且旋转后的因子仍然正交;

④确定因子个数,计算因子得分,进行统计分析。

①唐功爽:基于SPSS的主成分分析与因子分析的辨析[J].统计教育,2007年第2 期,第12页。

3

3. 实证分析 3.1 数据准备

通过实例来研究 SPSS软件中的因子分析和MATLAB软件中的主成分及二者分析结果的比较。运用两种分析方法对安徽省几个县的经济发展状况进行分析并对二者分析结果进行比较。本文在选取指标时遵循了指标选取的基本原则,即针对性、可操作性、 层次性、 全面性等原则, 选取了以下反映各个县经济发展综合水平的7项指标:人均生产总值、人均财政收入、职工平均工资、人均工业增加值、人均农林牧渔业、农民人均纯收入、人均社会消费品。

所有数据均来源于《安徽统计年鉴2011》。运用因子分析时SPSS19.0 将自动对原始数据进行标准差标准化处理, 消除指标量纲及数量级的影响;运用主成分分析时,在MATLAB软件编程过程中注意消除量纲的影响。具体数据见下表1。

表1 安徽省15个县的主要经济指标

人均生产 人均财政 职工平均 人均工业 人均农林 农民人均 人均社会 总值 收入 工资 增加值 牧渔业 纯收入 消费品 21337 1039.91 32530 7934.82 7929.64 6120.07 2857.14 长丰县 20135 984.92 33516 7521.03 7192.99 7026.67 3752.27 肥东县 30581 1480.79 33432 11504.8 7119.12 7096.82 3951.13 肥西县 10329 609.14 29570 4518.75 4171.69 5178.24 3150.22 濉溪县 8575 381.03 28521 2427.25 3798.98 5105.66 3652.15 涡阳县 8692 409.74 28212 1446.61 4455 5211.51 3876.81 蒙城县 8022 226.72 23469 2269.22 4779.18 4520.08 2533.48 砀山县 10124 344.85 24546 2714.03 5525.13 5609.44 3566.08 怀远县 12295 498.04 25392 2246.72 7864.1 5547.75 3898.85 五河县 13124 479.09 24434 3127.63 8413.46 5562.14 3694.33 固镇县 7820 224.53 22967 1618.56 4930.14 4597.58 3235.61 寿县 8734 419.75 27754 3428.08 3803.97 4773 2919.33 霍邱县 9526 396.93 28775 2138.38 3788.61 4818.52 3678.75 舒城县 9024 450.24 28800 2752.36 3741.32 4428.25 4506.8 金寨县 22718 1497.36 26030 12007.31 3867.69 5047.24 4906.21 霍山县 资料来源:安徽统计年鉴2011年版,全省分县(市)主要经济指标及位次(2010年)。 地区

3.2 主成分分析

3.2.1 主成分分析用于综合评价的步骤①

(1) 若各指标的属性不同(成本型、利润型、适度型),则将原始数据矩阵A统一

①李柏年,吴礼斌:MATLAB数据分析方法[M].北京:机械工业出版社,2012。

4

趋势化,得到属性一致的指标矩阵Y;

(2) 计算的协方差矩阵或相关系数矩阵R; (3) 计算R的特征值与相应的特征向量;

(4) 根据特征值计算累计贡献率,确定主成分的个数,而特征向量就是主成分的系数向量;

(5) 计算主成分的数值(即主成分得分)。若利用协方差矩阵计算特征值与特征向量,则主成分得分为

F?(B?EB)?V

若利用相关系数矩阵R计算特征值与特征向量,则主成分得分为:

F?B*?V

其中,V是特征向量矩阵,B*是将矩阵标准化以后的矩阵(即zscore(B)); (6) 计算综合评价值,进行排序.若为效益型矩阵,则评价值越大排名越靠前;若为成本型矩阵,则评价值越小排名越靠前。通常计算综合评价值的公式为: Z?F*W其中F是主成分得分矩阵,W是将特征值归一化后得到的权向量。

其中,利用第一主成分得分排序要满足两个条件:一个是最大特征值对应的特征向量是正向量;另一个是贡献率>50% 。

3.2.2 主成分分析模型的建立与求解

(1) 模型中选取的各指标的属性相同,都是效益型数据,因此无需变换; (2) 运用matlab软件求出相关系数矩阵,见附录一,显然没有相关系数为1的指标,说明指标的选取都是有意义的;

(3) 运用matlab软件编程求出特征值与相应的特征向量,并求出贡献率,程序见附录二。结果如下表2。

特征值 4.3101 1.3205 0.7468 0.5000 0.0992 0.0180 0.0055 表2 特征值、特征向量及贡献率 特 征 向 量 (0.4716,0.4542,0.3435,0.4392,0.2495,0.4118,0.169) (-0.0245,-0.228,0.0707,-0.2169,0.599,0.3525,-0.6421) (-0.0669,0.0143,0.6687,0.0642,-0.5551,-0.03,-0.4848) (-0.2212,-0.2661,0.5218,-0.4434,0.0918,0.299,0.56) (-0.0219,-0.1343,-0.3868,0.0239,-0.482,0.7735,-0.0271) (0.8491,-0.2882,-0.015,-0.3955,-0.1576,-0.1199,-0.0109) (0.0476,-0.7547,0.0886,0.6343,0.0723,-0.0565,0.0981) 贡献率 0.6157 0.1886 0.1067 0.0714 0.0142 0.0026 0.0008 (4) 由上表可见,第一主成分所对应的最大特征值对应的特征向量是正向量并且

5

其贡献率为61.6%,大于50%,因此可直接利用第一主成分得分排序。并且,对于第一主成分,各个指标对应的权重大小可用其对应的特征向量来观察,如人均社会消费品所占的权重最小,与评价经济发展状况是相符合的。排序结果如下表3。

表3. 各县第一主成分得分排名 得 分 得 分 排 名 地 区 -5.2649 14 五河县 2.0012 0.9788 6 固镇县 0.5747 2.3659 3 寿 县 -2.625 -3.2206 12 霍邱县 -4.8311 0.2804 9 舒城县 0.466 1.8475 5 金寨县 6.2418 -7.5225 15 霍山县 9.0278 -0.3199 10 地 区 长丰县 肥东县 肥西县 濉溪县 涡阳县 蒙城县 砀山县 怀远县 排 名 4 7 11 13 8 2 1

3.3 因子分析

3.3.1 因子分析的步骤

因子分析有两个核心问题:一是如何构造因子变量;二是如何对因子变量进行命名解释。因子分析有下面4个基本步骤①:

(1) 确定待分析的原有若干变量是否适合于因子分析。因子分析是从众多的原始变量中构造出少数几个具有代表意义的因子变量,这里面有一个潜在的要求,即原有变量之间要具有比较强的相关性。如果原有变量之间不存在较强的相关关系,那么就无法从中综合出能反映某些变量共同特性的少数公共因子变量来。因此,在因子分析时,需要对原有变量作相关分析。如果相关系数矩阵在进行统计检验中,大部分相关系数都小于0.3,并且未通过统计检验,那么这些变量就不适合于进行因子分析;

(2) 构造因子变量。因子分析中有多种确定因子变量的方法,如基于主成分模型的主成分分析法和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。其中基于主成分模型的主成分分析法是使用最多的因子分析方法之一;

(3) 利用旋转使得因子变量更具有可解释性。在实际分析工作中,主要是通过对载荷矩阵的值进行分析,得到因子变量和原变量的关系,从而对新的因子变量进行命名;

①魏艳华.王丙参,田玉柱:主成分分析与因子分析的比较研究, 天水师范学院学报,2009。

6

(4) 计算因子变量的得分。计算因子得分是因子分析的最后一步,因子变量确定以后,对每一样本数据,希望得到它们在不同因子上的具体数据值,这些数值就是因子得分,它和原变量的得分相对应。

3.3.2 因子分析模型的建立与求解

(1) 相关系数矩阵可见附录1,其大部分变量间的相关系数都较大,初步判断适合用因子分析;SPSS输出结果文件中检验值如下表4。

表4 KMO 与Bartlett 球体检

KMO 和 Bartlett 的检验

取样足够度的Kaiser-Meyer-Olkin 度量。 Bartlett 的球形度检验

近似卡方

df Sig.

.596 116.721 21 .000

Bartlett球度检验是以原有变量的相关系数矩阵为出发点,假设相关系数为单位矩阵,如果该检验对应的P值小于给定的显著性水平a,则应拒绝原假设,认为原有变量适合进行因子分析;KMO检验的统计量取值在0-1之间,越接近于1说明变量间的相关性越强,原有变量适合做因子分析。

KMO统计量是 0.596,且 Bartlett 球体检验值为 116.721,卡方统计值的显著性水平为 0.000 小于 0.01,都说明各指标之间具有较高相关性,因此本文数据适用于作因子分析。

(2) 总方差分解,如下表5中,依据贡献率大于85%的原则,提取了 3个公因子,它们的累积方差贡献率达 91.105%, 这 3 个公因子包含了原指标的绝大部分信息,可以代替原来7个变量对城市经济发展水平现状进行衡量。

表5 解释的总方差

解释的总方差 成份 初始特征值 方差合计 1 2 3 4.310 1.321 .747 的 % 61.572 18.865 10.668 累积 % 61.572 80.437 91.105 合计 4.310 1.321 .747 提取平方和载入 方差的 % 61.572 18.865 10.668 累积 % 61.572 80.437 91.105 合计 3.054 1.774 1.549 旋转平方和载入 方差的 % 43.634 25.348 22.123 累积 % 43.634 68.982 91.105 7

4 5 6 7 .500 .099 .018 .006 7.143 1.417 .257 .079 98.247 99.664 99.921 100.000 提取方法:主成份分析。

(3) 利用SPSS软件计算出3个因子的得分,详见附录4。并得出所有地区的排名结果如下表6。F1、F2、F3是用SPSS软件做出的三个因子,其因子得分如表 6中所示。计算三个公共因子上的得分与其权重的乘积并求和,以此作为综合评价的依据进行排序。F即为计算出的综合得分,并可以其大小进行排序。

F?0.4363?F1?0.2535?F2?0.2212?F3

表6 因子得分及地区排名情况

地区名称 长丰县 肥东县 肥西县 濉溪县 涡阳县 蒙城县 砀山县 怀远县 五河县 固镇县 寿 县 霍邱县 舒城县 金寨县 霍山县 F1 1.3342 1.3443 1.9668 0.5909 -0.004 -0.289 -0.785 -0.843 -1.161 -1.276 -1.206 0.1839 -0.004 -0.32 0.468 F2 1.002 0.9061 0.9818 -0.843 -0.913 -0.539 -0.195 0.4528 1.4095 1.7531 -0.053 -0.973 -1.03 -1.246 -0.713 F3 -1.041 -0.291 0.6249 -0.828 -0.336 -0.066 -1.09 0.0034 0.4439 0.3638 -0.216 -1.015 -0.274 0.8507 2.8713 F 0.60604 0.75189 1.24549 -0.139 -0.3076 -0.2773 -0.6331 -0.2526 -0.0513 -0.0318 -0.5874 -0.391 -0.3238 -0.2673 0.65885 名 次 4 2 1 7 11 10 15 8 6 5 14 13 12 9 3 4. 结论 4.1 结果分析

结合表3与表6可以看出, 主成分分析与因子分析的实证结果,大部分地区的排名存在差异,其定量值差异较大,这对于综合定量定性分析, 最终得出的评估结果都有很大影响。

在上述实证分析的主成分分析模型中,选取第一主成分作为计算得分,而若以累计贡献率达到85%以上的标准来计算得分,其结果会发生一些变化,运用matlab软

8

本文来源:https://www.bwwdw.com/article/usv6.html

Top