因子分析在STATA中实现和案例

更新时间:2024-05-09 14:26:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第13章 因子分析

因子分析始于1904年Chars Spearman对学生成绩的分析,在经济领域有着极为广泛的用途。在多个变量的变化过程中,除了一些特定因素之外,还受到一些共同因素的影响。因此,每个变量可以拆分成两部分,一是共同因素,二是特殊因素。这些共同因素称为公因子,特殊因素称为特殊因子。因子分析即是提出多个变量的公共影响因子的一种多元统计方法,它是主成分分析的推广。

因子分析主要解决两类问题:一是寻求基本结构,简化观察系统。给定一组变量或观察数据,是否存在一个子集,特别是一个加权子集,来解释整个问题,即将为数众多的变量减少为几个新的因子,以再现它们之间的内在联系。二是用于分类,将变量或样本进行分类,根据因子得分值,在因子轴所构成的空间中进行分类处理。

p个变量X的因子模型表达式为:

X=f?'?e

f称为公因子,?称为因子载荷。X的相关系数矩阵分解为:

?????'??

对于未旋转的因子,??1。?称为特殊度,即每个变量中不属于共性的部分。

13.1 因子估计

Stata可以通过变量进行因子分析,也可以通过矩阵进行。命令为factor或factormat。

webuse bg2,clear describe

factor bg2cost1-bg2cost6

factor bg2cost1-bg2cost6, factors(2)

* pf 主因子方法,用复相关系数的平方作为因子载荷的估计量(默认选项) factor bg2cost1-bg2cost6, factors(2) pcf * pcf 主成分因子,假定共同度=1

factor bg2cost1-bg2cost6, factors(2) ipf * ipf 迭代主因子,重复估计共同度

factor bg2cost1-bg2cost6, factors(2) ml

* ml 极大似然因子,假定变量(至少3个)服从多元正态分布,对偏相关矩阵的行列式进行最优化求解,等价于Rao的典型因子方法

13.2 预测

Stata可以通过predict预测变量得分、拟合值和残差等。

webuse bg2,clear

factor bg2cost1-bg2cost6 predict f1 f2

* factor1 factor2因子分得分

predict stdp residuals * 预测标准差和残差

13.3 Estat

Eatat给出了几个非常有用的工具,包括KMO、SMC等指标。

webuse bg2,clear

factor bg2cost1-bg2cost6 estat anti estat kmo estat residuals estat smc estat summarize

13.4 因子旋转与作图

因子分析的旋转方法以及碎石图、得分图、因子载荷图与主成分分析的方法相同,请参见”主成分分析”一章。

webuse bg2,clear

factor bg2cost1-bg2cost6 screeplot /*碎石图*/ scoreplot /*得分图*/ loadingplot /*因子载荷图*/ rotate /*旋转*/

例:利用2009年的数据对中国社会发展状况进行综合考察,原始数据如下表:

省份

人均GDP(元) x1 63029 55473 23239 20398 32214 31259 23514 21727 73124 39622 42214 14485 30123 14781

新增固定资产(亿元) x2 2385.8 1676.8 4734.2 1772.6 3309.3 5056.7 3279.9 2405.4 2523.2 7645.9 3434.8 2849.5 1768.3 2962.5

城镇居民人均年可支配收入(元) x3 24724.89 19422.53 13441.09 13119.05 14432.55 14392.69 12829.45 11581.28 26674.9 18679.52 22726.66 12990.35 17961.45 12866.44

农村居民

家庭人均高等学校卫生机构纯收入数(所) 数(个) (元) x4 x5 x6 10661.92 85 6497 7910.78 55 2784 4795.46 105 15632 4097.24 69 9431 4656.18 39 7162 5576.48 104 14627 4932.74 55 9659 4855.59 78 7928 11440.26 66 2822 7356.47 146 13357 9257.93 98 15290 4202.49 104 7837 6196.07 81 4478 4697.19 82 8229

area

北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西

山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆 33083 19593 19860 17521 37589 14966 17175 18025 15378 8824 12587 13861 18246 12110 17389 17892 19893 6852.5 6414 3053.4 2478.2 5529.2 1419 230.2 1381.9 2918.7 903 1551 137.4 2262.8 575.2 322.8 403.9 1162.9 16305.41 13231.11 13152.86 13821.16 19732.86 14146.04 12607.84 14367.55 12633.38 11758.76 13250.22 12481.51 12857.89 10969.41 11640.43 12931.53 11432.1 5641.43 4454.24 4656.38 4512.46 6399.79 3690.34 4389.97 4126.21 4121.21 2796.93 3102.6 3175.82 3136.46 2723.79 3061.24 3681.42 3502.9 125 94 118 115 125 68 16 47 90 45 59 6 88 39 9 15 37 14973 11683 10305 14455 15819 10427 2220 6265 20738 5848 9249 1326 8812 10534 1582 1629 6739

程序:

clear

*定义变量的标签 label var area 省份

label var x1 \人均GDP(元)\label var x2 \新增固定资产(亿元)\

label var x3 \城镇居民人均年可支配收入(元)\label var x4 \农村居民家庭人均纯收入(元)\label var x5 \高等学校数(所)\label var x6 \卫生机构数(个)\

describe

factor x1-x6

screeplot /* 碎石图(特征值等于1处的水平线标示保留主成分的分界点)*/ *检验

estat kmo /*KMO检验,越高越好*/ estat smc /*SMC检验,值越高越好*/

rotate /*旋转*/

loadingplot , yline(0) xline(0)/*载荷图 */

*预测

predict score fit residual q /*预测变量得分、拟合值和残差以及残差的平方和*/ predict f1 f2

label var f1 收入因子

label var f2 \投资、社会因子\ list area f1 f2 summarize f1 f2 correlate f1 f2

scoreplot,xtitle(\收入因子\投资、社会因子\mlabel(area) yline(0) xline(0) /*得分图*/

分析:

首先通过主因子分析(factor),得到主成分因子:

Factor analysis/correlation Number of obs = 31 Method: principal factors Retained factors = 3 Rotation: (unrotated) Number of params = 15

-------------------------------------------------------------------------- Factor | Eigenvalue Difference Proportion Cumulative -------------+------------------------------------------------------------ Factor1 | 3.28193 1.42544 0.6554 0.6554 Factor2 | 1.85648 1.81677 0.3707 1.0261 Factor3 | 0.03971 0.06244 0.0079 1.0341 Factor4 | -0.02272 0.03972 -0.0045 1.0295 Factor5 | -0.06244 0.02293 -0.0125 1.0170 Factor6 | -0.08538 . -0.0170 1.0000 -------------------------------------------------------------------------- LR test: independent vs. saturated: chi2(15) = 211.52 Prob>chi2 = 0.0000

Factor loadings (pattern matrix) and unique variances

----------------------------------------------------------- Variable | Factor1 Factor2 Factor3 | Uniqueness -------------+------------------------------+-------------- x1_s | 0.8609 -0.4463 -0.1125 | 0.0469 x2_s | 0.6274 0.6026 -0.1061 | 0.2320 x3_s | 0.8800 -0.3931 0.0998 | 0.0611 x4_s | 0.9120 -0.3658 0.0365 | 0.0332 x5_s | 0.6508 0.6526 0.0349 | 0.1494 x6_s | 0.3427 0.7616 0.0572 | 0.2993 -----------------------------------------------------------

从上面的分析可以看出,只有两个成分大于1大于的特征值,同时两个成

分解释了全部六个变量组合的方差还多。不重要的第2 到6个主成分在随后的分析中可以放心地省略去。

运行factor命令后,我们可以接着运行screeplot命令画出碎石图。碎石图中特征值等于1处的水平线标示了保留主成分的常用分界点,同时再次强调了本例中的成分3到成分6并不重要。

Scree plot of eigenvalues after factor4Eigenvalues0112323Number456 碎石图

检验的方法还是跟上一章的主成分分析一样,由于我们都是选用实际的数据来进行分析,所以在一般情况下,检验都是通得过的,可以忽略,觉得有需要的再进行检验。

旋转会进一步简化因子结构。在提取因子之后,键入rotate命令进行旋转。

Factor analysis/correlation Number of obs = 31 Method: principal factors Retained factors = 3 Rotation: orthogonal varimax (Kaiser off) Number of params = 15

-------------------------------------------------------------------------- Factor | Variance Difference Proportion Cumulative -------------+------------------------------------------------------------ Factor1 | 2.90489 0.67214 0.5801 0.5801 Factor2 | 2.23276 2.19228 0.4459 1.0260 Factor3 | 0.04047 . 0.0081 1.0341 -------------------------------------------------------------------------- LR test: independent vs. saturated: chi2(15) = 211.52 Prob>chi2 = 0.0000

Rotated factor loadings (pattern matrix) and unique variances

----------------------------------------------------------- Variable | Factor1 Factor2 Factor3 | Uniqueness -------------+------------------------------+-------------- x1 | 0.9659 0.0601 0.1284 | 0.0469 x2 | 0.2269 0.8399 0.1052 | 0.2320 x3 | 0.9585 0.1143 -0.0844 | 0.0611 x4 | 0.9708 0.1546 -0.0211 | 0.0332 x5 | 0.2236 0.8940 -0.0362 | 0.1494 x6 | -0.0962 0.8291 -0.0635 | 0.2993 -----------------------------------------------------------

Factor rotation matrix

----------------------------------------- | Factor1 Factor2 Factor3 -------------+--------------------------- Factor1 | 0.8578 0.5138 0.0115 Factor2 | -0.5137 0.8579 -0.0135 Factor3 | 0.0168 -0.0056 -0.9998 -----------------------------------------

结合实际情况,我们通过上面的分析整理出前两个主因子的正交因子表。

表:正交因子表 因 子 指 标 x1 x2 x3 x4 x5 x6 Factor 1 0.9659 0.2269 0.9585 0.9708 0.2236 -0.0962 Factor 2 0.0601 0.8399 0.1143 0.1546 0.8940 0.8291 根据上表将六个指标按高载荷分成两类,并结合专业知识对各因子命名,如下表:

表:高载荷分类 1 2 高载荷指标 人均GDP 城镇居民人均年可支配收入 农村居民家庭人均纯收入 高等学校数 卫生机构数 新增固定资产 因子命名 收入因子 投资、社会因子 接着进行一个后续因子分析的制图命令loadingplote有助于将其可视化。从图中我们就可以直观的看出在主因子1中x1、x3、x4明显取得较大值,而对于主因子2则是x2、x5、x6取得较大的值。

载荷图

Factor loadings1x6x5x2Factor 2.2.4.6.8x4x3x100Rotation: orthogonal varimaxMethod: principal factors.5Factor 11

因子分是通过将每个变量标准化为平均数等于0和方差等于1,然后以因子分系数进行加权合计为每个因子构成的线性组合。基于最近的rotate或factor结果,predict会自动进行这些计算。通过命令predict f1 f2,我们得到了各个观察变量的主因子1、主因子2的得分情况。

. list area f1 f2

+--------------------------------+ | area f1 f2 | |--------------------------------| 1. | 北 京 2.561218 -.3716789 | 2. | 天 津 1.557873 -.9623399 | 3. | 河 北 -.3308641 1.11135 | 4. | 山 西 -.4196471 -.1267554 | 5. | 内蒙古 .0597282 -.493462 | |--------------------------------| 6. | 辽 宁 .0589154 1.03599 | 7. | 吉 林 -.1869884 -.0693724 | 8. | 黑龙江 -.3388027 .0518705 | 9. | 上 海 3.102133 -.8749663 |

10. | 江 苏 .7713872 1.864629 | |--------------------------------| 11. | 浙 江 1.640963 .5580102 | 12. | 安 徽 -.5925296 .5026094 | 13. | 福 建 .5376554 -.3128498 | 14. | 江 西 -.445243 .2467043 | 15. | 山 东 .1589503 1.588749 | |--------------------------------| 16. | 河 南 -.4744598 1.084772 | 17. | 湖 北 -.4194019 .7986803 | 18. | 湖 南 -.4611212 .8609527 | 19. | 广 东 .6425342 1.33433 | 20. | 广 西 -.5491737 -.1288966 | |--------------------------------|

21. | 海 南 -.2889173 -1.39015 | 22. | 重 庆 -.3183038 -.6323313 | 23. | 四 川 -.652319 .9108785 | 24. | 贵 州 -.9411649 -.6618432 | 25. | 云 南 -.7608307 -.2586383 | |--------------------------------| 26. | 西 藏 -.6072451 -1.569231 |

. summarize f1 f2

27. | 陕 西 -.7326311 .1913275 | 28. | 甘 肃 -.9497479 -.5987777 | 29. | 青 海 -.6269016 -1.50444 | 30. | 宁 夏 -.4114082 -1.422286 | |--------------------------------| 31. | 新 疆 -.5836563 -.7628338 | +--------------------------------+

Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- f1 | 31 -4.09e-09 .988557 -.9497479 3.102133 f2 | 31 9.13e-09 .9464783 -1.569231 1.864629

在这些因子分之间是存在着相关,在默认选项中,promax旋转允许因子分之间存在相关。通过运行命令correlate f1 f2可得。从运行出来的结果看到,两个因子分相关关系是很小的。

. correlate f1 f2 (obs=31)

| f1 f2 -------------+------------------ f1 | 1.0000

f2 | 0.0158 1.0000

另一个后因子分析制图命令,scoreplot可绘出这些观测案例的因子分的散点图。在本例的得分图中,我们可以看到,上海、北京、浙江、天津这些城市的主因子1的得分相对于其他城市高,因为主因子1是收入因子,这些城市的收入在全国是排在前列的。而我们可以看到北京、上海的在主因子2(即投资、社会因子)的得分是较低,这是因为这两个城市的经济总量相对较小。在江苏、山东、广东这些经济总量名列前茅的省份,它们的主因子2的得分也是相应位于其他城市前面。

得分图

Score variables (factor)2江 苏山 东广 东-1投资、社会因子01河 河南 北四 川湖 南湖北辽 宁浙 江安 徽陕 西江 西黑龙江吉 林山 西广 西云 南内蒙古甘重 庆贵 肃州新 疆海 南宁 夏青西 海藏福 建北 京天 津上 海-2-1Rotation: orthogonal varimaxMethod: principal factors01收入因子23 练习:

将上一章的主成分分析的例子的数据进行因子分析。

居民

省份

GDP (亿元)

消费水平

固定资产投资

职工平均工资

货物周转量 (亿吨公里) x5 758.9 2703.4 5925.5 2562.2 3658.7 7033.9 1157.8 1690.9 4300.9 4974.9 5843.2

居民消费价格指数 (上年100) x6 105.1 105.4 106.2 107.2 105.7 104.6 105.1 105.6 105.8 105.4 105 106.2

商品零售价格指数 (上年x7 104.4 105.1 106.7 107.2 104.7 105.3 106.2 105.8 105.3 104.9 106.3 106.3 100)

x8 10413 12503 23031 10024 8740.2 24769 8406.9 7624.5 25121 67799 40832 11162 工业总产值 (亿元)

(亿元) (元)

(元) x2

x3 3814.7 3389.8 8866.6 3531.2 5475.4 5038.9 3656 4823.1 9323 6747

x4 56328 41748 24756 25828 26114 27729 23486 23046 31667 34146 26363

area 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽

x1

10488.03 20346 6354.38 14000 16188.61 6938.73 7761.8 13461.57 6424.06

8310

6570 6187 8108 7591 7039

9625 10019.1

13698.15 27343 21486.92 13893 8874.17

6377

56565 16029.8

30312.61 11013 15300.6

福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 10823.11 10361 6480.33 31072.06 18407.78 11330.38 11156.64 7171.58 1459.23 5753

5207.7 4745.4

25702 21000 24816 22739 24870 33110 25660 21864 2396.2 2285.5 5165.1 2526.4 2349.8 4428.4 2079 597.7 104.6 106 105.3 107 106.3 106 105.6 107.8 106.9 105.7 106.1 104.9 107.5 106.3 105.6 106 107.6 106.7 15213 8499.6 62959 26028 13455 11553 65425 6072 1103.1 9573 15435.9 5877 10490.6 7406 7145 6103 6550 5647 5534 3756.4 705.4 26404 10107.8

35696.46 14390 10868.7

重 庆 5096.66 四 川 12506.25 贵 州 3333.4 云 南 5700.1 西 藏 395.91 陕 西 6851.32 甘 肃 3176.11 青 海 961.53 宁 夏 1098.51 新 疆

4203.41

9835 3979.6 6072 7127.8 4426 1864.5 4553 3435.9 3504 309.9 6290 4614.4 4869 1712.8 5830 583.2 7193 828.9 5542

2260

26985 1490.3 25038 1578.7 24602 805.3 24030 821.3 47280 35.5 25942 2027 24017 1594.9 30983 335.7 30719 703.6 24687

1273

105.6 105 105.1 105.3 107.6 107.2 105.7 106.1 105.7 103.9 106.4 106.9 108.2 107.9 110.1 110.6 108.5 108.5 108.1

108.5

5755.9 14762 3111.1 5144.6 48.19 7480.8 3667.5 1103.1 1366.5 4276.1

本文来源:https://www.bwwdw.com/article/k6ag.html

Top