基于SPSS 软件的因子分析法及实证分析

更新时间:2023-08-31 17:01:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

spss使用

科技信息高校理科研究

基于SPSS软件的因子分析法及实证分析

赣南师范学院

刘芊

蓝国赈

[摘要]本文论述了多元统计分析中的因子分析方法,以及SPSS软件应用时的正确操作步骤,并借助于SPSS12.0forWindows统计软件进行实证分析。[关键词]因子分析SPSS软件实证分析

1、因子分析的数学模型1.1概念和意义

因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计方法,在教育、医学、市场经济等领域以及其它领域的科学研究中,往往需要对反映事物、现象从多个角度进行观测,也就设计出多

多变量个观测变量,从多个变量收集大量数据以便进行分析寻找规律。

大样本虽然会为我们的科学研究提供丰富的信息,但确增加了数据采

更重要的是在大多数情况下,许多变量之间存在一定集和处理的难度。

的相关关系,从而增加了问题分析的复杂性。

因子分析就是将大量的彼此可能存在相关关系的变量转换成较少彼此不相关的综合指标的一种多元统计方法。这样既可减轻收集信的、

息的工作量,且各综合指标代表的信息不重叠,便于分析。

1.2基本过程

因子分析的基本过程可分为两个步骤:第一步主因子分析

是通过原始变量的相关系数矩阵内部结构的研究,导出能控制所有变量的少数几个综合变量,通过这少数几个综合变量去描述原始的多个变量之间的相关关系。一般来说,这少数的几个综合变量是不可观测的,故称其为因子,我们又称这种通过原始变量相关系数矩阵出发的

因子分析所获得的反映变量间本质联系、变因子分析为R型因子分析。

量与公共因子的关系的全部信息通过导出的因子负荷矩阵体现。

第二步对因子解释和命名

从因子分析导出的负荷矩阵的结构出发,把变量按与公共因子相关性大小的程度分组,使同组内变量间的相关性较高,不同组的变量的相关性较低,按公因子包含变量的特点(即公因子内涵)对因子作解释命名。

1.3数学模型

设m个可能存在相关关系的测试变量Z1,Z2,…,Zm含有P个独立的公共因子F1,F2,…,Fp(p≤m),测试变量Zi含有独特因子Ui(i=1…m),诸Ui间互不相关,且与Fj(j=1…p)也互不相关,每个Zi可由P个公共因子和自身对应的独特因子Ui线性表出:

Z1=a11F1+a12F2+…+a1pFp+c1U1 Z2=a12F1+a22F2+…+a2pFp+c2U2

……………………………

Zm=am1F1+am2F2+…+ampFp+cmUm

用矩阵表示:

Z1 F1 c1U1

ZFcU 2 2 22

=(aij)m×p· +

ZF

简记为:

Z=A·F+C

(m×1)(m×p)(p×1) m

且满足:(1)P≤m;

(2)COV(F,U)=0(即F与U是不相关的);(3)E(F)=0COV(F)=Ip(即F1,……FP不相关,且方差皆为1,均值皆为0);

且都是标准化的变(4)E(U)=0COV(U)=Im(即U1,……,Um不相关,量,假定Z1,…,Zm也是标准化的,但并不相互独立)。

式中A称为因子负荷矩阵,其元素aij表示第i个变量(zi)在第j个公共因子Fj上的负荷,简称因子负荷,如果把Zi看成P维因子空间的一个向量,则aij表示Zi在坐标轴Fj上的投影。因子分析的目的就是通过上述模型,以F代Z,由于一般有P<m,从而达到简化变量维数的愿望。

1.4因子分析法和SPSS软件应用时一对一的正确步骤(1)指标的正向化。(2)指标数据标准化(SPSS软件自动执行)。(3)指标之间的相关性判定:用SPSS软件中表“CorrelationMatrix(相关系数矩阵)”判定。

(4)确定因子个数m:用SPSS软件中表“TotalVarianceExplained”特征值累计贡献率,结合表“RotatedComponentMatrix(旋转后因子载荷

中变量不出现丢失,确定因子个数m。阵)”

(5)求旋转后因子载荷阵:SPSS软件中表“RotatedComponentMatrix”。(6)因子Zi的命名:将SPSS软件中表“RotatedComponentMatrix”因子载荷矩阵的第i列绝对值大的对应变量归为Zi一类,并由此对Zi命名(命名清晰性高)。

(7)回归求因子得分函数Zi表达式:SPSS软件中表“ComponentScoreCoefficientMatrix(因子得分系数矩阵)”的第i列向量为第i个因子得分函数Zi的系数,由此写出因子得分函数Zi表达式。

(8)求单因子得分值(SPSS软件自动执行)与综合因子得分值(在“transform→compute”中进行计算)。

(9)检验:综合评价值用实际结果、经验与原始数据做聚类分析进行

。检验(对有争议的结果,可用原始数据做判别分析解决争议)

(10)综合实证分析。2、实证分析举例

2.1数据准备本文拟选取以下11个经济指标构建城市工业现代化的指标体系:

X1:人均国内生产总值(元)X2:工业总产值(亿元)X3:全社会固定投资额(亿元)X4:进出口总额(亿美元)X5:工业用电(亿千瓦时)X6:专业技术人员比重(%)X7:大中型企业比重(%)X8:二三产业对GDP贡献率(%)X9:二三产业从业人员比重(%)X10:人均可支配收入(元)X11:利用外资额(万美元)

这里选取的具有代表性的一些指标,能够反映江苏省各个城市的工业现代化指标,其具体的数据见下表1:X6

X7大中型

企业比重(%)0.1560.1130.296

X8二三产业GDP贡献率(%)0.9780.9740.978

X9二三产业从业人员比重(%)

0.8660.8690.824

X10人均可支配收入(元)884894547616

X11利用外资

额(万美元)851348857513715

cU

(m×m)(m×1)(对角阵)

表1江苏省城市工业化指标数值

X1

指标城市

人均国内生产总值(元)260253770019726

X2工业总产值(亿元)1579.21115.1295.73

X3固定资产投资(亿元)416.7277176.7

X4

X5

专业技术进出口

工业用电

人员比重总额

(亿千瓦时)

(%)(亿美元)94.6949.112.9

122.579.0140.11

0.150.1640.147

南京无锡徐州

spss使用

常州苏州南通连云港淮安盐城扬州镇江泰州宿迁

254172969324180178707022136172131126310205798383

464.991039.6292.14112.18188.2190.03309.79227.61188.3311.22

100.8243.578.1892.0797.0643.2874.0360.2154.7624.18

19.94119.8321.876.322.651.936.6710.421.820.16

29.9666.4725.1711.9120.27.8615.9325.418.681.39

0.1930.1250.1470.1540.0450.1910.1220.2070.1160.063

0.1480.0970.1910.1630.1250.340.1560.2780.3030.333

0.9820.9590.9770.9410.7740.9320.9530.9900.9630.946

0.9440.8250.8110.8240.4780.8680.8570.9060.7780.732

表7主因子命名

变量高载荷指标因子命名

主因子一

X3、X4、X5、X7、X10、X11X2、

综合实力因子

主因子二X1、X6、X8、X9产业发展因子94061051584856981651369357205769874394899

3594911848298614119124310496433195944358275

2.2因子分析

下面用SPSS12.0forWindows统计软件进行实证分析。2.2.1首先将数据进行标准化,以备后用(表2略)2.2.2求出11个指标的相关系数矩阵R(表3略)由相关系数矩阵可以看出,11个指标彼此之间存在一定的相关性,说明11个指标反映的经济信息有一定的重迭。

2.2.3计算矩阵R的特征值,求特征值的贡献率和累计贡献率(表4略)

根据特征值大于1的提取原则,有两个因子符合原则,并且前两个因子的累计贡献率为84.337%,即前两个公因子所解释的方差占总方差的84.337%,用这两个公因子来反映城市的工业现代程度所损失的信息不多,所以这两个公因子能够综合反映江苏各城市的工业现代化水平。

2.2.4采用主成分分析法计算出初始因子载荷矩阵(表5略)2.2.5因子旋转建立因子分析模型的目的不仅是找出主因子,更重

然而用上述方法求出的公因子解,各主要的是知道每个主因子的意义。

因子的典型代表变量不很突出,容易使因子的意义含糊不清,不便于对

因此用方差最大正交旋转法对因子进行旋转,得表实际问题进行分析。

6。

表6旋转后因子载荷矩阵(方差最大正交旋转矩阵)

变量

人均国内生产总值(X1)工业总产值(X2)全社会固定投资额(X3)进出口总额(X4)工业用电(X5)专业技术人员比重(X6)大中型企业比重(X7)二三产业对GDP贡献率(X8)二三产业从业人员比重(X9)人均可支配收入(X10)利用外资额(X11)

Component1.643.954.918.920.920.029-.745.099.105.770.933

2.658.175.091.117.165.897.193.915.967.453.215

2.2.6利用regression(回归法),得出因子得分系数矩阵(见表8)

表8因子得分系数矩阵

变量

人均国内生产总值(X1)

工业总产值(X2)全社会固定投资额(X3)

进出口总额(X4)工业用电(X5)专业技术人员比重(X6)大中型企业比重(X7)二三产业对GDP贡献率(X8)二三产业从业人员比重(X9)人均可支配收入(X10)利用外资额(X11)城市南京苏州无锡常州镇江南通徐州扬州连云港泰州盐城宿迁淮安

Z11.866771.741441.30429-.00996-.64438-.22350-.37043-.35893-.50487-.70507-1.06575-1.07703.04741

Z2.08590-.09635.52890.968741.15684.29778.32247-.01726-.03362.02298.48163-.83713-2.88089

Component1.066.169.169.167.163-.074-.161-.062-.066.108.161Z1.02738.90420.86184.29221.00980-.02838-.09959-.19777-.28104-.37101-.42354-.83465-.85944

2.165-.026-.051-.042-.026.300.131.299.317.084-.010排序12345678910111213

(下转第105页)

表9因子综合得分及排序

由旋转后的因子载荷矩阵可以看出:

因子1主要反映一个城市的经济发展状况,因子1得分越高说明城市的经济越发达,城市的工业现代化程度越高。

因子2主要反映城市二﹑三产业的比重及产业的集中度,因此,因子2得分越高城市的工业化程度越高。

给主因子命名,见表7:

spss使用

密度函数为

fR(r)=rJ0()×仪J0()J0(rq)qdqr>=0

n=10姨0姨0是时间t和包络幅度r的函数。可以得出Jakes仿真器产生的不是广义平稳(WSS)信号。同理其自相关函数即使当N0→∞,t1=t2=t时RRR(t,t)→1+J0(2ωmt)仍然是时变的,因此Jakes仿真器不是各态历经的,统计特性不能达到Rayleigh信道模型的要求:基包络并未严格服从Rayleigh分布,且是时变的;自相关函数并未趋向于贝塞尔函数,同相和正交分

分析其统计特性产生偏差的原因量之间具有相关性,互相系数不为零。

可将(1)式改写如下:

T(t)={Σ[expj(ωmcosαnt+bn)+expj(-ωmcosαnt+bn+2N0+1)

n=1

+expj(ωmcosαnt+b4N0+2-n)+expj(-ωmcosαnt+b2N0+1-n)

(3)+expj(ωmt+b4N0+2)+expj(-ωmt+b2N0+1)}

将式(2)、(3)进行比较可以得出相移bn,b2N0+1-n,和b4N0+2-n之间具有相关性,也就具有相同多普勒频移的到达波具有相关性,这与参考模型“不同路径的附加相移是相互独立的”假设是矛盾的。Jakes仿真器利中

用多普勒频移的对称性减少了振荡器的数目,同时也使得生成的信号不稳定,这就是Jakes仿真器产生的信号不平稳的根本原因。

2.2Jakes仿真器的多普勒频移简化法

此法与Jakes仿真器不同之处在于考虑多普勒频移的同时,把所有对应的随机相移都考虑进去了,这样就避免了Jakes仿真器中随机相移产生的问题,保证了物理信道的真实特性,能够与参考模型的所有特性

。相吻合(Jakes改进仿真模型见图3)

N0

关函数除了与时间差有关外,还与时间和有关[1]。综上所述,Jakes信道

模型在减少振荡器的同时,引入相移之间的相关性,使输出信号偏离了

而多普勒频移简化法充分考虑了相移的随机特Rayleigh信道统计模型。

性,更符合参考模型的统计特性。

N0

图1Jakes仿真器模型

R(t)=Σcos(ωct+ωmtcosαn+φn)=Xc(t)cosωct+Xs(t)sinωct

n=1

对同相分量和正交分量表达式做如下变化:

图2对比模型和理论自相关函数(σ2=1,fmax=91Hz)

Pn=cosφn+cosφ2N0+1-n+cosφ2N0+1+n+cosφ4N0+2-nPn=sinφn-sinφ2N0+1-n-sinφ2N0+1+n+sinφ4N0+2-nQn=sinφn+sinφ2N0+1-n+sinφ2N0+1+n+sinφ4N0+2-nQn=cosφn-cosφ2N0+1-n-cosφ2N0+1+n+cosφ4N0+2-nPN+1=cosφ2N0+1+cosφ4N0+2

cs

cs

PN+1=sinφ2N0+1-sinφ4N0+2

QN+1=sinφ2N0+1+sinφ4N0+2

图3

4结束语

本文介绍了平坦信道仿真的基本要点,并以Jakes信道仿真器为例进行了深入分析,从衰落的数学模型表达式出发,分析研究了Jakes信

统计特性及其改进方法,可以看出在信道仿真过道仿真器的数学建模、

程中,确实形模型和随机模型之间的关系确定上要充分考虑模型的各阶统计特性,做到模型与实际物理信道的真实特性相符合。参考文献

[1]杨大成等著.移动传播环境:理论基础、分析方法和建模技术[M].机械工业出版社,2003.8p178-228

[2]MichaelJ.Gans.APower-SpectralTheoryofPropagationintheMobile-RadioEnvironment[M].IEEETrans.VehicularTechnology,vol.VT-21,NO.1,Febrary1972p27-33

[3]MatthiasPatzold.StatisticalPropertiesofJakes’FadingChannelSimulator.IEEETrans.VehicularTechnologyconference,VCT-98,48th1998.p712-717

参考文献

[1]张文彤主编.《SPSS11统计分析教程(高级篇)》[M].北京希望电子出版社,2002年6月.

[2]吴明礼主编.《统计学原理》[M].中国物资出版社,1999年7月.

QN+1=cosφ2N0+1-cosφ4N0+2

则改进后的模型可以简化为:

除了是大多普勒频移ωm只对两个随机相移之外,其它的每个多普勒频移ωn都对应四个随机相移。由此可以看出,该模型完全是建立在参考模型基础之上的,没有任何附加假设条件。因此产生的信号是广义平衡(WSS)的;包络概率分布趋向服从Rayleigh分布;互相关特性为零。

3Jakes仿真器仿真及性能分析[3]如图1、图2分别给出了Jakes仿真器模型和模型与理论自相关函数对比,由图可以看出自相关函数并未趋向于贝塞尔函数,实质上自相

X(t)=姨Xc(t)=

{(Pccosωt-Pssinωt)-Pccosωt+Pssinωt}

ΣmmmmN+1N+1nn=1n

N0

{Σ(Qnsinωmt+Qncosωmt)-QN+1sinωmt+QN+1cosωmt}

n=1

N0

scsc

三类:

第一类包括:南京﹑苏州﹑无锡﹑常州四个城市经济发展状况最好,工业现代化程度最高。

第二类包括:镇江﹑徐州﹑南通﹑连云港﹑盐城﹑扬州﹑泰州这七个城

本文来源:https://www.bwwdw.com/article/75xi.html

Top