统计学之 对应分析

更新时间:2023-08-28 00:30:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第9章 对应分析经济和管理关系中,有时需要了解样品之间的 关系,尤其需要了解变量与样品之间的对应关系。 进一步还希望能在同一个直角坐标系内同时表达 出变量与样品两者之间的相互关系。对应分析 (Correspondence Analysis)就是实现这一目的的有效 方法。

主要内容9.1 对应分析概述 9.2 对应分析的原理和方法 9.3 对应分析的计算与应用 9.4 用SPSS进行对应分析

§9.1 对应分析概述9.1.1 问题的提出处理三种关系 样品之间的关系 -聚类分析、因子分析 变量和样品之间的关系 -对应分析 例如:全国各高校进行教学评估时,不仅要研究教学评 估指标间的关系;各高校间的关系;还要将高校按教学 评估结果进行分类,研究哪些高校与哪些教学评估指标 的关系密切一些

变量之间的关系 -主成分与因子分析

对应分析实际是因子分析的进一步推广。在因子分析中所 用的方法也可称为R型因子分析。但是在实际问题中,这 样的分析方法有它的局限性,主要体现在以下两点。 (1) 研究的对象是样品时,也可采用类似于R型因子分析 的方法做类似的处理,可称之为Q型因子分析。但由于样 品的个数远远大于变量的个数,给Q型因子分析带来了极 大的困难。 (2) 在R型因子分析中,为去掉变量量纲的影响,往往要 对变量进行标准化处理。然而这种标准化处理对样品是非 对等的,这给R型和Q型因子分析之间的联系带来障碍。 对应分析是将R型与Q型因子分析结合起来,不仅适 用于数量型变量,而且还适用于品质型变量。更重要的是 它可以把变量和样品反映在相同坐标轴上,这样就可以把 变量和样品联系起来,便于解释和推断。

9.2 对应分析的原理和方法9.2.1 对应分析中的数据变换方法 设有n个样品,每个样品测量p个变量,得到原始数据矩阵 指标2(X2) 为:指标1(X1) 指标p(Xp)

轾 x12 L x11 犏 犏 x x21 L 22 犏 x= 犏 M M 犏 犏 xn 犏1 xn 2 L 臌

x1 p x2 p M xnp

第1次观测值

第n次观测值

1.对数据矩阵分别计算其行和、列和和总和xi . xijj 1 p

x. j xiji 1

n

x.. xiji 1 j 1

n

p

2.将原始数据阵X转化为概率矩阵P设 pij =xij x..

0≤pij≤1,且

n

p

pij = 1

i= 1 j = 1

将原始数据阵X转化为一个概率矩阵P=(pij)n×p。因此,pij可以解释为每个数据xij出现的“概率”,概率矩阵 p的行和pi.可解释为样品i的“边缘概率”,列和p.j可解释为变 量j的“边缘概率”。 3.根据概率矩阵P确定数据点坐标 如果我们将概率矩阵P中的n个行,看成p维空间中的n个样 品点,则其n个样品点的坐标可表示为 骣 i1 pi2 pip ÷ çp , ÷ ç ç p . p . ,..., p .

÷ ÷ ç i 桫 i i

任意两个样品点r和k之间的欧氏距离为D (r , k ) =2

å

p

(

prj pr .

-

pkj pk .

)2

1 为消除各变量量纲不同的影响,用系数 p. j

j= 1

去乘以距离公式(9.1)就得到加权的距离公式:D (r , k ) =2

å

p

j= 1

pkj 2 1 prj ( ) = p. j pr . pk .

å

p

(

prj pr . p. j

-

pkj pk . p. j

)2

j= 1

通过计算两两样品点之间的距离,可以实现对样品点的分类。 类似地,可以用( p1j p. j p1 . p. j p2. , p2j ,..., pnj p. j pn . )

表示p个变量的坐标。这时任意两个变量i和j之间的欧氏距离为:

å

n

(

pki p.i pk .

-

pkj p. j pk .

)2

k= 1

通过计算两两变量之间的距离,可以实现对变量的分类。

4.计算协方差矩阵 1) 计算变量点的协方差矩阵(

由第i个样品的p项变量观测值 pi . p.1 pi . p.2

pi1

,

pi 2

,...,

pip pi . p. p

)

出发,则第j个变量的均值为

邋p .i= 1 i

n

pi j p. j

pi . =

1 p. j

n

pij =i= 1

p. j

第i个变量与第j个变量的协方差为:rij = å (k =1 n n

p ki p k . p .i

- p.i )(

p kj p k . p .j

- p. j )p k .n

p ki - p .i p k . p kj - p . j p k . = 邋( )( )= p .i p k . p .j p k . k =1

z ki z k jk =1

x. j xk . x.i xk . 其中 xki pk j - p. j pk . xkj - x.. pk i - p.i pk . x.. z = = zk i = = kj p. j pk . x. j xk . p. i pk . x.i xk .

2) 计算样品点的协方差矩阵 计算出样品的协方差矩阵为Q=(qij)n×n=ZZT。其中qrk = = =

å å å

p

( (

prj p..j pr .

-

pr .)( )(

pkj p. j pk . p. j pk .

)

pk .) p. j

j= 1 p

prj - p. j pr . p. j pr .

pkj - p. j pk .

j= 1 p

zrj zk j

j= 1

5.进行数据的对应变换 数据变换的公式为 zij =pij - p. j pi . p. j pi . xij = x. j xi . x.. x. j xi .

由此变换产生出矩阵Z=(zij)n×p,并且将变量点的协方差 矩阵表示为R=ZTZ的形式,将样品点的协方差矩阵表示为 Q=ZZT的形式。R与Q两个矩阵存在明显的对应关系,而且将

原始数据xij变换成zij后,zij对于变量和样品具有对等性。

9.2.2 对协方差矩阵R与Q进行因子分析 1.线性代数中的定理 定理9.1:设矩阵R=ZTZ,Q=ZZT,λi是R的非零特征值,ui 为对应的特征向量,则有: (1) R与Q的所有非零特征值相等; (2) Q的非零特征值λi所对应的特征向量为ZTui。

2.进行因子分析(1) 进行R型因子分析。 计算R=ZTZ的特征值λi≥λ2≥…≥λp。根据其累计百分比

å å

k

li ´ 100% ≥ 80% li

i= 1 p

i= 1

提取前k个特征值,即提取前k个公共因子。计算其相应的单位 化特征向量u1,u2,…,uk,可以得到前k个公共因子的因子载 荷矩阵。轾 u11 犏 犏 犏 u21 U= 犏 犏 犏 犏 u 犏p1 臌 l1 l1 M l1 u12 l 2 u22 l 2 M u p2 l 2 ...u1k l k ...u2k l k M ...u pk l k

(2) 进行Q型因子分析。 定理9.2:对R= ZTZ中的前k个特征值计算相应于Q=ZZT的单位特 征向量v1=ZTu1, v2=ZTu2,… , vK=ZTuk,从而得到 前k个公

共因子的因子载荷矩阵。轾 l v11 犏 1 v12 l 2 ...v1k l k 犏 犏 l v21 v22 l 2 ...v2k l k V= 犏 1 犏 ............ 犏 犏 vn 犏 1 l 1 vn 2 l 2 ...vnk l k 臌

9.2.3 绘制变量和样品的对应分布图 在p维变量空间RP中的第1公因子、第2公因子、…、第k公 因子与n维样品空间Rn中相应的各个公因子在总方差中所占的 百分比就完全相同。这样就可以把变量和样品同时反映在具有 相同坐标轴的因子平面上。 对协方差矩阵R、Q进行因子分析,通常分别能提取两个最 重要的公共因子R1、R2与Q1、Q2,对应的因子载荷矩阵分别为:轾 u11 犏 犏 犏 u21 U= 犏 犏 犏 犏 u 犏p1 臌 l1 l1 M l1 u12 l 2 u22 l 2 M u p2 l 2

轾 v11 犏 犏 犏 v21 犏 V= 犏 犏 犏 vn 犏1 臌

l1 l1 M l1

v12 l 2 v22 l 2 M vn2 l 2

因子载荷U和V中的元素取值范围相同且元素数量大小的含义类 似,因此可以将它们看成p个二维点和个n个二维点绘制在一个 共同的坐标平面中,形成对应分布图,各点的坐标即为相应的 因子载荷。

9.3 对应分析的计算与应用9.3.1 对应分析的基本计算步骤 设有p个变量的n个样本观测数据矩阵X=(xij)n×p,其中 xij<0。对数据矩阵X作对应分析的具体步骤如下。 第一步:由数据矩阵X,计算规格化的概率矩阵P=(pij)n×p, 第二步:计算过渡矩阵Z=(zij)n×p 第三步:进行因子分析。 第四步:做变量点与样本点的对应分布图。 在与R型因子分析相应的因子平面上做样品点图 ,在与Q型 因子分析相应的因子平面上做变量点图,这样就在一个平面 上同时显示了变量和样品间的相互联系。 9.3.2 对应分析的应用(见书)

9.4 用SPSS进行对应分析9.4.1 对应分析数据的预处理 (1) 选择菜单Data→Weight Cases,弹出Wight Cases对话框。 (2) 左侧列表框存放的是对应分析的全部变量,右侧有2个 单选项。单选项DO not weight cases表示对数据不加权, 不用定义加权变量,为默认项;单选项Weight cases by 表示表示对数据进行加权,需要定义加权变量。 (3) 选择Weight cases by单选项,将表明分类中的频数的变 量作为加权变量从左侧列表框中移入Frequency Variable 框中。权重即为该变量的数值。如果定义的加权变量有 0值,定义加权变量时会发出警告,但不影响对应分析 的正常分析工作。 (4) 单击“OK”按钮,即可完成对应分析数据的预处理。

9.4.2 对应分析的SPSS操作步骤 (1)选择Analyze→Data Reduction→Correspondence Analysis,弹 出Correspondence Analysis对话框。 (2) 将行变量选择到Row框中,单击“Define Range”按钮,弹出 Correspondence Analysis:Define Row Range对话框,定义参 与分析的行变量的分类值范围。在Minimum value:框后输入 分类最小值,在Maximum value:框后输入分类最大值,并单 击“Update

”按钮,于是各分类值会依次显示在Category Constraints框中。 (3) 将列变量选择到Column框中,单击“Define Range”按钮,弹 出Correspondence Analysis:Define Column Range对话框, 定义参与分析的列变量的分类值范围。重复第2步的操作过 程。

(4) 单击“Model”按钮,弹出Correspondence Analysis:Model 对 话框,进行模型参数设置。 (5) 单击“Plots”按钮,弹出Correspondence Analysis:Plots对

话框,指定输出哪些统计图形。(6) 单击“OK”按钮,即可完成对应分析的操作过程。

小结9.1 对应分析概述 9.2 对应分析的原理和方法 9.3 对应分析的计算与应用 9.4 用SPSS进行对应分析

本文来源:https://www.bwwdw.com/article/7mii.html

Top