厦门大学《应用多元统计分析》第06章__主成分分析

更新时间:2023-06-08 18:01:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第六章 主成分分析第一节 第二节 引言 主成分的几何意义及数学 推导

第三节第四节 第五节

主成分的性质主成分方法应用中应注意 的问题 实例分析与计算机实现

第一节 引言 多元统计分析处理的是多变量(多指标)问题。由于变量较

多,增加了分析问题的复杂性。但在实际问题中,变量之间 可能存在一定的相关性,因此,多变量中可能存在信息的重 叠。人们自然希望通过克服相关性、重叠性,用较少的变量 来代替原来较多的变量,而这种代替可以反映原来多个变量 的大部分信息,这实际上是一种“降维”的思想。

主成分分析也称主分量分析,是由Hotelling于1933年首先提

出的。由于多个变量之间往往存在着一定程度的相关性。人 们自然希望通过线性组合的方式,从这些指标中尽可能快地 提取信息。当第一个线性组合不能提取更多的信息时,再考 虑用第二个线性组合继续这个快速提取的过程,……,直到 所提取的信息与原指标相差不多时为止。这就是主成分分析 的思想。一般说来,在主成分分析适用的场合,用较少的主 成分就可以得到较多的信息量。以各个主成分为分量,就得 到一个更低维的随机向量;因此,通过主成分既可以降低数 据“维数”又保留了原数据的大部分信息。

我们知道,当一个变量只取一个数据时,这个变量(数据)

提供的信息量是非常有限的,当这个变量取一系列不同数据 时,我们可以从中读出最大值、最小值、平均数等信息。变 量的变异性越大,说明它对各种场景的“遍历性”越强,提 供的信息就更加充分,信息量就越大。主成分分析中的信息, 就是指标的变异性,用标准差或方差表示它。 主成分分析的数学模型是,设p个变量构成的p维随机向量为 X = (X1,…,Xp)′。对X作正交变换,令Y = T′X,其中T 为正交阵,要求Y的各分量是不相关的,并且Y的第一个分 量的方差是最大的,第二个分量的方差次之,……,等等。 为了保持信息不丢失,Y的各分量方差和与X的各分量方差 和相等。

第二节 主成分的几何意义及数 学推导

一 主成分的几何意义

二 主成分的数学推导

一、主成分的几何意义 主成分分析数学模型中的正交变换,在几何上就是作一个坐

标旋转。因此,主成分分析在二维空间中有明显的几何意义。 假设共有n个样品,每个样品都测量了两个指标(X1, X2),它们大致分布在一个椭圆内如图6.1所示。事实上, 散点的分布总有可能沿着某一个方向略显扩张,这个方向就 把它看作椭圆的长轴方向。显然,在坐标系x1Ox2中,单独 看这n个点的分量X1和X2,它们沿着x1

方向和x2方向都具有 较大的离散性,其离散的程度可以分别用的X1方差和X2的方 差测定。如果仅考虑X1或X2中的任何一个分量,那么包含在 另一分量中的信息将会损失,因此,直接舍弃某个分量不是 “降维”的有效办法。

图6.1 主成分的几何意义

如果我们将该坐标系按逆时针方向旋转某个角度 变成新坐

标系 y1Oy2 , 这里 y1 是椭圆的长轴方向, 2 是椭圆的短轴方向。 y 旋转公式为 Y1 X 1 cos X 2 sin (6.1) Y2 X 1 sin X 2 cos 我们看到新变量 Y1 和 Y2 是原变量 X 1 和 X 2 的线性组合,它的 矩阵表示形 式为: Y1 cos Y sin 2

sin X 1 T X cos X 2

(6.2) 1

其中, T 为旋转变换矩阵,它是正交矩阵,即有 T T 或 T T I 。

易见,n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它

们为原始变量X1和X2的综合变量,n个点y1在轴上的方差达 到最大,即在此方向上包含了有关n个样品的最大量信息。 因此,欲将二维空间的点投影到某个一维方向上,则选择y1 轴方向能使信息的损失最小。我们称Y1为第一主成分,称Y2 为第二主成分。第一主成分的效果与椭圆的形状有很大的关 系,椭圆越是扁平,n个点在y1轴上的方差就相对越大,在y2 轴上的方差就相对越小,用第一主成分代替所有样品所造成 的信息损失也就越小。

考虑两种极端的情形: 一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主

成分只含有二维空间点的约一半信息,若仅用这一个综合变量, 则将损失约50%的信息,这显然是不可取的。造成它的原因是, 原始变量X1和X2的相关程度几乎为零,也就是说,它们所包含 的信息几乎不重迭,因此无法用一个一维的综合变量来代替。 另一种是椭圆扁平到了极限,变成y1轴上的一条线,第一主成 分包含有二维空间点的全部信息,仅用这一个综合变量代替原 始数据不会有任何的信息损失,此时的主成分分析效果是非常 理想的,其原因是,第二主成分不包含任何信息,舍弃它当然 没有信息损失。

二、主成分的数学推导 设 X ( X1 , , X p ) 为一个

p 维随机向量,并假定存在二阶(6.3)

矩,其均值向量与协差阵分别记为: μ E (X) , Σ D(X) 考虑如下的线性变换 Y t X t X t X T X 1p p 1 1 11 1 12 2 Y t X t X t X T X 2 21 1 22 2 2p p 2 Yp t p1 X 1 t p 2 X 2 t pp X p Tp X 用矩阵表示为 Y T X 其中 Y (Y1 , Y2 , Yp ) , T (T1 , T2 , , Tp ) 。

(6

.4)

我们希望寻找一组新的变量 Y1 , , Ym ( m p ) ,这组新的变

量要求充分地反映原变量 X 1 , , X p 的信息,而且相互独立。 这里我们应该注意到,对于 Y1 , , Ym 有D(Yi ) D(Ti X) Ti D( X)Ti Ti ΣTi

i 1,2, , m

Cov(Yi , Yk ) Cov(Ti X, Tk X) Ti Cov( X, X)Tk Ti ΣTk i, k 1,2, , m 这样, 我们所要解决的问题就转化为, 在新的变量 Y1 , , Ym 相

互独立的条件下,求 Ti 使得 D(Yi ) Ti ΣTi ,i 1,2, , m ,达到 最大。

我们下面将借助投影寻踪(Projection Pursuit)的思想来解决这 一问题。首先应该注意到,使得 D(Yi ) 达到最大的线性组合,显 然用常数乘以 Ti 后, D(Yi ) 也随之增大,为了消除这种不确定性,

不妨假设 Ti 满足 Ti Ti 1 或者 T 1 。那么,问题可以更加明确。 第 一主成 分为, 满足 T1 T1 1 , 使得 D(Y1 ) T1 ΣT1 达 到最大的Y1 T1 X 。

第二主成分为,满足 T2 T2 1 ,且 Cov(Y2 , Y1 ) Cov(T2 X, T1 X) 0 , 使得 D(Y2 ) T2 ΣT2 达到最大的 Y2 T2 X 。 一般情形,第 k 主成分为,满足 Tk Tk 1 ,

且 Cov(Yk , Yi ) Cov(Tk X, Ti X) 0 ( i k ) ,使得 D(Yk ) Tk ΣTk 达 到最大的 Yk Tk X 。

求第一主成分,构造目标函数为:

1 (T1 , ) T1 ΣT1 (T1 T1 1) 对目标函数 1 (T1 , ) 求导数有: 1 2ΣT1 2 T1 0 T1 即 (Σ I)T1 0由 6.7 式两边左乘 T1 得到T1 ΣT1

(6.5)

(6.6)

(6.7)

(6.8)

由于 X 的协差阵 Σ 为非负定的,其特征方程(6.7)的根均大于零, 不妨设 1 2 p 0 。由(6.8)知道 Y1 的方差为 。那么,Y1 的最大方差值为 1 ,其相应的单位化特征向量为 T1 。

在 求 第 二 主 成 分 之 前 , 我 们 首 先 明 确 , 由 (6.6) 知 Cov(Y2 , Y1 ) T2 ΣT1 T2 T1 。那么,如果 Y2 与 Y1 相互独立,即有T2 T1 0 或 T1 T2 0 。这时,我们可以构造求第二主成分的目标函

数,即

2 (T2 , , ) T2 ΣT2 (T2 T2 1) 2 (T1 T2 ) 对目标函数 2 (T2 , , ) 求导数有: 2 2ΣT2 2 T2 2 T1 0 T2用 T1 左乘(6.10)式有 T1 Σ T2 T1 T2 T1 10 T

(6.9)

(6.10)

由于 T1 ΣT2 0 , T1 T2 0 ,那么, T1 T1 0 ,即有 0 。从而 (Σ I)T2 0 (6.11) 而且T2 ΣT2

(6.12)

这样说明, 如果 X 的协差阵 Σ 的特征根为 1

2 p 0 。

由(6.12)知道 Y2 的最大方差值为第二大特征根 2 ,其相应的单位 化的特征向量为 T2 。 针 对 一 般 情 形 ,

第 k 主 成 分 应 该 是 在 Tk Tk 1 且 Tk Ti 0 或Ti Tk 0 ( i k ) 的 条 件下 , 使得 D(Yk ) Tk ΣTk 达 到 最 大 的 Yk Tk X 。这样我们构造目标函数为

k (Tk , , i ) Tk ΣTk (Tk Tk 1) 2 i (Ti Tk )i 1

k 1

(6.13)

对目标函数 k (Tk , , i ) 求导数有:k 1 k 2ΣTk 2 Tk 2 iTi 0 i 1 Tk

(6.14)

用 Ti 左乘(6.14)式有

Ti Ti Σ Tk Ti Tk ( i 1

k 1

)T i 0 i

即有 iTi Ti 0 ,那么, i 0 ( i 1,2, k 1 ) 。从而(Σ I)Tk 0

(6.15) (6.16)

而且

Tk ΣTk

对于 X 的协差阵 Σ 的特征根 1 2 p 0 。由(6.15)和(6.16)知道 Yk 的最大方差值为第 k 大特征根 k , 其相应的单位化的特征向量 为 Tk 。

综上所述, X ( X1 , , X p ) 的协差阵为 Σ , 设 其特征根为 1 2

p 0 ,相应的单位化的特征向量为 T1 , T2 , , Tp 。那么,由此所确定的主成分为 Y1 T1 X , Y2 T2 X , ,Ym Tm X ,其方差分别为 Σ 的特征根。

第三节 主成分的性质

一 主成分的一般性质

二 主成分的方差贡献率

一、主成分的一般性质 设 Y (Y , Y , , Y ) 是 X 的主成分,由 Σ 的所有特征根构 1 2 p

成的对角阵为 1 0 Λ 0 p 主成分可表示为 Y T X 性质 1 主成分的协方差矩阵是对角阵。 证明:实际上,由(6.3)式知 E(Y) E(T X) T μ D(Y) T D(X)T T ΣT Λ

(6.17)

(6.18)

(6.19)

性质 2 主成分的总方差等于原始变量的总方差。 证明:由矩阵“迹”的性质知

tr (Λ) tr (T ΣT) tr (ΣTT ) tr ( Σ)所以p

i 1 i i 1

p

p

ii

(6.20) (6.21)

i 1

D(Yi ) D( X i )i 1

p

性质 3 主成分 Yk 与原始变量 X i 的相关系数为

(Yk , X i )

k ii

tki

(6.22)

并称之为因子负荷量(或因子载荷量) 。

证明:事实上

(Yk , X i )

Cov(Yk , X i ) D(Yk ) D( X i )

Cov(Tk X, ei X)

k ii

其中的 ei (0, , 0,1, 0, , 0) ,它是除第 i 个元素为 1 外其他元 素均为 0 的单位向量。而

Cov(Tk X, ei X) Tk Σei ei ( ΣTk ) ei ( kTk ) k ei Tk k tki所以 (Yk , X i ) p

k ii

tki 。

性质 4

( 。 2 (Yk , X i ) ii k , k 1,2, , p ) i 1

证明:只须将(6.22)代入左边式子整理化简即可。

本文来源:https://www.bwwdw.com/article/w2f1.html

Top