厦门大学《应用多元统计分析》第06章__主成分分析
更新时间:2023-06-08 18:01:01 阅读量: 实用文档 文档下载
第六章 主成分分析第一节 第二节 引言 主成分的几何意义及数学 推导
第三节第四节 第五节
主成分的性质主成分方法应用中应注意 的问题 实例分析与计算机实现
第一节 引言 多元统计分析处理的是多变量(多指标)问题。由于变量较
多,增加了分析问题的复杂性。但在实际问题中,变量之间 可能存在一定的相关性,因此,多变量中可能存在信息的重 叠。人们自然希望通过克服相关性、重叠性,用较少的变量 来代替原来较多的变量,而这种代替可以反映原来多个变量 的大部分信息,这实际上是一种“降维”的思想。
主成分分析也称主分量分析,是由Hotelling于1933年首先提
出的。由于多个变量之间往往存在着一定程度的相关性。人 们自然希望通过线性组合的方式,从这些指标中尽可能快地 提取信息。当第一个线性组合不能提取更多的信息时,再考 虑用第二个线性组合继续这个快速提取的过程,……,直到 所提取的信息与原指标相差不多时为止。这就是主成分分析 的思想。一般说来,在主成分分析适用的场合,用较少的主 成分就可以得到较多的信息量。以各个主成分为分量,就得 到一个更低维的随机向量;因此,通过主成分既可以降低数 据“维数”又保留了原数据的大部分信息。
我们知道,当一个变量只取一个数据时,这个变量(数据)
提供的信息量是非常有限的,当这个变量取一系列不同数据 时,我们可以从中读出最大值、最小值、平均数等信息。变 量的变异性越大,说明它对各种场景的“遍历性”越强,提 供的信息就更加充分,信息量就越大。主成分分析中的信息, 就是指标的变异性,用标准差或方差表示它。 主成分分析的数学模型是,设p个变量构成的p维随机向量为 X = (X1,…,Xp)′。对X作正交变换,令Y = T′X,其中T 为正交阵,要求Y的各分量是不相关的,并且Y的第一个分 量的方差是最大的,第二个分量的方差次之,……,等等。 为了保持信息不丢失,Y的各分量方差和与X的各分量方差 和相等。
第二节 主成分的几何意义及数 学推导
一 主成分的几何意义
二 主成分的数学推导
一、主成分的几何意义 主成分分析数学模型中的正交变换,在几何上就是作一个坐
标旋转。因此,主成分分析在二维空间中有明显的几何意义。 假设共有n个样品,每个样品都测量了两个指标(X1, X2),它们大致分布在一个椭圆内如图6.1所示。事实上, 散点的分布总有可能沿着某一个方向略显扩张,这个方向就 把它看作椭圆的长轴方向。显然,在坐标系x1Ox2中,单独 看这n个点的分量X1和X2,它们沿着x1
方向和x2方向都具有 较大的离散性,其离散的程度可以分别用的X1方差和X2的方 差测定。如果仅考虑X1或X2中的任何一个分量,那么包含在 另一分量中的信息将会损失,因此,直接舍弃某个分量不是 “降维”的有效办法。
图6.1 主成分的几何意义
如果我们将该坐标系按逆时针方向旋转某个角度 变成新坐
标系 y1Oy2 , 这里 y1 是椭圆的长轴方向, 2 是椭圆的短轴方向。 y 旋转公式为 Y1 X 1 cos X 2 sin (6.1) Y2 X 1 sin X 2 cos 我们看到新变量 Y1 和 Y2 是原变量 X 1 和 X 2 的线性组合,它的 矩阵表示形 式为: Y1 cos Y sin 2
sin X 1 T X cos X 2
(6.2) 1
其中, T 为旋转变换矩阵,它是正交矩阵,即有 T T 或 T T I 。
易见,n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它
们为原始变量X1和X2的综合变量,n个点y1在轴上的方差达 到最大,即在此方向上包含了有关n个样品的最大量信息。 因此,欲将二维空间的点投影到某个一维方向上,则选择y1 轴方向能使信息的损失最小。我们称Y1为第一主成分,称Y2 为第二主成分。第一主成分的效果与椭圆的形状有很大的关 系,椭圆越是扁平,n个点在y1轴上的方差就相对越大,在y2 轴上的方差就相对越小,用第一主成分代替所有样品所造成 的信息损失也就越小。
考虑两种极端的情形: 一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主
成分只含有二维空间点的约一半信息,若仅用这一个综合变量, 则将损失约50%的信息,这显然是不可取的。造成它的原因是, 原始变量X1和X2的相关程度几乎为零,也就是说,它们所包含 的信息几乎不重迭,因此无法用一个一维的综合变量来代替。 另一种是椭圆扁平到了极限,变成y1轴上的一条线,第一主成 分包含有二维空间点的全部信息,仅用这一个综合变量代替原 始数据不会有任何的信息损失,此时的主成分分析效果是非常 理想的,其原因是,第二主成分不包含任何信息,舍弃它当然 没有信息损失。
二、主成分的数学推导 设 X ( X1 , , X p ) 为一个
p 维随机向量,并假定存在二阶(6.3)
矩,其均值向量与协差阵分别记为: μ E (X) , Σ D(X) 考虑如下的线性变换 Y t X t X t X T X 1p p 1 1 11 1 12 2 Y t X t X t X T X 2 21 1 22 2 2p p 2 Yp t p1 X 1 t p 2 X 2 t pp X p Tp X 用矩阵表示为 Y T X 其中 Y (Y1 , Y2 , Yp ) , T (T1 , T2 , , Tp ) 。
(6
.4)
我们希望寻找一组新的变量 Y1 , , Ym ( m p ) ,这组新的变
量要求充分地反映原变量 X 1 , , X p 的信息,而且相互独立。 这里我们应该注意到,对于 Y1 , , Ym 有D(Yi ) D(Ti X) Ti D( X)Ti Ti ΣTi
i 1,2, , m
Cov(Yi , Yk ) Cov(Ti X, Tk X) Ti Cov( X, X)Tk Ti ΣTk i, k 1,2, , m 这样, 我们所要解决的问题就转化为, 在新的变量 Y1 , , Ym 相
互独立的条件下,求 Ti 使得 D(Yi ) Ti ΣTi ,i 1,2, , m ,达到 最大。
我们下面将借助投影寻踪(Projection Pursuit)的思想来解决这 一问题。首先应该注意到,使得 D(Yi ) 达到最大的线性组合,显 然用常数乘以 Ti 后, D(Yi ) 也随之增大,为了消除这种不确定性,
不妨假设 Ti 满足 Ti Ti 1 或者 T 1 。那么,问题可以更加明确。 第 一主成 分为, 满足 T1 T1 1 , 使得 D(Y1 ) T1 ΣT1 达 到最大的Y1 T1 X 。
第二主成分为,满足 T2 T2 1 ,且 Cov(Y2 , Y1 ) Cov(T2 X, T1 X) 0 , 使得 D(Y2 ) T2 ΣT2 达到最大的 Y2 T2 X 。 一般情形,第 k 主成分为,满足 Tk Tk 1 ,
且 Cov(Yk , Yi ) Cov(Tk X, Ti X) 0 ( i k ) ,使得 D(Yk ) Tk ΣTk 达 到最大的 Yk Tk X 。
求第一主成分,构造目标函数为:
1 (T1 , ) T1 ΣT1 (T1 T1 1) 对目标函数 1 (T1 , ) 求导数有: 1 2ΣT1 2 T1 0 T1 即 (Σ I)T1 0由 6.7 式两边左乘 T1 得到T1 ΣT1
(6.5)
(6.6)
(6.7)
(6.8)
由于 X 的协差阵 Σ 为非负定的,其特征方程(6.7)的根均大于零, 不妨设 1 2 p 0 。由(6.8)知道 Y1 的方差为 。那么,Y1 的最大方差值为 1 ,其相应的单位化特征向量为 T1 。
在 求 第 二 主 成 分 之 前 , 我 们 首 先 明 确 , 由 (6.6) 知 Cov(Y2 , Y1 ) T2 ΣT1 T2 T1 。那么,如果 Y2 与 Y1 相互独立,即有T2 T1 0 或 T1 T2 0 。这时,我们可以构造求第二主成分的目标函
数,即
2 (T2 , , ) T2 ΣT2 (T2 T2 1) 2 (T1 T2 ) 对目标函数 2 (T2 , , ) 求导数有: 2 2ΣT2 2 T2 2 T1 0 T2用 T1 左乘(6.10)式有 T1 Σ T2 T1 T2 T1 10 T
(6.9)
(6.10)
由于 T1 ΣT2 0 , T1 T2 0 ,那么, T1 T1 0 ,即有 0 。从而 (Σ I)T2 0 (6.11) 而且T2 ΣT2
(6.12)
这样说明, 如果 X 的协差阵 Σ 的特征根为 1
2 p 0 。
由(6.12)知道 Y2 的最大方差值为第二大特征根 2 ,其相应的单位 化的特征向量为 T2 。 针 对 一 般 情 形 ,
第 k 主 成 分 应 该 是 在 Tk Tk 1 且 Tk Ti 0 或Ti Tk 0 ( i k ) 的 条 件下 , 使得 D(Yk ) Tk ΣTk 达 到 最 大 的 Yk Tk X 。这样我们构造目标函数为
k (Tk , , i ) Tk ΣTk (Tk Tk 1) 2 i (Ti Tk )i 1
k 1
(6.13)
对目标函数 k (Tk , , i ) 求导数有:k 1 k 2ΣTk 2 Tk 2 iTi 0 i 1 Tk
(6.14)
用 Ti 左乘(6.14)式有
Ti Ti Σ Tk Ti Tk ( i 1
k 1
)T i 0 i
即有 iTi Ti 0 ,那么, i 0 ( i 1,2, k 1 ) 。从而(Σ I)Tk 0
(6.15) (6.16)
而且
Tk ΣTk
对于 X 的协差阵 Σ 的特征根 1 2 p 0 。由(6.15)和(6.16)知道 Yk 的最大方差值为第 k 大特征根 k , 其相应的单位化的特征向量 为 Tk 。
综上所述, X ( X1 , , X p ) 的协差阵为 Σ , 设 其特征根为 1 2
p 0 ,相应的单位化的特征向量为 T1 , T2 , , Tp 。那么,由此所确定的主成分为 Y1 T1 X , Y2 T2 X , ,Ym Tm X ,其方差分别为 Σ 的特征根。
第三节 主成分的性质
一 主成分的一般性质
二 主成分的方差贡献率
一、主成分的一般性质 设 Y (Y , Y , , Y ) 是 X 的主成分,由 Σ 的所有特征根构 1 2 p
成的对角阵为 1 0 Λ 0 p 主成分可表示为 Y T X 性质 1 主成分的协方差矩阵是对角阵。 证明:实际上,由(6.3)式知 E(Y) E(T X) T μ D(Y) T D(X)T T ΣT Λ
(6.17)
(6.18)
(6.19)
性质 2 主成分的总方差等于原始变量的总方差。 证明:由矩阵“迹”的性质知
tr (Λ) tr (T ΣT) tr (ΣTT ) tr ( Σ)所以p
i 1 i i 1
p
p
ii
(6.20) (6.21)
或
i 1
D(Yi ) D( X i )i 1
p
性质 3 主成分 Yk 与原始变量 X i 的相关系数为
(Yk , X i )
k ii
tki
(6.22)
并称之为因子负荷量(或因子载荷量) 。
证明:事实上
(Yk , X i )
Cov(Yk , X i ) D(Yk ) D( X i )
Cov(Tk X, ei X)
k ii
其中的 ei (0, , 0,1, 0, , 0) ,它是除第 i 个元素为 1 外其他元 素均为 0 的单位向量。而
Cov(Tk X, ei X) Tk Σei ei ( ΣTk ) ei ( kTk ) k ei Tk k tki所以 (Yk , X i ) p
k ii
tki 。
性质 4
( 。 2 (Yk , X i ) ii k , k 1,2, , p ) i 1
证明:只须将(6.22)代入左边式子整理化简即可。
正在阅读:
厦门大学《应用多元统计分析》第06章__主成分分析06-08
在全镇三级干部大会上的讲话03-08
关于植树节的资料02-24
护士执业考试-护理学基础模拟试题护基试题03-01
中医药大学远程教育《方剂学B》作业2答案08-17
县县域经济发展情况(定)09-17
关于长大的英语作文04-01
it优秀员工获奖感言02-12
捉蜗牛作文350字06-30
受贿刑事案件中的“特定关系人”12-24
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 厦门大学
- 统计分析
- 多元
- 成分
- 应用
- 分析
- 拔河游戏机的设计与制作报告
- 第24课 著名科学家和启蒙思想家
- 全国卷-高考理综答题卡(可用机读卡)
- 暹罗斗鱼致病性嗜水气单胞菌的分离&183;鉴定及药敏试验
- 电动机拆装实训报告
- 某某站“三项建设”工作总结及经验交流材料
- HND人力资源管理作业思路
- Preliminary analysis of a recent experiment by F. A. Bovino
- 二叉树的建立与遍历,叶子结点的数目以及树的深度的求法,采用递归求解
- 我亲爱的妈妈作文(3篇)
- 铝在碱性介质中的腐蚀与电化学行为
- 中国工程机械维修企业资质认证样本
- 达能(DANONE)2013校园招聘求职大礼包
- 运筹学 第四章 运输问题
- 浅论我国律师权利的行使和保护论文
- 网络文化冲击传统文化
- 城乡建设环境保护部、国家教育委员会托儿所、幼儿园建筑设计规范
- 位移电流 电磁场基本方程的积分形式
- 2014年国培计划小学语文国培学习总结
- 父爱的四年级作文400字