主成分分析方法及matlab运用解释
更新时间:2023-05-08 07:19:01 阅读量: 实用文档 文档下载
- 主成分分析方法及原理推荐度:
- 相关推荐
主成分分析方法
在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息事实上,这种想法是可以实现的,这里介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
一、主成分分析的基本原理
主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n 个地理样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的地理数据矩阵:
111212122212p p n n np x x x x x x X x x x ???=????(1)
如何从这么多变量的数据中抓住地理事物的内在规律性呢要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为x 1,x 2,…,x p ,它们的综合指标——新变量指标为z 1,z 2,…,zm (m≤p)。则
11111221221122221122,,.........................................
,p p p p m m m mp p z l x l x l x z l x l x l x z l x l x l x =+++??=+++????=+++?(2)
在(2)式中,系数l ij 由下列原则来决定:
(1)z i 与z j (i≠j;i ,j=1,2,…,m)相互无关;
(2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m-1都不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者。
这样决定的新变量指标z 1,z 2,…,zm 分别称为原变量指标x 1,x 2,…,x p 的第一,第二,…,第m 主成分。其中,z 1在总方差中占的比例最大,z 2,z 3,…,z m 的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。
从以上分析可以看出,找主成分就是确定原来变量x j (j=1,2,…,p)在诸主成分z i (i=1,2,…,m)上的载荷l ij (i=1,2,…,m ;j=1,2,…,p),从数学上容易知道,它们分别是x 1,x 2,…,x p 的相关矩阵的m 个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤
通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:
(1) 计算相关系数矩阵
11
121212221
2
p p p p pp
r r r r r r R r r r ???=?
???(3)
在公式(3)中,r ij (i ,j=1,2,…,p)为原来变量x i 与x j 的相关系数,其计算公式为
因为R 是实对称矩阵(即r ij =r ji ),所以只需计算其上三角元素或下三角元素即可。
(2)计算特征值与特征向量
首先解特征方程|λI -R |=0求出特征值λi (i=1,2,…,p),并使其按大小
顺序排列,即λ1≥λ2≥…,≥λp ≥0;然后分别求出对应于特征值λi 的特征向量e i (i=1,2,…,p)。
(2) 计算主成分贡献率及累计贡献率
主成分i z 贡献率:1/(1,2,,)p i k k r i p γ==∑,累计贡献率:11/p m k
k k k γγ==∑∑。
一般取累计贡献率达85-95%的特征值λ1,λ2,…,λm 所对应的第一,第二,……,
第m (m≤p)个主成分。
(3) 计算主成分载荷
(,)(,1,2,
,)k i ki p z x i k p ==(5)
由此可以进一步计算主成分得分:
1112121
22212m m n n nm z z z z z z Z z z z ???=????(6)
matlab:princomp 解释
主成分分析函数:
[coeff,score,letent]=princomp(x);
供献率:每一维数据对于区分全部数据的供献,供献率最大的显然是主成分,第二大的是次主成分......
[coef ,score ,latent ,t2] = princomp (x );
x :为要输入的n 维原始数据。带入这个matlab 自带函数,将会生成新的n 维加工后的数据(即score )。此数据与之前的n 维原始数据一一对应。
score:生成的n维加工后的数据存在score里。它是对原始数据进行的解析,进而在新的坐标系下获得的数据。他将这n维数据按供献率由大到小分列。(即在改变坐标系的景象下,又对n维数据排序)
latent:是一维列向量,每一个数据是对应score里响应维的供献率,因为数占领n维所以列向量有n个数据。由大到小分列(因为score也是按供献率由大到小分列)。
coef:是系数矩阵。经由过程cofe可以知道x是如何转换成score的。但这个转换不是单纯的转换,必须使用下列计算方法,即score(:,i)=coef*(x(:,i)-mean(x(:,i))),这样才能得到。
用你的原矩阵x*coeff(:,1:n)才是你要的的新数据,其中的n是你想降到多少维。
而n的取值取决于对特征值的累计贡献率的计算。
正在阅读:
主成分分析方法及matlab运用解释05-08
青岛版一年级数学上册第二单元测试卷及答案04-19
中英文资产负债表和损益表05-22
《教育学》十套试卷[带答案05-18
五中何颖第十一章第一节功习题03-03
华中农大园林树木学精品课网站12-01
留在深山里的记忆作文800字06-22
小学二年级奥数题与答案03-15
2014杭电,过程控制复习04-10
副本SPC全套Excel版-106-09
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 成分
- 运用
- 解释
- 方法
- 分析
- matlab
- CA6140A型车床的基本操作
- 用朵肤祛斑美白产品对身体的好处
- 2020年泰安市中等学校招生考试初中化学
- 行政管理毕业论文选题
- 公路工程项目的招投标问题及对策
- 艺术设计概论复习 考试 提纲
- 2020年有关出纳个人工作总结4篇
- 高考政治08文化作用与文化发展教学案24
- 大学英语六级真题及答案解析07年6月到12年6月完整版
- 2013最新时事政治:富丽堂皇的“官衙”让人不舒服
- 我追赶潮流作文500字完美版
- 2017年河南工业大学化工原理复试仿真模拟三套题
- 天津北辰区有零基础葡萄牙语培训班吗?
- 建站DIV+CSS 之网页切图过程中div+css命名规则
- 贵州省遵义市同泽新时代6#、8#楼高层施工组织设计
- 江苏阳光集团2010年报告
- 英语词根词缀记忆大全
- 安全文明施工费(Safe and civilized construction cost)
- 华师版六年级信息技术教案
- 人教新课标高中英语必修四Unit2Workingtheland教案