MATLAB 主成分数据处理
更新时间:2024-04-29 21:49:01 阅读量: 综合文库 文档下载
- matlab推荐度:
- 相关推荐
第11章 主成分
主成分分析(principal component Analysis)又称主分量分析,是由皮尔逊
(pearson)于1901年首先引入,后来由霍特林(hotelling)于1933年进行了发展。主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的多元统计方法,这些主成分能够反映原始变量的大部分信息,通常表示为原始变量的线性组合,为使得这些主成分所包含的信息互不重叠,要求各主成分之间互不相关。主成分分析在很多领域有着广泛的应用,一般来说,当研究的问题涉及很多变量,并且变量间相关性明显,即包含的信息有所重叠时,可以考虑用主成分分析的方法,这样容易抓住事物的主要矛盾,使得问题得到简化。
本章主要内容包括:主成分分析的理论简介,主成分分析的MATLAB实现,主成分分析的主要具体案例。
11.1主成分分析简介
11.1.1主成分分析的几何意义 假设从二元总体
x?(x1,x2)'中抽取容量为n的样本,绘出样本观测值的散点图,如图11-1所
示。从图上可以看出,散点大致分布在一个椭圆内在
x1与x2呈现出明显的线性相关。这n个样品
x1轴方向和x2方向具有相似的离散度,离散度可以用x1和x2包含了近视相等的信息量,x1轴旋转到椭圆的长轴方向y1,x2轴旋转到椭圆的短轴y2,则有
(11.1)
丢掉其中任意一个变量,都会损失比较多的信息。图11-1中坐标按逆时针旋转一个角度?,使得
?y1?x1cos??x2sin???y2??x1sin??x2cos?此时可以看到,n个点在新坐标系下的坐标差大得多,也就是说小的。这里称
y1和y2几乎不相关,并且y1的方差要比y2的方
y2,信息的损失是比较
y1包含了原始数据中大部分的信息,此时丢掉变量
y1为第一主成分y2为第二主成分。
主成分分析的过程其实就是坐标系旋转的过程,新坐标系的各个坐标系的轴的方向是原始数据变差最大的方向,各主成分表达式就是新旧坐标转换关系式。
11.1.2 总体的主成分
1从总体协方差矩阵出发求解主成分 设
x?(x,x,?,xp),var(x)'为一个p维总体,假定
x期望和协方差矩阵均存在并已知,记
E(x)????,考虑如下线性变换
?y1?a11x1?a12x2?...?a1pxp?a'1x??y2?a21x1?a22x2?...?a2pxm?a'2x????y?ax?ax?...?ax?a'xp11p22pppp?p其中,a1,a2,?设?1
,ap均为单位向量。下面求a1,使得y1的方差达到最大。
的
??2????p?0为?p个特征值,t1,t2,?,
tp为相应的正交单位特征
向量,即
?ti??iti,ti'ti?1,ti'tj?0pi?j,i,j?1,2,?,p
由矩阵知识可知
??T?T'???tt'iii?1i
其中T考虑
?(t1,t2,?tp)为正交矩阵,?是对角元素为?1,?2,?,?p的对角矩阵。
y1的方差
pvar(y1)?var(a'1x)?c'1var(x)a1?pp??a'ii?11tit'ia1
??i?1?i(a'1ti)2??1?(a'1ti)2i?1?p???1a'1??tit'i?a1?i?1?
??1a'1TT'a1??1a'1a1??1 (11.3)
由式(11.3)可知,当a1?t1时,y1?t'1x的方差达到最大,最大值为?1。称
y2)?0y1?t'1x为第一主成分。如果第一主成分从数据中提取的信息还不够多,还应考虑第二主
成分。下面求a2,在cov(y1,条件下使得
y2的方差达到最大。由
cov(y1,y2)?cov(t'1x,a'2x)?t'1?a2?a'2?t1??1a'2t1?0
可得a'2t1?0,于是
p
var(y1)?var(a'2x)?a'2var(x)a2???a'ii?12tit'ia2
ppi???i?1(a'2ti)??2?i?12p?2(a'2ti)??2a'2??tit'i?i?1??a2 ???2a'2TT'a2??2a'2a2??2 (11.4)
由式(11.4)可知,当a2?t2时,y2?t'2x的方差达到最大,最大值为?2。称
y2?t'2x为第二主成分。类似的,在约束cov(yk,yi)?0(k?1,2,?,i?1)下可
得,当
ai?ti时yi?t'ix的方差达到最大,最大值为。?i称yi?t'ix(i?1,2,?,p)
为第i主成分。 2主成分的性质
(1)主成分向量的协方差矩阵为对角阵 记
???y?????则
y1??t'1x????y2??t'2x???(t1,t2,?,tp)'x?T'x????? (11.5) ????t'x?yp???p?,var(y)E(y)?E(T'x)?T'??var(T'x)?T'var(x)T?T'?T??
即主成分向量的协方差矩阵为对角矩阵。
(2)主成分的总方差等于原始变量的总方差: 设协方差矩阵?p?(?ij),则var(xi)??ij(i?1,2,?,p),于是
pipipij?var(yi?1)???i?1?tr(?)???i?1??var(xi?1i)
由此可见,原始数据的总方差等于
p个互不相关的主成分的方差之和,也就是说
pp个互不相关
的主成分包含了原始数据中的全部信息,但是主成分所包含的信息更为集中。
总方差中第i个主成分
yi的方差所占的比例?i??j(i?1,2,?,p)称为主成分yi的
j?1贡献率。主成分的贡献率反映了主成分综合原始变量信息的能力,也可理解为解释原始变量的能
力。由贡献率定义知,
p个主成分的贡献率依次递减,即综合原始变量信息的能力依次递减。第
一个主成分的贡献率最大,即第一个主成分综合原始变量信息的能力强。
mp前
m(m?p)个主成分的贡献率之和??ii?1?j?1?j称为前m个主成分的累积
贡献率,它反映了前m个主成分综合原始变量信息(或解释原始变量)的能力。由于主成分分析的主要目的是降维,所以需要在信息损失不太多的情况下,用少数几个主成分来代替原始变量
x1,x2,?,xp,以进行后续的分析,究竟用几个主成分来代替原始变量才合适呢?通常的
做法是取较小的m,使得恰前m个主成分的累积贡献率不低于某一水平(如85%以上),这样就达到了降维的目的。
(3)原始变量
xi与主成分
yi之间的相关系数?(xi,yi)
由式(11.5)可知
x?Ty于是
从而
xi?ti1y1?ti2y2???tipyp (11.6)
cov(xi,yi)?cov(tijyi,yj)?tijcov(yj,yj)?tij?cov(xi,yi)var(xi)var(yi)?j
?(xi,yi)??j?iitij,i,j?1,2,?,p
(4)前m个主成分对变量称
mxi的贡献率
?j?1?(xi,yi)?xi21m?ii2?j?1?jtij2
为前m个主成分对变量的贡献率。这个贡献率反映了前m个主成分从变量
xi中提取的个主成分
信息的多少。由式(11.6)可知?ii??1ti1??2ti2????ptip,固所有p对变量
22xi的贡献率为
p
?j?1?(xi,yi)?yi的贡献
21p?ii?j?1?jtij?1
2(5)原始变量对主成分主成分
yi的表达式为
yj?t'j?t1jx1?t2jx2???tpjxp,j?1,2,?,p
称
tij为第j个主成分
yj在第i个原始变量
xi上的载荷,它反映了
xi对
yj的重
要程度。在实际问题中,通常根据载荷
tij解释主成分的实际意义。
3,从总体相关系数矩阵出发求解主成分
当总体各变量取值的单位或数量级不同时,从总体协方差矩阵出发求解主成分就显得不合适了,此时应将每个变量标准化。记标准化变量为
x??xi?E(xi)var(xi)?,i?1,2,?,p***
则可以从标准化总体
x?(x1,x2,?xp)'的协方差矩阵求解主成分,即从总体
x的相关系数矩阵出发求解主成分,因为总体x?协方差矩阵就是x的相关系数矩阵。
设总体一样,设?1x的相关系数矩阵为R***,从R出发求解主成分的步骤与从?出发求解主成分的步骤
的
??2???p?0为Rp个特征值,t1*,t2,?,tp**为相应的正交单位
特征向量。则
p个主成分为
**? yi?ti'x,i?1,2,?,p (11.7)
????y??记
???则有以下结论
?y??t?'1x????????y2??t'2x?***???(t1,t2,?,tp)'x????? (11.8) ?????????yp??t'px???1 E(y)?0,var(yp)???diag(t1,t2,?,tp)
****?i?1?i*?tr(R)?P
**?(xi,yj)?此时前m**cov(xi,yj)var(xi)*var(yj)1pm*??jtij,i,j?1,2,?,p。
**
个主成分的累积贡献率为
??i?1*i11.1.3 样本的主成分
'x6:腰围' [-0.4268] [ 0.3084] [ 0.1193]
为了结果看上去更加直观,上面定义了两个元胞数组:result1和result2,用result1存放特征值,贡献率和累积贡献率,用result2存放3个主成分表达式的系数数据,即COEFF矩阵的前3列。这样做的目的仅是为了直观,读者也可以直接对pcacov函数返回的结果进行分析。
11.3.2 结果分析
从result1的结果来看,前3个主成分的累积贡献率达到了85.8756%,因此可以用前3个主成分后续的分析i;这样做虽然会有一定的信息损失,但损失不大,不影响大局。result2中列出了前3个主成分的相关结果,可知前3个主成分的表达式分别为
y1??0.4689x1?0.4037x2?0.3936x3?0.4076x4?0.3375x5?0.4268x6
y2??0.3648x1?0.3966x2?0.3968x3?0.3648x4?0.5692x5?0.3084x6
????????????y3?0.0922x1?0.6130x2?0.2789x3?0.7048x4?0.1643x5?0.1193x6
从第一主成分y1的表达式来看,它在每个标准化变量上有近似的负载荷,说明每个标准化变量对y1的重要性都差不多。当一个人的身材“五大三粗”,也就是说又高又胖时,x1???????,x2,
,x6??L,x6都比较大,此时y1的值就比较小,反之,当一个人又矮又瘦时x1??,x2,L?都比较小,此时y1的值就比较大,所以可以认为第一主成分是身材的综合成分(或魁梧成分)。
从第二主成分y2的表达式来看,它在标准化变量x1??,x2,和x4上有近似的负载荷,在
?x3,x5x5????,
x6上有近似的正载荷,说明当x1??,
?x2,和x4增大时,y2的值减小,当x3??,
,x6增大时,y2的值增大。当一个人的身材瘦高时,y2的值比较小,当一个人的身材矮胖
?时,y2的值比较大,所以可以认为第二主成分是身材的高矮和胖瘦的协调成分
从第三主成分y3的表达式来看,它在标准化变量
??x2上有比较大的正载荷,在x4上有比较大
?的负载荷,在其它变量上的载荷比较小,,说明x2(坐高)和x4(手臂长)对y3的影响比较
大,也就是说y3反映坐高(即上半身)与手臂长之间的协调关系,这对做长袖上衣时制定衣服和袖子的长短提供了参考。所以可认为第三主成分y3是臂长成分
后3个主成分的贡献率比较小,分别只有7.1057%,4.9133%和2.1054%,可以不用对它们作出解释。最后一个主成分的贡献率非常小,它揭示了标准化变量之间的如下共线性关系
0.7856x1?0.4434x2?0.1253x3?0.3706x4?0.0335x5??0.1788x6?c
??????11.4 案例33:从样本观测值矩阵出发求解主成分
表11-2列出了2007年我国31个省,市,自治区和直辖市的农村居民家庭平均每人全年消费支出的8个主要变量数据。数据来源:中华人民共和国国家统计局网站,2008年《中国统计年鉴》。数据保存在文件 .xls中,数据格式如表11-2所列,是根据这8个主要变量的观测数据,进行主成分分析
地 区 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 家庭设文教娱其他商备 交通和 乐 医疗保品 食 品 衣 着 居 住 及 服 通 讯 用品及健 及 服 务 服务 务 2132.51 513.44 1023.21 340.15 778.52 870.12 629.56 111.75 1367.75 286.33 674.81 126.74 400.11 312.07 306.19 64.30 1025.72 185.68 627.98 140.45 318.19 243.30 188.06 57.40 1033.68 260.88 392.78 120.86 268.75 370.97 170.85 63.81 1280.05 228.40 473.98 117.64 375.58 423.75 281.46 75.29 1334.18 281.19 513.11 142.07 361.77 362.78 265.01 108.05 1240.93 227.96 399.11 120.95 337.46 339.77 311.37 87.89 1077.34 254.01 691.02 104.99 335.28 312.32 272.49 69.98 3259.48 475.51 2097.21 451.40 883.71 857.47 571.06 249.04 1968.88 251.29 752.73 228.51 543.97 642.52 263.85 134.41 2430.60 405.32 1498.50 338.80 782.98 750.69 452.44 142.26 1192.57 166.31 479.46 144.23 258.29 283.17 177.04 52.98 1870.32 235.61 660.55 184.21 465.40 356.26 174.12 107.00 1492.02 147.71 474.49 121.54 277.15 252.78 167.71 61.08 1369.20 224.18 682.13 195.99 422.36 424.89 230.84 71.98 1017.43 189.71 615.62 136.37 269.46 212.36 173.19 62.26 1479.04 168.64 434.91 166.25 281.12 284.13 178.77 97.13 1675.16 161.79 508.33 152.60 278.78 293.89 219.95 86.88 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆
2087.58 162.33 763.01 163.85 443.24 254.94 199.31 128.06 1378.78 86.90 554.14 112.24 245.97 172.45 149.01 47.98 1430.31 86.26 305.90 93.26 248.08 223.98 95.55 73.23 1376.00 136.34 263.73 138.34 208.69 195.97 168.57 39.06 1435.52 156.65 366.45 142.64 241.49 177.19 174.75 52.56 998.39 99.44 329.64 70.93 154.52 147.31 79.31 34.16 1226.69 112.52 586.07 107.15 216.67 181.73 167.92 38.43 1079.83 245.00 418.83 133.26 156.57 65.39 50.00 68.74 941.81 161.08 512.40 106.80 254.74 304.54 222.51 55.71 944.14 112.20 295.23 91.40 186.17 208.90 149.82 29.36 1069.04 191.80 359.74 122.17 292.10 135.13 229.28 47.23 1019.35 184.26 450.55 109.27 265.76 192.00 239.40 68.17 939.03 218.18 445.02 91.45 234.70 166.27 210.69 45.25
正在阅读:
MATLAB 主成分数据处理04-29
腾讯微博经典语录02-11
物质运输的载体教学设计07-20
带二胎好累的说说02-22
人工智能读书笔记 西安交通大学10-14
风的颜色作文350字07-14
英语三年级上册unit 4 we love animals08-13
西师大版一年级数学第四单元11-20各数的认识教学设计02-28
迷人的核桃树作文450字06-25
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 数据处理
- 成分
- MATLAB
- EAS系统部署常见问题FAQ
- 台儿庄古城导游词 - 电子导览器版本
- 抓党建工作述职评议查摆问题整改方案
- 小学低年级口语交际能力的培养与研究结题报告
- 名师一号物理
- 应用文写作基础第三章第三节报告请示批复练习
- 历年各大学环境化学考研试题选
- 人教版七年级英语全册知识盘点
- 施工现场临时用水、用电施工方案(修改)
- 项目考核答案
- 高频练习题(答案)
- 人机工程学产品设计-床上一体书桌
- 习博见老师2010年湖北省录用公务员考试《申论》试卷
- 2018年中考语文一模考试试题 - 图文
- java面向对象程序设计习题集
- 财务税收法规 - 图文
- 初中化学计算题类型及解题技巧总结
- 2011年汽检大专人才培养方案 汉2011.8
- OptiSystem仿真模型案例
- 浙江大学2009-2010学年本科生各类奖学金