MATLAB 主成分数据处理

更新时间:2024-04-29 21:49:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第11章 主成分

主成分分析(principal component Analysis)又称主分量分析,是由皮尔逊

(pearson)于1901年首先引入,后来由霍特林(hotelling)于1933年进行了发展。主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的多元统计方法,这些主成分能够反映原始变量的大部分信息,通常表示为原始变量的线性组合,为使得这些主成分所包含的信息互不重叠,要求各主成分之间互不相关。主成分分析在很多领域有着广泛的应用,一般来说,当研究的问题涉及很多变量,并且变量间相关性明显,即包含的信息有所重叠时,可以考虑用主成分分析的方法,这样容易抓住事物的主要矛盾,使得问题得到简化。

本章主要内容包括:主成分分析的理论简介,主成分分析的MATLAB实现,主成分分析的主要具体案例。

11.1主成分分析简介

11.1.1主成分分析的几何意义 假设从二元总体

x?(x1,x2)'中抽取容量为n的样本,绘出样本观测值的散点图,如图11-1所

示。从图上可以看出,散点大致分布在一个椭圆内在

x1与x2呈现出明显的线性相关。这n个样品

x1轴方向和x2方向具有相似的离散度,离散度可以用x1和x2包含了近视相等的信息量,x1轴旋转到椭圆的长轴方向y1,x2轴旋转到椭圆的短轴y2,则有

(11.1)

丢掉其中任意一个变量,都会损失比较多的信息。图11-1中坐标按逆时针旋转一个角度?,使得

?y1?x1cos??x2sin???y2??x1sin??x2cos?此时可以看到,n个点在新坐标系下的坐标差大得多,也就是说小的。这里称

y1和y2几乎不相关,并且y1的方差要比y2的方

y2,信息的损失是比较

y1包含了原始数据中大部分的信息,此时丢掉变量

y1为第一主成分y2为第二主成分。

主成分分析的过程其实就是坐标系旋转的过程,新坐标系的各个坐标系的轴的方向是原始数据变差最大的方向,各主成分表达式就是新旧坐标转换关系式。

11.1.2 总体的主成分

1从总体协方差矩阵出发求解主成分 设

x?(x,x,?,xp),var(x)'为一个p维总体,假定

x期望和协方差矩阵均存在并已知,记

E(x)????,考虑如下线性变换

?y1?a11x1?a12x2?...?a1pxp?a'1x??y2?a21x1?a22x2?...?a2pxm?a'2x????y?ax?ax?...?ax?a'xp11p22pppp?p其中,a1,a2,?设?1

,ap均为单位向量。下面求a1,使得y1的方差达到最大。

??2????p?0为?p个特征值,t1,t2,?,

tp为相应的正交单位特征

向量,即

?ti??iti,ti'ti?1,ti'tj?0pi?j,i,j?1,2,?,p

由矩阵知识可知

??T?T'???tt'iii?1i

其中T考虑

?(t1,t2,?tp)为正交矩阵,?是对角元素为?1,?2,?,?p的对角矩阵。

y1的方差

pvar(y1)?var(a'1x)?c'1var(x)a1?pp??a'ii?11tit'ia1

??i?1?i(a'1ti)2??1?(a'1ti)2i?1?p???1a'1??tit'i?a1?i?1?

??1a'1TT'a1??1a'1a1??1 (11.3)

由式(11.3)可知,当a1?t1时,y1?t'1x的方差达到最大,最大值为?1。称

y2)?0y1?t'1x为第一主成分。如果第一主成分从数据中提取的信息还不够多,还应考虑第二主

成分。下面求a2,在cov(y1,条件下使得

y2的方差达到最大。由

cov(y1,y2)?cov(t'1x,a'2x)?t'1?a2?a'2?t1??1a'2t1?0

可得a'2t1?0,于是

p

var(y1)?var(a'2x)?a'2var(x)a2???a'ii?12tit'ia2

ppi???i?1(a'2ti)??2?i?12p?2(a'2ti)??2a'2??tit'i?i?1??a2 ???2a'2TT'a2??2a'2a2??2 (11.4)

由式(11.4)可知,当a2?t2时,y2?t'2x的方差达到最大,最大值为?2。称

y2?t'2x为第二主成分。类似的,在约束cov(yk,yi)?0(k?1,2,?,i?1)下可

得,当

ai?ti时yi?t'ix的方差达到最大,最大值为。?i称yi?t'ix(i?1,2,?,p)

为第i主成分。 2主成分的性质

(1)主成分向量的协方差矩阵为对角阵 记

???y?????则

y1??t'1x????y2??t'2x???(t1,t2,?,tp)'x?T'x????? (11.5) ????t'x?yp???p?,var(y)E(y)?E(T'x)?T'??var(T'x)?T'var(x)T?T'?T??

即主成分向量的协方差矩阵为对角矩阵。

(2)主成分的总方差等于原始变量的总方差: 设协方差矩阵?p?(?ij),则var(xi)??ij(i?1,2,?,p),于是

pipipij?var(yi?1)???i?1?tr(?)???i?1??var(xi?1i)

由此可见,原始数据的总方差等于

p个互不相关的主成分的方差之和,也就是说

pp个互不相关

的主成分包含了原始数据中的全部信息,但是主成分所包含的信息更为集中。

总方差中第i个主成分

yi的方差所占的比例?i??j(i?1,2,?,p)称为主成分yi的

j?1贡献率。主成分的贡献率反映了主成分综合原始变量信息的能力,也可理解为解释原始变量的能

力。由贡献率定义知,

p个主成分的贡献率依次递减,即综合原始变量信息的能力依次递减。第

一个主成分的贡献率最大,即第一个主成分综合原始变量信息的能力强。

mp前

m(m?p)个主成分的贡献率之和??ii?1?j?1?j称为前m个主成分的累积

贡献率,它反映了前m个主成分综合原始变量信息(或解释原始变量)的能力。由于主成分分析的主要目的是降维,所以需要在信息损失不太多的情况下,用少数几个主成分来代替原始变量

x1,x2,?,xp,以进行后续的分析,究竟用几个主成分来代替原始变量才合适呢?通常的

做法是取较小的m,使得恰前m个主成分的累积贡献率不低于某一水平(如85%以上),这样就达到了降维的目的。

(3)原始变量

xi与主成分

yi之间的相关系数?(xi,yi)

由式(11.5)可知

x?Ty于是

从而

xi?ti1y1?ti2y2???tipyp (11.6)

cov(xi,yi)?cov(tijyi,yj)?tijcov(yj,yj)?tij?cov(xi,yi)var(xi)var(yi)?j

?(xi,yi)??j?iitij,i,j?1,2,?,p

(4)前m个主成分对变量称

mxi的贡献率

?j?1?(xi,yi)?xi21m?ii2?j?1?jtij2

为前m个主成分对变量的贡献率。这个贡献率反映了前m个主成分从变量

xi中提取的个主成分

信息的多少。由式(11.6)可知?ii??1ti1??2ti2????ptip,固所有p对变量

22xi的贡献率为

p

?j?1?(xi,yi)?yi的贡献

21p?ii?j?1?jtij?1

2(5)原始变量对主成分主成分

yi的表达式为

yj?t'j?t1jx1?t2jx2???tpjxp,j?1,2,?,p

tij为第j个主成分

yj在第i个原始变量

xi上的载荷,它反映了

xi对

yj的重

要程度。在实际问题中,通常根据载荷

tij解释主成分的实际意义。

3,从总体相关系数矩阵出发求解主成分

当总体各变量取值的单位或数量级不同时,从总体协方差矩阵出发求解主成分就显得不合适了,此时应将每个变量标准化。记标准化变量为

x??xi?E(xi)var(xi)?,i?1,2,?,p***

则可以从标准化总体

x?(x1,x2,?xp)'的协方差矩阵求解主成分,即从总体

x的相关系数矩阵出发求解主成分,因为总体x?协方差矩阵就是x的相关系数矩阵。

设总体一样,设?1x的相关系数矩阵为R***,从R出发求解主成分的步骤与从?出发求解主成分的步骤

??2???p?0为Rp个特征值,t1*,t2,?,tp**为相应的正交单位

特征向量。则

p个主成分为

**? yi?ti'x,i?1,2,?,p (11.7)

????y??记

???则有以下结论

?y??t?'1x????????y2??t'2x?***???(t1,t2,?,tp)'x????? (11.8) ?????????yp??t'px???1 E(y)?0,var(yp)???diag(t1,t2,?,tp)

****?i?1?i*?tr(R)?P

**?(xi,yj)?此时前m**cov(xi,yj)var(xi)*var(yj)1pm*??jtij,i,j?1,2,?,p。

**

个主成分的累积贡献率为

??i?1*i11.1.3 样本的主成分

'x6:腰围' [-0.4268] [ 0.3084] [ 0.1193]

为了结果看上去更加直观,上面定义了两个元胞数组:result1和result2,用result1存放特征值,贡献率和累积贡献率,用result2存放3个主成分表达式的系数数据,即COEFF矩阵的前3列。这样做的目的仅是为了直观,读者也可以直接对pcacov函数返回的结果进行分析。

11.3.2 结果分析

从result1的结果来看,前3个主成分的累积贡献率达到了85.8756%,因此可以用前3个主成分后续的分析i;这样做虽然会有一定的信息损失,但损失不大,不影响大局。result2中列出了前3个主成分的相关结果,可知前3个主成分的表达式分别为

y1??0.4689x1?0.4037x2?0.3936x3?0.4076x4?0.3375x5?0.4268x6

y2??0.3648x1?0.3966x2?0.3968x3?0.3648x4?0.5692x5?0.3084x6

????????????y3?0.0922x1?0.6130x2?0.2789x3?0.7048x4?0.1643x5?0.1193x6

从第一主成分y1的表达式来看,它在每个标准化变量上有近似的负载荷,说明每个标准化变量对y1的重要性都差不多。当一个人的身材“五大三粗”,也就是说又高又胖时,x1???????,x2,

,x6??L,x6都比较大,此时y1的值就比较小,反之,当一个人又矮又瘦时x1??,x2,L?都比较小,此时y1的值就比较大,所以可以认为第一主成分是身材的综合成分(或魁梧成分)。

从第二主成分y2的表达式来看,它在标准化变量x1??,x2,和x4上有近似的负载荷,在

?x3,x5x5????,

x6上有近似的正载荷,说明当x1??,

?x2,和x4增大时,y2的值减小,当x3??,

,x6增大时,y2的值增大。当一个人的身材瘦高时,y2的值比较小,当一个人的身材矮胖

?时,y2的值比较大,所以可以认为第二主成分是身材的高矮和胖瘦的协调成分

从第三主成分y3的表达式来看,它在标准化变量

??x2上有比较大的正载荷,在x4上有比较大

?的负载荷,在其它变量上的载荷比较小,,说明x2(坐高)和x4(手臂长)对y3的影响比较

大,也就是说y3反映坐高(即上半身)与手臂长之间的协调关系,这对做长袖上衣时制定衣服和袖子的长短提供了参考。所以可认为第三主成分y3是臂长成分

后3个主成分的贡献率比较小,分别只有7.1057%,4.9133%和2.1054%,可以不用对它们作出解释。最后一个主成分的贡献率非常小,它揭示了标准化变量之间的如下共线性关系

0.7856x1?0.4434x2?0.1253x3?0.3706x4?0.0335x5??0.1788x6?c

??????11.4 案例33:从样本观测值矩阵出发求解主成分

表11-2列出了2007年我国31个省,市,自治区和直辖市的农村居民家庭平均每人全年消费支出的8个主要变量数据。数据来源:中华人民共和国国家统计局网站,2008年《中国统计年鉴》。数据保存在文件 .xls中,数据格式如表11-2所列,是根据这8个主要变量的观测数据,进行主成分分析

地 区 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 家庭设文教娱其他商备 交通和 乐 医疗保品 食 品 衣 着 居 住 及 服 通 讯 用品及健 及 服 务 服务 务 2132.51 513.44 1023.21 340.15 778.52 870.12 629.56 111.75 1367.75 286.33 674.81 126.74 400.11 312.07 306.19 64.30 1025.72 185.68 627.98 140.45 318.19 243.30 188.06 57.40 1033.68 260.88 392.78 120.86 268.75 370.97 170.85 63.81 1280.05 228.40 473.98 117.64 375.58 423.75 281.46 75.29 1334.18 281.19 513.11 142.07 361.77 362.78 265.01 108.05 1240.93 227.96 399.11 120.95 337.46 339.77 311.37 87.89 1077.34 254.01 691.02 104.99 335.28 312.32 272.49 69.98 3259.48 475.51 2097.21 451.40 883.71 857.47 571.06 249.04 1968.88 251.29 752.73 228.51 543.97 642.52 263.85 134.41 2430.60 405.32 1498.50 338.80 782.98 750.69 452.44 142.26 1192.57 166.31 479.46 144.23 258.29 283.17 177.04 52.98 1870.32 235.61 660.55 184.21 465.40 356.26 174.12 107.00 1492.02 147.71 474.49 121.54 277.15 252.78 167.71 61.08 1369.20 224.18 682.13 195.99 422.36 424.89 230.84 71.98 1017.43 189.71 615.62 136.37 269.46 212.36 173.19 62.26 1479.04 168.64 434.91 166.25 281.12 284.13 178.77 97.13 1675.16 161.79 508.33 152.60 278.78 293.89 219.95 86.88 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆

2087.58 162.33 763.01 163.85 443.24 254.94 199.31 128.06 1378.78 86.90 554.14 112.24 245.97 172.45 149.01 47.98 1430.31 86.26 305.90 93.26 248.08 223.98 95.55 73.23 1376.00 136.34 263.73 138.34 208.69 195.97 168.57 39.06 1435.52 156.65 366.45 142.64 241.49 177.19 174.75 52.56 998.39 99.44 329.64 70.93 154.52 147.31 79.31 34.16 1226.69 112.52 586.07 107.15 216.67 181.73 167.92 38.43 1079.83 245.00 418.83 133.26 156.57 65.39 50.00 68.74 941.81 161.08 512.40 106.80 254.74 304.54 222.51 55.71 944.14 112.20 295.23 91.40 186.17 208.90 149.82 29.36 1069.04 191.80 359.74 122.17 292.10 135.13 229.28 47.23 1019.35 184.26 450.55 109.27 265.76 192.00 239.40 68.17 939.03 218.18 445.02 91.45 234.70 166.27 210.69 45.25

本文来源:https://www.bwwdw.com/article/s4kg.html

Top