主成分分析

更新时间:2023-11-12 22:08:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

空气污染和径赛纪录问题分析

摘 要 本文运用主成分分析法,主要讨论空气污染和女子径赛纪录的数据分析问题,并解释主成分的实际意义。

针对问题一,以中午12点的7个空气污染因子为变量,建立总体样本。分别从样本协方差矩阵和相关矩阵出发,运用MATLAB的princomp函数作主成分分析。再比较二者的特征向量和相关系数,可知由相关矩阵所得的前三个主成分更能够反映原始数据的变化情况。

针对问题二,以径赛项目上的7个女子纪录为变量,建立总体样本。首先将数据标准化,运用MATLAB中的cov函数得出相关矩阵;并利用princomp函数求出矩阵的特征值、特征向量、累计贡献率和主成分得分。其次结合权重和相关系数,得出第一主成分综合反映了各个国家和地区的运动员优秀程度,第二主成分反映国家的相对实力。最后,根据第一主成分得分对各个国家排序,结果与原始数据中的直观看法基本吻合。

关键词 空气污染;径赛纪录;主成分分析

一、问题重述

生活中往往会遇到涉及众多变量的问题,如某省的居民生活质量分析、机械类各企业的经济效益、体育成绩统计分析等问题。一般来说,每个变量都可以提供一定的信息,但其重要性有所不同,因此会选择基于降维的主成分分析法来解决此类问题,现根据主成分分析法解决以下问题:

问题一:已知某城市在42天中的中午12点的7项空气污染数据(见附录表1),分别为风速、太阳辐射、CO、NO、NO2、O3及HC。试利用尽可能少的变量提取原数据集的信息,分别利用样本协方差矩阵和样本相关矩阵做主成分分析,并说明二者结果的差异。结合原始数据的变化可否由三个或者更少的主成分反映并对所选取的主成分作出解释。

问题二:已知世界上55个国家和地区1984年前在7个径赛项目上的女子纪录(见附录表2)。试分析以下问题:

1.求女子记录的样本相关矩阵R及它的特征值和相应正交单位化特征向量。 2.求前两个标准化样本主成分及累计贡献率。 3.解释2中的两个主成分的意义(事实上,第一主成分近似于各变量的等权重之和,它反映了个国家和地区的运动员的优秀程度,第二主成分可用于度量个国家和地区在各径赛项目上的相对实力)。

4.基于第一样本主成分的得分对各国家和地区排序,这与你从原始数据中的达到的直观看法是否基本吻合。

二、问题分析

在空气污染和女子径赛纪录的数据分析问题中,由于变量较多,会增加计算的复杂性,所以考虑运用主成分分析法求解,用较少的变量反映原变量提供的绝大部分信息。以下针对问题一、问题二分别从协方差矩阵和相关矩阵进行分析,得出主成分和累计贡献率,并作出合理解释。

针对问题一,以中午12点的7个空气污染因子为变量,已知某城市42个样本数据,为了利用尽可能少的变量提取样本信息,可以分别从样本协方差矩阵和样本相关矩阵作主成分分析。利用MATLAB的cov函数可以得到协方差矩阵,将数据标准化后利用cov函数可以得到相关矩阵,再利用MATLAB的princomp过程可以得到两个矩阵的特征值、贡献率和主成分等,并由此判断前三个主成分是否能判断影响空气质量的重要指标,同时可以对所选主成分作出合理解释。

针对问题二,以径赛项目上的7个女子纪录为变量,已知55个国家和地区的样本数据,为求出样本的相关矩阵,可先将数据标准化,运用MATLAB中的cov函数得出相关矩阵,再求特征值和特征向量。并且运用MATLAB中的princompz函数可以得到标准化样本的主成分、累计贡献率和第一主成分的得分,最后解释2个主成分的实际意义并根据主成分得分排序。

三、基本假设

1.各变量之间相互独立;

2.忽略其他对空气污染造成微小影响的空气成分; 3.忽略其他径赛项目对问题二得分情况的影响。

1

四、符号说明

符号

n

p

含义 样本个数 变量个数

样本方差(i?1,2,?n) 原始变量(i?1,2?p)

样本主成分 样本协方差 样本相关矩阵 样本平均值(i?1,2?p)

协方差矩阵 特征向量矩阵

矩阵的特征值(i?1,2?p) 矩阵的特征向量i?1,2?p

第一主成分得分

?ii

xi

yi

Cov?Xi,Xj?

R ?i

?

P

?i

ei

D

五、模型的建立及求解

由问题分析可知,主成分分析是常见的处理多变量生活问题的解决方法,其主要是构造原变量的一系列线性组合,使各线性组合在彼此不相关的前提下尽可能多地反映原变量的信息。下面将对某城市42天中午的空气污染数据和55个国家的7项女子径赛记录数据作主成分分析。 5.1 主成分分析原理及步骤 5.1.1 主成分定义

假定有n个样本,每个样本共有p个变量,构成n?p阶的数据矩阵

?x11?x21?X?????x?n1x12?x1p??x22?x2p????

?xn2?xnp??当p较大时,在p维空间内考虑问题比较麻烦。为克服这一困难,就需要进行降

维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些综合指标尽量多地反映原来指标所反映的信息,这些综合指标即为主成分。主成分定义如下:记x1,x2,…,xp为原变量指标,y1,y2,…,ym(m?p)为新变量指标

2

?y1?l1TX?l11x1?l12x2???l1pxp?T?y2?l2X?l21x1?l22x2???l2pxp ????y?lTX?lx?lx???lxm11m22mpp?mm22其中li2,系数lij的确定原则: 1?li2???lip?1(1)yi与yj(i?j;i,j?1,2,?m)相互无关

(2)y1是x1,x2,…,xp的一切线性组合中方差最大者;y2是与y1线性无关的x1,x2,…,xp的所有线性组合中方差最大者;…;ym是与y1,y1,…,ym?1都线性无关的x1,x2,…,xp的所有线性组合中方差最大者。

则新变量指标y1,…,…,…,xp的第1,2,y2,ym分别称为原变量指标x1,x2,

m主成分。[1]

5.1.2 利用协方差矩阵做主成分分析

1.计算协方差矩阵

样本数据的协方差矩阵为??(sij)p?p,其中

1nsij?(xki?xi)(xkj?xj)(i,j?1,2,?,p) (1) ?n?1k?12.确定主成分

求出?的特征值?i,前m个较大特征值为?1??2????m?0,及相应的正交单位特征向量ei。由分析可知?m分别对应前m个主成分的方差,ei为第i个主成分yi关于原变量的系数,所以zi表示为yi?ei'X,主成分yi的方差贡献率?i为

?i??i/??k (2)

k?1p用来表示第i个主成分反映信息量的大小。 3.选择主成分

y1,y2,…,ym中m的确定是通过方差累计贡献率G(m)确定

G(m)???i/??k (3)

i?1k?1mp当累计贡献率大于85%时,就认为能足够反映原来变量的信息,对应的m为抽取的前m个主成分。 4.计算主成分得分

计算样品在m个主成分上的得分

Fi?e1ix1?e2ix2???epixp(i?1,2,?,m) (4) 5.1.3利用样本相关矩阵做主成分分析

实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响,常用的方法是将原始数据标准化,即做如下数据变换

xij?xj(i?1,2,?,n;j?1,2,?,p)(5) xij*?sj1n1n*2其中,x??xij,sj?(xij?xj)2,由此可得标准化变量X。计算标准?ni?1n?1i?13

化变量的协方差矩阵R,即为原变量的相关矩阵,再计算相关矩阵的特征值和对应的正交单位特征向量,按特征值由大到小所对应的正交单位特征向量为组合系

***X数的x1,x2,…,x*的线性组合分别表示的第一、第二、直至第p个主成分,p各主成分的方差等于相应的特征值。 5.2 关于空气污染数据的主成分分析

由问题分析可知,可以运用主成分分析的方法尽可能的提取原数据集的信息,

并用较少的变量表示原始数据的信息。下面利用协方差矩阵和样本相关矩阵分别作主成份分析,并比较二者的差异,分别分析前三个主成分是否能够评判影响空气质量的重要指标。

选取能够综合评价空气污染程度的主成分来建立综合评价模型,再通过模型分别计算各天的主成分得分,比较各天的空气质量。 5.2.1由样本协方差矩阵S出发进行主成分分析

由MATLAB的cov函数代入数据可求得随机变量x?(x1,x2,x3,x4,x5,x6,x7)T的协方差阵为(只写出下三角部分)

?2.5????2.7195252.5604????0.41464.15451.8165? ???????0.4634?1.35770.76071.1823???0.58546.86182.31821.088311.3635????2.231730.72762.9977?0.81073.126630.9785???0.17070.65040.14870.17651.24410.59470.4785???利用特征值计算公式?E???0,第i个主成分的贡献率?i成分的累计贡献率??ss?1k??k?17k,及前k个主

??t?17t,代入数据,并由MATLAB的princomp过程,求

出?的特征值(程序见附录程序1)?i,得到各主成分的贡献率及累计贡献率如表1所示

i

1 2 3 4 5 6 7

表1 S的特征值及贡献率

?i(特征值) 贡献率(%) 累计贡献率(%) 303.6941 87.2016 87.2016 28.3132 8.1298 95.3314 11.4674 3.2927 98.6241 2.5494 0.7320 99.7783 1.4703 0.4222 99.3561 0.5479 0.1573 99.9356 0.2243 0.0644 100.0000

由问题分析可知,选取前三个主成分,累计贡献率达到98.62%,记主成分向量为y?(y1,y2,y3)。前三个样本主成分中各变量xi(i?1,2?7)的系数(即对应?1,?2,?3的正交单位化特征向量)为

e1?(0.0099,?0.9932,?0.015,0.0046,?0.026,?0.1125,0.0024)T

e2?(?0.0766,?0.1163,0.1059,?0.0128,0.1501,0.9727,0.0237)T

4

本文来源:https://www.bwwdw.com/article/dcqv.html

Top