多元分析

更新时间:2023-09-28 16:49:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

多元分析

一、聚类分析

1、 相似性度量

(1)样本的相似性度量

要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一个有待分类的样本带点需用p个变量描述,则每个样本点可以看成是R空间中的一个点。因此,想到用距离来度量样本点间的相似程度。

记?为样本点集,距离d(.,.)是????R?的一个函数,满足条件: 1)d(x,y)?0,x,y??; 2)d(x,y)?0,当且仅当x?y; 3)d(x,y)?d(y,x),x,y??;

4)d(x,y)?d(x,z)?d(x,y),x,y,z??。

它满足正定性,对称性和三角不等式。

在聚类分析中,对于定量变量,最常用的是Minkowski距离

p?q?dq(x,y)???xk?yk?,q?0

?k?1? 当q?1,2或q???,则分别得到

1) 绝对值距离

p1qd1(x,y)??xk?yk

k?1q2) 欧式距离

?2?d2(x,y)???xk?yk?

?k?1?3) Chebyshev距离

p12d?(x,y)?maxxk?yk

1?k?p最常用的是欧式距离,它主要优点是当坐标轴进行正交旋转时,欧式距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同。 注意一定要采用相同量纲的变量。若量纲不同,则先进行数据的标准化处理,然后计算距离。在采用Minkowski距离时,尽可能地避免变量的多重相关性,它所造成的信息重叠,会片面强调某些变量的重要性。基于这些缺点,一种改进的距离就是马氏距离,如下

d(x,y)?(x?y)T??1(x?y) 其中x,y为来自p维总体Z的样本观测值,∑为Z的协方差矩阵,实际中∑往往是不知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。 此外,还可以采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。

(2)类与类间的相似性度量

若有两个样本类G1和G2,我们可以采取以下方法度量它们间的距离: 1) 最短距离法

D(G1,G2)?min?d?xi,yi??

xi?G1yj?G2它的直观意义为两个类中最近两点间的距离。 2) 最长距离法

D(G1,G2)?max?d?xi,yi??

xi?G1yj?G2它的直观意义为两个类中最远两点间的距离。 3) 重心法

D(G1,G2)?dx,y

其中x,y分别为G1,G2的重心。 4) 类平均法

??D(G1,G2)?1n1n2xi?G1xj?G2??d?x,y?

ij它等于G1,G2中两两样本点距离的平均,式中n1,n2分别为G1,G2中的样本点个数。 5) 离差平方和法 若记

D1?xi?G1??xi?x1??Txi?x1 D2??xj?G2??xj?x2??xTj?x2

?D12?其中

xk?G1?G2??xk?x??xTk?x

?x1?11x,x??i2nn1xi?G12xj?G2?xj,x?1n1?n2xk?G1?G2?xk

则定义

D?G1,G2??D12?D1?D2

事实上,若G1,G2内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类又能够充分分立(即D12很大),这时必然有D很大。 2、 系统聚类法 (1)画聚类图

1)计算n各样本点两两之间的距离dij,记为D?dij????n?n;

2)首先构造n个类,每一个类中只包含一个样本点,每一类的平台高度均为零; 3)合并距离最近的两类为新类,并且以这两类间的距离值作为聚类图中的平台高度;

4)计算新类与当前各类的距离,若类的个数已经等于1,转入步骤5),否则回到上步;

5)画聚类图;

6)决定类的个数和类。

(2)最短距离法和最长距离法(最近邻法) Matlab典型算法: clc,clear

a=[1,0;1,1;3,2;4,3;2,5];

y=pdist(a,'cityblock');%计算a矩阵中两两对象间的绝对值矩阵 yc=squareform(y)% 将pdist的输出转换为方阵

z=linkage(y)% 使用最短距离算法生成具层次结构的聚类树 [h,t]=dendrogram(z) %由linkage产生的数据矩阵Z画聚类树状图

3.变量聚类法

(1)变量相似性度量 1)相关系数

记变量xj的取值x1j,x2j,?,xnj??T?Rn?j?1,2,?,m?。则可以用两变量xj和xk的

样本相关系数作为它们的相似性度量:

rjk???xi?1nij?xj2??xnik?xk??2?n??xij?xj?i?1????i?1xik?xk???12

2)夹角余弦

也可以用两变量xj和xk的夹角余弦rjk来定义它们的相似性度量:

rjk??xxi?1nijik12

?n2n2???xij?xik?i?1?i?1?各种定义的相似度量均应具有以下两个性质:

rjk?1和rjk?rkj,对于一切j,k

rjk越接近1,xj和xk越相关或越相似。rjk越接近零,xj和xk相似性越弱。

(2)变量聚类法

类似于样本集合聚类分析中最常用的最短距离法、最长距离法等,变量聚类法采用了与系统聚类法相同的思路和过程。在变量聚类问题中,常用的有最大系数法、最小系数法等。

1)最大系数法

在最大系数法中,定义两类变量的距离为

R?G1,G2??max?rjk?

xj?G1xi?G2这时, R?G1,G2?等于两类中最相似的两变量间的相似性度量值。 2)最小系数法

在最小系数法中,定义两类变量的距离为

R?G1,G2??min?rjk?

xj?G1xi?G2这时, R?G1,G2?等于两类中相似性最小的两变量间的相似性度量值。

聚类分析又称群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析方法。对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析。

(3)R型聚类分析

可以看出某些指标之间确实存在很强的相关性,因此可以考虑从这些指标中选取几个有代表性的指标进行聚类分析。为此,把十个指标根据其相关性进行R型聚类,再从每个类中选取代表性的指标。首先对每个变量(指标)的数据分别进行标准化处理。变量间相近性度量采用相关系数,类间相近性度量的计算选用类平均法。

(4)Q型聚类分析

根据这六个指标对30个地区进行聚类分析。首先对每个变量的数据分别进行标准化处理,样本间相近性采用欧氏距离度量,类间距离的计算选用类平均法。

本文来源:https://www.bwwdw.com/article/t1jd.html

Top