当前位置：首页>免费文档>文库资料>综合文库>多元分析

多元分析

更新时间：2023-09-28 16:49:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

多元分析

一、聚类分析

1、相似性度量

（1）样本的相似性度量

要用数量化的方法对事物进行分类，就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一个有待分类的样本带点需用p个变量描述，则每个样本点可以看成是R空间中的一个点。因此，想到用距离来度量样本点间的相似程度。

记?为样本点集，距离d(.,.)是????R?的一个函数，满足条件： 1）d(x,y)?0,x,y??； 2）d(x,y)?0,当且仅当x?y； 3）d(x,y)?d(y,x),x,y??；

4）d(x,y)?d(x,z)?d(x,y),x,y,z??。

它满足正定性，对称性和三角不等式。

在聚类分析中，对于定量变量，最常用的是Minkowski距离

p?q?dq(x,y)???xk?yk?,q?0

?k?1? 当q?1,2或q???，则分别得到

1）绝对值距离

p1qd1(x,y)??xk?yk

k?1q2）欧式距离

?2?d2(x,y)???xk?yk?

?k?1?3） Chebyshev距离

p12d?(x,y)?maxxk?yk

1?k?p最常用的是欧式距离，它主要优点是当坐标轴进行正交旋转时，欧式距离是保持不变的。因此，如果对原坐标系进行平移和旋转变换，则变换后样本点间的距离和变换前完全相同。注意一定要采用相同量纲的变量。若量纲不同，则先进行数据的标准化处理，然后计算距离。在采用Minkowski距离时，尽可能地避免变量的多重相关性，它所造成的信息重叠，会片面强调某些变量的重要性。基于这些缺点，一种改进的距离就是马氏距离，如下

d(x,y)?(x?y)T??1(x?y) 其中x,y为来自p维总体Z的样本观测值，∑为Z的协方差矩阵，实际中∑往往是不知道的，常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的，故不受量纲的影响。此外，还可以采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。

（2）类与类间的相似性度量

若有两个样本类G1和G2，我们可以采取以下方法度量它们间的距离： 1）最短距离法

D(G1,G2)?min?d?xi,yi??

xi?G1yj?G2它的直观意义为两个类中最近两点间的距离。 2）最长距离法

D(G1,G2)?max?d?xi,yi??

xi?G1yj?G2它的直观意义为两个类中最远两点间的距离。 3）重心法

D(G1,G2)?dx,y

其中x,y分别为G1,G2的重心。 4）类平均法

??D(G1,G2)?1n1n2xi?G1xj?G2??d?x,y?

ij它等于G1,G2中两两样本点距离的平均，式中n1,n2分别为G1,G2中的样本点个数。 5）离差平方和法若记

D1?xi?G1??xi?x1??Txi?x1 D2??xj?G2??xj?x2??xTj?x2

?D12?其中

xk?G1?G2??xk?x??xTk?x

?x1?11x，x??i2nn1xi?G12xj?G2?xj，x?1n1?n2xk?G1?G2?xk

则定义

D?G1,G2??D12?D1?D2

事实上，若G1,G2内部点与点距离很小，则它们能很好地各自聚为一类，并且这两类又能够充分分立（即D12很大），这时必然有D很大。 2、系统聚类法（1）画聚类图

1）计算n各样本点两两之间的距离dij，记为D?dij????n?n；

2）首先构造n个类，每一个类中只包含一个样本点，每一类的平台高度均为零； 3）合并距离最近的两类为新类，并且以这两类间的距离值作为聚类图中的平台高度；

4）计算新类与当前各类的距离，若类的个数已经等于1，转入步骤5），否则回到上步；

5）画聚类图；

6）决定类的个数和类。

（2）最短距离法和最长距离法（最近邻法） Matlab典型算法： clc,clear

a=[1,0;1,1;3,2;4,3;2,5];

y=pdist(a,'cityblock');%计算a矩阵中两两对象间的绝对值矩阵 yc=squareform(y)% 将pdist的输出转换为方阵

z=linkage(y)% 使用最短距离算法生成具层次结构的聚类树 [h,t]=dendrogram(z) %由linkage产生的数据矩阵Z画聚类树状图

3.变量聚类法

（1）变量相似性度量 1）相关系数

记变量xj的取值x1j,x2j,?,xnj??T?Rn?j?1,2,?,m?。则可以用两变量xj和xk的

样本相关系数作为它们的相似性度量：

rjk???xi?1nij?xj2??xnik?xk??2?n??xij?xj?i?1????i?1xik?xk???12

2）夹角余弦

也可以用两变量xj和xk的夹角余弦rjk来定义它们的相似性度量：

rjk??xxi?1nijik12

?n2n2???xij?xik?i?1?i?1?各种定义的相似度量均应具有以下两个性质：

rjk?1和rjk?rkj，对于一切j,k

rjk越接近1，xj和xk越相关或越相似。rjk越接近零，xj和xk相似性越弱。

（2）变量聚类法

类似于样本集合聚类分析中最常用的最短距离法、最长距离法等，变量聚类法采用了与系统聚类法相同的思路和过程。在变量聚类问题中，常用的有最大系数法、最小系数法等。

1）最大系数法

在最大系数法中，定义两类变量的距离为

R?G1,G2??max?rjk?

xj?G1xi?G2这时， R?G1,G2?等于两类中最相似的两变量间的相似性度量值。 2）最小系数法

在最小系数法中，定义两类变量的距离为

R?G1,G2??min?rjk?

xj?G1xi?G2这时， R?G1,G2?等于两类中相似性最小的两变量间的相似性度量值。

聚类分析又称群分析，是对多个样本（或指标）进行定量分类的一种多元统计分析方法。对样本进行分类称为Q型聚类分析，对指标进行分类称为R型聚类分析。

（3）R型聚类分析

可以看出某些指标之间确实存在很强的相关性，因此可以考虑从这些指标中选取几个有代表性的指标进行聚类分析。为此，把十个指标根据其相关性进行R型聚类，再从每个类中选取代表性的指标。首先对每个变量（指标）的数据分别进行标准化处理。变量间相近性度量采用相关系数，类间相近性度量的计算选用类平均法。

（4）Q型聚类分析

根据这六个指标对30个地区进行聚类分析。首先对每个变量的数据分别进行标准化处理，样本间相近性采用欧氏距离度量，类间距离的计算选用类平均法。

本文来源：https://www.bwwdw.com/article/t1jd.html

相关文章：

正在阅读：

多元分析09-28

高三英语30分钟限时训练05-25

部编版一年级下册语文《语文园地一：和大人一起读：谁和谁好》06-15

第四章我国安全环境作业01-19

2017年10月执业药师考试药学知识二考点精华复习(第二十二章)08-30

Atomic3000用户手册03-16

高速线材轧机的活套控制07-24

关于大学社团志愿活动个人心得体会参考范文08-04

浅谈解决倍数关系问题的策略11-13

小学五年级写事日记02-06

上一篇：电子电路设计制作指导书下一篇：航空发动机叶片

相关文章

最新文章

推荐文章

Top