聚类分析

更新时间：2023-10-12 04:11:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

聚类分析

是一种建立分类的多元统计分析方法，它能够将一批样本（或变量）数据根据其诸多特征，按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类，产生多个分类结果，类内部个体特征具有相似性，不同类间个体特征的差异性较大。

没有先验知识是指没有事先指定分类标准。亲疏程度是指各变量取之上的总体差异程度。

对亲疏程度的测量一般有两个角度：第一，个体间的相似程度；第二，个体间的差异程度。相似程度通常用简单相关系数或等级相关系数。差异程度通常计算某种距离来测度。

距离公式：

①欧氏距离（Euclidean distance）

EUCLID?x,y????xi?yi?i?1kk2 ②平方欧氏距离（Squared Euclidean distance）

SEUCLID?x,y????xi?yi?

i?12③切比雪夫（Chebychev）距离

CHEBYCHEV?x,y??maxxi?yi

④布洛克（Block）距离

BLOCK?x,y???xi?yi

i?1k⑤明考斯基（Minkowski）距离

MINKOWSKI?x,y??⑥夹角余弦定理（Cosine）距离

p?i?1kxi?yip

COSINE?x,y????xiyi?i?1k2iki?1i?1k2

2i?x?y⑦用户自定义（Customized）距离

CUSTOMIZED?x,y??q?x?yii?1kpi

在数据类型不同的情况下，个体间的距离计算也有相应的不同。主要有：定距型（Interval ）

计数变量（Count）二值变量（Binary）

在计数变量时，有卡方距离和Phi方距离 ①卡方距离（Chi-Square measure）

CHISQ?x,y?????xi?E?xi??E?xi?2???yi?E?yi??E?yi?2 ②Phi方距离（Phi-Square measure）

?x?E?x??ii2PHISQ?x,y??E?xi???n?y?E?y??ii2E?yi?

二值变量时，有简单匹配系数和雅科比系数 ①简单匹配系数（Simple Matching）个体x 1 0 个体y 1 a c 0 b d S?x,y??b?c

a?b?c?db?c

a?b?c②雅科比系数（Jaccard）

J?x,y??

聚类分析的应注意的几点：

1．变量的选择：所选择的变量应符合聚类的要求（即指标体系要符合要求）

2．数量级的问题：变量之间不应该有数量级上的差异。因为数量级会影响距离的计算结果。一般在进行分析之前，要消除

3．变量间的相关关系：不应有较强的线性相关关系

层次聚类（Hierarchical Cluster）

又称系统距离，主要分类两个类型，Q型聚类和R型聚类。聚类方式有凝聚方式聚类和分解方式聚类。SPSS软件中采用的是凝聚方式。 Q型聚类是对样本进行聚类，相当于统计分组 R型聚类是对变量进行聚类，相当于数据降维。凝聚方式聚类：从一个到整体，逐步进入方式。分解方式聚类：从整体中剔除，后退式。

个体与小类、小类与小类间“亲疏程度”的度量方法

A B C D E Euclidean Distance A 0 8.062 17.804 26.907 30.414 B 8.062 0 25.456 34.655 38.210 C 17.804 25.456 0 9.220 12.806 D 26.907 34.655 9.220 0 3.606 E 30.414 38.210 12.806 3.606 0 ①最近邻居距离（Nearest Neighbor） ②最远邻居距离（Furthest Neighbor）

③组间平均链锁（Between-group linkage） ④组内平均链锁（Within-group linkage） ⑤重心（Centroid clustering）距离

D?k,r??npnrD?k,p??nqnrD?k,q??npnqnrnrD?p,q?

如，本例中，DA,?D,E????1111D?A,D??D?A,E??D?D,E? 2222

⑥离差平方和（Wald’s method） ⑦中位数距离（Median clustering）

步骤：

①选择分析变量

②数据标准化。特别是在指标数量级不一致时，要采用，标准化的方法也有很多种。见软件 ③选择距离或相似系数的计算公式，输出距离矩阵或相似阵。 ④选择聚类方法。

⑤输出聚类结果和聚类谱系图 ⑥根据输出结果，进行分类判断。

K-Means聚类

K-Means聚类也称快速聚类，它仍将数据看成k维空间上点，仍以距离作为测度个体亲疏程度的指标，并通过牺牲多个解为代价换得高的执行效率。

步骤：

第一步：指定聚类数目K。即由用户规定输出多少个类别。第二步：确定K个初始类中心。主要有两种方式：一种是由系统指定，另一种则由用户指定。第三步：根据距离最近原则进行分类。依次计算每个样本数据点到K个类中心的欧氏距离，按照最短距离的原则，将所有样本分派到K个分类中去。