聚类分析

更新时间:2023-10-12 04:11:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

聚类分析

是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果,类内部个体特征具有相似性,不同类间个体特征的差异性较大。

没有先验知识是指没有事先指定分类标准。 亲疏程度是指各变量取之上的总体差异程度。

对亲疏程度的测量一般有两个角度:第一,个体间的相似程度;第二,个体间的差异程度。相似程度通常用简单相关系数或等级相关系数。差异程度通常计算某种距离来测度。

距离公式:

①欧氏距离(Euclidean distance)

EUCLID?x,y????xi?yi?i?1kk2 ②平方欧氏距离(Squared Euclidean distance)

SEUCLID?x,y????xi?yi?

i?12③切比雪夫(Chebychev)距离

CHEBYCHEV?x,y??maxxi?yi

④布洛克(Block)距离

BLOCK?x,y???xi?yi

i?1k⑤明考斯基(Minkowski)距离

MINKOWSKI?x,y??⑥夹角余弦定理(Cosine)距离

p?i?1kxi?yip

COSINE?x,y????xiyi?i?1k2iki?1i?1k2

2i?x?y⑦用户自定义(Customized)距离

CUSTOMIZED?x,y??q?x?yii?1kpi

在数据类型不同的情况下,个体间的距离计算也有相应的不同。主要有: 定距型(Interval )

计数变量(Count) 二值变量(Binary)

在计数变量时,有卡方距离和Phi方距离 ①卡方距离(Chi-Square measure)

CHISQ?x,y?????xi?E?xi??E?xi?2???yi?E?yi??E?yi?2 ②Phi方距离(Phi-Square measure)

?x?E?x??ii2PHISQ?x,y??E?xi???n?y?E?y??ii2E?yi?

二值变量时,有简单匹配系数和雅科比系数 ①简单匹配系数(Simple Matching) 个体x 1 0 个体y 1 a c 0 b d S?x,y??b?c

a?b?c?db?c

a?b?c②雅科比系数(Jaccard)

J?x,y??

聚类分析的应注意的几点:

1.变量的选择:所选择的变量应符合聚类的要求(即指标体系要符合要求)

2.数量级的问题:变量之间不应该有数量级上的差异。因为数量级会影响距离的计算结果。一般在进行分析之前,要消除

3.变量间的相关关系:不应有较强的线性相关关系

层次聚类(Hierarchical Cluster)

又称系统距离,主要分类两个类型,Q型聚类和R型聚类。聚类方式有凝聚方式聚类和分解方式聚类。SPSS软件中采用的是凝聚方式。 Q型聚类是对样本进行聚类,相当于统计分组 R型聚类是对变量进行聚类,相当于数据降维。 凝聚方式聚类:从一个到整体,逐步进入方式。 分解方式聚类:从整体中剔除,后退式。

个体与小类、小类与小类间“亲疏程度”的度量方法

A B C D E Euclidean Distance A 0 8.062 17.804 26.907 30.414 B 8.062 0 25.456 34.655 38.210 C 17.804 25.456 0 9.220 12.806 D 26.907 34.655 9.220 0 3.606 E 30.414 38.210 12.806 3.606 0 ①最近邻居距离(Nearest Neighbor) ②最远邻居距离(Furthest Neighbor)

③组间平均链锁(Between-group linkage) ④组内平均链锁(Within-group linkage) ⑤重心(Centroid clustering)距离

D?k,r??npnrD?k,p??nqnrD?k,q??npnqnrnrD?p,q?

如,本例中,DA,?D,E????1111D?A,D??D?A,E??D?D,E? 2222

⑥离差平方和(Wald’s method) ⑦中位数距离(Median clustering)

步骤:

①选择分析变量

②数据标准化。特别是在指标数量级不一致时,要采用,标准化的方法也有很多种。见软件 ③选择距离或相似系数的计算公式,输出距离矩阵或相似阵。 ④选择聚类方法。

⑤输出聚类结果和聚类谱系图 ⑥根据输出结果,进行分类判断。

K-Means聚类

K-Means聚类也称快速聚类,它仍将数据看成k维空间上点,仍以距离作为测度个体亲疏程度的指标,并通过牺牲多个解为代价换得高的执行效率。

步骤:

第一步:指定聚类数目K。即由用户规定输出多少个类别。 第二步:确定K个初始类中心。主要有两种方式:一种是由系统指定,另一种则由用户指定。 第三步:根据距离最近原则进行分类。依次计算每个样本数据点到K个类中心的欧氏距离,按照最短距离的原则,将所有样本分派到K个分类中去。

第四步:重新确定K个类中心。原则是:依次计算各类中p个变量的均值,并以均值点作为K个类的中心点。

第五步:判断是否已经满足终止聚类分析的条件。条件有两个:迭代次数和类中心收敛值。 如果不满足,则回到第三步。 最后,输出结果,进行分析。

两种聚类方法的区别:

快速聚类:可以自己指定归类数目,输出结果也根据指定的要求列出。 层次聚类:可以看到整个过程,对于输出结果,可以做多种分类。

注意之处:快速聚类时,要指定类中心时,则对于数据格式有具体的要求。必须保证类中心为数据文件中的变量名与我们所有分析的数据表中一致。 如: Cluster_ 1 2 3 gwhj fwzl

判别分析

根据已知对象的某些观测指标和所属类别来判断未知对象多属类别的一种统计方法。

基本思想:

通过训练样本的信息(先验信息),提取数据的特征,构建判别方程(判别函数),对新个体进行分类。

步骤:

第一步:选择训练样本。

第二步:选择变量进入判别分析。

第三步:输出判别函数,同时对判别函数的判别效果进行评价。若回判的准确率很高,则可以采用这一判别函数,对新样本点进行判别分类。

注意之处:

本文来源:https://www.bwwdw.com/article/gdlf.html

Top