聚类分析 - 图文

更新时间:2023-09-26 15:55:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

1聚类分析内涵

1.1聚类分析定义

聚类分析(Cluster Analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术. 也叫分类分析(classification analysis)或数值分类(numerical taxonomy),它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。

聚类分析有关变量类型:定类变量,定量(离散和连续)变量

聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。

1.2聚类分析分类

聚类分析的功能是建立一种分类方法,它将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类.

聚类分析的内容十分丰富,按其聚类的方法可分为以下几种:

(1)系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度.这一过程一直继续直到所有对象归为一类为止.并类的过程可用一张谱系聚类图描述.

(2)调优法(动态聚类法):首先对n个对象初步分类,然后根据分类的损失函数尽可能小的原则对其进行调整,直到分类合理为止.

(3)最优分割法(有序样品聚类法):开始将所有样品看成一类,然后根据某种最优准则将它们分割为二类、三类,一直分割到所需的K类为止.这种方法适用于有序样品的分类问题,也称为有序样品的聚类法.

(4)模糊聚类法:利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.

(5)图论聚类法:利用图论中最小支撑树的概念来处理分类问题,创造了独具风格的方法.

(6)聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可用来作预报的方法很多,如回归分析和判别分析.但对一些异常数据,如气象中的灾害性天气的预报,使用回归分析或判别分析处理的效果都不好,而聚类预报弥补了这一不足,这是一个值得重视的方法。

聚类分析根据分类对象的不同又分为R型和Q型两大类,R型是对变量(指标)进行分类,

Q型是对样品进行分类。

样品聚类 ( Q 型聚类):对事件(Cases)进行聚类,或是说对观测量进行聚类。 变量聚类 ( R 型聚类):进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息

R型聚类分析的目的有以下几方面:

(1)可以了解变量间及变量组合问的亲疏关系; (2)对变量进行分类;

(3)根据分类结果及它们之间的关系,在每一类中选择有代表

聚类分析性的变量作为重要变量,利用少数几个重要变量进一步作分析计算,如进行回归分析或Q型聚类分析等.

Q型聚类分析的目的主要是对样品进行分类.分类的结果是直观的,且比传统分类方法更细致、全面、合理.当然使用不同的分类方法通常会得到不同的分类结果.对任何观测数据都没有惟一“正确的”的分类方法.实际应用中,常采用不同的分类方法,对数据进行分析计算,以便对分类提供具体意见,并由实际工作者决定所需要的分类数及分类情况。

1.3 统计量

为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是相似系数;另一种方法是距离 。

聚类分析中可采用不同类型的统计量,通常Q型聚类采用距离统计量,R型聚类采用相似系数统计量。

(一)距离

设有n个样本,每个样本观测p个变量,数据结构为

?x11?x?21?......???xn1x12x22......xn2........................x1p?x2p???......?xnp??,

其中,xij是第i个样本第j个指标的观测值。因为每个样本点有p个变量,我们可以将每个样本点看作p维空间中的一个点,那么各样本点间的接近程度可以用距离来度量。以

dij为第i样本点与第j样本点间的距离长度,距离越短,表明两样本点间相似程度高。最常见的距离指标有:

绝对距离:

dij??xik?xjk

2dij?欧氏距离:切比雪夫距离:马氏距离:

??xk?1pik?xjk?

dij?maxxik?xjk1?k?pdij?(Xi?Xj)?S(Xi?Xj)??1?12,其中

Xi?(xi1,xi2,...,xip)i?1,2,...,n,

1nsij?(xki?xi)(xkj?xj)?n?1k?1S是样本数据矩阵相应的样本协方差矩阵,即S的元素。

(二)相似系数

对于p维总体,由于它是由p个变量构成的,而且变量之间一般都存在内在联系,因此往往可用相似系数来度量各变量间的相似程度。相似系数介于-1至1之间,绝对值越接近于1,表明变量间的相似程度越高。常见的相似系数有:

cos?ij?夹角余弦:n?xk?1nk?1nkikjnxi,j?1,?,p2kj?x?x2kik?1

rij??(xk?1ki?xi)(xkj?xj)n相关系数:

?(xk?1ni,j?1,?,pki?xi)2?(xkj?xj)2k?1 1.4 基本思想

聚类分析是建立一种分类方法将一批样本或变量按照它们在性质上的相似、疏远程度进行科学分类的方法。聚类分析可以分为Q型聚类和R型聚类两种,Q型聚类是指对样本进行分类,R型聚类是指对变量进行分类。

其基本思想是认为研究的样本或变量之间存在着程度不同的相似性,根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划

分类型的依据,把一些相似程度较大的样本(或变量)聚合为一类,把另外一些彼此之间相似程度较大的样本(变量)也聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后再把整个分类系统画成一张图,将亲疏关系表示出来。

简单的说即:物以类聚。

相近的聚为一类(以距离表示,样品聚类); 相似的聚为一类(以相似系数表示,变量聚类)。

1.5系统聚类法

系统聚类分析是聚类分析中应用最广泛的一种方法,凡是具有数值特征的变量和样本都可以采用系统聚类法。选择适当的距离和聚类方法,可以获得满意的聚类结果。

(一)分类的形成

先将所有的样本各自算作一类,将最近的两个样本点首先聚类 ,再将这个类和其他类中最靠近的结合,这样继续合并,直到所有的样本合并为一类为止。若在聚类过程中,距离的最小值不唯一,则将相关的类同时进行合并。

(二)类与类间的距离

系统聚类方法的不同取决于类与类间距离的选择,由于类与类间距离的定义有许多种,例如定义类与类间距离为最近距离、最远距离或两类的重心之间的距离等,所以不同的选择就会产生不同的聚类方法。常见的有:最短距离法(single linkage)、最长距离法(complete linkage)、中间距离法(median method)、可变距离法(flexible median)、重心法(centroid)、类平均法(average)、可变类平均法(flexible average) 、Ward最小方差法(Ward’s minimum variance) 及离差平方和法等。

设两个类

Gl,Gm,分别含有n1和n2个样本点,

① 最短距离法:

dlm?min?dij,Xi?Gl,Xj?Gm?

② 最长距离法:

dlm?max?dij,Xi?Gl,Xj?Gm?

③ 重心法:两类的重心分别为

xl,xm,则dlm?dx1x2

dlm?④ 类平均法:

1n1n2Xi?GiXj?Gj??dij

⑤ 离差平方和法:首先将所有的样本自成为一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使整个类内离差平方和增加最小的两类合并,直到所有的样本归为一类为止。

2 聚类分析一般步骤概述

2.1 数据预处理

① 选择数量,类型和特征的标度,它依靠特征选择和特征抽取,前者选择重要的特征,后者把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类;

② 将孤立点移出数据,孤立点是不依附于一般数据行为或模型的数据,常会导致有偏差的聚类结果。

2.2 为衡量数据点间的相似度定义一个距离函数

通常通过定义在特征空间的距离度量来评估不同对象的相异性,特征类型和特征标度的

多样性决定了距离度量必须谨慎且经常依赖于应用,如Euclidean距离,经常被用作反映不同数据间的相异性,PMC和SMC能够被用来特征化不同数据的概念相似性,子图图像的误差更正能够被用来衡量两个图形的相似性。

2.3 聚类或分组

划分方法和层次方法是聚类分析的两个主要方法,划分方法聚类是基于某个标准产生一个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类,一般从初始划分和最优化一个聚类标准开始。Crisp Clustering(它的每一个数据都属于单独的类)和Fuzzy Clusterin(它的每个数据可能在任何一个类中)是划分方法的两个主要技术,其他的聚类方法还包括基于密度的聚类,基于模型的聚类,基于网格的聚类。

2.4 评估输出

聚类作为一个无管理程序,其结果的评价没有客观的标准,要借助于一个类有效索引,一个通常的决定类数目的方法是选择一个特定的类有效索引的最佳值,这个索引能否真实的得出类的数目是判断该索引是否有效的标准,但是对于交叠类的集合等复杂的数据集,却通常行不通,。

3 应用实例

3.1 聚类分析SPSS操作

在相关统计分析软件中的操作——以SPSS为例

聚类分析所用的方法大致可被分为2类:系统聚类法(Hierarchical Clustering)和非系统聚类法(Non-hierarchical Clustering)。在SPSS中通过Analyze→ Classify进入聚类分析,主要两种方法K- means Cluster和Hierarchical Cluster。SPSS为这两种方法各提供了一个过程,K-means Cluster过程使用的就是非系统聚类法中最常用的K-均值聚类法(K-means Clustering)。该方法也被称为快速聚类法或逐步聚类法。分层聚类(Hierarchical Cluster),也称系统聚类,该聚类反映事物的特点的变量很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。

快速样本聚类是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量进行分类。当要聚成的类数已知时,使用快速聚类过程可以很快将观测量分到各类中去,其特点是处理速度快,占用计算机内存少。快速样本聚类适用于大样本的聚类分析。在SPSS中点击Analyze→Classify →K-means Cluster进入快速聚类分析对话框。

分层聚类(Hierarchical Cluster),也称系统聚类,该聚类反映事物的特点的变量很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。在SPSS中点击Analyze→Classify→Hierarchical Cluster,进入 Hierarchical Cluster analysis对话框。

3.2 聚类分析Excel操作

为了研究2006年我国部分地区工业企业经济效益的分布规律,根据调查资料做类型划分。标准化后的数据见下表:

地区 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 工业增加总资产贡值率(%) 献率ZX1 (%)ZX2 -1.42 -0.59 -0.57 0.44 1.31 -0.51 -0.16 1.87 -0.94 -1.09 -1.66 -0.16 -0.61 -0.36 -1.31 0.35 0.30 -0.48 -0.09 -0.93 -0.67 3.59 -0.47 -0.26 -0.36 -0.48 0.01 -0.02 资产负债率(%)ZX3 -3.23 -0.02 0.53 1.64 0.53 -0.07 -0.54 -0.55 -1.30 0.45 0.41 0.80 -0.70 0.52 流动资产周转次数ZX4 -0.51 0.54 1.31 -1.03 0.19 0.03 0.13 0.34 -0.20 0.83 -0.10 0.23 0.42 1.00 成本费用利润率(%)ZX5 -0.43 -0.06 -0.26 -0.37 0.06 -0.84 -0.61 2.94 -0.45 -0.62 -0.59 -0.66 -0.37 -0.60 产品销售率(%)ZX6 0.99 1.02 0.31 -0.07 0.05 0.38 -1.28 0.53 0.88 0.53 0.02 0.34 -0.56 0.48

【解】

1. 首先认为每个样本点自成一类,采用欧氏距离,先求出各类间的距离矩阵D(0)如下: 2 3 4 5 6 7 8 9 10 11 12 13 14 0.000 Case 1 1 2 3.872 0.000 3 4.610 1.201 0.000 4 5.410 2.873 2.914 0.000 5 4.969 2.277 2.261 1.957 0.000 6 3.434 1.710 1.964 2.361 2.307 0.000 7 3.851 2.694 2.509 2.831 2.421 1.797 0.000 8 7.369 5.110 5.401 6.050 4.855 6.382 6.180 0.000 9 2.184 1.776 2.592 3.485 3.108 1.538 2.455 6.070 0.000 10 4.098 1.217 0.999 2.773 2.626 1.329 2.404 6.124 2.084 0.000 11 3.917 1.877 1.954 2.619 3.069 1.445 2.234 6.473 2.055 1.209 0.000 12 4.420 1.570 1.475 1.705 1.729 1.075 2.114 5.960 2.354 1.197 1.623 0.000 13 3.474 1.785 1.778 3.027 2.412 1.596 1.162 5.580 1.779 1.745 1.768 1.903 0.000 4.407 1.130 0.622 2.566 2.018 1.486 2.333 5.667 2.340 0.792 1.800 0.973 1.739 0.000

2. 因为所有距离中最小值为0.622,所以有新类G1={3,14};

3. 以最大距离法求第一次并类后的距离矩阵D(1)为: G1 1 2 4 5 6 7 8 9 10 11 12 13 G1 1 2 4 5 6 7 8 9 10 11 12 13 0.000 14 4.610 0.000 1.201 3.872 0.000 2.914 5.410 2.873 0.000 2.261 4.969 2.277 1.957 0.000 1.964 3.434 1.710 2.361 2.307 0.000 2.509 3.851 2.694 2.831 2.421 1.797 0.000 5.667 7.369 5.110 6.050 4.855 6.382 6.180 0.000 2.592 2.184 1.776 3.485 3.108 1.538 2.455 6.070 0.000 0.999 4.098 1.217 2.773 2.626 1.329 2.404 6.124 2.084 0.000 1.954 3.917 1.877 2.619 3.069 1.445 2.234 6.473 2.055 1.209 0.000 1.475 4.420 1.570 1.705 1.729 1.075 2.114 5.960 2.354 1.197 1.623 0.000 1.778 3.474 1.785 3.027 2.412 1.596 1.162 5.580 1.779 1.745 1.768 1.903 0.000 4. 因为D(1)中最小距离值为0.999,所以有新类G2={G1,10};

5. 仍以最大距离法求第二次并类后的距离矩阵D(2)为: G2 1 2 4 5 6 7 8 9 11 12 13 G2 0.000 1 4.610 0.000 2 1.217 3.872 0.000 4 2.914 5.410 2.873 0.000 5 2.626 4.969 2.277 1.957 0.000 6 1.964 3.434 1.710 2.361 2.307 0.000 7 2.509 3.851 2.694 2.831 2.421 1.797 0.000 8 6.124 7.369 5.110 6.050 4.855 6.382 6.180 0.000 9 2.592 2.184 1.776 3.485 3.108 1.538 2.455 6.070 0.000 11 1.954 3.917 1.877 2.619 3.069 1.445 2.234 6.473 2.055 0.000 12 1.475 4.420 1.570 1.705 1.729 1.075 2.114 5.960 2.354 1.623 0.000 13 1.778 3.474 1.785 3.027 2.412 1.596 1.162 5.580 1.779 1.768 1.903 0.000 6. 因为D(2)中最小距离值为1.075,所以有新类G3={6,12}={6,12};

7. 求第三次并类后的距离矩阵D(3)为: G2 G3 1 2 4 5 7 8 9 11 13 G2 G3 1 2 4 5 7 8 9 11 13 0.000 1.964 0.000 4.610 4.420 0.000 1.217 1.710 3.872 0.000 2.914 2.361 5.410 2.873 0.000 2.626 2.307 4.969 2.277 1.957 0.000 2.509 2.114 3.851 2.694 2.831 2.421 0.000 6.124 6.382 7.369 5.110 6.050 4.855 6.180 0.000 2.592 2.354 2.184 1.776 3.485 3.108 2.455 6.070 0.000 1.954 1.623 3.917 1.877 2.619 3.069 2.234 6.473 2.055 0.000 1.778 1.903 3.474 1.785 3.027 2.412 1.162 5.580 1.779 1.768 0.000

8.因为D(3)中距离最小值为1.162,所以有新类G4={7,13},并求第四次并类后的距离矩阵D(4)为: G2 G3 G4 1 2 4 5 8 9 11 G2 G3 G4 1 2 4 5 8 9 11 0.000 1.964 0.000 2.509 2.114 0.000 4.610 4.420 3.851 0.000 1.217 1.710 2.694 3.872 0.000 2.914 2.361 3.027 5.410 2.873 0.000 2.626 2.307 2.421 4.969 2.277 1.957 0.000 6.124 6.382 6.180 7.369 5.110 6.050 4.855 0.000 2.592 2.354 2.455 2.184 1.776 3.485 3.108 6.070 0.000 1.954 1.623 2.234 3.917 1.877 2.619 3.069 6.473 2.055 0.000 9. D(4)中最小距离值为1.217,所以有新类G5={2,G2},依最大距离法求得第五次并类后的距离矩阵D(5)为: G3 G4 G5 1 4 5 8 G3 0.000 2.114 1.964 4.420 2.361 2.307 6.382 G4 0.000 2.694 3.851 3.027 2.421 6.180 G5 0.000 4.610 2.914 2.626 6.124 1 0.000 5.410 4.969 7.369 4 0.000 1.957 6.050 5 0.000 4.855 8 0.000 9 11

本文来源:https://www.bwwdw.com/article/m8qd.html

Top