聚类分析的SPSS应用

更新时间：2024-03-17 21:54:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

聚类分析的SPSS应用

摘要：本文本主要结合实例讲述SPSS这个软件在聚类分析中的应用。包括SPSS的一些基本操作，在聚类分析中的相关参数设置，数据的录入，操作步骤等。本文重点是SPSS在聚类分析中的应用方法，不对聚类分析相关知识做过多阐述，相关知识点参见本组对聚类分析的详细讲解。文中结合2006年全国各省6项经济指标数据对各省进行简单分类这个实例，讲述两种最常用聚类分析方法，即系统聚类分析（Hierarchical Cluster）和K-均值聚类分析。本文用到的软件是SPSS19汉化版，各个版本操作基本一样，文中相关选项均有英文注释，方便非汉化版同学识读操作。

一．SPSS数据的录入

打开SPSS软件是下面图1的界面：

图1

上图1所示是数据视图（见上图左下角黄色框框），点击数据视图右边蓝色框框进入变量视图，如下图2：

图2

在变量视图中设置我们需要的变量名，并填写约束条件，填写完成后如下图3：

图3

其中，我们需要7个变量，见名称一栏，变量中地区是字符型变量，所以度量标准是名义。其他设置默认即可。其他变量是数值型，度量标准是度量，其他设置同为默认。设置好后回到数据视图，如下图4：

图4

可见，变量视图中设置的变量均列入数据视图中頂栏。（注：图4已经录入数据）

以上是SPSS录入数据的基本操作，数据录入完成后开始两种聚类分析设置和得出结果。

二．系统聚类分析和K均值聚类分析

1.系统聚类分析

（1）在数据视图点击分析（Analyze）---分类（Classify）---系统聚类（Hirarchical Cluster），如下图5：

图5 进入如下图6界面：

图6

回到我们的出发点，我们希望通过六项指标对全国各省进行分类，那么分析的变量是这六项指标，分类标准是不同省份，即地区。于是这两大类变量要进行不同归类，进行如下图7设置即可，把用于聚类的变量选入变量框（variables）,把区分样本的标签变量（本例即为“地区”）选入标注个案（label case by）：

图7

（2）接下来在分群（cluster）栏中选择聚类类型：要进行R型聚类（变量聚类）分析，应

指定“变量（variables）”;要进行Q型聚类（样品聚类），则指定“个案（case）”。系统默认Q型聚类。

我们要将全国不同省份进行分类，很明显不同省份是不同的样品，对这些样品进行分类即样品聚类，所以进行Q型聚类，默认即可。输出栏输出我们需要的项目，这里统计量和图都选择。设置好后如下图8：

图8 （3）单击“方法（method）”按钮，展开系统聚类分析的方法选择对话框，即“hierarchical cluster analysis:method”。度量标准（Cluster method0下拉框中给出了可以选择的计算类间距离的方法，系统默认是组间均链锁法（between-groups linkage）,本例选择ward’s method;度量标准（measure）框中给出的是计算样品间距的方法,本例使用平方euclidean距离（squared euclidean distance）,SPSS默认计算欧氏距离平方。在转换值（transform values）的标准化（standardize）框中选择是否对原始数据进行标准化处理，本例选择z scores。点击继续（continue）回到主对话框。（注：类间距离和样品间距的选择在这里没有赘述，详见我们组讲课内容）设置好后如下图9：

图9

（4）SPSS系统聚类分析默认输出的分析结果有凝聚状态表（agglomeration schedule）和冰柱图(icicle)。

点击统计量（statistics）选中合并进程表（agglomeration schedule）。选择方案范围，最大聚类数设为4，最小聚类数设为2，点击继续（continue）回到主对话框，此时分析结果中就包含了凝聚状态表，如下图10：

图10

点击绘制树状图，冰柱图里选择所有聚类和方向垂直。点击继续回到主对话框。如下图11：

图11

（5）回到主对话框点击确定（OK），得到所有的分类结果。结果以文档的形式导出，包括冰柱图，树状图，距离表。

2.K均值聚类分析

依然取上一个例子作为分类样本说明这个方法。

首先，如果原始变量取值差异较大，应先将原始数据进行标准化，以避免变量值差异较大对分类结果产生影响。从下图12统计表中我们可以看出各省六项指标数量级有较大差异，所以有必要进行标准化处理。

图12

过程如下：选择分析（analyze）---描述统计（descriptives statistics）---描述（descriptives）进入主对话框，将需要标准化的变量选入“变量（variables）”框，然后勾选“将标准化得分另存为变量（save standardized values as variables）”,最后点击确定（OK），标准化后的数

据将出现在原始数据表中。以上步骤见一下图13：

图13

然后是K均值处理步骤：

（1）选择分析(analyze)---分类---K均值聚类（K-means cluster）,如下图14，进入主对话框

图15

图14

（2）在主对话框中讲用于聚类的所有标准化后的标量选入“变量（variables）”，将区分样

本的标签变量（本例为地区）选入“label cases by”,在“number of clusters”下输入想要分类的数据，本里选为“4”。

（3）点击‘iterate’并在“maximum iterations”中输入最大迭代次数（本例使用隐含的

10次），点击“continue”回到主对话框；点击“save”并选择“cluster membership”，点击“continue”回到主对话框；点击“options”并选择“initial cluster centers”和“ANOVA table”（本想可根据需要选择）。最后点击OK，即可得所有想要结果。以上步骤见下图：

本文来源：https://www.bwwdw.com/article/q6d8.html

相关文章：

正在阅读：

聚类分析的SPSS应用03-17

流光使用教程03-14

某某县住房和城xx乡建设局年度工作总结和2022年工作计划范文08-03

以文载道润物无声10-28

开才创客教育Scratch-教学设计（全10课）04-12

领导干部在2023年巡察整改民主生活会上的讲话范文03-23

上一篇：数字图书馆安全管理指南下一篇：中国证券监督管理委员会山东监管局