聚类分析的SPSS应用

更新时间:2024-03-17 21:54:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

聚类分析的SPSS应用

摘要:本文本主要结合实例讲述SPSS这个软件在聚类分析中的应用。包括SPSS的一些基本操作,在聚类分析中的相关参数设置,数据的录入,操作步骤等。本文重点是SPSS在聚类分析中的应用方法,不对聚类分析相关知识做过多阐述,相关知识点参见本组对聚类分析的详细讲解。文中结合2006年全国各省6项经济指标数据对各省进行简单分类这个实例,讲述两种最常用聚类分析方法,即系统聚类分析(Hierarchical Cluster)和K-均值聚类分析。本文用到的软件是SPSS19汉化版,各个版本操作基本一样,文中相关选项均有英文注释,方便非汉化版同学识读操作。

一.SPSS数据的录入

打开SPSS软件是下面图1的界面:

图1

上图1所示是数据视图(见上图左下角黄色框框),点击数据视图右边蓝色框框进入变量视图,如下图2:

图2

在变量视图中设置我们需要的变量名,并填写约束条件,填写完成后如下图3:

图3

其中,我们需要7个变量,见名称一栏,变量中地区是字符型变量,所以度量标准是名义。其他设置默认即可。其他变量是数值型,度量标准是度量,其他设置同为默认。设置好后回到数据视图,如下图4:

图4

可见,变量视图中设置的变量均列入数据视图中頂栏。(注:图4已经录入数据)

以上是SPSS录入数据的基本操作,数据录入完成后开始两种聚类分析设置和得出结果。

二.系统聚类分析和K均值聚类分析

1.系统聚类分析

(1)在数据视图点击分析(Analyze)---分类(Classify)---系统聚类(Hirarchical Cluster),如下图5:

图5 进入如下图6界面:

图6

回到我们的出发点,我们希望通过六项指标对全国各省进行分类,那么分析的变量是这六项指标,分类标准是不同省份,即地区。于是这两大类变量要进行不同归类,进行如下图7设置即可,把用于聚类的变量选入变量框(variables),把区分样本的标签变量(本例即为“地区”)选入标注个案(label case by):

图7

(2)接下来在分群(cluster)栏中选择聚类类型:要进行R型聚类(变量聚类)分析,应

指定“变量(variables)”;要进行Q型聚类(样品聚类),则指定“个案(case)”。系统默认Q型聚类。

我们要将全国不同省份进行分类,很明显不同省份是不同的样品,对这些样品进行分类即样品聚类,所以进行Q型聚类,默认即可。输出栏输出我们需要的项目,这里统计量和图都选择。设置好后如下图8:

图8 (3)单击“方法(method)”按钮,展开系统聚类分析的方法选择对话框,即“hierarchical cluster analysis:method”。 度量标准(Cluster method0下拉框中给出了可以选择的计算类间距离的方法,系统默认是组间均链锁法(between-groups linkage),本例选择ward’s method;度量标准(measure)框中给出的是计算样品间距的方法,本例使用平方euclidean距离(squared euclidean distance),SPSS默认计算欧氏距离平方。在转换值(transform values)的标准化(standardize)框中选择是否对原始数据进行标准化处理,本例选择z scores。点击继续(continue)回到主对话框。(注:类间距离和样品间距的选择在这里没有赘述,详见我们组讲课内容)设置好后如下图9:

图9

(4)SPSS系统聚类分析默认输出的分析结果有凝聚状态表(agglomeration schedule)和冰柱图(icicle)。

点击统计量(statistics)选中合并进程表(agglomeration schedule)。选择方案范围,最大聚类数设为4,最小聚类数设为2,点击继续(continue)回到主对话框,此时分析结果中就包含了凝聚状态表,如下图10:

图10

点击绘制树状图,冰柱图里选择所有聚类和方向垂直。点击继续回到主对话框。如下图11:

图11

(5)回到主对话框点击确定(OK),得到所有的分类结果。结果以文档的形式导出,包括冰柱图,树状图,距离表。

2.K均值聚类分析

依然取上一个例子作为分类样本说明这个方法。

首先,如果原始变量取值差异较大,应先将原始数据进行标准化,以避免变量值差异较大对分类结果产生影响。从下图12统计表中我们可以看出各省六项指标数量级有较大差异,所以有必要进行标准化处理。

图12

过程如下:选择分析(analyze)---描述统计(descriptives statistics)---描述(descriptives) 进入主对话框,将需要标准化的变量选入“变量(variables)”框,然后勾选“将标准化得分另存为变量(save standardized values as variables)”,最后点击确定(OK),标准化后的数

据将出现在原始数据表中。以上步骤见一下图13:

图13

然后是K均值处理步骤:

(1) 选择分析(analyze)---分类---K均值聚类(K-means cluster),如下图14,进入主对话框

图15

图14

(2) 在主对话框中讲用于聚类的所有标准化后的标量选入“变量(variables)”,将区分样

本的标签变量(本例为地区)选入“label cases by”,在“number of clusters”下输入想要分类的数据,本里选为“4”。

(3) 点击‘iterate’并在“maximum iterations”中输入最大迭代次数(本例使用隐含的

10次),点击“continue”回到主对话框;点击“save”并选择“cluster membership”,点击“continue”回到主对话框;点击“options”并选择“initial cluster centers”和“ANOVA table”(本想可根据需要选择)。最后点击OK,即可得所有想要结果。 以上步骤见下图:

本文来源:https://www.bwwdw.com/article/q6d8.html

Top