聚类分析的SPSS应用
更新时间:2024-03-17 21:54:01 阅读量: 综合文库 文档下载
聚类分析的SPSS应用
摘要:本文本主要结合实例讲述SPSS这个软件在聚类分析中的应用。包括SPSS的一些基本操作,在聚类分析中的相关参数设置,数据的录入,操作步骤等。本文重点是SPSS在聚类分析中的应用方法,不对聚类分析相关知识做过多阐述,相关知识点参见本组对聚类分析的详细讲解。文中结合2006年全国各省6项经济指标数据对各省进行简单分类这个实例,讲述两种最常用聚类分析方法,即系统聚类分析(Hierarchical Cluster)和K-均值聚类分析。本文用到的软件是SPSS19汉化版,各个版本操作基本一样,文中相关选项均有英文注释,方便非汉化版同学识读操作。
一.SPSS数据的录入
打开SPSS软件是下面图1的界面:
图1
上图1所示是数据视图(见上图左下角黄色框框),点击数据视图右边蓝色框框进入变量视图,如下图2:
图2
在变量视图中设置我们需要的变量名,并填写约束条件,填写完成后如下图3:
图3
其中,我们需要7个变量,见名称一栏,变量中地区是字符型变量,所以度量标准是名义。其他设置默认即可。其他变量是数值型,度量标准是度量,其他设置同为默认。设置好后回到数据视图,如下图4:
图4
可见,变量视图中设置的变量均列入数据视图中頂栏。(注:图4已经录入数据)
以上是SPSS录入数据的基本操作,数据录入完成后开始两种聚类分析设置和得出结果。
二.系统聚类分析和K均值聚类分析
1.系统聚类分析
(1)在数据视图点击分析(Analyze)---分类(Classify)---系统聚类(Hirarchical Cluster),如下图5:
图5 进入如下图6界面:
图6
回到我们的出发点,我们希望通过六项指标对全国各省进行分类,那么分析的变量是这六项指标,分类标准是不同省份,即地区。于是这两大类变量要进行不同归类,进行如下图7设置即可,把用于聚类的变量选入变量框(variables),把区分样本的标签变量(本例即为“地区”)选入标注个案(label case by):
图7
(2)接下来在分群(cluster)栏中选择聚类类型:要进行R型聚类(变量聚类)分析,应
指定“变量(variables)”;要进行Q型聚类(样品聚类),则指定“个案(case)”。系统默认Q型聚类。
我们要将全国不同省份进行分类,很明显不同省份是不同的样品,对这些样品进行分类即样品聚类,所以进行Q型聚类,默认即可。输出栏输出我们需要的项目,这里统计量和图都选择。设置好后如下图8:
图8 (3)单击“方法(method)”按钮,展开系统聚类分析的方法选择对话框,即“hierarchical cluster analysis:method”。 度量标准(Cluster method0下拉框中给出了可以选择的计算类间距离的方法,系统默认是组间均链锁法(between-groups linkage),本例选择ward’s method;度量标准(measure)框中给出的是计算样品间距的方法,本例使用平方euclidean距离(squared euclidean distance),SPSS默认计算欧氏距离平方。在转换值(transform values)的标准化(standardize)框中选择是否对原始数据进行标准化处理,本例选择z scores。点击继续(continue)回到主对话框。(注:类间距离和样品间距的选择在这里没有赘述,详见我们组讲课内容)设置好后如下图9:
图9
(4)SPSS系统聚类分析默认输出的分析结果有凝聚状态表(agglomeration schedule)和冰柱图(icicle)。
点击统计量(statistics)选中合并进程表(agglomeration schedule)。选择方案范围,最大聚类数设为4,最小聚类数设为2,点击继续(continue)回到主对话框,此时分析结果中就包含了凝聚状态表,如下图10:
图10
点击绘制树状图,冰柱图里选择所有聚类和方向垂直。点击继续回到主对话框。如下图11:
图11
(5)回到主对话框点击确定(OK),得到所有的分类结果。结果以文档的形式导出,包括冰柱图,树状图,距离表。
2.K均值聚类分析
依然取上一个例子作为分类样本说明这个方法。
首先,如果原始变量取值差异较大,应先将原始数据进行标准化,以避免变量值差异较大对分类结果产生影响。从下图12统计表中我们可以看出各省六项指标数量级有较大差异,所以有必要进行标准化处理。
图12
过程如下:选择分析(analyze)---描述统计(descriptives statistics)---描述(descriptives) 进入主对话框,将需要标准化的变量选入“变量(variables)”框,然后勾选“将标准化得分另存为变量(save standardized values as variables)”,最后点击确定(OK),标准化后的数
据将出现在原始数据表中。以上步骤见一下图13:
图13
然后是K均值处理步骤:
(1) 选择分析(analyze)---分类---K均值聚类(K-means cluster),如下图14,进入主对话框
图15
图14
(2) 在主对话框中讲用于聚类的所有标准化后的标量选入“变量(variables)”,将区分样
本的标签变量(本例为地区)选入“label cases by”,在“number of clusters”下输入想要分类的数据,本里选为“4”。
(3) 点击‘iterate’并在“maximum iterations”中输入最大迭代次数(本例使用隐含的
10次),点击“continue”回到主对话框;点击“save”并选择“cluster membership”,点击“continue”回到主对话框;点击“options”并选择“initial cluster centers”和“ANOVA table”(本想可根据需要选择)。最后点击OK,即可得所有想要结果。 以上步骤见下图:
正在阅读:
聚类分析的SPSS应用03-17
流光使用教程03-14
某某县住房和城xx乡建设局年度工作总结和2022年工作计划范文08-03
以文载道 润物无声10-28
电阻应变片粘贴技术 - 图文04-13
抹不去的童年作文400字07-03
非煤矿山安全生产状况调研报告08-25
我爱木棉花作文400字07-07
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 应用
- 分析
- SPSS
- 水泵远程智能监测系统资料 - 图文
- 农田与城市的自然融合
- word练习文档
- 大学城项目策划方案 - 图文
- LE1212型雕刻机说明书
- 浙江省94定额补充说明
- 牡丹江市中考满分作文-2009杭州中考满分作文
- 普法要提高农民的法律意识
- 最新18个文言虚词小故事解析及译文汇编
- 李晓旭任务书 2
- 年屠宰2万头生猪生产线建设项目可行性研究报告
- 紫金山作文550字(优秀作文)
- 七年级英语月考试卷二
- 2013年河池市国民经济和社会发展统计公报
- 无锡社保操作流程2010.9
- 专题39+化学平衡图像(练习)-2019高考化学难点剖析+Word版含解
- 群众观点群众立场自我剖析材料
- 促进农民增收调研报告
- 精选-什么是六度空间理论-范文资料
- 留学知识-美国留学中介收费标准 精品