聚类分析
更新时间:2023-10-12 04:11:01 阅读量: 综合文库 文档下载
聚类分析
是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果,类内部个体特征具有相似性,不同类间个体特征的差异性较大。
没有先验知识是指没有事先指定分类标准。 亲疏程度是指各变量取之上的总体差异程度。
对亲疏程度的测量一般有两个角度:第一,个体间的相似程度;第二,个体间的差异程度。相似程度通常用简单相关系数或等级相关系数。差异程度通常计算某种距离来测度。
距离公式:
①欧氏距离(Euclidean distance)
EUCLID?x,y????xi?yi?i?1kk2 ②平方欧氏距离(Squared Euclidean distance)
SEUCLID?x,y????xi?yi?
i?12③切比雪夫(Chebychev)距离
CHEBYCHEV?x,y??maxxi?yi
④布洛克(Block)距离
BLOCK?x,y???xi?yi
i?1k⑤明考斯基(Minkowski)距离
MINKOWSKI?x,y??⑥夹角余弦定理(Cosine)距离
p?i?1kxi?yip
COSINE?x,y????xiyi?i?1k2iki?1i?1k2
2i?x?y⑦用户自定义(Customized)距离
CUSTOMIZED?x,y??q?x?yii?1kpi
在数据类型不同的情况下,个体间的距离计算也有相应的不同。主要有: 定距型(Interval )
计数变量(Count) 二值变量(Binary)
在计数变量时,有卡方距离和Phi方距离 ①卡方距离(Chi-Square measure)
CHISQ?x,y?????xi?E?xi??E?xi?2???yi?E?yi??E?yi?2 ②Phi方距离(Phi-Square measure)
?x?E?x??ii2PHISQ?x,y??E?xi???n?y?E?y??ii2E?yi?
二值变量时,有简单匹配系数和雅科比系数 ①简单匹配系数(Simple Matching) 个体x 1 0 个体y 1 a c 0 b d S?x,y??b?c
a?b?c?db?c
a?b?c②雅科比系数(Jaccard)
J?x,y??
聚类分析的应注意的几点:
1.变量的选择:所选择的变量应符合聚类的要求(即指标体系要符合要求)
2.数量级的问题:变量之间不应该有数量级上的差异。因为数量级会影响距离的计算结果。一般在进行分析之前,要消除
3.变量间的相关关系:不应有较强的线性相关关系
层次聚类(Hierarchical Cluster)
又称系统距离,主要分类两个类型,Q型聚类和R型聚类。聚类方式有凝聚方式聚类和分解方式聚类。SPSS软件中采用的是凝聚方式。 Q型聚类是对样本进行聚类,相当于统计分组 R型聚类是对变量进行聚类,相当于数据降维。 凝聚方式聚类:从一个到整体,逐步进入方式。 分解方式聚类:从整体中剔除,后退式。
个体与小类、小类与小类间“亲疏程度”的度量方法
A B C D E Euclidean Distance A 0 8.062 17.804 26.907 30.414 B 8.062 0 25.456 34.655 38.210 C 17.804 25.456 0 9.220 12.806 D 26.907 34.655 9.220 0 3.606 E 30.414 38.210 12.806 3.606 0 ①最近邻居距离(Nearest Neighbor) ②最远邻居距离(Furthest Neighbor)
③组间平均链锁(Between-group linkage) ④组内平均链锁(Within-group linkage) ⑤重心(Centroid clustering)距离
D?k,r??npnrD?k,p??nqnrD?k,q??npnqnrnrD?p,q?
如,本例中,DA,?D,E????1111D?A,D??D?A,E??D?D,E? 2222
⑥离差平方和(Wald’s method) ⑦中位数距离(Median clustering)
步骤:
①选择分析变量
②数据标准化。特别是在指标数量级不一致时,要采用,标准化的方法也有很多种。见软件 ③选择距离或相似系数的计算公式,输出距离矩阵或相似阵。 ④选择聚类方法。
⑤输出聚类结果和聚类谱系图 ⑥根据输出结果,进行分类判断。
K-Means聚类
K-Means聚类也称快速聚类,它仍将数据看成k维空间上点,仍以距离作为测度个体亲疏程度的指标,并通过牺牲多个解为代价换得高的执行效率。
步骤:
第一步:指定聚类数目K。即由用户规定输出多少个类别。 第二步:确定K个初始类中心。主要有两种方式:一种是由系统指定,另一种则由用户指定。 第三步:根据距离最近原则进行分类。依次计算每个样本数据点到K个类中心的欧氏距离,按照最短距离的原则,将所有样本分派到K个分类中去。
第四步:重新确定K个类中心。原则是:依次计算各类中p个变量的均值,并以均值点作为K个类的中心点。
第五步:判断是否已经满足终止聚类分析的条件。条件有两个:迭代次数和类中心收敛值。 如果不满足,则回到第三步。 最后,输出结果,进行分析。
两种聚类方法的区别:
快速聚类:可以自己指定归类数目,输出结果也根据指定的要求列出。 层次聚类:可以看到整个过程,对于输出结果,可以做多种分类。
注意之处:快速聚类时,要指定类中心时,则对于数据格式有具体的要求。必须保证类中心为数据文件中的变量名与我们所有分析的数据表中一致。 如: Cluster_ 1 2 3 gwhj fwzl
判别分析
根据已知对象的某些观测指标和所属类别来判断未知对象多属类别的一种统计方法。
基本思想:
通过训练样本的信息(先验信息),提取数据的特征,构建判别方程(判别函数),对新个体进行分类。
步骤:
第一步:选择训练样本。
第二步:选择变量进入判别分析。
第三步:输出判别函数,同时对判别函数的判别效果进行评价。若回判的准确率很高,则可以采用这一判别函数,对新样本点进行判别分类。
注意之处:
正在阅读:
聚类分析10-12
小学今年的春节真快乐作文06-13
子山午向癸山丁向八运旺财宅相图说05-14
浅谈教师态度对学生的影响03-03
2013人教版七年级英语下册units7-12 短语及重点句型11-08
家乡的一张名片作文800字07-05
推理大师小学奥数题04-19
“K字型”相似专题复习练习09-10
如何理解方差和标准差的意义02-03
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 分析
- 事故应急救援预案 - 图文
- 2015年深圳市公务员考试大纲
- 第二章 软件项目风险管理概述 - 图文
- 财务管理复习题及参考答案
- 高速铁路预应力锚索框架梁的设计与分析 - 图文
- 南京市城市地域结构演变研究 - 图文
- EDA实验报告 - 计数器
- 学前儿童健康教育期末试卷
- 004 在语境中看拼音写词语(实验小学)
- 计算机操作系统复习
- 糯米粉 -
- 开展“文明卫生清洁户”评比活动方案
- 广东省深圳实验学校2017-2018学年高三综合测试(三)理综生物试题 Word版含答案 - 图文
- 2019九年级化学上册 5.2 组成燃料的主要元素—碳(第1课时)学案(无答案)(新版)粤教版
- 职高财会类试题
- 基础工业工程名词解释、简答、论述、计算
- 初中数学:实际问题与二次函数 - 详解与练习(含答案)
- 复合材料力学
- 2018年中国一次性筷子行业与调研报告目录
- 如东县马塘中学教科室