多元分析
更新时间:2023-09-28 16:49:01 阅读量: 综合文库 文档下载
多元分析
一、聚类分析
1、 相似性度量
(1)样本的相似性度量
要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一个有待分类的样本带点需用p个变量描述,则每个样本点可以看成是R空间中的一个点。因此,想到用距离来度量样本点间的相似程度。
记?为样本点集,距离d(.,.)是????R?的一个函数,满足条件: 1)d(x,y)?0,x,y??; 2)d(x,y)?0,当且仅当x?y; 3)d(x,y)?d(y,x),x,y??;
4)d(x,y)?d(x,z)?d(x,y),x,y,z??。
它满足正定性,对称性和三角不等式。
在聚类分析中,对于定量变量,最常用的是Minkowski距离
p?q?dq(x,y)???xk?yk?,q?0
?k?1? 当q?1,2或q???,则分别得到
1) 绝对值距离
p1qd1(x,y)??xk?yk
k?1q2) 欧式距离
?2?d2(x,y)???xk?yk?
?k?1?3) Chebyshev距离
p12d?(x,y)?maxxk?yk
1?k?p最常用的是欧式距离,它主要优点是当坐标轴进行正交旋转时,欧式距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同。 注意一定要采用相同量纲的变量。若量纲不同,则先进行数据的标准化处理,然后计算距离。在采用Minkowski距离时,尽可能地避免变量的多重相关性,它所造成的信息重叠,会片面强调某些变量的重要性。基于这些缺点,一种改进的距离就是马氏距离,如下
d(x,y)?(x?y)T??1(x?y) 其中x,y为来自p维总体Z的样本观测值,∑为Z的协方差矩阵,实际中∑往往是不知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。 此外,还可以采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。
(2)类与类间的相似性度量
若有两个样本类G1和G2,我们可以采取以下方法度量它们间的距离: 1) 最短距离法
D(G1,G2)?min?d?xi,yi??
xi?G1yj?G2它的直观意义为两个类中最近两点间的距离。 2) 最长距离法
D(G1,G2)?max?d?xi,yi??
xi?G1yj?G2它的直观意义为两个类中最远两点间的距离。 3) 重心法
D(G1,G2)?dx,y
其中x,y分别为G1,G2的重心。 4) 类平均法
??D(G1,G2)?1n1n2xi?G1xj?G2??d?x,y?
ij它等于G1,G2中两两样本点距离的平均,式中n1,n2分别为G1,G2中的样本点个数。 5) 离差平方和法 若记
D1?xi?G1??xi?x1??Txi?x1 D2??xj?G2??xj?x2??xTj?x2
?D12?其中
xk?G1?G2??xk?x??xTk?x
?x1?11x,x??i2nn1xi?G12xj?G2?xj,x?1n1?n2xk?G1?G2?xk
则定义
D?G1,G2??D12?D1?D2
事实上,若G1,G2内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类又能够充分分立(即D12很大),这时必然有D很大。 2、 系统聚类法 (1)画聚类图
1)计算n各样本点两两之间的距离dij,记为D?dij????n?n;
2)首先构造n个类,每一个类中只包含一个样本点,每一类的平台高度均为零; 3)合并距离最近的两类为新类,并且以这两类间的距离值作为聚类图中的平台高度;
4)计算新类与当前各类的距离,若类的个数已经等于1,转入步骤5),否则回到上步;
5)画聚类图;
6)决定类的个数和类。
(2)最短距离法和最长距离法(最近邻法) Matlab典型算法: clc,clear
a=[1,0;1,1;3,2;4,3;2,5];
y=pdist(a,'cityblock');%计算a矩阵中两两对象间的绝对值矩阵 yc=squareform(y)% 将pdist的输出转换为方阵
z=linkage(y)% 使用最短距离算法生成具层次结构的聚类树 [h,t]=dendrogram(z) %由linkage产生的数据矩阵Z画聚类树状图
3.变量聚类法
(1)变量相似性度量 1)相关系数
记变量xj的取值x1j,x2j,?,xnj??T?Rn?j?1,2,?,m?。则可以用两变量xj和xk的
样本相关系数作为它们的相似性度量:
rjk???xi?1nij?xj2??xnik?xk??2?n??xij?xj?i?1????i?1xik?xk???12
2)夹角余弦
也可以用两变量xj和xk的夹角余弦rjk来定义它们的相似性度量:
rjk??xxi?1nijik12
?n2n2???xij?xik?i?1?i?1?各种定义的相似度量均应具有以下两个性质:
rjk?1和rjk?rkj,对于一切j,k
rjk越接近1,xj和xk越相关或越相似。rjk越接近零,xj和xk相似性越弱。
(2)变量聚类法
类似于样本集合聚类分析中最常用的最短距离法、最长距离法等,变量聚类法采用了与系统聚类法相同的思路和过程。在变量聚类问题中,常用的有最大系数法、最小系数法等。
1)最大系数法
在最大系数法中,定义两类变量的距离为
R?G1,G2??max?rjk?
xj?G1xi?G2这时, R?G1,G2?等于两类中最相似的两变量间的相似性度量值。 2)最小系数法
在最小系数法中,定义两类变量的距离为
R?G1,G2??min?rjk?
xj?G1xi?G2这时, R?G1,G2?等于两类中相似性最小的两变量间的相似性度量值。
聚类分析又称群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析方法。对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析。
(3)R型聚类分析
可以看出某些指标之间确实存在很强的相关性,因此可以考虑从这些指标中选取几个有代表性的指标进行聚类分析。为此,把十个指标根据其相关性进行R型聚类,再从每个类中选取代表性的指标。首先对每个变量(指标)的数据分别进行标准化处理。变量间相近性度量采用相关系数,类间相近性度量的计算选用类平均法。
(4)Q型聚类分析
根据这六个指标对30个地区进行聚类分析。首先对每个变量的数据分别进行标准化处理,样本间相近性采用欧氏距离度量,类间距离的计算选用类平均法。
正在阅读:
多元分析09-28
高三英语30分钟限时训练05-25
部编版一年级下册语文《语文园地一:和大人一起读:谁和谁好》06-15
第四章 我国安全环境作业01-19
2017年10月执业药师考试药学知识二考点精华复习(第二十二章)08-30
Atomic3000用户手册03-16
高速线材轧机的活套控制07-24
关于大学社团志愿活动个人心得体会参考范文08-04
浅谈解决倍数关系问题的策略11-13
小学五年级写事日记02-06
- 小学生造句大全
- 增压泵投资项目可行性研究报告(模板)
- 高中语文人教版粤教版必修1-5全部文言文知识点归纳
- 两学一做专题民主生活会组织生活会批评与自我批评环节个人发言提
- 管理处环境保洁工作操作标准作业指导书
- 2012六一儿童节活动议程 - 图文
- 移树申请报告
- 《贵州省市政工程计价定额》2016定额说明及计算规则
- 计算机长期没有向WSUS报告状态
- 汉语拼音教学策略研究
- 发展西部领先的航空货运枢纽
- 司法所上半年工作总结4篇
- 如何提高银行服务水平
- 发电厂各级人员岗位职责
- 丰田汽车的外部环境分析
- 2017—2018年最新冀教版四年级数学下册《混合运算》教案精品优质
- 中建八局样板策划 - 图文
- 戚安邦《项目管理学》电子书
- 2015年高级项目经理笔记
- 弯桥的设计要点
- 多元
- 分析
- 健康睡眠 远离打鼾
- GGRE写作Issue问题题库分析与提纲
- 全国各地高考物理试题分类汇编 3-3
- 2017年衡阳市初中毕业学业水平考试 成龙大联考(三)
- 初中全册语文简答、默写复习资料汇编
- 2014试题库高层建筑结构分析与概念设计 2 - 图文
- 职高英语基础模块第一册单元测试卷 doc第十单元
- 西方政治思想史
- 2012贵阳市驾校模拟考试小型汽车仿真试题
- 测试题
- 职业健康考试试题
- 郸城一高高一下期第六次周练化学试卷
- 河北工程大学,电厂实习报告
- 成都市家庭房屋装饰装修工程质量检验规定
- 初三数学易错题集锦及答案
- 科学技术是第一生产力
- 《供电技术 - 第四版》课后题答案 - 问答题部分
- 口号标语之法律知识进校园标语
- 经济诉讼和仲裁法习题
- 《集结号》影评