判别分析-四种方法
更新时间:2023-11-09 23:13:01 阅读量: 教育文库 文档下载
第六章 判别分析
§6.1 什么是判别分析
判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。
判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。
正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher判别法、Bayes判别法和逐步判别法。
§6.2 距离判别法
基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。
距离判别法,对各类(或总体)的分布,并无特定的要求。 1 两个总体的距离判别法
设有两个总体(或称两类)G1、G2,从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标如下页表。
今任取一个样品,实测指标值为X?(x1,?,xp)?,问X应判归为哪一类?
首先计算X到G1、G2总体的距离,分别记为D(X,G1)和D(X,G2),按距离最近准则
1
判别归类,则可写成:
?X?G1,当D(X,G1)?D(X,G2)??X?G2,当D(X,G1)?D(X,G2) ?待判, 当D(X,G1)?D(X,G2)?G1总体: G2总体:
变量 样品 (1) x1(1) x2? x1 (1) x11(1) x21? x2 (1) x12(1) x22? ? ? ? ? xp (1)x1p
变量 样品 x1 (2) x11(2) x21? (2)xn 12x2 (2) x12(2) x22? (2)xn 22? ? ? ? xp (2)x1p x1(2) (2) x2? (1)x2p (2)x2p ? (1)xn P1? (2)xn P2(2) xn1(1) xn11(1) xn12(2) xn2均值 x1 (i)(i)(1)x2 (i)(1)xp(1) 均值 x1 (2)x2 (2)xp(2) 记X?(x1,?,xp)?,i?1,2
(1)(1)如果距离定义采用欧氏距离,则可计算出
D(X,G1)?(X?X)?(X?X)?D(X,G2)?(X?X(2)??xpa?1pa?1)?(X?X(2))?? ??x?x?
a?x(1)2aa(2)2a然后比较D(X,G1)和D(X,G2)大小,按距离最近准则判别归类。
由于马氏距离在多元统计分析中经常用到,这里针对马氏距离对上述准则做较详细的讨论。
设?(1)、?(2),?(1)、?(2)分别为G1、G2的均值向量和协方差矩阵。如果距离定义采用马氏距离即
D2(X,Gi)?(X??(i))?(?(i))?1(X??(i))这时判别准则可分以下两种情况给出:
(1)当?(1)??(2)??时
考察D2(X,G2)及D2(X,G1)的差,就有:
i?1,2
D2(X,G2)?D2(X,G1)?X???1X?2X???1X?(2)??(2)???1?(2)
?[X???1X?2X???1?(1)??(1)???1?(1)]
?2X???1(?(1)??(2))?(?(1)??(2))???1(?(1)??(2))
?1(1)?(2)??2?X?(???)???1(?(1)??(2)) 2??令??1(1)(???(2)) 2W(X)?(X??)???1(?(1)??(2))
则判别准则可写成:
2
?X?G1,当W(X)?0 即D2(X,G2)?D2(X,G1)?22?X?G2,当W(X)?0 即D(X,G2)?D(X,G1) ?22待判, 当W(X)?0 即D(X,G)?D(X,G1)2?当
?,?(1),?(2)已知时,令
a???1(?(1)??(2))?(a1,?,ap)?则
?x1???1??W(X)?(X??)?a?a?(X??)?(a1,?,ap)? ??
??x??p??p?? ?a1(x1??1)???ap(xp??p)
显然,W(X)是x1,?,xp的线性函数,称W(X)为线性判别函数,a为判别系数。
(i)(i)当?,?(1),?(2)未知时,可通过样本来估计。设X1(i),X2来自Gi的样本,i=1,2。 ,?,Xni??(1)1?n11n2??i?1i?1n2n1Xi(1)?XXi(2)?X(1)
?(2)?????ni(2)1(S1?S2)
n1?n2?2其中 Si? X??(Xt?1(i)t?X(i))(Xt(i)?X(i))?
(2)1(1)(X?X) 2线性判别函数为:
??1(X(1)?X(2)) W(X)?(X?X)??当p=1时,若两个总体的分布分别为N(?1,?2)和N(?2,?2),判别函数
???2?1?W(X)??X?(1)?2(?1??2),不妨设?1??2,这时W(X)的符号取决于X??或
2???X??。当X??时,判X?G1;当X??时,判X?G2。我们看到用距离判别所得
到的准则是颇为合理的。但从下图又可以看出,用这个判别法有时也会得出错判。如X来
自G1,但却落入D2,被判为属G2,错判的概率为图中阴影的面积,记为P(2/1),类似有
????2?P(1/2),显然P(2/1)=P(1/2)=1???1?。
?2??
当两总体靠得很近(即|?1??2|小),则无论用何种办法,错判概率都很大,这时作判别分
3
析是没有意义的。因此只有当两个总体的均值有显著差异时,作判别分析才有意义。
(2)当?(1)??(2)时
按距离最近准则,类似地有:
当D(X,G1)?D(X,G2)?X?G1,?当D(X,G1)?D(X,G2) ?X?G2,?待判, 当D(X,G1)?D(X,G2)?仍然用W(X)?D2(X,G2)?D2(X,G1)
?(X??(2))?(?(2))?1(X??(2))
?(X??(1))?(?(1))?1(X??(1))
作为判别函数,它是X的二次函数。
2 多个总体的距离判别法
类似两个总体的讨论推广到多个总体。
设有k个总体G1, ?, Gk,它们的均值和协方差阵分别为?(i),?(i),i?1,?,k,从每个总体Gi中抽取ni个样品,i =1,?,k,每个样品测p个指标。今任取一个样品,实测指标值为
X?(x1,?,xp)?,问X应判归为哪一类?
G1总体: ? Gk总体:
变量 样品 (1) x1(1) x2x1 (1) x11(1) x21x2 (1) x12(1) x22? ? ? ? (i)(i)xp )x1(1p (1)x2p
变量 样品 x1 (k) x11(k) x21? (k)xn1 2x2 (k) x12(k) x22? (k)xn2 2? ? ? ? xp )x1(kp (k)x2p x1(k) (k) x2? ? (2) xn1? (1)xn1 1? (1)xn2 1? (1)xnp 1? (k)xnp 2(k) xn2均值 x1 (1)x2 (i)(1)xp(1) 均值 x1 (k)x2 (k)xp(k) 记向量X(i)?(x1,x2,?,xp)? i?1,?,k (1)当?(1)????(k)??时
此时D2(X,Gi)?(X??(i))???1(X??(i)) i?1,?,k判别函数为:
1Wij(X)?[D2(X,Gj)?D2(X,Gi)]
2?1(i)????X????(j)???1(?(i)??(j)) i,j?1,?,k
2????相应的判别准则为:
当Wij(X)?0,对一切j?i??X?Gi, ? 若有某一个Wij(X)?0??待判, 当?(1),?,?(1),?未知时可用其估计量代替,设从Gi中抽取的样本为
?的估计分别为 ?(i),?X(i),?,X(i),i?1,?,k,则?1ni??(i)?X(i)1?ni?Xa?1ni(i)ai?1,?,k
4
k???其中 n?n1???ni,Si?(1)(k)1n?kni?Si?1i
?(Xa?1(i)a(i)?X(i))(Xa?X(i))?为Gi的样本离差阵。
(2)当?,?,?不相等时
此时判别函数为:
Wji(X)?(X??(j))?[V(j)]?1(X??(j))
?(X??(i))?[V(i)]?1(X??(i))
相应的判别准则为:
当Wij(X)?0,对一切j?i??X?Gi, ? 若某一个Wij(X)?0??待判, 当?(i),?(i)(i?1,?,k)未知时,可用?(i),?(i)的估计量代替,即
?(i)?X(i) ??(i)??1Sini?1i?1,?,k
例1 人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别要用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数。资料来源:UNDP《人类发展报告》1995年。
今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别分析。
数据选自《世界经济统计研究》1996年第1期
类别 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 国家名称 美国 日本 瑞士 阿根廷 阿联酋 保加利亚 古巴 巴拉圭 格鲁吉亚 南非 中国 罗马尼亚 希腊 哥伦比亚 出生时的 予期寿命(岁) x1 76 79.5 78 72.1 73.8 71.2 75.3 70 72.8 62.9 68.5 69.9 77.6 69.3 成人识字率(%) 1992 x2 99 99 99 95.9 77.7 93 94.9 91.2 99 80.6 79.3 96.9 93.8 90.3 调正后人均GDP 1992 x3 5374 5359 5372 5242 5370 4250 3412 3390 2300 3799 1950 2840 5233 5158 第一类 (高发展水平国家) 第二类 (中等发展水平国家) 待判样品 本例中变量个数p=3,两类总体各有5个样品,即n1?n2?5,有4个待判样品,假定两总体协差阵相等。
两组线性判别的计算过程如下:
5
正在阅读:
判别分析-四种方法11-09
2012年理学院硕士研究生培养方案07-28
人教版小学美术课件《趣味文字》108-05
实验3-高级查询05-17
摩托罗拉公司营销战略管理失败案例分析01-26
ZDY800煤矿用全液压钻机说明书08-09
施工组织设计05-26
会议服务员岗位职责02-25
校园突发事件应急预案05-30
电气专业技能考试国家题库模拟题112-23
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 判别
- 方法
- 分析
- ERP及K3练习题
- 环境和职业健康安全管理体系管理评审报告模板
- 行政法与行政诉讼法(一)练习题
- 关于增值税条件下计费程序和计费标准的规定 湘建价〔2016〕72号附件1附表二(DOC)
- 江西师范高等专科学校补充招聘引进硕士研究生及以上人才计划表高层次人才引进管理办法
- 关于行列式计算方法的进一步探讨
- 计算机网络安全实验报告
- Java基础面试题及答案(在后面)
- 反洗钱资料汇总
- 数字电视考试复习提纲
- 食品贮藏与保鲜复习资料
- 我国中央与地方政府利益博弈关系实证分析
- PRD120旋挖钻机设计 - 图文
- 施工管理中遇到的主要困难和存在的问题
- 高二语文(外国小说欣赏 选修)《骑桶者》导学案
- 2013年医学遗传学练习题
- xx毕业设计(论文)开题报告 - 图文
- 传感器技术 作业
- 佳乐科仪变频器JR7000说明书
- 第六章 马尔萨斯和李嘉图