第五章 判别分析

更新时间:2024-03-07 06:34:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

应用多元统计分析

第五章 判 别 分 析

目 录 

§5.1 距离判别

§5.2 Bayes(贝叶斯)判别法及

广义平方距离判别法 §5.3 Fisher(费歇)判别

什么是判别分析:

判别分析是用于判断样品所属类型的一种统计分析方法.

在生产、科研和日常生活中经常遇到如何根据观测到的数据资

料对所研究的对象进行判别归类的问题. 例如:在医学诊断中,一个病人肺部有阴影,医生要判断他是肺结核、肺部良性肿瘤还是肺癌.这里肺结核病人、良性瘤病人、肺癌病人组成三个总体,病人来源于这三个总体之一,判别分析的目的是通过测得病人的指标(阴影的大小,边缘是否光滑,体温多少……)来判断他应该属哪个总体(即判断他生什么病).

在气象学中,由气象资料判断明天是阴天还是晴天, 是有雨还是无雨.

在市场预测中,由调查资料判断下季度(或下个月)产品是畅销、平常或滞销. 股票持有者根据某种股票近期的变化情况判断此种股票价格下一周是上升还是下跌.在环境科学中,由气象条件,污染浓度等判断该地区是属严重污染,一般污染还是无污染.

在地质勘探中,由岩石标本的多种特征判断地层的地质年代,是有矿还是无矿,是富矿还是贫矿.

在体育运动中,由运动员的多项运动指标来判定游泳运动员的\苗子\是适合练蛙泳,仰泳还是自由泳等

判别分析是应用性很强的一种多元统计方法,已渗透到各个领域.但不管是哪个领域,判别分析问题

都可以这样描述:

设有k个m维总体G1,G2,…,Gk,其分布特征已知(如已知分布函数分别为F1(x),F2(x),…,Fk(x),或知道来自各个总体的训练样本).对给定的一个新样品X,我们要判断它来自哪个总体.

在进行判别归类时,由假设的前提,判别的依据及处理的手法不同,可得出不同判别方法.如距离判别,Bayes判别,Fisher判别或典型判别,逐步判别,序贯判别等.

本章介绍几个常用的判别方法

§5.1 距离判别法

距离判别的基本思想是:样品和哪个总体距离最近,就判它属哪个总体. 距离判别也称为直观判别法.

我们在具体讨论距离判别法之前,应给出合理的距离的定义 示例

马氏距离:

已知有两个类G1和G2,比如G1是设备A生产的产品,G2是设备B生产的同类产品.设备A的产品质量高(如考察指标为耐磨度X),其平均耐磨度μ1=80,反映设备精度的方差σ2(1)=0.25;设备B的产品质量稍差,其平均耐磨度μ2=75,反映设备精度的方差σ2(2)=4.今有一

产品X0,测得耐磨度x0=78,试判断该产品是哪一台设备生产的?直观地看, x0 与μ1(设备A)的绝对距离近些,按距离最近的原则是否应把该产品X0 判断为设备A生产的?

考虑一种相对于分散性的距离.记X0与G1,G2的相对平方距离为d21(x0)或d22(x0),则:

2(x0?u1)(78?80)2d1(x0)???16?40.25?2(1)22d22(x0)?(x0?u)(78?75)2??2.25?1.54?2(2)22

因为d2(x0)=1.5<4= d1(x0) ,按这种距离准则应判X0为设备B生产的. 设备B生产的产品质量较分散,出现x0为78的可能性仍较大;而设备A生产的产品质量较集中,出现x0为78的可能性较小.判X0为设备B的产品更合理.

这种相对于分散性的距离就是本节介绍的马氏距离.

一般地,我们假设G1的分布为N(μ(1),σ21),G2的分布为 N(μ(2),σ22),则利用相对距离的定义,可以找出分界点μ*(不妨设 μ(2)<μ(1)),当μ(2)

(1)2(2)2(1)(2)(x??)(x??)??xx?? ???22?1?2?1?2

(1)(2)def?????* ??(x??(2))??(?(1)?x)?x?21??.12?1??2

而按这种距离最近的判别准则为: ?判x?G

?*判x?G,当x??.2?*,当x??1利用马氏距离对两个一维正态总体判别归类示意图

令:

u1?2?u2?1?u*(μ* =79为到两总体相对距离相等的分界点)

?1??2

马氏距离

定义5.1.1(马氏距离) 设总体G为m维总体(考察m个指标),均值向量为μ=(μ1,μ2 , …,μm)′,协方差阵为Σ=(σij),则样品X=(x1,x2,…,xm)′与总体G的马氏距离定义为

多总体样本特征量

设有k个总体Gi(i=1,…,k),已知来自Gi (i=1,..,k) 的训练样本为:

i)(i)' X((ti))??xt(1i),xt(2?(i?1,?,k;t?1,2,...,ni),?xtmd2(X,G)?(X??)???1(X??)(x??)?(x??)当m?1时,d2(x,G)??2?(x??)2?2其中ni是取自Gi的样品个数,则均值向量μi的估计量为:

x(i)?(1ni?x,........i?1i1ni1ni?x)'?(x1,x2,........xm)' i?1imni(i)(i)(i)(i)(i)总体Gi的协方差阵Σi的估计Si为 Si ? ?m ? m , 并称St为?A ?silj1ni?1组内协差阵.

其中Ai??(X((ti))?X(i))(X((ti))?X(i))?t?1ni称为组内离差阵。

s

(i)ljni1(i)(i)i)?(xtl?xl(i))(xtj?x()?jni?1t?1(l,j?1,2,?,m)当假定Σ1=…=Σk=Σ时,反映分散性的协方差阵Σ的估计S为

k1 S ? A ? ? s ? 并称S为合并样本协差阵;

?iljm?m,n?ki?1nik1(i)(i)(i)(i)其中 s?(x?x)(x?x??ljtlltjj)n?ki?1t?1

(l,j?1,2,?,m)问题是对任给定的m维样品X=(x1,x2 ,…,xm )′,要判断它来自哪个总

体.

两总体判别:Σ1=Σ2 时的判别方法

最直观的想法是分别计算样品X到两个总体的距离d21(X)和d22(X) (或记为d2(X,G1)和d2(X,G2) ),并按距离最近准则判别归类,即判别准则为:

判X∈ G1 , 当d2(X,G1) < d2(X,G2) 时, 判X∈ G2 , 当d2(X,G1) > d2(X,G2)时, 待判, 当d2(X,G1) = d2(X,G2)时.

这里的距离指马氏距离.利用马氏距离的定义及两总体协差阵相等的假设,可以简化马氏距离的计算公式:.

d2(X,G)?(x?x(i))'s?1(x?x(i))

对给定样品X,为比较X到各总体的马氏距离,只须计算Yi(X ) :

Yi(x)?X'(s?1x(i))?1(i)?1(i)(x)'sx(i?1,2) 2因为函数Yi(X)是X的线性函数(i=1,2),故Yi为线性函数。

ai?s?1x(i)称为判别系数1(i)'?1(i)ci??(x)sx称为常数项

2若考察这两个马氏距离之差,经计算可得:

22?1?1??d(X)?d(X)?XSX?2Y(X)?[XSX?2Y1(X)] 212

?2[Y1(X)?Y2(X)]?2W(X)?1(1)1(1)?1(1)1(1)?1(2) W(X)?[(SX)?X?(X)?SX]?(X)?SX22 1(2)?1(2)1(2)?1(1)?1(2)??[(SX)X?(X)?SX]?(X)?SX22

1(1)?1(1)(1)(2)?1(2)???(X?X)SX?(X)S[X?X]

21(2)?1(1)

?(X)?S[X?X(2)]2

1(1)?X?S[X?X]?(X?X(2))?S?1[X(1)?X(2)]21(1)?[X?(X?X(2))]?S?1[X(1)?X(2)]2?1(1)(2)w(x)?(x?x)s(x即x*?*'?1(1)?x),

(2)1(1)(x?x(2))2则判别准则还可以写为:判X∈G1, 当W(X)>0时, 判X∈G2, 当W(X)<0时

待判, 当W(X)=0时.W(X)是X的线性函数,即 W(X)=a′(X-X*) =Y1(X)-Y2(X) ,其中a=S-1(X(1) - X(2) ),W(X)也称为线性判别函数,a为判别系数.W(X)把m维空间Rm划分为叁部分:

D1={X:W(X)>0}, D2 ={X:W(X)<0}, D0={X:W(X)=0}.则D1 , D2 , D0 是Rm的一个划分.显然,判别方法的最终结果是得到Rm中的一 个划分.由判别函数W(X)得到划分D1 , D2 , D0。

?当样品x落入D1时,X?D1? ?当样品x落入D2时,X?D2

?当样品x落入D0时,待判?例如m=2时,直线W(X)=0把平面分为两个区域 D1,和D2.

考察m=1的特殊情况,并设两总体为正态总体,其分布已知为N(μ1,σ2)和N(μ2,σ2)(两总体的方差相同,记为σ2 ),这时判别函数为

W(x)?(x?u1?u21)2(u1?u2)?a(x?u) 2?其中u?u1?u2u?u,a?122. 2?不妨设μ1>μ2 ,则a为正数,W(x)的符号取决于x>μ或x<μ. 两总体判别: Σ1=Σ2 时的判别方法(m=1时的错判率) 用这种判别法会发生错判,如X来自G1,但却落入D2,被判为属G2 .错判的概率为下图中阴影左半部分的面积,并记为P(2|1).类似有P(1|2).

分界点μ=77.5 上例中,当μ1=80,μ2 =75,σ=2时 分界点μ =(80+75)/2=77.5,故错判概率为 P(2|1)= P{X<77.5|X∈G1} (X~N(80,4) ) = P{(X-80)/2<(77.5-80)/2}

= P{U<-1.25} (U=(X-80)/2~N(0,1) ) = 1-Φ(1.25)= 0.1056

P(1|2)= P{X>77.5|X∈G2} (X~N(75,4) ) = P{(X-75)/2>(77.5-75)/2}

= P{U>1.25} (U=(X-75)/2~N(0,1) ) = 1-Φ(1.25)= 0.1056=P(2|1) 一般地,经计算可得:P(2|1)?P(1|2)?1??(u1?u2) 2?由错判概率的公式及上图可见, 当两总体均值靠得很近(即| μ1 - μ2 |很小)时,则错判概率很大,这时作判别分析是没有意义的.因此只有当两总体的均值有显著性差异时,作判别分析才有意义. 两总体判别:简例1

简例1 :记二维正态总体N2(?(i),? )为Gi(i=1,2)(两总体协差阵相同),已知来自Gi(i=1,2)的样本数据阵为 4?2(1)X(1) 试求两总体的样本组内离差阵A1, A2和合并样本协差阵S. (2) 今有样品x0 =(2,8)′,试问按马氏距离准则样品x0应判归哪一类. (1)解:

?212???410????,?38???310???X(2)3?2?57????k?2,m?2???39?.??n?4,n?3??12???45???X~X4?2(1)?3????10??,????1??1??0??0?(2)X(2)?4????7??.??(1)~X3?22??0?~(1)~(1)?2?2??,A?(X)?X??1???2?28?????0?0??1???2?2?~~????12?,A2?(X(2))?X(2)????28????0?2???样本合并组内离差阵A为?2?2??2?2??4?4????A?A1?A2??????,故??2?????8???28???416??11?4?4?4?1?1???S?A????,????n1?n2?25??416?5??14?而且

48?4?1?116S?????3?,25?5??1425254?41?5?41???S????????485?11?12?11???12(2)解一:计算马氏距离

5?41???1????d(x0)?(x0?X)?S(x0?X)???1,?2?????12?11???2????6?5????1,?2???5??12??3?21(1)?1(1)

d(x0)?(x0?X22(2))?S(x0?X?1(2)5?41???2????)???2,1?????12?11??1????7?5?135????2,1????5.4167??12??1?1222因d1(x0)?d2(x0),故判x0?G1.(2)解二:计算线性判别函数Yi(X)(i=1,2) Y(X)?S?1X(i)?X?1X(i)?S?1X(i)i???2?(i?1,2).

5?41??3?5?22???????a1?SX??,??????12?11??10?12?13?5?41??4?5?23??1(2)??????a2?SX??,??????12?11??7?12?11??1(1)?22?1(1)?15245??C1??Xa1????3,10???????40.8333,22126?13??23?1(2)?155?169?C2??Xa2????4,7??????35.2083.??221224?11?线性判别函数为5Y1(X)?(22X1?13X2)?40.8333,125Y2(X)?(23X1?11X2)?35.2083.12?????2?当x0???8??时,Y1(x0)?20.8333,Y2(x0)?20.6250.??因Y1(x0)?Y2(x0),故判x0?G1.(2)解三:计算线性判别函数W(X)

1W(X)?[d22(X)?d12(X)]?Y1(X)?Y2(X)?(X?X*)?a2其中X*??4???3.5?11??3?????(X(1)?X(2))?????????????22??10??7???8.5?5?41???1?5??1?????a?S?1(X(1)?X(2))????,因而??????12?11??3?12?2?

W(X)???1?55?(X1?3.5,X2?8.5)??(?X1?2X2?13.5).??12?2?12由于W(x0)?55(?2?2?8?13.5)??0,故判122455(?2?2?8?13.5)??0,故判1224x0?G1.由于W(x0)?x0?G1.两总体判别: Σ1≠Σ2 时的判别方法

当两总体协差阵不等时,按距离判别准则先分别计算X到两个总体的距离d2(X,G1)和d2(X,G2),然后按距离最近准则判别归类.或者类似地计算判别函数W(X),并用于判别归类.

令 W(X)=d2(X,G2) - d2(X,G1)=…=Z(X)-Z0,其中Z(X)为X的二次函数(因Σ1≠Σ2 ),Z0是一常数(具体表达式省略了).判别准则仍可以写为:

判X∈G1, 当W(X)>0时,

判X∈G2, 当W(X)<0时, 判X∈G1, 当W(X)>0时, 待判, 当W(X)=0时. 判X∈G2, 当W(X)≤0时.

当m=1,两总体为正态总体时,记Gi的均值为μi,方差为σ2i |x?ui|(i?1,2)这时马氏距离的平方根为:不妨设(i=1,2), d(xi,G)??iu1?u2,?1??2,观测值x满足:u2?x?u1时

?2?1

u??u?22其中u*?12是u1,u2的加权平均值。?1??2d2(x)?d1(x)?x?u2?u1?x??1??2(x?u*)?1?2分界点μ*把区间(μ2,μ1)分为两部分: D1={μ1> x >μ*}和

D2={μ2< x≤μ*}. 这时判别准则为:判X∈G1, 当μ1> x>μ*时, 判X∈G2, 当μ2 < x≤μ*, 应用例子:

例5.1.1(盐泉含钾性判别) 某地区经勘探证明A盆地是一个钾盐矿区,B盆地是一个钠盐矿区,其他盐盆地是否含钾盐有待作出判断.今从A,B两盆地各抽取5个盐泉样品;从其他盆地抽得8个盐泉样品, 18个盐泉的特征数值见表5.1.试对后8个待判盐泉进行含钾性判别.

解一: A盆地和B盆地看作两个不同的总体,并假定两总体协差阵相等.本例中变量个数m=4, 两类总体各有5个训练样品(n1= n2=5),另有8个待判样品. 用SAS/STAT软件中的DISCRIM过程进行判别归类.

(1)首先用DATA步生成SAS数据集D511. SAS程序如下:应用例子的sas程序 data d511;

input x1-x4 group $; cards;

13.85 2.79 7.80 49.60 A … … … …

2.18 1.06 1.22 20.60 B … … … …

8.85 3.38 5.17 26.10 . … … … …

15.00 2.70 5.02 64.00 . ;

proc print ; run;

(2) 调用DISCRIM过程对含钾和不含钾的A、B两类盆地的10个样品特征测量值用距离判别的方法,建立线性判别函数,并对已知类别的样品和待判样品进行判别归类.  proc discrim data=d511 simlpe pcov wsscp psscp distance list; class group; var x1-x4; run;

应用例子中sas程序的选项:

选项SIMPLE要求输出各类的简单描述统计 (如两类各变量的均值、标准差等);

选项WSSCP要求输出各类的组内离差阵; 选项WCOV要求输出各类样本协差阵; 选项PCOV要求输出合并样本协差阵; 选项PSSCP要求输出合并的样本组内离差阵;

选项DISTANCE要求输出各组间的距离等统计量(平方距离,F统计量值, p值等) ;

选项LIST要求输出按距离准则的判别结果. 应用例子的结果分析:

合并的样本组内离差阵 A=A1+A2 选项PSSCP产生的结果

合并的样本组内离差阵 A=A1+A2 选项PSSCP产生的结果

合并样本协差阵S=A/(n1+n2-2) 选项PCOV产生的结果

组间马氏距

d2(1,2)=37.03

检验H0:

?(1) =?(2) p=0.0059 的F统计量 F=14.46

线性判别函数Y1(X)

Y2(X)

W(X)=-37.08458+ 4.74305 X1+ 4.19183 X2-- 8.58924 X3+ 0.72548 X4 线性判别函数 W(X)=Y1(X)-Y2(X)

第2,3,6,7,8

五个盐泉为 含钾盐泉,

第1,4,5为

不含钾盐泉,

多总体的距离判别

设有k个m维总体:G1,G2,…,Gk(k>2).它们的均值,协差阵分别为μi,Σi(i=1,2, …,k).对任给定的m维样品X=(x1 , x2 ,…, xm)′,要判断它来自哪个总体. 多个总体的情况,按距离最近的准则对X进行判别归类时,首先计算样品X到k个总体的马氏距离d 2i(X)(i=1,2,…,k),然后进行比较,把X判归距离最小的那个总体.

设k?l时,若di(x)?2Mini?1,....k?di2(x)?,则X?Gi,计算马氏距离

di(x)(i?1,2...k)时,类似考虑?1??2?.......?k或?i不全相等的两种情况。

并用样本统计量作为ui和?i的估计2距离判别只要求知道总体的特征量(即参数)---均值和协差阵,不涉及总体的分布类型. 当参数未知时,就用样本均值和样本协差阵来估计. 距离判别方法简单,结论明确,是很实用的方法.但该方法也有缺点: 1. 该判别法与各总体出现的机会大小(先验概率)完全无关; 2. 判别方法没有考虑错判造成的损失,这是不合理的. Bayes判别法正是为解决这两方面问题而提出的判别方法.

Bayes的统计思想总是假定对所研究的对象已有一定的认识,常用先验概率分布来描述这种认识 .然后我们抽取一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布. 各种统计推断都通过后验概率分布来进行.将贝叶斯思想用于判别分析就得到贝叶斯判别法.

在正态总体的假设下,按Bayes判别的思想,在错判造成的损失认为相等情况下得到的判别函数其实就是马氏距离判别在考虑先验概率及协差阵不等情况下的推广,故SAS/STAT软件的DISCRIM过程中称为广义平方距离判别法. 所谓判别方法,就是给出空间Rm的一种划分:D={D1,D2,…,Dk}.一种划分对应一种判别方法,不同的划分就是不同的判别方法. Bayes判别法也是给出空间Rm的一种划分 设有k个总体G1,G2,…,Gk.假设事先对所研究的问题有一定的认识,这种认识常用先验概率来描述.即已知这k个总体各自出现的概率(验前概率)为q1,q2,…,qk (显然qi?0,q1+q2+…+qk=1).

比如研究人群中得癌(G1)和没有得癌(G2)两类群体的问题,由长

期经验知:q1=0.001,q2=0.999.这组验前概率q1,…,qk 称为先验概率.先验概率是一种权重(比例).所谓“先验”是指先于我们抽取样品作判别分析之前.

Bayes判别准则要求给出qi(i=1,2,…,k)的值.

§5.2 Bayes(贝叶斯)判别法及 广义平方距离判别法--先验概率

qi的赋值方法有以下几种:

(a) 利用历史资料及经验进行估计.例如某地区成年人中得癌症的概率为P(癌)=0.001= q1,而P(无癌)=0.999 = q2 .

 (b) 利用训练样本中各类样品占的比例ni/n做为qi的值,即qi=ni/n(i=1,…,k),其中ni是第i类总体的样品个数,而n=n1+ n2 + … + nk .这时要求训练样本是通过随机抽样得到的,各类的样品被抽到的机会大小就是验前概率.  (c) 假定q1=q2=…=qk=1/k.

在马氏距离判别的基础上,进一步考虑先验概率及各组内协差阵

22x)或D(X,G)为 的不同,可定义样品X到总体Gt的广义平方距离Di(Dt(x)?D2(X,GT)?dt(x)?g1(t)?g2(t)

22其中

由Dt2(x)的公

,当 d2(x)不变,而某个qt大(即总体Gt出现的

机会大)时,则g2(t)变小,故广义平方距离也变小,进而判X为Gt的可能性大---符合直观想法.当Σi不全相等时,g1(t)=Log|St|,且马氏距离 的公式中也考虑了Σi的不等,这时广义平方距离中的g1(t)可看成是一种修正.

引入g1(t)后,使广义平方距离判别法的概率意义更明显: 广义平方距离判别法<==>后验概率判别法 利用广义平方距离的判别法为:

(后验概率及后验概率判别法将在下面介绍)

标准的Bayes方法应该计算后验概率分布.即计算当样品X已知时,它属于Gt的概率,记为P(Gt|X)(或P(t|X)),这个概率作为判别归类 的准则,其概率意义更为直观.

假定总体Gt的概率密度函数ft(x)(t=1,…,k)给定,由条件概率的定

义可以导出:

若假设Gi(i=1,…,k)为m维正态总体,其密度函数fi(x)为

则X属于第t组的后验概率为:

2x)其中Di(是X到第i组的广义平方距离.

在正态假设下按后验概率最大进行归类的准则,等价于按广义平方距离最小准则进行归类.而按后验概率最大准则归类的判别法就是Bayes判别的一种情况.

一般Bayes判别即考虑先验概率的不同,还考虑了错判损失的大小,在这里我们假定错判损失相等.

所谓Bayes判别准则,就是给出空间Rm一个划分D={D1,D2,…,Dk},使得当通过这个划分D来判别归类时,所带来的平均损失达到最小. 定义5.2.1设有k个总体:G1,G2,…,Gk,相应的先验概率为q1,q2,…,qk(qi>0,q1+…+qk=1).如果有判别法D*,使得D*带

来的平均损失g(D*)达最小,即则称判别法D*符合Bayes准则,或称D*为Bayes判别的解. 平均损失g(D)

有了先验概率的概念后,判别法D关于先验概率的错判平均损失g(D)定义为

其中 rt(D)表示实属Gt的样品被错判为其他总体的损失.

L(j|i;D)(简记为L(j|i))表示样品实属第i个总体Gi,今用判别法D判别时被错判为Gj(j≠i)时所造成的损失.

P(j|i;D)(或简记为P(j|i))表示用判别法D把实属Gi的样品错判为Gj的概率. 当总体Gi的分布密度已知(记为 fi(x1,...,xm),可以计算错判概率:

错判概率P(j|i)虽可以计算,但在实际应用中常使用估计的方法。 错判概率

当样品X∈Gi,但用判别法D判别时,把X判归Gj(即X落入区域Dj ,j≠i),这时判错了.

错判概率P(j|i)估计方法有以下几种: ① 利用训练样本作为检验集;

② 可留出一些已知类别的样品不参加建立判别准则,而是作为检验集;

③ 舍一法(或称交叉确认法),每次留出一个已知类别的样品,而用其余n-1个样品建立判别准则,然后对留出的这一个已知类别的样品

进行判别归类.对训练样本中n个样品按此法逐个归类后,最后把错判的比率作为错判率的估计.

在实际问题中,错判的损失可以给出定性的分析,但很难用数值来表示.但应用Bayes判别准则时,要求定量地给出L(j|i). L(j|i)的赋值法常用的有以下两种: (a) 由经验人为赋值.例如 L(判癌|得肺结核)=10, L(判肺结核|得癌症)=1000. (b) 假定各种错判损失都相等. Bayes判别解 

定理5.2.1:设有k个总体:G1,G2,…,Gk,已知Gi的联合密度函数为fi(X),先验概率为qi(i=1,…,k),错判损失为L(j|i).则Bayes判别的解D*={D*1,…,D*k}为

它表示把样品X判归Gj的平均损

失。

证明:根据定义5.2.1来证明D*带来的平均损失最小。

如果D={D1,…,Dk}是Rm上的任一种划分,则它带来的平均损失为

于是

由D*的定义知在D*t 上恒有 ht(X)

g(D*)?g(D)?0g(D)?Ming(D)根据定义5.2.1由知D*是Bayes判别的解.

判别方法:

对样品X,分别计算k个hj(X)(j=1,…,k),选其最小者, 即可判定样品来自相应的总体.

推论 当错判损失都相等(当i不等于j时, L(i|j)=1),根据hj(X)的公式,

即得Bayes判别的解D*={D*1,…,D*k}

其实 ht(X)??qiL(t|i)fi(X)??qifi(X)?C(X)?qtft(X)i?1i?tkk ht(X)最小??qtft(X)最大.正态总体的Bayes判别

设Gj来自正态总体Nm(μ(j),Σj)(j=1,…,k),并假定错判损失相等,先验概率为q1,q2,…,qk. 当Σ1=Σ2=…=Σm=Σ时,设第j个总体的样本均值为X(j) ,合并样本协差阵为S.把样本均值和协差阵代入正态密度函数fj(X),经计算:

Lnqjfj(x)?Lnqj?1(X(j))?S?1X(j)?X?S?1X(j)2 m11?Ln(2?)?Ln|S|?X?S?1X222

?Cj0?C'jX?C0?Yj(X)?C0经整理可得Bayes判别的解 D*={D*1,…,D*k}为

Yj(X)?Cj0?C?jX称为线性判别函数.

当Σi(i=1,…,k)不全相等时,设第i个总体的样本均值为X(i) ,样本协差阵为Si.可得Bayes判别的解D*={D*1,…,D*k}为  其中

与距离判别比较:

正态总体协差阵全相等时的Bayes判别法除线性判别函数的常数项增加考虑先验概率的部分(lnqt)外,与协差阵相等情况下的马氏距离判别法是一致的. 正态总体协差阵不全相等时的Bayes判别法与协差阵不全相等情况下的广义平方距离判别法是一致的. (假设错判损失都相等)

简例2(简例1的续) :已知先验概率q1=0.4, q2=0.6,且L(2|1)=L(1|2)=1.

(j?1,2,?,k)

对简例1中提供的资料,试用Bayes 准则对样品x0 =(2,8) ′进行判别归类.

(一)解一:计算广义平方距离D2(X,Gi)(i=1,2)

Di2(X)?di2(X)?2Lnqi(i?1,2)2由简例1知d12(x0)?5,d2(x0)?5.4167.故D12(x0)?5?2?Ln(0.4)?6.8326,2D2(x0)?5.4167?2?Ln(0.6)?6.4383,2因D2(x0)?D12(x0),故判x0?G2.(二)解二:计算线性判别函数Yi (X)(i=1,2) 、

Yi(X)?X?ai?Ci0由简例1知,a1?SX?1(1)(i?1,2)5?22?5?23??1(2)????,a2?SX??,????12?13?12?11?1C10?Ln(0.4)?(X(1))?S?1X(1)??0.9163?C1??41.7496,21C20?Ln(0.6)?(X(2))?S?1X(2)??0.5108?C2??35.7191,25Y1(X)?(22X1?13X2)?41.7496,125Y2(X)?(23X1?11X2)?35.7191.12?2?当x0???8??时,??5Y1(x0)?(22?2?13?8)?41.749612?61.6667?41.7496?19.9171,Y2(x0)?5(23?2?11?8)?41.749612?55.8333?35.7191?20.1142,因Y 2(x0)?Y1(x0),故判x0?G2.(三)解三:计算qifi(x0)(i=1,2)(利用定理5.2.1的推论)

1?12?fi(x0)?exp??di(x0)?(i?1,2)?1/22?|S|?2?24?1?1??4?16?3?其中|S|??????3??1.92??5??14??5?25|S|1/21.38564??0.2205.2?6.2832由简例1知d12(x0)?5,d22(x0)?5.4167.?5?q1f1(x0)?0.4?0.2205?exp????2??0.007240,?5.4167?q2f2(x0)?0.6?0.2205?exp???2???0.008817.因q2f2(x0)?q1f1(x0),故判x0?G2.(四)解四:计算后验概率P(i |x0)(i=1,2)由后验概率的计算公式:

P(i|x0)?qifi(x0)?2j?1qjfj(x0)(i?1,2)0.007240P(1|x0)??0.4509,0.007240?0.0088170.008817P(2|x0)??0.5491.0.007240?0.008817因 P(2| x0 ) > P(1| x0 ),故判x0 ∈G2

或者由后验概率的另一公式:P(i|x0)?exp(?0.5Di2(x0))?2j?1exp(?0.5D(x0))2j(i?1,2)2可得(由解一知D12(x0)?6.8326,D2(x0)?6.4383)应用例子:

例5.2.2(胃癌的鉴别) 下表是从病例中随机抽取的部分资料.这里有三个总体:胃癌 、萎缩性胃炎和非胃炎病者.从每个总体抽5个病人,每人化验4项生化指标:血清铜蛋白(X1) 、蓝色反应(X2)、尿吲哚乙酸(X3)和中性硫化物(X4).试用广义平方距离判别方法建立判别准则并对这15个样品进行判别归类.

表5.2 胃癌鉴别数据

解 此例中总体个数k=3,变量个数m=4,各组样品个数为:

n1=n2=n3=5(n=15).这是多总体的判别归类问题. data d522; 选项POOL=NO表示三个总

体的协差阵不能认为相等故而不使用合并协差阵,此时采用广义平方距离进行

判别归类.先验概率我们仍假定相等

input group x1-x4 @@; cards;

1 228 134 20 11 1 245 134 10 40…. 2 130 100 6 12 2 150 117 7 6….. 3 100 117 7 2; proc print data=d522; run;

proc discrim data=d522 pool=no distance list; class group; var x1-x4;

run;

输出两两配对的组间平方距离(即马氏距离)

比如:d2(2|1)表示X(2)到G1的平方距离.若Σ1=Σ2,d2(2|1)=d2(1|2);但此例中协差阵Σ1与Σ2不等,因此d2(2|1)=22.12187,d2(1|2)=486.03104

用D2(2|1)表示X(2)到G1的广义平方距离.因协差阵Σ1与Σ2不等,因此D2(2|1)=43.06467,D2(1|2)=498.26812. D2(1|1)=20.94280=Ln|S1| 由选项LIST要求而列出的回判结果

Fisher判别的基本思想

Fisher(费歇)判别的基本思想是投影.将k组m维数据投影到某一个方向,使得投影后组与组之间尽可能地分开.而衡量组与组之间是否分开的方法借助于一元方差分析的思想.

利用方差分析的思想来导出判别函数,这个函数可以是线性的,也可以是一般的函数.因线性判别函数在实际应用中最方便,本节仅讨论线性判别函数的导出.

当m=2,k=2时,寻找方向a,使两组数据投影后在一维直线上尽可能

区分开。

设从总体Gt(t=1,…,k)分别抽取m维样品如下: X(i)(t)(t)?(xi(1t),?,xim)?(t?1,?,k;i?1,?,nt)令a=(a1,…,am)′为m维空间的任一向量,u(x)=a′X为X向以a为法线的方向投影.上述k个组中的m维数据投影后为

每个总体的数据投影后均为一维数据.对这k组一维数据进行一元方差分析,其组间平方和为

B0??nt(a?X(t)?a?X)2t?1k?k??a???nt(X(t)?X)(X(t)?X)??a

?t?1??Ba?a和其中X(t)X分别为Gt的样本均值和总均值.而 B为组间离差阵:

B??nt(X(t)?X)(X(t)?X)?t?1k合并的组内平方和为

其中合并的组内离差阵(或称叉积阵)A为

§5.3 Fisher(费歇)判别

a'Ba若k个类的均值有显著差异,则比值'??(a)

aEa应充分大.利用方差分析的思想,问题化为求投影方向a,使Δ(a)达极大值,显然使Δ(a) 达极大的解a不唯一.若a使Δ(a)达极大,则Ca(C是任意不为零常数)也使Δ(·)达极大,故对a加一约束条件,即选取a使a? Aa=1.问题化为求a,

使Δ(a)=a? Ba在a?Aa=1 条件下达极大.

如果a是在a? Aa=1条件下使Δ(a)=a? Ba达极大的方向,则称u(X)=a? X为典型线性判别函数.

以下利用Lagrange乘数法来求条件极值问题的解.令

?(a)?a?Ba??(a?Aa?1),??解方程组?2(B??A)a?0

?a

???1?a?Aa?0??(5.3.1)的第一式可化为: (B??A)a?0??(A?1B??Im)?0由(5.3.1)的第一式可知,条件极值问题化为求A-1B的最大特征值和相

应特征向量问题.

设A-1B的非零特征值为λ1≥λ2≥…≥ λr0>0,相应特征向量为l1,l2,…,l r0 .取a=l1 时,由(5.3.1)的第一式知: ?(a)??(l)?l?Bl??l?Al??1111111即取a=l1 时可使Δ(a)达最大,且最大值为λ1, Δ(a)的大小衡量典型判别函数u(X)=a? X的判别效果.

一般称Δ(a)=λ1为典型判别函数u(x)的判别效率.还可以定义u(x)的判别能力p1为 p1 =λ1 /(λ1+λ2+…+λr0 )

结论5.3.1 Fisher准则下线性判别函数u(X)=a'X的解a为特征方程| A-1B -λI | =0的最大特征根λ1所对应的满足l1'Al1=1的特征向量l1;且相应的判别效率Δ(l1)=λ1 .

在有些问题中(如分类个数k较大或变量个数m较大时),仅用一个典型线性判别函数不能很好地区分各个总体,这时可用第二大特征值λ2对应的满足l2?Al2 =1特征向量l2 ,建立第二个典型线性判函数l2?X;如还不够,还可建立第三个典型线性判别函数l3?X;依次类推. 如果有r0个非零特征根(1≤ r0≤m),相应有r0个典型线性判别函数u1(X),…,ur0(X).这时相当于把原来m个变量综合成r0个新变量.在实际应用中,常取前r(1≤r≤r0 )个非零特征根,并使累计判别能力(记为p(r))

p(r) =(λ1 +…+λr)/(λ1+λ2+…+λr0 )

达到80%以上(这表示用这r个新变量替代m个原变量进行判别归类损失的信息不会超过20%).

这样m维总体的判别问题化为r维的判别问题,一般维数降低了.由于特征向量线性无关,

故r个新变量互不相关.然后对r维数据进行判别归类(比如按§5.1的距离判别准则).

具体判别归类时,首先计算r个典型变量的得分数据,然后对这组r维的新数据,可以使用不同的准则,考虑不同的假定(如协差阵相等或不等;先验概率相等或不等)进行判别归类.

典型判别方法是与主成分分析及典型相关分析有关的降维方法(参阅第七章和第十章).

简例3(简例1的续) :对简例1中提供的资料, (1) 试求组间离差阵B;

(2) 试用Fisher 准则对样品x0 =(2,8) ′进行判别归类. 解 (1) 由简例1提供的数据,可得

组间离差阵B为B?n1(X(1)?X)(X(1)?X)??n2(X(2)?X)(X(2)?X)?1利用X与X(1)和X(2)的关系:X?(n1X(1)?n2X(2))n1?n2可得组间离阵B为B?n1[X(1)?1(n1X(1)?n2X(2))][...]??n1?n21(n1X(1)?n2X(2))][...]?n1?n2n2[X(2)?(2)样本合并组内离差阵A为?2?2??2?2??4A?A1?A2????28??????28??????4?????1?164?1?4?1?A??????48?44?12??1?4??,?16?1??,?1?

组间离差阵B为B?n1(X(1)?X)(X(1)?X)??n2(X(2)?X)(X(2)?X)?12?1?3????,??7??39?因A?1B?A?1A?1B?1?1?3????.?267???n1n2(X(1)?X(2))(X(1)?X(2))?与n1?n2n1n2nn(X(1)?X(2))?A?1(X(1)?X(2))?12d2n1?n2n1?n2?41???1?112?????1,3?1????1,????712?11??3?7?1?有相同的特征根??1?2???3??????1(d2?7).12取a?1?1A(X(1)?X(2)),显然有a?Aa?1,且da满足:Ba??Aa.即方向a为所求.1?1(1)121?41???1?(2)????a?A(X?X)????d712?11??3????1???0.1091?1?????????7?12?2??0.2182??典型线性函数为u(X)=-0.1091X1+0.2182X2

(参看例5.3.1)

因两总体协差阵相同,计算阈值为

u?11a?(X(1)?X(2))?(u(1)?u(2))?1.47285.22判别准则为(注意:u(1)?1.8547?u(2)?1.0910)判X∈G1,当u(X) >1.4728;判X∈G2,当u(X) ≤1.47285 对x0 =(2,8) ′,经计算可得u(x0 )=-0.1091×2+ 0.2182× 8=1.527.因u(x0 )>1.47285,故判x0属G1类.

CANDISC(典型判别)过程

对给定的把样品分为k个类(k≥2)的一个分类变量和包含有m个定量变量(或称判别变量)的观测,CANDISC过程可得出区分k个类的分类变量与这m个判别变量最大可能多重相关的变量的线性组合---典型变量.

最大的多重相关叫做第一典型相关;线性组合的系数称为典型系数;线性组合定义的变量称为第一典型变量.第二典型相关由与第一典型变量无关的线性组合得到,该组合应与区分k个组有最大可能多重相关.

依次得到的典型变量的个数不会超过原始变量的个数m或类的个数k减一(r0≤min(m,k-1)).

例5.3.2 试对表5.2中胃癌检验的生化指标值用Fisher判别的方法进行判别归类.

解 设表5.2的数据已生成SAS数据D522.下面先调用CANDISC过程求出两个(因k=3,m=4,典型变量最多2个)典型变量,然后再使用DISCRIM过程对15个观测进行判别归类. proc candisc data=d522 out=can532 ncan=2 distance simple; class group; var x1-x4; run;

symbol1 cv=reg v=square h=2; symbol2 cv=blue v=star h=2;

symbol3 cv=green v=dot h=2; proc gplot data=can532; plot can2*can1=group; run;

proc print data=can532;

proc discrim data=can532 distance list; class group; var can1 can2; run;

CANDISC过程的输出结果:

CANDISC过程的部分输出结果见以下输出5.3.1~5.3.3 输出5.3.1 典型相关及A-1B的特征值等信息

输出5.3.2 检验第i个及以后的典型相关为0的结果

输出5.3.1 配对平方距离及组间差异的检验

p23=0.3231>0.05说明第2类和第3类没有显著性差异.

Y1??2.4188?2.1989Can1?0.0493Can2Y2??0.5740?0.9359Can1?0.5216Can2Y3??0.9090?1.2630Can1?0.4723Can2

本文来源:https://www.bwwdw.com/article/j0pa.html

Top