判别分析的基本原理

更新时间:2023-09-18 14:02:01 阅读量: 幼儿教育 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

判别分析的基本原理和模型

一、判别分析概述 (一)什么是判别分析

判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。

判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。常用的有,距离准则、Fisher准则、贝叶斯准则等。判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。

(二)判别分析的种类

按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。

二、判别分析方法 (一)距离判别法

1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i类的重心距离最近,就认为它来自第i类。因此,距离判别法又称为最邻近方法(nearest neighbor method)。距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。

2.两组距离判别

两组距离判别的基本原理。设有两组总体GA和GB,相应抽出样品个数为n1,n2,

(n1?n2)?n,每个样品观测p个指标得观测数据如下,

x11?A?x12?A??x1p?A?x21?A?x22?A??x2p?A? 总体GA的样本数据为:

????xn11?A?xn12?A??xn1p?A? 该总体的样本指标平均值为:x1?A?,x2?A??xp?A?

x11?B?x12?B??x1p?B?x21?B?x22?B??x2p?B? 总体GB的样本数据为:

????xn21?B?xn22?B??xn2p?B? 该总体的样本指标平均值为:x1?B?,x2?B??xp?B?

现任取一个新样品X,实测指标数值为X=(x1,x2,?,xp),要求判断X属于哪一类?

首先计算样品X与GA、GB两类的距离,分别记为D?X,GA?、D?X,GB?,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。判别准则写为:

X?GA,如果D?X,GA??D?X,GB?, X?GB,如果D?X,GA??D?X,GB?,

X待判,如果D?X,GA??D?X,GB?。

其中,距离D的定义很多,根据不同情况区别选用。如果样品的各个变量之间互不相关或相关很小时,可选用欧氏距离。采用欧氏距离时,

D?X,GA?=

(x??x?(A))???1p2

D?X,GB?=

(x??x?(B))???1p2

然后比较D?X,GA?和D?X,GB?的大小,按照距离最近准则判别归类。

但实际应用中,考虑到判别分析常涉及到多个变量,且变量之间可能相关,故多用马氏距离。马氏距离公式为:

??1?X?X?A?? d2?X,GA???X?X?A??SA??1?X?X?B?? d2?X,GB???X?X?B??SB其中X?A?、X?B?、SA、SB分别是GA、GB的均值和协方差阵。 这时的判别准则分两种情况给出: (1)当SA=SB=S时

d2?X,GB??d2?X,GA?

=

?X?X????S?X?X?????X?X????S?X?X???

B?1BBA?1AA?1???1=2?X??X?A??X?B???S?X?A??X?B??

2??令X?1?X?A??X?B??,同时记W?X??(d2(X,GB)?d2(X,GA))2 2则W?X??X?XS???X???X???

?1AB所以判别准则写成:

X?GA,如果W?X??0, X?GB,如果W?X??0,

X待判,如果W?X??0。

该规则取决于W?X?的值,因此W?X?被称为判别函数,也可以写成:

W?X????X?X?,其中??S?1?X?A??X?B??。W?X?被称为线性判别函数。

作为特例,当p?1时,两个总体的分布分别是N??,??和N??,??,判别函数为

2212???2?1?W?X???X?1?2??1??2?

2???或

x?x2?1?W?X???X?1?2?x1?x2?(使用样本资料代替总体参数时)

2?s?不妨设?1??2,这时W?X?的符号取决于X??或X??。X??时,判X?GA;

X??时,判X?GB。

两组距离判别法,简单容易理解,判别准则也是合理的,但是有时也会出现错判。如下

图6.1,如果X来自GA,但却落入D2,被错判为GB组,错判的概率为图中阴影的面积,记为P(2/1),类似有P(1/2),显然P(2/1)=P(1/2)=1??(?1??2)。 2?

图6.1

当两总体靠的比较近时,即两总体的均值差异较小的时候,无论用何种判别方法,错判的概率都比较大,这时的判别分析也是没有意义的。因此只有当两总体的均值有显著差异时,进行判别分析才有意义,为此,要对两总体的均值差异性进行检验,对此在下文中叙述。 (2)当SA?SB时

按照距离最近准则,类似地有:

X?GA,如果D?X,GA??D?X,GB?, X?GB,如果D?X,GA??D?X,GB?,

X 待判,如果D?X,GA??D?X,GB?。

仍然用W(X)?d2?X,GB??d2?X,GA?

??1?1?X?X?B????X?X?A???SA??X?X?B??SB?X?X?A??

作为判别函数,此时的判别函数是X的二次函数。 (3)关于两组判别分析的检验

由于判别分析是假设两组样品是取自不同总体,如果两个总体的均值向量在统计上差异不显著,则进行判别分析意义不大。所以,两组判别分析的检验,实际就是要经验两个正态总体的均值向量是否相等,为此,检验的统计量为:

F??n1?n2?2??p?1T2~F?p,n?n?p?1?

12?n1?n2?2?p????n1n2?nn12?S?1?? 其中:T2??n1?n2?2??????X(A)?X(B)X(A)?X(B)?n?n??n?n?22?1??1? S?SA?SB

给定检验水平,查F分布表使?F?F????,可得出F?,再由样本值计算F,若

F?F?,则否定原假设,认为两个总体的均值向量在统计上差异显著,否则两个总体的均

值向量在统计上差异不显著。

3、多个总体的距离判别法

类似两个总体的讨论推广到多个总体。

设有k个总体G1?Gk,相应抽出样品个数为n1?nk(n1???nk)?n,每个样品观测p个指标得观测数据如下,

x11?1?x12?1??x1p?1?x21?1?x22?1??x2p?1?总体G1的样本数据为:

????xn11?1?xn12?1??xn1p?1?该总体的样本指标平均值为: x1?1?,x2?1??xp?1?

?

x11?k?x12?k??x1p?k?x21?k?x22?k??x2p?k?总体Gk的样本数据为:

????xn21?k?xn22?k??xn2p?k?该总体的样本指标平均值为: x1?k?,x2?k??xp?k?

它们的样本均值和协方差阵分别为: X?1??X?k?、S1?Sk。一般的,记总体的样本指标平均值为:X(i)?(x1?i?,x2?i??xp?i?),i?1,2?k。

(1)当S1???Sk?S时 此时d2?X,Gi???X?X?i???Si?1?X?X?i??,i?1,2?k

12[d(X,Gj)?d2(X,Gi)] 2判别函数为Wij?X??

?Xi?Xj??X??2?相应的判别准则为:

?1??X?Xj?,i,j?1,2?k ?S2i? X?Gi, 当Wij?X??0时,对于一切j?i 待判, 若有一个Wij?X??0 (2)当S1?Sk不相等时 此时判别函数为

?1??1????Wji?X???X?X?j??S?X?X?X?Xj?j??i?Si?X?X?i??

相应的判别准则为:

X?Gi, 当Wij?X??0时,对于一切j?i 待判, 若有一个Wij?X??0 (二)费舍判别法

费舍判别法是1936年提出来的,该方法对总体分布未提出什么特定的要求。 1.基本思想

费舍判别法是基于统计上的费舍准则,即判别的结果应该使两组间区别最大,使每组内部离散性最小。在费舍准则意义下,确定线性判别函数:

y?c1x1?c2x2???cpxp

其中c1,c2?cp为待求的判别函数的系数。判别函数的系数的确定原则是使两组间区别最大,使每组内部离散性最小。有了判别函数后,对于一个新的样品,将p个指标的具体数值代入判别式中求出y值,然后与判别临界值进行比较,并判别其应属于哪一组。

2.两组判别分析 (1)方法原理

设有两组总体GA和GB,相应抽出样品个数为n1,n2(n1?n2)?n,每个样品观测p个指标得观测数据如下,

x11?A?x12?A??x1p?A?x21?A?x22?A??x2p?A? 总体GA的样本数据为:

????xn11?A?xn12?A??xn1p?A? 第1个总体的样本指标平均值为:x1?A?,x2?A??xp?A?

x11?B?x12?B??x1p?B?x21?B?x22?B??x2p?B? 总体GB的样本数据为:

????xn21?B?xn22?B??xn2p?B? 第2个总体的样本指标平均值为:x1?B?,x2?B??xp?B?

根据判别函数,用y?A???cx?A?表示Gkkk?1p以A组样品的重心,

2y?B???ckxk?B?表

k?1p示GB组样品的重心。则两组之间的离差用?y?A??y?B??来表示,GA、GB内部的离差程度分别用

??y?A??y?A??in?1pn12和

??y?B??y?B??in?1n22来表示,其中yi?A???ck?1pkxik?A?;

yi?B???ckxik?B?。

k?1根据费舍准则,要使判别的结果满足两组间区别最大,每组内部离散性最小。则判别函数的系数c1,c2?cp应该能够使:

I??y?A??y?B??222????????????yA?yA?yB?yB?i?ii?1i?1n1n2

取得最大值。

(2)判别系数的导出

令 Q??y?A??y?B??

2F???y?A??y?A??+??y?B??y?B??2iin?1n?1n1n22

I?Q F根据数学分析求极值的原理,对上式两边取对数:

LnI?LnQ?LnF

?LnI?LnQ?LnF???0?ck?ck?ck1?Q1?F??0

Q?ckF?ckF?Q?F ?Q?ck?ck1?Q?F ?I?ck?ckk?1,2?p

而 Q??y?A??y?B??2p?p??????cxA?cxB=??kk??kk?

k?1?k?1?22?p??????????cxA?xBk??kk?

?k?1?令 dk?x?A??x?B?

?p?cd有 Q????kk?? ?k?1?p?Q则有 ?2(?cldl)?dk

?ckl?1n1n22而 F???y?A??y?A??+??y?B??y?B??2iin?1n?122

2n2pp?p??p????????????cxA?cxA?cxB?cxB=????kkkk??kik????kik?

i?1?k?1k?1i?1?k?1k?1??n2?p??p????????????c(xA?xA)?c(xB?xB)=??kk??kik????kik?

i?1?k?1i?1?k?1??n122n1p?p??=??????????c(xA?xA)?c(xA?xA)?klill??kik?

i?1?k?1k?1?p?p?+????????????ck(xikB?xkB)??cl(xilB?xlB)?? i?1?k?1k?1?n2n1=

??cc[??x?A??x?A???x?A??x?A??

klikkillk?1l?1n2i?1ppn1+

??x?B??x?B???x?B??x?B??]

ikkilli?1n2killikkill令 Skl=

??x?A??x?A???x?A??x?A??+??x?B??x?B???x?B??x?B??

iki?1i?1n1有 F???ccSklk?1l?1ppkl

p?F则有 ?2?cl?Skl

?ckl?1p2p于是有 (?cldl)?dk?2?cl?Skl

Il?1l?1?1?p令 ???c?d?ll?? I??l?1??cl?1pl?Skl???dk?k?1,2?p?

?是一个常数因子,不依赖k,它对方程组的解只起到共同扩大?倍的作用,不影响

它的解c1,c2,?,cp之间的比例关系,因此也不会影响判别函数,所以,取??1,得方程组:

?cl?1pl?Skl?dk?k?1,2?p?

?S11c1?S12c2???S1pcp?d1?Sc?Sc???Sc?d?2112222pp2即 ?

????Sp1c1?Sp2c2???Sppcp?dp解此方程即得c1,c2,?,cp,进而得判别函数:

y?c1x1?c2x2???cpxp

(3)判别准则

由判别函数,可得两组总体GA和GB各自样品的重心:

y?A???ckxk?A?

k?1ppy?B???ckxk?B?

k?1对它们进行根据样本的容量进行加权得:

yAB?n1y?A??n2y?B?

n1?n2yAB称为两组判别的综合指标。据此可得判别准则为:

①如果y?A??yAB,则对于给定的新样品x1,x2,?xp,若有

??y?c1x1?c2x2???cpxp?yAB

则将该样品判属于GA组,若y?yAB,则判其属于GB组;

②如果y?B??yAB,则对于给定的新样品x1,x2,?xp,若有

??y?c1x1?c2x2???cpxp?yAB

则将该样品判属于GB组,若y?yAB,则判其属于GA组。

(4)两组判别分析的检验

由于判别分析是假设两组样品是取自不同总体,如果两个总体的均值向量在统计上差异不显著,则进行判别分析意义不大。所以,两组判别分析的检验,实际就是要检验两个正态总体的均值向量是否相等,为此,检验的统计量为:

F??n1?n2?2??p?1T2~F?p,n?n?p?1?

12?n1?n2?2?p????n1n2?nn12?S?1?? 其中:T2??n1?n2?2??????X(A)?X(B)X(A)?X(B)?n?n??n?n?22?1??1? S?SA?SB,

给定检验水平,查F分布表使?F?F????,可得出F?,再由样本值计算F,若

F?F?,则否定原假设,认为两个总体的均值向量在统计上差异显著,判别函数有效,可

用;否则两个总体的均值向量在统计上差异不显著,判别函数无效不可用。

本文来源:https://www.bwwdw.com/article/8wah.html

Top