模式识别作业三 - kl变换

更新时间:2024-01-03 18:53:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

模式识别作业报告

组员:

2011302265 孔素瑶2011302268 马征 2011302273 周昳慧

一、实验要求

用FAMALE.TXT和MALE.TXT的数据作为本次实验使用的样本集,利用K-L变换对该样本集进行变换,与过去用Fisher线性判别方法或其它方法得到的分类面进行比较,从而加深对所学内容的理解和感性认识。

二、具体做法

1. 不考虑类别信息对整个样本集进行K-L变换(即PCA),并将计算出的新特征方向表示在

二维平面上,考察投影到特征值最大的方向后男女样本的分布情况并用该主成分进行分类。 2. 利用类平均向量提取判别信息,选取最好的投影方向,考察投影后样本的分布情况并用

该投影方向进行分类。 3. 将上述投影和分类情况与以前做的各种分类情况比较,考察各自的特点和相互关系。

三、实验原理

设n维随机向量x?(x1,x2,?xn),其均值向量u?E[x],相关矩阵Rx?E[xx],

TT协方差矩阵Cx?E[(x?u)(x?u)],x经正交变换后产生向量y?(y1,y2,?yn)。

TT设有标准正交变换矩阵T(T?(t1,t2,?tn)),(即TTT?I)

y?Tx?(t1,t2,?tn)x?(y1,y2,?yn),yi?tix (i?1,2?,n)

TTT?x?Ty?Ty??yiti (称为 x 的K-L展开式)

?1Ti?1m?????yt取前m项为x的估计值x?ii 1?m?n其均方误差为

i?1n?T??(m)?E[(x?x)(x?x)]?n'n'i?m?1?E[yi]?2ni?m?1?E[yiyi]

'n?(m)?i?m?1?E[yy]??tE(xx)tiii?m?1'i?i?m?1?tn'iRxti

在TT?I的约束条件下,要使均方误差

?'?n'?(m)?E[(x?x)(x?x)]?

i?m?1?tiRxti?min

第 1 页

'

为此设定准则函数J?i?m?1?tiRxti??nTi?m?1??i(titi?1)

nT???I)t?0 i?m?1由 ??0可得(Rx,...,n ii?J?ti??t??t i?m?1即Rx,...,n iii??的特征值,而t是相应的特征向量。利用上式有: 表明: ?i是Rxi??(m)?i?m?1?tnTiRxti?i?m?1?tnTi?iti?i?m?1??

in用“截断”方式产生x的估计时,使均方误差最小的正交变换矩阵是其相关矩阵Rx的前m个特征值对应的特征向量构成的。

四、实验内容

实验中,训练样本集的身高和体重数据构成二维特征向量。利用K-L变换,找出合适的投影方向,将原坐标系中的二维向量变为新坐标系中的一维向量,根据变换后的数据进行分类及为实验目的。

(1).不考虑性别信息的特征提取

根据训练样本集数据,计算样本均值u?E(x)和协方差矩阵Cx?E[(x?u)(x?u)],式中,

Tx?(x1,x2)T是二维特征列向量。

令产生矩阵??Cx?E[(x?u)(x?u)]计算?的特征值,则最大特征值对应的特征向量即为要求的新坐标系。将原来的二维坐标系中的数据投影到一维坐标系之后,给定适当的阈值即可实现对样本数据得分类。 (2).利用类均值向量的特征提取

根据训练样本集数据,分别计算两个样本的均值ui和协方差矩阵?i。在给定先验概率P(?i)的情况下可以计算出类内离散度矩阵Sw?2T?P(?)?ii?12i以及类间离散度矩阵

Sb??P(?i)(xi?x)(xi?x)T,其中xi和x分别代表各类均值与总体均值。Sw是K-L坐标

i?1系的产生矩阵,变换后表征分类性能的函数

第 2 页

J(xj)?ujSbujujSwujTT

可见J(xj)是类间离散度与类内离散度在uj这坐标的分量之比,J(xj)越大,表明在新坐标系中该坐标轴包含较多可分性信息。为了降低特征空间的维数,可以将各分量按J(xj)大小重新排列,使:

J(x1)?J(x2)???J(xD)

并且与前面d个最大的J(xj)值相对应的特征向量uj,j=1,??,d作为特征空间的基向量。

五、程序框图

1.不考虑性别信息

读入训练样本矩阵 计算样本均值u和协方差矩阵Cx 计算产生矩阵?的特征值 得到最大特征值对应的特征向量并建立K-L坐标系 用测试样本进行测试分类 第 3 页

2.利用类均值向量的特征提取

读入训练样本矩阵

六、实验结果

计算样本均值ui和协方差矩阵?i 根据给定的先验概率P?i,求类内离散度Sw和类间离散度Sb 计算产生矩阵Sw的特征值,代入性能函数J(Xj) 得到最大J(Xj)对应的特征向量并建立K-L坐标系 用测试样本进行测试分类 第 4 页

(1).不考虑性别信息的特征提取

实验中不考虑类别信息,用FAMALE.TXT和MALE.TXT的数据作为本次实验使用的样本集,建立基于K-L变换的分类器,记录错误率,并与Fisher线性分类器的分类结果作比较。 表1

K-LFisher男误判为女女误判为男10484

不考虑性别信息的特征提取中,Fisher线性分类器略胜一筹

(2).利用类均值向量的特征提取

实验中考虑类别信息,设定男女先验概率分别为0.75和0.25,建立基于K-L变换的分类器,记录分类错误率并与Fisher线性分类器的分类错误率进行比较。 表2

K-LFisher男误判为女女误判为男10384

利用类均值向量的特征提取中,分类效果会受到先验概率的影响

七、实验心得

有了前两次的实验经验,这次的实验完成起来要熟络得多。我们先对之前学过的知识进行了

系统的回顾,对KL变换有了更深一步的了解,此外,我们在选取先验概率时,考虑到前面Fisher分类器采用的是0.75对0.25,所以为了减少工作量,我们依旧选取0.75对0.25,整个过程相比于前两次显得较为轻松。

第 5 页

(1).不考虑性别信息的特征提取

实验中不考虑类别信息,用FAMALE.TXT和MALE.TXT的数据作为本次实验使用的样本集,建立基于K-L变换的分类器,记录错误率,并与Fisher线性分类器的分类结果作比较。 表1

K-LFisher男误判为女女误判为男10484

不考虑性别信息的特征提取中,Fisher线性分类器略胜一筹

(2).利用类均值向量的特征提取

实验中考虑类别信息,设定男女先验概率分别为0.75和0.25,建立基于K-L变换的分类器,记录分类错误率并与Fisher线性分类器的分类错误率进行比较。 表2

K-LFisher男误判为女女误判为男10384

利用类均值向量的特征提取中,分类效果会受到先验概率的影响

七、实验心得

有了前两次的实验经验,这次的实验完成起来要熟络得多。我们先对之前学过的知识进行了

系统的回顾,对KL变换有了更深一步的了解,此外,我们在选取先验概率时,考虑到前面Fisher分类器采用的是0.75对0.25,所以为了减少工作量,我们依旧选取0.75对0.25,整个过程相比于前两次显得较为轻松。

第 5 页

本文来源:https://www.bwwdw.com/article/nlwx.html

Top