采用Parzen窗法的随机模式分类器研究

更新时间:2023-05-25 19:16:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第23卷第1期

2005年2月河南HENAN科学SCIENCEVd.23Nb.1Feb.2005

文章编号:1004。3918(2005)0l一0097—03

采用Parzen窗法的随机模式分类器研究

杨柳1,任长明1,周铜2,吴艳纬1

(1.天津大学计算机系,天津300072;2.中州大学,河南郑州450005)

摘要:分类器的训练与学习是模式识别的一个重要竦节,其目的在于按照某种算法,确定判决规则,使之具有自

动分类识别的能力。本文介绍了采用Pa翰m窗法的随机模式分类器,并实现了一个简易的随机模式分类器。

关键词:模式识别;特征空间;判决规则;分类器

中图分类号:TP13文献标识码:A

模式为取自世界有限部分的单一样本的被测值的综合。模式识别是试图确定一个样本的类别属性,即把某一样本归属于多个类型中的某一个类型。而分类器就是要实现对未知类别属性的样本的分类判决,它具有自动识别判决的能力,是整个模式识别过程的重要环节和核心系统。

1采用Palrz明窗法的随机模式分类器

由于随机模式的训练样本在特征空间的分布是不确定的,因此,随机模式分类器的首要任务是完全确定样本的类概率密度函数声(xI∞i),沪1,2,…,c。而在实际应用中,类概率密度函数又往往不知道或不完全知道,要完全确定声(xI∞i),卢1,2,…,c,存在两种方法:参数估计法和非参数估计法。非参数估计法比参数估计法实用,应用领域也更广泛一些。其方法有许多种,常用的包括Parzen窗法、Kn一近邻法和正交级数展开逼近法。它们基本原理相同。设依赖于样本X落入区域R里的概率p为

p=I声(x)dx

J(1—1)K

当彼此独立地抽取咒个试验,得到咒个训练样本Xl,x2,…,x。,其中有K个样本落人这个区域里的概率仇服从随机变量的二项分布,由于K是随机抽取的,所以落人区域R里的数目K也是随机的,它的期望值E[K]-咒p。因此,作为概率户的一个估计为

会≈K砌户≈K/咒

如果区域R足够小,以致于概率密度p(x)在R里可以近似地认为恒定不变,可得:

r(1—2)Ll—Z,

户=I户(x)dx≈户(x)V

o(1—3)K

式中,V为区域R所占有的空问体积。利用上两式,可以得到:

刍:刍(x)v≈K/竹

占(x)≈K/(卵V)(1—4)(1—5)

(1—6)多。(x)=K。/(竹U)

小。例如,令如果把包含x点的区域序列{R。}选为训练样本数目”的函数,并且使对应的空间体积U随咒的增大而减U=Vl/行(1—7)v1为挖=1时的区域R1的体积。这种技术方法是以ParZen窗法为基础的。

当我们要估计x点的概率时,可以假定围绕x点的区域R。为一个超立方体,其边长为^。,d为特征空间维数。那么这个超立方体的体积U为U=矗:(1—8)显然,为考查训练样本K是否落入这个超立方体内,就要检查向量x一瓦的每一个分量值,若均小于^。/2,

收稿日期:2004.09—02

基金项目:国家经贸委重点支持项目(20001200Ⅶ41)

作者简介:杨柳(1968一),女,河南襄县人,天津大学计算机系硕士研究生,研究方向:无线网络。任长明(1942一),男,河北张家口人,天津大学计算机系教授,研究方向:实时系统,智能控制,网络技术。万方数据 

一98一河南科学第23卷第l期则该样本在R。内,否则该样本就在R。之外。为计算,z个训练样本落入R。内的数目K。,我们定义窗函数

≯c产,.={三:妻笔l≤172’歹=1,2,…’d

若令

则窗函数变为

显然c-一9,卢=(X—K)肛。小x训川=供善强¨≤k陀庐1’2,…∥K。=∑舡(x一施)朋。]

;。(x)=(1如)∑{(1/U)≯[(x一瓦)肛。]}^t—1”10)●●■一.●■1把此式代入(1—6)式,得到X点的密度估计

,Ll一l2

这种估计密度的方法就称为Parzen窗法。

2利用Pamn窗法对两类线性不可分随机样本进行分类训练试验

2.1对两类一维线性不可分随机样本的分类训练试验

2.1.1设计思想随机生成两类样本,两类样本分布情况近似于正态分布,分布函数形式不可知,且线性不可分,使用Parzen窗非参数估计法分别估计出两类样本的概率分布密度,并找出两类样本的分界点,且保证符合最小错误率判决规则。

2.1.2具体步骤

①在利用visualC++向导生成的窗口中建立坐标轴x。②利用随机函数分别生成两类一维样本,特征向量为x,样本总数咒=20000,两类样本数目相等,分别用竹1,咒2来表示。保证两类样本是线性不可分的,且使两类样本分布情况近似于正态分布,但分布函数具体形式不可知。使第一类样本峰值位于x的负半轴,第二类样本峰值位于x的正半轴。③用Parzen窗法分别求出两类样本的概率分布密度。这里以第一类样本为例。设围绕坐标值为x1(一200≤x1≤200)点的超立方体R行1的边长^721=10,由于样本特征空间是一维的,即d=l,因此,超立方体体积%1=^咒1d=10,超立方体R咒1退化为线段,只要检查每个第一类样本的特征值x与x1之差的绝对值是否小于^行l/2=5,若小于该样本落人此区域R行1内,K,z1=K以1+1,第一类样本总数,z1=10000,落人R咒内的样本个数用K咒1表示,K行1/(咒1*讹1)即为x1点的概率密度。将其放大一万倍后用函数Se岍Xel()在图中表示出来。用同样的方法可得第二种类型样本的概率分布密度,并表示出来,由此在坐标系中可得双峰图形。④由于两类样本是线性不可分的,则分类必有错误率,找出满足最小错误率的分界点,即概率密度相等的点,在图中表现为两概率密度曲线的交点,代码如下:

intstop=0;

for(ints=0;s<=400;s++)

if(st01[s]>st02[s])

stop++;

过该点作一条垂直于x轴的线段,即为两类型样本的分界门限。

运行结果如图1所示。

一200.//\

图1

0n广\≯八/h、、弋一——、\O一2()0万方数据 Fig.1Thedrilling两类一维线性不可分隧机样本分类训练试验classifyillgtwokindsofdin瑚sionlinearunclaSsifiable咖chaSticexperimentationoneSamples

2005年2月采用Parzen窗法的随机模式分类器研究一99—2.2对两类二维线性不可分随机样本的分类训练试验

2.2.1设计思想随机生成两类二维样本,两类样本分布情况不可预测,分布函数不可知且是线性不可分的,使用Parzen窗非参数估计法分别估计出两类样本的概率分布密度,并找出两类样本之间分界曲线,且保证符合最小错误率判决规则。

2.2.2具体步骤

①在利用VisualC++向导生成的窗口中建立二维坐

标系,样本在特征空间用二维向量(X1,X2)来表示。②利1∞

用随机函数分别生成两类二维样本,特征向量为(x1,

X2),样本总数行=200,两类样本数目相等,分别用行1,{}

咒2来表示。保证两类样本是线性不可分的,且分布函数口口口

口.口o\、

具体形式不可知。两类样本在图中分别用方形与圆形表:日罟只≥

示。③用P黻n窗法分别求出两类样本的概率分布密滁』】口、兮、.

口口一嚼口西坩手k

度。以第一类样本为例,设围绕点(xl,X2)(一100≤Xl口口K

口口]

≤100,一100≤X2≤100)的超立方体区域R咒1为一正方口】口

口口

形,边长为^,z1,%=^行12,分别考查样本的两个特征值占口

分量(x1,X2),即if(fabs((X1一r.right/2)一qual[k1]一100

[0]))<=^721/2)&&((fabs((r.bottom/2一X2)一qual图2两类二维线性不可分随机样本分类训练试验[k1][1]))<=砌l/2)),则表示该样本落人R佗1内,K咒1+F瞻.2T}1e幽lliIlgexpednlentation0ncl幽fyingtwokincIsof=l,落人R咒1内的样本个数为K九1,样本数目卵1=100,则twodinlensionsIinearunclassifiabkstochaSticsamples

(X1,x2)点的概率密度声1=K竹1/(,z1*%1)。用同样的方法可得第二种类型样本的概率分布密度户2。④求出两类样本的概率密度后,找出满足最小错误率判决规则的分界曲线。具体做法为比较两类样本在坐标系中每一点(x1,X2)处的概率密度,若都不等于0且相等,则该点为分界曲线上的点,用SetPiXel(X1,X2,RGB(255,0,0))画点,得到一条不平滑的分界曲线,即为满足最小错误率的分界线。运行结果如图2所示。

3总结

由上面研究可见,无论是在一维还是二维甚至是高维的情况下,利用Parzen窗非参数估计法估计样本的概率分布密度,进而对不同样本进行分类,且满足最小错误率判决的基本原理都是相同的。但是,一般情况下,模式样本不可能只有两种类型,而是属于多种类型。然而,几乎所有多类问题都可转化为竹个两类问题,所以,上面两程序的设计方法可以解决所有的分类问题,因此它们是所有复杂非线性分类器的基础。参考文献:

[1]李金宗.模式识别导论[M].北京:高等教育出版社,1994.

[2]边肇祺.模式识别[M].北京:清华大学出版社,1998.

[3]林晓帆,丁晓青,吴佑寿.独立分类器集成理论及其在字符识别中的应用[J].模式识别与人工智能,1998,ll(4):403—411[4]林晓帆,丁晓青,吴佑寿.最近邻分类器置信度估计的理论分析[J].科学通报,1998,43(3):322—325.

[5]JPMarquesdeSa.PattenlRecognitionconcepts,MethodsandApplications[M].北京:清华大学出版社,2002.

Therearchofstoch嬲ticpattemcl嬲sifiersusingParzenwiIldowa190rithm

YANGLiul,RENchang—min91,zHcHJTo哥,wuYan—weil

(1.D印ar乜Tl印t0f陆nputerTi删inUniverSity,Ti删in300072,China;2.Zhon邸houuniversity,Zhengzhou450005,China)

Abstr躯t:ClassifierisakindofmachinewhosegOalistoclaSSifysampleSautomatically,makinguseofsomediScrimimntrules.ThispageintroducestheParzenwindowalgorithm,andrealizeasimplestochaSticPattemclaSsifier.

Keywords:pattem万 方数据recognition;featurespace;discriminantmle;clasSifier

采用Parzen窗法的随机模式分类器研究

作者:

作者单位:

刊名:

英文刊名:

年,卷(期):

被引用次数:杨柳, 任长明, 周铜, 吴艳纬杨柳,任长明,吴艳纬(天津大学计算机系,天津,300072), 周铜(中州大学,河南,郑州,450005)河南科学HENAN SCIENCES2005,23(1)1次

参考文献(5条)

1.J P Marques de sa Pattern Recognition Concepts,Methods and Applications 2002

2.林晓帆;丁晓青;吴佑寿 最近邻分类器置信度估计的理论分析 1998(03)

3.林晓帆;丁晓青;吴佑寿 独立分类器集成理论及其在字符识别中的应用 1998(04)

4.边肇祺 模式识别 1998

5.李金宗 模式识别导论 1994

引证文献(1条)

1.刘震 基于超声的高速公路交通流参数获取研究[学位论文]硕士 2006

本文链接:/Periodical_hnkx200501031.aspx

本文来源:https://www.bwwdw.com/article/6x54.html

Top