采用Parzen窗法的随机模式分类器研究

更新时间：2023-05-25 19:16:01 阅读量：实用文档文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

parzen窗函数法推荐度：
相关推荐

第２３卷第１期

２００５年２月河南ＨＥＮＡＮ科学ＳＣＩＥＮＣＥＶｄ．２３Ｎｂ．１Ｆｅｂ．２００５

文章编号：１００４。３９１８（２００５）０ｌ一００９７—０３

采用Ｐａｒｚｅｎ窗法的随机模式分类器研究

杨柳１，任长明１，周铜２，吴艳纬１

（１．天津大学计算机系，天津３０００７２；２．中州大学，河南郑州４５０００５）

摘要：分类器的训练与学习是模式识别的一个重要竦节，其目的在于按照某种算法，确定判决规则，使之具有自

动分类识别的能力。本文介绍了采用Ｐａ翰ｍ窗法的随机模式分类器，并实现了一个简易的随机模式分类器。

关键词：模式识别；特征空间；判决规则；分类器

中图分类号：ＴＰ１３文献标识码：Ａ

模式为取自世界有限部分的单一样本的被测值的综合。模式识别是试图确定一个样本的类别属性，即把某一样本归属于多个类型中的某一个类型。而分类器就是要实现对未知类别属性的样本的分类判决，它具有自动识别判决的能力，是整个模式识别过程的重要环节和核心系统。

１采用Ｐａｌｒｚ明窗法的随机模式分类器

由于随机模式的训练样本在特征空间的分布是不确定的，因此，随机模式分类器的首要任务是完全确定样本的类概率密度函数声（ｘＩ∞ｉ），沪１，２，…，ｃ。而在实际应用中，类概率密度函数又往往不知道或不完全知道，要完全确定声（ｘＩ∞ｉ），卢１，２，…，ｃ，存在两种方法：参数估计法和非参数估计法。非参数估计法比参数估计法实用，应用领域也更广泛一些。其方法有许多种，常用的包括Ｐａｒｚｅｎ窗法、Ｋｎ一近邻法和正交级数展开逼近法。它们基本原理相同。设依赖于样本Ｘ落入区域Ｒ里的概率ｐ为

ｒ

ｐ＝Ｉ声（ｘ）ｄｘ

Ｊ（１—１）Ｋ

当彼此独立地抽取咒个试验，得到咒个训练样本Ｘｌ，ｘ２，…，ｘ。，其中有Ｋ个样本落人这个区域里的概率仇服从随机变量的二项分布，由于Ｋ是随机抽取的，所以落人区域Ｒ里的数目Ｋ也是随机的，它的期望值Ｅ［Ｋ］－咒ｐ。因此，作为概率户的一个估计为

会≈Ｋ砌户≈Ｋ／咒

如果区域Ｒ足够小，以致于概率密度ｐ（ｘ）在Ｒ里可以近似地认为恒定不变，可得：

ｒ（１—２）Ｌｌ—Ｚ，

户＝Ｉ户（ｘ）ｄｘ≈户（ｘ）Ｖ

ｏ（１—３）Ｋ

式中，Ｖ为区域Ｒ所占有的空问体积。利用上两式，可以得到：

刍：刍（ｘ）ｖ≈Ｋ／竹

占（ｘ）≈Ｋ／（卵Ｖ）（１—４）（１—５）

（１—６）多。（ｘ）＝Ｋ。／（竹Ｕ）

小。例如，令如果把包含ｘ点的区域序列｛Ｒ。｝选为训练样本数目”的函数，并且使对应的空间体积Ｕ随咒的增大而减Ｕ＝Ｖｌ／行（１—７）ｖ１为挖＝１时的区域Ｒ１的体积。这种技术方法是以ＰａｒＺｅｎ窗法为基础的。

当我们要估计ｘ点的概率时，可以假定围绕ｘ点的区域Ｒ。为一个超立方体，其边长为＾。，ｄ为特征空间维数。那么这个超立方体的体积Ｕ为Ｕ＝矗：（１—８）显然，为考查训练样本Ｋ是否落入这个超立方体内，就要检查向量ｘ一瓦的每一个分量值，若均小于＾。／２，

收稿日期：２００４．０９—０２

基金项目：国家经贸委重点支持项目（２０００１２００Ⅶ４１）

作者简介：杨柳（１９６８一），女，河南襄县人，天津大学计算机系硕士研究生，研究方向：无线网络。任长明（１９４２一），男，河北张家口人，天津大学计算机系教授，研究方向：实时系统，智能控制，网络技术。万方数据　

一９８一河南科学第２３卷第ｌ期则该样本在Ｒ。内，否则该样本就在Ｒ。之外。为计算，ｚ个训练样本落入Ｒ。内的数目Ｋ。，我们定义窗函数

≯ｃ产，．＝｛三：妻笔ｌ≤１７２’歹＝１，２，…’ｄ

若令

则窗函数变为

显然ｃ－一９，卢＝（Ｘ—Ｋ）肛。小ｘ训川＝供善强¨≤ｋ陀庐１’２，…∥Ｋ。＝∑舡（ｘ一施）朋。］

；。（ｘ）＝（１如）∑｛（１／Ｕ）≯［（ｘ一瓦）肛。］｝＾ｔ—１”１０）●●■一．●■１把此式代入（１—６）式，得到Ｘ点的密度估计

，Ｌｌ一ｌ２

这种估计密度的方法就称为Ｐａｒｚｅｎ窗法。

２利用Ｐａｍｎ窗法对两类线性不可分随机样本进行分类训练试验

２．１对两类一维线性不可分随机样本的分类训练试验

２．１．１设计思想随机生成两类样本，两类样本分布情况近似于正态分布，分布函数形式不可知，且线性不可分，使用Ｐａｒｚｅｎ窗非参数估计法分别估计出两类样本的概率分布密度，并找出两类样本的分界点，且保证符合最小错误率判决规则。

２．１．２具体步骤

①在利用ｖｉｓｕａｌＣ＋＋向导生成的窗口中建立坐标轴ｘ。②利用随机函数分别生成两类一维样本，特征向量为ｘ，样本总数咒＝２００００，两类样本数目相等，分别用竹１，咒２来表示。保证两类样本是线性不可分的，且使两类样本分布情况近似于正态分布，但分布函数具体形式不可知。使第一类样本峰值位于ｘ的负半轴，第二类样本峰值位于ｘ的正半轴。③用Ｐａｒｚｅｎ窗法分别求出两类样本的概率分布密度。这里以第一类样本为例。设围绕坐标值为ｘ１（一２００≤ｘ１≤２００）点的超立方体Ｒ行１的边长＾７２１＝１０，由于样本特征空间是一维的，即ｄ＝ｌ，因此，超立方体体积％１＝＾咒１ｄ＝１０，超立方体Ｒ咒１退化为线段，只要检查每个第一类样本的特征值ｘ与ｘ１之差的绝对值是否小于＾行ｌ／２＝５，若小于该样本落人此区域Ｒ行１内，Ｋ，ｚ１＝Ｋ以１＋１，第一类样本总数，ｚ１＝１００００，落人Ｒ咒内的样本个数用Ｋ咒１表示，Ｋ行１／（咒１＊讹１）即为ｘ１点的概率密度。将其放大一万倍后用函数Ｓｅ岍Ｘｅｌ（）在图中表示出来。用同样的方法可得第二种类型样本的概率分布密度，并表示出来，由此在坐标系中可得双峰图形。④由于两类样本是线性不可分的，则分类必有错误率，找出满足最小错误率的分界点，即概率密度相等的点，在图中表现为两概率密度曲线的交点，代码如下：

ｉｎｔｓｔｏｐ＝０；

ｆｏｒ（ｉｎｔｓ＝０；ｓ＜＝４００；ｓ＋＋）

｛

ｉｆ（ｓｔ０１［ｓ］＞ｓｔ０２［ｓ］）

ｓｔｏｐ＋＋；

｝

过该点作一条垂直于ｘ轴的线段，即为两类型样本的分界门限。

运行结果如图１所示。

一２００．／／＼

图１

０ｎ广＼≯八／ｈ、、弋一——、＼Ｏ一２（）０万方数据　Ｆｉｇ．１Ｔｈｅｄｒｉｌｌｉｎｇ两类一维线性不可分隧机样本分类训练试验ｃｌａｓｓｉｆｙｉｌｌｇｔｗｏｋｉｎｄｓｏｆｄｉｎ瑚ｓｉｏｎｌｉｎｅａｒｕｎｃｌａＳｓｉｆｉａｂｌｅ咖ｃｈａＳｔｉｃｅｘｐｅｒｉｍｅｎｔａｔｉｏｎｏｎｅＳａｍｐｌｅｓ

２００５年２月采用Ｐａｒｚｅｎ窗法的随机模式分类器研究一９９—２．２对两类二维线性不可分随机样本的分类训练试验

２．２．１设计思想随机生成两类二维样本，两类样本分布情况不可预测，分布函数不可知且是线性不可分的，使用Ｐａｒｚｅｎ窗非参数估计法分别估计出两类样本的概率分布密度，并找出两类样本之间分界曲线，且保证符合最小错误率判决规则。

２．２．２具体步骤

①在利用ＶｉｓｕａｌＣ＋＋向导生成的窗口中建立二维坐

标系，样本在特征空间用二维向量（Ｘ１，Ｘ２）来表示。②利１∞

用随机函数分别生成两类二维样本，特征向量为（ｘ１，

Ｘ２），样本总数行＝２００，两类样本数目相等，分别用行１，｛｝

咒２来表示。保证两类样本是线性不可分的，且分布函数口口口

口．口ｏ＼、

具体形式不可知。两类样本在图中分别用方形与圆形表：日罟只≥

示。③用Ｐ黻ｎ窗法分别求出两类样本的概率分布密滁』】口、兮、．

口口一嚼口西坩手ｋ

度。以第一类样本为例，设围绕点（ｘｌ，Ｘ２）（一１００≤Ｘｌ口口Ｋ

口口］

≤１００，一１００≤Ｘ２≤１００）的超立方体区域Ｒ咒１为一正方口】口

口口

形，边长为＾，ｚ１，％＝＾行１２，分别考查样本的两个特征值占口

分量（ｘ１，Ｘ２），即ｉｆ（ｆａｂｓ（（Ｘ１一ｒ．ｒｉｇｈｔ／２）一ｑｕａｌ［ｋ１］一１００

［０］））＜＝＾７２１／２）＆＆（（ｆａｂｓ（（ｒ．ｂｏｔｔｏｍ／２一Ｘ２）一ｑｕａｌ图２两类二维线性不可分随机样本分类训练试验［ｋ１］［１］））＜＝砌ｌ／２）），则表示该样本落人Ｒ佗１内，Ｋ咒１＋Ｆ瞻．２Ｔ｝１ｅ幽ｌｌｉＩｌｇｅｘｐｅｄｎｌｅｎｔａｔｉｏｎ０ｎｃｌ幽ｆｙｉｎｇｔｗｏｋｉｎｃＩｓｏｆ＝ｌ，落人Ｒ咒１内的样本个数为Ｋ九１，样本数目卵１＝１００，则ｔｗｏｄｉｎｌｅｎｓｉｏｎｓＩｉｎｅａｒｕｎｃｌａｓｓｉｆｉａｂｋｓｔｏｃｈａＳｔｉｃｓａｍｐｌｅｓ

（Ｘ１，ｘ２）点的概率密度声１＝Ｋ竹１／（，ｚ１＊％１）。用同样的方法可得第二种类型样本的概率分布密度户２。④求出两类样本的概率密度后，找出满足最小错误率判决规则的分界曲线。具体做法为比较两类样本在坐标系中每一点（ｘ１，Ｘ２）处的概率密度，若都不等于０且相等，则该点为分界曲线上的点，用ＳｅｔＰｉＸｅｌ（Ｘ１，Ｘ２，ＲＧＢ（２５５，０，０））画点，得到一条不平滑的分界曲线，即为满足最小错误率的分界线。运行结果如图２所示。

３总结

由上面研究可见，无论是在一维还是二维甚至是高维的情况下，利用Ｐａｒｚｅｎ窗非参数估计法估计样本的概率分布密度，进而对不同样本进行分类，且满足最小错误率判决的基本原理都是相同的。但是，一般情况下，模式样本不可能只有两种类型，而是属于多种类型。然而，几乎所有多类问题都可转化为竹个两类问题，所以，上面两程序的设计方法可以解决所有的分类问题，因此它们是所有复杂非线性分类器的基础。参考文献：

［１］李金宗．模式识别导论［Ｍ］．北京：高等教育出版社，１９９４．

［２］边肇祺．模式识别［Ｍ］．北京：清华大学出版社，１９９８．

［３］林晓帆，丁晓青，吴佑寿．独立分类器集成理论及其在字符识别中的应用［Ｊ］．模式识别与人工智能，１９９８，ｌｌ（４）：４０３—４１１［４］林晓帆，丁晓青，吴佑寿．最近邻分类器置信度估计的理论分析［Ｊ］．科学通报，１９９８，４３（３）：３２２—３２５．

［５］ＪＰＭａｒｑｕｅｓｄｅＳａ．ＰａｔｔｅｎｌＲｅｃｏｇｎｉｔｉｏｎｃｏｎｃｅｐｔｓ，ＭｅｔｈｏｄｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ［Ｍ］．北京：清华大学出版社，２００２．

Ｔｈｅｒｅａｒｃｈｏｆｓｔｏｃｈ嬲ｔｉｃｐａｔｔｅｍｃｌ嬲ｓｉｆｉｅｒｓｕｓｉｎｇＰａｒｚｅｎｗｉＩｌｄｏｗａ１９０ｒｉｔｈｍ

ＹＡＮＧＬｉｕｌ，ＲＥＮｃｈａｎｇ—ｍｉｎ９１，ｚＨｃＨＪＴｏ哥，ｗｕＹａｎ—ｗｅｉｌ

（１．Ｄ印ａｒ乜Ｔｌ印ｔ０ｆ陆ｎｐｕｔｅｒＴｉ删ｉｎＵｎｉｖｅｒＳｉｔｙ，Ｔｉ删ｉｎ３０００７２，Ｃｈｉｎａ；２．Ｚｈｏｎ邸ｈｏｕｕｎｉｖｅｒｓｉｔｙ，Ｚｈｅｎｇｚｈｏｕ４５０００５，Ｃｈｉｎａ）

Ａｂｓｔｒ躯ｔ：ＣｌａｓｓｉｆｉｅｒｉｓａｋｉｎｄｏｆｍａｃｈｉｎｅｗｈｏｓｅｇＯａｌｉｓｔｏｃｌａＳＳｉｆｙｓａｍｐｌｅＳａｕｔｏｍａｔｉｃａｌｌｙ，ｍａｋｉｎｇｕｓｅｏｆｓｏｍｅｄｉＳｃｒｉｍｉｍｎｔｒｕｌｅｓ．ＴｈｉｓｐａｇｅｉｎｔｒｏｄｕｃｅｓｔｈｅＰａｒｚｅｎｗｉｎｄｏｗａｌｇｏｒｉｔｈｍ，ａｎｄｒｅａｌｉｚｅａｓｉｍｐｌｅｓｔｏｃｈａＳｔｉｃＰａｔｔｅｍｃｌａＳｓｉｆｉｅｒ．

Ｋｅｙｗｏｒｄｓ：ｐａｔｔｅｍ万　方数据ｒｅｃｏｇｎｉｔｉｏｎ；ｆｅａｔｕｒｅｓｐａｃｅ；ｄｉｓｃｒｉｍｉｎａｎｔｍｌｅ；ｃｌａｓＳｉｆｉｅｒ

采用Parzen窗法的随机模式分类器研究

作者：

作者单位：

刊名：

英文刊名：

年，卷(期)：

被引用次数：杨柳，任长明，周铜，吴艳纬杨柳,任长明,吴艳纬(天津大学计算机系,天津,300072)，周铜(中州大学,河南,郑州,450005)河南科学HENAN SCIENCES2005,23(1)1次

参考文献(5条)

1.J P Marques de sa Pattern Recognition Concepts,Methods and Applications 2002

2.林晓帆;丁晓青;吴佑寿最近邻分类器置信度估计的理论分析 1998(03)

3.林晓帆;丁晓青;吴佑寿独立分类器集成理论及其在字符识别中的应用 1998(04)