基于粗糙集神经网络在模式识别中的应用
更新时间:2023-12-22 05:35:01 阅读量: 教育文库 文档下载
基于粗糙集的神经网络在模式识别中的应
用
摘要:为解决神经网络在模式识别中存在的噪声问题,基于粗糙集的上、下近似和边界线集理论提出了一种对噪声样本进行处理的方法。该方法主要包括对处于下近似集内的含噪声属性值,将噪声消除后转换为理想状态下的属性值;对处于边界域内的含噪声属性值保持不变。当属性值处于边界域内属性的个数与全部属性数的比值达到某个确定的值时,就认为该样本受到噪声干扰过大,对其拒绝识别。通过实验对比表明,该方法能有效地降低BP网络模式识别的误识率。
关键词:粗糙集 神经网络 模式识别 中图分类号:TP18 文献标识码:A
Study on BP Network for Pattern Recognition Based on RS
Theory
Fan li meng
( School of Information Engineering, Hebei University of Technology, Tianjin 300401, China )
Abstract: In order to solve the noise problem of BP network for pattern recognition,proposes a method to process the noisy samples based on the upper approximations, the lower
approximations and the boundary region theories of rough sets. The method eliminates the noise of attribute values and changes them into ideal values when they are in the lower approximations; and those attribute values with noise will remain unchanged while they are in the boundary region. The sample will be refused to recognize if the percent of its attributes with their values in the boundary region is over a certain point. The results of experiment show that the method can effectively reduce the false recognition rate of BP network for pattern recognition. Keywords: rough sets,BP network,pattern recognition
1 前言
神经网络在模式识别中的应用十分广泛,由于网络训练样本中存在大量的冗余信息,常导致神经网络结构复杂、训练速度较慢、识别率不高等问题。
粗糙集理论是一种处理含糊和不精确性问题的新型数学工具。自1982年波兰科学家Z.Pawlak 提出该理论以来,发展十分迅速。粗糙集理论具有强大的定性分析能力,不需要预先给定某些特征或属性的数量描述,能有效地分析和处理不精确、不完整、不一致数据,可以发现数据间隐藏的关系,提取有用的信息,简化信息处理。粗糙集的主要特点之一便是在分类能力保持不变的前提下,通过对知识的约简,导出概念的分类规则。近年来粗糙集理论在模式识别、机器学习、故障诊断、知识获取与发现、决策分析与支持等领域取得了较为成功的应用。
本文根据粗糙集的优点,在神经网络中引入粗糙集方法可有效地改善神经网络对有噪声、有冗余或不确定值数据输入模式的处理能力。粗糙集对神经网络和识别技术具有明显的方法学意义,特别是在模糊或不精确知识的表达、机器学习、决策分析、知识发现、模式识别等领域。在神经网络训练前,引用粗糙集理论对神经网络的训练样本进行属性约简,提取训练样本的重要特征,使得训练样本的输入向量维数减少,进而简化神经网络的结构,提高
网络训练速度和识别率。
2 方法原理
(1)粗糙集基本理论
①知识表达系统
为了处理智能数据,需要知识的符号表达,而知识表达系统(KRS)的基本成分是研究对象的集合,因此可以表达为:
K?(U,Q,V,f) (1)
这里,U是论域,即为对象的集合;Q是属性集合,分为条件属性集C和决策属性集D,
Q?C?D,C?D??;V??a?QVa是属性值的集合,Va表示了属性a?Q的范围;f
是U?Q?V的映射。
知识表达系统K有时可以简写为:K?(U,Q),它常用表格表达或决策表来实现。 ②不可辨识关系
对于x,y?U,P?Q,如果满足?q?P:fq(x)?fq(y),则称对象x、y对于属性集合P是不可辨识的。否则,称x、y是可辨识的。由P决定的不可辨识关系记为ind(P)即P中所有等价关系的交集。
③上近似、下近似及近似精度
设P?Q,Y?U,[x]p?{y?U|xind(P)y}表示包含元素x?U的P等价类,定义集合Y的下近似PY和上近似PY分别为:
PY?posp?Y???x?U|?x?p?Y? (2) PY??x?U|?x?p?Y??? (3)
此外定义
bnp(Y)?PY?PY为Y的边界或边界区域。显然,若bnp?Y???或
PY?PY,则集合Y就是一个粗糙集概念。posp?Y??PY称为集合Y 的P -正区域
(P-positive region),
negp?Y??U?PY称为集合Y 的P -反区域(P ? negative
region)。
④知识的依赖性
设K = (U, R)是一个知识库,P,Q ? R。当且仅当ind(P) ? ind(Q),则称Q依赖于P或P可推导出Q ,记做P ?Q 。当且仅当P ?Q 且Q? P ,即ind(P) = ind(Q) ,则称P 和Q 是等价的,记作P = Q。当且仅当P?Q且Q? P均不成立,则称P和Q是独立的,记P ≠ Q。 依赖性也可以是部分成立的,部分依赖性(部分可推导性)可以由知识的正区域来定义,即
k??p?Q??card?posp?Q??/card?U? (4)
我们称知识Q以依赖度k(0 ≤ k ≤ 1)依赖于知识P ,记作P?kQ 。当k = 1,则称知识Q完全依赖于知识P,即P?1Q也记做P?Q;当0 < k < 1,则称知识Q部分依赖于知识P;当k = 0,则称知识Q完全独立于知识P。 ⑤属性的重要性
按照式(4),条件属性C和决策D间的依赖度可以写成
?C?D??card?posC?D??/card?U?。根据依赖度的变化,可以定义属性子集C'? C 关于D
的重要性为:
?CD?C????C?D???C?C??D? (5)
特别当C'= {a}时,属性a∈C关于D的重要性为:
?CD?a???C?D???C??a??D? (6)
一般来说,属性重要性即指属性在信息表中的重要程度,其数值大,则重要性高;反之,其重要性低。在相对属性约简中,属性重要性主要用来作为启发式信息。目前,关于属性重要性的定义有多种,比如有根据信息熵和根据差别矩阵出现的频度等形式的定义,不同定义下的属性重要性计算结果可能有所变化。
⑵BP神经网络
BP 网络是一种多层前馈型神经网络,采用BP 算法进行训练神经元的参数值。一般由输入层、隐层、输出层组成,隐层可以为一层或多层(如图1 所示),其神经元的传递函数是S型函数,权值和阈值采用反向传播算法进行调节。有理论证明,它可以实现从输入到输出的任意非线性映射。目前,在人工神经网络的实际应用中,绝大多数的神经网络的模型都采用BP 网络及其变化形式。它也是前向网络的核心部分,体现了人工神经网络的精华。
图1 多层前向BP网络
当神经网络用于模式识别时,输入层神经元的个数由构成实体的属性个数决定,隐层根据相关定理只要一层就可以了,隐层神经元的个数需要根据经验值进行确定,输出层神经元的个数根据表示目标值的向量维数进行确定。
BP 学习算法简要介绍如下:
Step1置各权值或阈值的初始值wji?0?,?j?0?为小的随机数值;
Step2提供训练样本:输入矢量xk,期望输出,k=1,2,?,P,对每个样本进行下面Step3~Step5的迭代;
Step3计算网络的实际输出及隐层单元的状态
?kj?fj??wji?ki??j??i??? (7)
?kj??kj?1??kj??tkj??kj?;Step4计算训练误差输出层:隐含层:
Step5修正权值和阈值
?kj??kj?1??kj???kmwmjm
wji?t?1??wji?t????j?ki???wji?t??wji?t?1?? (8)
?j?t?1???j?t????j????j?t???j?t?1?? (9)
Step6当k每经历1至P后,判断指标是否满足精度要求:E??;?为精度; Step7结束。
⑶ 基于粗糙集理论的神经网络
近些年来,人们对于神经网络的研究主要局限于学习算法、网络拓扑结构、网络初始参
数等的研究等,甚少涉及对训练样本进行研究。由于网络训练样本中存在大量冗余信息,常导致神经网络输入向量复杂,训练速度较慢,识别率不高。本文试图结合粗糙集和神经网络的优点,在神经网络训练前,引用粗糙集理论对神经网络的训练样本进行属性约简,提取训练样本的重要特征,使得训练样本的输入向量维数减少,进而简化神经网络的结构,提高网络训练速度和识别率,粗糙集与神经网络集成使用的模型如图2 所示。
图2 基于粗糙集与神经网络集成的模式设别
通过对国内外相关文献进行检索发现,粗糙集在神经网络中应用得最成熟的方面就是对输入的预处理,也就是对训练样本的选取。一般情况下,训练集往往会有很多冗余,神经网络用这样的训练集训练往往会造成过拟合现象,粗糙集分析可以过滤这些冗余的例子,从而提高神经网络的泛化能力。Lingras 就构造了一种粗糙神经元,可以将粗糙集应用于神经元的设计中。粗糙集的数据分析方法对原始训练样本进行约简操作,在保持原有分类能力不变的情况下保留有用属性,删除冗余属性,从而降低原始数据样本的维数。它一方面提高了数据的代表性,减少了噪声的干扰,使训练出来的神经网络不容易出现过拟合现象;另一方面减少了训练数据的维数,使训练时间得以减少,提高了效率。
是否选用粗糙集对神经网络的训练样本进行数据约简,应该有一定的评价标准。以下4 条标准是较为认可的:①使用和不使用粗糙集进行数据预处理,分类质量的变化;②使用粗糙集进行数据预处理后,以神经元数和连接数度量的网络大小的变化;③为完成期望效果的学习,以必需的学习时间(学习步数) 度量的学习效率的变化;④网络的灵活性(即泛化能力、识别未知对象的能力)。
粗糙集与神经网络结合,在这方面应用的一般步骤如下:①由原数据集构造决策表,使
用粗糙集数据分析方法寻找其最小约简(属性约简即可,不必属性值约简)和核;②根据最小约简删除决策表中的冗余属性;③根据约简后的数据集构建神经网络;④采用BP 学习算法训练神经元,直至收敛达到精度要求;⑤利用训练好的神经网络进行识别。
3应用实例
为了检验基于粗糙集理论去噪预处理的BP网络识别模型识别含噪声样本的能力,将该模型用于含噪声英文字母的识别。每个字母样本为一个5 ×7的布尔网格,可表示为一个35维的向量。理想的字母样本向量中的每个元素取值只能是0或1;对理想的字母样本加入均值为0,标准差为0. 0 ~ 0. 4的随机噪声构成含噪声的字母样本(实际应用该模型时只要噪声大小不超过上述范围,识别效果与添加随机噪声的效果相同) 。理想的字母样本和含噪声的字母样本如图3所示(以A字母为例) 。
图3 字母样本示例
根据基于粗糙集理论的去噪方法,可以运用下式对噪声样本进行去噪(式中所选择的参数值是经过多次实验得到的一个较优的值) :
0,yij?0.38yij?1,yij?0.62 yij,其他 (10)
(1)并选择S??7,即噪声因子阈值??0.2, BP网络采用3层结构,隐层神经元设置为10个, 测试该模型识别带噪声字母的能力。测试结果如图3所示。
图4 字母识别测试结果
图4中,曲线1为使用带噪声的信号对BP网络进行训练后的误识率; 曲线2为采用文献[9]中使用公式
yij? 0,yij?0.51,yij?0.5 (11)
⑵去噪的误识率;曲线3,4分别为采用粗糙集理论即式(10) 去噪后的模式识别的错误率和拒识率。从图中可以看出,使用带噪声的信号对BP网络进行训练,网络在样本噪声方差为0. 1的时候就开始出现识别错误,而采用公式(10)或公式(11)对样本去噪预处理后,网络在样本噪声方差为0. 16时误识率依然为0。
因此,当样本噪声较小时采用公式(10) 或公式(11)进行去噪预处理后,BP网络可获得更好的模式识别性能。随着噪声的增大,采用公式(11)去噪的误识率显著增加,当噪声方差达到0. 35时其误识率超过使用带噪声的信号对BP网络进行训练时的误识率,因此文献[9] 中的去噪方法只适合于噪声较小的场合。而采用公式(10)去噪在噪声较大时其误识率依然最低,所以在样本噪声较大的场合,基于粗糙集理论的去噪方法也可以显著地提高BP网络模式识别的性能。
4 结束语和致谢
运用粗糙集的上、下近似和边界域理论对噪声样本进行去噪,可以有效地解决BP网络模式识别中的样本噪声干扰问题,显著降低BP网络的误识率。实际使用该模型进行模型识别的
?ijl和δ的值。关键问题是根据噪声大小、识别样本的维数和实际要求的识别错误率确定?ijl、
应用实例中所选择的这些值是经过多次实验得到的一个较优的值,下一步将对模型中这些参
数的选择问题进行进一步的研究。
衷心的感谢河北工业大学夏克文教授在百忙之中审阅此论文,同时感谢夏克文老师对本工作的指导。
参考文献:
[1]夏克文,智能信息处理
[2]秦海鸥,基于粗糙集解决BP网络模式识别中的噪声。江南大学学报(自然科学版),2010 [3]岳昊,邵春福,赵熠. 基于BP神经网络的行人和自行车交通识别方法[ J ]. 北京交通大学学报, 2008 [4]陈先锋, 舒志兵, 赵英凯. “弹性”BP神经网络在识别带有噪声字母中的应用[ J ]. 计算机仿真, 2005 [5]王智君,粗糙集规则简约的方法在模式识别中的应用,微计算机应用,2009 [6]张丽, 马良,基于粗糙集属性约简的模糊模式识别.上海理工大学学报, 2003 [7]刘清. Rough集及Rough推理[M ]. 北京:科学出版社, 2001
[8]WU Di, HE Yong, SHAO Yongni, et al. BP neural networks combined with PLS app lied to pattern recognition ofVis/N
IRs[ J ].Lecture Notes in Computer Science, 2006, 4224
[9]Q IN Hai2ou, TANG Shixi. A solution to dimensionality curse of BP network in pattern recognition based on RS
theory[ C ] / /Proceedings of the Second International Joint Conference on Computational Sciences and Optimization. Sanya, China: [ s. n. ] ,2009
正在阅读:
基于粗糙集神经网络在模式识别中的应用12-22
放射工作人员培训精彩试题库01-06
贵州经济排名02-14
第五章 - 长期股权投资练习题 - 答案11-09
谈谈实验动物分组03-04
01热力学与统计物理大总结11-29
小学数学二年级混合运算解决问题专项训练09-18
改革薪酬分配体系 完善激励约束机制10-26
1-4 加工余量、工序间尺寸及公差的确定07-29
小学四年级安全教育教案 十课时11-13
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 神经网络
- 粗糙
- 识别
- 基于
- 模式
- 应用
- 《科学家的问题》教案之一
- 各省市试题汇编重排版 2012全国初中数学竞赛 - 图文
- 银达世纪一卡通4.5软件调试使用手册
- 《食物链》教学反思
- 110kV输变电工程环境影响报告表简本 - 图文
- 苯甲醇和苯甲酸的制备资料
- 读书笔记: 论美国民主
- vcom综合布线实训指导
- 澳洲塔斯马尼亚大学的衣食住行
- 2016年粉笔联考模考第二季试题
- 交通标识知识
- 重庆市九龙坡区杨家坪中学2019届高一下学期第一次月考生物试卷 Word版含解析
- 河北省邯郸市涉县索堡中学 中考物理一轮复习专题五力学实验无答案 - 图文
- 程序员7年和我的7点感想
- 山东建筑大学2016年硕士研究生招生学院简介概要 - 图文
- 小学低年级德育工作总结
- 中华人民共和国教育部认可的德国大学名单 doc
- 高中语文必修2《诗经》两首-作品赏析
- 三井学校教师命题比赛活动方案
- 教科版五年级科学上册实验报告单