机器学习在模式识别中的应用研究 doc

更新时间:2023-10-27 03:08:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

机器学习在模式识别中的应用研究

杜明1 周而重2

(1.沈阳化工学院计算中心辽宁沈阳110142;2.北京工业大学计算机学院中国北京100124)

【摘要】近年来,机器学习已成功应用于模式识别领域,并且随着研究的深入,机器学习的相关算法和理论又得到了完善和扩展。本文将阐述机器学习的基本概念,分析应用在模式识别领域的若干机器学习算法。

【关键词】机器学习;遗传算法;人工神经网络;支持向量机;k-近邻法

机器学习是人工智能研究领域的核心问题之一。它的应用已遍及 人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。机器学习顾名思义就是让计算机通过某种方法进行学习来提高其性能。模式识别可以看成是让计算机将不同的事物划分为不同的类别。人类通过不断学习加深对事物的认识,同样模拟人类智能的模式识别系统也需要通过机器学习算法的改进来提高其分类性能, 因此机器学习和模式识别间的联系非常紧密。本文将阐述机器学习的基本概念,分析应用在模式识别领域的若干机器学习算法。

1.机器学习 1.1 机器学习的定义

机器学习目前的准确定义是: 对于某类任务T 和性能度量P,如 果一个计算机程序在T 上以P 衡量的性能随着经验E 而自我完善, 那么称这个计算机程序在从经验E中学习[1]。

1.2 机器学习系统的工作机制

参看图1 的机器学习模型[2],环境向系统的学习部件提供某些信息,学习部件利用这些信息修改知识库,以增进系统执行部件的性能;执行部件根据知识库完成任务, 同时把获得的信息反馈给学习部件,这个过程可以看成是机器学习系统通过内部和外部环境提供的信息(经验)来自动获取知识的过程。

图1 机器学习的简单模型

1.3 机器学习系统的设计

一个机器学习系统的建立主要考虑两部分: 模型的选择和建立; 学习算法的设计和选择。不同的模型决定了不同的目标函数,也决定 了不同的学习机制。算法的能力和复杂性决定了学习系统的学习能力 和效率。同时训练样本集大小和特征选择问题也是制约机器学习系统 性能的关键因素。

2.机器学习算法在模式识别中的应用

模式识别(Pattern Recognition)是指对感知信号进行分析,对

其中的物体现象或行为进行判别和解释的过程。模式识别过程如图2 所示。机器学习的核心问题是搜索问题。针对不同的应用模型,研究者们设计了不同的搜索算法。目前在模式识别领域,采用得比较多的有遗传算法、神经网络、支持向量机、k-近邻法等机器学习算法。

图2 模式识别过程

2.1 遗传算法

特征维数是困扰机器学习的一大难题,因为从一种模式中提出的 特征,反映事物本质的权重是不一样的,有些对分类结果无重大贡献, 甚至是冗余的,所以特征的选择过程是非常关键的。遗传算法作为一 种寻优算法可以在很大程度上解决特征选择问题。遗传算法可以选择 出那些既能反映原模式信息,又对分类结果有重大影响,且彼此间关 联性非常小的特征。

遗传算法是根据达尔文的自然界生物进化思想,将其灵活运用到 优化运算领域而产生的一种寻优算法。它是由美国Michigan 大学的 Holland 教授于1975 年提出的[3]。遗传算法的基本方法是以种群中的个体为对象,对其进行选择、交叉和变异等遗传操作。通过遗传操作使群体一代又一代地不断进化,最终得到最优的个体。群体的进化首先从初始群体开始进行,在进化过程中,依据个体对环境的适应度从当前群体中选出优良的个体,使它们有机会作为父代繁衍子孙。遗传算法的程序实现步骤如下:

1)选择编码策略,确定适应度函数和遗传策略。遗传策略包括选 择种群大小和选择、交叉、变异方法,以及交叉概率、变异概率等遗传参数。

2)根据编码策略,把特征集转换成位串结构。 3)初始化群体。

4)计算群体中个体的适应度值。

5)按照遗传策略,运用选择、交叉和变异算子作用于群体,形成下一代群体。

6)判断群体性能是否满足某一指标,或已完成预定迭代次数,不 满足则返回步骤5 或修改遗传策略后再返回步骤5。遗传算法从提出至今,其4 个基本要素:编码策略;初始群体的设定;适应度函数的设计;遗传操作算子的设计,即选择算子、交叉算子、变异算子,一直是遗传算法研究者研究和改进的重点。

2.2 人工神经网络

人工神经网络(ANN)是人脑及其活动的一个理论化的数学模型,它由大量的处理单元通过适当的方式互连而成,是一个大规模的非线性自适应系统[4]。人们根据不同的应用,研究出了许多不同的神经网络。迄今为止已有50 余种神经网络模型,它们的区别主要在于网络的拓扑结构不同,神经元特性,学习和训练规则不同。

例如BP 神经网络是应用最普遍的神经网络模型之一,它基于成熟并得到广泛应用的BP 算法。BP 网络学习是典型的有导师学习,其学习算法采用Delta 规则,BP 网络实现了多层网络学习设想, 其学

习过程包括正向传播和反向传播两部分。在正向传播过程中,给定网络的一个输入后,输入信息从输入层经隐含层逐层处理,并传向输出层,每一层神经元的状态只影响下一层神经元的状态,由输出层单元产生一个输出,这是一个逐层的状态更新过程,称为正向传播。如果实际输出与期望输出的误差值不满足要求,那么就转入误差反向传播,将误差值沿原连接通路逐层反向传送并修正各层连接权值。对于给定的一组样本,不断用一个个训练样本进行学习,重复正向传播和误差反向传播过程,当各个训练样本都满足要求时,BP 网络训练完毕。

在模式识别应用中,用神经网络设计的分类器是由相对少量的神 经元按一定规律连接而成的网络体系,网络中的每个神经元均具有相 同的结构。神经元一般表现为一个多输入、单输出的非线性单元,通用的结构模型如图3 所示。其中xi为输入信号;wi表示与神经元连接的权值,权值为正表示激活,为负表示抑制;Σ表示一个求和单元,用于求各输入信号的加权和(线性组合);f 表示一个非线性激活函数,起非线性映射作用,用于将神经元输出值限制在一定范围内,一般限制在[0,1]或[-1,1]之间。

=\农户基本信息(浏览) <% if session(\ <% end if %> 地区信息管理 …

系统管理

3.3 动态统计图设计

统计图有多种类型,如:柱型图、条型图、折线图、饼图、以及面积图等。实际应用中可根据统计参数的数量及其之间的对应关系,同时兼顾同类信息密集度,选择一种最直观、清晰显式效果。本系统中设计了一种折线统计图,如图4 所示。该图能够根据实际年份的多少动态排列横坐标,并且动态调整水平参考刻度的刻度值。

图4 折线统计图

该统计图的主要ASP 脚本及HTML 标记是: <%' 趋势画线,分数标注 Recordset1.movefirst do while not Recordset1.eof line=line+1 ' 趋势画线

x1=116+(850-116)/Recordset1_total*r y1

=490

-CInt

(Recordset1.Fields.Item

(\

(Recordset1A.Fields.Item(\if line>1 then lx=x1-x0 ly=y1-y0

l=sqr(lx*lx+ly*ly) for I=0 to l step 2 p=I/l px=x0+lx*p

py=y0+ly*p

response.write \absolute;left:\border='0' cellpadding='0' cellspacing='0' width=2> \next end if ' 方块

response.write \absolute; left:\x1-20 &\top:\478 -CInt (Recordset1.Fields.

Item (\(Recordset1A.Fields.Item (\

px;border

='1'width

=50bordercolor

='#FF0000' >

'center'>\

Item(\Recordset1.movenext r=r+1 loop%>

(上接第38 页)在这些超球体内寻找待分样本点的k 个近邻点。

3.结论

机器学习在某种程度上可以理解成,对应于任何一种模型所定义 的假设空间,核心技术就是如何用其学习算法在对应的假设空间中进行搜索,搜索的过程也就是学习过程。在模式识别应用中,由神经网络或支持向量机、k-近邻法构造的分类器就是在假设空间中的假设与样本集有相同性质的前提下,将样本集映射到假设空间中,寻找一个定义在这个假设空间上的决策面,使得不同类别的样本尽量分布在不相交的区域。

4.结语

农产品成本分析对于领导制定相关农业政策具有重要的指导意 义,本文开发的基于B/S 和C/S 结构农产品成本分析系统,充分利用 ASP 动态网页技术和数据库开发技术,较好实现了农产品的多元化成 本分析,为领导制定相关政策提供重要保障。

本文来源:https://www.bwwdw.com/article/kdn2.html

Top