人工智能读书笔记 西安交通大学

更新时间:2023-10-14 04:53:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

人工智能读书笔记

——神经网络初步探究

西安交通大学 电信学院 计算机15班 高君宇 2110505112

本学期,我有幸跟随相明教授进行了为期十周的人工智能课程学习。我最真切的体会是:在当今的人工智能领域里,理论是浩如烟海的,发现是十分之多的,应用是颇有限制的,成熟是有待时间的。但是,这丝毫不会降低我对人工智能诸多领域的兴趣。为什么呢?因为我是一个计算机专业的学生,对计算机这个看似冷冰的机器有着独特的感情,我渴望与他沟通与他交互向他诉说。所以,机器学习、神经网络等一系列理论都让我兴致勃勃,而且这些理论在相关领域中已经有所应用。在这个读书笔记里,我想专门记录自己对神经网络的研究。

人类在很多方面已成功地采用机器来完成繁重和重复的体力工作,但人们也一直没有放弃让机器具有人类的思维能力的努力。自电子计算机的出现至今,使这种梦想有了某些实现的可能。特别是人工智能技术的出现,使得人们又向思维机器的研究方向迈进了一步。 现在,人工神经网络技术又为我们进一步研究怎样模拟人类智能以及了解人脑思维的奥秘开辟了一条新的途径。[1]

那么,什么是神经网络呢?通过老师课上的讲述和自身的理解,我认为神经网络就是让计算机像生物体的神经系统一样,可以对外界传来的各种刺激(输入)产生一系列确定的反应(输出)。神经元在神经系统中具体怎么工作的我们不用纠结太多,而机器中实现神经网络模型需要用一系列数学方法对输入信号进行变换、分类、加权等。我们主要学习了早期的感知器模型,它第一次引入了学习的概念,但

简单感知器是通过非线性函数输出的,它只能解决线性可分问题,不能解决线性不可分问题(即无法用一个平面(直线)把超空间(二维平面)中的点正确划分),但多层感知器可以解决这个问题,因为它把多个感知器级联在了一起,相当于在一个平面上画多条直线,其层次可分为输入层、隐层和输出层,每一层都是上一层的输入加权后输出,但多层感知器模型不能学习。接着,我们重点学习了BP算法,它是一种最为著名的前馈网络学习算法,BP网络既解决了多层感知器不能学习的缺陷,又继承了感知器强大的分类能力。[2]它将初始的各层权值不断调整,用迭代的方法逐步逼近最优结果。

BP神经网络是前馈神经网络中应用最广泛的网络之一。理论上,当BP 神经网络隐层节点足够多时,可以逼近任意复杂系统的动力学行为。然而,由于神经网络规模巨大以及数据饱和等原因,使网络难以收敛到全局最小点,或收敛速度异常缓慢,为实际应用带来许多具体的难以克服的困难。人们提出了很多改进的学习算法,并极大地改善了收敛速度。[2-4] 但是,对于复杂的问题, BP 神经网络规模巨大以及收敛速度缓慢的问题到目前为止依然没有得到有效解决。 实质上,导致BP 神经网络收敛缓慢的原因不仅仅是由于BP 神经网络所采用的梯度学习算法,而且也与BP 神经网络全连接对称的网络结构有关。[5]全连接对称结构的BP 神经网络应用梯度下降法进行权值修正时,网络中的每个隐节点都各自为政,并力图使自己在总体计算中发挥主要作用。每个隐节点都只看到其输入信号和输出端反传给它的误差信号,误差信号给出了每个隐节点需要完成的任务,但输入信号和输出

信号一直在变化[6],因此,隐节点要完成的任务也一直在变动,于是,各隐节点在很长一段时间内处于混沌状态,需要很长时间才能够稳定下来。[7]

因此,要改善BP 神经网络的性能,需在网络结构上改变其全连接的形式,降低网络参数搜索空间。人工神经网络建立在大脑生理研究的基础上,是对生物神经网络若干基本特性的抽象和模拟。人脑在处理复杂事件时,会将事件分解成若干子事件,然后分配给大脑的相应处理机构,协调完成事件的处理工作,同时人脑对知识具有积累特性,在获得新知识的同时不会破坏原来已学好的知识[8]。而全连接神经网络却不具备这些特性,它在学习新样本时,会破坏全部原来已经学好的旧样本。因此,近年来许多学者试图从仿生学和拟人脑的角度研究神经网络结构设计理论及应用。[9]

虽然BP算法是神经网络最为重要且最基本的部分之一,但神经网络领域的知识远比书本上讲述的更深、更广。接下来,我主要研究了径向基函数网络。设计神经网络可以有多种方案,反向传播算法可以看做是递归技术的应用,因为其调整权系数的方法是递归的。这种技术在统计学中称为随机逼近。而径向基函数网络将神经网络的设计看作是一个高维空间中的曲线拟合(逼近)问题。按照这种观点,学习等价于在多维空间中寻找一个能够最佳拟合训练数据的曲面,这里的最佳拟合准则是某种意义上的最佳拟合。径向基函数方法在某种程度上利用了传统的多维空间中严格插值的研究成果。[6]

从我自己单纯的理解来看,径向基函数网络比反向传播算法更为

高端。为什么呢?因为径向基函数网络的隐层单元不像反向传播算法的隐层单元那样只含有一个对权系数的调整,其隐层单元提供一个函数集,该函数集在输入模式扩展至隐层单元时为其构建了一个任意的基,实现了一种非线性计算,这个函数集中的函数就被称为径向基函数。那么,这种算法的要点就在于径向基函数的确定了。最基本形式的径向基函数的英文简写为RBF ,RBF 网络的构成包括三层,其中每一层都有着完全不同的作用。输入层由一些感知单元组成,它们将网络与外界环境连接起来。第二层还是像BP模型一样,是隐层,它的作用是从输入空间到隐层空间之间进行非线性变换。在大多数情况下隐层空间有较高的维数。输出层是线性的,它为作用于输入层的信号提供响应。隐层空间的维数越高,逼近就越精确。

RBF网络的基本思想是:用RBF作为隐单元的“基”构成隐层空间,这样就可以将输入矢量直接(即不需要通过权接)映射到隐空间。[6]当RBF的中心点确定以后,这种映射关系也就确定了。而隐含层空间到输出空间的映射是线性的,即网络的输出是隐单元输出的线性加权和。此处的权即为网络可调参数。由此可见,从总体上看,网络由输入到输出的映射是非线性的,而网络输出对可调参数而言却又是线性的。这样网络的权就可由线性方程直接解出,从而大大加快学习速度并避免局部极小问题。

径向基神经网络的神经元结构如图1所示。径向基神经网络的激活函数采用径向基函数,通常定义为空间任一点到某一中心之间欧氏距离的单调函数。由图1所示的径向基神经元结构可以看出,径向基

神经网络的激活函数是以输入向量和权值向量之间的距离dist作为自变量的。径向基神经网络的激活函数的一般表达式为[9] R?dist??ex1x2??dist2 (1)

?2h?1hdistny?ihxmb 图1 径向基神经元模型

随着权值和输入向量之间距离的减少,网络输出是递增的,当输入向量和 权值向量一致时,神经元输出1。在图1中的b为阈值,用于调整神经元的灵敏度。利用径向基神经元和线性神经元可以建立广义回归神经网络,该种神经网络适用于函数逼近方面的应用;径向基神经元和竞争神经元可以组建概率神经网络,此种神经网络适用于解决分类问题。

由输入层、隐含层和输出层构成的一般径向基神经网络结构如图2所示。在RBF网络中,输入层仅仅起到传输信号的作用,与前面所讲述的神经网络相比较,输入层和隐含层之间可以看做连接权值为1的连接。输出层和隐含层所完成的任务是不同的,因而它们的学习策略也不相同。输出层是对线性权进行调整,采用的是线性优化策略。因而学习速度较快。而隐含层是对激活函数(格林函数或高斯函数,一般取高斯)的参数进行调整,采用的是非线性优化策略,因而学习速度较慢。[7]

本文来源:https://www.bwwdw.com/article/4cmf.html

Top