智能机器人行为能力的

更新时间:2023-10-08 07:35:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

智能机器人行为能力的获得

Chenghwn(chenghw)

Chenghwn@yahoo.com.cn

1前言

如何让智能机器人具有像人一样的行为能力,正是本文努力讨论的目的,这里讨论的不是技术性的细节问题,而是策略方向,并从理论上证明了这种策略的可行性。本文先讨论了如何设置智能机器人的运动中枢、运动调节中枢、感觉中枢的结构与功能及相互关系(同时也讨论了为什么要这样设置。),然后在此基础上以智能机器人的运动结构在直线与空间中的运动学习为例,讨论了智能机器人是如何通过这些设置的结构与功能来获得像人一样的运动能力的。

2运动中枢、运动调节中枢、感觉中枢

就如人一样,智能机器人的行为应由专门的中枢来控制。

本文对智能机器人控制运动的中枢的结构与功能的设置参考了人的运动皮质及小脑等的结构与功能。这里将控制运动的中枢分为:1、运动中枢(类似于人脑的运动皮质及前运动区。)2、运动调节中枢(类似于小脑及基底节等。)

智能机器人的运动中枢的特定记忆柱群的兴奋使智能机器人的某一运动结构具有某一基本运动。而这时一基本运动调节中枢的同时兴奋能使这一运动结构的这一基本运动具有某一运动特点。编程时我们可以适当的设置运动调节中枢的联系与兴奋特点(调节基本运动中枢的记忆柱的兴奋,或直接调节运动结构的运动),使某一运动结构的基本运动,在调节中枢的兴奋下获得我们所需要的运动特点。

智能机器人应具有什么运动结构及这一结构应具有什么样的基本运动,这一基本运动在什么样的调节中枢的调节下具有我们所需要的什么运动特点……,这些都是具体的技术问题,在现有的科技水平下应不难解决。本文所要讨论的是,智能机器人是如何通过学习获得:要进行某项运动时是如何达到目的地,也就是说当智能机器人需要某一特点的运动时,智能机器人是如何选择相应的运动中枢的记忆柱群及相应调节中枢的记忆柱群兴奋而使这一特点的运动得于实现。解决了这个问题,也就从战略上解决了智能机器人的运动问题,剩下的其它的技术性问题都好说。

打个简单的比方:这里的运动中枢就象程序的主体,调节中枢就象程序的补丁插件,当一基本运动在哪一方面我们不满意的时候,我们都可给它打个补丁插件来使这一基本运动的运动特点让我们满意,而新打上的“补丁”,都能通过下面所论述的奖惩学习过程来获得正确的调节能力。 每个运动结构(比如一个手指)都有其基本的运动动作(如伸或屈),每个基本的运动动作都对应运动中枢(就如人脑的皮质运动中枢、前运动皮质)中相应的记忆柱群。这个中枢有联络区能与其它中枢产生兴奋性记忆联系。同时存在多个运动调节中枢,它们能分别调节每个基本运动的某一运动特点。运动中枢中一群记忆柱的兴奋使对应的一运动结构具有某一运动,而相应调节中枢的兴奋使这一运动结构所进行的这一运动具有某一我们所需要的特点(比如伸或屈的速度及稳定性等。)。所有的基本运动都存在众多的基本调节方式(如减慢运动的调节—通过力的改变进行调节),每类基本调节方式都对应相应的中枢(比如小脑的模块化兴奋)。这样,每个运动的某类基本调节都由相应的中枢控制,而且每个运动结构的基本运动在运动的基本调节中枢都应存在相应的结构。它们也存在联络区,它们的联络区

主要是接受传入,它们的传出主要是控制与调节运动,运动调节中枢和运动中枢的联络区分别与各种感觉中枢的联络区存在广泛的联系,这是运动调节的基础。

感觉中枢、运动中枢、运动调节中枢的记忆柱兴奋到一定强度后都会是中介奖赏刺激,特别是感觉中枢的记忆柱的兴奋(因为它能成为主注意对象)。 每个运动结构的每类特异的运动都会有特异的感受器兴奋,而每类特异的运动的产生都应是在运动的过程中相应的基本调节方式调节的结果。这样特异的感觉所兴奋的记忆柱便会与基本调节方式所对应的记忆柱建立记忆联系。它的兴奋便会受到感觉的影响(如平衡觉等等)。

这些联络区又能与其它感觉中枢的联络区建立相互兴奋的记忆联系(比如与视觉中枢的联系)。

一般情况下,一个运动结构的某一运动状态(比如上文所述伸胳膊运动)对应某些基本调节方式所调节的基本运动(当然引起这一运动状态的原因除了调节方式外还有其它方式,比如这一运动状态的起始运动状态),这一运动状态也会对应一群特异的感觉,在共同兴奋的情况下,这些感觉就会与基本调节方式及基本运动建立记忆联系。也会与目的、奖惩建立记忆联系。有了这样的记忆联系,智能机器人就会通过感觉进行奖惩预期,并能通过对记忆的回忆,兴奋相应的基本运动及基本调节方式,而获得预期的运动状态。这样通过与我在下文的论述进行对比会发现,运动结构的运动状态对应在左或在右的状态下,基本运动与基本调节方式都能使运动结构向那个能获得奖赏的目标运动。

那么,既然A通过奖惩学习能获得,根据目的向左或中间或向右的能力(见下文),智能机器人也就能通过奖惩学习获得,实现某一运动结构的某一运动状态的能力,并最终习惯化。再通过并行的习惯性兴奋,将多个运动结构的运动状态组合起来就会实现复杂的运动。

奖惩中枢、目的中枢、状态中枢 运动中枢 各个感觉中枢 运动调节中枢 运动结构A Fig.1 The relationship of relevanting nerve centre

图1 各中枢的关系

3 行为的奖惩学习。

智能机器人的的行为学习就如婴儿的行为学习一样,是逐步发展的,它先获得基本的简单的动作及简单的调节行为的能力,然后在此基础上再获得复杂的有目的的动作行为。在智能机器人早期的动作学习过程中,由于其与环境相适应的一些后天奖惩预期能力还没有形成,因而中介奖惩刺激及相应的奖惩预期发挥着重要的作用。

一、中介奖惩刺激与智能机器人的行为发展 中介奖赏刺激是一种特殊的先天奖惩刺激,它通过编程成为奖惩刺激,感觉中枢的某一原始记忆柱群的兴奋强度在某一范围内便能直接或间接轻微兴奋奖赏中枢,它是中介奖赏刺激。这对智能软件早期的学习非常重要,可以说它是智能机器人早期运动能力学习的主要动力来源。

中介奖赏刺激是智能机器人的追求新奇刺激的最早动力来源,在早期的行为学习过程中起着重要的作用。中介奖赏刺激使智能机器人像婴儿一样不断的重复一些新动作。 智能机器人的行为发展。

a) 才造出的智能机器人不知如何行动,它的行为是通过学习获得的。中介奖赏刺激及其它的奖惩刺激使行为的获得与发展能通过学习自然获得,而不需要专门编程获得。 b) 中介奖赏刺激在基础行为(指抬腿、手等)学习的过程起主要作用。比如,当智能机器人还完全不知如何去控制自己的动作及这一动作可能带来的影响时,其肢体偶然(应与我们的设计有关)进行了某一动作,这个动作在感觉中枢能带来神经的兴奋,兴奋到一定强度便是中介奖惩刺激,它便会不断去追求这一刺激。 c) 随连续的行为发生,一方面与其它兴奋的记忆联系增加(包含视觉感觉等等,通过学习,各种动作逐渐与各种类型的刺激、目的建立了记忆联系。比如在抬腿时,这一动作就与这时所看到的腿的空间位置、抬腿引起的感觉等等多种刺激建立了一定的记忆联系。这便是我后面所述的经验获得的方式之一。),另一方面随熟练度的增加,中介刺激的综合动力急剧下降,从而使实现这一行为不成为主注意目的。这样多次发生后,当动作熟练了,动作刺激相应感觉中枢能带来的记忆柱的兴奋减弱,同时产生的综合动力预期会下降(多次兴奋后与惩罚中枢的记忆联系增强)。 d) 而通过长期的奖惩学习,它能通过行为获得多种新的目的,而这些目的的动力通过学习,比中介奖惩刺激的动力高(比如饮食时对食物的抓取),这时智能机器人对行为的学习都在各种类型的目的下来实现,使行为进一步复杂化,同时也更能与环境相适应。

总结中介奖惩刺激的意义,主要在早期的基本动作及基本动作的基本调节能力的学习及相关经验的获得中发挥主要作用。

2、下面分步应用理想模型具体讨论。 2.1 在一条直线上的运动。

如图8,假设,智能机器人的某一结构(用A表示)始终在一条直线上运动(也可换为上下或前后直线),这条直线分左、右、中间三个部分,控制A运动的运动中枢的几个记忆柱群,根据其功能我们将它们分别有右记忆柱群及左记忆柱群来标记。右记忆柱群兴奋,A向右运动,左记忆柱群兴奋,A向左运动,A在相应位置时能兴奋相应的感觉记忆柱群,A处于中间时获得的奖赏最强或最能逃避某一惩罚。

(智能机器人还没有相应的经验时,当A在左边时智能机器人能感知到A的空间位置,

其右记忆柱群偶然,A向右移动到中间,获得奖赏,这时反应空间位置的相应记忆柱就会与右记忆柱群建立记忆联系,并被奖赏中枢强化,这样就获得了相应的经验。其它位置的经验的获得机理相似)

要使智能机器人具有:使处于左右位置的A向中间运动的目的与行为,一般应有A处于三个位置并有向左右运动的经验(这些经验可通过前言文所述方法来实现),在这种情况下相应的感觉中枢、运动中枢、奖惩中枢之间建立了记忆联系。A在左边时,刺激左感觉记忆柱群兴奋,同时智能机器人注意到(通过视觉)中间空间位置,回忆到在中间位置获得的奖赏强,运动到中间位置便成为它的目的,再回忆起向右运动能完成目的,从而以向右运动为目的,在目的下进行回忆,右记忆柱群被易化、兴奋(在向右运动的目的下右记忆柱群与其它与主注意目的有记忆联系的记忆柱群一样被分配相应的注意力),A向右运动到中间……。在整个的运动过程中只有感觉记忆柱群能成为主注意对象。这种运动多次重复后便能习惯化。

当A处于左边,而智能机器人没有注意A,这时左感觉记忆柱群被刺激而发生习惯性兴奋,但无法直接兴奋右记忆柱群,这种情况下如果随后受到惩罚而引起智能机器人的注意,(或直接引起智能机器人注意),通过回忆从而使右记忆柱群被易化兴奋,A向中间运动,使左感觉记忆柱群与右记忆柱群之间的记忆联系得到强化。经多次学习后,在智能机器人没有注意A的情况下,当A在左时左感觉记忆柱群被刺激兴奋,而习惯性兴奋右记忆柱群,从而使A运动到中间,当中间感觉记忆柱群兴奋时,能获得最强的奖赏。

这个过程是:先是偶然或其它因素形成各记忆柱群的记忆联系。2、在联系不强的情况下需要分配不同强度的注意力。3、最终相应的功能联系形成习惯性兴奋。

所有动作行为的获得都可采取类似的方法,如视觉注意、平衡能力的获得等等。我们只需要设置几个适当的记忆柱群来控制某一动作行为,都可以通过奖惩学习而获得正确的行为模(正确意味奖赏),然后习惯化。如视觉注意,身体平衡的调节等等。

下面作图说明。之所以会出现下面所述的回忆,是因为有类似的经验。

A状态 B状态 C状态 C1 CA1 CB1 b a c Fig.2 Obtain the correct behavior1图2 正确行为的获得1

如图2。感觉中枢感知到A状态。a或b或c记忆柱群的兴奋分别代表感知的A、B、C状态。在A状态时预期到获得C状态能带来奖赏。以向C运动为目的,在目的下通过c、a回忆使CA1记忆柱群兴奋,从而向C运动。A1、B1、C1分别代表相应的控制运动的基本运动记忆柱群与运动调节记忆柱群。

运动中枢控制运动方向,运动调节中枢调节某一运动的速率等特点。

智能机器人的一运动结构运动到B状态,它的b感觉到这一状态,在目的下,回忆使

CB1兴奋,智能机器人向C运动,最终到达C获得奖赏。智能机器人这样多次运动后,便会习惯化。

另外在A向中间运动的过程中,许多运动速度都会使智能机器人获得一定的惩罚(当然这种惩罚相对于运动到中间所获得的奖赏应不值一提,否则便会影响向中间的运动),而偶而在相应的调节中枢处于一兴奋状态下时(用tiaoA来表示),A向中间运动时所获得的速度能智能机器人逃避这一惩罚,通过学习A再向中间运动时,它的调节中枢便会被选择处于tiaoA下。并最终习惯化。

A 左感觉 右感觉 左边 中间 右边 Fig.3 Obtain the correct behavior 2图3 正确行为的获得2

2.2 在空间的运动。

前面讨论了智能机器人的某一运动结构(A)在方向轴X、Y或Z上的运动,现在要讨论的是A即不在X轴也不在Y轴上运动,而是X、Y轴之间的区域运动。

先要进行结构与功能的设计。(这是我设计的一种具体实现方法,应还有更好的方法,大概的实现方法我在前文已述)

需设置控制A在X轴上运动的运动中枢及相应的调节中枢(用XA表示)及控制A在Y轴上运动的运动中枢及相应的调节中枢(用YA表示)和感觉中枢,其中视觉中枢感知A的空间位置,其它感觉中枢感知A的速度力度等。

只要XA、YA同时兴奋则A便会在X、Y之间的区域运动(如图1),现在的问题是如何调控A在XY区域运动的方向、速度的。

我是这样来设计的。

XA的调节中枢用XAT表示,XAT又分为XAT1与XAT2,XAT调节的是A在X方向的力度(就如而肌肉的收缩力),XAT1所包含的记忆柱分为a、b、c,a兴奋产生的力(对A的推动力)最小(其大小是XAT1兴奋所产生的最大力的1/3),a+b其次(2/3),a+b+c兴奋产生的力最强。XAT2也分为三部分a1、b1、c1,但它的兴奋是在XAT1的基础上进一步的调节。当XAT1的a+b与XAT2的a1同时兴奋时,其力的大小就是XAT1的a+b兴奋时所产生的最大力减去a兴奋时所产生的最大力的1/3加上a兴奋时所产生的最大力(F=(Fa+b- Fa)/3+ Fa),而a+b与a1+b1同时兴奋时,其力的大小就是XAT1的a+b兴奋时所产生的最大力减去a兴奋时所产生的最大力的2/3加上a兴奋时所产生的最大力……。另外存在两个单独的调节中枢(分别用TAOXAT1、TAOXAT2表示),分别调节XAT1与XAT2的兴奋,调节XAT1兴奋的中枢的兴奋可正向或负向调节XAT1的兴奋,即正向调节的兴奋时XAT1的兴奋增加1,即如兴奋开始是XAT1的a兴奋,则加1后是a+b兴奋,负向的是减1。调节XAT2的调节机理相似。

本文来源:https://www.bwwdw.com/article/0gud.html

Top