基于平均报酬模型的强化学习算法研究

更新时间:2023-08-05 22:17:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化学习的主要应用及研究方向.

维普资讯 http://www.77cn.com.cn

第2卷 8

第 5期

上海理工大学学报J .Unv ri f h n h i o ce c n c n lg ies yo a g a rS i ea dTe h ooy t S f n Vo. 8 No 5 2 0 12 0 6

文章编号:0 7 7 5 20 )5 4 8— 5 10—63 (0 6 0—0 1 0

基于平均报酬模型的强化学习算法研究黄炳强,曹广益费燕琼2王占全。 , , ( 1上海交通大学电子信息与电气工程学院,上海 2 0 3;2上海交通大学机械与动力工程学院, 000 .上海 20 3 ) 0 2 7 2 0 3 000 3华东理工大学信息科学与工程学院一k海 .

摘要:对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习 .平均报酬模型强化学习具有收敛速度快、棒性强等优点 .文介绍了平均报酬模型强化学习的 3个鲁本主要算法:R学习、学习和 L学习, H C并给出了平均报酬模型强化学习的主要应用及研究方向. 关键词:平均报酬强化学习;R学习;学习; C学习 H L中图分类号: P 2 T 4文献标识码: A

S r e f a e a e r i f r e e e r n l o ihm s u v y o v r g e n o c m ntl a ni g a g r t

HAEB—a A a—, F aqr U K G qn,CO u g i EYn i i ig G ny I -o ̄,W N aq r AG h - a Z n u ̄( . co l f l t nc d r a i n l ti l n ier g, h n h i i tl nv r t,S a g a 0 0 0, lm 1 S h o o e r i,b b m t na dE e r a g n i E co o c c E e n S a g a a o g U i s y h n h i 0 3 J o l ei 2 72. ho fMetmi l g neig, m Ja tn ies y,S a g ̄i 0 0 0, f a;3 C l g厂bZ rn t n c S olo cu c tern a En g ioo g Unvri t h n t 0 3 Gf 2 n . ol eq f va i e l o o

S i c a dE g neig, at 3 n nvri c i c n e n l y¥ ̄n h i 0 2 7 C ia c n e n n ie n F s ( f a U i sy

o e r i e t fS e e d T c o g, q g a 2 0 3, h n ) n a h o, a

Ab t a t ti r t n lt d p h v r g e r en o c me t l r i g ag r h sf r m li g t e s r c:I s a i a o a o tt e a e a e r wa d r i f r e n e n n lo i m o v n h o a t a mr i g g a t t s c cia ts s I a h r fc n e g n u c l n o u t . A d t i d b b n o lsa e y l l a k: t h s t e me i o o v r i g q i y a d r b s l c t k y e al e s u y a e a d v r g e r e f r e n e r i g i cu i g R— e r i g,H— e r i g a d LC— t d s r g r s a e a e r wa d r i o c me t la n n n l d n lan n n la n n n la n n sp e e td a d t ea p ia in a d f t r e e r h a e p o o e . e r i g i r s n e n h p l t n u u e r s a c r p s d c o r

Ke r s v r g e r en o cme tl r ig;R-e r ig;H-e 1 ig;LC-e,1n ywo d:a ea erwa d r i re n e n n l f a l nn a l n an la ig 7

强化学习 (enocme t erig技术是从控 rifre n a n ) ln

术之一 .

制论、计学及心理学等相关学科发展而来的,统它有着相当长的历史,一种重要的机器学习方法,是被广泛应用于智能控制、器人及分析预测等领域 l .机 1

研究人员根据值函数 (a efnt n模型将强 vl uci ) u o化学习主要分为两类:扣报酬模型 ( i o ne e折 ds u tdr— c wadmo e)化学习和平均报酬模型 (vrg e r d 1强 aeaer— wadmo e) r d 1强化学习 .多数研究工作集中在基于大折扣报酬模型的强化学习方面,已开发出许多算法。 并获得了很多成功的应用 l 4.扣报酬模型以未 3折’ J来时间步的期望报酬的积累折扣和,表达在某状来态选择某

策略的值函数,是,但由于折扣的引人,常导致系统次优解 .而在许多实际问题中,要取每一需时间步的平均报酬,也就是需要建立平均报酬模型 .

强化学习是一种从环境状态到行为映射的技术 .采用强化学习的智能体 A et g n所追求的目标是使自身在运动中所得的积累报酬值最大, g n通过不断 A et地尝试来选择最优策略 .化学习技术具有对环境强的先验知识要求低的优点,而在强调自主性的因A et g n的应用中得到了广泛的重视 .目前,化学习强

已成为多 A e t g n系统协商中更新行为策略的重要技收稿日期: 0 5 2— 5 2 0—1 0 基金项目:国家自然科学基金资助项目(0 0 0 1 5352) 作者简介:黄炳强 ( 9 5,,士研究生 17一)男博

本文来源:https://www.bwwdw.com/article/scum.html

Top