基于平均报酬模型的强化学习算法研究

更新时间：2023-08-05 22:17:01 阅读量：实用文档文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

平均会计报酬推荐度：
相关推荐

对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法：R学习、H学习和LC学习,并给出了平均报酬模型强化学习的主要应用及研究方向.

维普资讯 http://www.77cn.com.cn

第2卷 8

第 5期

上海理工大学学报J .Unv ri f h n h i o ce c n c n lg ies yo a g a rS i ea dTe h ooy t S f n Vo. 8 No 5 2 0 12 0 6

文章编号：0 7 7 5 20 )5 4 8— 5 10—63 (0 6 0—0 1 0

基于平均报酬模型的强化学习算法研究黄炳强，曹广益费燕琼2王占全。 , , ( 1上海交通大学电子信息与电气工程学院，上海 2 0 3;2上海交通大学机械与动力工程学院， 000 .上海 20 3 ) 0 2 7 2 0 3 000 3华东理工大学信息科学与工程学院一k海 .

摘要：对于有吸收目标状态的循环任务，比较合理的方法是采用基于平均报酬模型的强化学习 .平均报酬模型强化学习具有收敛速度快、棒性强等优点 .文介绍了平均报酬模型强化学习的 3个鲁本主要算法：R学习、学习和 L学习， H C并给出了平均报酬模型强化学习的主要应用及研究方向. 关键词：平均报酬强化学习；R学习；学习； C学习 H L中图分类号： P 2 T 4文献标识码： A

S r e f a e a e r i f r e e e r n l o ihm s u v y o v r g e n o c m ntl a ni g a g r t

HAEB—a A a—, F aqr U K G qn,CO u g i EYn i i ig G ny I -o￣,W N aq r AG h - a Z n u￣( . co l f l t nc d r a i n l ti l n ier g, h n h i i tl nv r t,S a g a 0 0 0, lm 1 S h o o e r i,b b m t na dE e r a g n i E co o c c E e n S a g a a o g U i s y h n h i 0 3 J o l ei 2 72. ho fMetmi l g neig, m Ja tn ies y,S a g￣i 0 0 0, f a;3 C l g厂bZ rn t n c S olo cu c tern a En g ioo g Unvri t h n t 0 3 Gf 2 n . ol eq f va i e l o o

S i c a dE g neig, at 3 n nvri c i c n e n l y￥￣n h i 0 2 7 C ia c n e n n ie n F s ( f a U i sy

o e r i e t fS e e d T c o g, q g a 2 0 3, h n ) n a h o, a

Ab t a t ti r t n lt d p h v r g e r en o c me t l r i g ag r h sf r m li g t e s r c:I s a i a o a o tt e a e a e r wa d r i f r e n e n n lo i m o v n h o a t a mr i g g a t t s c cia ts s I a h r fc n e g n u c l n o u t . A d t i d b b n o lsa e y l l a k: t h s t e me i o o v r i g q i y a d r b s l c t k y e al e s u y a e a d v r g e r e f r e n e r i g i cu i g R— e r i g,H— e r i g a d LC— t d s r g r s a e a e r wa d r i o c me t la n n n l d n lan n n la n n n la n n sp e e td a d t ea p ia in a d f t r e e r h a e p o o e . e r i g i r s n e n h p l t n u u e r s a c r p s d c o r

Ke r s v r g e r en o cme tl r ig;R-e r ig;H-e 1 ig;LC-e,1n ywo d:a ea erwa d r i re n e n n l f a l nn a l n an la ig 7

强化学习 (enocme t erig技术是从控 rifre n a n ) ln

术之一 .

制论、计学及心理学等相关学科发展而来的，统它有着相当长的历史，一种重要的机器学习方法，是被广泛应用于智能控制、器人及分析预测等领域 l .机 1

研究人员根据值函数 (a efnt n模型将强 vl uci ) u o化学习主要分为两类：扣报酬模型 ( i o ne e折 ds u tdr— c wadmo e)化学习和平均报酬模型 (vrg e r d 1强 aeaer— wadmo e) r d 1强化学习 .多数研究工作集中在基于大折扣报酬模型的强化学习方面，已开发出许多算法。并获得了很多成功的应用 l 4.扣报酬模型以未 3折’ J来时间步的期望报酬的积累折扣和，表达在某状来态选择某

策略的值函数，是，但由于折扣的引人，常导致系统次优解 .而在许多实际问题中，要取每一需时间步的平均报酬，也就是需要建立平均报酬模型 .

强化学习是一种从环境状态到行为映射的技术 .采用强化学习的智能体 A et g n所追求的目标是使自身在运动中所得的积累报酬值最大， g n通过不断 A et地尝试来选择最优策略 .化学习技术具有对环境强的先验知识要求低的优点，而在强调自主性的因A et g n的应用中得到了广泛的重视 .目前，化学习强

已成为多 A e t g n系统协商中更新行为策略的重要技收稿日期： 0 5 2— 5 2 0—1 0 基金项目：国家自然科学基金资助项目(0 0 0 1 5352) 作者简介：黄炳强 ( 9 5,,士研究生 17一)男博

本文来源：https://www.bwwdw.com/article/scum.html

相关文章：

正在阅读：

基于平均报酬模型的强化学习算法研究08-05

Test4pass Microsoft exam 70-433 dumps vce torrent08-17

红酒心情的相关文章推荐02-14

53旬进度计划12-03

SSCI列表(SSCI Journal List)-201304-27

郑州大学2009至2010学年第一学期高等数学期末考试试题04-28

16秋东财《可行性研究》在线作业二03-27

幼儿园保育员岗位安全责任书范文03-25

硬笔书法入门教学设计06-01

白碉35千伏变电站电气监理初检方案2014041506-27

上一篇：基于MATLAB信号处理工具箱的数字滤波器设计与仿真下一篇：九年级班主任工作总结-无忧无虑中学语文网