表5四川大学本科毕业论文设计指导教师评阅意见表 - 图文

更新时间:2023-09-20 06:17:01 阅读量: 医药卫生 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

本科毕业论文(设计)开题报告

题 目 基于学习迁移的合作式强化学习方法研究 学 院 电气信息学院 专 业 自动化 学生姓名 学 号 2013141442XXX 年级 2013 指导教师 XXXX

教务处制表

二Ο一六年十二月九日

选题: 以智能仓储机器人为例,探究基于学习迁移的合作式强化学习方法。 意义: 随着机器人和人工智能理论的不断发展,自主式移动机器人技术日益成熟,并且在工业、军事、医疗、服务等诸多领域得到广泛应用[1-5]。与此同时,机器人所面临的任务也愈加复杂,所处环境由原来的单一机器人、确定性环境转变为多机器人、不确定环境[1,6]。因此,近年来研究复杂系统中机器人自主智能控制技术得到了学术界和工业界的广泛关注,而路径规划及导航作为其中的关键性技术成为了目前机器人学的研究热点之一[2,7-8]。 本文对多机器人路径规划算法的研究以其在智能仓储中的应用为背景。智能仓库运用大量具有负载能力的智能移动机器人将货架运至工作台,再经工作台的工作人员对各订单货物进行处理,将传统的“人找货物”思想转变为“货物到人”,有效提高了仓储的运行效率和经济效益[2,8]。不同于传统的自动化仓选 题 意 义 储技术,智能仓储系统成功地引入了人工智能技术,并综合运用最优化理论,系统决策和博弈论的成果,使得仓储系统的自主协调能力及决策能力很大程度地提升。目前智能仓储系统成功案例有亚马逊公司的子公司Kiva Systems (见图1),已将智能仓储技术应用于多个公司的仓储系统管理和供应链实现,如The Gap公司和Staples公司[8]。 图1 Kiva Systems智能仓储系统 目前智能仓储系统技术尚处于发展阶段,需要合理解决动态环境下任务分配,多机器人路径规划和协调避障等诸多问题。其中路径规划和协调避障对系统安全运行尤为重要,需要高度重视。当前智能仓储环境一般通过传统的贪心算法,A*算法[3,8]等方法为机器人规划行进路径,同时采用固定的避障措施避免冲突。然而,传统意义上的智能仓储机器人路径规划及避障方法大多由人为设置,过度依赖于行为控制的程序设计,灵活性差、鲁棒性低,易导致机器人堵塞甚至碰撞问题[9]。针对此类问题,本文提出使用以经典机器学习算法—强化学习(Reinforcement learning, RL)为代表的学习型算法对智能仓储路径规划问题进行研究,提出能自主学习,环境适应性强并且算法计算复杂度低的多机器人强化学习路径规划算法。 多智能体研究现状: 路径规划是指在有障碍物的环境中,移动机器人根据一定的评价标准,如路线最短碰撞次数最短等,找到一条从起点到终点的最优或次优的无碰撞路径[10]。目前路径规划技术包括两大类:基于确定环境的全局规划和基于传感探测信息的局部规划。前者是在静态已知的环境中进行路径规划,又称静态路径规划方法,目前应用比较多的方法有:贪心算法,Dijkstra算法及A*算法[11]; 国 内 外 研 究 现 状 概 述 后者针对环境信息未知的情况,需要根据传感器输入的环境信息实时地进行路径规划,主流的方法有人工势场法,神经网络法,模糊逻辑法[15-16]等。目前,单机器人的路径规划方法已经广泛应用于诸如即时定位与地图构建(SLAM)等实际系统中。 多机器人的路径规划算法主要基于多智能体系统(Multi-agent systems, MAS)的研究。常见的人工智能算法如蚁群算法,模拟退火和遗传算法已在此领域有成熟的应用[7,11]。同时,由单智能体学习衍生而来的多智能体学习(Multi-agent learning) [12-14]也被尝试着用来解决路径规划问题。然而,基于多智能体学习的路径规划技术尚处于理论研究阶段,大部分的研究成果都是基于栅格化地图的仿真实验。其主要原因有两点[1]:目前多机器人路径规划算法鲁棒性和可延展性(scalability)较差,不适用于实际系统;栅格化地图实验能很好地反映算法效果。 针对这两点研究现状,本文对提出算法先进行栅格化地图标准(benchmark)的测试,利用多个指标检测算法特性;其次建立实际仓储系统的仿真平台,尝试着将算法应用于实际系统中。 本设计对智能仓储机器人路径规划问题的探索建立在多智能体强化学习的理论基础上。而多智能体强化学习理论是对强化学习,博弈论,稀疏交互和 主 要 研 究 内 容 知识迁移等理论的综合运用。因此,本文从基本的强化学习理论入手,逐步深入探讨牵涉到的其他领域知识,不断完善理论体系系统,使得其能更好地解决智能仓储的实际问题。主要的研究工作包括以下几部分: (1)智能仓储技术的研究现状调查,对典型应用系统Kiva Systems进行深入分析,建立仿真平台; (2)基于强化学习基本理论以及多智能体强化学习方法,将均衡概念与稀疏交互相结合提出基于协商机制的稀疏交互多智能体强化学习算法; (3)对传统方法和新方法进行算法实现,利用栅格化地图和智能仓储仿真平台对算法进行测试分析。 多智能体强化学习算法(MARL)主要包括两类,一种是在整个联合状态动作拟采用 的研究 思 路 (方法、 技术路 线、可 行性论 证等) 研究 工作 安排 及进 度 [1] L. Bu?oniu, R. Babu?ka and B. D. Schutter. A Comprehensive Survey of Multi-Agent Reinforcement Learning. IEEE Transactions on System, 参 考 文 献 目 录 Man, and Cybernetics, Part C: Applications and Reviews, 2008, 38(2): 156-172. [2] J. Enright and P. R. Wurman. Optimization and Coordinated Autonomy in Mobile Fulfillment Systems. Automated Action Planning for Autonomous Mobile Robots, 2011, 33-38. [3] L. Zhou, Y. Shi, J. Wang and Pei Yang. A Balanced Heuristic Mechanism for Multirobot Task Allocation of Intelligent Warehouses. Mathematical Problems in Engineering, 2014, Vol. 2014. [4] Y. Hu, Y. Gao and Bo An. Multiagent Reinforcement Learning With Unshared Value Functions. IEEE Transaction on Cybernetics, 2014, 45(4): 647-662. [5] 高阳, 陈世福, 陆鑫. 强化学习研究综述. 自动化学报, 2004, 30(1): 空间学习的均衡型MARL算法,一种是基于稀疏交互的非均衡型MARL算法。 前者求解多个智能体的均衡策略,减少碰撞次数,往往能得到较优策略,但是计算速度慢,内存开销很高;后者只在少数场合进行智能体的交互,求解速度快,但是所得策略往往不如前者。本设计方案对这两类方法进行综合考虑,提出了考虑多智能体协同工作的新算法,一定程度上缓解了现有仓储机器人的不足之处。 具体思路如下: (1)首先研究智能仓储的概念、研究发展及多智能体路径规划研究现状。 (2)研究强化学习和多智能体强化学习的基本知识,包括马尔科夫决策过程,标准式博弈和马尔科夫博弈。还包括强化学习领域的其他内容,如稀疏交互和知识迁移。 (3)基于协商的均衡动作集合求解,均衡点选取方法和局部信息的知识迁移。 (4)对传统方法和新方法进行比较,实验平台包括栅格化地图基准和智能仓储仿真平台两部分。 (5)最终总结并提出展望。 2016年11月,接受任务,确定毕业论文题目; 2016年12月,提交开题报告,完成论文提纲; 2016年12月至2017年1月,理解算法,编程完成实验; 2017年2月,对比现有仓储机器人寻迹方法,改进,找寻优势; 2017年4月,完成毕业设计。 86-100. [6] A. Nowé, P. Vrancx, and Y. D. Hauwere. Game theory and multi-agent reinforcement learning. Reinforcement Learning, Springer Berlin Heidelberg, 2012, 441-470. [7] 张亚鸣, 雷小宇, 杨胜跃等. 多机器人路径规划研究方法. 计算机应用研究, 2008, 25(9): 2566-2569. [8] P. R. Wurman, R. D'Andrea and M. Mountz. Coordinating hundreds of cooperative, autonomous vehicles in warehouses. AI Magazine, 2008, 29(1): 9. [9] 任建功. 基于强化学习的自主式移动机器人导航控制. 哈尔滨: 哈尔滨工业大学, 2010, 1-7. [10] 郭娜. 基于模拟退火-Q学习的移动机器人路径规划技术研究. 南京: 南京理工大学, 2009. 1-5. [11] 王勇. 智能仓库系统多移动机器人路径规划研究. 哈尔滨: 哈尔滨工业大学, 2010. 9-18. [12] M. L. Littman. Markov games as a framework for multi-agent reinforcement learning. Proceedings of the International Conference on Machine Learning (ICML), 1994, 157: 157-163. [13] J. Hu and M. P. Wellman. Nash Q-learning for general-sum stochastic games. The Journal of Machine Learning Research, 2003, 1039-1069. [14] M. L. Littman. Friend-or-foe Q-learning in general-sum games. Proceedings of the International Conference on Machine Learning (ICML), 2001, 322-328. [15] 宋勇, 李贻斌, 李彩虹. 移动机器人路径规划强化学习的初始化. 控制理论与应用, 2012, 29(12): 1623-1628. [16]陆鑫, 高阳, 李宁等. 基于神经网络的强化学习算法研究. 计算机研究与发展, 2002, 39(8): 981-985. [17] H. H. Viet, P. H. Kyaw and T. Chung. Simulation-based evaluations of reinforcement learning algorithms for autonomous mobile robot path planning. IT Convergence and Services, 2011, 467-476. [18] T. Kollar and N Roy. Using reinforcement learning to improve exploration trajectories for error minimization. Proceedings of IEEE International Conference on Robotics and Automation (ICRA), 2006. [19] 陈春林. 基于强化学习的移动机器人自主学习及导航控制. 合肥: 中国科学技术大学, 2006, 21-36. [20] Y. Hu, Y. Gao and B. An. Accelerating Multiagent Reinforcement Learning by Equilibrium Transfer. IEEE Transaction on Cybernetics, 2014, accepted.

本文来源:https://www.bwwdw.com/article/rhgh.html

Top