正在加载图片...
第6卷第2期 智能系统学报 Vol.6 No.2 2011年4月 CAAI Transactions on Intelligent Systems Apr.2011 doi:10.3969/j.issn.1673-4785.2011.02.001 面向资源分配问题的Q-CF多智能体强化学习 连传强,徐昕,吴军,李兆斌 (国防科技大学机电工程与自动化学院,湖南长沙410073) 摘要:多智能体强化学习算法在用于复杂的分布式系统时存在着状态空间大、学习效率低等问题.针对网络环境中 的资源分配问题对多智能体强化学习算法进行了研究,将Q-学习算法和链式反馈(chain feed山ack,CF)学习算法相结 合,提出了Q-C℉多智能体强化学习算法,利用一种称为信息链式反馈的机制实现了多智能体之间的高效协同.仿真结 果表明,和已有的多智能体Q学习算法相比,该方法具有更加快速的收敛速度,同时保证了协同策略的性能优化 关键词:多智能体系统;强化学习;资源分配;协同控制 中图分类号:TP391.1文献标识码:A文章编号:16734785(2011)02009506 Q-CF multi-Agent reinforcement learning for resource allocation problems LIAN Chuangiang,XU Xin,WU Jun,LI Zhaobin (College of Mechatronics and Automation,National University of Defense Technology,Changsha 410073,China) Abstract:When a multi-Agent reinforcement learning algorithm is used in complex distributed systems,problems such as huge state space and low learning efficiency arise.In this paper,a multi-Agent reinforcement learning algo- rithm was studied for the resource allocation problem in a network environment.By combining the Q-learning algo- rithm and the chain feedback learning mechanism,a novel Q-CF multi-Agent reinforcement learning algorithm was presented.In the Q-CF algorithm,multi-Agent cooperation was realized based on the mechanism of information chain feedback.Simulation results show that compared with the multi-Agent Q-learning algorithm in existence,the proposed algorithm in this paper has a faster convergence speed while at the same time ensures the performance op- timization of cooperation policy. Keywords:multi-Agent system;reinforcement learning;resource allocation;cooperation control 近些年来,在网络环境中的资源分配问题因为强学习或再励学习,是与监督学习和无监督学习并 其广泛的应用,如网络服务、传感器网络等,所以受 列的一大类机器学习方法.作为一种以环境的状态 到越来越多的关注.它的特点在于,在网络环境中, 和评价性反馈为输入的机器学习方法,强化学习通 资源实现了共享,因而能够满足更多的应用需求.然 过与环境交互,不断改进策略,最终获得最优行为策 而随着需求的不断增大,网络环境中的资源分配问 略.而由多个并发的强化学习主体组成的多智能体 题规模也越来越大,因此如何合理分配资源以优化 系统近年来受到了越来越多的关注.Littman基于随 系统的性能,提高系统的效率是亟待解决的问题.许 机决策理论框架提出了零和策略下的多智能体强化 多学习算法已经被应用到资源分配问题中13],其 学习算法[4],Hu和Wellman将这种方法扩展到非零 中机器学习在资源分配问题中的应用是当前的一个 和决策],这种算法可以看作是单个智能体Q学习 研究热点 的扩展;L.Busoniu等人提出适应性的状态聚焦Q 强化学习(reinforcement learning,RL)又称为增 学习算法[6],其特点在于状态空间由简变繁直至学 习的收敛性满足要求,提高了学习效率;J.R.Kok等 收稿日期:2010-0325. 基金项目:国家自然科学基金资助项目(60774076,90820302) 人将整体的行为值函数分解并利用决定性的传播算 通信作者:连传强.E-mail:wzdslcg@163.com. 法,使得问题的规模仅为线性7
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有