正在加载图片...
第3卷第3期 智能系统学报 Vol 3 Na 3 2008年6月 CAA I Transactions on Intelligent Systems Jun 2008 模糊Q学习的足球机器人双层协作模型 曹卫华,徐凌云,吴敏 (中南大学信息科学与工程学院,湖南长沙410083) 摘要:针对传统的足球机器人3层决策模型存在决策不连贯的问题和缺乏适应性与学习能力的缺点,提出了一种 基于模糊Q学习的足球机器人双层协作模型.该模型使协调决策和机器人运动成为2个功能独立的层次,使群体意 图到个体行为的过度变为一个直接的过程,并在协调层通过采用Q学习算法在线学习不同状态下的最优策略,增强 了决策系统的适应性和学习能力.在Q学习中通过把状态繁多的系统状态映射为为数不多的模糊状态,大大减少了 状态空间的大小,避免了传统Q学习在状态空间和动作空间较大的情况下收敛速度慢,甚至不能收敛的缺点,提高 了Q学习算法的收敛速度.最后,通过在足球机器人SmurSotf仿真比赛平台上进行实验,验证了双层协作模型的有 效性. 关键词:足球机器人;双层决策模型,基于行为的控制系统;Q学习 中图分类号:TP18文献标识码:A文章编号:1673-4785(2008)03023405 A double-layer dec ision making model based on fuzzy Q-learnng for robot soccer CAO Wei-hua,XU L ing-yun,WU Min (School of Inomation Science and Engineering.Central South University,Changsha 410083,China) Abstract:W ith the conventional triple-layer decison-making model of soccer obots,decisions are sometmes in- consistent,leading to weaknesses in adap tability and self-leaming ability.A double-layer cooperation model for a robot soccer system based on fuzzyQLeaming is presented to olve these issues Thismodel divides cooperative de- cisions and robot movement into to layers with their own independent functions,so that the transition from group strategy to individual behavior becomes a direct process To enhance the adaptability and self-leaming capabilities of the decision making system,the Q-leaming algorithm was used in the cooperation layer to leam the optmal strat egy for various conditions To speed up the convergence ofQ-leaming and decrease the size of the state space,the numerous system states were mapped to seven fuzzy states in Q-leaming This avoids problems with Q-leaming's sbw converging rate when the size of the state pace is large This model was verified on the SmuroSot Robot Soc- cer Game platfom. Keywords:robot soccer,double-layer decision-making model behavor-based control system;Q-leaming 近年来,对于多智能体的研究已经成为人工智中.足球机器人是一个典型的多智能体系统,在FF 能研究领域的重要方向和热点,其中多智能体协作 RA系列足球机器人系统中一般包括4个子系统: 模型的研究最为瞩目.很多学者提出使用机器学习 视觉子系统、决策子系统通信子系统和机器人车体 的方法来实现多智能体之间的协作和协调,例如遗子系统,它具有比赛环境复杂、难以建立准确数学模 传算法、神经网络和强化学习等 型等特点.其中,决策子系统是整个系统的关键,它 20世纪80年代末,随着分布式人工智能的发 负责接收经视觉子系统处理后的场地信息,通过设 展,多智能体技术逐渐被应用到各种多机器人系统 计的决策算法实现机器人的协作和控制,因此决策 子系统设计的好坏直接关系到整个系统的性能口 收稿日期:2007-11-15 一种广泛使用的方法采用基于专家经验和规划的3 基金项目:湖南省自然科学基金资助项目(06JJ50144). 通讯作者:吴敏.Email min@csu edu cn 层结构模型来设计决策子系统2)3层结构的模型 虽然在逻辑结构上非常清晰,但是存在决策不连贯 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net第 3卷第 3期 智 能 系 统 学 报 Vol. 3 №. 3 2008年 6月 CAA I Transactions on Intelligent System s Jun. 2008 模糊 Q学习的足球机器人双层协作模型 曹卫华 ,徐凌云 ,吴 敏 (中南大学 信息科学与工程学院 ,湖南 长沙 410083) 摘 要 :针对传统的足球机器人 3层决策模型存在决策不连贯的问题和缺乏适应性与学习能力的缺点 ,提出了一种 基于模糊 Q学习的足球机器人双层协作模型. 该模型使协调决策和机器人运动成为 2个功能独立的层次 ,使群体意 图到个体行为的过度变为一个直接的过程 ,并在协调层通过采用 Q学习算法在线学习不同状态下的最优策略 ,增强 了决策系统的适应性和学习能力. 在 Q学习中通过把状态繁多的系统状态映射为为数不多的模糊状态 ,大大减少了 状态空间的大小 ,避免了传统 Q学习在状态空间和动作空间较大的情况下收敛速度慢 ,甚至不能收敛的缺点 ,提高 了 Q学习算法的收敛速度. 最后 ,通过在足球机器人 SimuroSot仿真比赛平台上进行实验 ,验证了双层协作模型的有 效性. 关键词 :足球机器人 ;双层决策模型 ;基于行为的控制系统 ; Q学习 中图分类号 : TP18 文献标识码 : A 文章编号 : 167324785 (2008) 0320234205 A double2layer dec ision2making model based on fuzzy Q2learn ing for robot soccer CAO W ei2hua, XU L ing2yun, WU M in ( School of Information Science and Engineering, Central South University, Changsha 410083, China) Abstract:W ith the conventional trip le2layer decision2making model of soccer robots, decisions are sometimes in2 consistent, leading to weaknesses in adap tability and self2learning ability. A double2layer cooperation model for a robot soccer system based on fuzzyQ2Learning is p resented to solve these issues. Thismodel divides cooperative de2 cisions and robot movement into two layers with their own independent functions, so that the transition from group strategy to individual behavior becomes a direct p rocess. To enhance the adap tability and self2learning capabilities of the decision2making system, the Q2learning algorithm was used in the cooperation layer to learn the op timal strat2 egy for various conditions. To speed up the convergence of Q2learning and decrease the size of the state space, the numerous system states were mapped to seven fuzzy states in Q2learning. This avoids p roblem s with Q2learning’s slow converging rate when the size of the state space is large. Thismodel was verified on the SimuroSot Robot Soc2 cer Game p latform. Keywords: robot soccer; double2layer decision2making model; behavior2based control system; Q2learning 近年来 ,对于多智能体的研究已经成为人工智 能研究领域的重要方向和热点 ,其中多智能体协作 模型的研究最为瞩目. 很多学者提出使用机器学习 的方法来实现多智能体之间的协作和协调 ,例如遗 传算法、神经网络和强化学习等 通讯作者 :吴 敏. E2 收稿日期 : 2007211215. 基金项目 :湖南省自然科学基金资助项目 ( 06JJ50144) . mail: m in@ csu. edu. cn. . 20世纪 80年代末 ,随着分布式人工智能的发 展 ,多智能体技术逐渐被应用到各种多机器人系统 中. 足球机器人是一个典型的多智能体系统 ,在 FI2 RA系列足球机器人系统中一般包括 4个子系统 : 视觉子系统、决策子系统、通信子系统和机器人车体 子系统 ,它具有比赛环境复杂、难以建立准确数学模 型等特点. 其中 ,决策子系统是整个系统的关键 ,它 负责接收经视觉子系统处理后的场地信息 ,通过设 计的决策算法实现机器人的协作和控制 ,因此决策 子系统设计的好坏直接关系到整个系统的性能 [ 1 ] . 一种广泛使用的方法采用基于专家经验和规划的 3 层结构模型来设计决策子系统 [ 223 ] . 3层结构的模型 虽然在逻辑结构上非常清晰 ,但是存在决策不连贯
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有