净胜球数 = 我方进球数 - 对方进球数. 从图 6中可以看出 ,基于模糊

正在加载图片...

·238· 智能系统学报第3卷净胜球数=我方进球数·对方进球数 Institute of Teachnology,2004,36 (7):871-873 从图6中可以看出，基于模糊Q学习的双层协 [5曹卫华，桂卫华，吴敏，等.一种基于行为的足球机器作模型的净胜球趋势线是上升的.在学习的开始阶人双层决策模型[C]/哈尔滨：2006中国控制会议论文集.2006：871-873. 段大约第50场比赛之前)，赢的场数比输的场数 CAO Weihua,G IW eihua,WU Min,et al A double-lay- 要少.这表明系统还在探索学习，因此学习的效果并 er decisionmaking model based on behavior[C]//Proceed- 没有采用经验知识的策略好.但是趋势线上升明显， ings of the 25 th Chinese Control Conference(III).Harbin: 说明学习的方法逐渐显示出了它的作用.从第50场 2006:871-873 开始，赢的场数比输的场数逐渐增多，平均净胜球个「6郭锐，吴敏，彭军等.一种新的多智能体Q学数成为正数.从第120场开始，趋势线的上升开始逐习算法[J].自动化学报，2007,33(4)：367-372 GO Rui.WU Min,PENG Jun,et al A new Q leaming 渐变缓.这是由于在进行了多场比赛后，Q学习已经 algorithm formulti-Agent system s[J ]Acta Autmatica Sin- 学习到大多数对方的策略.而基于传统专家经验策 ica,2007,33(4):367-372 略的净胜球趋势线显示出了明显的随机性，净胜球 [7高阳，陈世福，陆鑫.强化学习研究综述[J]自动数在0左右震荡，没有明显的规律性.图6中的趋势化学报，2004,30(1)：86-100 线表明基于Q学习的策略是有效的，并且比赛的结 GAO Yang,CHEN Shifu,LU Xin Research on reinforce- 果也是越来越好.基于该协作模型的机器人系统在 ment leaming technolgy:a review [J].Acta Automatica Sinica,2004,30(1):86-100 2006年全国机器人赛Middle League SmuroSot项目 [8 ]WATKNS C H,DA YAN P Technical note:Q-leaming 中获得二等奖的好成绩。 [J].Machine Leaming.1992,8(3-4):279-292 [9]TSITS IKL IS J N.Asynchronous stochastic approxmation 4结束语 and Q-leaming [J ]Machine Leaming,1994,16 (3): 185-202 提出足球机器人双层决策模型并在协调层中引 [10 L ITIMAN L,SZEPESVAR I C A generalized reinforce- 入模糊Q学习方法，它能够有效地解决传统决策模 ment leaming model convergence and Applications 型中由于决策交错而引起的机器人运动不连贯的缺 [C]//Proc of the 13th Intemational Conference on Ma- 点，并提高了决策系统的适应性和自学习能力.在协 chine Leaming Bari,Italy:Morgan Kanfnann,1996: 调层中，针对机器人足球比赛的特点，通过采用对比 310 赛场地分区和位置映射的方法，大大地降低了状态作者简介：空间大小.另外，提出了一种基于水平距离的奖励函曹卫华，男，1972年生，副教授、博数设计方法，使奖励分配更加合理，这在一定程度上士，主要研究方向为机器人与智能系统提高了Q学习的收敛速度技术和过程控制.1996~1997年赴日本金泽大学留学一年.获省部级科技进步参考文献：二等奖2项、三等奖2项。 [1 ]ASADA M,KITANO H The robocup challenge [J].Ro- botics and Autonomous System,1999,29(1):3-12 [2赵逢达，孔令富，李贤善.基于分层结构模型的机器人徐凌云，男，1982年生，硕士研究足球决策系统设计[J1哈尔滨工业大学学报，2005,37 生，主要研究方向为足球机器人系统与 (7):933935 多智能体技术 ZHAO Fengda.KONG L ingfu,LI Xianshan Design of ro- bot soccer decisionmaking subsystem based on layered structure model[J ]Joumal of Harbin Institute of Technol- gy,2005,37(7):933-935 吴敏，男，1963年生，博士生导师 [3陆永忠，柯文德.足球机器人决策系统的设计与实现主要研究方向为过程控制、鲁棒控制 [J]计算机仿真，2007,24(9)：129-32 和智能系统.1989~1990年在日本东 LU Yonghong,KE Wende Design and mplementaton of 北大学进修：1996~1999年赴日本东京工 decision system or soccer robot[J]Computer Smulation, 业大学从事国际合作研究，2001~2002年 2007,24(9):129-132 得到英国皇家学会资助，为英国诺丁汉 [4浏云江，韩光胜.基于多智能体规划的机器人足球决策大学访问教授.1999年与中野道雄教授和余锦华博士一起获模型[J]哈尔滨工业大学学报，2004,36(7)：871- 国际自动控制联合会(IFAC)控制工程实践优秀论文奖. 873 L U Yunjiang,HAN Guangsheng Decisonmaking model for robot-soccer based on multi-Agent[J].Joumal of Harbin 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net净胜球数 = 我方进球数 - 对方进球数. 从图 6中可以看出 ,基于模糊 Q学习的双层协作模型的净胜球趋势线是上升的. 在学习的开始阶段 (大约第 50场比赛之前 ) ,赢的场数比输的场数要少. 这表明系统还在探索学习 ,因此学习的效果并没有采用经验知识的策略好. 但是趋势线上升明显 , 说明学习的方法逐渐显示出了它的作用. 从第 50场开始 ,赢的场数比输的场数逐渐增多 ,平均净胜球个数成为正数. 从第 120场开始 ,趋势线的上升开始逐渐变缓. 这是由于在进行了多场比赛后 , Q学习已经学习到大多数对方的策略. 而基于传统专家经验策略的净胜球趋势线显示出了明显的随机性 ,净胜球数在 0左右震荡 ,没有明显的规律性. 图 6中的趋势线表明基于 Q学习的策略是有效的 ,并且比赛的结果也是越来越好. 基于该协作模型的机器人系统在 2006年全国机器人赛 M iddle League SimuroSot项目中获得二等奖的好成绩. 4 结束语提出足球机器人双层决策模型并在协调层中引入模糊 Q学习方法 ,它能够有效地解决传统决策模型中由于决策交错而引起的机器人运动不连贯的缺点 ,并提高了决策系统的适应性和自学习能力. 在协调层中 ,针对机器人足球比赛的特点 ,通过采用对比赛场地分区和位置映射的方法 ,大大地降低了状态空间大小. 另外 ,提出了一种基于水平距离的奖励函数设计方法 ,使奖励分配更加合理 ,这在一定程度上提高了 Q学习的收敛速度. 参考文献 : [ 1 ]ASADA M, KITANO H. The robocup challenge [J ]. Ro2 botics and Autonomous System, 1999, 29 (1) : 3212. [ 2 ]赵逢达 , 孔令富 , 李贤善. 基于分层结构模型的机器人足球决策系统设计 [J ]. 哈尔滨工业大学学报 , 2005, 37 (7) : 9332935. ZHAO Fengda, KONG L ingfu, L I Xianshan. Design of ro2 bot soccer decision2making subsystem based on layered structure model[J ]. Journal of Harbin Institute of Technolo2 gy, 2005, 37 (7) : 9332935. [ 3 ]陆永忠 ,柯文德. 足球机器人决策系统的设计与实现 [J ]. 计算机仿真 , 2007, 24 (9) : 1292132. LU Yongzhong, KE W ende. Design and imp lementation of decision system for soccer robot[J ]. Computer Simulation, 2007, 24 (9) : 1292132. [ 4 ]刘云江 , 韩光胜. 基于多智能体规划的机器人足球决策模型 [ J ]. 哈尔滨工业大学学报 , 2004, 36 ( 7) : 8712 873. L IU Yunjiang, HAN Guangsheng. Decision2making model for robot2soccer based on multi2Agent[J ]. Journal of Harbin Institute of Teachnology, 2004, 36 (7) : 8712873. [ 5 ]曹卫华 , 桂卫华 , 吴敏 ,等. 一种基于行为的足球机器人双层决策模型 [C ] / / 哈尔滨 : 2006中国控制会议论文集. 2006: 8712873. CAO W eihua, GU IW eihua, WU M in, et al. A double2lay2 er decision2makingmodel based on behavior[C ] / / Proceed2 ings of the 25 th Chinese Control Conference ( Ⅲ). Harbin: 2006: 8712873. [ 6 ]郭锐 , 吴敏 , 彭军 ,等. 一种新的多智能体 Q学习算法 [J ]. 自动化学报 , 2007, 33 (4) : 3672372 GUO Rui, WU M in, PENG Jun, et al. A new Q learning algorithm formulti2Agent system s[J ]. Acta Automatica Sin2 ica, 2007, 33 (4) : 3672372. [ 7 ]高阳 , 陈世福 , 陆鑫. 强化学习研究综述 [J ]. 自动化学报 , 2004, 30 (1) : 862100. GAO Yang, CHEN Shifu, LU Xin. Research on reinforce2 ment learning technology: a review [ J ]. Acta Automatica Sinica, 2004, 30 (1) : 862100. [ 8 ]WATKINS C H, DAYAN P. Technical note: Q2learning [J ]. Machine Learning, 1992, 8 (324) : 2792292. [ 9 ] TSITSIKL IS J N. A synchronous stochastic app roximation and Q2learning [ J ]. Machine Learning, 1994, 16 ( 3 ) : 1852202. [ 10 ] L ITTMAN L, SZEPESVAR I C. A generalized reinforce2 ment learning model: convergence and App lications [C ] / /Proc of the 13 th International Conference on Ma2 chine Learning. Bari, Italy: Morgan Kanfmann, 1996: 310. 作者简介 : 曹卫华 ,男 , 1972年生 ,副教授、博士 ,主要研究方向为机器人与智能系统技术和过程控制. 1996～1997年赴日本金泽大学留学一年. 获省部级科技进步二等奖 2项、三等奖 2项. 徐凌云 ,男 , 1982 年生 ,硕士研究生 ,主要研究方向为足球机器人系统与多智能体技术. 吴敏 ,男 , 1963年生 ,博士生导师 , 238· 主要研究方向为过程控制、鲁棒控制和智能系统.1989～1990年在日本东北大学进修;1996～1999年赴日本东京工业大学从事国际合作研究;2001～2002年得到英国皇家学会资助,为英国诺丁汉大学访问教授.1999年与中野道雄教授和佘锦华博士一起获国际自动控制联合会(IFAC)控制工程实践优秀论文奖. · 智能系统学报第 3卷

<<向上翻页

点击下载：智能系统：模糊Q学习的足球机器人双层协作模型