正在加载图片...
·238· 智能系统学报 第3卷 净胜球数=我方进球数·对方进球数 Institute of Teachnology,2004,36 (7):871-873 从图6中可以看出,基于模糊Q学习的双层协 [5曹卫华,桂卫华,吴敏,等.一种基于行为的足球机器 作模型的净胜球趋势线是上升的.在学习的开始阶 人双层决策模型[C]/哈尔滨:2006中国控制会议论文 集.2006:871-873. 段大约第50场比赛之前),赢的场数比输的场数 CAO Weihua,G IW eihua,WU Min,et al A double-lay- 要少.这表明系统还在探索学习,因此学习的效果并 er decisionmaking model based on behavior[C]//Proceed- 没有采用经验知识的策略好.但是趋势线上升明显, ings of the 25 th Chinese Control Conference(III).Harbin: 说明学习的方法逐渐显示出了它的作用.从第50场 2006:871-873 开始,赢的场数比输的场数逐渐增多,平均净胜球个 「6郭锐,吴敏,彭军等.一种新的多智能体Q学 数成为正数.从第120场开始,趋势线的上升开始逐 习算法[J].自动化学报,2007,33(4):367-372 GO Rui.WU Min,PENG Jun,et al A new Q leaming 渐变缓.这是由于在进行了多场比赛后,Q学习已经 algorithm formulti-Agent system s[J ]Acta Autmatica Sin- 学习到大多数对方的策略.而基于传统专家经验策 ica,2007,33(4):367-372 略的净胜球趋势线显示出了明显的随机性,净胜球 [7高阳,陈世福,陆鑫.强化学习研究综述[J]自动 数在0左右震荡,没有明显的规律性.图6中的趋势 化学报,2004,30(1):86-100 线表明基于Q学习的策略是有效的,并且比赛的结 GAO Yang,CHEN Shifu,LU Xin Research on reinforce- 果也是越来越好.基于该协作模型的机器人系统在 ment leaming technolgy:a review [J].Acta Automatica Sinica,2004,30(1):86-100 2006年全国机器人赛Middle League SmuroSot项目 [8 ]WATKNS C H,DA YAN P Technical note:Q-leaming 中获得二等奖的好成绩。 [J].Machine Leaming.1992,8(3-4):279-292 [9]TSITS IKL IS J N.Asynchronous stochastic approxmation 4结束语 and Q-leaming [J ]Machine Leaming,1994,16 (3): 185-202 提出足球机器人双层决策模型并在协调层中引 [10 L ITIMAN L,SZEPESVAR I C A generalized reinforce- 入模糊Q学习方法,它能够有效地解决传统决策模 ment leaming model convergence and Applications 型中由于决策交错而引起的机器人运动不连贯的缺 [C]//Proc of the 13th Intemational Conference on Ma- 点,并提高了决策系统的适应性和自学习能力.在协 chine Leaming Bari,Italy:Morgan Kanfnann,1996: 调层中,针对机器人足球比赛的特点,通过采用对比 310 赛场地分区和位置映射的方法,大大地降低了状态 作者简介: 空间大小.另外,提出了一种基于水平距离的奖励函 曹卫华,男,1972年生,副教授、博 数设计方法,使奖励分配更加合理,这在一定程度上 士,主要研究方向为机器人与智能系统 提高了Q学习的收敛速度 技术和过程控制.1996~1997年赴日本 金泽大学留学一年.获省部级科技进步 参考文献: 二等奖2项、三等奖2项。 [1 ]ASADA M,KITANO H The robocup challenge [J].Ro- botics and Autonomous System,1999,29(1):3-12 [2赵逢达,孔令富,李贤善.基于分层结构模型的机器人 徐凌云,男,1982年生,硕士研究 足球决策系统设计[J1哈尔滨工业大学学报,2005,37 生,主要研究方向为足球机器人系统与 (7):933935 多智能体技术 ZHAO Fengda.KONG L ingfu,LI Xianshan Design of ro- bot soccer decisionmaking subsystem based on layered structure model[J ]Joumal of Harbin Institute of Technol- gy,2005,37(7):933-935 吴敏,男,1963年生,博士生导师 [3陆永忠,柯文德.足球机器人决策系统的设计与实现 主要研究方向为过程控制、鲁棒控制 [J]计算机仿真,2007,24(9):129-32 和智能系统.1989~1990年在日本东 LU Yonghong,KE Wende Design and mplementaton of 北大学进修:1996~1999年赴日本东京工 decision system or soccer robot[J]Computer Smulation, 业大学从事国际合作研究,2001~2002年 2007,24(9):129-132 得到英国皇家学会资助,为英国诺丁汉 [4浏云江,韩光胜.基于多智能体规划的机器人足球决策 大学访问教授.1999年与中野道雄教授和余锦华博士一起获 模型[J]哈尔滨工业大学学报,2004,36(7):871- 国际自动控制联合会(IFAC)控制工程实践优秀论文奖. 873 L U Yunjiang,HAN Guangsheng Decisonmaking model for robot-soccer based on multi-Agent[J].Joumal of Harbin 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net净胜球数 = 我方进球数 - 对方进球数. 从图 6中可以看出 ,基于模糊 Q学习的双层协 作模型的净胜球趋势线是上升的. 在学习的开始阶 段 (大约第 50场比赛之前 ) ,赢的场数比输的场数 要少. 这表明系统还在探索学习 ,因此学习的效果并 没有采用经验知识的策略好. 但是趋势线上升明显 , 说明学习的方法逐渐显示出了它的作用. 从第 50场 开始 ,赢的场数比输的场数逐渐增多 ,平均净胜球个 数成为正数. 从第 120场开始 ,趋势线的上升开始逐 渐变缓. 这是由于在进行了多场比赛后 , Q学习已经 学习到大多数对方的策略. 而基于传统专家经验策 略的净胜球趋势线显示出了明显的随机性 ,净胜球 数在 0左右震荡 ,没有明显的规律性. 图 6中的趋势 线表明基于 Q学习的策略是有效的 ,并且比赛的结 果也是越来越好. 基于该协作模型的机器人系统在 2006年全国机器人赛 M iddle League SimuroSot项目 中获得二等奖的好成绩. 4 结束语 提出足球机器人双层决策模型并在协调层中引 入模糊 Q学习方法 ,它能够有效地解决传统决策模 型中由于决策交错而引起的机器人运动不连贯的缺 点 ,并提高了决策系统的适应性和自学习能力. 在协 调层中 ,针对机器人足球比赛的特点 ,通过采用对比 赛场地分区和位置映射的方法 ,大大地降低了状态 空间大小. 另外 ,提出了一种基于水平距离的奖励函 数设计方法 ,使奖励分配更加合理 ,这在一定程度上 提高了 Q学习的收敛速度. 参考文献 : [ 1 ]ASADA M, KITANO H. The robocup challenge [J ]. Ro2 botics and Autonomous System, 1999, 29 (1) : 3212. [ 2 ]赵逢达 , 孔令富 , 李贤善. 基于分层结构模型的机器人 足球决策系统设计 [J ]. 哈尔滨工业大学学报 , 2005, 37 (7) : 9332935. ZHAO Fengda, KONG L ingfu, L I Xianshan. Design of ro2 bot soccer decision2making subsystem based on layered structure model[J ]. Journal of Harbin Institute of Technolo2 gy, 2005, 37 (7) : 9332935. [ 3 ]陆永忠 ,柯文德. 足球机器人决策系统的设计与实现 [J ]. 计算机仿真 , 2007, 24 (9) : 1292132. LU Yongzhong, KE W ende. Design and imp lementation of decision system for soccer robot[J ]. Computer Simulation, 2007, 24 (9) : 1292132. [ 4 ]刘云江 , 韩光胜. 基于多智能体规划的机器人足球决策 模型 [ J ]. 哈尔滨工业大学学报 , 2004, 36 ( 7) : 8712 873. L IU Yunjiang, HAN Guangsheng. Decision2making model for robot2soccer based on multi2Agent[J ]. Journal of Harbin Institute of Teachnology, 2004, 36 (7) : 8712873. [ 5 ]曹卫华 , 桂卫华 , 吴 敏 ,等. 一种基于行为的足球机器 人双层决策模型 [C ] / / 哈尔滨 : 2006中国控制会议论文 集. 2006: 8712873. CAO W eihua, GU IW eihua, WU M in, et al. A double2lay2 er decision2makingmodel based on behavior[C ] / / Proceed2 ings of the 25 th Chinese Control Conference ( Ⅲ). Harbin: 2006: 8712873. [ 6 ]郭 锐 , 吴 敏 , 彭 军 ,等. 一种新的多智能体 Q学 习算法 [J ]. 自动化学报 , 2007, 33 (4) : 3672372 GUO Rui, WU M in, PENG Jun, et al. A new Q learning algorithm formulti2Agent system s[J ]. Acta Automatica Sin2 ica, 2007, 33 (4) : 3672372. [ 7 ]高 阳 , 陈世福 , 陆 鑫. 强化学习研究综述 [J ]. 自动 化学报 , 2004, 30 (1) : 862100. GAO Yang, CHEN Shifu, LU Xin. Research on reinforce2 ment learning technology: a review [ J ]. Acta Automatica Sinica, 2004, 30 (1) : 862100. [ 8 ]WATKINS C H, DAYAN P. Technical note: Q2learning [J ]. Machine Learning, 1992, 8 (324) : 2792292. [ 9 ] TSITSIKL IS J N. A synchronous stochastic app roximation and Q2learning [ J ]. Machine Learning, 1994, 16 ( 3 ) : 1852202. [ 10 ] L ITTMAN L, SZEPESVAR I C. A generalized reinforce2 ment learning model: convergence and App lications [C ] / /Proc of the 13 th International Conference on Ma2 chine Learning. Bari, Italy: Morgan Kanfmann, 1996: 310. 作者简介 : 曹卫华 ,男 , 1972年生 ,副教授、博 士 ,主要研究方向为机器人与智能系统 技术和过程控制. 1996~1997年赴日本 金泽大学留学一年. 获省部级科技进步 二等奖 2项、三等奖 2项. 徐凌云 ,男 , 1982 年生 ,硕士研究 生 ,主要研究方向为足球机器人系统与 多智能体技术. 吴 敏 ,男 , 1963年生 ,博士生导师 , 238· 主要研究方向为过程 控 制、鲁 棒 控 制 和 智 能 系 统.1989~1990年在日本东 北大学进修;1996~1999年赴日本东京工 业大学从事国际合作研究;2001~2002年 得到英国皇家学会资助,为英国诺丁汉 大学访问教授.1999年与中野道雄教授和佘锦华博士一起获 国际自动控制联合会(IFAC)控制工程实践优秀论文奖. · 智 能 系 统 学 报 第 3卷
<<向上翻页
©2008-现在 cucdc.com 高等教育资讯网 版权所有