正在加载图片...
282. 智能系统学报 第7卷 于围棋博弈的复杂度较高,因此为了提高算法实时 based on immune clustering[J].Journal of Harbin Engi- 性,采用此类模型时将系统状态统计为6个状态因 neering University,2007,28(4):423-428. 素向量,下棋动作划分为6类.这样便简化了系统状 [7]BAE J,CHHATBAR P,FRANCIS J T,et al.Reinforce- 态和动作.虽然该方法能提高算法实时性,但其也存 ment learning via kernel temporal difference[C]//Proceed- ings of the Annual International Conference of the IEEE En- 在不足,无法清晰划分动作和系统状态.而且系统状 gineering in Medicine and Biology Society.Boston,USA, 态和动作的划分直接影响人工神经网络结构,进而 2011:5662-5665, 影响模拟结果.本文后期研究工作的方向是在保证 [8]SUTTON R S.Leaming to predict by the methods of tempo- 算法实时性的前提下,如何划分系统的状态和动作 ral difference[J].Machine Learning,1988,3(1):9-44. 而现阶段围棋机器博弈大都采用蒙特卡洛算法,后 [9]KAELBLING L P,LITTMAN M L,MOORE A W.Rein- 期亦可考虑与其结合来提高算法的有效性。 forcement leaming:a survey[J].Journal of Artificial Intel- ligence Research,1996,4:237-285. 参考文献: [10]阿培丁.机器学习导论[M].范明,昝红英,牛常勇,译 [1]张聪品,刘春红,徐久成.博弈树启发式搜索的aB剪枝 北京:机械工业出版社,2009:372-390. 技术研究[J].计算机工程与应用,2008,44(16):54- [11]SUTTON R S,BARTO A G.Reinforcement learning:an 55,97. introduction M].Cambridge,USA:The MIT Press, ZHANG Congpin,LIU Chunhong,XU Jiucheng.Research 1997. on alpha-beta pruning of heuristic search in game-playing [12]聂卫平,冯大树.聂卫平围棋道场[M].北京:北京体育 tree[J].Computer Engineering and Applications,2008, 大学出版社,2004. 44(16):54-55,97. [13]徐长明,马宗民,徐心和,等.面向机器博弈的即时差分 [2]刘知青,李文峰.现代计算机围棋基础[M].北京:北京 学习研究[J1.计算机科学,2010,37(8):219-224. 邮电大学出版杜,2011:6380. XU Changming,MA Zongmin,XU Xinhe,et al.Study of [3]GELLY S,WANG Yizao,MUNOS R,et al.Modification of temporal difference learning in computer games[J].Com- UCT with patterns in Monte-Carlo Go[R/OL].[2011-10- puter Science,2010,37(8):219-224. 15].http:/219.142.86.87/paper/RR6062.pdf. 作者简介: [4]GELLY S,WANG Yizao.Exploration exploitation in Go: 张小川,男,1965年生,教授,中国人 UCT for Monte-Carlo Go[C/OL].[2011-10-15].http:// 工智能学会机器博弈专业委员会副主 wenku.baidu.com/view/66c2edd6b9f390f76c61bc0.html. 任.主要研究方向为人工智能、人工生 [5]张汝波,周宁,顾国昌,等.基于强化学习的智能机器人 命、计算机软件等.主持国家级、省部级 避碰方法研究[J].机器人,1995,21(3):204-209. 项目6项,横向项目30余项,曾获重庆 ZHANG Rubo,ZHOU Ning,GU Guochang,et al.Rein- 市自然科学奖1项、科技进步奖1项,重 forcement learning based obstacle avoidance leaming for in- 庆市教学成果奖1项.主编教材3部,发表学术论文50余篇. telligent robot[J].Robot,1995,21 (3):204-209. [6]沈晶,顾国昌,刘海波.基于免疫聚类的自动分层强化学 唐艳,女,1987年生,硕士研究生, 习方法研究[J].哈尔滨工程大学学报,2007,28(4): 主要研究方向为计算智能与智能软件。 423-428 SHEN Jing,GU Guochang,LIU Haibo.Hierarchical rein- forcement learning with an automatically generated hierarchy
<<向上翻页
©2008-现在 cucdc.com 高等教育资讯网 版权所有