282. 智能系统学报第7卷于围棋博弈的复杂度较高，因此为了提高算法实

正在加载图片...

282. 智能系统学报第7卷于围棋博弈的复杂度较高，因此为了提高算法实时 based on immune clustering[J].Journal of Harbin Engi- 性，采用此类模型时将系统状态统计为6个状态因 neering University,2007,28(4):423-428. 素向量，下棋动作划分为6类.这样便简化了系统状 [7]BAE J,CHHATBAR P,FRANCIS J T,et al.Reinforce- 态和动作.虽然该方法能提高算法实时性，但其也存 ment learning via kernel temporal difference[C]//Proceed- ings of the Annual International Conference of the IEEE En- 在不足，无法清晰划分动作和系统状态.而且系统状 gineering in Medicine and Biology Society.Boston,USA, 态和动作的划分直接影响人工神经网络结构，进而 2011：5662-5665, 影响模拟结果.本文后期研究工作的方向是在保证 [8]SUTTON R S.Leaming to predict by the methods of tempo- 算法实时性的前提下，如何划分系统的状态和动作 ral difference[J].Machine Learning,1988,3(1):9-44. 而现阶段围棋机器博弈大都采用蒙特卡洛算法，后 [9]KAELBLING L P,LITTMAN M L,MOORE A W.Rein- 期亦可考虑与其结合来提高算法的有效性。 forcement leaming:a survey[J].Journal of Artificial Intel- ligence Research,1996,4:237-285. 参考文献： [10]阿培丁.机器学习导论[M].范明，昝红英，牛常勇，译 [1]张聪品，刘春红，徐久成.博弈树启发式搜索的aB剪枝北京：机械工业出版社，2009：372-390. 技术研究[J].计算机工程与应用，2008,44(16)：54- [11]SUTTON R S,BARTO A G.Reinforcement learning:an 55,97. introduction M].Cambridge,USA:The MIT Press, ZHANG Congpin,LIU Chunhong,XU Jiucheng.Research 1997. on alpha-beta pruning of heuristic search in game-playing [12]聂卫平，冯大树.聂卫平围棋道场[M].北京：北京体育 tree[J].Computer Engineering and Applications,2008, 大学出版社，2004. 44(16):54-55,97. [13]徐长明，马宗民，徐心和，等.面向机器博弈的即时差分 [2]刘知青，李文峰.现代计算机围棋基础[M].北京：北京学习研究[J1.计算机科学，2010,37(8)：219-224. 邮电大学出版杜，2011：6380. XU Changming,MA Zongmin,XU Xinhe,et al.Study of [3]GELLY S,WANG Yizao,MUNOS R,et al.Modification of temporal difference learning in computer games[J].Com- UCT with patterns in Monte-Carlo Go[R/OL].[2011-10- puter Science,2010,37(8):219-224. 15].http:/219.142.86.87/paper/RR6062.pdf. 作者简介： [4]GELLY S,WANG Yizao.Exploration exploitation in Go: 张小川，男，1965年生，教授，中国人 UCT for Monte-Carlo Go[C/OL].[2011-10-15].http:// 工智能学会机器博弈专业委员会副主 wenku.baidu.com/view/66c2edd6b9f390f76c61bc0.html. 任.主要研究方向为人工智能、人工生 [5]张汝波，周宁，顾国昌，等.基于强化学习的智能机器人命、计算机软件等.主持国家级、省部级避碰方法研究[J].机器人，1995,21(3)：204-209. 项目6项，横向项目30余项，曾获重庆 ZHANG Rubo,ZHOU Ning,GU Guochang,et al.Rein- 市自然科学奖1项、科技进步奖1项，重 forcement learning based obstacle avoidance leaming for in- 庆市教学成果奖1项.主编教材3部，发表学术论文50余篇. telligent robot[J].Robot,1995,21 (3):204-209. [6]沈晶，顾国昌，刘海波.基于免疫聚类的自动分层强化学唐艳，女，1987年生，硕士研究生，习方法研究[J].哈尔滨工程大学学报，2007,28(4)：主要研究方向为计算智能与智能软件。 423-428 SHEN Jing,GU Guochang,LIU Haibo.Hierarchical rein- forcement learning with an automatically generated hierarchy

<<向上翻页

点击下载：智能系统：采用时间差分算法的九路围棋机器博弈系统