正在加载图片...
第7卷第3期 智能系统学报 Vol.7 No.3 2012年6月 CAAI Transactions on Intelligent Systems Jun.2012 D0I:10.3969/i.issn.16734785.201110005 网络出版t地址:htp://www.cnki.net/kcma/detail/23.1538.TP.20120518.0845.002.html 采用时间差分算法的九路围棋机器博弈系统 张小川,唐艳,梁宁宁 (重庆理工大学计算机科学与工程学院,重庆400054) 摘要:围棋机器博弈是机器博弈中重要的分支之一,其庞大的博弈空间给机器博奔研究者带来了巨大挑战.目前 围棋机器博弈多采用静态估值搜素与蒙特卡洛树搜索,故将时间差分算法引入至九路围棋机器博弈系统中,提出基 于时间差分算法的围棋机器博弈系统模型,该博弈系统具有一定的自学习能力,能在不断的对弈中逐步提高博弈能 力.通过与采用B搜索算法的博弈系统进行实际对弈,证明了该方法的可行性: 关键词:机器博弈;九路围棋:围棋机器博弈;时间差分算法 中图分类号:TP31文献标志码:A文章编号:1673-4785(2012)03027805 A 9 x 9 Go computer game system using temporal difference ZHANG Xiaochuan,TANG Yan,LIANG Ningning (College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 400054,China) Abstract:Computer Go is an important branch of computer games and presents great challenges to computer game researchers due to its need for huge game space.Presently,the static evaluation method and the Monte-Carlo tree search method are widely used in Go computer games.In this paper,a temporal difference algorithm was intro- duced to the 9 x9 Go computer game system which gave it self-learning capability,thereby improving the game lev- els as a result of the continuous training.Through playing chess with a system which adopts an a-B algorithm,the new method was proven to be effective. Keywords:computer game;9x9 Go;Go computer game;temporal difference 近年来人工智能是信息科学中重要的热点研究标解.因此,本文尝试将时间差分法引入至围棋机器 领域之一,其相关算法、技术及研究成果正被广泛运博弈,将博弈系统看成一个具有自我学习能力的围 用于各行业,如军事、心理学、智能机器、商业智能 棋人工生命体或围棋智能体,它能在不断的博弈过 等.机器博弈是人工智能研究的重要分支,而围棋机 程中提高自己的博弈能力.借助计算机C语言,实 器博弈是机器博弈的热点问题之一,其庞大的搜索 现了该围棋机器博弈系统,并且通过博弈实战验证 空间和较高的复杂度,使其在机器博弈中有着重要 了该方法的有效性和可行性 的研究价值. 目前,围棋机器博弈中常采用的博弈算法有B 1时间差分算法 剪枝搜索算法1、模式匹配231和UCT算法4等.围 1.1强化学习 棋机器博弈相对于六子棋、象棋等其他棋类博弈拥 强化学习(reinforcement learning,RL)较其他常 有更大的搜索空间和更高的复杂度,当采用αβ等传 用的机器学习算法,如神经网络、决策树等,在博弈 统搜索算法时,会在时间有限情况下无法搜索到目 系统中有着独特优势.该方法通过不断的试探与环 境进行交互,根据试探所得到的反馈来决定下一动 收稿日期:2011-10-17. 网络出版日期:201205-18 基金项目:重庆市敕委科研项目(KJ120824):重庆市自然科学基金资 作选取,不同于传统的监督学习.监督学习需要一个 助项目(2007BB2415). 教师信号来告诉智能体怎样选取动作,并给出好坏 通信作者:张小川.E-mail:cqpczxe@163.com. 程度的评价标准,而强化学习则是通过环境反馈来
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有