第7卷第3期智能系统学报 Vol.7 No.3 2012年6月 CAAI

正在加载图片...

第7卷第3期智能系统学报 Vol.7 No.3 2012年6月 CAAI Transactions on Intelligent Systems Jun.2012 D0I:10.3969/i.issn.16734785.201110005 网络出版t地址：htp://www.cnki.net/kcma/detail/23.1538.TP.20120518.0845.002.html 采用时间差分算法的九路围棋机器博弈系统张小川，唐艳，梁宁宁 (重庆理工大学计算机科学与工程学院，重庆400054) 摘要：围棋机器博弈是机器博弈中重要的分支之一，其庞大的博弈空间给机器博奔研究者带来了巨大挑战.目前围棋机器博弈多采用静态估值搜素与蒙特卡洛树搜索，故将时间差分算法引入至九路围棋机器博弈系统中，提出基于时间差分算法的围棋机器博弈系统模型，该博弈系统具有一定的自学习能力，能在不断的对弈中逐步提高博弈能力.通过与采用B搜索算法的博弈系统进行实际对弈，证明了该方法的可行性：关键词：机器博弈；九路围棋：围棋机器博弈；时间差分算法中图分类号：TP31文献标志码：A文章编号：1673-4785(2012)03027805 A 9 x 9 Go computer game system using temporal difference ZHANG Xiaochuan,TANG Yan,LIANG Ningning (College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 400054,China) Abstract:Computer Go is an important branch of computer games and presents great challenges to computer game researchers due to its need for huge game space.Presently,the static evaluation method and the Monte-Carlo tree search method are widely used in Go computer games.In this paper,a temporal difference algorithm was intro- duced to the 9 x9 Go computer game system which gave it self-learning capability,thereby improving the game lev- els as a result of the continuous training.Through playing chess with a system which adopts an a-B algorithm,the new method was proven to be effective. Keywords:computer game;9x9 Go;Go computer game;temporal difference 近年来人工智能是信息科学中重要的热点研究标解.因此，本文尝试将时间差分法引入至围棋机器领域之一，其相关算法、技术及研究成果正被广泛运博弈，将博弈系统看成一个具有自我学习能力的围用于各行业，如军事、心理学、智能机器、商业智能棋人工生命体或围棋智能体，它能在不断的博弈过等.机器博弈是人工智能研究的重要分支，而围棋机程中提高自己的博弈能力.借助计算机C语言，实器博弈是机器博弈的热点问题之一，其庞大的搜索现了该围棋机器博弈系统，并且通过博弈实战验证空间和较高的复杂度，使其在机器博弈中有着重要了该方法的有效性和可行性的研究价值. 目前，围棋机器博弈中常采用的博弈算法有B 1时间差分算法剪枝搜索算法1、模式匹配231和UCT算法4等.围 1.1强化学习棋机器博弈相对于六子棋、象棋等其他棋类博弈拥强化学习(reinforcement learning,RL)较其他常有更大的搜索空间和更高的复杂度，当采用αβ等传用的机器学习算法，如神经网络、决策树等，在博弈统搜索算法时，会在时间有限情况下无法搜索到目系统中有着独特优势.该方法通过不断的试探与环境进行交互，根据试探所得到的反馈来决定下一动收稿日期：2011-10-17. 网络出版日期：201205-18 基金项目：重庆市敕委科研项目(KJ120824):重庆市自然科学基金资作选取，不同于传统的监督学习.监督学习需要一个助项目(2007BB2415). 教师信号来告诉智能体怎样选取动作，并给出好坏通信作者：张小川.E-mail:cqpczxe@163.com. 程度的评价标准，而强化学习则是通过环境反馈来

向下翻页>>

点击下载：智能系统：采用时间差分算法的九路围棋机器博弈系统