第15卷第2期 智能系统学报 Vol.15 No.2 2020年3月 CAAI Transactions on Intelligent Systems Mar.2020 D0:10.11992tis.201809033 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190416.1007.002.html 深度强化学习中状态注意力机制的研究 申翔翔,侯新文2,尹传环 (1.北京交通大学交通数据分析与挖掘北京市重点实验室,北京100044;2.中国科学院自动化研究所智能系 统与工程研究中心,北京110016) 摘要:虽然在深度学习与强化学习结合后,人工智能在棋类游戏和视频游戏等领域取得了超越人类水平的重 大成就,但是实时策略性游戏星际争霸由于其巨大的状态空间和动作空间,对于人工智能研究者来说是一个巨 大的挑战平台,针对Deepmind在星际争霸Ⅱ迷你游戏中利用经典的深度强化学习算法A3C训练出来的基线智 能体的水平和普通业余玩家的水平相比还存在较大的差距的问题。通过采用更简化的网络结构以及把注意力 机制与强化学习中的奖励结合起来的方法,提出基于状态注意力的A3C算法,所训练出来的智能体在个别星 际迷你游戏中利用更少的特征图层取得的成绩最高,高于Deepmind的基线智能体71分。 关键词:深度学习:强化学习;注意力机制:A3C算法:星际争霸Ⅱ迷你游戏:智能体:微型操作 中图分类号:TP183文献标志码:A文章编号:1673-4785(2020)02-0317-06 中文引用格式:申翔翔,侯新文,尹传环.深度强化学习中状态注意力机制的研究.智能系统学报,2020,15(2):317-322. 英文引用格式:SHEN Xiangxiang,HOUXinwen,YIN Chuanhuan,State attention in deep reinforcement learning.CAAI trans-- actions on intelligent systems,2020,15(2):317-322. State attention in deep reinforcement learning SHEN Xiangxiang',HOU Xinwen',YIN Chuanhuan (1.Beijing Key Laboratory of Traffic Data Analysis and Mining,Beijing Jiaotong University,Beijing 100044,China;2.Center for Research on Intelligent System and Engineering,Institute of Automation,Chinese Academy of Sciences,Beijing 110016,China) Abstract:Through artificial intelligence,significant achievements beyond the human level have been made in the field of board games and video games since the emergence of deep reinforcement learning.However,the real-time strategic game StarCraft is a huge challenging platform for artificial intelligence researchers due to its huge state space and ac- tion space.Considering that the level of baseline agents trained by DeepMind using classical deep reinforcement learn- ing algorithm A3C in StarCraft II mini-game is still far from that of ordinary amateur players,by adopting a more sim- plified network structure and combining the attention mechanism with rewards in reinforcement learning,an A3C al- gorithm based on state attention is proposed to solve this problem.The trained agent achieves the highest score,which is 71 points higher than Deepmind's baseline agent in individual interplanetary mini games with fewer feature layers. Keywords:deep learning;reinforcement learning;attention mechanism;A3C;StarCraft II mini-games;agent;micro- management 近年来,由于硬件的发展,计算资源的增加, 语音识别和自然语言处理等领域的研究水平达到 深度学习在人工智能领域崛起。利用深度学习可 新高度"。 以从高维原始数据中提取高层特征,研究者们不 在强化学习和深度学习结合起来之后也获得 再受手工选取特征的影响,进而使得图像检测、 了质的飞跃,促进了游戏、机器人、金融管理、健 收稿日期:2018-09-17.网络出版日期:2019-04-17. 康医疗和智慧交通等领域的发展。引人注意的是 基金项目:中央高校基本科研业务费专项资金项目(2018JBZ 深度强化学习深度Q网络在Atari游戏上的应用 006):国家自然科学基金项目(61105056). 通信作者:尹传环.E-mail:chyin@bjtu.edu.cn. 取得了重大的突破,达到人类水平。深度强化
DOI: 10.11992/tis.201809033 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190416.1007.002.html 深度强化学习中状态注意力机制的研究 申翔翔1 ,侯新文2 ,尹传环1 (1. 北京交通大学 交通数据分析与挖掘北京市重点实验室,北京 100044; 2. 中国科学院自动化研究所 智能系 统与工程研究中心,北京 110016) 摘 要:虽然在深度学习与强化学习结合后,人工智能在棋类游戏和视频游戏等领域取得了超越人类水平的重 大成就,但是实时策略性游戏星际争霸由于其巨大的状态空间和动作空间,对于人工智能研究者来说是一个巨 大的挑战平台,针对 Deepmind 在星际争霸 II 迷你游戏中利用经典的深度强化学习算法 A3C 训练出来的基线智 能体的水平和普通业余玩家的水平相比还存在较大的差距的问题。通过采用更简化的网络结构以及把注意力 机制与强化学习中的奖励结合起来的方法,提出基于状态注意力的 A3C 算法,所训练出来的智能体在个别星 际迷你游戏中利用更少的特征图层取得的成绩最高,高于 Deepmind 的基线智能体 71 分。 关键词:深度学习;强化学习;注意力机制;A3C 算法;星际争霸 II 迷你游戏;智能体;微型操作 中图分类号:TP183 文献标志码:A 文章编号:1673−4785(2020)02−0317−06 中文引用格式:申翔翔, 侯新文, 尹传环. 深度强化学习中状态注意力机制的研究 [J]. 智能系统学报, 2020, 15(2): 317–322. 英文引用格式:SHEN Xiangxiang, HOU Xinwen, YIN Chuanhuan. State attention in deep reinforcement learning[J]. CAAI transactions on intelligent systems, 2020, 15(2): 317–322. State attention in deep reinforcement learning SHEN Xiangxiang1 ,HOU Xinwen2 ,YIN Chuanhuan1 (1. Beijing Key Laboratory of Traffic Data Analysis and Mining, Beijing Jiaotong University, Beijing 100044, China; 2. Center for Research on Intelligent System and Engineering, Institute of Automation, Chinese Academy of Sciences, Beijing 110016, China) Abstract: Through artificial intelligence, significant achievements beyond the human level have been made in the field of board games and video games since the emergence of deep reinforcement learning. However, the real-time strategic game StarCraft is a huge challenging platform for artificial intelligence researchers due to its huge state space and action space. Considering that the level of baseline agents trained by DeepMind using classical deep reinforcement learning algorithm A3C in StarCraft II mini-game is still far from that of ordinary amateur players, by adopting a more simplified network structure and combining the attention mechanism with rewards in reinforcement learning, an A3C algorithm based on state attention is proposed to solve this problem. The trained agent achieves the highest score, which is 71 points higher than Deepmind’s baseline agent in individual interplanetary mini games with fewer feature layers. Keywords: deep learning; reinforcement learning; attention mechanism; A3C; StarCraft II mini-games; agent; micromanagement 近年来,由于硬件的发展,计算资源的增加, 深度学习在人工智能领域崛起。利用深度学习可 以从高维原始数据中提取高层特征,研究者们不 再受手工选取特征的影响,进而使得图像检测、 语音识别和自然语言处理等领域的研究水平达到 新高度[1]。 在强化学习和深度学习结合起来之后也获得 了质的飞跃,促进了游戏、机器人、金融管理、健 康医疗和智慧交通等领域的发展。引人注意的是 深度强化学习深度 Q 网络在 Atari 游戏上的应用 取得了重大的突破,达到人类水平[2]。深度强化 收稿日期:2018−09−17. 网络出版日期:2019−04−17. 基金项目:中央高校基本科研业务费专项资金项目 (2018JBZ 006);国家自然科学基金项目 (61105056). 通信作者:尹传环. E-mail:chyin@bjtu.edu.cn. 第 15 卷第 2 期 智 能 系 统 学 报 Vol.15 No.2 2020 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2020
·318· 智能系统学报 第15卷 学习在人工智能领域的作用日益显著,“围棋专 智能体需要关注到输入状态序列中有价值的状 家”AlphaGo到AlphaZero的水平也远远超过甚至 态。以星际争霸Ⅱ中的3个经典迷你游戏作为测 碾压人类水平。AlphaGo和AlphaZero的主要贡 试平台,它们分别是战胜跳虫和毒爆虫(De- 献者David Silver在他的教程中明确指出人工智 featZerglingsAndBanelings),奔向烽火处(MoveTo- 能就是深度学习与强化学习,并决定将其带领的 Beacon)以及收集矿物碎片(CollectMineralShards), Deepmind团队的重点研究转移到难度更大的实 在这些小游戏中,智能体只包含4种动作行为,即 时策略性游戏星际争霸上,因此掀起了人工智能 上下左右,这样就可以大大缩小动作空间。利用 领域的另一波研究热潮。 星际争霸Ⅱ学习环境中提供的接口,可以获取很 星际争霸是一个微观操作和宏观计划相结合 多状态特征,比如非空间特征和空间特征图层, 的战争对抗性实时策略游戏,游戏玩家在大面积 进而来训练智能体,但是经过分析这3个迷你游 而且部分信息可见的环境中必须学会控制大量的 戏发现智能体获取如此多的空间特征是没有必要 游戏单元以发展经济,建造建筑,建设军队,从而 的,因此我们挑选了部分特征,去掉冗余特征,以 能够为获取战争的胜利打下坚实的基础。星际争 加快智能体的学习速度。 霸状态空间和动作空间是十分巨大的,截至目 根据以上所谈论到的问题以及注意力机制的 前,学者们直接在整个游戏上研究是十分困难 优势,本文的主要贡献包括到以下两个方面: 的,现在的研究主要集中在一些经典场景的微型 l)采用的网络结构比Deepmind提供的基线 操作中,期望成为研究整个游戏人工智能的基 智能体的网络结构更加简洁。 石。Deepmind团队与游戏星际争霸的拥有者暴 2)将强化学习中的奖励与注意力机制结合起 雪公司合作将星际Ⅱ发展成为研究人工智能的环 来,每一个时间步,智能体更加关注有价值的游 境,并在文献4中详细介绍了星际争霸Ⅱ的学习环 戏状态。 境SC2LE(StarCraftⅡLearning Environment)并且 通过以上两个方面相结合,不仅加速了智能 还针对星际争霸Ⅱ中的迷你游戏运用经典的深度 体在星际争霸Ⅱ中的学习速度,也使得智能体学 强化学习算法A3C(Asynchronous Advantage Actor-. 习到更优的策略,取得更好的成绩。 Critic)训练出一些基线智能体。事实上,在Deep 1强化学习 mind团队决定研究星际争霸之前,其他研究者们 在星际争霸上的研究工作就进行了很多年1, 在本节中首先回顾一下经典的强化学习场 只不过绝大部分的研究工作主要集中在星际争霸 景以及算法A3C7。 I而不是星际争霸Ⅱ上,基于不同的机器学习算 经典的强化学习场景中的一些基本概念描述 法在不同的方面进行研究并取得了一些成果,例 如下:在某一时刻t,智能体根据当前环境的状态 如,对星际争霸中的战争结果进行估计6刀,在宏 s,以及策略π发送动作信号a,与环境交互,并且根 观上进行管理⑧,对智能体行为的可解释性进行 据环境返回的状态信息1与奖励,=r(s,a,)信 研究0,以及将强化学习应用到微操场景中去。 息不断更新自己的策略π,获取的累计收益表示为 注意力机制是自深度学习发展之后广泛应用 在自然语言处理、图像检测、语音识别等领域的 k=0 核心技术。神经网络中的注意机制)是基于人 其中y∈(0,1)表示折扣因子。智能体的目标可以 类的视觉注意机制提出的,虽然存在不同的模 表示为 型,但它们都基本上归结为能够以高分辨率聚焦 maxEs-P Rils:=s] 在图像的某个区域,同时以低分辨率感知周围的 P为状态s的先验分布,动作值函数表示为 图像区域,然后不断调整关注点。近年来注意力 O(s,a)=E[Rils:=s,a=al 机制也开始被应用于循环神经网络(recurrent 表示在状态s下根据策略π选择动作a的期望累 neural networks)lsl,主要涉及自然语言处理和图 计回报。同样的,状态值函数表示为 像检测等领域,主要思想是解码器在每一时间步 V"(s)=E [R,ls,=s] 中都能够关注到源输入序列的不同位置,重点是 表示在策略π下状态,=s的期望累计回报。 注意力模型可以关注到目前已经学习到的内容以 A3C算法是将策略函数和价值函数相结合的 及学习下一步应该主要关注的内容。本文创新灵 强化学习方法,对目标函数式(1): 感的来源主要是:在强化学习决策序列过程中, Jo(s)=Es,[R,ls,=s] (1)
学习在人工智能领域的作用日益显著,“围棋专 家”AlphaGo 到 AlphaZero 的水平也远远超过甚至 碾压人类水平[3]。AlphaGo 和 AlphaZero 的主要贡 献者 David Silver 在他的教程中明确指出人工智 能就是深度学习与强化学习,并决定将其带领的 Deepmind 团队的重点研究转移到难度更大的实 时策略性游戏星际争霸上,因此掀起了人工智能 领域的另一波研究热潮。 星际争霸是一个微观操作和宏观计划相结合 的战争对抗性实时策略游戏,游戏玩家在大面积 而且部分信息可见的环境中必须学会控制大量的 游戏单元以发展经济,建造建筑,建设军队,从而 能够为获取战争的胜利打下坚实的基础。星际争 霸状态空间和动作空间是十分巨大的,截至目 前,学者们直接在整个游戏上研究是十分困难 的,现在的研究主要集中在一些经典场景的微型 操作中,期望成为研究整个游戏人工智能的基 石。Deepmind 团队与游戏星际争霸的拥有者暴 雪公司合作将星际Ⅱ发展成为研究人工智能的环 境,并在文献 [4] 中详细介绍了星际争霸Ⅱ的学习环 境 SC2LE(StarCraft Ⅱ Learning Environment) 并且 还针对星际争霸Ⅱ中的迷你游戏运用经典的深度 强化学习算法 A3C(Asynchronous Advantage ActorCritic) 训练出一些基线智能体。事实上,在 Deepmind 团队决定研究星际争霸之前,其他研究者们 在星际争霸上的研究工作就进行了很多年[ 5 ] , 只不过绝大部分的研究工作主要集中在星际争霸 Ⅰ而不是星际争霸Ⅱ上,基于不同的机器学习算 法在不同的方面进行研究并取得了一些成果,例 如,对星际争霸中的战争结果进行估计[6-7] ,在宏 观上进行管理[8] ,对智能体行为的可解释性进行 研究[9-10] ,以及将强化学习应用到微操场景中去[11-13]。 注意力机制是自深度学习发展之后广泛应用 在自然语言处理、图像检测、语音识别等领域的 核心技术。神经网络中的注意机制[14] 是基于人 类的视觉注意机制提出的,虽然存在不同的模 型,但它们都基本上归结为能够以高分辨率聚焦 在图像的某个区域,同时以低分辨率感知周围的 图像区域,然后不断调整关注点。近年来注意力 机制也开始被应用于循环神经网络 (recurrent neural networks)[15-16] ,主要涉及自然语言处理和图 像检测等领域,主要思想是解码器在每一时间步 中都能够关注到源输入序列的不同位置,重点是 注意力模型可以关注到目前已经学习到的内容以 及学习下一步应该主要关注的内容。本文创新灵 感的来源主要是:在强化学习决策序列过程中, 智能体需要关注到输入状态序列中有价值的状 态。以星际争霸 II 中的 3 个经典迷你游戏作为测 试平台,它们分别是战胜跳虫和毒爆 虫 (DefeatZerglingsAndBanelings),奔向烽火处 (MoveToBeacon) 以及收集矿物碎片 (CollectMineralShards), 在这些小游戏中,智能体只包含 4 种动作行为,即 上下左右,这样就可以大大缩小动作空间。利用 星际争霸 II 学习环境中提供的接口,可以获取很 多状态特征,比如非空间特征和空间特征图层, 进而来训练智能体,但是经过分析这 3 个迷你游 戏发现智能体获取如此多的空间特征是没有必要 的,因此我们挑选了部分特征,去掉冗余特征,以 加快智能体的学习速度。 根据以上所谈论到的问题以及注意力机制的 优势,本文的主要贡献包括到以下两个方面: 1) 采用的网络结构比 Deepmind 提供的基线 智能体的网络结构更加简洁。 2) 将强化学习中的奖励与注意力机制结合起 来,每一个时间步,智能体更加关注有价值的游 戏状态。 通过以上两个方面相结合,不仅加速了智能 体在星际争霸 II 中的学习速度,也使得智能体学 习到更优的策略,取得更好的成绩。 1 强化学习 在本节中,首先回顾一下经典的强化学习场 景以及算法 A3C[17]。 t st π at st+1 rt = r(st ,at) π 经典的强化学习场景中的一些基本概念描述 如下:在某一时刻 ,智能体根据当前环境的状态 以及策略 发送动作信号 与环境交互,并且根 据环境返回的状态信息 与奖励 信 息不断更新自己的策略 ,获取的累计收益表示为 Rt = ∑∞ k=0 γ k r(st+k ,at+k) 其中 γ ∈ (0,1) 表示折扣因子。智能体的目标可以 表示为 max π Es∼P0 [Rt |st = s] P0 为状态 s 的先验分布,动作值函数表示为 Q π (s,a) = Eπ [Rt |st = s,at = a] 表示在状态 s 下根据策略 π 选择动作 a 的期望累 计回报。同样的,状态值函数表示为 V π (s) = Eπ [Rt |st = s] 表示在策略 π 下状态 st = s 的期望累计回报。 A3C 算法是将策略函数和价值函数相结合的 强化学习方法,对目标函数式 (1): Jθ (s) = Eπθ [Rt |st = s] (1) ·318· 智 能 系 统 学 报 第 15 卷
第2期 申翔翔,等:深度强化学习中状态注意力机制的研究 ·319· 运用梯度上升的方法以不断更新现有的策略π 互后,对动作值函数和价值函数进行估计,然后 的参数6,期望获得使目标收益能够达到最大的 获取较优的策略或者是促进策略优化,在A3C算 最优策略,则关于策略参数θ的梯度公式为 法中主要采用后者,一般只对价值函数进行估 VoJo(s)=Es,[VolnTo(a,ls:)Rils,=s] 计,通常最小化此损失函数: 但是只采用这种方式存在高方差的缺点,因此 [G"(s)-V (s)] (2) Williams等8提出了改进版本: 其中, VgJo(s)=E[Vanπa(als)[R-b(s,ls,=寸 G(s)= yr()+v() 通常情况下,Q(s,a)与V(s)来代替R和b(s), k=0 所以梯度也可以表示为 为了提升策略的探索度,通常在A3C算法中 加入嫡正则化项H,则A3C算法最大化目标函数为 Vol(s)=E Volnno(als,)[Qf (s:,a)-V=(s,)]ls,=s J(s)=E元.[A"(s,a】+6H[πa(sJ (3) 其中A(s,a,)=Q(s,a)-V(s)表示优势函数。 其中6为超参数,其梯度公式为 基于价值函数的方法则主要是与环境进行交 VaJ(s)=E[V。lnπ(a,ls)[Q(s,a,)-Vr(s】+oVgH[πo(s,J] A3C算法同时为了提高学习的稳定性并且加 进一步可以体现出通过对奖励的不同缩放来使训 快学习速度,利用异步的方法,将多个智能体在 练过程中价值网络的更贴近真实的价值网络,式 不同的线程中运行,共同更新一个策略网络。 (⑤)关于注意力权重网络w的参数9的梯度可以 表示为 2基于状态注意力的A3C算法 Vol'w(s)=-2 Gm (s)-V=(s:)VG (s)Vowo(5,) 在深度强化学习中,是否采用游戏环境默认 的奖励是一个值得探讨的问题,即便是一些经典 3实验验证 算法被提出以后,在实际的源码实现中也对环境 在本节中,将本文提出的基于注意力机制的 原始的奖励进行了缩放四。因此,本文认为,原始 A3C算法在实时策略性游戏星际争霸Ⅱ中的迷 环境中定义的奖励只是起到了一定的基础作用, 你游戏上进行实验验证网络结构与算法的有效 并未真正体现出各个游戏状态的相对重要性,为 性,有关于战胜跳虫和毒爆虫、奔向烽火处和收 了让智能体学会关注更有价值的游戏状态,引入 集矿物碎片这3个小游戏的具体描述如下: 了权重网络w,为每个时刻下的奖励赋予不同的 战胜跳虫和毒爆虫:最初状态下,在地图的两 权值,此时累计回报便表示为 侧分别有9个陆战队员和10个虫子(6个跳虫和 R=∑h r(s.)) 4个毒爆虫),当任何一个跳虫和毒爆虫被陆战队 =0 员消灭,智能体都会获得奖励,当所有的跳虫和 当引入权重网络w后,Q(s,a)与V(s)仍然满 毒爆虫被消灭,又会恢复到刚开始的10个,此时 足贝尔曼方程式(4)和式(⑤): 也会额外增加4个满血状态的陆战队员,其他陆 Q(S,a,)=w(s,)r(S,a,)+yQ(s+1,a+1) (4) 战队员的血量还是保持原来的样子。与此同时虫 V(5)=E [wo(5,)r(s)+yv"(51)] (5) 子和陆战队员的位置会被重置到地图的两侧。 由此可以看出,此算法和A3C算法是很相似 奔向烽火处:地图上有一个烽火标记和一个 的。所以基于注意力机制的A3C算法最大化的目 陆战队员,当陆战队员到达烽火标记的位置智能 标函数分别为式(3)、式(⑥),最小化目标函数为式(2: 体就会获得奖励,同时,烽火的位置会重新设置。 ()=-G(s)-Vr(s月 (6) 收集矿物碎片:地图上有两个陆战队员和20个 其中 分散在屏幕各处的矿物碎片,当任何一个陆战队 员移动到矿物碎片处智能体都会获得奖励,当然 G(s)= wa(S)r(S)+V (Sm 最优的策略应该是两个陆战队员独立行动,分开 其式(2)则主要体现在不断调整价值网络的参 收集矿物,当所有的矿物被收集完之后,地图会 数,使价值网络更靠近于真实的价值网络,式 继续随机生成20个矿物碎片。 (⑤)则主要体现在通过不断调整权重网络w,缩短 更多关于星际争霸Ⅱ迷你游戏的细节,请参 真实的价值网络与训练过程中价值网络的差距, 考文献[20]
πθ θ θ 运用梯度上升的方法以不断更新现有的策略 的参数 ,期望获得使目标收益能够达到最大的 最优策略,则关于策略参数 的梯度公式为 ∇θJθ (s) = Eπθ [∇θ lnπθ (at |st)Rt |st = s] 但是只采用这种方式存在高方差的缺点,因此 Williams 等 [18] 提出了改进版本: ∇θJθ (s) = Eπθ [∇θ lnπθ (at |st)[Rt −b(st)]|st = s] Q π (st ,at) V π 通常情况下, 与 (st) 来代替 Rt 和 b(st), 所以梯度也可以表示为 ∇θJθ (s) = Eπθ [ ∇θ lnπθ (at |st)[Q π (st ,at)−V π (st)]|st = s ] A π (st ,at) = Q π (st ,at)−V π 其中 (st) 表示优势函数。 基于价值函数的方法则主要是与环境进行交 互后,对动作值函数和价值函数进行估计,然后 获取较优的策略或者是促进策略优化,在 A3C 算 法中主要采用后者,一般只对价值函数进行估 计,通常最小化此损失函数: [ G π (st)−V π θ ′ (st) ]2 (2) 其中, G π (st) = Eπθ ∑n k=0 γ k r(st+k ,at+k)+γ n+1V π θ ′ (st+n+1) H 为了提升策略的探索度,通常在 A3C 算法中 加入熵正则化项 ,则 A3C 算法最大化目标函数为 Jθ (st) = Eπθ [A π (st ,at)]+δH [πθ (st)] (3) 其中 δ 为超参数,其梯度公式为 ∇θJθ (st) = Eπθ [∇θ lnπθ (at |st)[Q π (st ,at)−V π (st)]+δ∇θH [πθ (st)]] A3C 算法同时为了提高学习的稳定性并且加 快学习速度,利用异步的方法,将多个智能体在 不同的线程中运行,共同更新一个策略网络。 2 基于状态注意力的 A3C 算法 wϑ 在深度强化学习中,是否采用游戏环境默认 的奖励是一个值得探讨的问题,即便是一些经典 算法被提出以后,在实际的源码实现中也对环境 原始的奖励进行了缩放[19]。因此,本文认为,原始 环境中定义的奖励只是起到了一定的基础作用, 并未真正体现出各个游戏状态的相对重要性,为 了让智能体学会关注更有价值的游戏状态,引入 了权重网络 ,为每个时刻下的奖励赋予不同的 权值,此时累计回报便表示为 Rt = ∑∞ k=0 γ kwϑ (st+k)r(st+k ,at+k) wϑ Q π (st ,at) V π 当引入权重网络 后, 与 (st) 仍然满 足贝尔曼方程式 (4) 和式 (5): Q π (st ,at) = wϑ (st)r(st ,at)+γQ π (st+1,at+1) (4) V π (st) = Eπθ [ wϑ (st)r(st)+γV π (st+1) ] (5) 由此可以看出,此算法和 A3C 算法是很相似 的。所以基于注意力机制的 A3C 算法最大化的目 标函数分别为式 (3)、式 (6),最小化目标函数为式 (2): J ′ wϑ (st) = − [ G π wϑ (st)−V π (st) ]2 (6) 其中, G π wϑ (st) = Eπθ ∑n k=0 γ kwϑ (st+k)r(st+k ,at+k)+γ n+1V π (st+n+1) wϑ 其式 (2) 则主要体现在不断调整价值网络的参 数,使价值网络更靠近于真实的价值网络,式 (5) 则主要体现在通过不断调整权重网络 缩短 真实的价值网络与训练过程中价值网络的差距, wϑ ϑ 进一步可以体现出通过对奖励的不同缩放来使训 练过程中价值网络的更贴近真实的价值网络,式 (5) 关于注意力权重网络 的参数 的梯度可以 表示为 ∇ϑ J ′ wϑ (st) = −2 [ G π wϑ (st)−V π (st) ] ∇wϑG π wϑ (st)∇ϑwϑ (st) 3 实验验证 在本节中,将本文提出的基于注意力机制的 A3C 算法在实时策略性游戏星际争霸 II 中的迷 你游戏上进行实验验证网络结构与算法的有效 性,有关于战胜跳虫和毒爆虫、奔向烽火处和收 集矿物碎片这 3 个小游戏的具体描述如下: 战胜跳虫和毒爆虫:最初状态下,在地图的两 侧分别有 9 个陆战队员和 10 个虫子 (6 个跳虫和 4 个毒爆虫),当任何一个跳虫和毒爆虫被陆战队 员消灭,智能体都会获得奖励,当所有的跳虫和 毒爆虫被消灭,又会恢复到刚开始的 10 个,此时 也会额外增加 4 个满血状态的陆战队员,其他陆 战队员的血量还是保持原来的样子。与此同时虫 子和陆战队员的位置会被重置到地图的两侧。 奔向烽火处: 地图上有一个烽火标记和一个 陆战队员,当陆战队员到达烽火标记的位置智能 体就会获得奖励,同时,烽火的位置会重新设置。 收集矿物碎片:地图上有两个陆战队员和 20 个 分散在屏幕各处的矿物碎片,当任何一个陆战队 员移动到矿物碎片处智能体都会获得奖励,当然 最优的策略应该是两个陆战队员独立行动,分开 收集矿物,当所有的矿物被收集完之后,地图会 继续随机生成 20 个矿物碎片。 更多关于星际争霸 II 迷你游戏的细节,请参 考文献 [20]。 第 2 期 申翔翔,等:深度强化学习中状态注意力机制的研究 ·319·
·320· 智能系统学报 第15卷 3.1网络结构 本文的学习环境与测试环境是基于Deep mind和暴雪合作的SC2LE,网络结构与传统的网 络结构非常相似。如图1所示,我们利用很简单 的三层卷积神经网络和一层全连接网络,将SC2LE 中提供的部分屏幕特征图层(单元类型、已选择、 生命值)输入到网络里,3个卷积层的过滤器的个 数分别是32、64、64,大小分别是8、4、3,步长分 别是4、2、1,每一层有REL0激活函数,在全连接 图2战胜跳虫和毒爆虫游戏界面截图 层中有512个隐层单元和RELU激活函数,网络 Fig.2 The screenshot of DefeatZerglingsAndBanelings 有3个输出,分别输出策略、价值和基于注意力 为了保证游戏智能体与人类的成绩相比较时 机制的A3C算法中的注意力权重,我们使用RM- 操作速度是相当的,即对于人类是一场公平的竞 SProp优化器,每次网络输入量的大小为32批。 争。Deepmind在整个游戏实验中每8帧执行一 实验具体硬件环境的条件是拥有8GB显存的 个动作,而在战胜跳虫和毒爆虫整个游戏中,因 GPU、16GB内存以及8核4.2GHz的CPU。 为每次随机选择一个陆战队员,然后对陆战队员 发送命令。然而从SC2LE提供的程序接口pysc2 策略 中发现,如果每次都要随机选取一个陆战队员, 那么每次选择陆战队员之前,就必须选择全部陆 价值 战队员然后从这些陆战队员中选择其中的一个。 因此每次这种操作就会让陆战队员速度变慢,所 权重 以在战胜跳虫和毒爆虫实验中选择每4帧执行 图1网络结构 个动作,这种方式是很合理的,毕竞人类并不会在 Fig.1 Network architecture 选择某一个陆战队员之前选择全部的陆战队员。 3.2实验结果验证 实验结果如表1所示,基于注意力机制的 从本节开始对游戏场景的介绍中可以知道, A3C算法的性能表现不错,与目前Deepmind提供 智能体玩好游戏的第一步应该关注的是如何选择 的基准智能体ATARI网络的分数相比较在战胜 陆战队员。在游戏战胜跳虫和毒爆虫中,有10个 跳虫和毒爆虫的迷你游戏中得分显著提高。 陆战队员,首先选择哪一个陆战队员对他发出命 表1人类和智能体获取的平均分数表 Table 1 令,是否应该完全区别对待这10个陆战队员,是 Averaged results for human baselines and agents 一个值的考虑的问题,本文认为随机选择陆战队 战胜跳虫 奔向 收集矿 人与智能体 员是一个不错的决策,随机的选择意味着不再区 和毒爆虫 烽火处 物碎片 分陆战队员,所有的陆战队员将采取同一个策 DEEPMIND业余选手 729 26 133 略,增加了策略的鲁棒性。比如,在图2中,随机 星际争霸职业玩家 727 28 177 选择2个相同状态的陆战队员交换他们的位置之 DEEPMIND随机策略 23 17 后的状态其实和交换之前的状态是完全一样的, DEEPMIND的 2 96 所以,随机选择的策略意味着缩小了状态空间, ATARI网络 从实验过程中可以进一步发现,随机的选择有利 随机策略 37 1.5 16 于陆战队员分散开来,这种行为也有利于陆战队 基于注意力机制的 152 22 97 员击败虫子。从上面两种情况中可以看出,在游 A3C算法 戏战胜跳虫和毒爆虫中随机选择是一个不错的策 从表1可以看出,随机策略在战胜跳虫和毒 略,事实上,虽然在游戏收集矿物碎片中也每次 爆虫、收集矿物碎片迷你游戏中的平均成绩要比 随机选择一个陆战队员执行命令,但是这并不是 Deepmind随机策略的平均成绩要高一些,由此可 一个明智的决策。比如,在某一段时间内,很有 见,虽然本文的网络结构比Deepmind的Atari网 可能会出现一个陆战队员在忙碌地收集矿物碎 络结构简单一些,但是对于星际中的这3个游戏 片,而另一个陆战队员却一直在等待的情况。 场景来说,简单的网络结构更适合。在游戏奔向
3.1 网络结构 本文的学习环境与测试环境是基于 Deepmind 和暴雪合作的 SC2LE,网络结构与传统的网 络结构非常相似。如图 1 所示,我们利用很简单 的三层卷积神经网络和一层全连接网络,将 SC2LE 中提供的部分屏幕特征图层 (单元类型、已选择、 生命值) 输入到网络里,3 个卷积层的过滤器的个 数分别是 32、64、64,大小分别是 8、4、3,步长分 别是 4、2、1,每一层有 RELU 激活函数,在全连接 层中有 512 个隐层单元和 RELU 激活函数,网络 有 3 个输出,分别输出策略、价值和基于注意力 机制的 A3C 算法中的注意力权重,我们使用 RMSProp 优化器,每次网络输入量的大小为 32 批。 实验具体硬件环境的条件是拥有 8 GB 显存的 GPU、16GB 内存以及 8 核 4.2 GHz 的 CPU。 4 8 8 4 3 3 512 策略 价值 权重 图 1 网络结构 Fig. 1 Network architecture 3.2 实验结果验证 从本节开始对游戏场景的介绍中可以知道, 智能体玩好游戏的第一步应该关注的是如何选择 陆战队员。在游戏战胜跳虫和毒爆虫中,有 10 个 陆战队员,首先选择哪一个陆战队员对他发出命 令,是否应该完全区别对待这 10 个陆战队员,是 一个值的考虑的问题,本文认为随机选择陆战队 员是一个不错的决策,随机的选择意味着不再区 分陆战队员,所有的陆战队员将采取同一个策 略,增加了策略的鲁棒性。比如,在图 2 中,随机 选择 2 个相同状态的陆战队员交换他们的位置之 后的状态其实和交换之前的状态是完全一样的, 所以,随机选择的策略意味着缩小了状态空间, 从实验过程中可以进一步发现,随机的选择有利 于陆战队员分散开来,这种行为也有利于陆战队 员击败虫子。从上面两种情况中可以看出,在游 戏战胜跳虫和毒爆虫中随机选择是一个不错的策 略,事实上,虽然在游戏收集矿物碎片中也每次 随机选择一个陆战队员执行命令,但是这并不是 一个明智的决策。比如,在某一段时间内,很有 可能会出现一个陆战队员在忙碌地收集矿物碎 片,而另一个陆战队员却一直在等待的情况。 图 2 战胜跳虫和毒爆虫游戏界面截图 Fig. 2 The screenshot of DefeatZerglingsAndBanelings 为了保证游戏智能体与人类的成绩相比较时 操作速度是相当的,即对于人类是一场公平的竞 争。Deepmind 在整个游戏实验中每 8 帧执行一 个动作,而在战胜跳虫和毒爆虫整个游戏中,因 为每次随机选择一个陆战队员,然后对陆战队员 发送命令。然而从 SC2LE 提供的程序接口 pysc2 中发现,如果每次都要随机选取一个陆战队员, 那么每次选择陆战队员之前,就必须选择全部陆 战队员然后从这些陆战队员中选择其中的一个。 因此每次这种操作就会让陆战队员速度变慢,所 以在战胜跳虫和毒爆虫实验中选择每 4 帧执行一 个动作, 这种方式是很合理的,毕竟人类并不会在 选择某一个陆战队员之前选择全部的陆战队员。 实验结果如表 1 所示,基于注意力机制的 A3C 算法的性能表现不错,与目前 Deepmind 提供 的基准智能体 ATARI 网络的分数相比较在战胜 跳虫和毒爆虫的迷你游戏中得分显著提高。 表 1 人类和智能体获取的平均分数表 Table 1 Averaged results for human baselines and agents 人与智能体 战胜跳虫 和毒爆虫 奔向 烽火处 收集矿 物碎片 DEEPMIND业余选手 729 26 133 星际争霸职业玩家 727 28 177 DEEPMIND随机策略 23 1 17 DEEPMIND的 ATARI网络 81 25 96 随机策略 37 1.5 16 基于注意力机制的 A3C算法 152 22 97 从表 1 可以看出,随机策略在战胜跳虫和毒 爆虫、收集矿物碎片迷你游戏中的平均成绩要比 Deepmind 随机策略的平均成绩要高一些,由此可 见,虽然本文的网络结构比 Deepmind 的 Atari 网 络结构简单一些,但是对于星际中的这 3 个游戏 场景来说,简单的网络结构更适合。在游戏奔向 ·320· 智 能 系 统 学 报 第 15 卷
第2期 申翔翔,等:深度强化学习中状态注意力机制的研究 ·321· 烽火处中基于注意力机制的A3C算法的成绩并 [EB/oLJ.[2018-01-17 https:/arXiv:1708.04782,2017 没有比Deepmind的Atari网络的成绩高,经过分 [5]ONTANON S,SYNNAEVE G,URIARTE A,et al.A sur- 析原因后发现,由于基于注意力机制的A3C算法 vey of real-time strategy game Al research and competi- 的智能体的可选择方向只包含上下左右,所以陆 tion in StarCraft[J.IEEE transactions on computational in- 战队员不能直线到达目标位置,但是陆战队员所 telligence and Al in games,2013,5(4):293-311. 走的路线就是在规定方向的基础上的最短路径, [6]SYNNAEVE G,BESSIERE P.A dataset for StarCraft Al 而通过Deepmind发表的视频中可以发现,在这个 an example of armies clustering[C]//Artificial Intelli- 小游戏上,游戏智能体直接定位到目标位置,陆 gence in Adversarial Real-Time Games.Palo Alto,USA. 2012:25-30. 战队员可以沿直线走过去,在这个小游戏上也许 [7]SYNNAEVE G,BESSIERE P.A Bayesian model for 是一个好的办法,但是如果游戏中添加了障碍 opening prediction in RTS games with application to Star- 物,也许这就不是一个好的方法了。虽然在战胜 Craft[Cl//Proceedings of 2011 IEEE Conference on Com- 跳虫和毒爆虫的游戏分数上基于注意力机制的 putational Intelligence and Games.Seoul,South Korea. A3C算法取得了较大的提高,但是与人类水平相 2011:281-288 比还存在较大的差距,这也意味着还存在较大的 [8]JUSTESEN N,RISI S.Learning macromanagement in 空间值得我们研究与探索。 starcraft from replays using deep learning[C]//Proceedings of 2017 IEEE Conference on Computational Intelligence 4结束语 and Games.New York,USA.2017:162-169. 本文认为不同的游戏状态或者游戏帧有不同 [9]DODGE J,PENNEY S,HILDERBRAND C,et al.How 的重要性,智能体理应关注更有价值的状态,因 the experts do it:assessing and explaining agent behaviors 此本文提出了基于注意力机制的A3C算法,由此 in real-time strategy games[C]//Proceedings of the 2018 将注意力机制和强化学习中的奖励结合起来,得 CHI Conference on Human Factors in Computing Systems. 到了一定的进步,但是智能体比起人类水平还是 Montreal QC,Canada,2018. 存在较大差距,深度强化学习的应用,虽然在很 [10]PENNEY S,DODGE J,HILDERBRAND C,et al.To- ward foraging for understanding of starcraft agents:an 多游戏上取得了成功,但是在实时策略游戏上还 empirical study[C]//Proceedings of the 23rd International 面临很大的挑战。在战胜跳虫和毒爆虫迷你游戏 Conference on Intelligent User Interfaces.Tokyo,Japan, 中,本文做法也存在不足之处:1)人类不会采用 2018:225-237. 随机选择陆战队员这样的策略,比如,大部分玩 [11]PENG Peng,WEN Ying,YANG Yaodong,et al.Multia- 家会优先选择让受伤的陆战队员后退然后远距离 gent bidirectionally-coordinated nets for learning to play 攻击敌人,而不是站在那里被敌人杀死。2)系统 starcraft combat games[EB/OL].[2018-01-17]https://arX- 预先给定好的奖励是否是有利于深度强化学习算 iv:1703.10069,2017 法进行学习的最优奖励,这是不确定的,应该采 [12]SHAO Kun,ZHU Yuanheng,ZHAO Dongbin,et al.Star- 用一定的策略来优化这个默认的奖励。以上两点 Craft micromanagement with reinforcement learning and 也是我们未来工作考虑的两个方面。 curriculum transfer learning[J].IEEE transactions on 参考文献: emerging topics in computational intelligence,2019,3(1): 73-84. [1]LI Yuxi.Deep reinforcement learning:an overview [13]WENDER S,WATSON I.Applying reinforcement learn- [EB/OL].[2018-01-17]https://arxiv.org/abs/1701.07274. ing to small scale combat in the real-time strategy game [2]MNIH V.KAVUKCUOGLU K,SILVER D,et al.Human- StarCraft:Broodwar[Cl//Proceedings of 2012 IEEE Con- level control through deep reinforcement learning[J]. ference on Computational Intelligence and Games. Nature,.2015,518(7540):529-533. Granada,Spain,2012:402-408. [3]SILVER D.HUANG A,MADDISON C J,et al.Master- [14]DENIL M,BAZZANI L,LAROCHELLE H,et al.Learn- ing the game of Go with deep neural networks and tree ing where to attend with deep architectures for image search[J1.Nature.,2016,529(7587):484-489 tracking[J].Neural computation,2012,24(8):2151-2184. [4]VINYALS O,EWALDS T,BARTUNOV S,et al.Star- [15]BAHDANAU D,CHO K,BENGIO Y,et al.Neural ma- Craft II:a new challenge for reinforcement learning chine translation by jointly learning to align and
烽火处中基于注意力机制的 A3C 算法的成绩并 没有比 Deepmind 的 Atari 网络的成绩高,经过分 析原因后发现,由于基于注意力机制的 A3C 算法 的智能体的可选择方向只包含上下左右,所以陆 战队员不能直线到达目标位置,但是陆战队员所 走的路线就是在规定方向的基础上的最短路径, 而通过 Deepmind 发表的视频中可以发现,在这个 小游戏上,游戏智能体直接定位到目标位置,陆 战队员可以沿直线走过去,在这个小游戏上也许 是一个好的办法,但是如果游戏中添加了障碍 物,也许这就不是一个好的方法了。虽然在战胜 跳虫和毒爆虫的游戏分数上基于注意力机制的 A3C 算法取得了较大的提高,但是与人类水平相 比还存在较大的差距,这也意味着还存在较大的 空间值得我们研究与探索。 4 结束语 本文认为不同的游戏状态或者游戏帧有不同 的重要性,智能体理应关注更有价值的状态,因 此本文提出了基于注意力机制的 A3C 算法,由此 将注意力机制和强化学习中的奖励结合起来,得 到了一定的进步,但是智能体比起人类水平还是 存在较大差距,深度强化学习的应用,虽然在很 多游戏上取得了成功,但是在实时策略游戏上还 面临很大的挑战。在战胜跳虫和毒爆虫迷你游戏 中,本文做法也存在不足之处:1)人类不会采用 随机选择陆战队员这样的策略,比如,大部分玩 家会优先选择让受伤的陆战队员后退然后远距离 攻击敌人,而不是站在那里被敌人杀死。2)系统 预先给定好的奖励是否是有利于深度强化学习算 法进行学习的最优奖励,这是不确定的,应该采 用一定的策略来优化这个默认的奖励。以上两点 也是我们未来工作考虑的两个方面。 参考文献: LI Yuxi. Deep reinforcement learning: an overview [EB/OL]. [2018-01-17]https://arxiv.org/abs/1701.07274. [1] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Humanlevel control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. [2] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484–489. [3] VINYALS O, EWALDS T, BARTUNOV S, et al. StarCraft II: a new challenge for reinforcement learning [4] [EB/OL]. [2018-01-17]https://arXiv: 1708.04782, 2017. ONTANON S, SYNNAEVE G, URIARTE A, et al. A survey of real-time strategy game AI research and competition in StarCraft[J]. IEEE transactions on computational intelligence and AI in games, 2013, 5(4): 293–311. [5] SYNNAEVE G, BESSIERE P. A dataset for StarCraft AI & an example of armies clustering[C]//Artificial Intelligence in Adversarial Real-Time Games. Palo Alto, USA, 2012: 25–30. [6] SYNNAEVE G, BESSIÈRE P. A Bayesian model for opening prediction in RTS games with application to StarCraft[C]//Proceedings of 2011 IEEE Conference on Computational Intelligence and Games. Seoul, South Korea, 2011: 281–288. [7] JUSTESEN N, RISI S. Learning macromanagement in starcraft from replays using deep learning[C]//Proceedings of 2017 IEEE Conference on Computational Intelligence and Games. New York, USA, 2017: 162–169. [8] DODGE J, PENNEY S, HILDERBRAND C, et al. How the experts do it: assessing and explaining agent behaviors in real-time strategy games[C]//Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems. Montreal QC, Canada, 2018. [9] PENNEY S, DODGE J, HILDERBRAND C, et al. Toward foraging for understanding of starcraft agents: an empirical study[C]//Proceedings of the 23rd International Conference on Intelligent User Interfaces. Tokyo, Japan, 2018: 225–237. [10] PENG Peng, WEN Ying, YANG Yaodong, et al. Multiagent bidirectionally-coordinated nets for learning to play starcraft combat games[EB/OL]. [2018-01-17]https://arXiv: 1703.10069, 2017. [11] SHAO Kun, ZHU Yuanheng, ZHAO Dongbin, et al. StarCraft micromanagement with reinforcement learning and curriculum transfer learning[J]. IEEE transactions on emerging topics in computational intelligence, 2019, 3(1): 73–84. [12] WENDER S, WATSON I. Applying reinforcement learning to small scale combat in the real-time strategy game StarCraft: Broodwar[C]//Proceedings of 2012 IEEE Conference on Computational Intelligence and Games. Granada, Spain, 2012: 402–408. [13] DENIL M, BAZZANI L, LAROCHELLE H, et al. Learning where to attend with deep architectures for image tracking[J]. Neural computation, 2012, 24(8): 2151–2184. [14] BAHDANAU D, CHO K, BENGIO Y, et al. Neural machine translation by jointly learning to align and [15] 第 2 期 申翔翔,等:深度强化学习中状态注意力机制的研究 ·321·
·322· 智能系统学报 第15卷 translate[C]//Proceedings of International Conference on 作者简介: Learning Representations.2015. 申翔翔,硕士研究生,主要研究方 [16]MNIH V,HEESS N,GRAVES A,et al.Recurrent mod- 向为深度强化学习。 els of visual attention[Cl/Proceedings of the 27th Interna- tional Conference on Neural Information Processing Sys- tems.Montreal,Canada,2014:2204-2212. [17]MNIH V,BADIA A P,MIRZA M,et al.Asynchronous methods for deep reinforcement learning[C]//Proceedings of the 33rd International Conference on Machine Learn- 侯新文,项目研究员,主要研究方 向为人脸检测和识别、机器学习、强化 ing.New York USA,2016:1928-1937. 学习和博弈对抗。发表学术论文 [18]WILLIAMS R J.Simple statistical gradient-following al- 40余篇,Google Scholar1000多次。 gorithms for connectionist reinforcement learning[J].Ma- chine learning,1992,8(3/4):229-256. [19]ILYAS A,ENGSTROM L,SANTURKAR S,et al.Are deep policy gradient algorithms truly policy gradient al- 尹传环,副教授.主要研究方向为 gorithms?[EB/OL].[2018-01-17]https://arXiv: 网络安全(入侵检测)、数据挖掘、机器 1811.02553,2018 学习。 [20]DeepMind.DeepMind mini games[EB/OL].(2017-08- 10)[2018-09-10].https://github.com/deepmind/pysc2/ blob/master/docs/mini games.md. 第四届亚洲人工智能技术大会 The 4th Asian Conference on Artificial Intelligence Technology 由中国人工智能学会、重庆市大数据应用发展管理局、重庆理工大学、重庆市巴南区人民政府联合主 办,重庆理工大学期刊社、重庆市巴南区科学技术局、重庆市巴南区大数据应用发展管理局、重庆两江人工 智能学院联合承办,重庆市人工智能学会协办,重庆市科学技术协会指导的“第四届亚洲人工智能技术大会 (ACAIT2020)”将作为2020年中国智能产业博览会期间的唯一国际学术会议在重庆召开。 征稿范围(但不局限于): 1)人工智能理论基础;2)人工智能应用;3)模式识别;4)机器感知与虚拟现实;5)自然语言处理和机器 翻译:6)图像和语音处理:7)计算机视觉;8)神经网络与计算智能:9)知识科学与知识工程;10)生物信息学 与人工生命;11)机器学习;12)深度学习及其应用;13)数据挖掘;14)面向大数据的人工智能技术;15)智能 控制与智能管理;16)粗糙集与软计算;17)智能搜索;18)智能推理;19)智能规划;20)智能信息处理:21)智 能制造;22)智能机器人;23)物联网;24)工业互联网;25)智能通信与网络;26)人机交互/普适计算;27)智慧 能源:28)自动程序设计。 联系方式 联系人:贺柳、徐佳忆 电话:023-62561406 邮箱:cqznjs(@126.com;xb@cqut.edu.cn
translate[C]//Proceedings of International Conference on Learning Representations. 2015. MNIH V, HEESS N, GRAVES A, et al. Recurrent models of visual attention[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada, 2014: 2204–2212. [16] MNIH V, BADIA A P, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[C]//Proceedings of the 33rd International Conference on Machine Learning. New York USA, 2016: 1928-1937. [17] WILLIAMS R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine learning, 1992, 8(3/4): 229–256. [18] ILYAS A, ENGSTROM L, SANTURKAR S, et al. Are deep policy gradient algorithms truly policy gradient algorithms? [EB/OL]. [2018-01-17]https://arXiv: 1811.02553, 2018. [19] DeepMind. DeepMind mini games[EB/OL]. (2017-08- 10)[2018-09-10]. https://github.com/deepmind/pysc2/ blob/master/docs/mini_games.md. [20] 作者简介: 申翔翔,硕士研究生,主要研究方 向为深度强化学习。 侯新文,项目研究员,主要研究方 向为人脸检测和识别、机器学习、强化 学习和博弈对抗。发表学术论文 40 余篇,Google Scholar 1 000 多次。 尹传环,副教授,主要研究方向为 网络安全 (入侵检测)、数据挖掘、机器 学习。 第四届亚洲人工智能技术大会 The 4th Asian Conference on Artificial Intelligence Technology 由中国人工智能学会、重庆市大数据应用发展管理局、重庆理工大学、重庆市巴南区人民政府联合主 办,重庆理工大学期刊社、重庆市巴南区科学技术局、重庆市巴南区大数据应用发展管理局、重庆两江人工 智能学院联合承办,重庆市人工智能学会协办,重庆市科学技术协会指导的“第四届亚洲人工智能技术大会 (ACAIT 2020)”将作为 2020 年中国智能产业博览会期间的唯一国际学术会议在重庆召开。 征稿范围(但不局限于): 1)人工智能理论基础; 2)人工智能应用;3)模式识别; 4)机器感知与虚拟现实;5)自然语言处理和机器 翻译;6)图像和语音处理;7)计算机视觉;8)神经网络与计算智能;9)知识科学与知识工程;10)生物信息学 与人工生命;11)机器学习;12)深度学习及其应用;13)数据挖掘;14)面向大数据的人工智能技术;15)智能 控制与智能管理;16)粗糙集与软计算;17)智能搜索;18)智能推理;19)智能规划;20)智能信息处理;21)智 能制造;22)智能机器人;23)物联网;24)工业互联网;25)智能通信与网络;26)人机交互/普适计算;27)智慧 能源;28)自动程序设计。 联系方式: 联系人:贺柳、徐佳忆 电话:023-62561406 邮箱:cqznjs@126.com;xb@cqut.edu.cn ·322· 智 能 系 统 学 报 第 15 卷