正在加载图片...
402 工程科学学报,第42卷,第4期 2深度强化学习的分类 习过程,整个学习过程基本不需要先验知识以及 人工参与,并且在学习视频游戏的任务中取得了 深度强化学习是将深度学习与强化学习结合 很好的实验结果,大部分游戏的成绩都超过了人 起来,实现从感知到动作的端到端学习的全新方 类专家 法.在人工智能中,一般用代理(Aget)表示一个 具备行为能力的物体,比如机器人、无人车、人等 State Action.Reward Experience replay 等.那么强化学习就是一个代理随着时间的推移 -State Train 不断地与环境进行交互学习的过程.在1时刻,代 Atari DeepQ Synchronize Target 理接受一个状态s,并且遵循策略π(als)从动作空间 Reward ame network network A中选择一个动作a作用于环境,接收环境反馈的 Action 奖赏r,并且依据概率P(s,+1s,a转换到下一个状 图2深度Q网络的训练流程 态s+.强化学习的最终目的是通过调整自身策略 Fig.2 Training process of deep Q-network 来最大化累计奖赏R,= 分,其中2e0,表示 随后有研究者发现标准的深度Q网络存在过 0 折扣因子.而值函数(Value function)是用来预测 高估计的问题,其原因是深度Q网络使用了同一 累计奖赏的期望大小,衡量某个状态或者状态-动 个Q网络进行动作评估和动作选择,导致了估计 作对的好坏.假定初始状态5o=s,依据策略π的状 误差的出现,于是Van Hasselt等Bo提出了使用 态值函数为V(s)=B{ yrlo=3,π:同时假定初 Q网络进行动作选择,而使用目标网络对动作进 行评估.Schaul等B认为标准Q网络使用经验回 始动作为ao=a,则状态-动作值函数为Q(s,d)= 放时是同等概率进行采样,没有考虑历史数据不 yrl小s0=s,a0=a,π 而根据π*=arg max V(s) 同的重要程度,所以他们提出利用时序差分 f-0 (Temporal-difference,TD)误差来衡量历史数据的 或者π'=arg max O(s,a)可以得到最优策略π' 重要性,重要的数据会被更多的采样,以提高学习 深度学习和强化学习相结合的主要方式是利 效率.Wang等提出了一种竞争网络结构,两个 用深度神经网络近似任意一个强化学习的组成部 网络分别输出状态值函数和优势函数,再把它们合 分,包含值函数V(s;或者Q(s,a;),策略π(als:)和 并起来输出动作-状态值函数,并通过实验证明相比 模型(状态转移和奖励).其中参数是深度神经网 深度O网络更快的收敛速度和更好的评估策略 络的权重.通常使用随机梯度下降方法更新深度 2.2基于策略的方法 强化学习的网络参数.下面介绍一些重要的深度 因为基于值函数结合的方式需要完全计算所 强化学习方法 有动作的值函数,再贪婪地选择值函数最大的动 2.1基于值函数的方法 作,所以这种方法通常无法很好的应用在具有高 基于值函数(Value-bBased)方法是利用深度神 维度或者连续动作空间的问题之中.而基于策略 经网络近似强化学习中的值函数部分,其策略部 (Policy--based)结合的方式,直接用深度神经网络 分并不显现出来而是隐含在值函数的分布之中, 学习策略,网络参数也就是策略的表征,因此可以 通过选择最大值函数的动作获得策略 直接在策略网络上进行优化,输出最终动作.基于 Mnih等首次介绍了深度Q网络并且带动了 策略结合的方法对比基于值函数结合的方法,拥 深度强化学习这一研究领域.他们创造性的解决 有更好的收敛性,能够更有效地应用在高维度或 了利用非线性函数近似Q函数时容易导致算法不 者连续动作空间中,并且可以学习到随机策略.然 稳定甚至无法收敛的问题.其主要方法是使用经 而由于没有值函数,基于策略的方法对于策略的 验回放机制和目标网络,也就是在训练卷积神经 评估较慢,必须在与环境交互的过程中进行评价 网络近似Q函数时随机抽取之前训练过程保存的 Schulman等B提出了一种可以单调提升策略 数据进行网络参数更新,同时网络的参数并不是 的迭代过程,并且通过对理论公式做近似,给出了 立刻更新,而是通过目标网络进行保存,Q网络定 可以并行的学习算法一一信赖域策略优化(Tust 期与目标网络进行参数同步,具体训练流程如图2 region policy optimization,.TRPO).作者还经过分析 他们的工作开创性的实现了端到端的深度强化学 后统一了标准的策略梯度和神经网络的策略梯2    深度强化学习的分类 st π(at |st) A at rt P(st +1|st ,at) st+1 Rt = ∑∞ k=0 λ k rt+k λ ∈ [0,1] s0 = s π V π (s) = E    ∑∞ t=0 γ t rt |s0 = s, π    a0 = a Q π (s,a) = E    ∑∞ t=0 γ t rt |s0 = s,a0 = a, π    π ∗ = argmax π V π (s) π ∗ = argmax a∈A Q π (s,a) π ∗ 深度强化学习是将深度学习与强化学习结合 起来,实现从感知到动作的端到端学习的全新方 法. 在人工智能中,一般用代理(Agent)表示一个 具备行为能力的物体,比如机器人、无人车、人等 等. 那么强化学习就是一个代理随着时间的推移 不断地与环境进行交互学习的过程. 在 t 时刻,代 理接受一个状态 并且遵循策略 从动作空间 中选择一个动作 作用于环境,接收环境反馈的 奖赏 ,并且依据概率 转换到下一个状 态 . 强化学习的最终目的是通过调整自身策略 来最大化累计奖赏 ,其中 表示 折扣因子. 而值函数(Value function)是用来预测 累计奖赏的期望大小,衡量某个状态或者状态‒动 作对的好坏. 假定初始状态 ,依据策略 的状 态值函数为 ;同时假定初 始动作为 ,则状态−动作值函数为 . 而根据 或者 可以得到最优策略 . V(s; θ) Q(s, a; θ) π(a|s; θ) θ 深度学习和强化学习相结合的主要方式是利 用深度神经网络近似任意一个强化学习的组成部 分,包含值函数 或者 ,策略 和 模型 (状态转移和奖励),其中参数 是深度神经网 络的权重. 通常使用随机梯度下降方法更新深度 强化学习的网络参数. 下面介绍一些重要的深度 强化学习方法. 2.1    基于值函数的方法 基于值函数(Value-bBased)方法是利用深度神 经网络近似强化学习中的值函数部分,其策略部 分并不显现出来而是隐含在值函数的分布之中, 通过选择最大值函数的动作获得策略. Mnih 等首次介绍了深度 Q 网络[2] 并且带动了 深度强化学习这一研究领域. 他们创造性的解决 了利用非线性函数近似 Q 函数时容易导致算法不 稳定甚至无法收敛的问题. 其主要方法是使用经 验回放机制和目标网络,也就是在训练卷积神经 网络近似 Q 函数时随机抽取之前训练过程保存的 数据进行网络参数更新,同时网络的参数并不是 立刻更新,而是通过目标网络进行保存,Q 网络定 期与目标网络进行参数同步,具体训练流程如图 2. 他们的工作开创性的实现了端到端的深度强化学 习过程,整个学习过程基本不需要先验知识以及 人工参与,并且在学习视频游戏的任务中取得了 很好的实验结果,大部分游戏的成绩都超过了人 类专家. 随后有研究者发现标准的深度 Q 网络存在过 高估计的问题,其原因是深度 Q 网络使用了同一 个 Q 网络进行动作评估和动作选择,导致了估计 误差的出现. 于是 Van Hasselt 等[30] 提出了使用 Q 网络进行动作选择,而使用目标网络对动作进 行评估. Schaul 等[31] 认为标准 Q 网络使用经验回 放时是同等概率进行采样,没有考虑历史数据不 同 的 重 要 程 度 , 所 以 他 们 提 出 利 用 时 序 差 分 (Temporal‒difference, TD) 误差来衡量历史数据的 重要性,重要的数据会被更多的采样,以提高学习 效率. Wang 等[32] 提出了一种竞争网络结构,两个 网络分别输出状态值函数和优势函数,再把它们合 并起来输出动作‒状态值函数,并通过实验证明相比 深度 Q 网络更快的收敛速度和更好的评估策略. 2.2    基于策略的方法 因为基于值函数结合的方式需要完全计算所 有动作的值函数,再贪婪地选择值函数最大的动 作,所以这种方法通常无法很好的应用在具有高 维度或者连续动作空间的问题之中. 而基于策略 (Policy‒based) 结合的方式,直接用深度神经网络 学习策略,网络参数也就是策略的表征,因此可以 直接在策略网络上进行优化,输出最终动作. 基于 策略结合的方法对比基于值函数结合的方法,拥 有更好的收敛性,能够更有效地应用在高维度或 者连续动作空间中,并且可以学习到随机策略. 然 而由于没有值函数,基于策略的方法对于策略的 评估较慢,必须在与环境交互的过程中进行评价. Schulman 等[33] 提出了一种可以单调提升策略 的迭代过程,并且通过对理论公式做近似,给出了 可以并行的学习算法——信赖域策略优化(Trust region policy optimization, TRPO). 作者还经过分析 后统一了标准的策略梯度和神经网络的策略梯 Atari game Reward State Action Deep Q network Synchronize State,Action,Reward Train Target network Experience replay 图 2    深度 Q 网络的训练流程 Fig.2    Training process of deep Q-network · 402 · 工程科学学报,第 42 卷,第 4 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有