2 深度强化学习的分类 st_中国高校课件下载中心

正在加载图片...

402 工程科学学报，第42卷，第4期 2深度强化学习的分类习过程，整个学习过程基本不需要先验知识以及人工参与，并且在学习视频游戏的任务中取得了深度强化学习是将深度学习与强化学习结合很好的实验结果，大部分游戏的成绩都超过了人起来，实现从感知到动作的端到端学习的全新方类专家法.在人工智能中，一般用代理(Aget)表示一个具备行为能力的物体，比如机器人、无人车、人等 State Action.Reward Experience replay 等.那么强化学习就是一个代理随着时间的推移 -State Train 不断地与环境进行交互学习的过程.在1时刻，代 Atari DeepQ Synchronize Target 理接受一个状态s,并且遵循策略π(als)从动作空间 Reward ame network network A中选择一个动作a作用于环境，接收环境反馈的 Action 奖赏r,并且依据概率P(s,+1s,a转换到下一个状图2深度Q网络的训练流程态s+.强化学习的最终目的是通过调整自身策略 Fig.2 Training process of deep Q-network 来最大化累计奖赏R,= 分，其中2e0,表示随后有研究者发现标准的深度Q网络存在过 0 折扣因子.而值函数(Value function)是用来预测高估计的问题，其原因是深度Q网络使用了同一累计奖赏的期望大小，衡量某个状态或者状态-动个Q网络进行动作评估和动作选择，导致了估计作对的好坏.假定初始状态5o=s,依据策略π的状误差的出现，于是Van Hasselt等Bo提出了使用态值函数为V(s)=B{ yrlo=3,π：同时假定初 Q网络进行动作选择，而使用目标网络对动作进行评估.Schaul等B认为标准Q网络使用经验回始动作为ao=a,则状态-动作值函数为Q(s,d)= 放时是同等概率进行采样，没有考虑历史数据不 yrl小s0=s,a0=a,π 而根据π*=arg max V(s) 同的重要程度，所以他们提出利用时序差分 f-0 (Temporal-difference,TD)误差来衡量历史数据的或者π'=arg max O(s,a)可以得到最优策略π' 重要性，重要的数据会被更多的采样，以提高学习深度学习和强化学习相结合的主要方式是利效率.Wang等提出了一种竞争网络结构，两个用深度神经网络近似任意一个强化学习的组成部网络分别输出状态值函数和优势函数，再把它们合分，包含值函数V(s;或者Q(s,a;),策略π(als:)和并起来输出动作-状态值函数，并通过实验证明相比模型（状态转移和奖励）.其中参数是深度神经网深度O网络更快的收敛速度和更好的评估策略络的权重.通常使用随机梯度下降方法更新深度 2.2基于策略的方法强化学习的网络参数.下面介绍一些重要的深度因为基于值函数结合的方式需要完全计算所强化学习方法有动作的值函数，再贪婪地选择值函数最大的动 2.1基于值函数的方法作，所以这种方法通常无法很好的应用在具有高基于值函数(Value-bBased)方法是利用深度神维度或者连续动作空间的问题之中.而基于策略经网络近似强化学习中的值函数部分，其策略部 (Policy--based)结合的方式，直接用深度神经网络分并不显现出来而是隐含在值函数的分布之中，学习策略，网络参数也就是策略的表征，因此可以通过选择最大值函数的动作获得策略直接在策略网络上进行优化，输出最终动作.基于 Mnih等首次介绍了深度Q网络并且带动了策略结合的方法对比基于值函数结合的方法，拥深度强化学习这一研究领域.他们创造性的解决有更好的收敛性，能够更有效地应用在高维度或了利用非线性函数近似Q函数时容易导致算法不者连续动作空间中，并且可以学习到随机策略.然稳定甚至无法收敛的问题.其主要方法是使用经而由于没有值函数，基于策略的方法对于策略的验回放机制和目标网络，也就是在训练卷积神经评估较慢，必须在与环境交互的过程中进行评价网络近似Q函数时随机抽取之前训练过程保存的 Schulman等B提出了一种可以单调提升策略数据进行网络参数更新，同时网络的参数并不是的迭代过程，并且通过对理论公式做近似，给出了立刻更新，而是通过目标网络进行保存，Q网络定可以并行的学习算法一一信赖域策略优化(Tust 期与目标网络进行参数同步，具体训练流程如图2 region policy optimization,.TRPO).作者还经过分析他们的工作开创性的实现了端到端的深度强化学后统一了标准的策略梯度和神经网络的策略梯2 深度强化学习的分类 st π(at |st) A at rt P(st +1|st ,at) st+1 Rt = ∑∞ k=0 λ k rt+k λ ∈ [0,1] s0 = s π V π (s) = E    ∑∞ t=0 γ t rt |s0 = s, π    a0 = a Q π (s,a) = E    ∑∞ t=0 γ t rt |s0 = s,a0 = a, π    π ∗ = argmax π V π (s) π ∗ = argmax a∈A Q π (s,a) π ∗ 深度强化学习是将深度学习与强化学习结合起来，实现从感知到动作的端到端学习的全新方法. 在人工智能中，一般用代理（Agent）表示一个具备行为能力的物体，比如机器人、无人车、人等等. 那么强化学习就是一个代理随着时间的推移不断地与环境进行交互学习的过程. 在 t 时刻，代理接受一个状态并且遵循策略从动作空间中选择一个动作作用于环境，接收环境反馈的奖赏，并且依据概率转换到下一个状态 . 强化学习的最终目的是通过调整自身策略来最大化累计奖赏，其中表示折扣因子. 而值函数（Value function）是用来预测累计奖赏的期望大小，衡量某个状态或者状态‒动作对的好坏. 假定初始状态，依据策略的状态值函数为；同时假定初始动作为，则状态−动作值函数为 . 而根据或者可以得到最优策略 . V(s; θ) Q(s, a; θ) π(a|s; θ) θ 深度学习和强化学习相结合的主要方式是利用深度神经网络近似任意一个强化学习的组成部分，包含值函数或者，策略和模型 (状态转移和奖励)，其中参数是深度神经网络的权重. 通常使用随机梯度下降方法更新深度强化学习的网络参数. 下面介绍一些重要的深度强化学习方法. 2.1 基于值函数的方法基于值函数（Value-bBased）方法是利用深度神经网络近似强化学习中的值函数部分，其策略部分并不显现出来而是隐含在值函数的分布之中，通过选择最大值函数的动作获得策略. Mnih 等首次介绍了深度 Q 网络[2] 并且带动了深度强化学习这一研究领域. 他们创造性的解决了利用非线性函数近似 Q 函数时容易导致算法不稳定甚至无法收敛的问题. 其主要方法是使用经验回放机制和目标网络，也就是在训练卷积神经网络近似 Q 函数时随机抽取之前训练过程保存的数据进行网络参数更新，同时网络的参数并不是立刻更新，而是通过目标网络进行保存，Q 网络定期与目标网络进行参数同步，具体训练流程如图 2. 他们的工作开创性的实现了端到端的深度强化学习过程，整个学习过程基本不需要先验知识以及人工参与，并且在学习视频游戏的任务中取得了很好的实验结果，大部分游戏的成绩都超过了人类专家. 随后有研究者发现标准的深度 Q 网络存在过高估计的问题，其原因是深度 Q 网络使用了同一个 Q 网络进行动作评估和动作选择，导致了估计误差的出现. 于是 Van Hasselt 等[30] 提出了使用 Q 网络进行动作选择，而使用目标网络对动作进行评估. Schaul 等[31] 认为标准 Q 网络使用经验回放时是同等概率进行采样，没有考虑历史数据不同的重要程度，所以他们提出利用时序差分 (Temporal‒difference, TD) 误差来衡量历史数据的重要性，重要的数据会被更多的采样，以提高学习效率. Wang 等[32] 提出了一种竞争网络结构，两个网络分别输出状态值函数和优势函数，再把它们合并起来输出动作‒状态值函数，并通过实验证明相比深度 Q 网络更快的收敛速度和更好的评估策略. 2.2 基于策略的方法因为基于值函数结合的方式需要完全计算所有动作的值函数，再贪婪地选择值函数最大的动作，所以这种方法通常无法很好的应用在具有高维度或者连续动作空间的问题之中. 而基于策略 (Policy‒based) 结合的方式，直接用深度神经网络学习策略，网络参数也就是策略的表征，因此可以直接在策略网络上进行优化，输出最终动作. 基于策略结合的方法对比基于值函数结合的方法，拥有更好的收敛性，能够更有效地应用在高维度或者连续动作空间中，并且可以学习到随机策略. 然而由于没有值函数，基于策略的方法对于策略的评估较慢，必须在与环境交互的过程中进行评价. Schulman 等[33] 提出了一种可以单调提升策略的迭代过程，并且通过对理论公式做近似，给出了可以并行的学习算法——信赖域策略优化（Trust region policy optimization, TRPO）. 作者还经过分析后统一了标准的策略梯度和神经网络的策略梯 Atari game Reward State Action Deep Q network Synchronize State，Action，Reward Train Target network Experience replay 图 2 深度 Q 网络的训练流程 Fig.2 Training process of deep Q-network · 402 · 工程科学学报，第 42 卷，第 4 期

<<向上翻页向下翻页>>

点击下载：文本生成领域的深度强化学习研究进展