正在加载图片...
徐聪等:文本生成领域的深度强化学习研究进展 403· 度.信赖域策略优化算法用联合梯度计算神经网 在各种不同领域,例如视觉导航、策略游戏四、 络梯度的方向,最后在仿真机器人的多项任务中 细粒度图像分类)、自动构建神经网络、网络服 都取得了比较好的效果.2017年Kandasamy等B 务个性化婀自然语言领域中也有不少研究者开 针对神经对话模型提出了批策略梯度(Batch policy 始使用深度强化学习来改进现有的网络模型结构 gradient)方法,作者认为采用离策略而非在策略的 或者是建模流程67在自然语言处理的文本生 更新方式更适合序列到序列模型,能够保证梯度 成领域中,如对话系统、机器翻译、图像生成描述 的稳定下降.此外还提出批策略迭代方法,通过保 和自动摘要等任务都有很多成功使用深度强化学 存的动作和奖励按批次进行梯度计算更新目标 习的文章发表 策略 深度强化学习和文本生成任务的结合一般是 23值函数-策略方法 把生成文本的过程看成是生成动作8),模型需要 基于值函数和策略结合的方法对应于传统强 根据一些环境信息学习文本生成的策略,环境信 化学习中的动作者-评价者(Actor--critic)方法B阿, 息在不同任务中是不一样的,可以有不同的设计 它融合了只用评价者(Critic--only)方法变异性小 方式.下面根据强化学习模型的类别介绍一些代 和只用动作者(Actor--only)容易处理连续动作的 表性工作 优点.这类算法利用网络参数化的动作者网络生 3.1基于值函数 成动作,利用评价者网络为动作者网络提供方差 这种方法一般是利用深度Q网络及其改进算 较小的梯度估计 法,将生成文本任务看作是序列决策任务,状态和 Mnih等提出了一种异步的强化学习方法 动作都是自然语言的形式,例如人机对话、基于文 (Asynchronous advantage actor-critic,A3C) 本的游戏等 个并行的动作者利用不同的探索策略来稳定训练 Narasimhan等最早将深度Q网络应用在自 过程,因此不需要经验回放机制参与训练.异步强 然语言相关的任务中,他们在深度思维团队把深 化学习算法能够比深度Q网络、深度双Q网络、 度强化学习应用于视频游戏任务的基础上,把相 加入竞争机制的深度双Q网络等算法获得更高的 同的算法框架移植到文本游戏当中.不同于视频 运行效率并且能够很好的应用在连续控制问题中. 游戏中算法的状态是游戏画面,文本游戏的状态 Lillicrap等也同样提出了一种改进的动作者-评价 是基于文字的,通常是一段比较长的介绍性文字, 者方法一深度确定性策略梯度(Deep deterministic 需要算法给出一个合适的动作使游戏进入下一个 policy gradient,.DDPG)B8,该算法可以认为是深度 状态.作者通过循环神经网络(Recurrent neural Q网络在连续动作空间的版本,它利用Sliver提出 networks,.RNN)so的一个变种长短期记忆网络(Long 的确定性策略梯度(Deterministic policy gradient)算 short-.term memory,LSTM)来读取状态信息并生成 法结合动作者-评价者方法解决了深度Q网络不 相应的向量表示5川,将向量化的状态表示输入到 能在连续或者高维度动作空间中应用的问题,通 多个多层神经网络中,每个网络输出的是动作指 过实验证明了该算法能够从低维度的观测数据中 令中每个单词的状态值函数,本工作中假设动作 学习到复杂的策略.Kulkarni等提出了无模型和基 指令都是一个动词和一个形容词的形式.然后选 于模型两种算法之外的另一种深度强化学习算法, 择每个动作中对应状态值函数最大的单词组合成 称为深度继承表征(Deep successor representations, 动作指令,作用到游戏中,使游戏转移到下一个状 DSR)B.深度继承表征算法由一个奖励预测网络 态.网络的训练方式也和传统深度Q网络相似,利 (Reward predictor)和一个继承状态映射网络(Successor 用带优先次序的经验回放机制稳定网络的训练过 map)组成,它的优点是对末端的奖励变化很敏感, 程.最后作者用实验比较了随机策略算法、长短 并且能够提取子目标从而突破一些瓶颈状态,目 期记忆网络-深度Q网络(LSTM-DON)算法和利 前也已经应用于文本生成任务之中,取得了较好 用传统的词袋模型BOW(Bag of words)或者二元 的效果40 词袋BI(Bag of bigrams)文本表示方法结合深度 Q网络的算法,结果表明长短期记忆网络一深度 3深度强化学习在文本生成中的应用 O网络在多个文本游戏中都取得较好得分 随着近两年深度强化学习在决策和控制领域 He等s不赞同Narasimhan把动作空间当作 获得成功,更多的研究者开始把深度强学习应用 是有限和已知的做法,他们认为很多文本游戏中度. 信赖域策略优化算法用联合梯度计算神经网 络梯度的方向,最后在仿真机器人的多项任务中 都取得了比较好的效果. 2017 年 Kandasamy 等[34] 针对神经对话模型提出了批策略梯度(Batch policy gradient)方法,作者认为采用离策略而非在策略的 更新方式更适合序列到序列模型,能够保证梯度 的稳定下降. 此外还提出批策略迭代方法,通过保 存的动作和奖励按批次进行梯度计算更新目标 策略. 2.3    值函数‒策略方法 基于值函数和策略结合的方法对应于传统强 化学习中的动作者‒评价者(Actor‒critic)方法[35] , 它融合了只用评价者(Critic‒only)方法变异性小 和只用动作者(Actor‒only)容易处理连续动作的 优点. 这类算法利用网络参数化的动作者网络生 成动作,利用评价者网络为动作者网络提供方差 较小的梯度估计[36] . Mnih 等提出了一种异步的强化学习方法 (Asynchronous advantage actor‒critic, A3C) [37] ,多 个并行的动作者利用不同的探索策略来稳定训练 过程,因此不需要经验回放机制参与训练. 异步强 化学习算法能够比深度 Q 网络、深度双 Q 网络、 加入竞争机制的深度双 Q 网络等算法获得更高的 运行效率并且能够很好的应用在连续控制问题中. Lillicrap 等也同样提出了一种改进的动作者−评价 者方法——深度确定性策略梯度(Deep deterministic policy gradient, DDPG) [38] ,该算法可以认为是深度 Q 网络在连续动作空间的版本,它利用 Sliver 提出 的确定性策略梯度(Deterministic policy gradient)算 法结合动作者‒评价者方法解决了深度 Q 网络不 能在连续或者高维度动作空间中应用的问题,通 过实验证明了该算法能够从低维度的观测数据中 学习到复杂的策略. Kulkarni 等提出了无模型和基 于模型两种算法之外的另一种深度强化学习算法, 称为深度继承表征(Deep successor representations, DSR) [39] . 深度继承表征算法由一个奖励预测网络 (Reward predictor)和一个继承状态映射网络(Successor map)组成,它的优点是对末端的奖励变化很敏感, 并且能够提取子目标从而突破一些瓶颈状态,目 前也已经应用于文本生成任务之中,取得了较好 的效果[40] . 3    深度强化学习在文本生成中的应用 随着近两年深度强化学习在决策和控制领域 获得成功,更多的研究者开始把深度强学习应用 在各种不同领域,例如视觉导航[41]、策略游戏[42]、 细粒度图像分类[43]、自动构建神经网络[44]、网络服 务个性化[45] . 自然语言领域中也有不少研究者开 始使用深度强化学习来改进现有的网络模型结构 或者是建模流程[46−47] . 在自然语言处理的文本生 成领域中,如对话系统、机器翻译、图像生成描述 和自动摘要等任务都有很多成功使用深度强化学 习的文章发表. 深度强化学习和文本生成任务的结合一般是 把生成文本的过程看成是生成动作[48] ,模型需要 根据一些环境信息学习文本生成的策略,环境信 息在不同任务中是不一样的,可以有不同的设计 方式. 下面根据强化学习模型的类别介绍一些代 表性工作. 3.1    基于值函数 这种方法一般是利用深度 Q 网络及其改进算 法,将生成文本任务看作是序列决策任务,状态和 动作都是自然语言的形式,例如人机对话、基于文 本的游戏等. Narasimhan 等[49] 最早将深度 Q 网络应用在自 然语言相关的任务中,他们在深度思维团队把深 度强化学习应用于视频游戏任务的基础上,把相 同的算法框架移植到文本游戏当中. 不同于视频 游戏中算法的状态是游戏画面,文本游戏的状态 是基于文字的,通常是一段比较长的介绍性文字, 需要算法给出一个合适的动作使游戏进入下一个 状态. 作者通过循环神经网络(Recurrent neural networks, RNN) [50] 的一个变种长短期记忆网络(Long short-term memory, LSTM)来读取状态信息并生成 相应的向量表示[51] ,将向量化的状态表示输入到 多个多层神经网络中,每个网络输出的是动作指 令中每个单词的状态值函数,本工作中假设动作 指令都是一个动词和一个形容词的形式. 然后选 择每个动作中对应状态值函数最大的单词组合成 动作指令,作用到游戏中,使游戏转移到下一个状 态. 网络的训练方式也和传统深度 Q 网络相似,利 用带优先次序的经验回放机制稳定网络的训练过 程. 最后作者用实验比较了随机策略算法、长短 期记忆网络−深度 Q 网络(LSTM−DQN)算法和利 用传统的词袋模型 BOW(Bag of words)或者二元 词袋 BI(Bag of bigrams)文本表示方法结合深度 Q 网络的算法,结果表明长短期记忆网络−深度 Q 网络在多个文本游戏中都取得较好得分. He 等[52] 不赞同 Narasimhan 把动作空间当作 是有限和已知的做法,他们认为很多文本游戏中 徐    聪等: 文本生成领域的深度强化学习研究进展 · 403 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有