正在加载图片...
406 工程科学学报,第42卷,第4期 函数来优化策略网络.基于策略的方法需要在一 法比基于值的方法有更强的收敛性,但是具有策 个回合结束的时候再进行学习,而由于奖励的稀 略波动大、采样效率低和易收敛到局部极小的问 疏以及衰减,就造成了基于策略的方法学习效果 题,因此本文采用两种策略方法和值方法结合的 不够好.这也解释了为什么最初深度思维公司用 方法,分别是带经验回放的信赖域动作者-评价者 的是深度Q网络而不是用更直接的基于策略的方 (Trust region actor-critic with experience replay, 法来产生动作.而动作者-评价者算法结合了基于 TRACER)和带经验回放的不定期动作者-评价者模 值函数的方法后,可以使策略梯度实现单步更新 (Episodic natural actor-critic with experience replay, Bahdanau等Is提出利用强化学习的动作者- eNACER).前者利用重要性采样比率调节经验回 评价者框架和循环神经网络结构的生成模型相融 放采样所得历史样本的奖励,消除它对于当前策 合的方法,试图改进Ranzato提出的算法.具体做 略的偏差;同时采用Wang等s提出的改进信赖 法是把两个典型的编码-解码器网络分别作为动 域策略优化(Trust region policy optimization)方法 作者和评价者,动作者网络接收文本序列X然后 使得更新后的策略不会偏离平均策略太多,从而 输出预测样本序列;评价者网络接收真实的标签 保证了策略的稳定更新,不会出现较大的策略波 序列Y和动作者在1时刻生成的词语y,最后输出 动.后者为了解决策略梯度在陡峭方向上不能保 状态-动作值Q,再用Qr去训练动作者网络,如图3 证模型进行更新的问题,采用Peters与Schaal9提 所示 出的自然动作者-评价者(Natural actor--critic,NAC) 算法加上经验回放机制,此方法使用了相容函数 Actor pe Critic Q,0,…,Q 近似(Compatible function approximation)不需要精 Decoder Decoder 确的计算值函数只需要给出一个估计值.作者在 月…, Encoder Encoder 剑桥地区电话咨询餐厅对话数据集上进行实验, State of actor 通过对比高斯过程强化学习(Gaussian processes ,2,z h,h”,及 reinforcement learning,GPRL)Io,深度Q网络,带经 验回放的信赖域动作者-评价者模型和带经验回 图3动作者-评价者框架的训练流程图 放的不定期动作者-评价者模型等算法发现提出 Fig.3 Training process of the actor-critic framework 的算法有更好的效果 同时作者还采用了一些技巧来提升模型的性 3.4其他形式 能,如采用类似深度Q网络中的目标网络来达到 深度强化学习的框架具有一定的通用性,于 稳定训练的目的.首先,增加一个参数更新较为滞 是很多研究者把深度强化学习和不同的模型框架 后的动作者,通过这个动作者而非正在训练的行 或者算法做融合,应用于自然语言处理任务中,也 动者生成预测序列,这样可以避免动作者和评价 取得了很好的效果.生成对抗网络(Generative 者相互循环反馈:其次,此模型不会只对完整的预 adversarial networks,GANs)是近年最火热的深度学 测序列计算指标得分作为奖励,而是对每一步生 习模型之一,它是由蒙特利尔大学的Goodfellow 成的不完整序列计算指标得分,再做差分计算构 等川学者在2014年提出的.生成对抗网络是一种 造及时奖励,这样奖励就不只在所有词语都生成 生成模型(Generative model),它利用一个判别器模 完毕时才能获得,使得评价者的训练信号不再稀 型指导生成模型的训练,使得模型最终能够生成 疏.作者将此模型应用于拼写纠正能够获得更低 接近真实的数据.经过两年的发展,生成对抗网络 的拼写错误率,而在机器翻译任务中同样比最大 及其改进模型已经可以很好的应用于图像生成任 似然估计的训练方法获得更高的双语评估替换指 务,但是在自然语言任务中的应用还面临着一些 标的得分 问题.生成对抗网貉中的生成器和判别器模型都 Su等67将最新的动作者-评价者模型的改进 需要完全可微,才能进行梯度训练,而自然语言任 算法应用于任务导向的对话系统中,并且提高了 务中需要生成离散的标记序列:另一个难点是生 动作者-评价者算法的学习速度,解决了策略训练 成对抗网络的判别模型一般是对完整序列进行评 初期算法表现较差的问题.作者把对话策略优化 价,而自然语言任务中需要对已经生成的部分序 问题看作是学习每轮如何选择回复序列的任务, 列和之后生成的完整序列的质量都进行评价 任务目标是最大化长期收益.因为基于策略的方 针对上面两个问题,Yù等四提出了序列生成函数来优化策略网络. 基于策略的方法需要在一 个回合结束的时候再进行学习,而由于奖励的稀 疏以及衰减,就造成了基于策略的方法学习效果 不够好. 这也解释了为什么最初深度思维公司用 的是深度 Q 网络而不是用更直接的基于策略的方 法来产生动作. 而动作者−评价者算法结合了基于 值函数的方法后,可以使策略梯度实现单步更新. Yˆ yt QT QT Bahdanau 等[66] 提出利用强化学习的动作者‒ 评价者框架和循环神经网络结构的生成模型相融 合的方法,试图改进 Ranzato 提出的算法. 具体做 法是把两个典型的编码‒解码器网络分别作为动 作者和评价者,动作者网络接收文本序列 X 然后 输出预测样本序列 ;评价者网络接收真实的标签 序列 Y 和动作者在 t 时刻生成的词语 ,最后输出 状态‒动作值 ,再用 去训练动作者网络,如图 3 所示. 同时作者还采用了一些技巧来提升模型的性 能,如采用类似深度 Q 网络中的目标网络来达到 稳定训练的目的. 首先,增加一个参数更新较为滞 后的动作者,通过这个动作者而非正在训练的行 动者生成预测序列,这样可以避免动作者和评价 者相互循环反馈;其次,此模型不会只对完整的预 测序列计算指标得分作为奖励,而是对每一步生 成的不完整序列计算指标得分,再做差分计算构 造及时奖励,这样奖励就不只在所有词语都生成 完毕时才能获得,使得评价者的训练信号不再稀 疏. 作者将此模型应用于拼写纠正能够获得更低 的拼写错误率,而在机器翻译任务中同样比最大 似然估计的训练方法获得更高的双语评估替换指 标的得分. Su 等[67] 将最新的动作者−评价者模型的改进 算法应用于任务导向的对话系统中,并且提高了 动作者−评价者算法的学习速度,解决了策略训练 初期算法表现较差的问题. 作者把对话策略优化 问题看作是学习每轮如何选择回复序列的任务, 任务目标是最大化长期收益. 因为基于策略的方 法比基于值的方法有更强的收敛性,但是具有策 略波动大、采样效率低和易收敛到局部极小的问 题,因此本文采用两种策略方法和值方法结合的 方法,分别是带经验回放的信赖域动作者−评价者 模型(Trust region actor−critic with experience replay, TRACER)和带经验回放的不定期动作者−评价者模 型(Episodic natural actor−critic with experience replay, eNACER). 前者利用重要性采样比率调节经验回 放采样所得历史样本的奖励,消除它对于当前策 略的偏差;同时采用 Wang 等[68] 提出的改进信赖 域策略优化(Trust region policy optimization)方法 使得更新后的策略不会偏离平均策略太多,从而 保证了策略的稳定更新,不会出现较大的策略波 动. 后者为了解决策略梯度在陡峭方向上不能保 证模型进行更新的问题,采用 Peters 与 Schaal[69] 提 出的自然动作者−评价者 (Natural actor−critic, NAC) 算法加上经验回放机制,此方法使用了相容函数 近似(Compatible function approximation) 不需要精 确的计算值函数只需要给出一个估计值. 作者在 剑桥地区电话咨询餐厅对话数据集上进行实验, 通过对比高斯过程强化学习( Gaussian processes reinforcement learning, GPRL) [70] ,深度 Q 网络,带经 验回放的信赖域动作者−评价者模型和带经验回 放的不定期动作者−评价者模型等算法发现提出 的算法有更好的效果. 3.4    其他形式 深度强化学习的框架具有一定的通用性,于 是很多研究者把深度强化学习和不同的模型框架 或者算法做融合,应用于自然语言处理任务中,也 取得了很好的效果 . 生成对抗网络 ( Generative adversarial networks,GANs)是近年最火热的深度学 习模型之一,它是由蒙特利尔大学的 Goodfellow 等[71] 学者在 2014 年提出的. 生成对抗网络是一种 生成模型(Generative model),它利用一个判别器模 型指导生成模型的训练,使得模型最终能够生成 接近真实的数据. 经过两年的发展,生成对抗网络 及其改进模型已经可以很好的应用于图像生成任 务,但是在自然语言任务中的应用还面临着一些 问题. 生成对抗网络中的生成器和判别器模型都 需要完全可微,才能进行梯度训练,而自然语言任 务中需要生成离散的标记序列;另一个难点是生 成对抗网络的判别模型一般是对完整序列进行评 价,而自然语言任务中需要对已经生成的部分序 列和之后生成的完整序列的质量都进行评价. 针对上面两个问题,Yu 等[72] 提出了序列生成 Actor Encoder Decoder pθ x1 , x2 ,…, xL Critic Encoder State of actor Decoder Qϕ Q1 , Q2 ,…, QT y1 , y2 ,…, yL ^ ^ ^ y1 , y2 ,…, yL 图 3    动作者−评价者框架的训练流程图 Fig.3    Training process of the actor−critic framework · 406 · 工程科学学报,第 42 卷,第 4 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有