正在加载图片...
徐聪等:文本生成领域的深度强化学习研究进展 407 对抗网络模型(SeqGANs),用深度强化学习中的 生成器的参数之后,加入了极大似然估计方法用 策略梯度方法训练生成模型,解决离散标记序列 真实序列值重新更新参数,类似于有老师指导模 不能进行梯度计算的问题:同时通过蒙特卡洛搜 型训练的方向,因此称为教师指导.文章中训练了 索利用一个展开策略对已经生成的部分序列做采 一个可以区分机器生成语句和人类生成语句的模 样生成完整序列,即当生成到1个词时,假设完整 型替代人工评估,最后对比了极大似然估计方法、 序列有T个词语,用蒙特卡洛搜索出后面的T-1个 最大互信息方法、序列到序列模型以及作者提出 词语的N条路径,将搜索生成的T-1个词语和已 的对抗-强化学习模型和对抗-每步生成奖励模 经生成的1个词语组成完整的N个输出序列,再由 型,结果显示虽然序列到序列模型生成的回复语 判别器对这些序列进行评价,将所有评价的平均 句最像人类的回复,但是通常其意思含糊或者与 值作为生成模型的奖励,从而解决了部分生成序 上下文不相关,而作者提出的两个模型的回复语 列的评价问题,训练过程如图4所示 句在这两个方面都能够取得较好的表现. 上面两个工作都是把深度强化学习和生成对 Real Real data 抗模型相结合,而Pfau与Vinyals1认为生成对抗 LSTM world 网络和动作者-评价者方法有很多相似之处,这篇 Train Discriminator 论文主要工作是从不同的角度来说明了生成对抗 Generate Generator LSTM 网络和动作者-评价者模型的异同点,从而鼓励研 究生成对抗网络和动作者-评价者模型的学者合 作研发出通用、稳定、可扩展的算法,或者从各自 +○Reward Monte 的研究中获取灵感. Generator carlo (○Reward tree 在亚马逊的构建社交机器人的比赛中,Serban search ○Reward 等通过深度强化学习算法结合对话系统开发 Policy gradient 的MILABOT聊天机器人获得最终比赛胜利.他 们利用深度强化学习对若干个对话系统进行整 图4序列生成对抗网络模型结构及其训练过程 合,该聊天机器人在与真实用户的互动中进行训 Fig.4 Structure and training process of the seqGANs model 练,让强化学习算法学习如何从自身包含的一系 作者将序列生成对抗网络模型应用于生成文 列模型中选择合适的生成语句作为回复.真实用 本任务如中文诗词、奥巴马政治演讲,以及生成音 户使用AB测试对该系统进行评估,结果显示其 乐任务中,得到的生成结果比极大似然估计方法 性能大大优于其他参赛系统.由于其所有模块都 要自然和准确 是可学习的,额外的数据能够帮助该系统继续提 Li等5利用对抗训练方法和强化学习方法来 升性能. 解决开放领域对话生成问题,作者采用了和序列 He等阿利用强化学习中价值网络具有评估 生成对抗网络类似方法,用策略梯度训练生成器, 长期奖励的能力.解决机器翻译模型解码时只关 用判别器对生成器的输出序列进行评价作为奖 注局部最优的问题,使翻译的句子整体上达到更 励.不同的是作者认为对部分生成序列进行评价 好的效果.作者提出的翻译模型不仅考虑了生成 时用蒙特卡罗搜索比较消耗时间,可以训练一个 词语的条件概率,还结合了生成词语对未来句子 判别器对部分和完整序列都能进行评价,训练数 的长期奖励,通过实验证明了此方法较集束搜索 据是从正序列和负序列中随机采样的子序列,每 解码的翻译模型能够获得更高的双语评估替换指 次只从正、负序列的子序列中采样一个样本,确保 标得分 早期生成的序列不会频繁出现在判别器的训练集 4总结与展望 中,文中称为每步生成的奖励(Reward for every generation step,REGS)方法.作者还发现在对抗训 本文对深度强化学习及其在文本生成任务中 练的时候,生成器比较容易崩溃,这是由于生成器 的应用现状进行了较为全面的总结,对相关的研 不会通过真实的目标序列进行训练,当接受的奖 究工作进行了分类和解析.随着深度强化学习和 励很低时,只知道当前生成的序列质量槽糕,而不 自然语言处理的迅速发展,越来越多的新方法和 知道如何向正确的方向作调整.于是作者在更新 新应用出现,可以预见强化学习和文本生成以及对抗网络模型(SeqGANs),用深度强化学习中的 策略梯度方法训练生成模型,解决离散标记序列 不能进行梯度计算的问题;同时通过蒙特卡洛搜 索利用一个展开策略对已经生成的部分序列做采 样生成完整序列,即当生成到 t 个词时,假设完整 序列有 T 个词语,用蒙特卡洛搜索出后面的 T−t 个 词语的 N 条路径,将搜索生成的 T−t 个词语和已 经生成的 t 个词语组成完整的 N 个输出序列,再由 判别器对这些序列进行评价,将所有评价的平均 值作为生成模型的奖励,从而解决了部分生成序 列的评价问题,训练过程如图 4 所示. 作者将序列生成对抗网络模型应用于生成文 本任务如中文诗词、奥巴马政治演讲,以及生成音 乐任务中,得到的生成结果比极大似然估计方法 要自然和准确. Li 等[57] 利用对抗训练方法和强化学习方法来 解决开放领域对话生成问题,作者采用了和序列 生成对抗网络类似方法,用策略梯度训练生成器, 用判别器对生成器的输出序列进行评价作为奖 励. 不同的是作者认为对部分生成序列进行评价 时用蒙特卡罗搜索比较消耗时间,可以训练一个 判别器对部分和完整序列都能进行评价,训练数 据是从正序列和负序列中随机采样的子序列,每 次只从正、负序列的子序列中采样一个样本,确保 早期生成的序列不会频繁出现在判别器的训练集 中 ,文中称为每步生成的奖励(Reward for every generation step, REGS)方法. 作者还发现在对抗训 练的时候,生成器比较容易崩溃,这是由于生成器 不会通过真实的目标序列进行训练,当接受的奖 励很低时,只知道当前生成的序列质量糟糕,而不 知道如何向正确的方向作调整. 于是作者在更新 生成器的参数之后,加入了极大似然估计方法用 真实序列值重新更新参数,类似于有老师指导模 型训练的方向,因此称为教师指导. 文章中训练了 一个可以区分机器生成语句和人类生成语句的模 型替代人工评估,最后对比了极大似然估计方法、 最大互信息方法、序列到序列模型以及作者提出 的对抗−强化学习模型和对抗−每步生成奖励模 型,结果显示虽然序列到序列模型生成的回复语 句最像人类的回复,但是通常其意思含糊或者与 上下文不相关,而作者提出的两个模型的回复语 句在这两个方面都能够取得较好的表现. 上面两个工作都是把深度强化学习和生成对 抗模型相结合,而 Pfau 与 Vinyals[73] 认为生成对抗 网络和动作者−评价者方法有很多相似之处,这篇 论文主要工作是从不同的角度来说明了生成对抗 网络和动作者−评价者模型的异同点,从而鼓励研 究生成对抗网络和动作者−评价者模型的学者合 作研发出通用、稳定、可扩展的算法,或者从各自 的研究中获取灵感. 在亚马逊的构建社交机器人的比赛中,Serban 等[74] 通过深度强化学习算法结合对话系统开发 的 MILABOT 聊天机器人获得最终比赛胜利. 他 们利用深度强化学习对若干个对话系统进行整 合,该聊天机器人在与真实用户的互动中进行训 练,让强化学习算法学习如何从自身包含的一系 列模型中选择合适的生成语句作为回复. 真实用 户使用 A/B 测试对该系统进行评估,结果显示其 性能大大优于其他参赛系统. 由于其所有模块都 是可学习的,额外的数据能够帮助该系统继续提 升性能. He 等[75] 利用强化学习中价值网络具有评估 长期奖励的能力,解决机器翻译模型解码时只关 注局部最优的问题,使翻译的句子整体上达到更 好的效果. 作者提出的翻译模型不仅考虑了生成 词语的条件概率,还结合了生成词语对未来句子 的长期奖励,通过实验证明了此方法较集束搜索 解码的翻译模型能够获得更高的双语评估替换指 标得分. 4    总结与展望 本文对深度强化学习及其在文本生成任务中 的应用现状进行了较为全面的总结,对相关的研 究工作进行了分类和解析. 随着深度强化学习和 自然语言处理的迅速发展,越来越多的新方法和 新应用出现,可以预见强化学习和文本生成以及 Generator Generator Discriminator Reward Reward Reward Real world State Real data Generate LSTM LSTM Train Monte carlo tree search Policy gradient … … 图 4    序列生成对抗网络模型结构及其训练过程 Fig.4    Structure and training process of the seqGANs model 徐    聪等: 文本生成领域的深度强化学习研究进展 · 407 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有