工程科学学报 Chinese Journal of Engineering 文本生成领域的深度强化学习研究进展 徐聪李擎张德政陈鹂崔家瑞 Research progress of deep reinforcement learning applied to text generation XU Cong.LI Qing,ZHANG De-zheng.CHEN Peng,CUI Jia-rui 引用本文: 徐聪,李擎,张德政,陈鹏,崔家瑞.文本生成领域的深度强化学习研究进展.工程科学学报,2020,42(4:399-411.doi: 10.13374j.issn2095-9389.2019.06.16.030 XU Cong.LI Qing,ZHANG De-zheng,CHEN Peng,CUI Jia-rui.Research progress of deep reinforcement learning applied to text generation[J].Chinese Journal of Engineering,2020,42(4):399-411.doi:10.13374/j.issn2095-9389.2019.06.16.030 在线阅读View online::htps:/ldoi.org10.13374.issn2095-9389.2019.06.16.030 您可能感兴趣的其他文章 Articles you may be interested in 基于强化学习的工控系统恶意软件行为检测方法 Reinforcement learning-based detection method for malware behavior in industrial control systems 工程科学学报.2020,42(4):455 https:1doi.org/10.13374.issn2095-9389.2019.09.16.005 基于深度学习的高效火车号识别 Efficient Wagon Number Recognition Based on Deep Learning 工程科学学报.优先发表https:/doi.org/10.13374.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报.2019,41(6):817 https::loi.org10.13374.issn2095-9389.2019.06.014 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报.2019,41(10:1229 https:/oi.org/10.13374.issn2095-9389.2019.03.27.002 基于文本语料的涉恐事件实体属性抽取 Entity and attribute extraction of terrorism event based on text corpus 工程科学学报.2020,42(4:500 https:/1doi.org/10.13374.issn2095-9389.2019.09.13.003
文本生成领域的深度强化学习研究进展 徐聪 李擎 张德政 陈鹏 崔家瑞 Research progress of deep reinforcement learning applied to text generation XU Cong, LI Qing, ZHANG De-zheng, CHEN Peng, CUI Jia-rui 引用本文: 徐聪, 李擎, 张德政, 陈鹏, 崔家瑞. 文本生成领域的深度强化学习研究进展[J]. 工程科学学报, 2020, 42(4): 399-411. doi: 10.13374/j.issn2095-9389.2019.06.16.030 XU Cong, LI Qing, ZHANG De-zheng, CHEN Peng, CUI Jia-rui. Research progress of deep reinforcement learning applied to text generation[J]. Chinese Journal of Engineering, 2020, 42(4): 399-411. doi: 10.13374/j.issn2095-9389.2019.06.16.030 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2019.06.16.030 您可能感兴趣的其他文章 Articles you may be interested in 基于强化学习的工控系统恶意软件行为检测方法 Reinforcement learning-based detection method for malware behavior in industrial control systems 工程科学学报. 2020, 42(4): 455 https://doi.org/10.13374/j.issn2095-9389.2019.09.16.005 基于深度学习的高效火车号识别 Efficient Wagon Number Recognition Based on Deep Learning 工程科学学报.优先发表 https://doi.org/10.13374/j.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报. 2019, 41(6): 817 https://doi.org/10.13374/j.issn2095-9389.2019.06.014 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报. 2019, 41(10): 1229 https://doi.org/10.13374/j.issn2095-9389.2019.03.27.002 基于文本语料的涉恐事件实体属性抽取 Entity and attribute extraction of terrorism event based on text corpus 工程科学学报. 2020, 42(4): 500 https://doi.org/10.13374/j.issn2095-9389.2019.09.13.003
工程科学学报.第42卷,第4期:399-411.2020年4月 Chinese Journal of Engineering,Vol.42,No.4:399-411,April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.06.16.030;http://cje.ustb.edu.cn 文本生成领域的深度强化学习研究进展 徐 聪2),李擎)区,张德政2,),陈鹏,崔家瑞) 1)北京科技大学自动化学院,北京1000832)材料领域知识工程北京市重点实验室,北京1000833)北京科技大学计算机与通信工程学 院.北京100083 ☒通信作者,E-mail:liging@ies.ustb.edu.cn 摘要谷歌的人工智能系统(AlphaGo)在围棋领域取得了一系列成功,使得深度强化学习得到越来越多的关注.深度强化 学习融合了深度学习对复杂环境的感知能力和强化学习对复杂情景的决策能力.而自然语言处理过程中有着数量巨大的词 汇或者语句需要表征,并且在对话系统、机器翻译和图像描述等文本生成任务中存在大量难以建模的决策问题.这使得深度 强化学习在自然语言处理的文本生成任务中能够发挥重要的作用,帮助改进现有的模型结构或者训练机制,并且已经取得了 很多显著的成果.为此,本文系统阐述深度强化学习应用在不同的文本生成任务中的一些主要方法,梳理其发展的轨迹,分 析算法特点.最后,展望深度强化学习与自然语言处理任务融合的前景和挑战 关键词深度强化学习:自然语言处理:文本生成:对话系统:机器翻译:图像描述 分类号TP183 Research progress of deep reinforcement learning applied to text generation XU Cong2),LI Qing,ZHANG De-zheng,CHEN Peng,CUl Jia-rui) 1)School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Beijing Key Laboratory of Knowledge Engineering for Materials Science,Beijing 100083.China 3)School of Computer&Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:liqing @ies.ustb.edu.cn ABSTRACT With the recent exciting achievements of Google's artificial intelligence system in the game of Go,deep reinforcement learning (DRL)has witnessed considerable development.DRL combines the abilities of sensing and making decisions provided by deep learning and reinforcement learning.Natural language processing(NLP)involves a large number of vocabularies or statements that have to be represented,and its subtasks,such as the dialogue system and machine translation,involve many decision problems that are difficult to model.Because of the aforementioned reasons,DRL can be appropriately applied to various NLP tasks such as named entity recognition,relation extraction,dialogue system,image caption,and machine translation.Further,DRL is helpful in improving the framework or the training pipeline of the aforementioned tasks,and notable achievements have been obtained.DRL is not an algorithm or a method but a paradigm.Many researchers fit plenty of NLP tasks in this paradigm and achieve better performance.Specifically,in text generation based on the reinforcement learning paradigm,the learning process that is used to produce a predicted sequence from the given source sequence can be considered to be the Markov decision process(MDP).In MDP,an agent interacts with the environment by receiving a sequence of observations and scaled rewards and subsequently produces the next action or word.This causes the text generation model to achieve decision-making ability,which can result in future success.Thus,the text generation task integrated with reinforcement learning is an attractive and promising research field.This study presented a comprehensive introduction and a systemic overview.First,we presented the basic methods in DRL and its variations.Then,we showed the main applications of DRL during the 收稿日期:2019-06-16 基金项目:国家重点研发计划云计算和大数据专项资助项目(2017YFB1002304)
文本生成领域的深度强化学习研究进展 徐 聪1,2),李 擎1) 苣,张德政2,3),陈 鹏1),崔家瑞1) 1) 北京科技大学自动化学院,北京 100083 2) 材料领域知识工程北京市重点实验室,北京 100083 3) 北京科技大学计算机与通信工程学 院,北京 100083 苣通信作者,E-mail:liqing@ies.ustb.edu.cn 摘 要 谷歌的人工智能系统(AlphaGo)在围棋领域取得了一系列成功,使得深度强化学习得到越来越多的关注. 深度强化 学习融合了深度学习对复杂环境的感知能力和强化学习对复杂情景的决策能力. 而自然语言处理过程中有着数量巨大的词 汇或者语句需要表征,并且在对话系统、机器翻译和图像描述等文本生成任务中存在大量难以建模的决策问题. 这使得深度 强化学习在自然语言处理的文本生成任务中能够发挥重要的作用,帮助改进现有的模型结构或者训练机制,并且已经取得了 很多显著的成果. 为此,本文系统阐述深度强化学习应用在不同的文本生成任务中的一些主要方法,梳理其发展的轨迹,分 析算法特点. 最后,展望深度强化学习与自然语言处理任务融合的前景和挑战. 关键词 深度强化学习;自然语言处理;文本生成;对话系统;机器翻译;图像描述 分类号 TP183 Research progress of deep reinforcement learning applied to text generation XU Cong1,2) ,LI Qing1) 苣 ,ZHANG De-zheng2,3) ,CHEN Peng1) ,CUI Jia-rui1) 1) School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Beijing Key Laboratory of Knowledge Engineering for Materials Science, Beijing 100083, China 3) School of Computer & Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 苣 Corresponding author, E-mail: liqing@ies.ustb.edu.cn ABSTRACT With the recent exciting achievements of Google’s artificial intelligence system in the game of Go, deep reinforcement learning (DRL) has witnessed considerable development. DRL combines the abilities of sensing and making decisions provided by deep learning and reinforcement learning. Natural language processing (NLP) involves a large number of vocabularies or statements that have to be represented, and its subtasks, such as the dialogue system and machine translation, involve many decision problems that are difficult to model. Because of the aforementioned reasons, DRL can be appropriately applied to various NLP tasks such as named entity recognition, relation extraction, dialogue system, image caption, and machine translation. Further, DRL is helpful in improving the framework or the training pipeline of the aforementioned tasks, and notable achievements have been obtained. DRL is not an algorithm or a method but a paradigm. Many researchers fit plenty of NLP tasks in this paradigm and achieve better performance. Specifically, in text generation based on the reinforcement learning paradigm, the learning process that is used to produce a predicted sequence from the given source sequence can be considered to be the Markov decision process (MDP). In MDP, an agent interacts with the environment by receiving a sequence of observations and scaled rewards and subsequently produces the next action or word. This causes the text generation model to achieve decision-making ability, which can result in future success. Thus, the text generation task integrated with reinforcement learning is an attractive and promising research field. This study presented a comprehensive introduction and a systemic overview. First, we presented the basic methods in DRL and its variations. Then, we showed the main applications of DRL during the 收稿日期: 2019−06−16 基金项目: 国家重点研发计划云计算和大数据专项资助项目(2017YFB1002304) 工程科学学报,第 42 卷,第 4 期:399−411,2020 年 4 月 Chinese Journal of Engineering, Vol. 42, No. 4: 399−411, April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.06.16.030; http://cje.ustb.edu.cn
400 工程科学学报,第42卷,第4期 text generation task,trace the development of DRL,and summarized the merits and demerits associated with these applications.The final section enumerated some future research directions of DRL combined with NLP. KEY WORDS deep reinforcement learning;natural language processing:text generation;dialogue system;machine translation;image caption 由于深度学习的兴盛,强化学习和自然语言 类进行认知决策的过程,先通过眼睛感知周围环 处理技术都得到了巨大的发展,突破了各自在传 境的状态,再通过大脑进行动作选择.其后大部分 统方法上的瓶颈.如今越来越多研究将强化学习 的深度强化学习改进算法也基本遵循这个框架 的强大决策能力应用于自然语言处理的各个任务 原理 之中,都取得了不错的进展.本文首先简要介绍深 State 度强化学习和文本生成任务,然后分别梳理三类 Perception 深度强化学习方法在文本生成任务中的应用以及 Brain 各自的优缺点,最后对深度强化学习技术和自然 Environment -Reward- 语言处理任务相结合的前景与方向进行总结 Agent Decision 1简介 Behaviour Action 1.1深度强化学习 图1深度强化学习的基本框架 强化学习(Reinforcement learning)通常用来解 Fig.1 Framework of deep reinforcement learning 决科学、工程甚至经济文化等众多领域中的序列 1.2自然语言处理中的文本生成任务 决策问题四强化学习和神经网络的结合可以追溯 自然语言处理(Natural language processing, 到20世纪90年代,而直到近年来由于深度学习和 NLP)是利用计算机技术对人类语言进行自动分析 大数据的惊人成就以及硬件计算能力的大幅提 和表征的方法及理论的总称,自然语言处理研究 升,才使得强化学习迎来了一次复兴,同时也使深 的目的是让计算机能够运行各种层次的自然语言 度强化学习(Deep reinforcement learning,DRL)成为 相关任务,包括分词、词性标注、机器翻译、对话 目前人工智能科学中最热门的研究领域之一 系统.近二十年来,自然语言问题都是利用机器学 谷歌的深度思维团队是深度强化学习的主要 习方法基于高维且稀疏的特征来训练浅层模型 提出者和研究者,他们于2015年在《Nature》杂志 而随着深度学习方法的发展,稠密矩阵表征 上提出了深度Q网络(Deep Q-network,DQN),并 (Dense vector representations)的方法使得很多自然 让其学习如何操作Atari视频游戏,最终在49个游 语言处理任务取得了更加优秀的结果m.随后词向 戏中取得了高于人类专业玩家的得分.2016年,他 量的成功使用加速推动了深度学习在自然语言处 们提出了蒙特卡罗树搜索和深度强化学习相结合 理中的应用⑧,与以往浅层模型相比,深度学习能 的算法-人工智能算法(AlphaGo),在与职业九段 够自动表征多层次的特征而不依赖先验知识进行 棋手李世石的对弈中以4:1取得胜利,并将算法 手工提取特征,这就避免了手工提取特征通常耗 发表于同年的《Nature》杂志上)在此基础上,深 费时间又不够完整的缺点.深度学习和自然语言 度思维团队用这套算法的改进版本挑战世界排名 处理发展到现在,己经能够部分解决一些相对复 第一的中国棋手柯洁,以3:0的巨大优势取胜 杂的文本生成任务,例如对话系统、机器翻译、图 这意味着以深度学习和强化学习为代表的人工智 像描述和自动摘要等6( 能算法,已经能够在一些极其复杂的博弈环境中 对话系统通常也被叫作聊天机器人,或者基 超越人类顶尖专家的水平 于自然语言的人机交互.他们通常分为两种:一种 深度强化学习利用深度学习非线性模型的 是面向特定任务的,目的是帮助用户完成特定的 强大感知能力对复杂环境状态进行表征,利用 任务;一种是开放领域的,以聊天交流为主要目的 强化学习的决策优化能力针对不同环境状态进行 任务导向的对话系统(Task-oriented spoken dialogue 动作选择阿将两种算法结合构成了基本的深度强 systems)可以完成类似预定酒店、提供餐厅信息和 化学习的框架,如图1所示,这样的过程也类似人 获取公交时间表等任务.这类系统通常依赖结构
text generation task, trace the development of DRL, and summarized the merits and demerits associated with these applications. The final section enumerated some future research directions of DRL combined with NLP. KEY WORDS deep reinforcement learning;natural language processing;text generation;dialogue system;machine translation;image caption 由于深度学习的兴盛,强化学习和自然语言 处理技术都得到了巨大的发展,突破了各自在传 统方法上的瓶颈. 如今越来越多研究将强化学习 的强大决策能力应用于自然语言处理的各个任务 之中,都取得了不错的进展. 本文首先简要介绍深 度强化学习和文本生成任务,然后分别梳理三类 深度强化学习方法在文本生成任务中的应用以及 各自的优缺点,最后对深度强化学习技术和自然 语言处理任务相结合的前景与方向进行总结. 1 简介 1.1 深度强化学习 强化学习 (Reinforcement learning) 通常用来解 决科学、工程甚至经济文化等众多领域中的序列 决策问题[1] . 强化学习和神经网络的结合可以追溯 到 20 世纪 90 年代,而直到近年来由于深度学习和 大数据的惊人成就以及硬件计算能力的大幅提 升,才使得强化学习迎来了一次复兴,同时也使深 度强化学习(Deep reinforcement learning, DRL)成为 目前人工智能科学中最热门的研究领域之一. 谷歌的深度思维团队是深度强化学习的主要 提出者和研究者,他们于 2015 年在《Nature》杂志 上提出了深度 Q 网络(Deep Q-network,DQN) [2] ,并 让其学习如何操作 Atari 视频游戏,最终在 49 个游 戏中取得了高于人类专业玩家的得分. 2016 年,他 们提出了蒙特卡罗树搜索和深度强化学习相结合 的算法−人工智能算法(AlphaGo),在与职业九段 棋手李世石的对弈中以 4∶1 取得胜利,并将算法 发表于同年的《Nature》杂志上[3] . 在此基础上,深 度思维团队用这套算法的改进版本挑战世界排名 第一的中国棋手柯洁,以 3∶0 的巨大优势取胜. 这意味着以深度学习和强化学习为代表的人工智 能算法,已经能够在一些极其复杂的博弈环境中 超越人类顶尖专家的水平. 深度强化学习利用深度学习非线性模型的 强大感知能力对复杂环境状态进行表征[4] ,利用 强化学习的决策优化能力针对不同环境状态进行 动作选择[5] . 将两种算法结合构成了基本的深度强 化学习的框架,如图 1 所示,这样的过程也类似人 类进行认知决策的过程,先通过眼睛感知周围环 境的状态,再通过大脑进行动作选择. 其后大部分 的深度强化学习改进算法也基本遵循这个框架 原理[6] . 1.2 自然语言处理中的文本生成任务 自 然 语 言 处 理 ( Natural language processing, NLP)是利用计算机技术对人类语言进行自动分析 和表征的方法及理论的总称. 自然语言处理研究 的目的是让计算机能够运行各种层次的自然语言 相关任务,包括分词、词性标注、机器翻译、对话 系统. 近二十年来,自然语言问题都是利用机器学 习方法基于高维且稀疏的特征来训练浅层模型. 而随着深度学习方法的发展 ,稠密矩阵表征 (Dense vector representations)的方法使得很多自然 语言处理任务取得了更加优秀的结果[7] . 随后词向 量的成功使用加速推动了深度学习在自然语言处 理中的应用[8] ,与以往浅层模型相比,深度学习能 够自动表征多层次的特征而不依赖先验知识进行 手工提取特征,这就避免了手工提取特征通常耗 费时间又不够完整的缺点. 深度学习和自然语言 处理发展到现在,已经能够部分解决一些相对复 杂的文本生成任务,例如对话系统、机器翻译、图 像描述和自动摘要等[6] . 对话系统通常也被叫作聊天机器人,或者基 于自然语言的人机交互. 他们通常分为两种:一种 是面向特定任务的,目的是帮助用户完成特定的 任务;一种是开放领域的,以聊天交流为主要目的[9] . 任务导向的对话系统(Task-oriented spoken dialogue systems)可以完成类似预定酒店、提供餐厅信息和 获取公交时间表等任务. 这类系统通常依赖结构 Brain Agent Environment Action State Reward Behaviour Perception Decision 图 1 深度强化学习的基本框架 Fig.1 Framework of deep reinforcement learning · 400 · 工程科学学报,第 42 卷,第 4 期
徐聪等:文本生成领域的深度强化学习研究进展 401 化的本体或者数据库,他们提供了系统交谈所需 意力机制的出现,才真正使得神经机器翻译在翻 要的领域知识;而开放领域对话不是以提供信息 译质量上开始超越统计机器翻译,逐步统治机器 为目的,一般是以与用户交流的情感体验为目标o 翻译领域.基于深度学习的神经机器翻译仅用不 任务导向的对话系统通常使用的数据集有剑桥地 到三年时间,已经成为各类自然语言处理国际会 区餐厅信息对话数据集山、旧金山餐厅信息对话 议中主要的机器翻译研究方法,同时也成为谷歌2四、 数据集2,、对话系统技术挑战(Dialog system 百度)、微软等商用机器翻译系统的核心方法.机 technology challenge,DSTC))、斯坦福多轮多领域 器翻译文献中一般使用的平行语料是世界机器翻 对话数据集;开放领域数据集一般是电影对白 译大会(The conference on machine translation,WMT) (Opensubtitles)、推特(Twitter)、微博等社交聊天 数据集P,其中包含英法、英德、英俄等对照翻译 记录、乌班图(Ubuntu)对话集(表I) 语句 机器翻译是计算机发展之初就企图解决的问 图像生成描述任务是用一个或者多个句子描 题之一,目的是实现机器自动将一种语言转化为 述图片内容,涉及机器学习、计算机视觉和自然语 另一种语言.早期方法是语言学家手动编写翻译 言处理等领域,需要让模型能理解图片内容和图 规则实现机器翻译,但是人工设计规则的代价非 像的语义信息,并且能生成人类可读的正确描述 常大,对语言学家的翻译功底要求非常高,并且规 此类任务也可以看作和上述机器翻译类似的过 则很难覆盖所有的语言现象.之后国际商业机器 程,即翻译一张图片成为一段描述性文字2阿所以 公司(IBM)在上世纪九十年代提出了统计机器翻 可以借鉴机器翻译任务的很多方法和基础框架, 译的方法,这种方法只需要人工设计基于词、短 通常也是采用编码-解码器模型,编码器编码一张 语和句子的各种特征,提供足够多的双语语料,就 图片而解码器解码生成一段文字.生成图像描述 能相对快速地构建一套统计机器翻译系统 任务有很广泛的应用前景,例如基于文字的图像 (Statistical machine translation,.SMT),大大减少了 检索,为盲人用户提供帮助2,人类与机器人交互 翻译系统设计研发的难度,翻译性能也超越了基 等场景.论文中常用数据集为Flickr8kP7,lick30k2, 于规则的方法)于是机器翻译也从语言学家主 MSCOCO29等. 导转向计算机科学家主导,在学术界和产业界中 上述文本生成任务中存在大量难以建模表征 基于统计的方法也逐渐取代了基于规则的方法, 的决策问题,而使用监督学习还不足以解决这样 随着深度学习不断在图像和语音领域的各类任务 复杂情景的决策任务.于是具有强大表征和决策 中达到最先进水平,机器翻译的研究者也开始使 能力的深度强化学习可以很好应用于此类自然语 用深度学习技术82014年谷歌的Sutskever等提 言处理任务之中,近年来关于这方面的研究也涌 出了序列到序列(Sequence to sequence,.Seq2Seq)方 现出很多优秀的方法和思想,下面首先介绍深度 法叨,同年,蒙特利尔大学的Cho等提出了类似的 强化学习的分类和主要算法,然后结合文本生成 编码-解码(Encoder--decoder)框架2,之后几乎所有 任务,详细分析各种算法的创新点和优势,以及如 的神经机器翻译(Neural machine translation,NMT) 何利用深度强化学习提高各类文本生成任务的 都是基于他们的模型进行改进实现的直到注 效果 表1对话数据集内容概览 Table 1 Summary of dialogue datasets Dataset Numbers of dialogue Numbers of slots Scene Multi-turn Cambridge restaurants database 720 6 1 Yes San Francisco restaurants database 3577 12 1 Yes Dialog system technology challenge 2 3000 8 1 Yes Dialog system technology challenge 3 2265 9 Yes Stanford multi-turn multi-domain task-oriented dialogue dataset 3031 79.65.140 3 s The Twitter dialogue corpus 1300000 一 一 Yes The Ubuntu dialogue corpus 932429 No Opensubtitle corpus 70000000 No
化的本体或者数据库,他们提供了系统交谈所需 要的领域知识;而开放领域对话不是以提供信息 为目的,一般是以与用户交流的情感体验为目标[10] . 任务导向的对话系统通常使用的数据集有剑桥地 区餐厅信息对话数据集[11]、旧金山餐厅信息对话 数 据 集 [12]、 对 话 系 统 技 术 挑 战 ( Dialog system technology challenge, DSTC) [13]、斯坦福多轮多领域 对话数据集[14] ;开放领域数据集一般是电影对白 (Opensubtitles)、推特(Twitter)、微博等社交聊天 记录、乌班图(Ubuntu)对话集[15] (表 1). 机器翻译是计算机发展之初就企图解决的问 题之一,目的是实现机器自动将一种语言转化为 另一种语言. 早期方法是语言学家手动编写翻译 规则实现机器翻译,但是人工设计规则的代价非 常大,对语言学家的翻译功底要求非常高,并且规 则很难覆盖所有的语言现象. 之后国际商业机器 公司(IBM)在上世纪九十年代提出了统计机器翻 译的方法[16] ,这种方法只需要人工设计基于词、短 语和句子的各种特征,提供足够多的双语语料,就 能 相 对 快 速 地 构 建 一 套 统 计 机 器 翻 译 系 统 (Statistical machine translation, SMT),大大减少了 翻译系统设计研发的难度,翻译性能也超越了基 于规则的方法[17] . 于是机器翻译也从语言学家主 导转向计算机科学家主导,在学术界和产业界中 基于统计的方法也逐渐取代了基于规则的方法. 随着深度学习不断在图像和语音领域的各类任务 中达到最先进水平,机器翻译的研究者也开始使 用深度学习技术[18] . 2014 年谷歌的 Sutskever 等提 出了序列到序列(Sequence to sequence, Seq2Seq)方 法[19] ,同年,蒙特利尔大学的 Cho 等提出了类似的 编码‒解码(Encoder-decoder)框架[20] ,之后几乎所有 的神经机器翻译(Neural machine translation, NMT) 都是基于他们的模型进行改进实现的[21] . 直到注 意力机制的出现,才真正使得神经机器翻译在翻 译质量上开始超越统计机器翻译,逐步统治机器 翻译领域. 基于深度学习的神经机器翻译仅用不 到三年时间,已经成为各类自然语言处理国际会 议中主要的机器翻译研究方法,同时也成为谷歌[22]、 百度[23]、微软等商用机器翻译系统的核心方法. 机 器翻译文献中一般使用的平行语料是世界机器翻 译大会(The conference on machine translation, WMT) 数据集[24] ,其中包含英法、英德、英俄等对照翻译 语句. 图像生成描述任务是用一个或者多个句子描 述图片内容,涉及机器学习、计算机视觉和自然语 言处理等领域,需要让模型能理解图片内容和图 像的语义信息,并且能生成人类可读的正确描述. 此类任务也可以看作和上述机器翻译类似的过 程,即翻译一张图片成为一段描述性文字[25] . 所以 可以借鉴机器翻译任务的很多方法和基础框架, 通常也是采用编码‒解码器模型,编码器编码一张 图片而解码器解码生成一段文字. 生成图像描述 任务有很广泛的应用前景,例如基于文字的图像 检索,为盲人用户提供帮助[26] ,人类与机器人交互 等场景. 论文中常用数据集为 Flickr8k[27] ,lick30k[28] , MSCOCO[29] 等. 上述文本生成任务中存在大量难以建模表征 的决策问题,而使用监督学习还不足以解决这样 复杂情景的决策任务. 于是具有强大表征和决策 能力的深度强化学习可以很好应用于此类自然语 言处理任务之中,近年来关于这方面的研究也涌 现出很多优秀的方法和思想,下面首先介绍深度 强化学习的分类和主要算法,然后结合文本生成 任务,详细分析各种算法的创新点和优势,以及如 何利用深度强化学习提高各类文本生成任务的 效果. 表 1 对话数据集内容概览 Table 1 Summary of dialogue datasets Dataset Numbers of dialogue Numbers of slots Scene Multi-turn Cambridge restaurants database 720 6 1 Yes San Francisco restaurants database 3577 12 1 Yes Dialog system technology challenge 2 3000 8 1 Yes Dialog system technology challenge 3 2265 9 1 Yes Stanford multi-turn multi-domain task-oriented dialogue dataset 3031 79,65,140 3 Yes The Twitter dialogue corpus 1300000 — — Yes The Ubuntu dialogue corpus 932429 — — No Opensubtitle corpus 70000000 — — No 徐 聪等: 文本生成领域的深度强化学习研究进展 · 401 ·
402 工程科学学报,第42卷,第4期 2深度强化学习的分类 习过程,整个学习过程基本不需要先验知识以及 人工参与,并且在学习视频游戏的任务中取得了 深度强化学习是将深度学习与强化学习结合 很好的实验结果,大部分游戏的成绩都超过了人 起来,实现从感知到动作的端到端学习的全新方 类专家 法.在人工智能中,一般用代理(Aget)表示一个 具备行为能力的物体,比如机器人、无人车、人等 State Action.Reward Experience replay 等.那么强化学习就是一个代理随着时间的推移 -State Train 不断地与环境进行交互学习的过程.在1时刻,代 Atari DeepQ Synchronize Target 理接受一个状态s,并且遵循策略π(als)从动作空间 Reward ame network network A中选择一个动作a作用于环境,接收环境反馈的 Action 奖赏r,并且依据概率P(s,+1s,a转换到下一个状 图2深度Q网络的训练流程 态s+.强化学习的最终目的是通过调整自身策略 Fig.2 Training process of deep Q-network 来最大化累计奖赏R,= 分,其中2e0,表示 随后有研究者发现标准的深度Q网络存在过 0 折扣因子.而值函数(Value function)是用来预测 高估计的问题,其原因是深度Q网络使用了同一 累计奖赏的期望大小,衡量某个状态或者状态-动 个Q网络进行动作评估和动作选择,导致了估计 作对的好坏.假定初始状态5o=s,依据策略π的状 误差的出现,于是Van Hasselt等Bo提出了使用 态值函数为V(s)=B{ yrlo=3,π:同时假定初 Q网络进行动作选择,而使用目标网络对动作进 行评估.Schaul等B认为标准Q网络使用经验回 始动作为ao=a,则状态-动作值函数为Q(s,d)= 放时是同等概率进行采样,没有考虑历史数据不 yrl小s0=s,a0=a,π 而根据π*=arg max V(s) 同的重要程度,所以他们提出利用时序差分 f-0 (Temporal-difference,TD)误差来衡量历史数据的 或者π'=arg max O(s,a)可以得到最优策略π' 重要性,重要的数据会被更多的采样,以提高学习 深度学习和强化学习相结合的主要方式是利 效率.Wang等提出了一种竞争网络结构,两个 用深度神经网络近似任意一个强化学习的组成部 网络分别输出状态值函数和优势函数,再把它们合 分,包含值函数V(s;或者Q(s,a;),策略π(als:)和 并起来输出动作-状态值函数,并通过实验证明相比 模型(状态转移和奖励).其中参数是深度神经网 深度O网络更快的收敛速度和更好的评估策略 络的权重.通常使用随机梯度下降方法更新深度 2.2基于策略的方法 强化学习的网络参数.下面介绍一些重要的深度 因为基于值函数结合的方式需要完全计算所 强化学习方法 有动作的值函数,再贪婪地选择值函数最大的动 2.1基于值函数的方法 作,所以这种方法通常无法很好的应用在具有高 基于值函数(Value-bBased)方法是利用深度神 维度或者连续动作空间的问题之中.而基于策略 经网络近似强化学习中的值函数部分,其策略部 (Policy--based)结合的方式,直接用深度神经网络 分并不显现出来而是隐含在值函数的分布之中, 学习策略,网络参数也就是策略的表征,因此可以 通过选择最大值函数的动作获得策略 直接在策略网络上进行优化,输出最终动作.基于 Mnih等首次介绍了深度Q网络并且带动了 策略结合的方法对比基于值函数结合的方法,拥 深度强化学习这一研究领域.他们创造性的解决 有更好的收敛性,能够更有效地应用在高维度或 了利用非线性函数近似Q函数时容易导致算法不 者连续动作空间中,并且可以学习到随机策略.然 稳定甚至无法收敛的问题.其主要方法是使用经 而由于没有值函数,基于策略的方法对于策略的 验回放机制和目标网络,也就是在训练卷积神经 评估较慢,必须在与环境交互的过程中进行评价 网络近似Q函数时随机抽取之前训练过程保存的 Schulman等B提出了一种可以单调提升策略 数据进行网络参数更新,同时网络的参数并不是 的迭代过程,并且通过对理论公式做近似,给出了 立刻更新,而是通过目标网络进行保存,Q网络定 可以并行的学习算法一一信赖域策略优化(Tust 期与目标网络进行参数同步,具体训练流程如图2 region policy optimization,.TRPO).作者还经过分析 他们的工作开创性的实现了端到端的深度强化学 后统一了标准的策略梯度和神经网络的策略梯
2 深度强化学习的分类 st π(at |st) A at rt P(st +1|st ,at) st+1 Rt = ∑∞ k=0 λ k rt+k λ ∈ [0,1] s0 = s π V π (s) = E ∑∞ t=0 γ t rt |s0 = s, π a0 = a Q π (s,a) = E ∑∞ t=0 γ t rt |s0 = s,a0 = a, π π ∗ = argmax π V π (s) π ∗ = argmax a∈A Q π (s,a) π ∗ 深度强化学习是将深度学习与强化学习结合 起来,实现从感知到动作的端到端学习的全新方 法. 在人工智能中,一般用代理(Agent)表示一个 具备行为能力的物体,比如机器人、无人车、人等 等. 那么强化学习就是一个代理随着时间的推移 不断地与环境进行交互学习的过程. 在 t 时刻,代 理接受一个状态 并且遵循策略 从动作空间 中选择一个动作 作用于环境,接收环境反馈的 奖赏 ,并且依据概率 转换到下一个状 态 . 强化学习的最终目的是通过调整自身策略 来最大化累计奖赏 ,其中 表示 折扣因子. 而值函数(Value function)是用来预测 累计奖赏的期望大小,衡量某个状态或者状态‒动 作对的好坏. 假定初始状态 ,依据策略 的状 态值函数为 ;同时假定初 始动作为 ,则状态−动作值函数为 . 而根据 或者 可以得到最优策略 . V(s; θ) Q(s, a; θ) π(a|s; θ) θ 深度学习和强化学习相结合的主要方式是利 用深度神经网络近似任意一个强化学习的组成部 分,包含值函数 或者 ,策略 和 模型 (状态转移和奖励),其中参数 是深度神经网 络的权重. 通常使用随机梯度下降方法更新深度 强化学习的网络参数. 下面介绍一些重要的深度 强化学习方法. 2.1 基于值函数的方法 基于值函数(Value-bBased)方法是利用深度神 经网络近似强化学习中的值函数部分,其策略部 分并不显现出来而是隐含在值函数的分布之中, 通过选择最大值函数的动作获得策略. Mnih 等首次介绍了深度 Q 网络[2] 并且带动了 深度强化学习这一研究领域. 他们创造性的解决 了利用非线性函数近似 Q 函数时容易导致算法不 稳定甚至无法收敛的问题. 其主要方法是使用经 验回放机制和目标网络,也就是在训练卷积神经 网络近似 Q 函数时随机抽取之前训练过程保存的 数据进行网络参数更新,同时网络的参数并不是 立刻更新,而是通过目标网络进行保存,Q 网络定 期与目标网络进行参数同步,具体训练流程如图 2. 他们的工作开创性的实现了端到端的深度强化学 习过程,整个学习过程基本不需要先验知识以及 人工参与,并且在学习视频游戏的任务中取得了 很好的实验结果,大部分游戏的成绩都超过了人 类专家. 随后有研究者发现标准的深度 Q 网络存在过 高估计的问题,其原因是深度 Q 网络使用了同一 个 Q 网络进行动作评估和动作选择,导致了估计 误差的出现. 于是 Van Hasselt 等[30] 提出了使用 Q 网络进行动作选择,而使用目标网络对动作进 行评估. Schaul 等[31] 认为标准 Q 网络使用经验回 放时是同等概率进行采样,没有考虑历史数据不 同 的 重 要 程 度 , 所 以 他 们 提 出 利 用 时 序 差 分 (Temporal‒difference, TD) 误差来衡量历史数据的 重要性,重要的数据会被更多的采样,以提高学习 效率. Wang 等[32] 提出了一种竞争网络结构,两个 网络分别输出状态值函数和优势函数,再把它们合 并起来输出动作‒状态值函数,并通过实验证明相比 深度 Q 网络更快的收敛速度和更好的评估策略. 2.2 基于策略的方法 因为基于值函数结合的方式需要完全计算所 有动作的值函数,再贪婪地选择值函数最大的动 作,所以这种方法通常无法很好的应用在具有高 维度或者连续动作空间的问题之中. 而基于策略 (Policy‒based) 结合的方式,直接用深度神经网络 学习策略,网络参数也就是策略的表征,因此可以 直接在策略网络上进行优化,输出最终动作. 基于 策略结合的方法对比基于值函数结合的方法,拥 有更好的收敛性,能够更有效地应用在高维度或 者连续动作空间中,并且可以学习到随机策略. 然 而由于没有值函数,基于策略的方法对于策略的 评估较慢,必须在与环境交互的过程中进行评价. Schulman 等[33] 提出了一种可以单调提升策略 的迭代过程,并且通过对理论公式做近似,给出了 可以并行的学习算法——信赖域策略优化(Trust region policy optimization, TRPO). 作者还经过分析 后统一了标准的策略梯度和神经网络的策略梯 Atari game Reward State Action Deep Q network Synchronize State,Action,Reward Train Target network Experience replay 图 2 深度 Q 网络的训练流程 Fig.2 Training process of deep Q-network · 402 · 工程科学学报,第 42 卷,第 4 期
徐聪等:文本生成领域的深度强化学习研究进展 403· 度.信赖域策略优化算法用联合梯度计算神经网 在各种不同领域,例如视觉导航、策略游戏四、 络梯度的方向,最后在仿真机器人的多项任务中 细粒度图像分类)、自动构建神经网络、网络服 都取得了比较好的效果.2017年Kandasamy等B 务个性化婀自然语言领域中也有不少研究者开 针对神经对话模型提出了批策略梯度(Batch policy 始使用深度强化学习来改进现有的网络模型结构 gradient)方法,作者认为采用离策略而非在策略的 或者是建模流程67在自然语言处理的文本生 更新方式更适合序列到序列模型,能够保证梯度 成领域中,如对话系统、机器翻译、图像生成描述 的稳定下降.此外还提出批策略迭代方法,通过保 和自动摘要等任务都有很多成功使用深度强化学 存的动作和奖励按批次进行梯度计算更新目标 习的文章发表 策略 深度强化学习和文本生成任务的结合一般是 23值函数-策略方法 把生成文本的过程看成是生成动作8),模型需要 基于值函数和策略结合的方法对应于传统强 根据一些环境信息学习文本生成的策略,环境信 化学习中的动作者-评价者(Actor--critic)方法B阿, 息在不同任务中是不一样的,可以有不同的设计 它融合了只用评价者(Critic--only)方法变异性小 方式.下面根据强化学习模型的类别介绍一些代 和只用动作者(Actor--only)容易处理连续动作的 表性工作 优点.这类算法利用网络参数化的动作者网络生 3.1基于值函数 成动作,利用评价者网络为动作者网络提供方差 这种方法一般是利用深度Q网络及其改进算 较小的梯度估计 法,将生成文本任务看作是序列决策任务,状态和 Mnih等提出了一种异步的强化学习方法 动作都是自然语言的形式,例如人机对话、基于文 (Asynchronous advantage actor-critic,A3C) 本的游戏等 个并行的动作者利用不同的探索策略来稳定训练 Narasimhan等最早将深度Q网络应用在自 过程,因此不需要经验回放机制参与训练.异步强 然语言相关的任务中,他们在深度思维团队把深 化学习算法能够比深度Q网络、深度双Q网络、 度强化学习应用于视频游戏任务的基础上,把相 加入竞争机制的深度双Q网络等算法获得更高的 同的算法框架移植到文本游戏当中.不同于视频 运行效率并且能够很好的应用在连续控制问题中. 游戏中算法的状态是游戏画面,文本游戏的状态 Lillicrap等也同样提出了一种改进的动作者-评价 是基于文字的,通常是一段比较长的介绍性文字, 者方法一深度确定性策略梯度(Deep deterministic 需要算法给出一个合适的动作使游戏进入下一个 policy gradient,.DDPG)B8,该算法可以认为是深度 状态.作者通过循环神经网络(Recurrent neural Q网络在连续动作空间的版本,它利用Sliver提出 networks,.RNN)so的一个变种长短期记忆网络(Long 的确定性策略梯度(Deterministic policy gradient)算 short-.term memory,LSTM)来读取状态信息并生成 法结合动作者-评价者方法解决了深度Q网络不 相应的向量表示5川,将向量化的状态表示输入到 能在连续或者高维度动作空间中应用的问题,通 多个多层神经网络中,每个网络输出的是动作指 过实验证明了该算法能够从低维度的观测数据中 令中每个单词的状态值函数,本工作中假设动作 学习到复杂的策略.Kulkarni等提出了无模型和基 指令都是一个动词和一个形容词的形式.然后选 于模型两种算法之外的另一种深度强化学习算法, 择每个动作中对应状态值函数最大的单词组合成 称为深度继承表征(Deep successor representations, 动作指令,作用到游戏中,使游戏转移到下一个状 DSR)B.深度继承表征算法由一个奖励预测网络 态.网络的训练方式也和传统深度Q网络相似,利 (Reward predictor)和一个继承状态映射网络(Successor 用带优先次序的经验回放机制稳定网络的训练过 map)组成,它的优点是对末端的奖励变化很敏感, 程.最后作者用实验比较了随机策略算法、长短 并且能够提取子目标从而突破一些瓶颈状态,目 期记忆网络-深度Q网络(LSTM-DON)算法和利 前也已经应用于文本生成任务之中,取得了较好 用传统的词袋模型BOW(Bag of words)或者二元 的效果40 词袋BI(Bag of bigrams)文本表示方法结合深度 Q网络的算法,结果表明长短期记忆网络一深度 3深度强化学习在文本生成中的应用 O网络在多个文本游戏中都取得较好得分 随着近两年深度强化学习在决策和控制领域 He等s不赞同Narasimhan把动作空间当作 获得成功,更多的研究者开始把深度强学习应用 是有限和已知的做法,他们认为很多文本游戏中
度. 信赖域策略优化算法用联合梯度计算神经网 络梯度的方向,最后在仿真机器人的多项任务中 都取得了比较好的效果. 2017 年 Kandasamy 等[34] 针对神经对话模型提出了批策略梯度(Batch policy gradient)方法,作者认为采用离策略而非在策略的 更新方式更适合序列到序列模型,能够保证梯度 的稳定下降. 此外还提出批策略迭代方法,通过保 存的动作和奖励按批次进行梯度计算更新目标 策略. 2.3 值函数‒策略方法 基于值函数和策略结合的方法对应于传统强 化学习中的动作者‒评价者(Actor‒critic)方法[35] , 它融合了只用评价者(Critic‒only)方法变异性小 和只用动作者(Actor‒only)容易处理连续动作的 优点. 这类算法利用网络参数化的动作者网络生 成动作,利用评价者网络为动作者网络提供方差 较小的梯度估计[36] . Mnih 等提出了一种异步的强化学习方法 (Asynchronous advantage actor‒critic, A3C) [37] ,多 个并行的动作者利用不同的探索策略来稳定训练 过程,因此不需要经验回放机制参与训练. 异步强 化学习算法能够比深度 Q 网络、深度双 Q 网络、 加入竞争机制的深度双 Q 网络等算法获得更高的 运行效率并且能够很好的应用在连续控制问题中. Lillicrap 等也同样提出了一种改进的动作者−评价 者方法——深度确定性策略梯度(Deep deterministic policy gradient, DDPG) [38] ,该算法可以认为是深度 Q 网络在连续动作空间的版本,它利用 Sliver 提出 的确定性策略梯度(Deterministic policy gradient)算 法结合动作者‒评价者方法解决了深度 Q 网络不 能在连续或者高维度动作空间中应用的问题,通 过实验证明了该算法能够从低维度的观测数据中 学习到复杂的策略. Kulkarni 等提出了无模型和基 于模型两种算法之外的另一种深度强化学习算法, 称为深度继承表征(Deep successor representations, DSR) [39] . 深度继承表征算法由一个奖励预测网络 (Reward predictor)和一个继承状态映射网络(Successor map)组成,它的优点是对末端的奖励变化很敏感, 并且能够提取子目标从而突破一些瓶颈状态,目 前也已经应用于文本生成任务之中,取得了较好 的效果[40] . 3 深度强化学习在文本生成中的应用 随着近两年深度强化学习在决策和控制领域 获得成功,更多的研究者开始把深度强学习应用 在各种不同领域,例如视觉导航[41]、策略游戏[42]、 细粒度图像分类[43]、自动构建神经网络[44]、网络服 务个性化[45] . 自然语言领域中也有不少研究者开 始使用深度强化学习来改进现有的网络模型结构 或者是建模流程[46−47] . 在自然语言处理的文本生 成领域中,如对话系统、机器翻译、图像生成描述 和自动摘要等任务都有很多成功使用深度强化学 习的文章发表. 深度强化学习和文本生成任务的结合一般是 把生成文本的过程看成是生成动作[48] ,模型需要 根据一些环境信息学习文本生成的策略,环境信 息在不同任务中是不一样的,可以有不同的设计 方式. 下面根据强化学习模型的类别介绍一些代 表性工作. 3.1 基于值函数 这种方法一般是利用深度 Q 网络及其改进算 法,将生成文本任务看作是序列决策任务,状态和 动作都是自然语言的形式,例如人机对话、基于文 本的游戏等. Narasimhan 等[49] 最早将深度 Q 网络应用在自 然语言相关的任务中,他们在深度思维团队把深 度强化学习应用于视频游戏任务的基础上,把相 同的算法框架移植到文本游戏当中. 不同于视频 游戏中算法的状态是游戏画面,文本游戏的状态 是基于文字的,通常是一段比较长的介绍性文字, 需要算法给出一个合适的动作使游戏进入下一个 状态. 作者通过循环神经网络(Recurrent neural networks, RNN) [50] 的一个变种长短期记忆网络(Long short-term memory, LSTM)来读取状态信息并生成 相应的向量表示[51] ,将向量化的状态表示输入到 多个多层神经网络中,每个网络输出的是动作指 令中每个单词的状态值函数,本工作中假设动作 指令都是一个动词和一个形容词的形式. 然后选 择每个动作中对应状态值函数最大的单词组合成 动作指令,作用到游戏中,使游戏转移到下一个状 态. 网络的训练方式也和传统深度 Q 网络相似,利 用带优先次序的经验回放机制稳定网络的训练过 程. 最后作者用实验比较了随机策略算法、长短 期记忆网络−深度 Q 网络(LSTM−DQN)算法和利 用传统的词袋模型 BOW(Bag of words)或者二元 词袋 BI(Bag of bigrams)文本表示方法结合深度 Q 网络的算法,结果表明长短期记忆网络−深度 Q 网络在多个文本游戏中都取得较好得分. He 等[52] 不赞同 Narasimhan 把动作空间当作 是有限和已知的做法,他们认为很多文本游戏中 徐 聪等: 文本生成领域的深度强化学习研究进展 · 403 ·
404 工程科学学报,第42卷,第4期 候选动作指令的词汇量是巨大的并且未知的,候 通常是利用深度网络学习生成词语的策略,即用 选动作集合是灵活可变的,对于这些情况一般深 网络参数表征词语选择的策略,网络直接输出词 度Q网络的做法是每次决策的时候把所有候选动 语的标记(Token)而非词语对应的值函数,跳过了 作和状态组合后输入最大动作-深度Q网络(Max- 计算值函数的步骤,从根本上解决词汇空间过大 action DQN)或者把每一种候选动作分别和状态组 的问题,这种方法也称作策略梯度方法(Policy 合后输入每个动作-深度Q网络(Per-action DQN) gradient method)或策略网络(Policy network) 作者给出了一种改进算法深度强化相关性网络 Ranzato等s阿指出之前的文本生成任务中,训 Deep reinforcement relevance network,DRRN), 练模型时给定了文本序列中前面的真实词语和一 同于以往的深度O网络算法把状态和动作组合后 些上下文信息,让模型预测接下来的词语,而测试 输入同一个网络计算状态值函数,深度强化相关 模型的时候并没有文本序列中的真实词语,只能 性网络把表示状态的向量和表示动作的向量分别 依据前面生成的预测词语和上下文信息生成下一 输入两个深度网络,然后把两个网络的输出通过 个词语.一旦前几个词语生成的错误较大,就会导 点乘结合在一起作为状态值函数.这样算法就能 致错误一直叠加,使整个文本序列产生较大偏差 够从状态和动作两个方面分别进行理解表征,然 神经网络生成模型中的这种问题被称之为暴露误 后计算状态和动作之间的关联程度作为网络输 差问题57于是作者提出使用强化学习算法直接 出,训练网络使得长期奖励最大化.实验结果表明 优化生成句子任务的评价指标,如双语评估替换 深度强化相关性网络算法对于给定候选动作的游 指标或者基于召回率替换的主旨评价标准(Recall-- 戏能够比最大动作-深度Q网络(Max-action DQN) oriented understudy for gisting evaluation,ROUGE)Is 和每个动作-深度Q网络(Per-action DQN)获得更 为了使用强化学习算法解决文本序列生成问题, 多的长期奖励 作者把循环神经网络RNN结构的文本生成模型 上述工作将深度强化学习应用在文本游戏 看作一个代理,它与外部环境进行交互,也就是把 中,面对的并不是典型的自然语言任务.由于游戏 词语和上下文信息作为环境的状态输入到代理 中涉及的动作指令词汇一般数量较少或者提前给 中.代理的参数表征策略,运行策略就能够进行动 定了有限个候选动作指令,而自然语言处理中的 作的选择.同时作者把则试时候用的双语评估替 文本生成任务通常会面临巨大的词汇空间,也就 换指标和基于召回率替换的二元主旨评价指标 是拥有巨大的动作空间,因此简单移植标准深度 (ROUGE-2)作为训练模型时的奖励,优化目标是 Q网络算法是行不通的.针对上述问题Guo51提 最大化奖励的期望.本工作还提出一个提高模型 出了一种新的算法框架解决文本生成问题中动作 训练效果的算法一一混合增量式交叉嫡强化学习 空间过大的难题.作者利用常规的编码-解码模型 (Mixed incremental cross-entropy reinforce),算法的 中的解码器为深度Q网络生成候选动作,这样就 前s步按照以前的文本生成模型进行预训练,优化 大大减少了深度Q网络需要计算的动作数量,从 目标是最小化生成文本和真实文本之间的交叉 上万的词汇空间减小到数十个候选词汇,此算法 嫡,s步之后直接把前面s步训练过的循环神经网 用t时刻输入词汇和输出词汇作为1时刻的状态, 络模型作为深度强化学习的策略网络,优化目标 用度量相似性的评价指标双语评估替换指标 是最大化生成文本的期望奖励.将混合增量式交 (Bilingual evaluation understudy,.BLEU)I作为奖 叉嫡强化学习算法应用到自动摘要、机器翻译和 励.同时作者还尝试使用双向长短期记忆网络作 图像生成描述任务中相较于以前的改进方法在四 为深度Q网络的网络模型.最后本文选取了 元双语评估替换指标(BLEU-4)和基于召回率替换 10000条句子进行编码再解码的训练,让基于深度 的二元主旨评价指标(ROUGE-2)指标上都有不同 Q网络改进的解码器尽量生成和输人编码器一致 程度的提升 的句子,实验结果表明基于深度Q网络改进的解 Rennie等Is网同样针对自然语言任务中的深度 码器生成的句子比长短期记忆网络形式的解码器 生成模型存在暴露误差问题,提出了一种自评价 生成的句子更加顺畅,即平均平滑双语评价替换 序列训练的强化学习算法(Self-critical sequence 指标(Average smoothed BLEU)更高 training,SCST).在上述Ranzato的工作中,为了达 3.2基于策略 到减小策略波动的目的,他们使用线性回归预估 基于策略的方法与文本生成任务结合的方式 出的参考奖励对实际奖励进行归一化操作,作者
候选动作指令的词汇量是巨大的并且未知的,候 选动作集合是灵活可变的,对于这些情况一般深 度 Q 网络的做法是每次决策的时候把所有候选动 作和状态组合后输入最大动作‒深度 Q 网络(Maxaction DQN)或者把每一种候选动作分别和状态组 合后输入每个动作‒深度 Q 网络(Per-action DQN). 作者给出了一种改进算法深度强化相关性网络 ( Deep reinforcement relevance network, DRRN) ,不 同于以往的深度 Q 网络算法把状态和动作组合后 输入同一个网络计算状态值函数,深度强化相关 性网络把表示状态的向量和表示动作的向量分别 输入两个深度网络,然后把两个网络的输出通过 点乘结合在一起作为状态值函数. 这样算法就能 够从状态和动作两个方面分别进行理解表征,然 后计算状态和动作之间的关联程度作为网络输 出,训练网络使得长期奖励最大化. 实验结果表明 深度强化相关性网络算法对于给定候选动作的游 戏能够比最大动作‒深度 Q 网络(Max-action DQN) 和每个动作‒深度 Q 网络(Per-action DQN)获得更 多的长期奖励. 上述工作将深度强化学习应用在文本游戏 中,面对的并不是典型的自然语言任务. 由于游戏 中涉及的动作指令词汇一般数量较少或者提前给 定了有限个候选动作指令,而自然语言处理中的 文本生成任务通常会面临巨大的词汇空间,也就 是拥有巨大的动作空间,因此简单移植标准深度 Q 网络算法是行不通的. 针对上述问题 Guo[53] 提 出了一种新的算法框架解决文本生成问题中动作 空间过大的难题. 作者利用常规的编码‒解码模型 中的解码器为深度 Q 网络生成候选动作,这样就 大大减少了深度 Q 网络需要计算的动作数量,从 上万的词汇空间减小到数十个候选词汇. 此算法 用 t 时刻输入词汇和输出词汇作为 t 时刻的状态, 用度量相似性的评价指标双语评估替换指标 ( Bilingual evaluation understudy, BLEU) [54] 作为奖 励. 同时作者还尝试使用双向长短期记忆网络作 为 深 度 Q 网络的网络模型 . 最后本文选取 了 10000 条句子进行编码再解码的训练,让基于深度 Q 网络改进的解码器尽量生成和输入编码器一致 的句子. 实验结果表明基于深度 Q 网络改进的解 码器生成的句子比长短期记忆网络形式的解码器 生成的句子更加顺畅,即平均平滑双语评价替换 指标(Average smoothed BLEU)更高. 3.2 基于策略 基于策略的方法与文本生成任务结合的方式 通常是利用深度网络学习生成词语的策略,即用 网络参数表征词语选择的策略,网络直接输出词 语的标记(Token)而非词语对应的值函数,跳过了 计算值函数的步骤,从根本上解决词汇空间过大 的问题 ,这种方法也称作策略梯度方法( Policy gradient method)或策略网络(Policy network) [55] . Ranzato 等[56] 指出之前的文本生成任务中,训 练模型时给定了文本序列中前面的真实词语和一 些上下文信息,让模型预测接下来的词语,而测试 模型的时候并没有文本序列中的真实词语,只能 依据前面生成的预测词语和上下文信息生成下一 个词语. 一旦前几个词语生成的错误较大,就会导 致错误一直叠加,使整个文本序列产生较大偏差. 神经网络生成模型中的这种问题被称之为暴露误 差问题[57] . 于是作者提出使用强化学习算法直接 优化生成句子任务的评价指标,如双语评估替换 指标或者基于召回率替换的主旨评价标准(Recalloriented understudy for gisting evaluation, ROUGE) [58] . 为了使用强化学习算法解决文本序列生成问题, 作者把循环神经网络 RNN 结构的文本生成模型 看作一个代理,它与外部环境进行交互,也就是把 词语和上下文信息作为环境的状态输入到代理 中. 代理的参数表征策略,运行策略就能够进行动 作的选择. 同时作者把测试时候用的双语评估替 换指标和基于召回率替换的二元主旨评价指标 (ROUGE-2)作为训练模型时的奖励,优化目标是 最大化奖励的期望. 本工作还提出一个提高模型 训练效果的算法——混合增量式交叉熵强化学习 (Mixed incremental cross-entropy reinforce),算法的 前 s 步按照以前的文本生成模型进行预训练,优化 目标是最小化生成文本和真实文本之间的交叉 熵,s 步之后直接把前面 s 步训练过的循环神经网 络模型作为深度强化学习的策略网络,优化目标 是最大化生成文本的期望奖励. 将混合增量式交 叉熵强化学习算法应用到自动摘要、机器翻译和 图像生成描述任务中相较于以前的改进方法在四 元双语评估替换指标(BLEU-4)和基于召回率替换 的二元主旨评价指标(ROUGE-2)指标上都有不同 程度的提升. Rennie 等[59] 同样针对自然语言任务中的深度 生成模型存在暴露误差问题,提出了一种自评价 序列训练的强化学习算法 ( Self-critical sequence training, SCST). 在上述 Ranzato 的工作中,为了达 到减小策略波动的目的,他们使用线性回归预估 出的参考奖励对实际奖励进行归一化操作,作者 · 404 · 工程科学学报,第 42 卷,第 4 期
徐聪等:文本生成领域的深度强化学习研究进展 405· 认为这种做法是没有必要的.文章中提出了另外 策略,优化目标是最大化未来奖励的期望.作者根 一种获取参考奖励方法,可以避免训练预测模型, 据开放领域对话任务的特点,设计了三个指标函 具体做法是使用测试时的算法输出文本序列计算 数共同组成奖励,他们分别评价生成语句的信息 奖励,将此奖励作为参考奖励.测试时期和训练时 丰富性、连贯性和让对方回复的难易度.通过上 期算法的区别是,前者取每个循环神经网络单元 述方法,在一定程度上可以避免对话系统出现无 输出概率最大的词语组成预测的文本序列,这种 意义的语句、重复性的语句和难以回答的语句 方式也称为贪婪式解码(Greedy decoding);后者是 本文还借鉴阿尔法围棋的训练方式,先通过监督 对每个循环神经网络单元产生的词语做蒙特卡罗 学习预训练一个基础序列到序列网络,再让两个 抽样,抽样所得词语组成预测文本序列.然后对两 训练好的基础序列到序列模型互相对话,通过强 个网络的输出文本序列分别计算奖励,当抽样得 化学习的策略梯度方法来更新参数,以获得一个 到句子获得的奖励低于贪婪式解码方法得到句子 比较大的期望奖励值.最终结果显示文章采用的 的奖励时,通过策略梯度的调整降低这句话出现 算法能产生更丰富、更多交互性、更能持续响应 的概率,反之提高其出现的概率.他们使用基于共识 的对话回复.这个工作也为未来实现长期全局的 的图像描述评价(Consensus-.based image description 对话系统作了有益的尝试 evaluation,CIDEr)Iso指标作为奖励函数,在微软带 在基于任务的对话系统中,根据对话的主题 有上下问的常见物体数据集(Microsoft common 将对话语料进行分割和标记是其关键任务之一 objects in context,.COCO)上进行实验,获得了当时 Takanobu等6提出利用策略网络和长短期记忆网 排名第一的成绩,并且发现优化基于共识的图像 络相结合的深度网络完成此任务.由于缺乏标注 描述评价指标能够使其他度量指标如双语替换评 完善的训练语料,作者将此任务归纳为弱监督学 价指标,基于召回率替换的主旨评价指标,基于单 习和序列标注问题.他们利用先验知识对对话语 精度的加权调和平均数和单字召回率的评价指标 料进行粗粒度的标注,产生包含噪声的训练数据 (METEOR)6都得到提高 再用包含噪声的标注数据初步训练状态表征网络 Wang等6的工作主要解决自动摘要中的一 和策略网络.策略网络输入的状态是由状态表征 致性、多样性问题,他们提出了一种具有联合注意 网络生成的,输出的动作是语料的主题标签.也就 力机制和偏置概率生成机制的卷积序列到序列的 是说噪声数据经过策略网络之后能够获得一组新 模型.上述机制能够将主题信息整合到自动摘要 的主题标签.将打上新标签的数据送入状态表征 模型中,使得上下文信息能够帮助模型生成更一 网络进行有监督地训练,更新对话语料的状态表 致、更多样和包含更多信息的摘要文本,同时作 征.新的状态表征又经过策略网络输出新的主题 者利用上文Rennie等提出的自评价的序列训练强 标签,再重复前面的过程,直到验证集的标签变化 化学习算法,直接优化摘要任务的评价指标基于 率小于设定值.此时训练好地状态表征网络就可 召回率替换的主旨评价标准,不仅解决了召回率 以进行主题分割和标记工作.作者通过策略网络 替换的主旨评价标准作为优化目标导致模型不可 巧妙地解决了此类任务没有直接监督信号的问 导的问题,还免去了暴露误差的影响.他们利用提 题,让强化学习网络为监督学习网络提供不断更 出的模型在多个数据集上取得了当前最好成绩. 新的训练标签,监督学习网络为强化学习网络提 Wu等61为了提高自动摘要任务中上下文的一致性 供状态输入,联合训练这两个网络最终实现弱监 设计了能够计算一致性的奖励模型,并将此奖励 督学习的过程.他们同时在电商购物的对话数据 融合到提出的强化神经抽取式总结模型(Reinforced 集上验证了模型在主题分割、标注和上下文理解 neural extractive summarization,.RNES)中.此模型 任务上有很好的效果.本文提出的基于策略网络 同样利用策略梯度方法进行训练,最终能够提高 的弱监督学习框架有很好的创新性和扩张性,能 生成的摘要中跨越多个句子的语义信息一致性 够应用在其他缺乏完善标签数据的任务中 开放领域对话任务相较于其他文本生成任务 33基于策略和值函数 而言,不只关注于生成下一句文本序列,还需要关 基于策略和值函数的方法,融合了上述两种 注生成的回复对整个对话发展的影响.Li等6提 强化学习算法的优点,策略网络利用策略梯度方 出了利用强化学习对传统序列到序列模型进行改 法生成动作,值函数评价部分利用深度Q网络一 进,同样利用循环神经网络表征生成对话回复的 类的方法生成对动作的评价,通过评价得到的值
认为这种做法是没有必要的. 文章中提出了另外 一种获取参考奖励方法,可以避免训练预测模型, 具体做法是使用测试时的算法输出文本序列计算 奖励,将此奖励作为参考奖励. 测试时期和训练时 期算法的区别是,前者取每个循环神经网络单元 输出概率最大的词语组成预测的文本序列,这种 方式也称为贪婪式解码(Greedy decoding);后者是 对每个循环神经网络单元产生的词语做蒙特卡罗 抽样,抽样所得词语组成预测文本序列. 然后对两 个网络的输出文本序列分别计算奖励,当抽样得 到句子获得的奖励低于贪婪式解码方法得到句子 的奖励时,通过策略梯度的调整降低这句话出现 的概率,反之提高其出现的概率. 他们使用基于共识 的图像描述评价(Consensus-based image description evaluation, CIDEr) [60] 指标作为奖励函数,在微软带 有上下问的常见物体数据集( Microsoft common objects in context, COCO)上进行实验,获得了当时 排名第一的成绩,并且发现优化基于共识的图像 描述评价指标能够使其他度量指标如双语替换评 价指标,基于召回率替换的主旨评价指标,基于单 精度的加权调和平均数和单字召回率的评价指标 (METEOR) [61] 都得到提高. Wang 等[62] 的工作主要解决自动摘要中的一 致性、多样性问题,他们提出了一种具有联合注意 力机制和偏置概率生成机制的卷积序列到序列的 模型. 上述机制能够将主题信息整合到自动摘要 模型中,使得上下文信息能够帮助模型生成更一 致、更多样和包含更多信息的摘要文本. 同时作 者利用上文 Rennie 等提出的自评价的序列训练强 化学习算法,直接优化摘要任务的评价指标基于 召回率替换的主旨评价标准,不仅解决了召回率 替换的主旨评价标准作为优化目标导致模型不可 导的问题,还免去了暴露误差的影响. 他们利用提 出的模型在多个数据集上取得了当前最好成绩. Wu 等[63] 为了提高自动摘要任务中上下文的一致性, 设计了能够计算一致性的奖励模型,并将此奖励 融合到提出的强化神经抽取式总结模型(Reinforced neural extractive summarization, RNES)中. 此模型 同样利用策略梯度方法进行训练,最终能够提高 生成的摘要中跨越多个句子的语义信息一致性. 开放领域对话任务相较于其他文本生成任务 而言,不只关注于生成下一句文本序列,还需要关 注生成的回复对整个对话发展的影响. Li 等[64] 提 出了利用强化学习对传统序列到序列模型进行改 进,同样利用循环神经网络表征生成对话回复的 策略,优化目标是最大化未来奖励的期望. 作者根 据开放领域对话任务的特点,设计了三个指标函 数共同组成奖励,他们分别评价生成语句的信息 丰富性、连贯性和让对方回复的难易度. 通过上 述方法,在一定程度上可以避免对话系统出现无 意义的语句、重复性的语句和难以回答的语句. 本文还借鉴阿尔法围棋的训练方式,先通过监督 学习预训练一个基础序列到序列网络,再让两个 训练好的基础序列到序列模型互相对话,通过强 化学习的策略梯度方法来更新参数,以获得一个 比较大的期望奖励值. 最终结果显示文章采用的 算法能产生更丰富、更多交互性、更能持续响应 的对话回复. 这个工作也为未来实现长期全局的 对话系统作了有益的尝试. 在基于任务的对话系统中,根据对话的主题 将对话语料进行分割和标记是其关键任务之一. Takanobu 等[65] 提出利用策略网络和长短期记忆网 络相结合的深度网络完成此任务. 由于缺乏标注 完善的训练语料,作者将此任务归纳为弱监督学 习和序列标注问题. 他们利用先验知识对对话语 料进行粗粒度的标注,产生包含噪声的训练数据. 再用包含噪声的标注数据初步训练状态表征网络 和策略网络. 策略网络输入的状态是由状态表征 网络生成的,输出的动作是语料的主题标签. 也就 是说噪声数据经过策略网络之后能够获得一组新 的主题标签. 将打上新标签的数据送入状态表征 网络进行有监督地训练,更新对话语料的状态表 征. 新的状态表征又经过策略网络输出新的主题 标签,再重复前面的过程,直到验证集的标签变化 率小于设定值. 此时训练好地状态表征网络就可 以进行主题分割和标记工作. 作者通过策略网络 巧妙地解决了此类任务没有直接监督信号的问 题,让强化学习网络为监督学习网络提供不断更 新的训练标签,监督学习网络为强化学习网络提 供状态输入,联合训练这两个网络最终实现弱监 督学习的过程. 他们同时在电商购物的对话数据 集上验证了模型在主题分割、标注和上下文理解 任务上有很好的效果. 本文提出的基于策略网络 的弱监督学习框架有很好的创新性和扩张性,能 够应用在其他缺乏完善标签数据的任务中. 3.3 基于策略和值函数 基于策略和值函数的方法,融合了上述两种 强化学习算法的优点,策略网络利用策略梯度方 法生成动作,值函数评价部分利用深度 Q 网络一 类的方法生成对动作的评价,通过评价得到的值 徐 聪等: 文本生成领域的深度强化学习研究进展 · 405 ·
406 工程科学学报,第42卷,第4期 函数来优化策略网络.基于策略的方法需要在一 法比基于值的方法有更强的收敛性,但是具有策 个回合结束的时候再进行学习,而由于奖励的稀 略波动大、采样效率低和易收敛到局部极小的问 疏以及衰减,就造成了基于策略的方法学习效果 题,因此本文采用两种策略方法和值方法结合的 不够好.这也解释了为什么最初深度思维公司用 方法,分别是带经验回放的信赖域动作者-评价者 的是深度Q网络而不是用更直接的基于策略的方 (Trust region actor-critic with experience replay, 法来产生动作.而动作者-评价者算法结合了基于 TRACER)和带经验回放的不定期动作者-评价者模 值函数的方法后,可以使策略梯度实现单步更新 (Episodic natural actor-critic with experience replay, Bahdanau等Is提出利用强化学习的动作者- eNACER).前者利用重要性采样比率调节经验回 评价者框架和循环神经网络结构的生成模型相融 放采样所得历史样本的奖励,消除它对于当前策 合的方法,试图改进Ranzato提出的算法.具体做 略的偏差;同时采用Wang等s提出的改进信赖 法是把两个典型的编码-解码器网络分别作为动 域策略优化(Trust region policy optimization)方法 作者和评价者,动作者网络接收文本序列X然后 使得更新后的策略不会偏离平均策略太多,从而 输出预测样本序列;评价者网络接收真实的标签 保证了策略的稳定更新,不会出现较大的策略波 序列Y和动作者在1时刻生成的词语y,最后输出 动.后者为了解决策略梯度在陡峭方向上不能保 状态-动作值Q,再用Qr去训练动作者网络,如图3 证模型进行更新的问题,采用Peters与Schaal9提 所示 出的自然动作者-评价者(Natural actor--critic,NAC) 算法加上经验回放机制,此方法使用了相容函数 Actor pe Critic Q,0,…,Q 近似(Compatible function approximation)不需要精 Decoder Decoder 确的计算值函数只需要给出一个估计值.作者在 月…, Encoder Encoder 剑桥地区电话咨询餐厅对话数据集上进行实验, State of actor 通过对比高斯过程强化学习(Gaussian processes ,2,z h,h”,及 reinforcement learning,GPRL)Io,深度Q网络,带经 验回放的信赖域动作者-评价者模型和带经验回 图3动作者-评价者框架的训练流程图 放的不定期动作者-评价者模型等算法发现提出 Fig.3 Training process of the actor-critic framework 的算法有更好的效果 同时作者还采用了一些技巧来提升模型的性 3.4其他形式 能,如采用类似深度Q网络中的目标网络来达到 深度强化学习的框架具有一定的通用性,于 稳定训练的目的.首先,增加一个参数更新较为滞 是很多研究者把深度强化学习和不同的模型框架 后的动作者,通过这个动作者而非正在训练的行 或者算法做融合,应用于自然语言处理任务中,也 动者生成预测序列,这样可以避免动作者和评价 取得了很好的效果.生成对抗网络(Generative 者相互循环反馈:其次,此模型不会只对完整的预 adversarial networks,GANs)是近年最火热的深度学 测序列计算指标得分作为奖励,而是对每一步生 习模型之一,它是由蒙特利尔大学的Goodfellow 成的不完整序列计算指标得分,再做差分计算构 等川学者在2014年提出的.生成对抗网络是一种 造及时奖励,这样奖励就不只在所有词语都生成 生成模型(Generative model),它利用一个判别器模 完毕时才能获得,使得评价者的训练信号不再稀 型指导生成模型的训练,使得模型最终能够生成 疏.作者将此模型应用于拼写纠正能够获得更低 接近真实的数据.经过两年的发展,生成对抗网络 的拼写错误率,而在机器翻译任务中同样比最大 及其改进模型已经可以很好的应用于图像生成任 似然估计的训练方法获得更高的双语评估替换指 务,但是在自然语言任务中的应用还面临着一些 标的得分 问题.生成对抗网貉中的生成器和判别器模型都 Su等67将最新的动作者-评价者模型的改进 需要完全可微,才能进行梯度训练,而自然语言任 算法应用于任务导向的对话系统中,并且提高了 务中需要生成离散的标记序列:另一个难点是生 动作者-评价者算法的学习速度,解决了策略训练 成对抗网络的判别模型一般是对完整序列进行评 初期算法表现较差的问题.作者把对话策略优化 价,而自然语言任务中需要对已经生成的部分序 问题看作是学习每轮如何选择回复序列的任务, 列和之后生成的完整序列的质量都进行评价 任务目标是最大化长期收益.因为基于策略的方 针对上面两个问题,Yù等四提出了序列生成
函数来优化策略网络. 基于策略的方法需要在一 个回合结束的时候再进行学习,而由于奖励的稀 疏以及衰减,就造成了基于策略的方法学习效果 不够好. 这也解释了为什么最初深度思维公司用 的是深度 Q 网络而不是用更直接的基于策略的方 法来产生动作. 而动作者−评价者算法结合了基于 值函数的方法后,可以使策略梯度实现单步更新. Yˆ yt QT QT Bahdanau 等[66] 提出利用强化学习的动作者‒ 评价者框架和循环神经网络结构的生成模型相融 合的方法,试图改进 Ranzato 提出的算法. 具体做 法是把两个典型的编码‒解码器网络分别作为动 作者和评价者,动作者网络接收文本序列 X 然后 输出预测样本序列 ;评价者网络接收真实的标签 序列 Y 和动作者在 t 时刻生成的词语 ,最后输出 状态‒动作值 ,再用 去训练动作者网络,如图 3 所示. 同时作者还采用了一些技巧来提升模型的性 能,如采用类似深度 Q 网络中的目标网络来达到 稳定训练的目的. 首先,增加一个参数更新较为滞 后的动作者,通过这个动作者而非正在训练的行 动者生成预测序列,这样可以避免动作者和评价 者相互循环反馈;其次,此模型不会只对完整的预 测序列计算指标得分作为奖励,而是对每一步生 成的不完整序列计算指标得分,再做差分计算构 造及时奖励,这样奖励就不只在所有词语都生成 完毕时才能获得,使得评价者的训练信号不再稀 疏. 作者将此模型应用于拼写纠正能够获得更低 的拼写错误率,而在机器翻译任务中同样比最大 似然估计的训练方法获得更高的双语评估替换指 标的得分. Su 等[67] 将最新的动作者−评价者模型的改进 算法应用于任务导向的对话系统中,并且提高了 动作者−评价者算法的学习速度,解决了策略训练 初期算法表现较差的问题. 作者把对话策略优化 问题看作是学习每轮如何选择回复序列的任务, 任务目标是最大化长期收益. 因为基于策略的方 法比基于值的方法有更强的收敛性,但是具有策 略波动大、采样效率低和易收敛到局部极小的问 题,因此本文采用两种策略方法和值方法结合的 方法,分别是带经验回放的信赖域动作者−评价者 模型(Trust region actor−critic with experience replay, TRACER)和带经验回放的不定期动作者−评价者模 型(Episodic natural actor−critic with experience replay, eNACER). 前者利用重要性采样比率调节经验回 放采样所得历史样本的奖励,消除它对于当前策 略的偏差;同时采用 Wang 等[68] 提出的改进信赖 域策略优化(Trust region policy optimization)方法 使得更新后的策略不会偏离平均策略太多,从而 保证了策略的稳定更新,不会出现较大的策略波 动. 后者为了解决策略梯度在陡峭方向上不能保 证模型进行更新的问题,采用 Peters 与 Schaal[69] 提 出的自然动作者−评价者 (Natural actor−critic, NAC) 算法加上经验回放机制,此方法使用了相容函数 近似(Compatible function approximation) 不需要精 确的计算值函数只需要给出一个估计值. 作者在 剑桥地区电话咨询餐厅对话数据集上进行实验, 通过对比高斯过程强化学习( Gaussian processes reinforcement learning, GPRL) [70] ,深度 Q 网络,带经 验回放的信赖域动作者−评价者模型和带经验回 放的不定期动作者−评价者模型等算法发现提出 的算法有更好的效果. 3.4 其他形式 深度强化学习的框架具有一定的通用性,于 是很多研究者把深度强化学习和不同的模型框架 或者算法做融合,应用于自然语言处理任务中,也 取得了很好的效果 . 生成对抗网络 ( Generative adversarial networks,GANs)是近年最火热的深度学 习模型之一,它是由蒙特利尔大学的 Goodfellow 等[71] 学者在 2014 年提出的. 生成对抗网络是一种 生成模型(Generative model),它利用一个判别器模 型指导生成模型的训练,使得模型最终能够生成 接近真实的数据. 经过两年的发展,生成对抗网络 及其改进模型已经可以很好的应用于图像生成任 务,但是在自然语言任务中的应用还面临着一些 问题. 生成对抗网络中的生成器和判别器模型都 需要完全可微,才能进行梯度训练,而自然语言任 务中需要生成离散的标记序列;另一个难点是生 成对抗网络的判别模型一般是对完整序列进行评 价,而自然语言任务中需要对已经生成的部分序 列和之后生成的完整序列的质量都进行评价. 针对上面两个问题,Yu 等[72] 提出了序列生成 Actor Encoder Decoder pθ x1 , x2 ,…, xL Critic Encoder State of actor Decoder Qϕ Q1 , Q2 ,…, QT y1 , y2 ,…, yL ^ ^ ^ y1 , y2 ,…, yL 图 3 动作者−评价者框架的训练流程图 Fig.3 Training process of the actor−critic framework · 406 · 工程科学学报,第 42 卷,第 4 期
徐聪等:文本生成领域的深度强化学习研究进展 407 对抗网络模型(SeqGANs),用深度强化学习中的 生成器的参数之后,加入了极大似然估计方法用 策略梯度方法训练生成模型,解决离散标记序列 真实序列值重新更新参数,类似于有老师指导模 不能进行梯度计算的问题:同时通过蒙特卡洛搜 型训练的方向,因此称为教师指导.文章中训练了 索利用一个展开策略对已经生成的部分序列做采 一个可以区分机器生成语句和人类生成语句的模 样生成完整序列,即当生成到1个词时,假设完整 型替代人工评估,最后对比了极大似然估计方法、 序列有T个词语,用蒙特卡洛搜索出后面的T-1个 最大互信息方法、序列到序列模型以及作者提出 词语的N条路径,将搜索生成的T-1个词语和已 的对抗-强化学习模型和对抗-每步生成奖励模 经生成的1个词语组成完整的N个输出序列,再由 型,结果显示虽然序列到序列模型生成的回复语 判别器对这些序列进行评价,将所有评价的平均 句最像人类的回复,但是通常其意思含糊或者与 值作为生成模型的奖励,从而解决了部分生成序 上下文不相关,而作者提出的两个模型的回复语 列的评价问题,训练过程如图4所示 句在这两个方面都能够取得较好的表现. 上面两个工作都是把深度强化学习和生成对 Real Real data 抗模型相结合,而Pfau与Vinyals1认为生成对抗 LSTM world 网络和动作者-评价者方法有很多相似之处,这篇 Train Discriminator 论文主要工作是从不同的角度来说明了生成对抗 Generate Generator LSTM 网络和动作者-评价者模型的异同点,从而鼓励研 究生成对抗网络和动作者-评价者模型的学者合 作研发出通用、稳定、可扩展的算法,或者从各自 +○Reward Monte 的研究中获取灵感. Generator carlo (○Reward tree 在亚马逊的构建社交机器人的比赛中,Serban search ○Reward 等通过深度强化学习算法结合对话系统开发 Policy gradient 的MILABOT聊天机器人获得最终比赛胜利.他 们利用深度强化学习对若干个对话系统进行整 图4序列生成对抗网络模型结构及其训练过程 合,该聊天机器人在与真实用户的互动中进行训 Fig.4 Structure and training process of the seqGANs model 练,让强化学习算法学习如何从自身包含的一系 作者将序列生成对抗网络模型应用于生成文 列模型中选择合适的生成语句作为回复.真实用 本任务如中文诗词、奥巴马政治演讲,以及生成音 户使用AB测试对该系统进行评估,结果显示其 乐任务中,得到的生成结果比极大似然估计方法 性能大大优于其他参赛系统.由于其所有模块都 要自然和准确 是可学习的,额外的数据能够帮助该系统继续提 Li等5利用对抗训练方法和强化学习方法来 升性能. 解决开放领域对话生成问题,作者采用了和序列 He等阿利用强化学习中价值网络具有评估 生成对抗网络类似方法,用策略梯度训练生成器, 长期奖励的能力.解决机器翻译模型解码时只关 用判别器对生成器的输出序列进行评价作为奖 注局部最优的问题,使翻译的句子整体上达到更 励.不同的是作者认为对部分生成序列进行评价 好的效果.作者提出的翻译模型不仅考虑了生成 时用蒙特卡罗搜索比较消耗时间,可以训练一个 词语的条件概率,还结合了生成词语对未来句子 判别器对部分和完整序列都能进行评价,训练数 的长期奖励,通过实验证明了此方法较集束搜索 据是从正序列和负序列中随机采样的子序列,每 解码的翻译模型能够获得更高的双语评估替换指 次只从正、负序列的子序列中采样一个样本,确保 标得分 早期生成的序列不会频繁出现在判别器的训练集 4总结与展望 中,文中称为每步生成的奖励(Reward for every generation step,REGS)方法.作者还发现在对抗训 本文对深度强化学习及其在文本生成任务中 练的时候,生成器比较容易崩溃,这是由于生成器 的应用现状进行了较为全面的总结,对相关的研 不会通过真实的目标序列进行训练,当接受的奖 究工作进行了分类和解析.随着深度强化学习和 励很低时,只知道当前生成的序列质量槽糕,而不 自然语言处理的迅速发展,越来越多的新方法和 知道如何向正确的方向作调整.于是作者在更新 新应用出现,可以预见强化学习和文本生成以及
对抗网络模型(SeqGANs),用深度强化学习中的 策略梯度方法训练生成模型,解决离散标记序列 不能进行梯度计算的问题;同时通过蒙特卡洛搜 索利用一个展开策略对已经生成的部分序列做采 样生成完整序列,即当生成到 t 个词时,假设完整 序列有 T 个词语,用蒙特卡洛搜索出后面的 T−t 个 词语的 N 条路径,将搜索生成的 T−t 个词语和已 经生成的 t 个词语组成完整的 N 个输出序列,再由 判别器对这些序列进行评价,将所有评价的平均 值作为生成模型的奖励,从而解决了部分生成序 列的评价问题,训练过程如图 4 所示. 作者将序列生成对抗网络模型应用于生成文 本任务如中文诗词、奥巴马政治演讲,以及生成音 乐任务中,得到的生成结果比极大似然估计方法 要自然和准确. Li 等[57] 利用对抗训练方法和强化学习方法来 解决开放领域对话生成问题,作者采用了和序列 生成对抗网络类似方法,用策略梯度训练生成器, 用判别器对生成器的输出序列进行评价作为奖 励. 不同的是作者认为对部分生成序列进行评价 时用蒙特卡罗搜索比较消耗时间,可以训练一个 判别器对部分和完整序列都能进行评价,训练数 据是从正序列和负序列中随机采样的子序列,每 次只从正、负序列的子序列中采样一个样本,确保 早期生成的序列不会频繁出现在判别器的训练集 中 ,文中称为每步生成的奖励(Reward for every generation step, REGS)方法. 作者还发现在对抗训 练的时候,生成器比较容易崩溃,这是由于生成器 不会通过真实的目标序列进行训练,当接受的奖 励很低时,只知道当前生成的序列质量糟糕,而不 知道如何向正确的方向作调整. 于是作者在更新 生成器的参数之后,加入了极大似然估计方法用 真实序列值重新更新参数,类似于有老师指导模 型训练的方向,因此称为教师指导. 文章中训练了 一个可以区分机器生成语句和人类生成语句的模 型替代人工评估,最后对比了极大似然估计方法、 最大互信息方法、序列到序列模型以及作者提出 的对抗−强化学习模型和对抗−每步生成奖励模 型,结果显示虽然序列到序列模型生成的回复语 句最像人类的回复,但是通常其意思含糊或者与 上下文不相关,而作者提出的两个模型的回复语 句在这两个方面都能够取得较好的表现. 上面两个工作都是把深度强化学习和生成对 抗模型相结合,而 Pfau 与 Vinyals[73] 认为生成对抗 网络和动作者−评价者方法有很多相似之处,这篇 论文主要工作是从不同的角度来说明了生成对抗 网络和动作者−评价者模型的异同点,从而鼓励研 究生成对抗网络和动作者−评价者模型的学者合 作研发出通用、稳定、可扩展的算法,或者从各自 的研究中获取灵感. 在亚马逊的构建社交机器人的比赛中,Serban 等[74] 通过深度强化学习算法结合对话系统开发 的 MILABOT 聊天机器人获得最终比赛胜利. 他 们利用深度强化学习对若干个对话系统进行整 合,该聊天机器人在与真实用户的互动中进行训 练,让强化学习算法学习如何从自身包含的一系 列模型中选择合适的生成语句作为回复. 真实用 户使用 A/B 测试对该系统进行评估,结果显示其 性能大大优于其他参赛系统. 由于其所有模块都 是可学习的,额外的数据能够帮助该系统继续提 升性能. He 等[75] 利用强化学习中价值网络具有评估 长期奖励的能力,解决机器翻译模型解码时只关 注局部最优的问题,使翻译的句子整体上达到更 好的效果. 作者提出的翻译模型不仅考虑了生成 词语的条件概率,还结合了生成词语对未来句子 的长期奖励,通过实验证明了此方法较集束搜索 解码的翻译模型能够获得更高的双语评估替换指 标得分. 4 总结与展望 本文对深度强化学习及其在文本生成任务中 的应用现状进行了较为全面的总结,对相关的研 究工作进行了分类和解析. 随着深度强化学习和 自然语言处理的迅速发展,越来越多的新方法和 新应用出现,可以预见强化学习和文本生成以及 Generator Generator Discriminator Reward Reward Reward Real world State Real data Generate LSTM LSTM Train Monte carlo tree search Policy gradient … … 图 4 序列生成对抗网络模型结构及其训练过程 Fig.4 Structure and training process of the seqGANs model 徐 聪等: 文本生成领域的深度强化学习研究进展 · 407 ·