text generation task, _中国高校课件下载中心

正在加载图片...

400 工程科学学报，第42卷，第4期 text generation task,trace the development of DRL,and summarized the merits and demerits associated with these applications.The final section enumerated some future research directions of DRL combined with NLP. KEY WORDS deep reinforcement learning;natural language processing:text generation;dialogue system;machine translation;image caption 由于深度学习的兴盛，强化学习和自然语言类进行认知决策的过程，先通过眼睛感知周围环处理技术都得到了巨大的发展，突破了各自在传境的状态，再通过大脑进行动作选择.其后大部分统方法上的瓶颈.如今越来越多研究将强化学习的深度强化学习改进算法也基本遵循这个框架的强大决策能力应用于自然语言处理的各个任务原理之中，都取得了不错的进展.本文首先简要介绍深 State 度强化学习和文本生成任务，然后分别梳理三类 Perception 深度强化学习方法在文本生成任务中的应用以及 Brain 各自的优缺点，最后对深度强化学习技术和自然 Environment -Reward- 语言处理任务相结合的前景与方向进行总结 Agent Decision 1简介 Behaviour Action 1.1深度强化学习图1深度强化学习的基本框架强化学习(Reinforcement learning)通常用来解 Fig.1 Framework of deep reinforcement learning 决科学、工程甚至经济文化等众多领域中的序列 1.2自然语言处理中的文本生成任务决策问题四强化学习和神经网络的结合可以追溯自然语言处理(Natural language processing, 到20世纪90年代，而直到近年来由于深度学习和 NLP)是利用计算机技术对人类语言进行自动分析大数据的惊人成就以及硬件计算能力的大幅提和表征的方法及理论的总称，自然语言处理研究升，才使得强化学习迎来了一次复兴，同时也使深的目的是让计算机能够运行各种层次的自然语言度强化学习(Deep reinforcement learning,DRL)成为相关任务，包括分词、词性标注、机器翻译、对话目前人工智能科学中最热门的研究领域之一系统.近二十年来，自然语言问题都是利用机器学谷歌的深度思维团队是深度强化学习的主要习方法基于高维且稀疏的特征来训练浅层模型提出者和研究者，他们于2015年在《Nature》杂志而随着深度学习方法的发展，稠密矩阵表征上提出了深度Q网络(Deep Q-network,DQN),并 (Dense vector representations)的方法使得很多自然让其学习如何操作Atari视频游戏，最终在49个游语言处理任务取得了更加优秀的结果m.随后词向戏中取得了高于人类专业玩家的得分.2016年，他量的成功使用加速推动了深度学习在自然语言处们提出了蒙特卡罗树搜索和深度强化学习相结合理中的应用⑧，与以往浅层模型相比，深度学习能的算法-人工智能算法(AlphaGo),在与职业九段够自动表征多层次的特征而不依赖先验知识进行棋手李世石的对弈中以4：1取得胜利，并将算法手工提取特征，这就避免了手工提取特征通常耗发表于同年的《Nature》杂志上)在此基础上，深费时间又不够完整的缺点.深度学习和自然语言度思维团队用这套算法的改进版本挑战世界排名处理发展到现在，己经能够部分解决一些相对复第一的中国棋手柯洁，以3：0的巨大优势取胜杂的文本生成任务，例如对话系统、机器翻译、图这意味着以深度学习和强化学习为代表的人工智像描述和自动摘要等6( 能算法，已经能够在一些极其复杂的博弈环境中对话系统通常也被叫作聊天机器人，或者基超越人类顶尖专家的水平于自然语言的人机交互.他们通常分为两种：一种深度强化学习利用深度学习非线性模型的是面向特定任务的，目的是帮助用户完成特定的强大感知能力对复杂环境状态进行表征，利用任务；一种是开放领域的，以聊天交流为主要目的强化学习的决策优化能力针对不同环境状态进行任务导向的对话系统(Task-oriented spoken dialogue 动作选择阿将两种算法结合构成了基本的深度强 systems)可以完成类似预定酒店、提供餐厅信息和化学习的框架，如图1所示，这样的过程也类似人获取公交时间表等任务.这类系统通常依赖结构text generation task, trace the development of DRL, and summarized the merits and demerits associated with these applications. The final section enumerated some future research directions of DRL combined with NLP. KEY WORDS deep reinforcement learning；natural language processing；text generation；dialogue system；machine translation；image caption 由于深度学习的兴盛，强化学习和自然语言处理技术都得到了巨大的发展，突破了各自在传统方法上的瓶颈. 如今越来越多研究将强化学习的强大决策能力应用于自然语言处理的各个任务之中，都取得了不错的进展. 本文首先简要介绍深度强化学习和文本生成任务，然后分别梳理三类深度强化学习方法在文本生成任务中的应用以及各自的优缺点，最后对深度强化学习技术和自然语言处理任务相结合的前景与方向进行总结. 1 简介 1.1 深度强化学习强化学习 (Reinforcement learning) 通常用来解决科学、工程甚至经济文化等众多领域中的序列决策问题[1] . 强化学习和神经网络的结合可以追溯到 20 世纪 90 年代，而直到近年来由于深度学习和大数据的惊人成就以及硬件计算能力的大幅提升，才使得强化学习迎来了一次复兴，同时也使深度强化学习（Deep reinforcement learning, DRL）成为目前人工智能科学中最热门的研究领域之一. 谷歌的深度思维团队是深度强化学习的主要提出者和研究者，他们于 2015 年在《Nature》杂志上提出了深度 Q 网络（Deep Q-network，DQN） [2] ，并让其学习如何操作 Atari 视频游戏，最终在 49 个游戏中取得了高于人类专业玩家的得分. 2016 年，他们提出了蒙特卡罗树搜索和深度强化学习相结合的算法−人工智能算法（AlphaGo），在与职业九段棋手李世石的对弈中以 4∶1 取得胜利，并将算法发表于同年的《Nature》杂志上[3] . 在此基础上，深度思维团队用这套算法的改进版本挑战世界排名第一的中国棋手柯洁，以 3∶0 的巨大优势取胜. 这意味着以深度学习和强化学习为代表的人工智能算法，已经能够在一些极其复杂的博弈环境中超越人类顶尖专家的水平. 深度强化学习利用深度学习非线性模型的强大感知能力对复杂环境状态进行表征[4] ，利用强化学习的决策优化能力针对不同环境状态进行动作选择[5] . 将两种算法结合构成了基本的深度强化学习的框架，如图 1 所示，这样的过程也类似人类进行认知决策的过程，先通过眼睛感知周围环境的状态，再通过大脑进行动作选择. 其后大部分的深度强化学习改进算法也基本遵循这个框架原理[6] . 1.2 自然语言处理中的文本生成任务自然语言处理（ Natural language processing, NLP）是利用计算机技术对人类语言进行自动分析和表征的方法及理论的总称. 自然语言处理研究的目的是让计算机能够运行各种层次的自然语言相关任务，包括分词、词性标注、机器翻译、对话系统. 近二十年来，自然语言问题都是利用机器学习方法基于高维且稀疏的特征来训练浅层模型. 而随着深度学习方法的发展，稠密矩阵表征（Dense vector representations）的方法使得很多自然语言处理任务取得了更加优秀的结果[7] . 随后词向量的成功使用加速推动了深度学习在自然语言处理中的应用[8] ，与以往浅层模型相比，深度学习能够自动表征多层次的特征而不依赖先验知识进行手工提取特征，这就避免了手工提取特征通常耗费时间又不够完整的缺点. 深度学习和自然语言处理发展到现在，已经能够部分解决一些相对复杂的文本生成任务，例如对话系统、机器翻译、图像描述和自动摘要等[6] . 对话系统通常也被叫作聊天机器人，或者基于自然语言的人机交互. 他们通常分为两种：一种是面向特定任务的，目的是帮助用户完成特定的任务；一种是开放领域的，以聊天交流为主要目的[9] . 任务导向的对话系统（Task-oriented spoken dialogue systems）可以完成类似预定酒店、提供餐厅信息和获取公交时间表等任务. 这类系统通常依赖结构 Brain Agent Environment Action State Reward Behaviour Perception Decision 图 1 深度强化学习的基本框架 Fig.1 Framework of deep reinforcement learning · 400 · 工程科学学报，第 42 卷，第 4 期

<<向上翻页向下翻页>>

点击下载：文本生成领域的深度强化学习研究进展