正在加载图片...
400 工程科学学报,第42卷,第4期 text generation task,trace the development of DRL,and summarized the merits and demerits associated with these applications.The final section enumerated some future research directions of DRL combined with NLP. KEY WORDS deep reinforcement learning;natural language processing:text generation;dialogue system;machine translation;image caption 由于深度学习的兴盛,强化学习和自然语言 类进行认知决策的过程,先通过眼睛感知周围环 处理技术都得到了巨大的发展,突破了各自在传 境的状态,再通过大脑进行动作选择.其后大部分 统方法上的瓶颈.如今越来越多研究将强化学习 的深度强化学习改进算法也基本遵循这个框架 的强大决策能力应用于自然语言处理的各个任务 原理 之中,都取得了不错的进展.本文首先简要介绍深 State 度强化学习和文本生成任务,然后分别梳理三类 Perception 深度强化学习方法在文本生成任务中的应用以及 Brain 各自的优缺点,最后对深度强化学习技术和自然 Environment -Reward- 语言处理任务相结合的前景与方向进行总结 Agent Decision 1简介 Behaviour Action 1.1深度强化学习 图1深度强化学习的基本框架 强化学习(Reinforcement learning)通常用来解 Fig.1 Framework of deep reinforcement learning 决科学、工程甚至经济文化等众多领域中的序列 1.2自然语言处理中的文本生成任务 决策问题四强化学习和神经网络的结合可以追溯 自然语言处理(Natural language processing, 到20世纪90年代,而直到近年来由于深度学习和 NLP)是利用计算机技术对人类语言进行自动分析 大数据的惊人成就以及硬件计算能力的大幅提 和表征的方法及理论的总称,自然语言处理研究 升,才使得强化学习迎来了一次复兴,同时也使深 的目的是让计算机能够运行各种层次的自然语言 度强化学习(Deep reinforcement learning,DRL)成为 相关任务,包括分词、词性标注、机器翻译、对话 目前人工智能科学中最热门的研究领域之一 系统.近二十年来,自然语言问题都是利用机器学 谷歌的深度思维团队是深度强化学习的主要 习方法基于高维且稀疏的特征来训练浅层模型 提出者和研究者,他们于2015年在《Nature》杂志 而随着深度学习方法的发展,稠密矩阵表征 上提出了深度Q网络(Deep Q-network,DQN),并 (Dense vector representations)的方法使得很多自然 让其学习如何操作Atari视频游戏,最终在49个游 语言处理任务取得了更加优秀的结果m.随后词向 戏中取得了高于人类专业玩家的得分.2016年,他 量的成功使用加速推动了深度学习在自然语言处 们提出了蒙特卡罗树搜索和深度强化学习相结合 理中的应用⑧,与以往浅层模型相比,深度学习能 的算法-人工智能算法(AlphaGo),在与职业九段 够自动表征多层次的特征而不依赖先验知识进行 棋手李世石的对弈中以4:1取得胜利,并将算法 手工提取特征,这就避免了手工提取特征通常耗 发表于同年的《Nature》杂志上)在此基础上,深 费时间又不够完整的缺点.深度学习和自然语言 度思维团队用这套算法的改进版本挑战世界排名 处理发展到现在,己经能够部分解决一些相对复 第一的中国棋手柯洁,以3:0的巨大优势取胜 杂的文本生成任务,例如对话系统、机器翻译、图 这意味着以深度学习和强化学习为代表的人工智 像描述和自动摘要等6( 能算法,已经能够在一些极其复杂的博弈环境中 对话系统通常也被叫作聊天机器人,或者基 超越人类顶尖专家的水平 于自然语言的人机交互.他们通常分为两种:一种 深度强化学习利用深度学习非线性模型的 是面向特定任务的,目的是帮助用户完成特定的 强大感知能力对复杂环境状态进行表征,利用 任务;一种是开放领域的,以聊天交流为主要目的 强化学习的决策优化能力针对不同环境状态进行 任务导向的对话系统(Task-oriented spoken dialogue 动作选择阿将两种算法结合构成了基本的深度强 systems)可以完成类似预定酒店、提供餐厅信息和 化学习的框架,如图1所示,这样的过程也类似人 获取公交时间表等任务.这类系统通常依赖结构text generation task, trace the development of DRL, and summarized the merits and demerits associated with these applications. The final section enumerated some future research directions of DRL combined with NLP. KEY WORDS    deep reinforcement learning;natural language processing;text generation;dialogue system;machine translation;image caption 由于深度学习的兴盛,强化学习和自然语言 处理技术都得到了巨大的发展,突破了各自在传 统方法上的瓶颈. 如今越来越多研究将强化学习 的强大决策能力应用于自然语言处理的各个任务 之中,都取得了不错的进展. 本文首先简要介绍深 度强化学习和文本生成任务,然后分别梳理三类 深度强化学习方法在文本生成任务中的应用以及 各自的优缺点,最后对深度强化学习技术和自然 语言处理任务相结合的前景与方向进行总结. 1    简介 1.1    深度强化学习 强化学习 (Reinforcement learning) 通常用来解 决科学、工程甚至经济文化等众多领域中的序列 决策问题[1] . 强化学习和神经网络的结合可以追溯 到 20 世纪 90 年代,而直到近年来由于深度学习和 大数据的惊人成就以及硬件计算能力的大幅提 升,才使得强化学习迎来了一次复兴,同时也使深 度强化学习(Deep reinforcement learning, DRL)成为 目前人工智能科学中最热门的研究领域之一. 谷歌的深度思维团队是深度强化学习的主要 提出者和研究者,他们于 2015 年在《Nature》杂志 上提出了深度 Q 网络(Deep Q-network,DQN) [2] ,并 让其学习如何操作 Atari 视频游戏,最终在 49 个游 戏中取得了高于人类专业玩家的得分. 2016 年,他 们提出了蒙特卡罗树搜索和深度强化学习相结合 的算法−人工智能算法(AlphaGo),在与职业九段 棋手李世石的对弈中以 4∶1 取得胜利,并将算法 发表于同年的《Nature》杂志上[3] . 在此基础上,深 度思维团队用这套算法的改进版本挑战世界排名 第一的中国棋手柯洁,以 3∶0 的巨大优势取胜. 这意味着以深度学习和强化学习为代表的人工智 能算法,已经能够在一些极其复杂的博弈环境中 超越人类顶尖专家的水平. 深度强化学习利用深度学习非线性模型的 强大感知能力对复杂环境状态进行表征[4] ,利用 强化学习的决策优化能力针对不同环境状态进行 动作选择[5] . 将两种算法结合构成了基本的深度强 化学习的框架,如图 1 所示,这样的过程也类似人 类进行认知决策的过程,先通过眼睛感知周围环 境的状态,再通过大脑进行动作选择. 其后大部分 的深度强化学习改进算法也基本遵循这个框架 原理[6] . 1.2    自然语言处理中的文本生成任务 自 然 语 言 处 理 ( Natural  language  processing, NLP)是利用计算机技术对人类语言进行自动分析 和表征的方法及理论的总称. 自然语言处理研究 的目的是让计算机能够运行各种层次的自然语言 相关任务,包括分词、词性标注、机器翻译、对话 系统. 近二十年来,自然语言问题都是利用机器学 习方法基于高维且稀疏的特征来训练浅层模型. 而随着深度学习方法的发展 ,稠密矩阵表征 (Dense vector representations)的方法使得很多自然 语言处理任务取得了更加优秀的结果[7] . 随后词向 量的成功使用加速推动了深度学习在自然语言处 理中的应用[8] ,与以往浅层模型相比,深度学习能 够自动表征多层次的特征而不依赖先验知识进行 手工提取特征,这就避免了手工提取特征通常耗 费时间又不够完整的缺点. 深度学习和自然语言 处理发展到现在,已经能够部分解决一些相对复 杂的文本生成任务,例如对话系统、机器翻译、图 像描述和自动摘要等[6] . 对话系统通常也被叫作聊天机器人,或者基 于自然语言的人机交互. 他们通常分为两种:一种 是面向特定任务的,目的是帮助用户完成特定的 任务;一种是开放领域的,以聊天交流为主要目的[9] . 任务导向的对话系统(Task-oriented spoken dialogue systems)可以完成类似预定酒店、提供餐厅信息和 获取公交时间表等任务. 这类系统通常依赖结构 Brain Agent Environment Action State Reward Behaviour Perception Decision 图 1    深度强化学习的基本框架 Fig.1    Framework of deep reinforcement learning · 400 · 工程科学学报,第 42 卷,第 4 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有