正在加载图片...
徐聪等:文本生成领域的深度强化学习研究进展 405· 认为这种做法是没有必要的.文章中提出了另外 策略,优化目标是最大化未来奖励的期望.作者根 一种获取参考奖励方法,可以避免训练预测模型, 据开放领域对话任务的特点,设计了三个指标函 具体做法是使用测试时的算法输出文本序列计算 数共同组成奖励,他们分别评价生成语句的信息 奖励,将此奖励作为参考奖励.测试时期和训练时 丰富性、连贯性和让对方回复的难易度.通过上 期算法的区别是,前者取每个循环神经网络单元 述方法,在一定程度上可以避免对话系统出现无 输出概率最大的词语组成预测的文本序列,这种 意义的语句、重复性的语句和难以回答的语句 方式也称为贪婪式解码(Greedy decoding);后者是 本文还借鉴阿尔法围棋的训练方式,先通过监督 对每个循环神经网络单元产生的词语做蒙特卡罗 学习预训练一个基础序列到序列网络,再让两个 抽样,抽样所得词语组成预测文本序列.然后对两 训练好的基础序列到序列模型互相对话,通过强 个网络的输出文本序列分别计算奖励,当抽样得 化学习的策略梯度方法来更新参数,以获得一个 到句子获得的奖励低于贪婪式解码方法得到句子 比较大的期望奖励值.最终结果显示文章采用的 的奖励时,通过策略梯度的调整降低这句话出现 算法能产生更丰富、更多交互性、更能持续响应 的概率,反之提高其出现的概率.他们使用基于共识 的对话回复.这个工作也为未来实现长期全局的 的图像描述评价(Consensus-.based image description 对话系统作了有益的尝试 evaluation,CIDEr)Iso指标作为奖励函数,在微软带 在基于任务的对话系统中,根据对话的主题 有上下问的常见物体数据集(Microsoft common 将对话语料进行分割和标记是其关键任务之一 objects in context,.COCO)上进行实验,获得了当时 Takanobu等6提出利用策略网络和长短期记忆网 排名第一的成绩,并且发现优化基于共识的图像 络相结合的深度网络完成此任务.由于缺乏标注 描述评价指标能够使其他度量指标如双语替换评 完善的训练语料,作者将此任务归纳为弱监督学 价指标,基于召回率替换的主旨评价指标,基于单 习和序列标注问题.他们利用先验知识对对话语 精度的加权调和平均数和单字召回率的评价指标 料进行粗粒度的标注,产生包含噪声的训练数据 (METEOR)6都得到提高 再用包含噪声的标注数据初步训练状态表征网络 Wang等6的工作主要解决自动摘要中的一 和策略网络.策略网络输入的状态是由状态表征 致性、多样性问题,他们提出了一种具有联合注意 网络生成的,输出的动作是语料的主题标签.也就 力机制和偏置概率生成机制的卷积序列到序列的 是说噪声数据经过策略网络之后能够获得一组新 模型.上述机制能够将主题信息整合到自动摘要 的主题标签.将打上新标签的数据送入状态表征 模型中,使得上下文信息能够帮助模型生成更一 网络进行有监督地训练,更新对话语料的状态表 致、更多样和包含更多信息的摘要文本,同时作 征.新的状态表征又经过策略网络输出新的主题 者利用上文Rennie等提出的自评价的序列训练强 标签,再重复前面的过程,直到验证集的标签变化 化学习算法,直接优化摘要任务的评价指标基于 率小于设定值.此时训练好地状态表征网络就可 召回率替换的主旨评价标准,不仅解决了召回率 以进行主题分割和标记工作.作者通过策略网络 替换的主旨评价标准作为优化目标导致模型不可 巧妙地解决了此类任务没有直接监督信号的问 导的问题,还免去了暴露误差的影响.他们利用提 题,让强化学习网络为监督学习网络提供不断更 出的模型在多个数据集上取得了当前最好成绩. 新的训练标签,监督学习网络为强化学习网络提 Wu等61为了提高自动摘要任务中上下文的一致性 供状态输入,联合训练这两个网络最终实现弱监 设计了能够计算一致性的奖励模型,并将此奖励 督学习的过程.他们同时在电商购物的对话数据 融合到提出的强化神经抽取式总结模型(Reinforced 集上验证了模型在主题分割、标注和上下文理解 neural extractive summarization,.RNES)中.此模型 任务上有很好的效果.本文提出的基于策略网络 同样利用策略梯度方法进行训练,最终能够提高 的弱监督学习框架有很好的创新性和扩张性,能 生成的摘要中跨越多个句子的语义信息一致性 够应用在其他缺乏完善标签数据的任务中 开放领域对话任务相较于其他文本生成任务 33基于策略和值函数 而言,不只关注于生成下一句文本序列,还需要关 基于策略和值函数的方法,融合了上述两种 注生成的回复对整个对话发展的影响.Li等6提 强化学习算法的优点,策略网络利用策略梯度方 出了利用强化学习对传统序列到序列模型进行改 法生成动作,值函数评价部分利用深度Q网络一 进,同样利用循环神经网络表征生成对话回复的 类的方法生成对动作的评价,通过评价得到的值认为这种做法是没有必要的. 文章中提出了另外 一种获取参考奖励方法,可以避免训练预测模型, 具体做法是使用测试时的算法输出文本序列计算 奖励,将此奖励作为参考奖励. 测试时期和训练时 期算法的区别是,前者取每个循环神经网络单元 输出概率最大的词语组成预测的文本序列,这种 方式也称为贪婪式解码(Greedy decoding);后者是 对每个循环神经网络单元产生的词语做蒙特卡罗 抽样,抽样所得词语组成预测文本序列. 然后对两 个网络的输出文本序列分别计算奖励,当抽样得 到句子获得的奖励低于贪婪式解码方法得到句子 的奖励时,通过策略梯度的调整降低这句话出现 的概率,反之提高其出现的概率. 他们使用基于共识 的图像描述评价(Consensus-based image description evaluation, CIDEr) [60] 指标作为奖励函数,在微软带 有上下问的常见物体数据集( Microsoft common objects in context, COCO)上进行实验,获得了当时 排名第一的成绩,并且发现优化基于共识的图像 描述评价指标能够使其他度量指标如双语替换评 价指标,基于召回率替换的主旨评价指标,基于单 精度的加权调和平均数和单字召回率的评价指标 (METEOR) [61] 都得到提高. Wang 等[62] 的工作主要解决自动摘要中的一 致性、多样性问题,他们提出了一种具有联合注意 力机制和偏置概率生成机制的卷积序列到序列的 模型. 上述机制能够将主题信息整合到自动摘要 模型中,使得上下文信息能够帮助模型生成更一 致、更多样和包含更多信息的摘要文本. 同时作 者利用上文 Rennie 等提出的自评价的序列训练强 化学习算法,直接优化摘要任务的评价指标基于 召回率替换的主旨评价标准,不仅解决了召回率 替换的主旨评价标准作为优化目标导致模型不可 导的问题,还免去了暴露误差的影响. 他们利用提 出的模型在多个数据集上取得了当前最好成绩. Wu 等[63] 为了提高自动摘要任务中上下文的一致性, 设计了能够计算一致性的奖励模型,并将此奖励 融合到提出的强化神经抽取式总结模型(Reinforced neural extractive summarization, RNES)中. 此模型 同样利用策略梯度方法进行训练,最终能够提高 生成的摘要中跨越多个句子的语义信息一致性. 开放领域对话任务相较于其他文本生成任务 而言,不只关注于生成下一句文本序列,还需要关 注生成的回复对整个对话发展的影响. Li 等[64] 提 出了利用强化学习对传统序列到序列模型进行改 进,同样利用循环神经网络表征生成对话回复的 策略,优化目标是最大化未来奖励的期望. 作者根 据开放领域对话任务的特点,设计了三个指标函 数共同组成奖励,他们分别评价生成语句的信息 丰富性、连贯性和让对方回复的难易度. 通过上 述方法,在一定程度上可以避免对话系统出现无 意义的语句、重复性的语句和难以回答的语句. 本文还借鉴阿尔法围棋的训练方式,先通过监督 学习预训练一个基础序列到序列网络,再让两个 训练好的基础序列到序列模型互相对话,通过强 化学习的策略梯度方法来更新参数,以获得一个 比较大的期望奖励值. 最终结果显示文章采用的 算法能产生更丰富、更多交互性、更能持续响应 的对话回复. 这个工作也为未来实现长期全局的 对话系统作了有益的尝试. 在基于任务的对话系统中,根据对话的主题 将对话语料进行分割和标记是其关键任务之一. Takanobu 等[65] 提出利用策略网络和长短期记忆网 络相结合的深度网络完成此任务. 由于缺乏标注 完善的训练语料,作者将此任务归纳为弱监督学 习和序列标注问题. 他们利用先验知识对对话语 料进行粗粒度的标注,产生包含噪声的训练数据. 再用包含噪声的标注数据初步训练状态表征网络 和策略网络. 策略网络输入的状态是由状态表征 网络生成的,输出的动作是语料的主题标签. 也就 是说噪声数据经过策略网络之后能够获得一组新 的主题标签. 将打上新标签的数据送入状态表征 网络进行有监督地训练,更新对话语料的状态表 征. 新的状态表征又经过策略网络输出新的主题 标签,再重复前面的过程,直到验证集的标签变化 率小于设定值. 此时训练好地状态表征网络就可 以进行主题分割和标记工作. 作者通过策略网络 巧妙地解决了此类任务没有直接监督信号的问 题,让强化学习网络为监督学习网络提供不断更 新的训练标签,监督学习网络为强化学习网络提 供状态输入,联合训练这两个网络最终实现弱监 督学习的过程. 他们同时在电商购物的对话数据 集上验证了模型在主题分割、标注和上下文理解 任务上有很好的效果. 本文提出的基于策略网络 的弱监督学习框架有很好的创新性和扩张性,能 够应用在其他缺乏完善标签数据的任务中. 3.3    基于策略和值函数 基于策略和值函数的方法,融合了上述两种 强化学习算法的优点,策略网络利用策略梯度方 法生成动作,值函数评价部分利用深度 Q 网络一 类的方法生成对动作的评价,通过评价得到的值 徐    聪等: 文本生成领域的深度强化学习研究进展 · 405 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有