正在加载图片...
404 工程科学学报,第42卷,第4期 候选动作指令的词汇量是巨大的并且未知的,候 通常是利用深度网络学习生成词语的策略,即用 选动作集合是灵活可变的,对于这些情况一般深 网络参数表征词语选择的策略,网络直接输出词 度Q网络的做法是每次决策的时候把所有候选动 语的标记(Token)而非词语对应的值函数,跳过了 作和状态组合后输入最大动作-深度Q网络(Max- 计算值函数的步骤,从根本上解决词汇空间过大 action DQN)或者把每一种候选动作分别和状态组 的问题,这种方法也称作策略梯度方法(Policy 合后输入每个动作-深度Q网络(Per-action DQN) gradient method)或策略网络(Policy network) 作者给出了一种改进算法深度强化相关性网络 Ranzato等s阿指出之前的文本生成任务中,训 Deep reinforcement relevance network,DRRN), 练模型时给定了文本序列中前面的真实词语和一 同于以往的深度O网络算法把状态和动作组合后 些上下文信息,让模型预测接下来的词语,而测试 输入同一个网络计算状态值函数,深度强化相关 模型的时候并没有文本序列中的真实词语,只能 性网络把表示状态的向量和表示动作的向量分别 依据前面生成的预测词语和上下文信息生成下一 输入两个深度网络,然后把两个网络的输出通过 个词语.一旦前几个词语生成的错误较大,就会导 点乘结合在一起作为状态值函数.这样算法就能 致错误一直叠加,使整个文本序列产生较大偏差 够从状态和动作两个方面分别进行理解表征,然 神经网络生成模型中的这种问题被称之为暴露误 后计算状态和动作之间的关联程度作为网络输 差问题57于是作者提出使用强化学习算法直接 出,训练网络使得长期奖励最大化.实验结果表明 优化生成句子任务的评价指标,如双语评估替换 深度强化相关性网络算法对于给定候选动作的游 指标或者基于召回率替换的主旨评价标准(Recall-- 戏能够比最大动作-深度Q网络(Max-action DQN) oriented understudy for gisting evaluation,ROUGE)Is 和每个动作-深度Q网络(Per-action DQN)获得更 为了使用强化学习算法解决文本序列生成问题, 多的长期奖励 作者把循环神经网络RNN结构的文本生成模型 上述工作将深度强化学习应用在文本游戏 看作一个代理,它与外部环境进行交互,也就是把 中,面对的并不是典型的自然语言任务.由于游戏 词语和上下文信息作为环境的状态输入到代理 中涉及的动作指令词汇一般数量较少或者提前给 中.代理的参数表征策略,运行策略就能够进行动 定了有限个候选动作指令,而自然语言处理中的 作的选择.同时作者把则试时候用的双语评估替 文本生成任务通常会面临巨大的词汇空间,也就 换指标和基于召回率替换的二元主旨评价指标 是拥有巨大的动作空间,因此简单移植标准深度 (ROUGE-2)作为训练模型时的奖励,优化目标是 Q网络算法是行不通的.针对上述问题Guo51提 最大化奖励的期望.本工作还提出一个提高模型 出了一种新的算法框架解决文本生成问题中动作 训练效果的算法一一混合增量式交叉嫡强化学习 空间过大的难题.作者利用常规的编码-解码模型 (Mixed incremental cross-entropy reinforce),算法的 中的解码器为深度Q网络生成候选动作,这样就 前s步按照以前的文本生成模型进行预训练,优化 大大减少了深度Q网络需要计算的动作数量,从 目标是最小化生成文本和真实文本之间的交叉 上万的词汇空间减小到数十个候选词汇,此算法 嫡,s步之后直接把前面s步训练过的循环神经网 用t时刻输入词汇和输出词汇作为1时刻的状态, 络模型作为深度强化学习的策略网络,优化目标 用度量相似性的评价指标双语评估替换指标 是最大化生成文本的期望奖励.将混合增量式交 (Bilingual evaluation understudy,.BLEU)I作为奖 叉嫡强化学习算法应用到自动摘要、机器翻译和 励.同时作者还尝试使用双向长短期记忆网络作 图像生成描述任务中相较于以前的改进方法在四 为深度Q网络的网络模型.最后本文选取了 元双语评估替换指标(BLEU-4)和基于召回率替换 10000条句子进行编码再解码的训练,让基于深度 的二元主旨评价指标(ROUGE-2)指标上都有不同 Q网络改进的解码器尽量生成和输人编码器一致 程度的提升 的句子,实验结果表明基于深度Q网络改进的解 Rennie等Is网同样针对自然语言任务中的深度 码器生成的句子比长短期记忆网络形式的解码器 生成模型存在暴露误差问题,提出了一种自评价 生成的句子更加顺畅,即平均平滑双语评价替换 序列训练的强化学习算法(Self-critical sequence 指标(Average smoothed BLEU)更高 training,SCST).在上述Ranzato的工作中,为了达 3.2基于策略 到减小策略波动的目的,他们使用线性回归预估 基于策略的方法与文本生成任务结合的方式 出的参考奖励对实际奖励进行归一化操作,作者候选动作指令的词汇量是巨大的并且未知的,候 选动作集合是灵活可变的,对于这些情况一般深 度 Q 网络的做法是每次决策的时候把所有候选动 作和状态组合后输入最大动作‒深度 Q 网络(Max￾action DQN)或者把每一种候选动作分别和状态组 合后输入每个动作‒深度 Q 网络(Per-action DQN). 作者给出了一种改进算法深度强化相关性网络 ( Deep reinforcement relevance network, DRRN) ,不 同于以往的深度 Q 网络算法把状态和动作组合后 输入同一个网络计算状态值函数,深度强化相关 性网络把表示状态的向量和表示动作的向量分别 输入两个深度网络,然后把两个网络的输出通过 点乘结合在一起作为状态值函数. 这样算法就能 够从状态和动作两个方面分别进行理解表征,然 后计算状态和动作之间的关联程度作为网络输 出,训练网络使得长期奖励最大化. 实验结果表明 深度强化相关性网络算法对于给定候选动作的游 戏能够比最大动作‒深度 Q 网络(Max-action DQN) 和每个动作‒深度 Q 网络(Per-action DQN)获得更 多的长期奖励. 上述工作将深度强化学习应用在文本游戏 中,面对的并不是典型的自然语言任务. 由于游戏 中涉及的动作指令词汇一般数量较少或者提前给 定了有限个候选动作指令,而自然语言处理中的 文本生成任务通常会面临巨大的词汇空间,也就 是拥有巨大的动作空间,因此简单移植标准深度 Q 网络算法是行不通的. 针对上述问题 Guo[53] 提 出了一种新的算法框架解决文本生成问题中动作 空间过大的难题. 作者利用常规的编码‒解码模型 中的解码器为深度 Q 网络生成候选动作,这样就 大大减少了深度 Q 网络需要计算的动作数量,从 上万的词汇空间减小到数十个候选词汇. 此算法 用 t 时刻输入词汇和输出词汇作为 t 时刻的状态, 用度量相似性的评价指标双语评估替换指标 ( Bilingual  evaluation  understudy,  BLEU) [54] 作为奖 励. 同时作者还尝试使用双向长短期记忆网络作 为 深 度 Q 网络的网络模型 . 最后本文选取 了 10000 条句子进行编码再解码的训练,让基于深度 Q 网络改进的解码器尽量生成和输入编码器一致 的句子. 实验结果表明基于深度 Q 网络改进的解 码器生成的句子比长短期记忆网络形式的解码器 生成的句子更加顺畅,即平均平滑双语评价替换 指标(Average smoothed BLEU)更高. 3.2    基于策略 基于策略的方法与文本生成任务结合的方式 通常是利用深度网络学习生成词语的策略,即用 网络参数表征词语选择的策略,网络直接输出词 语的标记(Token)而非词语对应的值函数,跳过了 计算值函数的步骤,从根本上解决词汇空间过大 的问题 ,这种方法也称作策略梯度方法( Policy gradient method)或策略网络(Policy network) [55] . Ranzato 等[56] 指出之前的文本生成任务中,训 练模型时给定了文本序列中前面的真实词语和一 些上下文信息,让模型预测接下来的词语,而测试 模型的时候并没有文本序列中的真实词语,只能 依据前面生成的预测词语和上下文信息生成下一 个词语. 一旦前几个词语生成的错误较大,就会导 致错误一直叠加,使整个文本序列产生较大偏差. 神经网络生成模型中的这种问题被称之为暴露误 差问题[57] . 于是作者提出使用强化学习算法直接 优化生成句子任务的评价指标,如双语评估替换 指标或者基于召回率替换的主旨评价标准(Recall￾oriented understudy for gisting evaluation, ROUGE) [58] . 为了使用强化学习算法解决文本序列生成问题, 作者把循环神经网络 RNN 结构的文本生成模型 看作一个代理,它与外部环境进行交互,也就是把 词语和上下文信息作为环境的状态输入到代理 中. 代理的参数表征策略,运行策略就能够进行动 作的选择. 同时作者把测试时候用的双语评估替 换指标和基于召回率替换的二元主旨评价指标 (ROUGE-2)作为训练模型时的奖励,优化目标是 最大化奖励的期望. 本工作还提出一个提高模型 训练效果的算法——混合增量式交叉熵强化学习 (Mixed incremental cross-entropy reinforce),算法的 前 s 步按照以前的文本生成模型进行预训练,优化 目标是最小化生成文本和真实文本之间的交叉 熵,s 步之后直接把前面 s 步训练过的循环神经网 络模型作为深度强化学习的策略网络,优化目标 是最大化生成文本的期望奖励. 将混合增量式交 叉熵强化学习算法应用到自动摘要、机器翻译和 图像生成描述任务中相较于以前的改进方法在四 元双语评估替换指标(BLEU-4)和基于召回率替换 的二元主旨评价指标(ROUGE-2)指标上都有不同 程度的提升. Rennie 等[59] 同样针对自然语言任务中的深度 生成模型存在暴露误差问题,提出了一种自评价 序列训练的强化学习算法 ( Self-critical  sequence training, SCST). 在上述 Ranzato 的工作中,为了达 到减小策略波动的目的,他们使用线性回归预估 出的参考奖励对实际奖励进行归一化操作,作者 · 404 · 工程科学学报,第 42 卷,第 4 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有