候选动作指令的词汇量是巨大的并且未知的，候选动作集合是灵活可变的，对于这

正在加载图片...

404 工程科学学报，第42卷，第4期候选动作指令的词汇量是巨大的并且未知的，候通常是利用深度网络学习生成词语的策略，即用选动作集合是灵活可变的，对于这些情况一般深网络参数表征词语选择的策略，网络直接输出词度Q网络的做法是每次决策的时候把所有候选动语的标记(Token)而非词语对应的值函数，跳过了作和状态组合后输入最大动作-深度Q网络(Max- 计算值函数的步骤，从根本上解决词汇空间过大 action DQN)或者把每一种候选动作分别和状态组的问题，这种方法也称作策略梯度方法(Policy 合后输入每个动作-深度Q网络(Per-action DQN) gradient method)或策略网络(Policy network) 作者给出了一种改进算法深度强化相关性网络 Ranzato等s阿指出之前的文本生成任务中，训 Deep reinforcement relevance network,DRRN), 练模型时给定了文本序列中前面的真实词语和一同于以往的深度O网络算法把状态和动作组合后些上下文信息，让模型预测接下来的词语，而测试输入同一个网络计算状态值函数，深度强化相关模型的时候并没有文本序列中的真实词语，只能性网络把表示状态的向量和表示动作的向量分别依据前面生成的预测词语和上下文信息生成下一输入两个深度网络，然后把两个网络的输出通过个词语.一旦前几个词语生成的错误较大，就会导点乘结合在一起作为状态值函数.这样算法就能致错误一直叠加，使整个文本序列产生较大偏差够从状态和动作两个方面分别进行理解表征，然神经网络生成模型中的这种问题被称之为暴露误后计算状态和动作之间的关联程度作为网络输差问题57于是作者提出使用强化学习算法直接出，训练网络使得长期奖励最大化.实验结果表明优化生成句子任务的评价指标，如双语评估替换深度强化相关性网络算法对于给定候选动作的游指标或者基于召回率替换的主旨评价标准(Recall-- 戏能够比最大动作-深度Q网络(Max-action DQN) oriented understudy for gisting evaluation,ROUGE)Is 和每个动作-深度Q网络(Per-action DQN)获得更为了使用强化学习算法解决文本序列生成问题，多的长期奖励作者把循环神经网络RNN结构的文本生成模型上述工作将深度强化学习应用在文本游戏看作一个代理，它与外部环境进行交互，也就是把中，面对的并不是典型的自然语言任务.由于游戏词语和上下文信息作为环境的状态输入到代理中涉及的动作指令词汇一般数量较少或者提前给中.代理的参数表征策略，运行策略就能够进行动定了有限个候选动作指令，而自然语言处理中的作的选择.同时作者把则试时候用的双语评估替文本生成任务通常会面临巨大的词汇空间，也就换指标和基于召回率替换的二元主旨评价指标是拥有巨大的动作空间，因此简单移植标准深度 (ROUGE-2)作为训练模型时的奖励，优化目标是 Q网络算法是行不通的.针对上述问题Guo51提最大化奖励的期望.本工作还提出一个提高模型出了一种新的算法框架解决文本生成问题中动作训练效果的算法一一混合增量式交叉嫡强化学习空间过大的难题.作者利用常规的编码-解码模型 (Mixed incremental cross-entropy reinforce),算法的中的解码器为深度Q网络生成候选动作，这样就前s步按照以前的文本生成模型进行预训练，优化大大减少了深度Q网络需要计算的动作数量，从目标是最小化生成文本和真实文本之间的交叉上万的词汇空间减小到数十个候选词汇，此算法嫡，s步之后直接把前面s步训练过的循环神经网用t时刻输入词汇和输出词汇作为1时刻的状态，络模型作为深度强化学习的策略网络，优化目标用度量相似性的评价指标双语评估替换指标是最大化生成文本的期望奖励.将混合增量式交 (Bilingual evaluation understudy,.BLEU)I作为奖叉嫡强化学习算法应用到自动摘要、机器翻译和励.同时作者还尝试使用双向长短期记忆网络作图像生成描述任务中相较于以前的改进方法在四为深度Q网络的网络模型.最后本文选取了元双语评估替换指标(BLEU-4)和基于召回率替换 10000条句子进行编码再解码的训练，让基于深度的二元主旨评价指标(ROUGE-2)指标上都有不同 Q网络改进的解码器尽量生成和输人编码器一致程度的提升的句子，实验结果表明基于深度Q网络改进的解 Rennie等Is网同样针对自然语言任务中的深度码器生成的句子比长短期记忆网络形式的解码器生成模型存在暴露误差问题，提出了一种自评价生成的句子更加顺畅，即平均平滑双语评价替换序列训练的强化学习算法(Self-critical sequence 指标(Average smoothed BLEU)更高 training,SCST).在上述Ranzato的工作中，为了达 3.2基于策略到减小策略波动的目的，他们使用线性回归预估基于策略的方法与文本生成任务结合的方式出的参考奖励对实际奖励进行归一化操作，作者候选动作指令的词汇量是巨大的并且未知的，候选动作集合是灵活可变的，对于这些情况一般深度 Q 网络的做法是每次决策的时候把所有候选动作和状态组合后输入最大动作‒深度 Q 网络（Maxaction DQN）或者把每一种候选动作分别和状态组合后输入每个动作‒深度 Q 网络（Per-action DQN）. 作者给出了一种改进算法深度强化相关性网络（ Deep reinforcement relevance network, DRRN），不同于以往的深度 Q 网络算法把状态和动作组合后输入同一个网络计算状态值函数，深度强化相关性网络把表示状态的向量和表示动作的向量分别输入两个深度网络，然后把两个网络的输出通过点乘结合在一起作为状态值函数. 这样算法就能够从状态和动作两个方面分别进行理解表征，然后计算状态和动作之间的关联程度作为网络输出，训练网络使得长期奖励最大化. 实验结果表明深度强化相关性网络算法对于给定候选动作的游戏能够比最大动作‒深度 Q 网络（Max-action DQN）和每个动作‒深度 Q 网络（Per-action DQN）获得更多的长期奖励. 上述工作将深度强化学习应用在文本游戏中，面对的并不是典型的自然语言任务. 由于游戏中涉及的动作指令词汇一般数量较少或者提前给定了有限个候选动作指令，而自然语言处理中的文本生成任务通常会面临巨大的词汇空间，也就是拥有巨大的动作空间，因此简单移植标准深度 Q 网络算法是行不通的. 针对上述问题 Guo[53] 提出了一种新的算法框架解决文本生成问题中动作空间过大的难题. 作者利用常规的编码‒解码模型中的解码器为深度 Q 网络生成候选动作，这样就大大减少了深度 Q 网络需要计算的动作数量，从上万的词汇空间减小到数十个候选词汇. 此算法用 t 时刻输入词汇和输出词汇作为 t 时刻的状态，用度量相似性的评价指标双语评估替换指标（ Bilingual evaluation understudy, BLEU） [54] 作为奖励. 同时作者还尝试使用双向长短期记忆网络作为深度 Q 网络的网络模型 . 最后本文选取了 10000 条句子进行编码再解码的训练，让基于深度 Q 网络改进的解码器尽量生成和输入编码器一致的句子. 实验结果表明基于深度 Q 网络改进的解码器生成的句子比长短期记忆网络形式的解码器生成的句子更加顺畅，即平均平滑双语评价替换指标（Average smoothed BLEU）更高. 3.2 基于策略基于策略的方法与文本生成任务结合的方式通常是利用深度网络学习生成词语的策略，即用网络参数表征词语选择的策略，网络直接输出词语的标记（Token）而非词语对应的值函数，跳过了计算值函数的步骤，从根本上解决词汇空间过大的问题，这种方法也称作策略梯度方法（ Policy gradient method）或策略网络（Policy network） [55] . Ranzato 等[56] 指出之前的文本生成任务中，训练模型时给定了文本序列中前面的真实词语和一些上下文信息，让模型预测接下来的词语，而测试模型的时候并没有文本序列中的真实词语，只能依据前面生成的预测词语和上下文信息生成下一个词语. 一旦前几个词语生成的错误较大，就会导致错误一直叠加，使整个文本序列产生较大偏差. 神经网络生成模型中的这种问题被称之为暴露误差问题[57] . 于是作者提出使用强化学习算法直接优化生成句子任务的评价指标，如双语评估替换指标或者基于召回率替换的主旨评价标准（Recalloriented understudy for gisting evaluation, ROUGE） [58] . 为了使用强化学习算法解决文本序列生成问题，作者把循环神经网络 RNN 结构的文本生成模型看作一个代理，它与外部环境进行交互，也就是把词语和上下文信息作为环境的状态输入到代理中. 代理的参数表征策略，运行策略就能够进行动作的选择. 同时作者把测试时候用的双语评估替换指标和基于召回率替换的二元主旨评价指标（ROUGE-2）作为训练模型时的奖励，优化目标是最大化奖励的期望. 本工作还提出一个提高模型训练效果的算法——混合增量式交叉熵强化学习（Mixed incremental cross-entropy reinforce），算法的前 s 步按照以前的文本生成模型进行预训练，优化目标是最小化生成文本和真实文本之间的交叉熵，s 步之后直接把前面 s 步训练过的循环神经网络模型作为深度强化学习的策略网络，优化目标是最大化生成文本的期望奖励. 将混合增量式交叉熵强化学习算法应用到自动摘要、机器翻译和图像生成描述任务中相较于以前的改进方法在四元双语评估替换指标（BLEU-4）和基于召回率替换的二元主旨评价指标（ROUGE-2）指标上都有不同程度的提升. Rennie 等[59] 同样针对自然语言任务中的深度生成模型存在暴露误差问题，提出了一种自评价序列训练的强化学习算法（ Self-critical sequence training, SCST）. 在上述 Ranzato 的工作中，为了达到减小策略波动的目的，他们使用线性回归预估出的参考奖励对实际奖励进行归一化操作，作者 · 404 · 工程科学学报，第 42 卷，第 4 期

<<向上翻页向下翻页>>

点击下载：文本生成领域的深度强化学习研究进展