发表长篇大论，而是倾向于用一两句话概括某个事物的某个方面的好坏，甚至会在

正在加载图片...

第1期肖宇晗，等：基于双特征嵌套注意力的方面词情感分析算法 ·143· 发表长篇大论，而是倾向于用一两句话概括某个句话对应的隐藏层状态来获取语境对方面词的注事物的某个方面的好坏，甚至会在同一句话中对意力权重，从而使得IAN能够重点考虑语境中的多个方面表达不同的情感态度。因此，方面词情情感有效项信息。针对训练数据不足的问题，感分析任务的研究近年来颇受关注。该任务的要 Xu等I提出了半监督序列生成模型(target--ori- 求是，在给定文本以及方面词的情况下，分别对 ented semi-supervised sequential generative model, 这些方面词所承载的情感态度进行分类。例 TSSGM),在减小对训练数据的依赖性的同时能如，给定“这家店的环境不错，服务周到，但食材够提升情感分类器的判断精度。不新鲜”这段文本，并给出“环境”、“服务”、“食在最近2年里，通过预训练语言模型来增强材”这3个方面词，算法应当判断出用户对“环境” 模型的语义表示能力成为方面词情感分析任务的和“服务”的情感态度是正向，而对“食材”持负面研究热点。取自语言模型的词嵌入I(embeddings 态度。考虑到方面词往往蕴含了用户对产品或服 from language models,ELMo),以及基于trans-. 务的需求，方面词情感分析算法的研究将对细粒 former9的生成式预训练ol(generative pre-.training, 度分析用户潜在需求有着重要意义。 GPT),均是其中的优秀代表。而BERT(bi-direc 与文档级和句子级情感分析任务相比，方面 tional encoder representations from transformers) 词情感分析任务粒度更细、更具挑战。其中一个提出，则更是里程碑式地刷新了多达11项自然语棘手的问题是，如何在保留情感有效项信息的同言处理任务的最高成绩。Karimi等2l在实验中时，尽可能减小干扰项对情感判断的负面影响。使用基础BERT模型来完成处理方面词情感分析例如，“我买过这家的鼠标、电脑和平板，鼠标很任务，发现其效果已经超过绝大多数普通神经网快就没用了，至于这个电脑，不好也不坏，平板倒络模型。Song等I1探索了BERT在方面词情感是挺结实”，如果要求对方面词电脑”进行情感分分析任务中的优势，分别提出了用于句对分类的析，答案理论上应是中立，但一些算法很容易将 BERT(BERT model for sentence pair classifica- 其误判为正向或负向，原因就在于未能有效减小 tion,BERT-SPC)与带有BERT的注意力编码网 “鼠标很快就没用了”和“平板倒是挺结实”对情感 (attentional encoder network with BERT,AEN- 分析的干忧作用。除此以外，语言的丰富性与灵 BERT),在多个数据集上都取得了前沿性的结果。活性也显著提高了方面词情感分析任务的难度。尽管现有的模型在方面词情感分析任务上有一些习语以及复杂句式也会对情感分析的结果产着不俗的表现，但仍在2个方面存在不足。一方生不利影响。例如，“I have never had a bad 面，在很多研究工作中，方面词的重要性未能得 meal”,就方面词“meal”而言，情感态度是正向到充分的重视。Jiang等在Twitter数据集上评的，但部分模型会根据设计的规则或以往的训练估了一个情感分类器的效果，结果发现40%的分经验，因“bad”的存在而给出错误的分类结果。类错误都缘于没有考虑方面词的指示作用。这说目前，处理方面词情感分析任务的主流方式明，如何充分使用方面词提供的位置特征和语义是通过深度学习方法来赋予模型细粒度的情感分特征将是影响模型效果的重要因素。另一方面，析能力。为了避免在神经网络层数较多时出现梯方面词的情感倾向往往与邻近的形容词、动词等度消失问题，长短时记忆网络(long short-term 主观性词语关联更大，位置较远的词语很有可能 memory,LSTM成为大多数深度学习模型的基本成为干扰项。有些算法虽然已经考虑到方面词的网络结构选择。Tang等在此基础上提出了基重要价值，但却没有真正把握好如何利用方面词于目标的长短时记忆网络模型(target dependent 和语境之间的联系，往往只是提取方面词特征和 long short--term memory model,.TD-LSTM),分别通整个评论的全局语义特征来进行运算，未能有效过2个独立的双向长短时记忆网络来提取方面词地消除干扰项的不利影响。左边语境和右边语境的语义特征，获得了比基础针对上述不足，本文首次将阅读理解领域提长短时记忆网络更好的实验结果。而注意力机制出的AOA(attention-over-attention)与BERT预训练的引入，则使得深度学习模型能够更好地利用有模型相结合，提出了含BERT加持的双特征嵌套效项的语义特征，并弱化情感干扰项的负面影注意力模型(dual features attention-over-attention 响。Ma等在互动注意力网络模型(interactive with BERT,DFAOA-BERT),借助BERT来获取 attention networks,.IAN)中首次提出了语境特征和优质的词向量和语义编码，在此基础上计算方面词特征之间的互动式学习，他们通过池化整 AOA数值，并提取关键语义特征。此外，DFAOA发表长篇大论，而是倾向于用一两句话概括某个事物的某个方面的好坏，甚至会在同一句话中对多个方面表达不同的情感态度。因此，方面词情感分析任务的研究近年来颇受关注。该任务的要求是，在给定文本以及方面词的情况下，分别对这些方面词所承载的情感态度进行分类[1-2]。例如，给定“这家店的环境不错，服务周到，但食材不新鲜”这段文本，并给出“环境”、“服务”、“食材”这 3 个方面词，算法应当判断出用户对“环境” 和“服务”的情感态度是正向，而对“食材”持负面态度。考虑到方面词往往蕴含了用户对产品或服务的需求，方面词情感分析算法的研究将对细粒度分析用户潜在需求有着重要意义。与文档级和句子级情感分析任务相比，方面词情感分析任务粒度更细、更具挑战。其中一个棘手的问题是，如何在保留情感有效项信息的同时，尽可能减小干扰项对情感判断的负面影响。例如，“我买过这家的鼠标、电脑和平板，鼠标很快就没用了，至于这个电脑，不好也不坏，平板倒是挺结实”，如果要求对方面词“电脑”进行情感分析，答案理论上应是中立，但一些算法很容易将其误判为正向或负向，原因就在于未能有效减小 “鼠标很快就没用了”和“平板倒是挺结实”对情感分析的干扰作用。除此以外，语言的丰富性与灵活性也显著提高了方面词情感分析任务的难度。一些习语以及复杂句式也会对情感分析的结果产生不利影响。例如，“I have never had a bad meal”，就方面词“meal”而言，情感态度是正向的，但部分模型会根据设计的规则或以往的训练经验，因“bad”的存在而给出错误的分类结果[3]。目前，处理方面词情感分析任务的主流方式是通过深度学习方法来赋予模型细粒度的情感分析能力。为了避免在神经网络层数较多时出现梯度消失问题，长短时记忆网络[4] (long short-term memory, LSTM) 成为大多数深度学习模型的基本网络结构选择。Tang 等 [5] 在此基础上提出了基于目标的长短时记忆网络模型 (target dependent long short-term memory model, TD-LSTM)，分别通过 2 个独立的双向长短时记忆网络来提取方面词左边语境和右边语境的语义特征，获得了比基础长短时记忆网络更好的实验结果。而注意力机制的引入，则使得深度学习模型能够更好地利用有效项的语义特征，并弱化情感干扰项的负面影响。Ma 等 [6] 在互动注意力网络模型 (interactive attention networks, IAN) 中首次提出了语境特征和方面词特征之间的互动式学习，他们通过池化整句话对应的隐藏层状态来获取语境对方面词的注意力权重，从而使得 IAN 能够重点考虑语境中的情感有效项信息。针对训练数据不足的问题， Xu 等 [7] 提出了半监督序列生成模型 (target-oriented semi-supervised sequential generative model, TSSGM)，在减小对训练数据的依赖性的同时能够提升情感分类器的判断精度。在最近 2 年里，通过预训练语言模型来增强模型的语义表示能力成为方面词情感分析任务的研究热点。取自语言模型的词嵌入[8] (embeddings from language models, ELMo)，以及基于 transformer[9] 的生成式预训练[10] (generative pre-training, GPT)，均是其中的优秀代表。而 BERT[11] (bi-directional encoder representations from transformers) 的提出，则更是里程碑式地刷新了多达 11 项自然语言处理任务的最高成绩。Karimi 等 [12] 在实验中使用基础 BERT 模型来完成处理方面词情感分析任务，发现其效果已经超过绝大多数普通神经网络模型。Song 等 [13] 探索了 BERT 在方面词情感分析任务中的优势，分别提出了用于句对分类的 BERT 模型 (BERT model for sentence pair classification，BERT-SPC) 与带有 BERT 的注意力编码网络 (attentional encoder network with BERT，AENBERT)，在多个数据集上都取得了前沿性的结果。尽管现有的模型在方面词情感分析任务上有着不俗的表现，但仍在 2 个方面存在不足。一方面，在很多研究工作中，方面词的重要性未能得到充分的重视。Jiang 等 [14] 在 Twitter 数据集上评估了一个情感分类器的效果，结果发现 40% 的分类错误都缘于没有考虑方面词的指示作用。这说明，如何充分使用方面词提供的位置特征和语义特征将是影响模型效果的重要因素。另一方面，方面词的情感倾向往往与邻近的形容词、动词等主观性词语关联更大，位置较远的词语很有可能成为干扰项。有些算法虽然已经考虑到方面词的重要价值，但却没有真正把握好如何利用方面词和语境之间的联系，往往只是提取方面词特征和整个评论的全局语义特征来进行运算，未能有效地消除干扰项的不利影响。针对上述不足，本文首次将阅读理解领域提出的 AOA(attention-over-attention) 与 BERT 预训练模型相结合，提出了含 BERT 加持的双特征嵌套注意力模型 (dual features attention-over-attention with BERT，DFAOA-BERT)，借助 BERT 来获取优质的词向量和语义编码，在此基础上计算 AOA 数值，并提取关键语义特征。此外，DFAOA- 第 1 期肖宇晗，等：基于双特征嵌套注意力的方面词情感分析算法 ·143·

<<向上翻页向下翻页>>

点击下载：【人工智能】基于双特征嵌套注意力的方面词情感分析算法