正在加载图片...
第1期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·143· 发表长篇大论,而是倾向于用一两句话概括某个 句话对应的隐藏层状态来获取语境对方面词的注 事物的某个方面的好坏,甚至会在同一句话中对 意力权重,从而使得IAN能够重点考虑语境中的 多个方面表达不同的情感态度。因此,方面词情 情感有效项信息。针对训练数据不足的问题, 感分析任务的研究近年来颇受关注。该任务的要 Xu等I提出了半监督序列生成模型(target--ori- 求是,在给定文本以及方面词的情况下,分别对 ented semi-supervised sequential generative model, 这些方面词所承载的情感态度进行分类。例 TSSGM),在减小对训练数据的依赖性的同时能 如,给定“这家店的环境不错,服务周到,但食材 够提升情感分类器的判断精度。 不新鲜”这段文本,并给出“环境”、“服务”、“食 在最近2年里,通过预训练语言模型来增强 材”这3个方面词,算法应当判断出用户对“环境” 模型的语义表示能力成为方面词情感分析任务的 和“服务”的情感态度是正向,而对“食材”持负面 研究热点。取自语言模型的词嵌入I(embeddings 态度。考虑到方面词往往蕴含了用户对产品或服 from language models,ELMo),以及基于trans-. 务的需求,方面词情感分析算法的研究将对细粒 former9的生成式预训练ol(generative pre-.training, 度分析用户潜在需求有着重要意义。 GPT),均是其中的优秀代表。而BERT(bi-direc 与文档级和句子级情感分析任务相比,方面 tional encoder representations from transformers) 词情感分析任务粒度更细、更具挑战。其中一个 提出,则更是里程碑式地刷新了多达11项自然语 棘手的问题是,如何在保留情感有效项信息的同 言处理任务的最高成绩。Karimi等2l在实验中 时,尽可能减小干扰项对情感判断的负面影响。 使用基础BERT模型来完成处理方面词情感分析 例如,“我买过这家的鼠标、电脑和平板,鼠标很 任务,发现其效果已经超过绝大多数普通神经网 快就没用了,至于这个电脑,不好也不坏,平板倒 络模型。Song等I1探索了BERT在方面词情感 是挺结实”,如果要求对方面词电脑”进行情感分 分析任务中的优势,分别提出了用于句对分类的 析,答案理论上应是中立,但一些算法很容易将 BERT(BERT model for sentence pair classifica- 其误判为正向或负向,原因就在于未能有效减小 tion,BERT-SPC)与带有BERT的注意力编码网 “鼠标很快就没用了”和“平板倒是挺结实”对情感 (attentional encoder network with BERT,AEN- 分析的干忧作用。除此以外,语言的丰富性与灵 BERT),在多个数据集上都取得了前沿性的结果。 活性也显著提高了方面词情感分析任务的难度。 尽管现有的模型在方面词情感分析任务上有 一些习语以及复杂句式也会对情感分析的结果产 着不俗的表现,但仍在2个方面存在不足。一方 生不利影响。例如,“I have never had a bad 面,在很多研究工作中,方面词的重要性未能得 meal”,就方面词“meal”而言,情感态度是正向 到充分的重视。Jiang等在Twitter数据集上评 的,但部分模型会根据设计的规则或以往的训练 估了一个情感分类器的效果,结果发现40%的分 经验,因“bad”的存在而给出错误的分类结果。 类错误都缘于没有考虑方面词的指示作用。这说 目前,处理方面词情感分析任务的主流方式 明,如何充分使用方面词提供的位置特征和语义 是通过深度学习方法来赋予模型细粒度的情感分 特征将是影响模型效果的重要因素。另一方面, 析能力。为了避免在神经网络层数较多时出现梯 方面词的情感倾向往往与邻近的形容词、动词等 度消失问题,长短时记忆网络(long short-term 主观性词语关联更大,位置较远的词语很有可能 memory,LSTM成为大多数深度学习模型的基本 成为干扰项。有些算法虽然已经考虑到方面词的 网络结构选择。Tang等在此基础上提出了基 重要价值,但却没有真正把握好如何利用方面词 于目标的长短时记忆网络模型(target dependent 和语境之间的联系,往往只是提取方面词特征和 long short--term memory model,.TD-LSTM),分别通 整个评论的全局语义特征来进行运算,未能有效 过2个独立的双向长短时记忆网络来提取方面词 地消除干扰项的不利影响。 左边语境和右边语境的语义特征,获得了比基础 针对上述不足,本文首次将阅读理解领域提 长短时记忆网络更好的实验结果。而注意力机制 出的AOA(attention-over-attention)与BERT预训练 的引入,则使得深度学习模型能够更好地利用有 模型相结合,提出了含BERT加持的双特征嵌套 效项的语义特征,并弱化情感干扰项的负面影 注意力模型(dual features attention-over-attention 响。Ma等在互动注意力网络模型(interactive with BERT,DFAOA-BERT),借助BERT来获取 attention networks,.IAN)中首次提出了语境特征和 优质的词向量和语义编码,在此基础上计算 方面词特征之间的互动式学习,他们通过池化整 AOA数值,并提取关键语义特征。此外,DFAOA发表长篇大论,而是倾向于用一两句话概括某个 事物的某个方面的好坏,甚至会在同一句话中对 多个方面表达不同的情感态度。因此,方面词情 感分析任务的研究近年来颇受关注。该任务的要 求是,在给定文本以及方面词的情况下,分别对 这些方面词所承载的情感态度进行分类[1-2]。例 如,给定“这家店的环境不错,服务周到,但食材 不新鲜”这段文本,并给出“环境”、“服务”、“食 材”这 3 个方面词,算法应当判断出用户对“环境” 和“服务”的情感态度是正向,而对“食材”持负面 态度。考虑到方面词往往蕴含了用户对产品或服 务的需求,方面词情感分析算法的研究将对细粒 度分析用户潜在需求有着重要意义。 与文档级和句子级情感分析任务相比,方面 词情感分析任务粒度更细、更具挑战。其中一个 棘手的问题是,如何在保留情感有效项信息的同 时,尽可能减小干扰项对情感判断的负面影响。 例如,“我买过这家的鼠标、电脑和平板,鼠标很 快就没用了,至于这个电脑,不好也不坏,平板倒 是挺结实”,如果要求对方面词“电脑”进行情感分 析,答案理论上应是中立,但一些算法很容易将 其误判为正向或负向,原因就在于未能有效减小 “鼠标很快就没用了”和“平板倒是挺结实”对情感 分析的干扰作用。除此以外,语言的丰富性与灵 活性也显著提高了方面词情感分析任务的难度。 一些习语以及复杂句式也会对情感分析的结果产 生不利影响。例如,“I have never had a bad meal”,就方面词“meal”而言,情感态度是正向 的,但部分模型会根据设计的规则或以往的训练 经验,因“bad”的存在而给出错误的分类结果[3]。 目前,处理方面词情感分析任务的主流方式 是通过深度学习方法来赋予模型细粒度的情感分 析能力。为了避免在神经网络层数较多时出现梯 度消失问题,长短时记忆网络[4] (long short-term memory, LSTM) 成为大多数深度学习模型的基本 网络结构选择。Tang 等 [5] 在此基础上提出了基 于目标的长短时记忆网络模型 (target dependent long short-term memory model, TD-LSTM),分别通 过 2 个独立的双向长短时记忆网络来提取方面词 左边语境和右边语境的语义特征,获得了比基础 长短时记忆网络更好的实验结果。而注意力机制 的引入,则使得深度学习模型能够更好地利用有 效项的语义特征,并弱化情感干扰项的负面影 响。Ma 等 [6] 在互动注意力网络模型 (interactive attention networks, IAN) 中首次提出了语境特征和 方面词特征之间的互动式学习,他们通过池化整 句话对应的隐藏层状态来获取语境对方面词的注 意力权重,从而使得 IAN 能够重点考虑语境中的 情感有效项信息。针对训练数据不足的问题, Xu 等 [7] 提出了半监督序列生成模型 (target-ori￾ented semi-supervised sequential generative model, TSSGM),在减小对训练数据的依赖性的同时能 够提升情感分类器的判断精度。 在最近 2 年里,通过预训练语言模型来增强 模型的语义表示能力成为方面词情感分析任务的 研究热点。取自语言模型的词嵌入[8] (embeddings from language models, ELMo),以及基于 trans￾former[9] 的生成式预训练[10] (generative pre-training, GPT),均是其中的优秀代表。而 BERT[11] (bi-direc￾tional encoder representations from transformers) 的 提出,则更是里程碑式地刷新了多达 11 项自然语 言处理任务的最高成绩。Karimi 等 [12] 在实验中 使用基础 BERT 模型来完成处理方面词情感分析 任务,发现其效果已经超过绝大多数普通神经网 络模型。Song 等 [13] 探索了 BERT 在方面词情感 分析任务中的优势,分别提出了用于句对分类的 BERT 模型 (BERT model for sentence pair classifica￾tion,BERT-SPC) 与带有 BERT 的注意力编码网 络 (attentional encoder network with BERT,AEN￾BERT),在多个数据集上都取得了前沿性的结果。 尽管现有的模型在方面词情感分析任务上有 着不俗的表现,但仍在 2 个方面存在不足。一方 面,在很多研究工作中,方面词的重要性未能得 到充分的重视。Jiang 等 [14] 在 Twitter 数据集上评 估了一个情感分类器的效果,结果发现 40% 的分 类错误都缘于没有考虑方面词的指示作用。这说 明,如何充分使用方面词提供的位置特征和语义 特征将是影响模型效果的重要因素。另一方面, 方面词的情感倾向往往与邻近的形容词、动词等 主观性词语关联更大,位置较远的词语很有可能 成为干扰项。有些算法虽然已经考虑到方面词的 重要价值,但却没有真正把握好如何利用方面词 和语境之间的联系,往往只是提取方面词特征和 整个评论的全局语义特征来进行运算,未能有效 地消除干扰项的不利影响。 针对上述不足,本文首次将阅读理解领域提 出的 AOA(attention-over-attention) 与 BERT 预训练 模型相结合,提出了含 BERT 加持的双特征嵌套 注意力模型 (dual features attention-over-attention with BERT,DFAOA-BERT),借助 BERT 来获取 优质的词向量和语义编码,在此基础上计 算 AOA 数值,并提取关键语义特征。此外,DFAOA- 第 1 期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·143·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有