第16卷第1期 智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0L:10.11992tis.202012024 基于双特征嵌套注意力的方面词情感分析算法 肖宇晗,林慧苹,汪权彬2,谭营 (1.北京大学软件与微电子学院,北京102600:2.北京大学信息科学技术学院,北京100871) 摘要:针对目前方面词情感分析方法忽视了以方面词为核心的局部特征的重要性,并难以有效减小情感干扰 项的负面噪声的问题,本文提出了一种带有基于变换器的双向编码器表示技术(bi-directional encoder representa- tions from transformers,.BERT)加持的双特征嵌套注意力模型(dual features attention-over-attention with BERT】 DFAOA-BERT),首次将AOA(attention-over-attention)与BERT预训练模型结合,并设计了全局与局部特征提取 器,能够充分捕捉方面词和语境的有效语义关联。实验结果表明:DFAOA-BERT在SemEval2014任务4中的 餐馆评论、笔记本评论和ACL-l4 Twitter社交评论这3个公开数据集上均表现优异,而子模块的有效性实验, 也充分证明了DFAOA-BERT各个部分的设计合理性。 关键词:情感分析;方面词;嵌套注意力;BERT预训练模型;全局特征;局部特征;深度学习;机器学习 中图分类号:TP391文献标志码:A文章编号:1673-4785(2021)01-0142-10 中文引用格式:肖宇哈,林慧苹,汪权彬,等.基于双特征嵌套注意力的方面词情感分析算法.智能系统学报,2021,16(1): 142-151. 英文引用格式:XIAO Yuhan,,LIN Huiping,WANG Quanbin,,et al An algorithm for aspect-.based sentiment analysis based on dual features attention-over-attentionJl.CAAI transactions on intelligent systems,2021,16(1):142-151. An algorithm for aspect-based sentiment analysis based on dual features attention-over-attention XIAO Yuhan',LIN Huiping',WANG Quanbin',TAN Ying (1.School of Software and Microelectronics,Peking University,Beijing 102600,China;2.School of Electronics Engineering and Computer Science,Peking University,Beijing 100871,China) Abstract:Aspect-based sentiment analysis is of great significance to making full use of product reviews to analyze po- tential user needs.The current research work still has deficiencies.Many studies ignore the importance of local features centered on aspects and fail to handle emotional disturbances effectively.To address these problems,this article pro- poses a dual features attention-over-attention model with BERT(DFAOA-BERT).For the first time,an AOA(attention- over-attention)mechanism is combined with the BERT pretrained model.DFAOA-BERT also designs global and local feature extractors to fully capture an effective semantic association between aspects and context.According to the exper- imental results,DFAOA-BERT performs well on three public datasets:restaurant and laptop review datasets from Se- mEval 2014 Task 4 and the ACL-14 Twitter social review dataset.The effectiveness experiment of submodules also fully proves that each part of DFAOA-BERT makes a significant contribution to the excellent performance. Keywords:sentiment analysis;aspect;attention-over-attention;BERT pretrained model;global feature;local feature; deep learning;machine learning 随着互联网的迅速发展,人们越来越倾向于在网络上发表自己对商品或服务的看法。提取评 论所蕴含的情感态度与需求,有利于商家深入分 收稿日期:2020-12-15. 基金项目:国家重点研发计划项目(2018AAA0102301 析用户的潜在需求,判断市场走向,改进产品或 2018AAA0100302,2018YFB1702900):国家自然科学 基金项目(62076010). 服务设计。 通信作者:谭营.E-mail:ytan@pku.edu.cn. 值得注意的是,人们在进行评论时,一般不会
DOI: 10.11992/tis.202012024 基于双特征嵌套注意力的方面词情感分析算法 肖宇晗1 ,林慧苹1 ,汪权彬2 ,谭营2 (1. 北京大学 软件与微电子学院,北京 102600; 2. 北京大学 信息科学技术学院,北京 100871) 摘 要:针对目前方面词情感分析方法忽视了以方面词为核心的局部特征的重要性,并难以有效减小情感干扰 项的负面噪声的问题,本文提出了一种带有基于变换器的双向编码器表示技术(bi-directional encoder representations from transformers,BERT)加持的双特征嵌套注意力模型 (dual features attention-over-attention with BERT, DFAOA-BERT),首次将 AOA(attention-over-attention) 与 BERT 预训练模型结合,并设计了全局与局部特征提取 器,能够充分捕捉方面词和语境的有效语义关联。实验结果表明:DFAOA-BERT 在 SemEval 2014 任务 4 中的 餐馆评论、笔记本评论和 ACL-14 Twitter 社交评论这 3 个公开数据集上均表现优异,而子模块的有效性实验, 也充分证明了 DFAOA-BERT 各个部分的设计合理性。 关键词:情感分析;方面词;嵌套注意力;BERT 预训练模型;全局特征;局部特征;深度学习;机器学习 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)01−0142−10 中文引用格式:肖宇晗, 林慧苹, 汪权彬, 等. 基于双特征嵌套注意力的方面词情感分析算法 [J]. 智能系统学报, 2021, 16(1): 142–151. 英文引用格式:XIAO Yuhan, LIN Huiping, WANG Quanbin, et al. An algorithm for aspect-based sentiment analysis based on dual features attention-over-attention[J]. CAAI transactions on intelligent systems, 2021, 16(1): 142–151. An algorithm for aspect-based sentiment analysis based on dual features attention-over-attention XIAO Yuhan1 ,LIN Huiping1 ,WANG Quanbin2 ,TAN Ying2 (1. School of Software and Microelectronics, Peking University, Beijing 102600, China; 2. School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China) Abstract: Aspect-based sentiment analysis is of great significance to making full use of product reviews to analyze potential user needs. The current research work still has deficiencies. Many studies ignore the importance of local features centered on aspects and fail to handle emotional disturbances effectively. To address these problems, this article proposes a dual features attention-over-attention model with BERT (DFAOA-BERT). For the first time, an AOA (attentionover-attention) mechanism is combined with the BERT pretrained model. DFAOA-BERT also designs global and local feature extractors to fully capture an effective semantic association between aspects and context. According to the experimental results, DFAOA-BERT performs well on three public datasets: restaurant and laptop review datasets from SemEval 2014 Task 4 and the ACL-14 Twitter social review dataset. The effectiveness experiment of submodules also fully proves that each part of DFAOA-BERT makes a significant contribution to the excellent performance. Keywords: sentiment analysis; aspect; attention-over-attention; BERT pretrained model; global feature; local feature; deep learning; machine learning 随着互联网的迅速发展,人们越来越倾向于 在网络上发表自己对商品或服务的看法。提取评 论所蕴含的情感态度与需求,有利于商家深入分 析用户的潜在需求,判断市场走向,改进产品或 服务设计。 值得注意的是,人们在进行评论时,一般不会 收稿日期:2020−12−15. 基金项目:国家重点研发计划项 目 (2018AAA0102301, 2018AAA0100302, 2018YFB1702900);国家自然科学 基金项目 (62076010). 通信作者:谭营. E-mail:ytan@pku.edu.cn. 第 16 卷第 1 期 智 能 系 统 学 报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021
第1期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·143· 发表长篇大论,而是倾向于用一两句话概括某个 句话对应的隐藏层状态来获取语境对方面词的注 事物的某个方面的好坏,甚至会在同一句话中对 意力权重,从而使得IAN能够重点考虑语境中的 多个方面表达不同的情感态度。因此,方面词情 情感有效项信息。针对训练数据不足的问题, 感分析任务的研究近年来颇受关注。该任务的要 Xu等I提出了半监督序列生成模型(target--ori- 求是,在给定文本以及方面词的情况下,分别对 ented semi-supervised sequential generative model, 这些方面词所承载的情感态度进行分类。例 TSSGM),在减小对训练数据的依赖性的同时能 如,给定“这家店的环境不错,服务周到,但食材 够提升情感分类器的判断精度。 不新鲜”这段文本,并给出“环境”、“服务”、“食 在最近2年里,通过预训练语言模型来增强 材”这3个方面词,算法应当判断出用户对“环境” 模型的语义表示能力成为方面词情感分析任务的 和“服务”的情感态度是正向,而对“食材”持负面 研究热点。取自语言模型的词嵌入I(embeddings 态度。考虑到方面词往往蕴含了用户对产品或服 from language models,ELMo),以及基于trans-. 务的需求,方面词情感分析算法的研究将对细粒 former9的生成式预训练ol(generative pre-.training, 度分析用户潜在需求有着重要意义。 GPT),均是其中的优秀代表。而BERT(bi-direc 与文档级和句子级情感分析任务相比,方面 tional encoder representations from transformers) 词情感分析任务粒度更细、更具挑战。其中一个 提出,则更是里程碑式地刷新了多达11项自然语 棘手的问题是,如何在保留情感有效项信息的同 言处理任务的最高成绩。Karimi等2l在实验中 时,尽可能减小干扰项对情感判断的负面影响。 使用基础BERT模型来完成处理方面词情感分析 例如,“我买过这家的鼠标、电脑和平板,鼠标很 任务,发现其效果已经超过绝大多数普通神经网 快就没用了,至于这个电脑,不好也不坏,平板倒 络模型。Song等I1探索了BERT在方面词情感 是挺结实”,如果要求对方面词电脑”进行情感分 分析任务中的优势,分别提出了用于句对分类的 析,答案理论上应是中立,但一些算法很容易将 BERT(BERT model for sentence pair classifica- 其误判为正向或负向,原因就在于未能有效减小 tion,BERT-SPC)与带有BERT的注意力编码网 “鼠标很快就没用了”和“平板倒是挺结实”对情感 (attentional encoder network with BERT,AEN- 分析的干忧作用。除此以外,语言的丰富性与灵 BERT),在多个数据集上都取得了前沿性的结果。 活性也显著提高了方面词情感分析任务的难度。 尽管现有的模型在方面词情感分析任务上有 一些习语以及复杂句式也会对情感分析的结果产 着不俗的表现,但仍在2个方面存在不足。一方 生不利影响。例如,“I have never had a bad 面,在很多研究工作中,方面词的重要性未能得 meal”,就方面词“meal”而言,情感态度是正向 到充分的重视。Jiang等在Twitter数据集上评 的,但部分模型会根据设计的规则或以往的训练 估了一个情感分类器的效果,结果发现40%的分 经验,因“bad”的存在而给出错误的分类结果。 类错误都缘于没有考虑方面词的指示作用。这说 目前,处理方面词情感分析任务的主流方式 明,如何充分使用方面词提供的位置特征和语义 是通过深度学习方法来赋予模型细粒度的情感分 特征将是影响模型效果的重要因素。另一方面, 析能力。为了避免在神经网络层数较多时出现梯 方面词的情感倾向往往与邻近的形容词、动词等 度消失问题,长短时记忆网络(long short-term 主观性词语关联更大,位置较远的词语很有可能 memory,LSTM成为大多数深度学习模型的基本 成为干扰项。有些算法虽然已经考虑到方面词的 网络结构选择。Tang等在此基础上提出了基 重要价值,但却没有真正把握好如何利用方面词 于目标的长短时记忆网络模型(target dependent 和语境之间的联系,往往只是提取方面词特征和 long short--term memory model,.TD-LSTM),分别通 整个评论的全局语义特征来进行运算,未能有效 过2个独立的双向长短时记忆网络来提取方面词 地消除干扰项的不利影响。 左边语境和右边语境的语义特征,获得了比基础 针对上述不足,本文首次将阅读理解领域提 长短时记忆网络更好的实验结果。而注意力机制 出的AOA(attention-over-attention)与BERT预训练 的引入,则使得深度学习模型能够更好地利用有 模型相结合,提出了含BERT加持的双特征嵌套 效项的语义特征,并弱化情感干扰项的负面影 注意力模型(dual features attention-over-attention 响。Ma等在互动注意力网络模型(interactive with BERT,DFAOA-BERT),借助BERT来获取 attention networks,.IAN)中首次提出了语境特征和 优质的词向量和语义编码,在此基础上计算 方面词特征之间的互动式学习,他们通过池化整 AOA数值,并提取关键语义特征。此外,DFAOA
发表长篇大论,而是倾向于用一两句话概括某个 事物的某个方面的好坏,甚至会在同一句话中对 多个方面表达不同的情感态度。因此,方面词情 感分析任务的研究近年来颇受关注。该任务的要 求是,在给定文本以及方面词的情况下,分别对 这些方面词所承载的情感态度进行分类[1-2]。例 如,给定“这家店的环境不错,服务周到,但食材 不新鲜”这段文本,并给出“环境”、“服务”、“食 材”这 3 个方面词,算法应当判断出用户对“环境” 和“服务”的情感态度是正向,而对“食材”持负面 态度。考虑到方面词往往蕴含了用户对产品或服 务的需求,方面词情感分析算法的研究将对细粒 度分析用户潜在需求有着重要意义。 与文档级和句子级情感分析任务相比,方面 词情感分析任务粒度更细、更具挑战。其中一个 棘手的问题是,如何在保留情感有效项信息的同 时,尽可能减小干扰项对情感判断的负面影响。 例如,“我买过这家的鼠标、电脑和平板,鼠标很 快就没用了,至于这个电脑,不好也不坏,平板倒 是挺结实”,如果要求对方面词“电脑”进行情感分 析,答案理论上应是中立,但一些算法很容易将 其误判为正向或负向,原因就在于未能有效减小 “鼠标很快就没用了”和“平板倒是挺结实”对情感 分析的干扰作用。除此以外,语言的丰富性与灵 活性也显著提高了方面词情感分析任务的难度。 一些习语以及复杂句式也会对情感分析的结果产 生不利影响。例如,“I have never had a bad meal”,就方面词“meal”而言,情感态度是正向 的,但部分模型会根据设计的规则或以往的训练 经验,因“bad”的存在而给出错误的分类结果[3]。 目前,处理方面词情感分析任务的主流方式 是通过深度学习方法来赋予模型细粒度的情感分 析能力。为了避免在神经网络层数较多时出现梯 度消失问题,长短时记忆网络[4] (long short-term memory, LSTM) 成为大多数深度学习模型的基本 网络结构选择。Tang 等 [5] 在此基础上提出了基 于目标的长短时记忆网络模型 (target dependent long short-term memory model, TD-LSTM),分别通 过 2 个独立的双向长短时记忆网络来提取方面词 左边语境和右边语境的语义特征,获得了比基础 长短时记忆网络更好的实验结果。而注意力机制 的引入,则使得深度学习模型能够更好地利用有 效项的语义特征,并弱化情感干扰项的负面影 响。Ma 等 [6] 在互动注意力网络模型 (interactive attention networks, IAN) 中首次提出了语境特征和 方面词特征之间的互动式学习,他们通过池化整 句话对应的隐藏层状态来获取语境对方面词的注 意力权重,从而使得 IAN 能够重点考虑语境中的 情感有效项信息。针对训练数据不足的问题, Xu 等 [7] 提出了半监督序列生成模型 (target-oriented semi-supervised sequential generative model, TSSGM),在减小对训练数据的依赖性的同时能 够提升情感分类器的判断精度。 在最近 2 年里,通过预训练语言模型来增强 模型的语义表示能力成为方面词情感分析任务的 研究热点。取自语言模型的词嵌入[8] (embeddings from language models, ELMo),以及基于 transformer[9] 的生成式预训练[10] (generative pre-training, GPT),均是其中的优秀代表。而 BERT[11] (bi-directional encoder representations from transformers) 的 提出,则更是里程碑式地刷新了多达 11 项自然语 言处理任务的最高成绩。Karimi 等 [12] 在实验中 使用基础 BERT 模型来完成处理方面词情感分析 任务,发现其效果已经超过绝大多数普通神经网 络模型。Song 等 [13] 探索了 BERT 在方面词情感 分析任务中的优势,分别提出了用于句对分类的 BERT 模型 (BERT model for sentence pair classification,BERT-SPC) 与带有 BERT 的注意力编码网 络 (attentional encoder network with BERT,AENBERT),在多个数据集上都取得了前沿性的结果。 尽管现有的模型在方面词情感分析任务上有 着不俗的表现,但仍在 2 个方面存在不足。一方 面,在很多研究工作中,方面词的重要性未能得 到充分的重视。Jiang 等 [14] 在 Twitter 数据集上评 估了一个情感分类器的效果,结果发现 40% 的分 类错误都缘于没有考虑方面词的指示作用。这说 明,如何充分使用方面词提供的位置特征和语义 特征将是影响模型效果的重要因素。另一方面, 方面词的情感倾向往往与邻近的形容词、动词等 主观性词语关联更大,位置较远的词语很有可能 成为干扰项。有些算法虽然已经考虑到方面词的 重要价值,但却没有真正把握好如何利用方面词 和语境之间的联系,往往只是提取方面词特征和 整个评论的全局语义特征来进行运算,未能有效 地消除干扰项的不利影响。 针对上述不足,本文首次将阅读理解领域提 出的 AOA(attention-over-attention) 与 BERT 预训练 模型相结合,提出了含 BERT 加持的双特征嵌套 注意力模型 (dual features attention-over-attention with BERT,DFAOA-BERT),借助 BERT 来获取 优质的词向量和语义编码,在此基础上计 算 AOA 数值,并提取关键语义特征。此外,DFAOA- 第 1 期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·143·
·144- 智能系统学报 第16卷 BERT还分别设计了全局和局部特征提取器,使 y=aBT (5) 得模型既能获得全面的语义信息,还能有效减小 情感干扰项的负面作用。实验证明,DFAOA 2本文模型 BERT在3个公开数据集上均取得了优异的成 给定包含方面词的语境序列W={w,W2,…, 绩,而在主实验基础上进行的子模块有效性实 wn}和方面词序列W={w,wW,…,Wn},DFAOA- 验,也充分证明了模型主要组成部分的设计合 BERT模型将输出方面词对应的情感分类结果, 理性。 且分类结果是负面、中立、正面中的一个。整体 1AOA注意力机制 模型结构如图1所示。宏观上可以分为4个部 分:输入层、局部特征提取器、全局特征提取器以 AOA机制由Cui等1提出,用于处理阅读理 及分类层。而局部特征提取器和全局特征提取器 解领域中的完形填空问题。它将完形填空任务转 可以细分为3个子模块:词嵌人层、编码层、注意 换为问答任务,把每个填空的候选项看作对文档 力机制。这2个提取器的设计要点都是以 的查询(query),并设计了一套算法,计算查询对 AOA为核心的注意力机制部分,最大的不同在于 文档的注意力数值以及文档对查询的注意力数 局部特征提取器中额外添加了语境动态加权模 值,将计算获得的双向注意力结果视为最终语义 块,词嵌入层和编码层的计算方式则基本相同。 匹配特征,在此基础上为每个候选项进行打分和 模型的介绍将围绕输入层、词嵌入层、编码 排序。 层、注意力机制模块以及分类层这5个部分展开。 Huang等)则对阅读理解领域的AOA进行 2.1输入层 了调整,将其应用到方面词情感分析任务中。方 对于局部特征提取器而言,输人序列就是包 面词被视为查询,方面词邻近的语境被看作是待 含方面词的语境序列以及方面词序列本身。全局 查询的文档,通过计算方面词和语境之间的双向 特征提取器的输入序列则有所不同,其语境序列 注意力数值来获得语义匹配特征,最终将产生的 需要经过特殊处理。受BERT-SPC模型)启发, 结果输入到情感分类层中。实验结果表明, 为了充分发挥BERT在本任务中的作用,全局特 AOA在方面词情感分析任务中有着优秀的表现, 征提取器将原语境序列处理成“[CLS]+原语境 能够帮助深度学习模型更为充分地利用方面词本 序列+[SEP]+方面词序列+[SEP]”的形式。其 身提供的信息以及它和语境之间的语义关联。 中,“[CLS]”和“[SEP]”是BERT使用的2种标记 设AOA的输入为方面词的语义编码h。和语 符号,前者是特殊分类向量标记符,聚集了分类 境的语义编码hc,其中,h。∈Rm,he∈R,m是方 相关的信息,后者是分隔符,在输入多个序列时 面词序列的长度(单词数),n是语境序列的长度, 用于分隔不同序列。将原语境序列处理成这种特 d是语义编码的维数。计算AOA数值的第1步 殊形式其实是将原格式转化成了BERT在处理文 是获取两者的语义联系矩阵M: 本分类任务时所要求的输入格式,从而充分发挥 M=hcht (1) 式中M∈Rm,M中第i行j列的元素表示语境序 BERT的效果。对于方面词序列,全局特征提取 列中第i个词和方面词序列中第j个词的语义匹 器与局部特征提取器的处理方式相同。 配分数。 2.2词嵌入层 接着,对M的列进行softmax操作,获得方面 DFAOA-BERT模型在该部分将单词一一映 词对语境的注意力数值a;对M的行进行softmax 射到低维向量空间中,映射方式选用BERT词嵌 入。与GloVe I6不同的是,BERT提供的是一个 操作,获得语境对方面词的注意力数值B。 exp(Mi 语义理解模型,而GloVe提供的只是一个词嵌入 ∑epM (2) 矩阵。 设GloVe提供的矩阵为M,则M∈RM,其 exp(Mi β= (3) 中,d。是词嵌入的维数,Ⅵ表示单词的总数,通过 ∑,exp(M) 矩阵M,可将任意单词w:映射成维数为d。的向 对B按列计算平均值获得B∈Rm,最后的 量。而BERT词嵌人层则是一个基于序列到序列 AOA注意力数值y∈R"则由a与B点乘得到: 技术的预训练语义理解模型,其参数并不是像 B)=- (4) GloVe这样固定不变的。因此,使用一个 BERT词嵌入层来获取局部特征提取器输入序列
BERT 还分别设计了全局和局部特征提取器,使 得模型既能获得全面的语义信息,还能有效减小 情感干扰项的负面作用。实验证明,DFAOABERT 在 3 个公开数据集上均取得了优异的成 绩,而在主实验基础上进行的子模块有效性实 验,也充分证明了模型主要组成部分的设计合 理性。 1 AOA 注意力机制 AOA 机制由 Cui 等 [15] 提出,用于处理阅读理 解领域中的完形填空问题。它将完形填空任务转 换为问答任务,把每个填空的候选项看作对文档 的查询 (query),并设计了一套算法,计算查询对 文档的注意力数值以及文档对查询的注意力数 值,将计算获得的双向注意力结果视为最终语义 匹配特征,在此基础上为每个候选项进行打分和 排序。 Huang 等 [3] 则对阅读理解领域的 AOA 进行 了调整,将其应用到方面词情感分析任务中。方 面词被视为查询,方面词邻近的语境被看作是待 查询的文档,通过计算方面词和语境之间的双向 注意力数值来获得语义匹配特征,最终将产生的 结果输入到情感分类层中。实验结果表明, AOA 在方面词情感分析任务中有着优秀的表现, 能够帮助深度学习模型更为充分地利用方面词本 身提供的信息以及它和语境之间的语义关联。 ha hc ha ∈ R md hc ∈ R nd m n d M 设 AOA 的输入为方面词的语义编码 和语 境的语义编码 ,其中, , , 是方 面词序列的长度 (单词数), 是语境序列的长度, 是语义编码的维数。计算 AOA 数值的第 1 步 是获取两者的语义联系矩阵 : M = hch T a (1) M ∈ R nm M i j i j 式中 , 中第 行 列的元素表示语境序 列中第 个词和方面词序列中第 个词的语义匹 配分数。 M softmax α M softmax β 接着,对 的列进行 操作,获得方面 词对语境的注意力数值 ;对 的行进行 操作,获得语境对方面词的注意力数值 。 αi j = exp( Mi j) ∑ i exp (Mi j) (2) βi j = exp( Mi j) ∑ j exp( Mi j) (3) β β¯ ∈ R m γ ∈ R n α β¯ 对 按列计算平均值获得 ,最后的 AOA 注意力数值 则由 与 点乘得到: β¯ j = 1 n ∑ i βi j (4) γ = αβ¯T (5) 2 本文模型 W = {w1,w2,··· , wn} Wt = {w t 1 ,w t 2 ,··· ,w t m } 给定包含方面词的语境序列 和方面词序列 , DFAOABERT 模型将输出方面词对应的情感分类结果, 且分类结果是负面、中立、正面中的一个。整体 模型结构如图 1 所示。宏观上可以分为 4 个部 分:输入层、局部特征提取器、全局特征提取器以 及分类层。而局部特征提取器和全局特征提取器 可以细分为 3 个子模块:词嵌入层、编码层、注意 力机制。 这 2 个提取器的设计要点都是 以 AOA 为核心的注意力机制部分,最大的不同在于 局部特征提取器中额外添加了语境动态加权模 块,词嵌入层和编码层的计算方式则基本相同。 模型的介绍将围绕输入层、词嵌入层、编码 层、注意力机制模块以及分类层这 5 个部分展开。 2.1 输入层 对于局部特征提取器而言,输入序列就是包 含方面词的语境序列以及方面词序列本身。全局 特征提取器的输入序列则有所不同,其语境序列 需要经过特殊处理。受 BERT-SPC 模型[13] 启发, 为了充分发挥 BERT 在本任务中的作用,全局特 征提取器将原语境序列处理成“[CLS] + 原语境 序列 + [SEP] + 方面词序列 + [SEP]”的形式。其 中,“[CLS]”和“[SEP]”是 BERT 使用的 2 种标记 符号,前者是特殊分类向量标记符,聚集了分类 相关的信息,后者是分隔符,在输入多个序列时 用于分隔不同序列。将原语境序列处理成这种特 殊形式其实是将原格式转化成了 BERT 在处理文 本分类任务时所要求的输入格式,从而充分发挥 BERT 的效果。对于方面词序列,全局特征提取 器与局部特征提取器的处理方式相同。 2.2 词嵌入层 DFAOA-BERT 模型在该部分将单词一一映 射到低维向量空间中,映射方式选用 BERT 词嵌 入。与 GloVe [16] 不同的是,BERT 提供的是一个 语义理解模型,而 GloVe 提供的只是一个词嵌入 矩阵。 M M ∈ R de×|V| de |V| M wi de 设 GloVe 提供的矩阵为 ,则 ,其 中, 是词嵌入的维数, 表示单词的总数,通过 矩阵 ,可将任意单词 映射成维数为 的向 量。而 BERT 词嵌入层则是一个基于序列到序列 技术[4] 的预训练语义理解模型,其参数并不是像 GloV e 这样固定不变的。因此,使用一 个 BERT 词嵌入层来获取局部特征提取器输入序列 ·144· 智 能 系 统 学 报 第 16 卷
第1期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·145· 与全局特征提取器序列的词嵌入,和使用2个互 同。本模型中采用2个独立的BERT词嵌入层, 相独立的BERT词嵌入层所产生的结果不完全相 原因在于该选择会小幅度提升算法的训练效果。 情感分类结果 线性分类网络 分类层 局部语义特征 全局语义特征 嵌套注意力机制 : (AOA) 嵌套注意力机制 注意力机制 (AOA) 语境动态加权模块 MHSA编码器 MHSA编码器 编码层 888 词嵌入层 局部特征提取器 全局特征提取器 局部特征提取器输入序列 全局特征提取器输入序列 输人层 图1 DFAOA-BERT模型结构 Fig.1 Structure of DFAOA-BERT model 2.3编码层 Q=XW四 (6) 本层的任务是将输入序列对应的词嵌入编 K=X.W (7) V=X.W 码成含有丰富语义信息的向量。词嵌入本身包 (8) 含的信息较为基础,基于循环神经网络的模型一 SDA(X)=Softmax QKT (9) 般使用长短时记忆网络来对词嵌入进行编码, 式中:W9、W、W均为权重矩阵;W9∈R4×d,; DFAOA-BERT则使用MHSA(multi-head self-at- W*∈R4×d:;WeR4×d。这3个矩阵中的权重属 tention)提取语义特征。MHSA的主要思想是通 过多个注意力函数来对每个单词计算注意力数 于模型的可训练参数。dg、d、d,是矩阵维度,三 值,将这多个注意力数值拼接在一起后进行激活 者的值都为d/h,其中,d是隐藏层维数,h是多 函数运算,其结果即为输人序列的语义表示。 头自注意力机制中的头数。根据每个注意力头 MHSA中的自注意力机制函数可以选用不同的 的SDA计算结果,可得到整个MHSA的输出O: 设计,DFAOA-BERT使用的是SDA(scaled dot SDA=SDAo⊕SDA1⊕·⊕SDAh-1 (10) product attention),相较于其他自注意力机制而 O-Tanh(SDAWMHSA) (11) 言,其优点在于既可以保证编码效果,又能够有 式中:⊕表示向量的拼接操作;WMsA是一个向量 效提高计算的效率。 矩阵;WMHSA E Rhd,×da:Tanh为激活函数。 令词嵌入层的输出为X,SDA的计算方式为 通过以上步骤,MHSA将基础的词嵌入编码
与全局特征提取器序列的词嵌入,和使用 2 个互 相独立的 BERT 词嵌入层所产生的结果不完全相 同。本模型中采用 2 个独立的 BERT 词嵌入层, 原因在于该选择会小幅度提升算法的训练效果。 情感分类结果 线性分类网络 嵌套注意力机制 (AOA) 嵌套注意力机制 (AOA) 语境动态加权模块 MHSA 编码器 MHSA 编码器 ... e1 L 局部特征提取器 全局特征提取器 局部特征提取器输入序列 全局特征提取器输入序列 输入层 词嵌入层 编码层 注意力机制 L e2 L en ... e1 G Ge2 G en 分类层 全局语义特征 局部语义特征 图 1 DFAOA-BERT 模型结构 Fig. 1 Structure of DFAOA-BERT model 2.3 编码层 本层的任务是将输入序列对应的词嵌入编 码成含有丰富语义信息的向量。词嵌入本身包 含的信息较为基础,基于循环神经网络的模型一 般使用长短时记忆网络来对词嵌入进行编码, DFAOA-BERT 则使用 MHSA[9] (multi-head self-attention) 提取语义特征。MHSA 的主要思想是通 过多个注意力函数来对每个单词计算注意力数 值,将这多个注意力数值拼接在一起后进行激活 函数运算,其结果即为输入序列的语义表示。 MHSA 中的自注意力机制函数可以选用不同的 设计,DFAOA-BERT 使用的是 SDA(scaled dot product attention),相较于其他自注意力机制而 言,其优点在于既可以保证编码效果,又能够有 效提高计算的效率。 令词嵌入层的输出为 Xe,SDA 的计算方式为 Q = XeWq (6) K = XeWk (7) V = XeWv (8) SDA(Xe) = Softmax( QKT √ dk ) V (9) Wq Wk Wv Wq ∈ R dh ×dq Wk ∈ R dh ×dk Wv ∈ R dh ×dv dq dk dv dh/h dh h O e 式中: 、 、 均为权重矩阵; ; ; 。这 3 个矩阵中的权重属 于模型的可训练参数。 、 、 是矩阵维度,三 者的值都为 ,其中, 是隐藏层维数, 是多 头自注意力机制中的头数。根据每个注意力头 的 SDA 计算结果,可得到整个 MHSA 的输出 : SDA = SDA0 ⊕SDA1 ⊕ ··· ⊕SDAh−1 (10) O e = Tanh( SDAWMHSA) (11) ⊕ WMHSA WMHSA ∈ R hdv ×dh Tanh 式中: 表示向量的拼接操作; 是一个向量 矩阵; ; 为激活函数。 通过以上步骤,MHSA 将基础的词嵌入编码 第 1 期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·145·
·146· 智能系统学报 第16卷 为包含丰富信息的语义向量表示。为方便下文阐 short-term memory,Bi-LSTM)压缩维数、提取语义 释,记语境序列对应的语义编码为0,方面词序 信息。令he和h.分别为Bi-LSTM最后输出的语 列对应的语义编码为0:。 境隐藏状态和方面词隐藏状态,其计算方法为 2.4注意力机制 h=LSTM (O") DFAOA-BERT模型的注意力机制设计以 he=LSTM (O") (15) AOA为核心,相对于全局特征提取器而言,局部 he=五,ha 特征提取器额外设计了语境动态加权模块来增强 其获取局部关键信息的能力。 h=LSTM(O:) 1)语境动态加权模块。 h=LSTM (O) (16) 语境动态加权模块的设计思想在于,一个方 h ha,ha 面词的情感态度往往只与邻近的词有关,远距离 式中:he∈R2;haERmx2a;da是Bi-LSTM的隐藏 的词反而可能提供噪声信息而干扰模型的判断。 状态维数。 因此,从本质上讲,语境动态加权模块就是一个 获得以上结果之后,根据第1节阐述的AOA 位置相关的注意力机制,保留邻近词的积极作 原理,计算得出最终的AOA注意力数值y。 用,根据位置关系弱化远距离词的干扰。 2.5分类层 受Zeng等1m提出的局部情境焦点(local con- 设止、hS分别为局部特征提取器和全局特征 text focus.LCF)模型启发,DFAOA-BERT的语境 提取器中语境序列的Bi-LSTM隐藏状态输出, 动态加权模块定义了语义相关距离D,根据D来 y、y分别是局部特征提取器和全局特征提取器 判断如何给语境所对应的语义向量设定计算权重。 中的AOA数值,DFAOA-BERT最终的语义表示为 设输入的原语境序列为W={w1,w2,…,w,w+1,…, =(的)'y (17) w+m-1,…,w,其中{w,w+,…,w+m-}为方面词序 列,对语境序列中的任意单词w,(1≤j≤m),D的 =(ng) (18) 计算方法为 r=r人⊕r (19) o=p-+- 本模型将,视为情感分类所依据的最终分类 (12) 特征,通过一个线性网络将其映射到任务所要求 获得每个单词对应的语义相关距离之后,需 的结果空间,并使用softmax来计算方面词所对应 要设置语义相关距离的阈值T。,之后即可进行语 的情感态度为z的可能性: 境动态加权计算。对于语境序列中的任意单词 X=Wr+b (20) w,其语义编码向量所对应的权重s计算方式为 exp(X.) P(x=2)= (21) 1,D≤TD sj= 11- Dj-TD Di>Tp (13) ∑exp(K) n 对语境序列的每个单词按顺序计算权重,得 式中:W、b分别是线性网络的权重矩阵和偏 移。Z是情感分类结果的种类数,在本任务中,情 到权重矩阵S=(S1,2,…,S)。语境动态加权的最 感态度共有负面、中立、正面3种,故Z=3。 终输出O",即为语境序列的语义编码O与S相 在模型的训练方面,DFAOA-BERT采用交叉 乘的结果: 熵损失函数来计算训练损失,同时应用L2正则化 0"=0S (14) 来抑制过拟合现象。损失函数为 2)AOA机制。 AOA机制是DFAOA-BERT注意力机制的主 L=-∑,∑zI0=log(P(.=0+gf(2) 体部分,局部特征提取器和全局特征提取器都以 式中:()是指示函数;入是L2正则项;0是 此为核心。其主要设计思想与计算方法在第1节 DFAOA-BERT模型中所有可训参数的集合。 已作详细阐述。由于2个特征提取器在该部分的 3实验结果与分析 运算方式基本一致,下面以局部特征提取器为例 进行具体说明。 3.1数据集信息 考虑到BERT词嵌入的维数较高,进入AOA 本文在3个公开的方面词情感分析数据集上 模块后运算速度很慢,所以,DFAOA-BERT首先 进行了实验:SemEval2014任务4中的餐馆评论 使用双向长短时记忆网络(bi-directional long 数据集和笔记本评论数据集1),以及ACL-14
O e c O e a 为包含丰富信息的语义向量表示。为方便下文阐 释,记语境序列对应的语义编码为 ,方面词序 列对应的语义编码为 。 2.4 注意力机制 DFAOA-BERT 模型的注意力机制设计以 AOA 为核心,相对于全局特征提取器而言,局部 特征提取器额外设计了语境动态加权模块来增强 其获取局部关键信息的能力。 1) 语境动态加权模块。 语境动态加权模块的设计思想在于,一个方 面词的情感态度往往只与邻近的词有关,远距离 的词反而可能提供噪声信息而干扰模型的判断。 因此,从本质上讲,语境动态加权模块就是一个 位置相关的注意力机制,保留邻近词的积极作 用,根据位置关系弱化远距离词的干扰。 D D W = {w1,w2,··· ,wi ,wi+1,··· , wi+m−1,··· ,wn} {wi ,wi+1,··· ,wi+m−1} wj(1 ⩽ j ⩽ n) D 受 Zeng 等 [17] 提出的局部情境焦点 (local context focus, LCF) 模型启发,DFAOA-BERT 的语境 动态加权模块定义了语义相关距离 ,根据 来 判断如何给语境所对应的语义向量设定计算权重。 设输入的原语境序列为 ,其中 为方面词序 列,对语境序列中的任意单词 , 的 计算方法为 Dj = j− ( i+ ⌊m 2 ⌋) − ⌊m 2 ⌋ (12) TD wj sj 获得每个单词对应的语义相关距离之后,需 要设置语义相关距离的阈值 ,之后即可进行语 境动态加权计算。对于语境序列中的任意单词 ,其语义编码向量所对应的权重 计算方式为 sj = 1, Dj ⩽ TD 1− Dj −TD n , Dj > TD (13) S = (s1,s2,··· ,sn) O w O e c S 对语境序列的每个单词按顺序计算权重,得 到权重矩阵 。语境动态加权的最 终输出 ,即为语境序列的语义编码 与 相 乘的结果: O w = O e cS T (14) 2) AOA 机制。 AOA 机制是 DFAOA-BERT 注意力机制的主 体部分,局部特征提取器和全局特征提取器都以 此为核心。其主要设计思想与计算方法在第 1 节 已作详细阐述。由于 2 个特征提取器在该部分的 运算方式基本一致,下面以局部特征提取器为例 进行具体说明。 考虑到 BERT 词嵌入的维数较高,进入 AOA 模块后运算速度很慢,所以,DFAOA-BERT 首先 使用双向长短时记忆网络(bi-directional long hc ha short-term memory,Bi-LSTM)压缩维数、提取语义 信息。令 和 分别为 Bi-LSTM 最后输出的语 境隐藏状态和方面词隐藏状态,其计算方法为 ⇀ hc= ⇀ LSTM (O w ) ↼ hc= ↼ LSTM (O w ) hc = [ ⇀ hc , ↼ hc ] (15) ⇀ ha= ⇀ LSTM ( O e a ) ↼ ha= ↼ LSTM ( O e a ) ha = [ ⇀ ha, ↼ ha ] (16) hc ∈ R n×2dh ha ∈ R m×2dh 式中: ; ; dh 是 Bi-LSTM 的隐藏 状态维数。 γ 获得以上结果之后,根据第 1 节阐述的 AOA 原理,计算得出最终的 AOA 注意力数值 。 2.5 分类层 h L c h G c γ L γ G 设 、 分别为局部特征提取器和全局特征 提取器中语境序列的 Bi-LSTM 隐藏状态输出, 、 分别是局部特征提取器和全局特征提取器 中的 AOA 数值,DFAOA-BERT 最终的语义表示为 r L = ( h L c )T γ L (17) r G = ( h G c )T γ G (18) r = r L ⊕ r G (19) r softmax z 本模型将 视为情感分类所依据的最终分类 特征,通过一个线性网络将其映射到任务所要求 的结果空间,并使用 来计算方面词所对应 的情感态度为 的可能性: X = Wlr + bl (20) P(x = z) = exp(Xz) ∑Z i=1 exp(Xz) (21) Wl bl Z Z = 3 式中: 、 分别是线性网络的权重矩阵和偏 移。 是情感分类结果的种类数,在本任务中,情 感态度共有负面、中立、正面 3 种,故 。 L2 在模型的训练方面,DFAOA-BERT 采用交叉 熵损失函数来计算训练损失,同时应用 正则化 来抑制过拟合现象。损失函数为 L = − ∑ i ∑ z∈Z I(yi = z)log(P(yi = z))+λ||θ||2 (22) 式中: I(·) 是指示函数; λ 是 L2 正则项; θ 是 DFAOA-BERT 模型中所有可训参数的集合。 3 实验结果与分析 3.1 数据集信息 本文在 3 个公开的方面词情感分析数据集上 进行了实验:SemEval 2014 任务 4 中的餐馆评论 数据集和笔记本评论数据集[ 1 8 ] ,以及 ACL-14 ·146· 智 能 系 统 学 报 第 16 卷
第1期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·147· Twitter社交评论数据集(为方便下文说明,将这 集和Twitter数据集)。表I给出了各数据集的训 3个数据集分别简称为餐馆数据集、笔记本数据 练评论数与测试评论数。 表1数据集组成信息 Table 1 Composition information of the datasets 正面 中立 负面 数据集 训练 测试 训练 测试 训练 测试 餐馆 2164 728 637 196 807 196 笔记本 994 341 464 169 870 128 Twitter 1561 173 3127 346 1560 173 3.2基线 SPC)使用BERT模型来处理句对分类任务,将该 为了全方位评价DFAOA-BERT的表现效果, 模型应用于基于方面词的情感分析任务时,需要 本文选用了多个基线模型进行结果对比。这些基 将模型的输入处理成“[CLS]+整个句子+[SEP]+ 线模型基于不同的设计思想与技术原理,包括普 方面词+[SEP]”的形式。 通神经网络模型与含BERT加持的深度学习模型。 9)后训练BERT(post-trained BERT,BERT I)支持向量机2o(support vector machine, PT)模型在方面词情感分析任务上探索了BERT SVM)是应用传统机器学习解决方面词情感分析 模型的后训练策略,成功地提升了BERT模型的 任务的代表模型。它使用支持向量机技术来结合 精调效果。 特征工程进行情感分析。 lO)BERT对抗训练(BERT adversarial train- 2)基于目标的长短时记忆网络模型(TD- ing,BAT)模型将计算机视觉领域常常涉及的对 LSTM0分别通过2个LSTM来提取方面词左右 抗学习思想应用到方面词情感分析任务上,其训 两边的语义特征,将两部分语义信息拼接后计算 练损失包括主模型的损失与对抗模型的损失这 情感数值。 2部分。 3)互动注意力网络(IAN)61使用2个LSTM 3.3实验参数与结果对比 来分别获取语境和方面词的语义表示。它根据语 实验中涉及的模型参数设置如下:DFAOA- 境的语义表示的隐藏层状态来构造对方面词的注 BERT在语境动态加权模块定义的语义相关距离 意力权重,反之即可构造方面词对语境的注意力 阈值To设为5。BERT版本选用uncased BERT- 权重,取得了不错的效果。 base,词嵌入的维数为768。语境动态加权模块 4)循环注意力记忆网络P(recurrent attention 中Bi-LSTM的隐藏层维数设为150。模型中的可 network on memory,RAM)使用Bi-LSTM来进行 训练参数使用Glorot!21初始化方法来进行初始 文本记忆表示,同时创新性地使用了一个循环单 化,学习率设为2e-(在Twitter数据集上实验时设 元网络来将语境特征的多个注意力输出组合在 为5e-6),L2正则项设为1e5,dropout率2则根据 一起。 不同数据集进行灵活调整,餐馆数据集设为01, 5)嵌套注意力(AOA)综合考虑到方面词的 笔记本数据集设为O,而Twitter数据集则设为 语义信息和在整个评论中的位置特征,不仅能生 0.5。模型采用Adam优化器2来最小化训练损 成方面词对整个语境的注意力权重,还能计算出 失。由于模型参数数量较大,为防止显卡内存不 语境对方面词的注意力权重。 足,每批训练评论数设为16。模型的评价方法选 6)基础BERT(BERT-base)是基础的预训练 用准确度与Macro-.F,两者数值越高则说明模型 BERT模型。即使不添加任何额外模块,该模型 的情感分析能力越优秀。 的表现依旧非常突出。 实验结果如表2所示。表2中的Acc表示准 7)带有BERT的注意力编码网络I(AEN- 确度,MP,表示Macro-F,两者均为模型的评价指 BERT)的设计基于预训练BERT模型,其特点在 标。对比模型的结果取自已发表的论文,“-”指 于完全使用注意力机制来编码语境和方面词的语 原论文没有发表该结果,其中,BERT-base的结果 义表示。 取自Karimi等I的实验结果。DFAOA-BERT的 8)用于句对分类的BERT模型(BERT- 结果在显卡NVIDIA Tesla P1O0上运行获得。最
Twitter 社交评论数据集[19] (为方便下文说明,将这 3 个数据集分别简称为餐馆数据集、笔记本数据 集和 Twitter 数据集)。表 1 给出了各数据集的训 练评论数与测试评论数。 表 1 数据集组成信息 Table 1 Composition information of the datasets 数据集 正面 中立 负面 训练 测试 训练 测试 训练 测试 餐馆 2164 728 637 196 807 196 笔记本 994 341 464 169 870 128 Twitter 1561 173 3127 346 1560 173 3.2 基线 为了全方位评价 DFAOA-BERT 的表现效果, 本文选用了多个基线模型进行结果对比。这些基 线模型基于不同的设计思想与技术原理,包括普 通神经网络模型与含 BERT 加持的深度学习模型。 1) 支持向量机[ 2 0 ] (support vector machine, SVM) 是应用传统机器学习解决方面词情感分析 任务的代表模型。它使用支持向量机技术来结合 特征工程进行情感分析。 2) 基于目标的长短时记忆网络模型 (TDLSTM)[5] 分别通过 2 个 LSTM 来提取方面词左右 两边的语义特征,将两部分语义信息拼接后计算 情感数值。 3) 互动注意力网络 (IAN)[6] 使用 2 个 LSTM 来分别获取语境和方面词的语义表示。它根据语 境的语义表示的隐藏层状态来构造对方面词的注 意力权重,反之即可构造方面词对语境的注意力 权重,取得了不错的效果。 4) 循环注意力记忆网络[21] (recurrent attention network on memory,RAM) 使用 Bi-LSTM 来进行 文本记忆表示,同时创新性地使用了一个循环单 元网络来将语境特征的多个注意力输出组合在 一起。 5) 嵌套注意力[3] (AOA) 综合考虑到方面词的 语义信息和在整个评论中的位置特征,不仅能生 成方面词对整个语境的注意力权重,还能计算出 语境对方面词的注意力权重。 6) 基础 BERT[11] (BERT-base) 是基础的预训练 BERT 模型。即使不添加任何额外模块,该模型 的表现依旧非常突出。 7) 带有 BERT 的注意力编码网络[ 1 3 ] (AENBERT) 的设计基于预训练 BERT 模型,其特点在 于完全使用注意力机制来编码语境和方面词的语 义表示。 8) 用于句对分类的 BERT 模型[ 1 3 ] (BERTSPC) 使用 BERT 模型来处理句对分类任务,将该 模型应用于基于方面词的情感分析任务时,需要 将模型的输入处理成“[CLS] + 整个句子 + [SEP] + 方面词 + [SEP]”的形式。 9) 后训练 BERT [22] (post-trained BERT,BERTPT) 模型在方面词情感分析任务上探索了 BERT 模型的后训练策略,成功地提升了 BERT 模型的 精调效果。 10)BERT 对抗训练[12] (BERT adversarial training,BAT) 模型将计算机视觉领域常常涉及的对 抗学习思想应用到方面词情感分析任务上,其训 练损失包括主模型的损失与对抗模型的损失这 2 部分。 3.3 实验参数与结果对比 TD 2e−5 5e−6 L2 1e−5 实验中涉及的模型参数设置如下:DFAOABERT 在语境动态加权模块定义的语义相关距离 阈值 设为 5。BERT 版本选用 uncased BERTbase,词嵌入的维数为 768。语境动态加权模块 中 Bi-LSTM 的隐藏层维数设为 150。模型中的可 训练参数使用 Glorot[23] 初始化方法来进行初始 化,学习率设为 (在 Twitter 数据集上实验时设 为 ), 正则项设为 ,dropout 率 [24] 则根据 不同数据集进行灵活调整,餐馆数据集设为 0.1, 笔记本数据集设为 0,而 Twitter 数据集则设为 0.5。模型采用 Adam 优化器[25] 来最小化训练损 失。由于模型参数数量较大,为防止显卡内存不 足,每批训练评论数设为 16。模型的评价方法选 用准确度与 Macro-F1,两者数值越高则说明模型 的情感分析能力越优秀。 实验结果如表 2 所示。表 2 中的 Acc 表示准 确度,MF1 表示 Macro-F1,两者均为模型的评价指 标。对比模型的结果取自已发表的论文,“−”指 原论文没有发表该结果,其中,BERT-base 的结果 取自 Karimi 等 [12] 的实验结果。DFAOA-BERT 的 结果在显卡 NVIDIA Tesla P100 上运行获得。最 第 1 期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·147·
·148· 智能系统学报 第16卷 优秀的结果加粗表示。可以看到,在3个数据集 上,DFAOA-BERT均取得了非常优秀的成绩。 表2实验结果对比 Table 2 Comparison of the experimental results % 餐馆数据集 笔记本数据集 Twitter数据集 类别 模型 Acc MF Acc MF Acc MF SVM 80.16 70.49 63.40 TD-LSTM 75.63 68.13 70.80 69.00 基线 IAN 78.60 72.10 RAM 80.23 70.80 74.49 71.35 69.36 67.30 AOA 81.20 74.50 BERT-base 81.54 71.94 75.29 71.91 AEN-BERT 83.12 73.76 79.93 76.31 74.71 73.13 BERT模型 BERT-SPC 84.46 76.98 78.99 75.03 73.55 72.14 BERT-PT 84.95 76.96 78.07 75.08 BAT 86.03 79.24 79.35 76.50 本文模型 DFAOA-BERT 87.05 81.68 80.25 76.66 75.72 74.62 普通基线模型中,基于特征工程的SVM提出 BERT的强大优势,设计了合适的网络结构和子 时间最早,但其效果却出人意料得好,超过了多 模块来引导整个模型满足方面词情感分析任务的 数不含BERT加持的基线模型。因此,如果不考 要求,取得了令人瞩目的成绩。DFAOA-BERT则 虑人力成本,SVM在特定数据集上将会是一个不 凭借双特征AOA机制,无论是在准确度还是 错的选择。TD-LSTM模型的结构最为简单,只使 Macro-F,分数上,都获得了比上述基线更理想的 用了2个LSTM,但其效果也是最不理想的。而 结果,证明了整体模型在解决方面词情感分析任 引入注意力机制的模型,例如IAN、AOA,通过精 务上的优秀能力。 心设计的注意力机制来引导网络进行语义特征提 3.4子模块的有效性实验 取,从而获得比TD-LSTM优秀很多的结果。 为验证DFAOA-BERT模型中主要子模块的 根据表2可以观察到,就餐馆评论数据集而 设计合理性,本文进行了相应的补充实验。结果 言,80%的分类准确度已经接近模型效果的天花 如表3所示。其中,“w/o”(without)代表去除, 板了,而BERT模型的加持,则使情感分析结果获 “G”代表全局特征提取器,“L”代表局部特征提取 得了惊人的提升。即使是最简单的BERT-base模 器,“cdw”代表语境动态加权模块。所有实验均 型,其效果已经超过了绝大部分普通基线模型。 在显卡NVIDIA Tesla P1000上进行。最优秀的结 AEN-BERT、BERT-SPC和BAT为了充分发挥 果加粗表示。 表3 DFAOA-BERT模型与其变种的实验结果对比 Table 3 Comparison of experimental results between DFAOA-BERT model and its variants % 餐馆数据集 笔记本数据集 Twitter数据集 模型 Acc MF Acc MF Acc MF1 DFAOA-BERT w/o cdw 84.64 76.93 79.00 75.06 75.00 73.82 DFAOA-BERT w/o L 84.55 77.49 79.47 76.14 73.70 72.48 DFAOA-BERT w/o G 83.21 75.56 79.78 76.38 73.27 71.10 DFAOA-BERT 87.05 81.68 80.25 76.66 75.72 74.62 可以清楚地看到,缺少任一模块,DFAOA 取器将会因位置问题而在很大概率上忽视情感指 BERT模型的效果都将有着明显的下降。全局特 示词的作用,导致情感判断产生关键性错误。 征提取器的缺失对整体效果影响最大,这说明了 在笔记本评论数据集和Twitter评论数据集 全局语义特征对于本任务的重要性。最难判断的 上,局部特征提取器和全局特征提取器的缺失所 句子往往具有一个特点,即情感指示词会出现在 带来的效果下降幅度相近。这两者在整体模型中 模型意想不到的位置,因此,仅依靠局部特征提 有着相辅相成的关系,全局特征提取器能够顾及
优秀的结果加粗表示。可以看到,在 3 个数据集 上,DFAOA-BERT 均取得了非常优秀的成绩。 表 2 实验结果对比 Table 2 Comparison of the experimental results % 类别 模型 餐馆数据集 笔记本数据集 Twitter数据集 Acc MF1 Acc MF1 Acc MF1 基线 SVM 80.16 — 70.49 — 63.40 — TD-LSTM 75.63 — 68.13 — 70.80 69.00 IAN 78.60 — 72.10 — — — RAM 80.23 70.80 74.49 71.35 69.36 67.30 AOA 81.20 — 74.50 — — — BERT模型 BERT-base 81.54 71.94 75.29 71.91 — — AEN-BERT 83.12 73.76 79.93 76.31 74.71 73.13 BERT-SPC 84.46 76.98 78.99 75.03 73.55 72.14 BERT-PT 84.95 76.96 78.07 75.08 — — BAT 86.03 79.24 79.35 76.50 — — 本文模型 DFAOA-BERT 87.05 81.68 80.25 76.66 75.72 74.62 普通基线模型中,基于特征工程的 SVM 提出 时间最早,但其效果却出人意料得好,超过了多 数不含 BERT 加持的基线模型。因此,如果不考 虑人力成本,SVM 在特定数据集上将会是一个不 错的选择。TD-LSTM 模型的结构最为简单,只使 用了 2 个 LSTM,但其效果也是最不理想的。而 引入注意力机制的模型,例如 IAN、AOA,通过精 心设计的注意力机制来引导网络进行语义特征提 取,从而获得比 TD-LSTM 优秀很多的结果。 根据表 2 可以观察到,就餐馆评论数据集而 言,80% 的分类准确度已经接近模型效果的天花 板了,而 BERT 模型的加持,则使情感分析结果获 得了惊人的提升。即使是最简单的 BERT-base 模 型,其效果已经超过了绝大部分普通基线模型。 AEN-BERT、BERT-SPC 和 BAT 为了充分发挥 BERT 的强大优势,设计了合适的网络结构和子 模块来引导整个模型满足方面词情感分析任务的 要求,取得了令人瞩目的成绩。DFAOA-BERT 则 凭借双特征 AOA 机制,无论是在准确度还是 Macro-F1 分数上,都获得了比上述基线更理想的 结果,证明了整体模型在解决方面词情感分析任 务上的优秀能力。 3.4 子模块的有效性实验 为验证 DFAOA-BERT 模型中主要子模块的 设计合理性,本文进行了相应的补充实验。结果 如表 3 所示。其中,“w/o”(without) 代表去除, “G”代表全局特征提取器,“L”代表局部特征提取 器,“cdw”代表语境动态加权模块。所有实验均 在显卡 NVIDIA Tesla P100 上进行。最优秀的结 果加粗表示。 表 3 DFAOA-BERT 模型与其变种的实验结果对比 Table 3 Comparison of experimental results between DFAOA-BERT model and its variants % 模型 餐馆数据集 笔记本数据集 Twitter数据集 Acc MF1 Acc MF1 Acc MF1 DFAOA-BERT w/o cdw 84.64 76.93 79.00 75.06 75.00 73.82 DFAOA-BERT w/o L 84.55 77.49 79.47 76.14 73.70 72.48 DFAOA-BERT w/o G 83.21 75.56 79.78 76.38 73.27 71.10 DFAOA-BERT 87.05 81.68 80.25 76.66 75.72 74.62 可以清楚地看到,缺少任一模块,DFAOABERT 模型的效果都将有着明显的下降。全局特 征提取器的缺失对整体效果影响最大,这说明了 全局语义特征对于本任务的重要性。最难判断的 句子往往具有一个特点,即情感指示词会出现在 模型意想不到的位置,因此,仅依靠局部特征提 取器将会因位置问题而在很大概率上忽视情感指 示词的作用,导致情感判断产生关键性错误。 在笔记本评论数据集和 Twitter 评论数据集 上,局部特征提取器和全局特征提取器的缺失所 带来的效果下降幅度相近。这两者在整体模型中 有着相辅相成的关系,全局特征提取器能够顾及 ·148· 智 能 系 统 学 报 第 16 卷
第1期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·149· 全面的语义信息但却没有突出重点,局部特征提 4结束语 取器则相反,可以充分捕捉方面词邻近语境的语 义特征但却难以考虑全面。两个提取器对DFAOA 本文针对当前方面词情感分析任务研究中存 BERT的作用都非常关键。而语境动态加权模块 在的不足,设计了DFAOA-BERT模型。该模型首 作为局部特征提取器所独有的注意力机制设计, 次将AOA与BERT预训练语言模型相结合,能够 较为显著地提升了局部特征提取器的表现效果。 有效提取指定方面词的情感特征。而全局和局部 通过上述补充实验,可以验证DFAOA-BERT 特征提取器的设计,则使得模型既能顾及整个句 各子模块在本任务上的有效性。 子的全局语义信息,还能有目的性地弱化情感干 3.5结果分析与改进 扰项的不利影响。实验证明,DFAOA-BERT在 根据上述的实验结果,可以发现,与之前的模 SemEval2014任务4中的餐馆评论数据集、笔记 型相比,DFAOA-BERT的综合表现较为优异。无 本评论数据集以及ACL-14 Twitter社交评论数据 论是全局、局部特征提取器的设计,还是语境动 集上均取得了优异的成绩,而子模块的有效性实 态加权模块的引入,都对整体模型的效果有着显 验也充分说明了DFAOA-BERT各个模块设计的 著的正面作用。 合理性,任何部分的缺失都将对模型的效果产生 但DFAOA-BERT依然存在一定的改进空 显著的不利影响。 间。对实验结果进行横向对比,可以观察到,DFAOA 尽管DFAOA-BERT模型在多个数据集上都 BERT在餐馆数据集上的表现非常优异,而在处 有着不错的表现,但它仍存在一定的提升空间。 理笔记本数据集和Twitter数据集时会呈现出明 本文分析了一些模型的设计优势,阐释了DFAOA 显的准确度下降。出现该问题的主要原因在于 BERT存在的不足,并从多个角度提出了改进方 笔记本数据集和Twitter数据集中存在较多拼写 向与策略方案,以期增强DFAOA-BERT的情感判 错误与无意义的标记,从而对模型的语义特征抽 断能力与处理低质量数据时的稳定性。 取和情感分类造成了很大的困难。将AEN-BERT 参考文献: 与DFAOA-BERT进行对比,可以观察到,虽然 DFAOA-BERT在餐馆数据集上有着显著的优势, [1]LIU Bing.Sentiment analysis and opinion mining[J].Syn- 但在笔记本和Twitter数据集上的表现却和AEN- thesis lectures on human language technologies,2012 BERT差别不大。这是因为AEN-BERT在语义编 5(1):1-167 码和特征抽取模块上有着更为合适的设计,它针 [2]PANG B,LEE L.Opinion mining and sentiment 对方面词情感分析任务专门设计了一套注意力机 analysis[M].Foundations and Trends in Information Re- 制来生成语义表示并提取特征,而非使用大多数 trieval,2008:1-135 模型所选取的LSTM。因此,DFAOA-BERT在处 [3]HUANG Binxuan,OU Yanglan,CARLEY K M.Aspect 理低质量数据集方面仍存在上升空间,可通过设 level sentiment classification with attention-over-attention 计合理的注意力机制来改进语义编码和特征抽取 neural networks[C]//Proceedings of the 11th International 模块,减小模型对数据质量的依赖程度。 Conference on Social,Cultural,and Behavioral Modeling. 此外,BERT的领域内精调以及方面词抽取 Washington,USA,2018:197-206. 模块的引入,也是提升DFAOA-BERT效果的两种 [4]SUTSKEVER I,VINYALS O,LE Q V.Sequence to se- 改进方向。BERT的领域内精调是指对基础的 quence learning with neural networks[C]//Proceedings of BERT模型进行一定调整,使用额外的领域内语 the 27th International Conference on Neural Information 料资源来增强BERT在该领域的语义表示能力, Processing Systems.Montreal,Canada,2014:3104-3112. 从而帮助整体模型获得更优秀的情感判断能力。 [5]TANG D.QIN B.FENG X,et al.Effective LSTMs for tar- 方面词抽取模块的引入则相当于使用一个模型来 get-dependent sentiment classification[C]//Proceedings of 同时完成方面词情感分析任务和方面词抽取任 COLING 2016,the 26th International Conference on Com- 务,而这两个任务所涉及的模型参数存在相辅相 putational Linguistics.Osaka,Japan,2016:3298-3307. 成的效应,在Li等2以及Hu等27的实验中被证 [6]MA D,LI S.ZHANG X.et al.Interactive attention net- 明能够有效提升整体模型的效果。因此,DFAOA- works for aspect-level sentiment classification[C]//Pro- BERT可通过以上两种改进思路,增强方面词情 ceedings of the 26th International Joint Conference on Ar- 感分析能力。 tificial Intel-ligence.Melbourne,Australia,2017:
全面的语义信息但却没有突出重点,局部特征提 取器则相反,可以充分捕捉方面词邻近语境的语 义特征但却难以考虑全面。两个提取器对 DFAOABERT 的作用都非常关键。而语境动态加权模块 作为局部特征提取器所独有的注意力机制设计, 较为显著地提升了局部特征提取器的表现效果。 通过上述补充实验,可以验证 DFAOA-BERT 各子模块在本任务上的有效性。 3.5 结果分析与改进 根据上述的实验结果,可以发现,与之前的模 型相比,DFAOA-BERT 的综合表现较为优异。无 论是全局、局部特征提取器的设计,还是语境动 态加权模块的引入,都对整体模型的效果有着显 著的正面作用。 但 DFAOA-BERT 依然存在一定的改进空 间。对实验结果进行横向对比,可以观察到,DFAOABERT 在餐馆数据集上的表现非常优异,而在处 理笔记本数据集和 Twitter 数据集时会呈现出明 显的准确度下降。出现该问题的主要原因在于, 笔记本数据集和 Twitter 数据集中存在较多拼写 错误与无意义的标记,从而对模型的语义特征抽 取和情感分类造成了很大的困难。将 AEN-BERT 与 DFAOA-BERT 进行对比,可以观察到,虽然 DFAOA-BERT 在餐馆数据集上有着显著的优势, 但在笔记本和 Twitter 数据集上的表现却和 AENBERT 差别不大。这是因为 AEN-BERT 在语义编 码和特征抽取模块上有着更为合适的设计,它针 对方面词情感分析任务专门设计了一套注意力机 制来生成语义表示并提取特征,而非使用大多数 模型所选取的 LSTM。因此,DFAOA-BERT 在处 理低质量数据集方面仍存在上升空间,可通过设 计合理的注意力机制来改进语义编码和特征抽取 模块,减小模型对数据质量的依赖程度。 此外,BERT 的领域内精调以及方面词抽取 模块的引入,也是提升 DFAOA-BERT 效果的两种 改进方向。BERT 的领域内精调是指对基础的 BERT 模型进行一定调整,使用额外的领域内语 料资源来增强 BERT 在该领域的语义表示能力, 从而帮助整体模型获得更优秀的情感判断能力。 方面词抽取模块的引入则相当于使用一个模型来 同时完成方面词情感分析任务和方面词抽取任 务,而这两个任务所涉及的模型参数存在相辅相 成的效应,在 Li 等 [26] 以及 Hu 等 [27] 的实验中被证 明能够有效提升整体模型的效果。因此,DFAOABERT 可通过以上两种改进思路,增强方面词情 感分析能力。 4 结束语 本文针对当前方面词情感分析任务研究中存 在的不足,设计了 DFAOA-BERT 模型。该模型首 次将 AOA 与 BERT 预训练语言模型相结合,能够 有效提取指定方面词的情感特征。而全局和局部 特征提取器的设计,则使得模型既能顾及整个句 子的全局语义信息,还能有目的性地弱化情感干 扰项的不利影响。实验证明,DFAOA-BERT 在 SemEval 2014 任务 4 中的餐馆评论数据集、笔记 本评论数据集以及 ACL-14 Twitter 社交评论数据 集上均取得了优异的成绩,而子模块的有效性实 验也充分说明了 DFAOA-BERT 各个模块设计的 合理性,任何部分的缺失都将对模型的效果产生 显著的不利影响。 尽管 DFAOA-BERT 模型在多个数据集上都 有着不错的表现,但它仍存在一定的提升空间。 本文分析了一些模型的设计优势,阐释了 DFAOABERT 存在的不足,并从多个角度提出了改进方 向与策略方案,以期增强 DFAOA-BERT 的情感判 断能力与处理低质量数据时的稳定性。 参考文献: LIU Bing. Sentiment analysis and opinion mining[J]. Synthesis lectures on human language technologies, 2012, 5(1): 1–167. [1] PANG B, LEE L. Opinion mining and sentiment analysis[M]. Foundations and Trends in Information Retrieval, 2008: 1−135. [2] HUANG Binxuan, OU Yanglan, CARLEY K M. Aspect level sentiment classification with attention-over-attention neural networks[C]//Proceedings of the 11th International Conference on Social, Cultural, and Behavioral Modeling. Washington, USA, 2018: 197–206. [3] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada, 2014: 3104–3112. [4] TANG D, QIN B, FENG X, et al. Effective LSTMs for target-dependent sentiment classification[C] // Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics. Osaka, Japan, 2016 : 3298 – 3307. [5] MA D, LI S, ZHANG X, et al. Interactive attention networks for aspect-level sentiment classification[C] // Proceedings of the 26th International Joint Conference on Artificial Intel-ligence. Melbourne, Australia, 2017 : [6] 第 1 期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·149·
·150· 智能系统学报 第16卷 4068-4074 [17]ZENG Biqing,YANG Heng,XU Ruyang,et al.LCF:a [7]XU Weidi,TAN Ying.Semi-supervised target-oriented local context focus mechanism for aspect-based senti- sentiment classification[J].Neurocomputing,2019,337: ment classification[J].Applied sciences,2019,9(16): 120-128 1-22. [8]PETERS M,NEUMANN M.IYYER M,et al.Deep con- [18]PONTIKI M,GALANIS D,PAVLOPOULOS J,et al.Se- textualized word representations[C]//Proceedings of the mEval-2014 task 4:aspect based sentiment analysis[C]// 2018 Conference of the North American Chapter of the As- Proceedings of the 8th International Workshop on Se- sociation for Computational Linguistics.New Orleans, mantic Evaluation (SemEval 2014).Dublin,Ireland,2014:27-35. Louisiana.2018:2227-2237. [19]DONG Li,WEI Furu,TAN Chuangi,et al.Adaptive re- [9]VASWANI A,SHAZEER N,PARMAR N,et al.Atten- cursive neural network for target-dependent twitter senti- tion is all you need[C]//Proceedings of the 31st Internation- ment classification[C]//Proceedings of the 52nd Annual al Conference on Neural Information Processing Systems. Meeting of the Association for Computational Linguistics. Los Angeles,USA,2017:6000-6010. Baltimore,Maryland,2014:49-54. [10]RADFORD A.NARASIMHAN K,SALIMANS T,et al. [20]KIRITCHENKO S,ZHU Xiaodan,CHERRY C,et al. Improving language understanding by generative p- NRC-Canada-2014:detecting aspects and sentiment in re-training[EB/OL].[2019-5-10].https://s3-us-west- customer reviews[Cl//Proceedings of the 8th Internation- 2.amazonaws.com/openai-assets/research-covers/lan- al Workshop on Semantic Evaluation.Dublin,Ireland, guage-unsupervised/language understanding paper.pdf. 2014:437-442 [11]DEVLIN J,CHANG M-W,LEE K,et al.BERT: [21]CHEN Peng,SUN Zhongqian,BING Lidong,et al.Re- pre-training of deep bidirectional transformers for lan- current attention network on memory for aspect senti- guage understanding[C]//Proceedings of the 2019 Con- ment analysis[Cl//Proceedings of the 2017 Conference on ference of the North American Chapter of the Associ- Empirical Methods in Natural Language Processing. ation for Computational Linguistics.Minneapolis,Min- Copenhagen,Denmark,2017:452-461. nesota,USA,2019:4171-4186. [22]XU H,LIU B,SHU L,et al.BERT post-training for re- [12]KARIMI A,ROSSIL,PRATI A.Adversarial training for view reading comprehension and aspect-based sentiment aspect-based sentiment analysis with BERT[EB/OL]. analysis[C]//Proceedings of the 2019 Conference of the [2019-5-10].htps:///arxiv.org/abs/2001.11316 North American Chapter of the Association for Computa- [13]SONG Youwei.WANG Jiahai,JIANG Tao,et al.Att-en- tional Linguistics.Minneapolis,Minnesota,USA,2019: tional encoder network for targeted sentiment classi-fica- 2324-2335. tion[EB/OL].[2019-5-10].https://arxiv.org/abs/1902. [23]GLOROT X,BENGIO Y.Understanding the difficulty of 09314. training deep feedforward neural networks[C]//Proceed- [14]JIANG Long,YU Mo,ZHOU Ming,et al.Target-depend- ings of the Thirteenth International Conference on Artifi- ent twitter sentiment classification[C]//Proceedings of the cial Intelligence and Statistics.Chia Laguna Resort,Italy, 49th Annual Meeting of the Association for Computation- 2010:249-256 al Linguistics:Human Language Technologies.Portland, [24]SRIVASTAVA N.HINTON G,KRIZHEVSKY A,et al. USA,2011:151-160 Dropout:a simple way to prevent neural networks from [15]CUI Y,CHEN Z,WEI S,et al.Attention-over-attention overfitting[J].The journal of machine learning research, neural networks for reading comprehension[C]/Proceed- 2014,15(1):1929-1958. ings of the 55th Annual Meeting of the Association for [25]KINGMA D P,BA J.Adam:a method for stochastic op- Computational Linguistics.Vancouver,Canada,2017: timization[C]//The 3rd International Conference for 593-602. Learning Representations,San Diego.http://arxiv.org/abs/ [16]PENNINGTON J,SOCHER R,MANNING C.Glove: 1412.6980 global vectors for word representation[C]//Proceedings of [26]LI Xin,BING Lidong,LI Piji,et al.A unified model for the 2014 Conference on Empirical Methods in Natural opinion target extraction and target sentiment predic- Language Processing (EMNLP).Doha,Qatar,2014: tion[J].Proceedings of the AAAl conference on artificial 1532-1543. intelligence,2019,33(1):6714-6721
4068–4074. XU Weidi, TAN Ying. Semi-supervised target-oriented sentiment classification[J]. Neurocomputing, 2019, 337: 120–128. [7] PETERS M, NEUMANN M, IYYER M, et al. Deep contextualized word representations[C] // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics.New Orleans, Louisiana, 2018 : 2227–2237. [8] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Los Angeles, USA, 2017: 6000–6010. [9] RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training[EB/OL]. [2019-5-10]. https://s3-us-west- 2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf. [10] DEVLIN J, CHANG M- W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C] // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis, Minnesota, USA,2019 : 4171–4186. [11] KARIMI A, ROSSI L, PRATI A. Adversarial training for aspect-based sentiment analysis with BERT[EB/OL]. [2019-5-10]. https://arxiv.org/abs/2001.11316. [12] SONG Youwei, WANG Jiahai, JIANG Tao, et al. Att-entional encoder network for targeted sentiment classi-fication[EB/OL]. [2019-5-10]. https://arxiv.org/abs/1902. 09314. [13] JIANG Long, YU Mo, ZHOU Ming, et al. Target-dependent twitter sentiment classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, USA, 2011: 151–160. [14] CUI Y, CHEN Z, WEI S, et al. Attention-over-attention neural networks for reading comprehension[C] // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics.Vancouver, Canada, 2017 : 593 – 602. [15] PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar, 2014: 1532–1543. [16] ZENG Biqing, YANG Heng, XU Ruyang, et al. LCF: a local context focus mechanism for aspect-based sentiment classification[J]. Applied sciences, 2019, 9(16): 1–22. [17] PONTIKI M, GALANIS D, PAVLOPOULOS J, et al. SemEval-2014 task 4: aspect based sentiment analysis[C]// Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014). Dublin, Ireland, 2014: 27–35. [18] DONG Li, WEI Furu, TAN Chuanqi, et al. Adaptive recursive neural network for target-dependent twitter sentiment classification[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, Maryland, 2014: 49–54. [19] KIRITCHENKO S, ZHU Xiaodan, CHERRY C, et al. NRC-Canada-2014: detecting aspects and sentiment in customer reviews[C]//Proceedings of the 8th International Workshop on Semantic Evaluation. Dublin, Ireland, 2014: 437–442. [20] CHEN Peng, SUN Zhongqian, BING Lidong, et al. Recurrent attention network on memory for aspect sentiment analysis[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark, 2017: 452–461. [21] XU H, LIU B, SHU L, et al. BERT post-training for review reading comprehension and aspect-based sentiment analysis[C] // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis, Minnesota, USA, 2019 : 2324 – 2335. [22] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics. Chia Laguna Resort, Italy, 2010: 249–256. [23] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The journal of machine learning research, 2014, 15(1): 1929–1958. [24] KINGMA D P, BA J. Adam: a method for stochastic optimization[C] //The 3rd International Conference for Learning Representations, San Diego. http://arxiv.org/abs/ 1412.6980. [25] LI Xin, BING Lidong, LI Piji, et al. A unified model for opinion target extraction and target sentiment prediction[J]. Proceedings of the AAAI conference on artificial intelligence, 2019, 33(1): 6714–6721. [26] ·150· 智 能 系 统 学 报 第 16 卷
第1期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·151· [27]HU M,PENG Y,HUANG Z,et al.Open-domain tar- 林慧苹,副教授,博士,主要研究 方向为大数据分析、企业信息服务,主 geted sentiment analysis via span-based extraction and 持和参与国家863计划、国家自然科 classification[C]//Proceedings of the 57th Conference of 学基金项目、国家重点研发计划项目 the Association for Computational Linguistics.Florence, 等多项。发表学术论文20余篇。 Italy,2019:537-546. 作者简介: 肖宇晗,硕土研究生,主要研究方 谭营,教授,博士生导师,主要研 向为深度学习、数据挖掘和自然语言 究方向为智能科学、计算智能与群体 处理。 智能、机器学习、人工神经网络、群体 机器人、大数据挖掘。烟花算法发明 人。吴文俊人工智能科学技术成就奖 创新三等奖获得者。发表学术论文 330余篇,出版学术专著12部。 陈小平主编《人工智能伦理导引》出版 人工智能是21世纪最引人注目的重大科技进展,被普遍认为是第四次工业革命的引导力量。人工智能 与大数据、网络、信息、自动化、物联网和云计算等新技术相结合,正渗透到工业、农业、服务业、交通运输、 能源、金融、安全和国防等各个领域,成为这些产业部门转型升级的核心驱动力。在这种新形势下,人工智 能及大数据等相关技术将对各行各业、各种岗位的从业人员产生广泛、深刻、长期的影响。由此出现一种普 遍的现象:所有社会成员都需要更多、更深入地了解人工智能,全面、客观、准确地认识人工智能带给我们的 正面效应和负面效应。 社会的上述巨大变化必然反映到教育实践中,引出本科生和研究生教育的一种全新的重大需求一人 工智能及其应用的快速发展,要求对现有学校教育内容进行及时的扩展,将人工智能和人工智能伦理纳入 各个学科的教育体系,开设相关的课程和培训,使学生得到必要的培养和训练。为此中国人工智能学会人 工智能伦理专委会(筹)主任陈小平领衔法律、哲学等社会科学相关领域一线专家共同编写了国内第一部跨 学科、导引性人工智能伦理教材一《人工智能伦理导引》。本书面向所有专业的本科生和研究生,对相 关专业的研究者、相关领域的管理者和相关行业的从业者亦有普遍参考价值。 对人工智能基本原理、主要技术进展和当前挑战进行专业性、通俗化的概括与解读,为人工智能伦理和 治理的学习与探索奠定可靠的技术基础:对当前人工智能伦理与治理的五个重点领域一数据、企业、AI科 研、传媒、法制进行专业解剖和案例分析,为人工智能伦理与治理的理论研究和应用实践提供专业基础;对 人机社会技术伦理进行系统性的梳理与反思,为人工智能伦理专业研究深造提供知识基础。 本书重要特色主要体现在: 跨学科与导引性国内第一部由人工智能与法律、科技伦理、哲学等相关领域专家共同编写的跨学科、 导引性人工智能伦理教材。 内容专业且有趣,深刻且通俗本书针对人工智能的广泛应用以及人工智能伦理和 治理的普遍迫切需求,采用通俗的语言,传授精当的知识。内容专业深刻的同时,与普遍 应用和生活实际相联系,由浅入深地进行探究。 章前导读、章后讨论,阅读指引实用每章开始前由案例导入,引出章节主题。在进 行细致学习后,每章最后附有讨论与思考题,发人深省,激发读者对有关人工智能及科技 司阳 伦理相关问题进行思索和探究。章节结构的设置为读者提供了实用的阅读和学习指引。识别二维码,即可购买
HU M, PENG Y, HUANG Z, et al. Open-domain targeted sentiment analysis via span-based extraction and classification[C] // Proceedings of the 57th Conference of the Association for Computational Linguistics.Florence, Italy, 2019 : 537 –546. [27] 作者简介: 肖宇晗,硕士研究生,主要研究方 向为深度学习、数据挖掘和自然语言 处理。 林慧苹,副教授,博士,主要研究 方向为大数据分析、企业信息服务,主 持和参与国家 863 计划、国家自然科 学基金项目、国家重点研发计划项目 等多项。发表学术论文 20 余篇。 谭营,教授,博士生导师,主要研 究方向为智能科学、计算智能与群体 智能、机器学习、人工神经网络、群体 机器人、大数据挖掘。烟花算法发明 人。吴文俊人工智能科学技术成就奖 创新三等奖获得者。发表学术论文 330 余篇,出版学术专著 12 部。 陈小平主编《人工智能伦理导引》出版 人工智能是 21 世纪最引人注目的重大科技进展,被普遍认为是第四次工业革命的引导力量。人工智能 与大数据、网络、信息、自动化、物联网和云计算等新技术相结合,正渗透到工业、农业、服务业、交通运输、 能源、金融、安全和国防等各个领域,成为这些产业部门转型升级的核心驱动力。在这种新形势下,人工智 能及大数据等相关技术将对各行各业、各种岗位的从业人员产生广泛、深刻、长期的影响。由此出现一种普 遍的现象:所有社会成员都需要更多、更深入地了解人工智能,全面、客观、准确地认识人工智能带给我们的 正面效应和负面效应。 社会的上述巨大变化必然反映到教育实践中,引出本科生和研究生教育的一种全新的重大需求—人 工智能及其应用的快速发展,要求对现有学校教育内容进行及时的扩展,将人工智能和人工智能伦理纳入 各个学科的教育体系,开设相关的课程和培训,使学生得到必要的培养和训练。为此中国人工智能学会人 工智能伦理专委会(筹)主任陈小平领衔法律、哲学等社会科学相关领域一线专家共同编写了国内第一部跨 学科、导引性人工智能伦理教材—《人工智能伦理导引》。本书面向所有专业的本科生和研究生,对相 关专业的研究者、相关领域的管理者和相关行业的从业者亦有普遍参考价值。 对人工智能基本原理、主要技术进展和当前挑战进行专业性、通俗化的概括与解读,为人工智能伦理和 治理的学习与探索奠定可靠的技术基础;对当前人工智能伦理与治理的五个重点领域—数据、企业、AI 科 研、传媒、法制进行专业解剖和案例分析,为人工智能伦理与治理的理论研究和应用实践提供专业基础;对 人机社会技术伦理进行系统性的梳理与反思,为人工智能伦理专业研究深造提供知识基础。 本书重要特色主要体现在: 跨学科与导引性 国内第一部由人工智能与法律、科技伦理、哲学等相关领域专家共同编写的跨学科、 导引性人工智能伦理教材。 内容专业且有趣,深刻且通俗 本书针对人工智能的广泛应用以及人工智能伦理和 治理的普遍迫切需求,采用通俗的语言,传授精当的知识。内容专业深刻的同时,与普遍 应用和生活实际相联系,由浅入深地进行探究。 章前导读、章后讨论,阅读指引实用 每章开始前由案例导入,引出章节主题。在进 行细致学习后,每章最后附有讨论与思考题,发人深省,激发读者对有关人工智能及科技 伦理相关问题进行思索和探究。章节结构的设置为读者提供了实用的阅读和学习指引。 第 1 期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·151·