第15卷第3期 智能系统学报 Vol.15 No.3 2020年5月 CAAI Transactions on Intelligent Systems May 2020 D0L:10.11992tis.201812017 层次化双注意力神经网络模型的情感分析研究 曾碧卿,韩旭丽2,王盛玉2,周武2,杨恒2 (1.华南师范大学软件学院,广东佛山528225,2.华南师范大学计算机学院,广东广州510631) 摘要:在篇章级的情感分类中由于篇章级文本较长,特征提取较普通句子级分析相对较难,大多方法使用层 次化的模型进行篇章文本的情感分析,但目前的层次化模型多以循环神经网络和注意力机制为主,单一的循环 神经网络结构提取的特征不够明显。本文针对篇章级的情感分类任务,提出一种层次化双注意力神经网络模 型。首先对卷积神经网络进行改进,构建词注意力卷积神经网络。然后模型从两个层次依次提取篇章特征,第 一层次使注意力卷积神经网络发现每个句子中的重要词汇,提取句子的词特征,构建句子特征向量:第二层次 以循环神经网络获取整个篇章的语义表示,全局注意力机制发现篇章中每个句子的重要性,分配以不同的权 重,最后构建篇章的整体语义表示。在IMDB、YELP2013、YELP2014数据集上的实验表明,模型较当前最好 的模型更具优越性。 关键词:情感分析:注意力机制;卷积神经网络:情感分类;循环神经网络:词向量:深度学习:特征选取 中图分类号:TP391文献标志码:A文章编号:1673-4785(2020)03-0460-08 中文引用格式:曾碧卿,韩旭丽,王盛玉,等.层次化双注意力神经网络模型的情感分析研究.智能系统学报,2020,15(3): 460-467. 英文引用格式:ZENGBiqing,.HAN Xuli,WANG Shengyu,.etal.Hierarchical double-attention neural networks for sentiment clas sification[J].CAAI transactions on intelligent systems,2020,15(3):460-467. Hierarchical double-attention neural networks for sentiment classification ZENG Biqing HAN Xuli,WANG Shengyu',ZHOU Wu,YANG Heng (1.College of Software,South China Normal University,Foshan 528225,China;2.College of Computer,South China Normal University,Guangzhou 510631,China) Abstract:In sentiment classification,feature extraction in the document level is more difficult than the analysis in the common sentence level because of the length of the text.Most methods apply a hierarchical model to the sentiment ana- lysis of text in the document level.However,most existing hierarchical methods mainly focus on a recurrent neural net- work(RNN)and attention mechanism,and the feature extracted by a single RNN is unclear.To solve the sentiment clas- sification problem in the document level,we propose a hierarchical double-attention neural network model.In the first step,we improve a convolutional neural network(CNN),construct a word attention CNN,and then extract the features of the chapter from two levels.In the first level,the attention CNN can identify important words and phrases from every sentence,extract the word feature of the sentence,and construct the feature vector of the sentence.In the second level, the semantic meaning of the document is derived by the RNN.The global attention mechanism can find the importance of every sentence in the document,attribute different weights to them,and construct the whole semantic representation of the document.The experiment results on IMDB,YELP 2013,and YELP 2014 datasets show that our model achieves a more significant improvement than all state-of-the-art methods. Keywords:sentiment analysis;attention mechanism;convolutional neural network(CNN);sentiment classification;re- current neural network (RNN);word vector;deep learning;feature selection 情感分析的目的是根据用户或者产品中的数 收稿日期:2018-12-15. 基金项目:国家自然科学基金项目(61772211,61503143). 据进行分析其极性特征,得出用户的行为分析结 通信作者:曾碧卿.E-mail:zengbiqing0528@163.com. 果。目前,情感分析已经得到工业界和学术界的
DOI: 10.11992/tis.201812017 层次化双注意力神经网络模型的情感分析研究 曾碧卿1 ,韩旭丽2 ,王盛玉2 ,周武2 ,杨恒2 (1. 华南师范大学 软件学院,广东 佛山 528225; 2. 华南师范大学 计算机学院,广东 广州 510631) 摘 要:在篇章级的情感分类中由于篇章级文本较长,特征提取较普通句子级分析相对较难,大多方法使用层 次化的模型进行篇章文本的情感分析,但目前的层次化模型多以循环神经网络和注意力机制为主,单一的循环 神经网络结构提取的特征不够明显。本文针对篇章级的情感分类任务,提出一种层次化双注意力神经网络模 型。首先对卷积神经网络进行改进,构建词注意力卷积神经网络。然后模型从两个层次依次提取篇章特征,第 一层次使注意力卷积神经网络发现每个句子中的重要词汇,提取句子的词特征,构建句子特征向量;第二层次 以循环神经网络获取整个篇章的语义表示,全局注意力机制发现篇章中每个句子的重要性,分配以不同的权 重,最后构建篇章的整体语义表示。在 IMDB、YELP 2013、YELP 2014 数据集上的实验表明,模型较当前最好 的模型更具优越性。 关键词:情感分析;注意力机制;卷积神经网络;情感分类;循环神经网络;词向量;深度学习;特征选取 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2020)03−0460−08 中文引用格式:曾碧卿, 韩旭丽, 王盛玉, 等. 层次化双注意力神经网络模型的情感分析研究 [J]. 智能系统学报, 2020, 15(3): 460–467. 英文引用格式:ZENG Biqing, HAN Xuli, WANG Shengyu, et al. Hierarchical double-attention neural networks for sentiment classification[J]. CAAI transactions on intelligent systems, 2020, 15(3): 460–467. Hierarchical double-attention neural networks for sentiment classification ZENG Biqing1 ,HAN Xuli2 ,WANG Shengyu2 ,ZHOU Wu2 ,YANG Heng2 (1. College of Software, South China Normal University, Foshan 528225, China; 2. College of Computer, South China Normal University, Guangzhou 510631, China) Abstract: In sentiment classification, feature extraction in the document level is more difficult than the analysis in the common sentence level because of the length of the text. Most methods apply a hierarchical model to the sentiment analysis of text in the document level. However, most existing hierarchical methods mainly focus on a recurrent neural network (RNN) and attention mechanism, and the feature extracted by a single RNN is unclear. To solve the sentiment classification problem in the document level, we propose a hierarchical double-attention neural network model. In the first step, we improve a convolutional neural network (CNN), construct a word attention CNN, and then extract the features of the chapter from two levels. In the first level, the attention CNN can identify important words and phrases from every sentence, extract the word feature of the sentence, and construct the feature vector of the sentence. In the second level, the semantic meaning of the document is derived by the RNN. The global attention mechanism can find the importance of every sentence in the document, attribute different weights to them, and construct the whole semantic representation of the document. The experiment results on IMDB, YELP 2013, and YELP 2014 datasets show that our model achieves a more significant improvement than all state-of-the-art methods. Keywords: sentiment analysis; attention mechanism; convolutional neural network (CNN); sentiment classification; recurrent neural network (RNN); word vector; deep learning; feature selection 情感分析的目的是根据用户或者产品中的数 据进行分析其极性特征,得出用户的行为分析结 果。目前,情感分析已经得到工业界和学术界的 收稿日期:2018−12−15. 基金项目:国家自然科学基金项目 (61772211,61503143). 通信作者:曾碧卿. E-mail:zengbiqing0528@163.com. 第 15 卷第 3 期 智 能 系 统 学 报 Vol.15 No.3 2020 年 5 月 CAAI Transactions on Intelligent Systems May 2020
第3期 曾碧卿,等:层次化双注意力神经网络模型的情感分析研究 ·461· 广泛关注。 征。第二层中,GRU神经网络可提取到整个篇章 篇章的情感分类是情感分析任务中的一项基 的语义,全局注意力可关注到篇章中的重点句 础任务,假设每个篇章只有一个情感目标的情况 子,得到篇章的整体语义信息s。 下,分析篇章的情感极性得到情感倾向性。Pang 本文主要贡献如下: 等采用了传统统计学的方法在情感分析上进行 1)利用注意力机制与卷积神经网络进行建 应用,对文本中词的性质特征进行有效的标注, 模,构建层化的情感分类模型,改进的CNN可有 该方法在情感分析的实验中取得良好的实验效 效发现句子的重点词汇,形成句子表示; 果,由此证明了标记词性在情感分析上具有积极 2)本文的模型在多个数据集上取得当前最好 的意义。Lu等利用词典WordNet来发现情感 实验效果: 词汇。Wang等)将机器学习方法SVM与朴素 3)本文从局部特征和全局语义两个角度提取 叶斯方法进行结合,在情感分类任务中得到良好 特征,两个注意力机制分别关注不同的侧面,多 的实验效果。Kiritchenko等使用tweets中的标 元的特征更有助于篇章的表达。 签和表情来构建情感特征。 神经网络模型在自然语言处理的各个领域都 1相关工作 取得较好效果,如命名实体识别6、机器阅读 篇章级别的情感分类是情感分析的一项基础 和问答系统。在篇章情感分析中,Kimo提出用 工作,Pang等川将情感分类问题视为同篇章分 词向量训练方法表示文本信息,在CNN模型中成 类相似的任务,采用监督学习算法解决该任务。 功地进行文本的篇章分类。Kalchbrenner等l Wan1使用英文数据作为训练集,训练模型解决 构建卷积神经网络模型,采用MAX-Pooling进行 了中文情感分类问题,用于解决交叉语言情感分 提取情感特征并取得良好的实验效果。Zhang等回 析的难题。Zagibalov等11提出一种能自动提取 使用字符作为最小单元,以卷积神经网络进行文 商品评论中情感词的方法,该方法是一种无监督 本分类,在多个数据上取得较好效果。 的机器学习算法,无需任何的标注数据集。 层次化神经网络模型和注意力机制结合在情 但是,上述方法多依赖于特征工程,在构建特 感分析中取得较好效果。Tang等)建立了一种 征工程过程中需要耗费大量时间和财力,并且不 层次化模型,使用CNN和LSTM从词和句子两个 能很好地提取到评论的语法和语义信息。词嵌 角度获取篇章的特征表示。Yang等l将注意力 入92)原理在于,利用一个计算好的词典向量表 机制与层次化模型结合,利用注意力机制分别关 将文本映射成相应的实值向量。Tang等22使用 注句子中的关键词和篇章中的关键句子。这些方 ~种改进的基于情感信息辅助的词嵌入方法提高 法多以循环神经网络模型为基础,结合注意力构 情感分析的准确性。其他的传统神经网络模型在 建层次化的模型,或者仅从词角度分析篇章。 情感分析任务中应用得非常广泛,如RNN和CNN 在篇章级的文本情感分析中,理想的层次化 常被用来设计模型,并且承担了大量的情感分析 任务。Kimo以CNN为基础构建了一个多通道 情感分析模型应当在层次的第一层中将重点情感 特征进行明显表示,以帮助模型挖掘到重要的情 CNN模型,以此提取多方面的情感特征。Johnson 感特征。在第二层发现并整合篇章的重要句子, 等21用单词的独热表示作为输入特征,使模型学 习到更深层的语义特征,从而进行情感分析。 得到篇章整体语义。CNN具有较强的局部特征 Socher等2a在RNN上进行构建情感分类模型并 提取能力,但CNN无法自动判别输入文本中哪些 取得良好的实验效果。Tang等l1提出将卷积神 局部特征词较为重要,故本文首先结合注意力和 经网络与循环神经网络进行结合的基于层次化的 卷积神经网络构建词注意力的卷积神经网络,发 篇章分类模型。该模型首先利用CNN或RNN学 现重点词汇。因此,本文构建一个双注意力的层 习句子的特征表示。然后,使用一种带有门控机 次化情感分析模型。采用双注意力机制,模型使 制的RNN构建篇章的特征表示。 用两个注意力机制,分别关注重要的词汇和句 注意力机制是一种有效神经网络机制。Xu 子。在提取句子中的关键词时,使用局部注意力 等2利用注意力机制进行图像分析,在图像分类 机制,获取篇章关键句子时,使用全局注意力机 上改善了分类的性能。注意力机制在其他领域也 制。CNN有助于获取局部特征,局部注意力可使 有良好的应用,例如在机器翻译领域获得了应用 模型更有效地关注重点词汇,提取句子的局部特 研究,其常被用来优化encode-decode模型以解决
广泛关注。 篇章的情感分类是情感分析任务中的一项基 础任务,假设每个篇章只有一个情感目标的情况 下,分析篇章的情感极性得到情感倾向性。Pang 等 [1] 采用了传统统计学的方法在情感分析上进行 应用,对文本中词的性质特征进行有效的标注, 该方法在情感分析的实验中取得良好的实验效 果,由此证明了标记词性在情感分析上具有积极 的意义。Lu 等 [2] 利用词典 WordNet 来发现情感 词汇。Wang 等 [3] 将机器学习方法 SVM 与朴素贝 叶斯方法进行结合,在情感分类任务中得到良好 的实验效果。Kiritchenko 等 [4] 使用 tweets 中的标 签和表情来构建情感特征。 神经网络模型在自然语言处理的各个领域都 取得较好效果,如命名实体识别[5-6] 、机器阅读[7-8] 和问答系统[9]。在篇章情感分析中,Kim[10] 提出用 词向量训练方法表示文本信息,在 CNN 模型中成 功地进行文本的篇章分类。Kalchbrenner 等 [11] 构建卷积神经网络模型,采用 MAX-Pooling 进行 提取情感特征并取得良好的实验效果。Zhang 等 [12] 使用字符作为最小单元,以卷积神经网络进行文 本分类,在多个数据上取得较好效果。 层次化神经网络模型和注意力机制结合在情 感分析中取得较好效果。Tang 等 [13] 建立了一种 层次化模型,使用 CNN 和 LSTM 从词和句子两个 角度获取篇章的特征表示。Yang 等 [14] 将注意力 机制与层次化模型结合,利用注意力机制分别关 注句子中的关键词和篇章中的关键句子。这些方 法多以循环神经网络模型为基础,结合注意力构 建层次化的模型,或者仅从词角度分析篇章。 在篇章级的文本情感分析中,理想的层次化 情感分析模型应当在层次的第一层中将重点情感 特征进行明显表示,以帮助模型挖掘到重要的情 感特征。在第二层发现并整合篇章的重要句子, 得到篇章整体语义。CNN 具有较强的局部特征 提取能力,但 CNN 无法自动判别输入文本中哪些 局部特征词较为重要,故本文首先结合注意力和 卷积神经网络构建词注意力的卷积神经网络,发 现重点词汇。因此,本文构建一个双注意力的层 次化情感分析模型。采用双注意力机制,模型使 用两个注意力机制,分别关注重要的词汇和句 子。在提取句子中的关键词时,使用局部注意力 机制,获取篇章关键句子时,使用全局注意力机 制。CNN 有助于获取局部特征,局部注意力可使 模型更有效地关注重点词汇,提取句子的局部特 征。第二层中,GRU 神经网络可提取到整个篇章 的语义,全局注意力可关注到篇章中的重点句 子,得到篇章的整体语义信息[15-16]。 本文主要贡献如下: 1) 利用注意力机制与卷积神经网络进行建 模,构建层化的情感分类模型,改进的 CNN 可有 效发现句子的重点词汇,形成句子表示; 2) 本文的模型在多个数据集上取得当前最好 实验效果; 3) 本文从局部特征和全局语义两个角度提取 特征,两个注意力机制分别关注不同的侧面,多 元的特征更有助于篇章的表达。 1 相关工作 篇章级别的情感分类是情感分析的一项基础 工作[3] ,Pang 等 [1] 将情感分类问题视为同篇章分 类相似的任务,采用监督学习算法解决该任务。 Wan[17] 使用英文数据作为训练集,训练模型解决 了中文情感分类问题,用于解决交叉语言情感分 析的难题。Zagibalov 等 [18] 提出一种能自动提取 商品评论中情感词的方法,该方法是一种无监督 的机器学习算法,无需任何的标注数据集。 但是,上述方法多依赖于特征工程,在构建特 征工程过程中需要耗费大量时间和财力,并且不 能很好地提取到评论的语法和语义信息。词嵌 入 [19-21] 原理在于,利用一个计算好的词典向量表 将文本映射成相应的实值向量。Tang 等 [22] 使用 一种改进的基于情感信息辅助的词嵌入方法提高 情感分析的准确性。其他的传统神经网络模型在 情感分析任务中应用得非常广泛,如 RNN 和 CNN 常被用来设计模型,并且承担了大量的情感分析 任务。Kim[10] 以 CNN 为基础构建了一个多通道 CNN 模型,以此提取多方面的情感特征。Johnson 等 [23] 用单词的独热表示作为输入特征,使模型学 习到更深层的语义特征,从而进行情感分析。 Socher 等 [24] 在 RNN 上进行构建情感分类模型并 取得良好的实验效果。Tang 等 [13] 提出将卷积神 经网络与循环神经网络进行结合的基于层次化的 篇章分类模型。该模型首先利用 CNN 或 RNN 学 习句子的特征表示。然后,使用一种带有门控机 制的 RNN 构建篇章的特征表示。 注意力机制是一种有效神经网络机制。Xu 等 [25] 利用注意力机制进行图像分析,在图像分类 上改善了分类的性能。注意力机制在其他领域也 有良好的应用,例如在机器翻译领域获得了应用 研究,其常被用来优化 encode-decode 模型以解决 第 3 期 曾碧卿,等:层次化双注意力神经网络模型的情感分析研究 ·461·
·462· 智能系统学报 第15卷 机器翻译效果不佳等问题26-27。Zhou等21结合 到模型,取得较好的情感分类效果。 LSTM和注意力机制用于情感分类。Allamanis 等2y在文本摘要领域使用attention机制,都取得 2层次化的双注意力神经网络模型 较好效果。Yin等0将卷积神经网络与注意力机 如图1所示,该图是层次化的双注意力神经 制融合,提出一种新的模型以用于情感分析。这 网络模型,模型进行篇章特征提取后,得到最终 些模型方法充分证明了注意力机制在卷积神经网 的情感特征,从而进行分析情感极性。首先对篇 络中的实验有效性。Wang等B提出将卷积神经 章中的每个句子通过词注意力卷积神经网络获取 网络与多个注意力进行结合并在情感分类任务中 句子的词特征,进而构建句子的特征表示;然后 取得了良好的实验效果。Chen等使用层次化 使用全局注意力机制的LSTM提取句子向量的整 的模型,借助注意力机制将用户和产品信息加入 体篇章表示。 词嵌入 注意力层 卷积层 池化层句子表示 BGRU 句子注意力篇章表示 图1层次化双注意力神经网络模型 Fig.I Architecture of hierarchical double-attention networks 2.1词特征提取 特征,而注意力机制的作用是为了将重要的特征 针对在情感分析应用模型中卷积神经网络模 进行突出。 型存在的缺点,本文提出一种词特征提取的词注 词嵌入层:文本进行词嵌入映射表示得到 意力卷积神经网络模型,具体包括如下几部分: 连续低维的实值向量,假设文本表示为S={w, 1)词嵌入层:词注意神经网络模型的第一层 w2,…,wn-l,w小,其中W:是文本中第i个词语或者 为词嵌入层,主要的作用是将词进行序列化表示 短语。本文利用one-hot算法对文本进行向量表 后得到文本的词嵌人表示。 示。本文设置的向量维度用d行表示: 2)词注意力层:针对上一层的输出,对词嵌 &=we,&∈R (1) 入层进行重点词提取,由此在词嵌入后进行添加 式中:e∈Rd是词嵌入矩阵;M表示整个数据集 词注意力机制,作用是减少在训练过程中噪声对 中词汇的数量;d代表词向量的维度。将文本进 实验的影响。 行词嵌入表示X={,x2,…,xn}o 3)卷积层:在词注意力层之后加入卷积层, 词注意力层:在词嵌入层表示后,让单词表 本文使用的卷积核的窗口大小为1、3、4和5。用 示中的情感特征更为突出,然后本文借助于n- 于提取更多的情感特征。 grams的语言模型,并借助该中心词的上下文的 在情感分析中,通过词注意力层和卷积层,使 n个词作为该中心词的语义表示。本文以大小 模型在训练过程中具有文本词特征的鉴别能力。 L=[P:-D,P+D]=1+2D的词表示该中心词的语 其卷积层是为了选出对情感分析作用帮助更大的 义表示。用Wm∈R作为滑动窗口的矩阵参数
机器翻译效果不佳等问题[26-27]。Zhou 等 [28] 结合 LSTM 和注意力机制用于情感分类。Allamanis 等 [29] 在文本摘要领域使用 attention 机制,都取得 较好效果。Yin 等 [30] 将卷积神经网络与注意力机 制融合,提出一种新的模型以用于情感分析。这 些模型方法充分证明了注意力机制在卷积神经网 络中的实验有效性。Wang 等 [31] 提出将卷积神经 网络与多个注意力进行结合并在情感分类任务中 取得了良好的实验效果。Chen 等 [32] 使用层次化 的模型,借助注意力机制将用户和产品信息加入 到模型,取得较好的情感分类效果。 2 层次化的双注意力神经网络模型 如图 1 所示,该图是层次化的双注意力神经 网络模型,模型进行篇章特征提取后,得到最终 的情感特征,从而进行分析情感极性。首先对篇 章中的每个句子通过词注意力卷积神经网络获取 句子的词特征,进而构建句子的特征表示;然后 使用全局注意力机制的 LSTM 提取句子向量的整 体篇章表示。 池化层 句子表示 … … … … … … … … … … … us v 词嵌入 注意力层 卷积层 BGRU 句子注意力 篇章表示 h2 hi hi h2 h1 h1 αi α2 α1 图 1 层次化双注意力神经网络模型 Fig. 1 Architecture of hierarchical double-attention networks 2.1 词特征提取 针对在情感分析应用模型中卷积神经网络模 型存在的缺点,本文提出一种词特征提取的词注 意力卷积神经网络模型,具体包括如下几部分: 1) 词嵌入层:词注意神经网络模型的第一层 为词嵌入层,主要的作用是将词进行序列化表示 后得到文本的词嵌入表示。 2) 词注意力层:针对上一层的输出,对词嵌 入层进行重点词提取,由此在词嵌入后进行添加 词注意力机制,作用是减少在训练过程中噪声对 实验的影响。 3) 卷积层:在词注意力层之后加入卷积层, 本文使用的卷积核的窗口大小为 1、3、4 和 5。用 于提取更多的情感特征。 在情感分析中,通过词注意力层和卷积层,使 模型在训练过程中具有文本词特征的鉴别能力。 其卷积层是为了选出对情感分析作用帮助更大的 特征,而注意力机制的作用是为了将重要的特征 进行突出。 S = {w1, w2,··· ,wn−1,wn} wi i d 词嵌入层:文本进行词嵌入映射表示得到 连续低维的实值向量,假设文本表示为 ,其中 是文本中第 个词语或者 短语。本文利用 one-hot 算法对文本进行向量表 示。本文设置的向量维度用 行表示: xi = wie, xi ∈ R d (1) e ∈ R |v|×d |ν| X = {x1, x2,··· , xn} 式中: 是词嵌入矩阵; 表示整个数据集 中词汇的数量;d 代表词向量的维度。将文本进 行词嵌入表示 。 L = [ pi − D, pi+D] = 1+2D Watt ∈ R L×d 词注意力层:在词嵌入层表示后,让单词表 示中的情感特征更为突出,然后本文借助于 ngrams 的语言模型,并借助该中心词的上下文的 n 个词作为该中心词的语义表示。本文以大小 的词表示该中心词的语 义表示。用 作为滑动窗口的矩阵参数。 ·462· 智 能 系 统 学 报 第 15 卷
第3期 曾碧卿,等:层次化双注意力神经网络模型的情感分析研究 ·463· 其中,P:表示该中心词,D表示选取的上下文的 卷积层的作用在于提取每个词特征信息和词 长度。如图2所示,由此计算每个词表示:的特 的上下文信息。在词注意力之后得到的文本特征 征值权重,可以帮助文本中情感分析的重要程 信息X作为卷积的输人。同时在卷积层中运用 度值更加明显。 多个不同大小的卷积核进行提取文本特征,每个 X= 卷积核取一定的数量。不同之处在于,增加了大 W.∈RLd 小为1的卷积核,用于对每个词进行特征提取。 将卷积层输出的特征图作为最大池化层的输入, 得到篇章的特征表示s: s;CNN(X) (7) 式中i代表篇章中的第几个句子。 图2词注意力层 2.2篇章特征提取 Fig.2 Local attention 篇章分析假设输人句子层次词注意卷积神 X={-D,…,,…,+D} (2) 经网络获取到句子向量s,将向量作为双向GRU ai=h(X"Wan+bau) (3) 神经网络的输入,双向GU的输出串联作为特征 式中:X"表示以:为中心,将上下文的大小设置 表示: 为L;h()代表sigmoid激活函数;用bm代表偏置 项。如图2所示,在词注意力层中运用滑动窗口 h:=Z,方-Bi-GRU(s) (8) 机制,进一步探索词嵌入X的深层特征值,并为 篇章全局注意力通过词注意力卷积神经网 每个词的局部特征X分配权重: 络获取到每个句子的特征表示,经过双向GRU进 a={a1,a2,·,an} (4) 一步编码提取每个句子的信息,将双向GRU的输 式中n表示文章中句子的长度。用a表示句子中 出作为全局注意力层的输入,得到每个句子对篇 词或短语的重要程度值,将词特征与权重相乘, 章表示的贡献,排除掉无用的句子并获取到篇章 更新每个词的特征表示,得到X: 的整体语义信息。具体计算如下: x=aiXi u:tanh (W hi+ba) (9) xERd (5) exp(u;) Xm=,…,,…, 0:= (10) 卷积层传统的情感分析处理自然语言的方 ∑exp(u) 法一般采用1-gram、2-gram和n-gram语言模型提 v=∑ah (11) 取文本的情感特征。Pang等W曾使用该方法进行 情感分析,并取得良好的实验效果。卷积神经网 其中双向GRU的输出经过一个多层感知机,使用 络模型根据上下文大小提取局部特征值,卷积核 tanh非线性激活函数,得到每个编码句子的权重 参数可∈Rd都将以X为中心,在每一次的卷积 值,归一化softmax函数将权重分布在[0,1]之间; 操作中,提取卷积上下文窗口大小作为D的局部 将句子编码为向量h:并与对应权重a:相乘求和 特征,并将其视为n-grams特征提取。 最终得到特征表示v。 本文中,取卷积核大小为3,则文本中心词对 2.3篇章分类 应的上下范围为1,并遵循马尔可夫原则,即卷积 篇章特征向量由提取词和句子特征后得到。 核大小变为5时,中心词对应上下文范围扩大为2。 向量首先通过多层感知机映射到情感类别空间 当卷积核大小取3时,其上下文大小为1,进行卷 C,再使用softmax函数得到情感类别分布Pc。 Pc softmax(Wv+b) (12) 积操作时,无法取到第一个词的上文以及最后一 式中Pc代表篇章在类别C上的预测概率。 个词的下文表示。即首尾两个词导致有h/2创个 实验中将预测的类别分布同真实分布进行对 词无法提取到对应的n-grams特征,将产生文本 比,训练过程中使用交叉熵作为模型的损失函 信息提取不足的问题。为解决此问题,本文采取 数。以P作为真实类别整体概率分布,Pc(d是篇 首尾填充操作,即在卷积层的输入末尾进行大小 为h-1的0向量补全。 章的预测概率分布,损失函数为 X=X⊕…⊕o⊕0 (6) loss = ∑∑P(dn(Pc(d) (13) h-1 式中⊕表示串联操作。 式中D表示训练的样本集
pi D xi αi 其中, 表示该中心词, 表示选取的上下文的 长度。如图 2所示,由此计算每个词表示 的特 征值权重 ,可以帮助文本中情感分析的重要程 度值更加明显。 Watt∈RL×d X={x1 , x2 , …, xn} * D α 图 2 词注意力层 Fig. 2 Local attention X att i = {xi−D,··· , xi ,··· , xi+D} (2) αi = h ( X att i Watt +batt) (3) X att i xi L h(·) batt X 式中: 表示以 为中心,将上下文的大小设置 为 ; 代表 sigmoid 激活函数;用 代表偏置 项。如图 2 所示,在词注意力层中运用滑动窗口 机制,进一步探索词嵌入 的深层特征值,并为 每个词的局部特征 X 分配权重 α: α = {α1,α2,··· ,αn} (4) n Xatt 式中 表示文章中句子的长度。用 α 表示句子中 词或短语的重要程度值,将词特征与权重相乘, 更新每个词的特征表示,得到 : x att i = αixi x att i ∈ R d Xatt = {x att 1 , x att 2 ··· , x att i , x att i+1 ··· , x att n } (5) ϖ ∈ R h×d Xi D 卷积层 传统的情感分析处理自然语言的方 法一般采用 1-gram、2-gram 和 n-gram 语言模型提 取文本的情感特征。Pang 等 [1] 曾使用该方法进行 情感分析,并取得良好的实验效果。卷积神经网 络模型根据上下文大小提取局部特征值,卷积核 参数 都将以 为中心,在每一次的卷积 操作中,提取卷积上下文窗口大小作为 的局部 特征,并将其视为 n-grams特征提取。 ⌊h/2⌋ h−1 本文中,取卷积核大小为 3,则文本中心词对 应的上下范围为 1,并遵循马尔可夫原则,即卷积 核大小变为 5 时,中心词对应上下文范围扩大为 2。 当卷积核大小取 3 时,其上下文大小为 1,进行卷 积操作时,无法取到第一个词的上文以及最后一 个词的下文表示。即首尾两个词导致有 个 词无法提取到对应的 n-grams 特征,将产生文本 信息提取不足的问题。为解决此问题,本文采取 首尾填充操作,即在卷积层的输入末尾进行大小 为 的 0 向量补全。 X = Xatt ⊕··· ⊕ x0 ⊕ x0 | {z } h−1 (6) 式中 ⊕ 表示串联操作。 Xatt si 卷积层的作用在于提取每个词特征信息和词 的上下文信息。在词注意力之后得到的文本特征 信息 作为卷积的输入。同时在卷积层中运用 多个不同大小的卷积核进行提取文本特征,每个 卷积核取一定的数量。不同之处在于,增加了大 小为 1 的卷积核,用于对每个词进行特征提取。 将卷积层输出的特征图作为最大池化层的输入, 得到篇章的特征表示 : si = CNN(Xatt) (7) 式中 i 代表篇章中的第几个句子。 2.2 篇章特征提取 si 篇章分析 假设输入句子层次词注意卷积神 经网络获取到句子向量 ,将向量作为双向 GRU 神经网络的输入,双向 GRU 的输出串联作为特征 表示: hi = [ −→hi , ←−hi ] = Bi−GRU(si) (8) 篇章全局注意力 通过词注意力卷积神经网 络获取到每个句子的特征表示,经过双向 GRU 进 一步编码提取每个句子的信息,将双向 GRU 的输 出作为全局注意力层的输入,得到每个句子对篇 章表示的贡献,排除掉无用的句子并获取到篇章 的整体语义信息。具体计算如下: ui = tanh( Wghi +bg ) (9) αi = ∑ exp(ui) i exp(ui) (10) v = ∑ i αihi (11) tanh softmax hi αi v 其中双向 GRU 的输出经过一个多层感知机,使用 非线性激活函数,得到每个编码句子的权重 值,归一化 函数将权重分布在 [0,1] 之间; 将句子编码为向量 并与对应权重 相乘求和 最终得到特征表示 。 2.3 篇章分类 v C softmax PC 篇章特征向量由提取词和句子特征后得到。 向量 首先通过多层感知机映射到情感类别空间 ,再使用 函数得到情感类别分布 。 PC = softmax(Wcv+bc) (12) 式中 PC 代表篇章在类别 C 上的预测概率。 P g C PC (d) 实验中将预测的类别分布同真实分布进行对 比,训练过程中使用交叉熵作为模型的损失函 数。以 作为真实类别整体概率分布, 是篇 章的预测概率分布,损失函数为 loss = − ∑ d∈D ∑C c=1 P g C (d)ln(PC (d)) (13) 式中 D 表示训练的样本集。 第 3 期 曾碧卿,等:层次化双注意力神经网络模型的情感分析研究 ·463·
·464· 智能系统学报 第15卷 3实验数据与实验设置 型实验结果,如表3所示,有SVM(support vector machine)、NN(neural network)等。 3.1数据集 表3情感分析模型的实验结果 为验证本文提出模型的有效性,实验部分在 Table 3 Results of the sentiment analysis of the models 以下3个公开数据集上进行,所用数据集来自于 模型 IMDB YELP 2013 YELP 2014 Chen等的数据集: Majority M①DB:用户在不同商品上的评论数据集。用 19.6 41.1 39.2 于对评论进行情感倾向性分析,每条评论分为 Trigram 39.9 56.9 57.7 10个情感强度 TextFeature 40.2 55.6 57.2 YELP:Yelp比赛2013年和2014年的数据 AvgWordvec 30.4 52.6 53 集,每条评论分为5个强度。 SSWE 31.2 54.9 55.7 数据集详细信息如表1所示。 Paragraph Vector 34.1 55.4 56.4 表1数据集 RNTN+RNN 40 57.4 58.2 Table 1 Datasets NSC 44.3 62.7 63.7 数据集类别文档数文档平均句子数句子平均单词数 NSC+LA 48.7 63.1 63 IMDB 1084919 16.08 24.54 Cnn2Cnn 48.6 YELP2013578966 63.2 62.8 10.89 17.38 Cnn2Rnn 49.4 64.1 64.2 YELP20145231163 11.41 17.26 3.2实验参数与数据处理 对比方法如下: 本数据集使用Keras进行数据预处理,分词 Majority:将训练集中占多数的情感标签视为 任务由Keras提供的tokenizer实现。将数据集划 测试集的情感标签。 分为训练、验证和测试集,划分比例分别为8:1:1。 Trigram:以一元词、二元词和三元词为特征 实验时对词向量进行降维处理,训练词向量维度 训练SVM分类器B。 为200维。卷积神经网络参数设置如表2所示。 TextFeature:提取文本的词特征、字符特征和 本文设置上下文范围大小D=2,滑动窗口数量为 词性特征训练SVM分类器。 1,GRU的输出维度设为100,双向得到向量为 AvgWordvec:将文档的词向量平均化得到文 200维,全连接层隐藏单元200个。 档表示,以此训练SVM分类器。 表2卷积层参数设置 S$WE:使用特别训练的情感词向量生成特 Table 2 Hyperparameter of CNN 征,SVM为分类器 参数 属性 NSC:双层LSTM分别获取词特征和句子特 激活函数 Recified linear Units 征,构建篇章表示四。 滑动窗口大小 1,3,4,5 NSC+LA:双层LSTM结合全局注意力机制 滑动窗口数量 100 提取篇章的特征表示 RNTN+RNN:使用递归神经网络提取句子 Dropout 0.5 的特征表示,并用循环神经网络得到篇章的特 Minibatch 64 征表示。 池化 最大池化 Paragraph Vector::PVDM模型用于情感分类。 实验模型指定batch size大小为32,同时对 Cnn2Cnn:词特征提取和句子特征提取都使 词向量进行动态微处理。本文使用Adadelta算法 用词注意卷积神经网络。 对模型参数进行了优化调整。为了提升实验效果 Cnn2Rnn:词特征提取使用词注意卷积神经 和模型准确率,训练过程中将含有句子数相近的 网络,句子特征提取使用GRU和全局注意力。 篇章形成一个batch,用以加速训练过程。最后, 3.4实验结果与分析 模型使用准确率作为评判标准。 本文的实验结果如表3所示,在3个数据集 3.3对比方法 上分别得到模型的准确率,将模型的对比实验分 为了测定模型效果,本实验对比了不同的模 为3组:第1组以传统特征提取结合分类器进行
3 实验数据与实验设置 3.1 数据集 为验证本文提出模型的有效性,实验部分在 以下 3 个公开数据集上进行,所用数据集来自于 Chen 等 [32] 的数据集: IMDB:用户在不同商品上的评论数据集。用 于对评论进行情感倾向性分析,每条评论分为 10 个情感强度。 YELP:Yelp 比赛 2013 年和 2014 年的数据 集,每条评论分为 5 个强度。 数据集详细信息如表 1 所示。 表 1 数据集 Table 1 Datasets 数据集 类别 文档数 文档平均句子数 句子平均单词数 IMDB 10 84 919 16.08 24.54 YELP 2013 5 78 966 10.89 17.38 YELP 2014 5 231 163 11.41 17.26 3.2 实验参数与数据处理 本数据集使用 Keras 进行数据预处理,分词 任务由 Keras 提供的 tokenizer 实现。将数据集划 分为训练、验证和测试集,划分比例分别为 8∶1∶1。 实验时对词向量进行降维处理,训练词向量维度 为 200 维。卷积神经网络参数设置如表 2 所示。 本文设置上下文范围大小 D=2,滑动窗口数量为 1,GRU 的输出维度设为 100,双向得到向量为 200 维,全连接层隐藏单元 200 个。 表 2 卷积层参数设置 Table 2 Hyperparameter of CNN 参数 属性 激活函数 Recified linear Units 滑动窗口大小 1,3,4,5 滑动窗口数量 100 Dropout 0.5 Minibatch 64 池化 最大池化 实验模型指定 batch_size 大小为 32,同时对 词向量进行动态微处理。本文使用 Adadelta 算法 对模型参数进行了优化调整。为了提升实验效果 和模型准确率,训练过程中将含有句子数相近的 篇章形成一个 batch,用以加速训练过程。最后, 模型使用准确率作为评判标准。 3.3 对比方法 为了测定模型效果,本实验对比了不同的模 型实验结果,如表 3 所示,有 SVM(support vector machine)、NN(neural network) 等。 表 3 情感分析模型的实验结果 Table 3 Results of the sentiment analysis of the models 模型 IMDB YELP 2013 YELP 2014 Majority 19.6 41.1 39.2 Trigram 39.9 56.9 57.7 TextFeature 40.2 55.6 57.2 AvgWordvec 30.4 52.6 53 SSWE 31.2 54.9 55.7 Paragraph Vector 34.1 55.4 56.4 RNTN+RNN 40 57.4 58.2 NSC 44.3 62.7 63.7 NSC+LA 48.7 63.1 63 Cnn2Cnn 48.6 63.2 62.8 Cnn2Rnn 49.4 64.1 64.2 对比方法如下: Majority:将训练集中占多数的情感标签视为 测试集的情感标签。 Trigram:以一元词、二元词和三元词为特征 训练 SVM 分类器[33]。 TextFeature:提取文本的词特征、字符特征和 词性特征训练 SVM 分类器。 AvgWordvec:将文档的词向量平均化得到文 档表示,以此训练 SVM 分类器。 SSWE:使用特别训练的情感词向量生成特 征,SVM 为分类器。 NSC:双层 LSTM 分别获取词特征和句子特 征,构建篇章表示[32]。 NSC+LA:双层 LSTM 结合全局注意力机制 提取篇章的特征表示[14]。 RNTN+RNN:使用递归神经网络提取句子 的特征表示,并用循环神经网络得到篇章的特 征表示。 Paragraph Vector:PVDM[34] 模型用于情感分类。 Cnn2Cnn:词特征提取和句子特征提取都使 用词注意卷积神经网络。 Cnn2Rnn:词特征提取使用词注意卷积神经 网络,句子特征提取使用 GRU 和全局注意力。 3.4 实验结果与分析 本文的实验结果如表 3 所示,在 3 个数据集 上分别得到模型的准确率,将模型的对比实验分 为 3 组:第 1 组以传统特征提取结合分类器进行 ·464· 智 能 系 统 学 报 第 15 卷
第3期 曾碧卿,等:层次化双注意力神经网络模型的情感分析研究 ·465· 情感分类:第2组使用层次化的循环神经网络作 较好实验结果,由于模型较为复杂,并且文本较 为基础,结合全局注意力机制,得到篇章的情感 长,导致模型训练时间上并非理想。在未来研究 类别:第3组是本文提取出的模型,以词注意力卷 中,优化模型的复杂性将是下一个改进的方向。 积神经网络模型提取句子的词特征,构建句子表 参考文献: 示,并以层次化的模型得到篇章情感倾向。 从第1组实验可以看出,传统方法和简单基 [1]PANG Bo.LEE L,VAITHYANATHAN S.Thumbs up?: 于词向量的方法较其余两组的情感分类效果差距 sentiment classification using machine learning 较大,说明在长文本的篇章中使用层次化的模型 techniques[C]//Proceedings of the ACL-02 Conference on 更有助于提取篇章的特征。 Empirical Methods in Natural Language Processing- 第2组的层次化循环神经网络,使用GRU或 Volume 10.Stroudsburg,USA,2002:79-86. LSTM构建层次化的模型,模型在各个数据集上 [2]LU Yue,CASTELLANOS M,DAYAL U,et al.Automat- 都有较大幅度的提升,NSC较Paragraph Vector提 ic construction of a context-aware sentiment lexicon:an optimization approach[Cl//Proceedings of the 20th Interna- 升都在8%左右。注意力机制有助于模型关注突 tional Conference on World Wide Web.Hyderabad,India, 出的情感特征,从而,提升模型效果,NSC+LA改 2011:347-356 进了NSC,取得了更优效果。 [3]WANG Sida.MANNING C D.Baselines and bigrams: 卷积神经网络和循环神经网络在处理文本时 simple,good sentiment and topic classification[Cl//Pro- 各有优缺点,单一的循环神经网络结合注意力机 ceedings of the 50th Annual Meeting of the Association for 制,无法做到模型特征提取的多样性,从第3组实 Computational Linguistics:Short Papers.Jeju Island, 验可以看出,Cnn2Cnn模型与NSC+LA模型取得 Korea,2012:90-94 相近的结果,注意力机制虽不同,但CNN更关注 [4]KIRITCHENKO S,ZHU Xiaodan,MOHAMMAD S M. 于篇章的局部特征,对整体语义表征不够。 Sentiment analysis of short informal texts[J.Journal of ar- Cnn2Rnn取得了较之前更好的效果,在IM tificial intelligence research,2014,50:723-762. DB、YELP2013和YELP2014分别取得49.4%、 [5]LAMPLE G.BALLESTEROS M.SUBRAMANIAN S,et 64.1%和64.2%的准确率,较传统的第1组实验 al.Neural architectures for named entity recognition[Cl// 的方法提升为10%左右,较双层LSTM或GRU Proceedings of 2016 Conference of the North American 在IMDB、YELP2013、YELP2014提升5%、2%、 Chapter of the Association for Computational Linguistics: 1%左右,较单一模型的层次化注意力机制模型 Human Language Technologies.San Diego,USA,2016: NSC+LA和Cnn2Cnn,各数据集提升在1%左右。 260-270 词注意力卷积神经网络作为第1层,提取每 [6]SHEN Dinghan,MIN MR.LI Yitong,et al.Adaptive con- 个句子中的关键词,发现句子的局部重要信息, volutional filter generation for natural language under- 如情感词、语气词、转折词等,以此构建句子的特 standing.[J].arXiv:1709.08294,2017. 征表示;全局注意力机制发现篇章中重要的句 [7]WANG Shuohang,JIANG Jing.Machine comprehension 子,分配以高权重,循环神经网络模型提取整个 using match-LSTM and answer pointer[C]//Proceedings of 篇章句子的语义表达,避免CNN的局部提取而丢 International Conference on Learning Representations. 失信息。 Toulon,France,2017:1-15. [8]WANG Wenhui,YANG Nan,WEI Furu,et al.Gated self- 4结束语 matching networks for reading comprehension and ques- tion answering[C]//Proceedings of the 55th Annual Meet- 本文提出一种层次化的双注意力神经网络模 ing of the Association for Computational Linguistics.Van- 型,将其用于情感分析任务,取得较好效果。模 couver,Canada,2017:189-198. 型基于CNN和RNN,从局部注意力机制和全局 [9]KUMAR A,IRSOY O,ONDRUSKA P,et al.Ask me any- 注意力两个角度提取不同的特征,层次化篇章的 thing:dynamic memory networks for natural language pro- 注意力神经网络模型分别获得句子的重点词汇以 cessing[C]//Proceedings of the 33rd International Confer- 及整个篇章的重点句子特征。模型在多个数据集 ence on Machine Learning.New York,USA,2016: 上得到验证,说明在不同角度获取的特征更有助 1378-1387. 于表达篇章特征。虽然本文在篇章级文本中取得 [10]KIM Y.Convolutional neural networks for sentence clas-
情感分类;第 2 组使用层次化的循环神经网络作 为基础,结合全局注意力机制,得到篇章的情感 类别;第 3 组是本文提取出的模型,以词注意力卷 积神经网络模型提取句子的词特征,构建句子表 示,并以层次化的模型得到篇章情感倾向。 从第 1 组实验可以看出,传统方法和简单基 于词向量的方法较其余两组的情感分类效果差距 较大,说明在长文本的篇章中使用层次化的模型 更有助于提取篇章的特征。 第 2 组的层次化循环神经网络,使用 GRU 或 LSTM 构建层次化的模型,模型在各个数据集上 都有较大幅度的提升,NSC 较 Paragraph Vector 提 升都在 8% 左右。注意力机制有助于模型关注突 出的情感特征,从而,提升模型效果,NSC+LA 改 进了 NSC,取得了更优效果。 卷积神经网络和循环神经网络在处理文本时 各有优缺点,单一的循环神经网络结合注意力机 制,无法做到模型特征提取的多样性,从第 3 组实 验可以看出,Cnn2Cnn 模型与 NSC+LA 模型取得 相近的结果,注意力机制虽不同,但 CNN 更关注 于篇章的局部特征,对整体语义表征不够。 Cnn2Rnn 取得了较之前更好的效果,在 IMDB、YELP 2013 和 YELP 2014 分别取得 49.4%、 64.1% 和 64.2% 的准确率,较传统的第 1 组实验 的方法提升为 10% 左右,较双层 LSTM 或 GRU 在 IMDB、YELP 2013、YELP 2014 提升 5%、2%、 1% 左右,较单一模型的层次化注意力机制模型 NSC+LA 和 Cnn2Cnn,各数据集提升在 1% 左右。 词注意力卷积神经网络作为第 1 层,提取每 个句子中的关键词,发现句子的局部重要信息, 如情感词、语气词、转折词等,以此构建句子的特 征表示;全局注意力机制发现篇章中重要的句 子,分配以高权重,循环神经网络模型提取整个 篇章句子的语义表达,避免 CNN 的局部提取而丢 失信息。 4 结束语 本文提出一种层次化的双注意力神经网络模 型,将其用于情感分析任务,取得较好效果。模 型基于 CNN 和 RNN,从局部注意力机制和全局 注意力两个角度提取不同的特征,层次化篇章的 注意力神经网络模型分别获得句子的重点词汇以 及整个篇章的重点句子特征。模型在多个数据集 上得到验证,说明在不同角度获取的特征更有助 于表达篇章特征。虽然本文在篇章级文本中取得 较好实验结果,由于模型较为复杂,并且文本较 长,导致模型训练时间上并非理想。在未来研究 中,优化模型的复杂性将是下一个改进的方向。 参考文献: PANG Bo, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language ProcessingVolume 10. Stroudsburg, USA, 2002: 79–86. [1] LU Yue, CASTELLANOS M, DAYAL U, et al. Automatic construction of a context-aware sentiment lexicon: an optimization approach[C]//Proceedings of the 20th International Conference on World Wide Web. Hyderabad, India, 2011: 347–356. [2] WANG Sida, MANNING C D. Baselines and bigrams: simple, good sentiment and topic classification[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers. Jeju Island, Korea, 2012: 90–94. [3] KIRITCHENKO S, ZHU Xiaodan, MOHAMMAD S M. Sentiment analysis of short informal texts[J]. Journal of artificial intelligence research, 2014, 50: 723–762. [4] LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[C]// Proceedings of 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, USA, 2016: 260–270. [5] SHEN Dinghan, MIN M R, LI Yitong, et al. Adaptive convolutional filter generation for natural language understanding. [J]. arXiv: 1709.08294, 2017. [6] WANG Shuohang, JIANG Jing. Machine comprehension using match-LSTM and answer pointer[C]//Proceedings of International Conference on Learning Representations. Toulon, France, 2017: 1–15. [7] WANG Wenhui, YANG Nan, WEI Furu, et al. Gated selfmatching networks for reading comprehension and question answering[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada, 2017: 189–198. [8] KUMAR A, IRSOY O, ONDRUSKA P, et al. Ask me anything: dynamic memory networks for natural language processing[C]//Proceedings of the 33rd International Conference on Machine Learning. New York, USA, 2016: 1378–1387. [9] [10] KIM Y. Convolutional neural networks for sentence clas- 第 3 期 曾碧卿,等:层次化双注意力神经网络模型的情感分析研究 ·465·
·466· 智能系统学报 第15卷 sification[C]//Proceedings of 2014 Conference on Empir- sentiment analysis:a survey[J].WIREs data mining and ical Methods in Natural Language Processing.Doha, knowledge discovery,2018,8(4):e1253. Qatar,.2014:1746-1751. [21]CHEN Peng,SUN Zhongqian,BING Lidong,et al.Re- [11]KALCHBRENNER N.GREFENSTETTE E,BLUN- current attention network on memory for aspect senti- SOM P,et al.A convolutional neural network for model- ment analysis[C]//Proceedings of 2017 Conference on ling sentences[C]//Proceedings of 52nd Annual Meeting Empirical Methods in Natural Language Processing. of the Association for Computational Linguistics.Bal- Copenhagen,Denmark,2017:452-461. timore..USA.2014:655-665. [22]TANG Duyu,WEI Furu,YANG Nan,et al.Learning sen- [12]ZHANG Xiang,ZHAO Junbo,LECUN Y.Character- timent-specific word embedding for twitter sentiment level convolutional networks for text classification[C]// classification[C]//Proceedings of the 52nd Annual Meet- Proceedings of the 28th International Conference on ing of the Association for Computational Linguistics.Bal- Neural Information Processing Systems.Montreal, timore,USA,2014:1555-1565. Canada,2015:649-657 [23]JOHNSON R,ZHANG Tong.Effective use of word or- [13]TANG Duyu,QIN Bing,LIU Ting.Document modeling der for text categorization with convolutional neural net- with gated recurrent neural network for sentiment classi- works[C]//Proceedings of 2015 Conference of the North fication[C]//Proceedings of the 2015 Conference on Em- American Chapter of the Association for Computational pirical Methods in Natural Language Processing.Lisbon, Linguistics:Human Language Technologies.Denver Portugal,2015:1422-1432 USA.2015:103-112 [14]YANG Zichao,YANG Diyi,DYER C,et al.Hierarchical [24]SOCHER R,PERELYGIN A,WU J,et al.Recursive attention networks for document classification[C]//Pro- deep models for semantic compositionality over a senti- ceedings of the 2016 Conference of the North American ment Treebank[C]//Proceedings of the 2013 Conference Chapter of the Association for Computational Linguistics: on Empirical Methods in Natural Language Processing. Human Language Technologies.San Diego,USA,2016: Seattle,USA,2013:1631-1642. 1480-1489 [25]XU K,BA J,KIROS R,et al.Show,attend and tell:neur- [15]ADI Y.KERMANY E,BELINKOV Y,et al.Fine- al image caption generation with visual attention[C]//Pro- grained analysis of sentence embeddings using auxiliary ceedings of the 32nd International Conference on Ma- prediction tasks[C]//Proceedings of International Confer- chine Learning.Lille,France,2015:2048-2057 ence on Learning Representations.Toulon,France,2017: [26]BAHDANAU D,CHO K,BENGIO Y.Neural machine 1608-1622. translation by jointly learning to align and translate[C]// [16]VASWANI A,SHAZEER N,PARMAR N,et al.Atten- Proceedings of the 3rd International Conference on Learn- tion is all you need[C]//Proceedings of the 31st Confer- ing Representations,2014.San Diego,USA,2015: ence on Neural Information Processing Systems.Long 473-488. Beach,USA,2017:5998-6008. [27]LUONG T,PHAM H,MANNING C D,et al.Effective [17]WAN Xiaojun.Co-training for cross-lingual sentiment approaches to attention-based neural machine translation[C classification[C]//Proceedings of the Joint Conference of Proceedings of 2015 Conference on Empirical Methods in the 47th Annual Meeting of the ACL and the 4th Interna- Natural Language Processing.Lisbon,Portugal,2015: tional Joint Conference on Natural Language Processing 1412-1421. of the AFNLP.Suntec,Singapore,2009:235-243. [28]ZHOU Xinjie,WAN Xiaojun,XIAO Jianguo.Attention- [18]ZAGIBALOV T,CARROLL J.Automatic seed word se- based LSTM network for cross-lingual sentiment classi- lection for unsupervised sentiment classification of fication[Cl//Proceedings of 2016 Conference on Empiric- Chinese text[C]//Proceedings of the 22nd International al Methods in Natural Language Processing.Austin, Conference on Computational Linguistics.Manchester, USA,2016:247-256 United Kingdom,2008:1073-1080. [29]ALLAMANIS M,PENG Hao,SUTTON C A.A convolu- [19]LIU Jiangming,ZHANG Yue.Attention modeling for tar- tional attention network for extreme summarization of geted sentiment[C]//Proceedings of the 15th Conference source code[C]//Proceedings of 2016 International Con- of the European Chapter of the Association for Computa- ference on Machine Learning.New York,USA,2016: tional Linguistics.Valencia,Spain,2017:572-577. 2091-2100. [20]ZHANG Lei,WANG Shuai,LIU Bing.Deep learning for [30]YIN Wenpeng,SCHUTZE H,XIANG Bing,et al.AB-
sification[C]//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar, 2014: 1746–1751. KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P, et al. A convolutional neural network for modelling sentences[C]//Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, USA, 2014: 655–665. [11] ZHANG Xiang, ZHAO Junbo, LECUN Y. Characterlevel convolutional networks for text classification[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada, 2015: 649–657. [12] TANG Duyu, QIN Bing, LIU Ting. Document modeling with gated recurrent neural network for sentiment classification[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal, 2015: 1422–1432. [13] YANG Zichao, YANG Diyi, DYER C, et al. Hierarchical attention networks for document classification[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, USA, 2016: 1480–1489. [14] ADI Y, KERMANY E, BELINKOV Y, et al. Finegrained analysis of sentence embeddings using auxiliary prediction tasks[C]//Proceedings of International Conference on Learning Representations. Toulon, France, 2017: 1608–1622. [15] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 5998–6008. [16] WAN Xiaojun. Co-training for cross-lingual sentiment classification[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Suntec, Singapore, 2009: 235–243. [17] ZAGIBALOV T, CARROLL J. Automatic seed word selection for unsupervised sentiment classification of Chinese text[C]//Proceedings of the 22nd International Conference on Computational Linguistics. Manchester, United Kingdom, 2008: 1073–1080. [18] LIU Jiangming, ZHANG Yue. Attention modeling for targeted sentiment[C]//Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Valencia, Spain, 2017: 572–577. [19] [20] ZHANG Lei, WANG Shuai, LIU Bing. Deep learning for sentiment analysis: a survey[J]. WIREs data mining and knowledge discovery, 2018, 8(4): e1253. CHEN Peng, SUN Zhongqian, BING Lidong, et al. Recurrent attention network on memory for aspect sentiment analysis[C]//Proceedings of 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark, 2017: 452–461. [21] TANG Duyu, WEI Furu, YANG Nan, et al. Learning sentiment-specific word embedding for twitter sentiment classification[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, USA, 2014: 1555–1565. [22] JOHNSON R, ZHANG Tong. Effective use of word order for text categorization with convolutional neural networks[C]//Proceedings of 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Denver, USA, 2015: 103–112. [23] SOCHER R, PERELYGIN A, WU J, et al. Recursive deep models for semantic compositionality over a sentiment Treebank[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, USA, 2013: 1631–1642. [24] XU K, BA J, KIROS R, et al. Show, attend and tell: neural image caption generation with visual attention[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France, 2015: 2048–2057. [25] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[C]// Proceedings of the 3rd International Conference on Learning Representations, 2014. San Diego, USA, 2015: 473–488. [26] LUONG T, PHAM H, MANNING C D, et al. Effective approaches to attention-based neural machine translation[C]// Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal, 2015: 1412–1421. [27] ZHOU Xinjie, WAN Xiaojun, XIAO Jianguo. Attentionbased LSTM network for cross-lingual sentiment classification[C]//Proceedings of 2016 Conference on Empirical Methods in Natural Language Processing. Austin, USA, 2016: 247–256. [28] ALLAMANIS M, PENG Hao, SUTTON C A. A convolutional attention network for extreme summarization of source code[C]//Proceedings of 2016 International Conference on Machine Learning. New York, USA, 2016: 2091–2100. [29] [30] YIN Wenpeng, SCHÜTZE H, XIANG Bing, et al. AB- ·466· 智 能 系 统 学 报 第 15 卷
第3期 曾碧卿,等:层次化双注意力神经网络模型的情感分析研究 ·467· CNN:attention-based convolutional neural network for 作者简介: modeling sentence pairs[J].Transactions of the associ- 曾碧卿,教授,博士,主要研究方 ation for computational linguistics,2016,4:259-272. 向为认知计算和自然语言处理。获发 [31]WANG Linlin,CAO Zhu,DE MELO G,et al.Relation 明专利6项,发表学术论文100余篇, 出版学术专著2部。 classification via multi-level attention CNNs[Cl//Proceed- ings of the 54th Annual Meeting of the Association for Computational Linguistics.Berlin,Germany,2016: 1298-1307 韩旭丽.硕士研究生,主要研究方 [32]CHEN Huimin,SUN Maosong,TU Cunchao,et al.Neur- 向为自然语言处理、情感分析。发表 al sentiment classification with user and product attention 学术论文10篇。 [C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing.Austin,USA. 2016:1650-1659. [33]FAN Rongen,CHANG Kaiwei,HSIEH C J,et al.LIB- LINEAR:a library for large linear classification[J].Journ- 王盛玉,硕士研究生,主要研究方 al of machine learning research,2008,9:1871-1874. 向为自然语言处理、情感分析。发表 [34]LE Q,MIKOLOV T.Distributed representations of sen- 学术论文6篇。 tences and documents[Cl//Proceedings of the 31st Inter- national Conference on Machine Learning.Beijing, China,2014:1188-1196. 2020年度中国人工智能学会会士增选公示 根据《中国人工智能学会章程》、《中国人工智能学会会士产生与评定工作办法》,学会于2020年 6月启动中国人工智能学会会士候选人提名工作。经学 2020年度中国人工智能学会会士增选名单 会会士提名、会士评定专家委员会办公室审查、会士评 序号 姓名 定专家委员会审议投票等程序,评选出王耀南、王恩东 工作单位 等9位会士人选。现将名单予以公示,公示期共14日 1 王耀南 湖南大学 (自2020年8月25日至9月7日)。 2 王恩东 浪潮集团有限公司 任何单位和个人如对公示的评审结果持有异议,请 3 陈纯 浙江大学 在9月7日前实名向中国人工智能学会会士评定专家委 4 何积丰 华东师范大学 员会办公室提出,凡匿名异议不予受理。 5 吾守尔斯拉木 新疆大学 地址:北京市海淀区西土城路10号北京邮电大学教 苗夺谦 同济大学 一楼122室 6 邮编:100876 > 张亚勤 清华大学 8 张学工 清华大学 电话:010-6228136013240274156 邮箱:zhb@caai.cn 9 于剑 北京交通大学 中国人工智能学会 2020年8月25日
CNN: attention-based convolutional neural network for modeling sentence pairs[J]. Transactions of the association for computational linguistics, 2016, 4: 259–272. WANG Linlin, CAO Zhu, DE MELO G, et al. Relation classification via multi-level attention CNNs[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany, 2016: 1298–1307. [31] CHEN Huimin, SUN Maosong, TU Cunchao, et al. Neural sentiment classification with user and product attention [C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, USA, 2016: 1650–1659. [32] FAN Rongen, CHANG Kaiwei, HSIEH C J, et al. LIBLINEAR: a library for large linear classification[J]. Journal of machine learning research, 2008, 9: 1871–1874. [33] LE Q, MIKOLOV T. Distributed representations of sentences and documents[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, China, 2014: 1188–1196. [34] 作者简介: 曾碧卿,教授,博士,主要研究方 向为认知计算和自然语言处理。获发 明专利 6 项,发表学术论文 100 余篇, 出版学术专著 2 部。 韩旭丽,硕士研究生,主要研究方 向为自然语言处理、情感分析。发表 学术论文 10 篇。 王盛玉,硕士研究生,主要研究方 向为自然语言处理、情感分析。发表 学术论文 6 篇。 2020 年度中国人工智能学会会士增选公示 根据《中国人工智能学会章程》、《中国人工智能学会会士产生与评定工作办法》,学会于 2020 年 6 月启动中国人工智能学会会士候选人提名工作。经学 会会士提名、会士评定专家委员会办公室审查、会士评 定专家委员会审议投票等程序,评选出王耀南、王恩东 等 9 位会士人选。现将名单予以公示,公示期共 14 日 (自 2020 年 8 月 25 日至 9 月 7 日)。 任何单位和个人如对公示的评审结果持有异议,请 在 9 月 7 日前实名向中国人工智能学会会士评定专家委 员会办公室提出,凡匿名异议不予受理。 地址:北京市海淀区西土城路 10 号北京邮电大学教 一楼 122 室 邮编:100876 电话:010-62281360 13240274156 邮箱:zhb@caai.cn 中国人工智能学会 2020 年 8 月 25 日 2020年度中国人工智能学会会士增选名单 序号 姓名 工作单位 1 王耀南 湖南大学 2 王恩东 浪潮集团有限公司 3 陈纯 浙江大学 4 何积丰 华东师范大学 5 吾守尔·斯拉木 新疆大学 6 苗夺谦 同济大学 7 张亚勤 清华大学 8 张学工 清华大学 9 于剑 北京交通大学 第 3 期 曾碧卿,等:层次化双注意力神经网络模型的情感分析研究 ·467·