第16卷第2期 智能系统学报 Vol.16 No.2 2021年3月 CAAI Transactions on Intelligent Systems Mar.2021 D0:10.11992/tis.201907041 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20200715.1800.006.html 混合神经网络和条件随机场相结合的文本情感分析 翟学明,魏巍 (华北电力大学控制与计算机工程学院,河北保定071003) 摘要:针对当前文本情感分析中神经网络模型训练时间长,上下文信息学习不足的问题,该文提出了一种结 合混合神经网络和条件随机场(conditional random fields,.CRF)的模型。该模型将神经网络作为语言模型,结合 了卷积t神经网络(convolutional neural networks,CNN与双向门控循环单元(bidirectional gated recurrent unit,Bi- GRU)两种神经网络获得的语义信息和结构特征,采用条件随机场模型作为分类器,计算情感概率分布,进而 能够准确地判断情感类别。该文的模型在NLPCC2014数据集上进行了测试,准确率为91.74%,与其他分类模 型相比.,可以获得更好的准确性和F值。 关键词:卷积神经网络;门控循环单元;条件随机场;文本情感分析;语言模型;语义特征;上下文信息;分类器 中图分类号:TP391文献标志码:A文章编号:1673-4785(2021)02-0202-08 中文引用格式:翟学明,魏巍.混合神经网络和条件随机场相结合的文本情感分析.智能系统学报,2021,16(2):202-209. 英文引用格式:ZHAI Xueming,WEI Wei..Text sentiment analysis combining hybrid neural network and conditional random field[J].CAAI transactions on intelligent systems,2021,16(2):202-209. Text sentiment analysis combining hybrid neural network and conditional random field ZHAI Xueming,WEI Wei (School of Control and Computer Engineering,North China Electric Power University,Baoding 071003,China) Abstract:To solve problems such as the long training time of neural network models and insufficient contextual-informa- tion learning in text sentiment analysis,in this paper,we propose a model that combines a hybrid neural network with the conditional random field (CRF).Taking the neural network as the language model,the model combines the semant- ic information and structural features of the convolutional neural network with the bi-directional gated recurrent unit The CRF model is used as a classifier that determines the probability distributions of emotions,from which it can then accurately determine the emotion category.The model was tested on the NLPCC 2014 data set,and achieved an accur- acy rate of91.74%.Compared with other classification models,the proposed model can obtain better accuracy and F values. Keywords:convolutional neural network(CNN);gated recurrent unit(GRU);conditional random field(CRF);text sen- timent analysis;language model;semantic feature;contextual information;classifier 人的发展与沟通密不可分。有研究表明,人良好的效果。情感分析,又名意见挖掘、观点分 类的理性学习依赖于情绪山。随着互联网的兴 析等,它是通过计算机来帮助人们访问和组织在 起,人们开始习惯在网上交流,发表自己对某件 线意见,分析、处理、总结和推理主观文本的过程。 事情的看法,网络的保护让人们更加真实地表达 在情感分析研究中最重要的就是情感分类技 自己的情感。因此,分析这些包含用户情感信息 术。情感分类主要是针对文本中表达的情感进行 的观点对于舆情监控、营销策略等方面具有非常 识别和分类,如积极、消极等,进而得到潜在的信 收稿日期:2019-07-23.网络出版日期:2020-07-16. 息。目前研究较多的情感分类技术主要分为以 基金项目:中央高校基本科研业务费专项资金项目 (2018QN078). 下3种:第1种是基于情感词典的方法。基于情 通信作者:魏巍.E-mail:1012438684@qq.com 感词典的方法主要是将文档中的句子,找出不同
DOI: 10.11992/tis.201907041 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20200715.1800.006.html 混合神经网络和条件随机场相结合的文本情感分析 翟学明,魏巍 (华北电力大学 控制与计算机工程学院,河北 保定 071003) 摘 要:针对当前文本情感分析中神经网络模型训练时间长,上下文信息学习不足的问题,该文提出了一种结 合混合神经网络和条件随机场 (conditional random fields, CRF) 的模型。该模型将神经网络作为语言模型,结合 了卷积神经网络 (convolutional neural networks, CNN) 与双向门控循环单元 (bidirectional gated recurrent unit, BiGRU) 两种神经网络获得的语义信息和结构特征,采用条件随机场模型作为分类器,计算情感概率分布,进而 能够准确地判断情感类别。该文的模型在 NLPCC 2014 数据集上进行了测试,准确率为 91.74%,与其他分类模 型相比,可以获得更好的准确性和 F 值。 关键词:卷积神经网络;门控循环单元;条件随机场;文本情感分析;语言模型;语义特征;上下文信息;分类器 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)02−0202−08 中文引用格式:翟学明, 魏巍. 混合神经网络和条件随机场相结合的文本情感分析 [J]. 智能系统学报, 2021, 16(2): 202–209. 英文引用格式:ZHAI Xueming, WEI Wei. Text sentiment analysis combining hybrid neural network and conditional random field[J]. CAAI transactions on intelligent systems, 2021, 16(2): 202–209. Text sentiment analysis combining hybrid neural network and conditional random field ZHAI Xueming,WEI Wei (School of Control and Computer Engineering, North China Electric Power University, Baoding 071003, China) Abstract: To solve problems such as the long training time of neural network models and insufficient contextual-information learning in text sentiment analysis, in this paper, we propose a model that combines a hybrid neural network with the conditional random field (CRF). Taking the neural network as the language model, the model combines the semantic information and structural features of the convolutional neural network with the bi-directional gated recurrent unit. The CRF model is used as a classifier that determines the probability distributions of emotions, from which it can then accurately determine the emotion category. The model was tested on the NLPCC 2014 data set, and achieved an accuracy rate of 91.74%. Compared with other classification models, the proposed model can obtain better accuracy and F values. Keywords: convolutional neural network (CNN); gated recurrent unit (GRU); conditional random field (CRF); text sentiment analysis; language model; semantic feature; contextual information; classifier 人的发展与沟通密不可分。有研究表明,人 类的理性学习依赖于情绪[1]。随着互联网的兴 起,人们开始习惯在网上交流,发表自己对某件 事情的看法,网络的保护让人们更加真实地表达 自己的情感。因此,分析这些包含用户情感信息 的观点对于舆情监控、营销策略等方面具有非常 良好的效果。情感分析,又名意见挖掘、观点分 析等,它是通过计算机来帮助人们访问和组织在 线意见,分析、处理、总结和推理主观文本的过程[2]。 在情感分析研究中最重要的就是情感分类技 术。情感分类主要是针对文本中表达的情感进行 识别和分类,如积极、消极等,进而得到潜在的信 息。目前研究较多的情感分类技术主要分为以 下 3 种:第 1 种是基于情感词典的方法[3]。基于情 感词典的方法主要是将文档中的句子,找出不同 收稿日期:2019−07−23. 网络出版日期:2020−07−16. 基金项目:中央高校基本科研业务费专项资金项 目 (2018QN078). 通信作者:魏巍. E-mail: 1012438684@qq.com. 第 16 卷第 2 期 智 能 系 统 学 报 Vol.16 No.2 2021 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2021
第2期 翟学明,等:混合神经网络和条件随机场相结合的文本情感分析 ·203· 词性的词并计算其相应得分。这种方法过于依赖 分为不同的区域,利用CNN与Bi-GRU以并行训 情感词典,具有严重的领域特征,效果并不理想: 练的方式从句子中获取更多的语义信息和结构特 第2种是基于人工提取特征分类的方法。基于人 征。同时,采用条件随机场作为分类器,计算整 工提取特征分类的方法是一种传统机器学习的方 个文本的情感概率分布,从而达到预测情感类别 法,该方法需要大量已经被事先标注好的数据, 的目的。 然后再利用支持向量机、朴素贝叶斯、条件随机 场等机器学习算法进行情感分类。其中,条件随 1情感分析过程 机场是一种判别式概率学习模型,在序列标注、 情感分析早在2000年初就已经成为NLP领 命名实体识别、中文分词等方面都具有很好的效 域的热门研究领域。情感分析问题是一个多层 果:第3种方法,即基于深度学习的方法。深度 面的问题,具有一定的复杂性,它包含很多相互 学习模型在不需要人工标注的前提下,能够充分 关联的上下文关系。在同一句中,文章中表达的 挖掘文本的情感信息,得到良好的分类效果。 情感类别可能与仅由句子表达的情感类别有很大 卷积神经网络(CNN)最初广泛应用于数字图 不同。传统情感分析的过程如图1所示。 像处理领域,并迅速应用于情感分析。Co- 文本预处理 lobert等首次提出将CNN用于解决NLP词性标 注等问题。Kim提出将CNN应用于情感分析任 分词 务并取得了良好的效果。随着CNN在情感分类 文本输人 否定处理 向量表示 特征提取 特征空间聚合 上的广泛应用,其缺陷也越来越明显。CNN只能 噪声处理 分类器分类 挖掘文本的局部信息,对于长距离依赖的捕捉效 果有所欠缺。而循环神经网络(RNN)弥补了这 图1情感分析过程图 方面的不足。RNN相较于CNN具有记忆功能, Fig.1 Process diagram of sentiment analysis 能够实现在序列化数据中捕捉动态信息,在情感 情感分析主要应用于对文本评论或观点的处 分类任务中取得了良好的效果。Tang等o对篇 理,评论文本具有篇幅较短、文本格式不规范等 章级文本进行建模,提出了一种层次化RNN模 问题。例如其中的标点符号、网络流行语和用户 型。RNN虽然适用于上下文处理,但在处理长距 昵称等内容都会给情感分析任务带来困难。因 离依赖问题的情况下,会产生梯度爆炸的情况。 此,情感分析首先要减少文本的噪音,对其进行 针对此问题,Hochreiter等提出了LSTM模型, 预处理。本文采用中国科学院计算技术研究所开 对RNN的内部构造进行了优化。Zhu等利用 发的汉语分词系统NLPIR对评论文本进行分词, LSTM对文本进行建模,将其划分为词序列,进而 继而主要针对标点符号和用户昵称等字符串进行 进行情感分类。传统的LSTM只能有效地使用上 去除噪声处理。词语的向量表示是指从词语到实 文信息,忽略了向下的信息,这在一定程度上影 数维向量空间的复杂映射。目前,比较常见的单 响了情感分类的准确性。白静等1利用了Bi 词向量训练模型有CBOW模型和Skip-gram模 LSTM进行建模,将词向量分别通过Bi-LSTM与 型,这两个模型在结构上是相似的。Mikolov等可 CNN,最后再融合注意力机制,取得了更好的效 针对这两种词向量提取的方法进行了深刻的分 果,但也存在计算复杂度过大的不足。为了减少 析,指出了其预测范围受限的不足。 计算量,结构简单的GU被人们提出。刘洋 本文将语言模型和情感分析模型联合训练, 提出将GRU应用于时间序列任务并取得了良好 通过语言模型获取语义信息,利用混合神经网络 的效果。 作为语言模型对分词后的文本进行向量表示和特 以上学者在情感分析问题上已经认识到模型 征提取,对每一个经过混合神经网络的输出特征 在训练上存在的时间长,数据量大,上下文信息 实行打分制。这种方法使训练模型不再依赖词向 获取距离短的局限并做出了改进,但是并没有突 量训练模型,而是一个端到端的整体过程,是一 破深度学习的限制。针对上面发现的问题,本文 种数据驱动的方法,具有更高的准确性。 提出了一种混合神经网络和CRF相结合的情感 2混合神经网络和条件随机场相结 分析模型。本文提出的模型综合考虑篇章中句子 合的文本情感分析模型 的上下文语境,在保留语序的同时更快更充分地 获取语义信息。本文模型将一段文本按照句子划 现有文本情感分析研究工作大多存在模型训
词性的词并计算其相应得分。这种方法过于依赖 情感词典,具有严重的领域特征,效果并不理想[4] ; 第 2 种是基于人工提取特征分类的方法。基于人 工提取特征分类的方法是一种传统机器学习的方 法,该方法需要大量已经被事先标注好的数据, 然后再利用支持向量机[5] 、朴素贝叶斯、条件随机 场等机器学习算法进行情感分类。其中,条件随 机场是一种判别式概率学习模型,在序列标注、 命名实体识别、中文分词等方面都具有很好的效 果;第 3 种方法,即基于深度学习的方法[6]。深度 学习模型在不需要人工标注的前提下,能够充分 挖掘文本的情感信息,得到良好的分类效果。 卷积神经网络 (CNN) 最初广泛应用于数字图 像处理领域,并迅速应用于情感分析。 Collobert 等 [7] 首次提出将 CNN 用于解决 NLP 词性标 注等问题。Kim[8] 提出将 CNN 应用于情感分析任 务并取得了良好的效果。随着 CNN 在情感分类 上的广泛应用,其缺陷也越来越明显。CNN 只能 挖掘文本的局部信息,对于长距离依赖的捕捉效 果有所欠缺。而循环神经网络 (RNN) 弥补了这 方面的不足[9]。RNN 相较于 CNN 具有记忆功能, 能够实现在序列化数据中捕捉动态信息,在情感 分类任务中取得了良好的效果。Tang 等 [10] 对篇 章级文本进行建模,提出了一种层次化 RNN 模 型。RNN 虽然适用于上下文处理,但在处理长距 离依赖问题的情况下,会产生梯度爆炸的情况。 针对此问题,Hochreiter 等 [11] 提出了 LSTM 模型, 对 RNN 的内部构造进行了优化。Zhu 等 [12] 利用 LSTM 对文本进行建模,将其划分为词序列,进而 进行情感分类。传统的 LSTM 只能有效地使用上 文信息,忽略了向下的信息,这在一定程度上影 响了情感分类的准确性。白静等[13] 利用了 BiLSTM 进行建模,将词向量分别通过 Bi-LSTM 与 CNN,最后再融合注意力机制,取得了更好的效 果,但也存在计算复杂度过大的不足。为了减少 计算量,结构简单的 GRU 被人们提出。刘洋[14] 提出将 GRU 应用于时间序列任务并取得了良好 的效果。 以上学者在情感分析问题上已经认识到模型 在训练上存在的时间长,数据量大,上下文信息 获取距离短的局限并做出了改进,但是并没有突 破深度学习的限制。针对上面发现的问题,本文 提出了一种混合神经网络和 CRF 相结合的情感 分析模型。本文提出的模型综合考虑篇章中句子 的上下文语境,在保留语序的同时更快更充分地 获取语义信息。本文模型将一段文本按照句子划 分为不同的区域,利用 CNN 与 Bi-GRU 以并行训 练的方式从句子中获取更多的语义信息和结构特 征。同时,采用条件随机场作为分类器,计算整 个文本的情感概率分布,从而达到预测情感类别 的目的。 1 情感分析过程 情感分析早在 2000 年初就已经成为 NLP 领 域的热门研究领域[15]。情感分析问题是一个多层 面的问题,具有一定的复杂性,它包含很多相互 关联的上下文关系。在同一句中,文章中表达的 情感类别可能与仅由句子表达的情感类别有很大 不同。传统情感分析的过程如图 1 所示。 文本预处理 分词 文本输入 否定处理 向量表示 特征提取 特征空间聚合 噪声处理 分类器分类 图 1 情感分析过程图 Fig. 1 Process diagram of sentiment analysis 情感分析主要应用于对文本评论或观点的处 理,评论文本具有篇幅较短、文本格式不规范等 问题。例如其中的标点符号、网络流行语和用户 昵称等内容都会给情感分析任务带来困难。因 此,情感分析首先要减少文本的噪音,对其进行 预处理。本文采用中国科学院计算技术研究所开 发的汉语分词系统 NLPIR 对评论文本进行分词[16] , 继而主要针对标点符号和用户昵称等字符串进行 去除噪声处理。词语的向量表示是指从词语到实 数维向量空间的复杂映射。目前,比较常见的单 词向量训练模型有 CBOW 模型和 Skip-gram 模 型,这两个模型在结构上是相似的。Mikolov 等 [17] 针对这两种词向量提取的方法进行了深刻的分 析,指出了其预测范围受限的不足。 本文将语言模型和情感分析模型联合训练, 通过语言模型获取语义信息,利用混合神经网络 作为语言模型对分词后的文本进行向量表示和特 征提取,对每一个经过混合神经网络的输出特征 实行打分制。这种方法使训练模型不再依赖词向 量训练模型,而是一个端到端的整体过程,是一 种数据驱动的方法,具有更高的准确性。 2 混合神经网络和条件随机场相结 合的文本情感分析模型 现有文本情感分析研究工作大多存在模型训 第 2 期 翟学明,等:混合神经网络和条件随机场相结合的文本情感分析 ·203·
·204· 智能系统学报 第16卷 练时间长,上下文信息学习不充分的问题,本文 区域,的词向量映射 提出将混合神经网络与条件随机场相结合,首先 w○OOO 利用混合神经网络获取文本的特征信息,再将其 w○○OO 输入到条件随机场分类器中。本文模型获取到的 特征更充分,训练速度也比以往模型更快,具有 w:OOOO 更好的分类效果。 本文将进行分词后的句子的离散one-hot表 示映射到低维空间形成稠密的词向量,低维词向 CNN Bi-GRU 量作为模型的输入,进行卷积池化后,在输出端 融入低维词向量经过Bi-GRU神经网络学习到的 结构特征。模型将分别通过混合神经网络得到的 O0OO Oo 句子的特征表示拼接在一起,对每一个经过混合 神经网络的输出特征进行打分。针对词语在混合 OO.OOs 神经网络模型中生成的标签可能存在的非法序列 从而导致数据失效的问题,本文在混合神经网络 OOOO]CRF层 模型接入CRF层,将得分输出特征作为CRF的 图3混合神经网络结构 发射概率,并使用维特比算法获得概率最高的情 Fig.3 Structure diagram of Hybrid neural network 绪类别。本文过程的示意图如图2所示。 卷积层:每个区域,可以表示为[WW… 条件随机场层 ag W]矩阵,然后使用过滤器D进行卷积以学习N- gram特征。过滤器F(1≤d≤D)在每个窗口卷积 后获得映射值y,即 输出层 y=f(W4ox6-1+b) (1) 式中:。为卷积算子;定义权重矩阵为W∈Rt; 混合神经网络模型 b为偏置因子;6为滤波器长度;∫为非线性激活 函数。 向量层 常用的激活函数有Relu函数、Tanh函数和 Sigmoid函数。由于不同的功能特性,Sigmoid和 Tanh函数在接近饱和区域时倾向于梯度消失,从 独热编码 、东西 很 好 而减慢收敛速度。为了增强网络适应和加速收敛 图2基本过程示意 的能力,该模型应用ReLU激活函数。滤波器逐 Fig.2 Schematic diagram of basic process 渐遍历,可以得到输出矩阵: 2.1混合神经网络的建立 y4=by片…%-6+] (2) 混合神经网络的构造如图3所示,本文模型 不同区域的文本长度不同,对应的y的维度 将一段文本按照句子划分为不同的区域,以每个 也不同。因此,本文将语料库中CNN输入最大长 区域的低维词向量作为输入。低维词向量分别经 度设为N。当输入长度小于N时,将添加几个分 过两种神经网络,经过CNN输出的句子特征为 布均匀的随机向量U(-0.25,0.25)。 f,经过Bi-GRU输出的句子特征为,将£与f 池化层:本文中Max-pooling操作的优点是 拼接起来并经过Softmax函数后的特征向量S进 Max-pooling可以全局过滤文本特征,减少参数数 行打分,作为CRF分类器的输入。 量,过滤噪声,减少信息冗余,并有效地减少过度 本文的思路是将一段文本按照句子划分为不 拟合的问题。其次,Max-pooling还可以提取不同 同的区域,将每个句子的低维词向量作为模型的 区域内的局部依赖关系,保留最显著的信息。通 输入,通过CNN模型进行卷积池化再输出。 过pooling操作,每个过滤器可以取一个值,池化层 词向量映射层:假设区域中词语的个数为M, 最终产生的文本向量特征为,作为下一层的输入。 每个词向量有k维特征,则所有词向量都在区域 在本文中卷积神经网络的池化策略为Max- 矩阵V∈RxM中。 pooling,对特征具有旋转不变性。然而对于情感
练时间长,上下文信息学习不充分的问题,本文 提出将混合神经网络与条件随机场相结合,首先 利用混合神经网络获取文本的特征信息,再将其 输入到条件随机场分类器中。本文模型获取到的 特征更充分,训练速度也比以往模型更快,具有 更好的分类效果。 本文将进行分词后的句子的离散 one-hot 表 示映射到低维空间形成稠密的词向量,低维词向 量作为模型的输入,进行卷积池化后,在输出端 融入低维词向量经过 Bi-GRU 神经网络学习到的 结构特征。模型将分别通过混合神经网络得到的 句子的特征表示拼接在一起,对每一个经过混合 神经网络的输出特征进行打分。针对词语在混合 神经网络模型中生成的标签可能存在的非法序列 从而导致数据失效的问题,本文在混合神经网络 模型接入 CRF 层,将得分输出特征作为 CRF 的 发射概率,并使用维特比算法获得概率最高的情 绪类别。本文过程的示意图如图 2 所示。 混合神经网络模型 东西 很 好 tag1 P1 P2 P3 W1 W2 W3 条件随机场层 tag2 tag3 输出层 向量层 独热编码 图 2 基本过程示意 Fig. 2 Schematic diagram of basic process 2.1 混合神经网络的建立 fc fg fc fg 混合神经网络的构造如图 3 所示,本文模型 将一段文本按照句子划分为不同的区域,以每个 区域的低维词向量作为输入。低维词向量分别经 过两种神经网络,经过 CNN 输出的句子特征为 ,经过 Bi-GRU 输出的句子特征为 ,将 与 拼接起来并经过 Softmax 函数后的特征向量 S′进 行打分,作为 CRF 分类器的输入。 本文的思路是将一段文本按照句子划分为不 同的区域,将每个句子的低维词向量作为模型的 输入,通过 CNN 模型进行卷积池化再输出。 V ∈ R k×M 词向量映射层:假设区域中词语的个数为 M, 每个词向量有 k 维特征,则所有词向量都在区域 矩阵 中。 CNN CRF 层 S′ Bi-GRU 区域 ri 的词向量映射 W1 ... ... ri W2 ri Wn fc fg ri 图 3 混合神经网络结构 Fig. 3 Structure diagram of Hybrid neural network ri [W ri 1 W ri 2 ··· Wri n ] D Fd(1 ⩽ d ⩽ D) y d n 卷积层:每个区域 可以表示为 矩阵,然后使用过滤器 进行卷积以学习 Ngram 特征。过滤器 在每个窗口卷积 后获得映射值 ,即 y d n = f ( Wd ◦ xn:n+δ−1 +b d ) (1) ◦ W ∈ R δ×k δ f 式中: 为卷积算子;定义权重矩阵为 ; b 为偏置因子; 为滤波器长度; 为非线性激活 函数。 常用的激活函数有 Relu 函数、Tanh 函数和 Sigmoid 函数。由于不同的功能特性,Sigmoid 和 Tanh 函数在接近饱和区域时倾向于梯度消失,从 而减慢收敛速度。为了增强网络适应和加速收敛 的能力,该模型应用 ReLU 激活函数。滤波器逐 渐遍历,可以得到输出矩阵: y d = [y d 1 y d 2 ··· y d N−δ+1 ] (2) y 不同区域的文本长度不同,对应的 d 的维度 也不同。因此,本文将语料库中 CNN 输入最大长 度设为 N。当输入长度小于 N 时,将添加几个分 布均匀的随机向量 U(−0.25, 0.25)。 fc 池化层:本文中 Max-pooling 操作的优点是 Max-pooling 可以全局过滤文本特征,减少参数数 量,过滤噪声,减少信息冗余,并有效地减少过度 拟合的问题。其次,Max-pooling 还可以提取不同 区域内的局部依赖关系,保留最显著的信息。通 过 pooling 操作,每个过滤器可以取一个值,池化层 最终产生的文本向量特征为 ,,作为下一层的输入。 在本文中卷积神经网络的池化策略为 Maxpooling,对特征具有旋转不变性。然而对于情感 ·204· 智 能 系 统 学 报 第 16 卷
第2期 翟学明,等:混合神经网络和条件随机场相结合的文本情感分析 ·205· 分类任务,特征的位置信息至关重要,Max-pool- ing却将其丢弃。为了弥补这个不足,本文引入双 向GRU神经网络(Bi-GRU)作为词向量的另一种 特征提取方式来对CNN的结果进行补充。 E=∑-log低小+og低 18 Bi-GRU是GRU的改进,它可以在前后方向 同时获取上下文信息,相比GU能够获得更高的 其中文本%,的词向量表示为V。在本文中,从维 准确率。不仅如此,Bi-GRU还具有复杂度低,对 度为V的负样本集合N中,收集单个单词作为负 字向量依赖性低,响应时间快的优点。在Bi-GRU 样例。 N={ww,∈V&w年{w,w-1,…,wh (9) 结构中,在每个训练序列之前和之后都存在循环 神经网络。在t时刻,Bi-GRU单元激活值h,同时 则情感类别的分数输入Softmax函数后得到 受到t-l时刻激活值h-,候选激活值h,和更新门 概率为 z的控制。其计算方式如式(3)、(4),⊙表示元素 p0y1=1S) p02=1S) 相乘: Pu,(yIS)= (10) h,tanh(Wx,+U(roh-1)) (3) p(y=1IS) 成=(1-)+减 (4) 式中:y:代表当前序列的情感类别为第1维,”的 对于序列“我很开心”,使用Bi-GRU进行特 默认值为1。当y不符合条件时,?默认值为0。 征获取的具体过程如图4所示。 Pw即为CRF分类器的发射概率。 O○○○ 2.2CRF分类器模型 CF分类器模型和神经网络分类器模型各自 h 具有优点和不足。CRF模型需要人工提前对语料 信息进行标注,手动设计词的词性、程度等特征, 而神经网络模型可以学习训练数据自动生成特征 向量,取得更好的效果。但是,神经网络模型往 往需要更长的训练时间,且神经网络模型的有些 w W2 w; 输出在命名实体识别上是不合法的,因此有必要 图4Bi-GRU获取特征过程 使用CRF随后将命名实体的规则添加到序列标 Fig.4 Process diagram of Bi-GRU obtain feature 记过程中。本文根据CRF与神经网络模型各自 在本文中,f与f:采用Concatenate方式对句 的特点进行组合,得到在性能上更具优势的联合 子的特征进行融合处理,Concatenate方法可以将 模型20。 不同的神经网络结构生成的句向量进行拼接,获 CRF模型的学习与预测是在样本的多个特征 得的特征向量S用作生成CRF分类器的发射概 上进行的。CRF模型本身可以生成特征向量并进 率的基础。 行分类,本文使用混合神经网络提取的特征作为 S=f⊕fR (5) 中间量,替换原公式中的向量值。 S进行线性变换后,得到对应词语所属情感 CRF分类器模型中的发射概率是指序列中的 类别的分数k: 单词属于每个情感分类的概率,即为p。转移概 k=U S'+b (6) 率是从标签类到相邻标签类的概率。传统CRF 式中:U为权值矩阵,b为偏置量。当前词语所属 分类器的发射概率是根据特征模版生成的,但是 情感类别的得分为kk…km。k的维度为m,m代 本文为了获得更好的上下文信息,使用混合神经 表情感的分类数。 网络自动获取的特征作为发射概率。本文CRF 将对应词语所属情感类别的分数k输入Sot- 分类器模型发射概率计算公式为 max函数中,针对文本中的大量词汇导致的向量 维度过高,计算量大的问题,本文采用噪声对比 (11) 估计u81方法对Softmax函数进行最大似然估计, 运用基于采样的原理使模型得到有效训练,目标 是使正样本概率达到最大值的同时让负样本的概 可以获得单词的发射概率乘以转移概率的概 率尽可能的小。本文双向网络的损失函数定义为 率。计算公式如下:
分类任务,特征的位置信息至关重要,Max-pooling 却将其丢弃。为了弥补这个不足,本文引入双 向 GRU 神经网络 (Bi-GRU) 作为词向量的另一种 特征提取方式来对 CNN 的结果进行补充。 ht ht−1 ht ⊙ Bi-GRU 是 GRU 的改进,它可以在前后方向 同时获取上下文信息,相比 GRU 能够获得更高的 准确率。不仅如此,Bi-GRU 还具有复杂度低,对 字向量依赖性低,响应时间快的优点。在 Bi-GRU 结构中,在每个训练序列之前和之后都存在循环 神经网络。在 t 时刻,Bi-GRU 单元激活值 同时 受到 t−1 时刻激活值 ,候选激活值 和更新门 z 的控制。其计算方式如式 (3)、(4), 表示元素 相乘: h˜ t = tanh(W xt +U (rt ⊙ht−1)) (3) h j t = ( 1−z j t ) h j t−1 +z j t h˜ j t (4) 对于序列“我很开心”,使用 Bi-GRU 进行特 征获取的具体过程如图 4 所示。 h1 h1 h1 θ1 w1 θ2 w2 θ3 w3 h2 h2 h2 h3 h3 h3 fg 图 4 Bi-GRU 获取特征过程 Fig. 4 Process diagram of Bi-GRU obtain feature fc 在本文中, 与 fg 采用 Concatenate 方式对句 子的特征进行融合处理,Concatenate 方法可以将 不同的神经网络结构生成的句向量进行拼接,获 得的特征向量 S′用作生成 CRF 分类器的发射概 率的基础。 S ′ = fc ⊕ fg (5) S′进行线性变换后,得到对应词语所属情感 类别的分数 k: k = U1S ′ +b (6) k1k2 ··· km 式中:U 为权值矩阵,b 为偏置量。当前词语所属 情感类别的得分为 。k 的维度为 m,m 代 表情感的分类数。 将对应词语所属情感类别的分数 k 输入 Softmax 函数中,针对文本中的大量词汇导致的向量 维度过高,计算量大的问题,本文采用噪声对比 估计[18] 方法对 Softmax 函数进行最大似然估计, 运用基于采样的原理使模型得到有效训练,目标 是使正样本概率达到最大值的同时让负样本的概 率尽可能的小。本文双向网络的损失函数定义为 E⃗ = ∑m−1 t=1 −logσ ( −→ht T vwt+1 ) + ∑l i=1,wi∈N logσ ( −→ht T vwi ) (7) ← E = ∑m−1 t=1 −logσ (←−ht T vwt−1 ) + ∑l i=1,wi∈N logσ (←−ht T vwi ) (8) 其中文本 wt 的词向量表示为 vwt。在本文中,从维 度为 V 的负样本集合 N 中,收集单个单词作为负 样例。 N = { wj |wj ∈ V&wj < {wt ,wt−1,··· ,w1} } (9) 则情感类别的分数输入 Softmax 函数后得到 概率为 pwt (y|S ′ ) = p(y1 = 1|S ′ ) p(y2 = 1|S ′ ) . . . p(ym = 1|S ′ ) = 1 ∑m i=1 e ki e k1 e k2 . . . e km (10) yi yi yi yi pw 式中: 代表当前序列的情感类别为第 i 维, 的 默认值为 1。当 不符合条件时, 默认值为 0。 即为 CRF 分类器的发射概率。 2.2 CRF 分类器模型 CRF 分类器模型和神经网络分类器模型各自 具有优点和不足。CRF 模型需要人工提前对语料 信息进行标注,手动设计词的词性、程度等特征, 而神经网络模型可以学习训练数据自动生成特征 向量,取得更好的效果[19]。但是,神经网络模型往 往需要更长的训练时间,且神经网络模型的有些 输出在命名实体识别上是不合法的,因此有必要 使用 CRF 随后将命名实体的规则添加到序列标 记过程中。本文根据 CRF 与神经网络模型各自 的特点进行组合,得到在性能上更具优势的联合 模型[20]。 CRF 模型的学习与预测是在样本的多个特征 上进行的。CRF 模型本身可以生成特征向量并进 行分类,本文使用混合神经网络提取的特征作为 中间量,替换原公式中的向量值。 pw CRF 分类器模型中的发射概率是指序列中的 单词属于每个情感分类的概率,即为 。转移概 率是从标签类到相邻标签类的概率。传统 CRF 分类器的发射概率是根据特征模版生成的,但是 本文为了获得更好的上下文信息,使用混合神经 网络自动获取的特征作为发射概率。本文 CRF 分类器模型发射概率计算公式为 pwt (w|S ′ , y) = 1 ∑m i=1 e ki e k1 e k2 . . . e km (11) 可以获得单词的发射概率乘以转移概率的概 率。计算公式如下: 第 2 期 翟学明,等:混合神经网络和条件随机场相结合的文本情感分析 ·205·
·206· 智能系统学报 第16卷 p=∏6X)*p0S) (12) 行分类后,在某个类别中被正确分类的比例。召 回率R代表分类后正确判断某个类别的个数占其 其中(心,)表示从y,到,情感类别标识概 所有正确数目的比例。F值是一个根据准确率 率的查找。CF模型选择结果序列中概率最高的 A与召回率R得到的加权调和平均数,通常被用 类别作为最终标记结果。CF模型训练的目标是 来综合评定模型的性能优劣。每个评价指标的计 使预测序列的概率尽量接近目标序列的概率,两 算方式如下: 个概率之间的差值称为损失值,计算公式如下: m+p A= (14) loss yne -max (Pne) (13) m+n+l+p m 式中:max(pm)为预测序列中最大概率值;ym为 R=- (15) m+p 目标序列的概率值。CRF模型的输出用于通过维 2m 特比算法找到具有最高概率的情绪类别,然后判 F=2m+1+P (16) 断整个章节的情绪。 表2是根据分类结果建立的判别混淆矩阵, 介绍了上述评价指标中各个字母所代表的含义。 3实验与分析 表2分类判别混淆矩阵 3.1实验数据集 Table 2 Classification discrimination confusion matrix 本文选用NLPCC(natural language processing 预测结果 真实结果 and Chinese computing),即自然语言处理及中文计 属于类别L 不属于类别L 算会议中公开的2014年任务2中的中文文本作为 属于类别L 数据集,来验证本文模型的有效性。该数据集以 不属于类别亚 1 商品的评价为主,文本长度适中。为了更好地对 比训练模型的分类效果,实验将数据集按照8:2 3.3 实验参数 的比例分为训练集和测试集。通过进行多次重复 本文实验运行环境为Winl0系统、8GB内 实验,选用实验的平均值作为最终结果,以此评 存,本文底层采用TensorFlow架构,使用Keras来 估模型的性能。数据集的详细信息如表1所示。 搭建深度学习网络模型,上层采用JetBrains 表1实验数据信息 PyCharm软件。网络模型所使用的激活函数为 Table 1 Experimental data information ReLU,采用Adam作为梯度更新方法,学习率设 数据集 类别 划分情况 为0.05。 名称 由于神经网络模型的迭代次数对于实验结果 NLPCC 2014 积极消极 训练集测试集 的影响比较大,迭代次数越大,模型的拟合程度 语句/条 10000 50005000 8000 2000 越好,进而会导致模型的过拟合问题。因此,本 由于本文采用的数据集主要是商品评论,评 文对迭代次数进行了单因子变量实验。如图5所 论文本具有篇幅较短、文本格式不规范等问题。 示,当迭代次数为30时,训练集和测试集的数据 例如其中的标点符号、网络流行语和用户昵称等 上F值都处于一个较高的水平。因此本文实验迭 内容都会给情感分析任务带来困难。为了有效减 代次数设为30,同时将Dropout的参数设为0.5以 少噪音,首先需要对文本进行预处理。本文采用 防止过拟合。 中国科学院计算技术研究所开发的汉语分词系 1.0 一。一训练数据集 统NLPIR对评论文本进行分词,继而主要针对标 ·一测试数据集 点符号和用户昵称等字符串进行去除噪声处理。 0.9 词语的向量表示是指从词语到实数维向量空间的 复杂映射,本文将进行分词后的句子的离散one hot表示映射到低维空间形成稠密的词向量,得到 07 文本的词向量映射,进而输入本文模型进行进一 步的特征提取和情感分类工作。 06 10 2030405060 3.2评价指标 迭代次数 本文选择准确率A、召回率R和F值来当作 图5基于迭代次数的F值的变化趋势 本文实验的评价指标。准确率A表示对测试集进 Fig.5 Trends in Fvalues based on iterations
ptw = ∏n t=1 Φ ( ywt−1 , ywt ) ∗ pwt (y|S ′ ) (12) Φ(ywt−1 , ywt ) ywt−1 其中 表示从 到 ywt 情感类别标识概 率的查找。CRF 模型选择结果序列中概率最高的 类别作为最终标记结果。CRF 模型训练的目标是 使预测序列的概率尽量接近目标序列的概率,两 个概率之间的差值称为损失值,计算公式如下: loss = ytw −max(ptw) (13) 式中: max(ptw) 为预测序列中最大概率值; ytw 为 目标序列的概率值。CRF 模型的输出用于通过维 特比算法找到具有最高概率的情绪类别,然后判 断整个章节的情绪。 3 实验与分析 3.1 实验数据集 本文选用 NLPCC(natural language processing and Chinese computing),即自然语言处理及中文计 算会议中公开的 2014 年任务 2 中的中文文本作为 数据集,来验证本文模型的有效性。该数据集以 商品的评价为主,文本长度适中。为了更好地对 比训练模型的分类效果,实验将数据集按照 8∶2 的比例分为训练集和测试集。通过进行多次重复 实验,选用实验的平均值作为最终结果,以此评 估模型的性能。数据集的详细信息如表 1 所示。 表 1 实验数据信息 Table 1 Experimental data information 数据集 类别 划分情况 名称 NLPCC 2014 积极 消极 训练集 测试集 语句/条 10 000 5000 5000 8 000 2000 由于本文采用的数据集主要是商品评论,评 论文本具有篇幅较短、文本格式不规范等问题。 例如其中的标点符号、网络流行语和用户昵称等 内容都会给情感分析任务带来困难。为了有效减 少噪音,首先需要对文本进行预处理。本文采用 中国科学院计算技术研究所开发的汉语分词系 统 NLPIR 对评论文本进行分词,继而主要针对标 点符号和用户昵称等字符串进行去除噪声处理。 词语的向量表示是指从词语到实数维向量空间的 复杂映射,本文将进行分词后的句子的离散 onehot 表示映射到低维空间形成稠密的词向量,得到 文本的词向量映射,进而输入本文模型进行进一 步的特征提取和情感分类工作。 3.2 评价指标 本文选择准确率 A、召回率 R 和 F 值来当作 本文实验的评价指标。准确率 A 表示对测试集进 行分类后,在某个类别中被正确分类的比例。召 回率 R 代表分类后正确判断某个类别的个数占其 所有正确数目的比例。F 值是一个根据准确率 A 与召回率 R 得到的加权调和平均数,通常被用 来综合评定模型的性能优劣。每个评价指标的计 算方式如下: A = m+ p m+n+l+ p (14) R = m m+ p (15) F = 2m 2m+l+ p (16) 表 2 是根据分类结果建立的判别混淆矩阵, 介绍了上述评价指标中各个字母所代表的含义。 表 2 分类判别混淆矩阵 Table 2 Classification discrimination confusion matrix 真实结果 预测结果 属于类别L 不属于类别L 属于类别L m n 不属于类别L l p 3.3 实验参数 本文实验运行环境为 Win10 系统、8 GB 内 存,本文底层采用 TensorFlow 架构,使用 Keras 来 搭建深度学习网络模型,上层采 用 JetBrains PyCharm 软件。网络模型所使用的激活函数为 ReLU,采用 Adam 作为梯度更新方法,学习率设 为 0.05。 由于神经网络模型的迭代次数对于实验结果 的影响比较大,迭代次数越大,模型的拟合程度 越好,进而会导致模型的过拟合问题。因此,本 文对迭代次数进行了单因子变量实验。如图 5 所 示,当迭代次数为 30 时,训练集和测试集的数据 上 F 值都处于一个较高的水平。因此本文实验迭 代次数设为 30,同时将 Dropout 的参数设为 0.5 以 防止过拟合。 0 10 20 30 40 50 60 0.6 0.7 0.8 0.9 1.0 F 值 迭代次数 训练数据集 测试数据集 图 5 基于迭代次数的 F 值的变化趋势 Fig. 5 Trends in F values based on iterations ·206· 智 能 系 统 学 报 第 16 卷
第2期 翟学明,等:混合神经网络和条件随机场相结合的文本情感分析 ·207· 词向量维度是实验的一个重要参数,维度的 GRU模型的输入,其输出作为CRF模型的输入, 高低会影响模型中参数的数目。维度过高,容易 最终输出情感分析结果。 导致过拟合,达不到预期的效果。维度过低,难 C-BG+CRF:本文提出的混合神经网络与条 以包含所需要的全部信息。本实验采用单因子变 件随机场相结合的情感分析模型。 量法确定词向量维度的最优值,实验结果如图6 实验结果如图7,对比发现,CRF单模型和神 所示,词向量维度初始值从30开始,并不断增 经网络模型相比,其分类的准确率和F值较低, 加。在单一变量的情况下,词向量维度在80的时 证明了传统机器学习方法在情感分析中的表现 候F值达到最优值。因此在神经网络训练过程 与深度学习确实存在差距。本文模型的收敛速 中,选用80作为词向量维度的设定值。本文模型 度跟CRF单模型差距不大,且在准确率和F值等 训练的参数和函数设置如表3所示。 指标上均优于其他模型,证明了本文模型的有效性。 0.95 0.90 0量金-0后目 0.90 0.85 080 ◆BiGRU 0.85 CRF CNN+BiGRU 0.75 CNN+BiGRU+CRF 0.80 20406080100120140160 10 1520 2530 词向量维度 迭代次数 图6基于词向量维度的F值的变化趋势 图76种模型F值比较 Fig.6 Trends in Fvalues based on word vector dimensions Fig.7 Comparison of Fvalue in six models 表3实验参数设置 对比实验的测试结果如表4所示。本文模型 Table 3 Experimental parameter settings 与CNN单模型、Bi-GRU单模型和CRF单模型相 参数名称 参数值 比在准确率、召回率和F值等指标上均表现出了 激活函数 良好的优越性。实验说明本文模型与单个模型相 Tanh 比,在情感分析任务上确实具有更好的效果。 优化方法 Adam 表4不同模型的测试结果 Dropout 0.5 Table 4 Test results of different models 神经网络迭代次数 30 模型 准确率A 召回率R F值 词向量维度 80 CNN 0.8665 0.8650 0.8647 3.4实验结果及对比分析 BiGRU 0.9096 0.8863 0.8824 为了证明本文提出模型的有效性,将本文模 CRF 0.8527 0.8559 0.8592 型分别与CNN、Bi-GRU、CRF、CNN+Bi-GRU、Bi CNN+BiGRU 0.9169 0.9100 0.9091 GRU+CRF等模型做对比实验,进行情感分析的 BiGRU+CRE 0.9107 0.8969 0.9028 性能对比。 C-BG+CRF(本文) 0.9174 0.9118 0.9156 CNN:将词向量作为输入在CNN中进行分类。 Bi-GRU:将词向量作为输入在双向门控循环 本文模型与CNN+BiGRU模型进行对比,分 单元中进行分类。 类效果有所提升。因为本文模型采用CRF作为 CRF:将词向量输入到条件随机场中进行分类。 分类器而不是Softmax函数,对异常标签的处理 CNN+Bi-GRU:将CNN与Bi-GRU采用联合 具有更好的准确性,可以有效地促进情感分类器 训练的方式,词向量分别输入两种神经网络 性能上的提升。本文模型与BiGRU+CRF模型相 中,得到的输出进行特征融合,利用Softmax进 比在F值上有所提升,同时收敛速度加快。两种 行分类。 神经网络共同训练得到的特征比单一网络更加充 Bi-GRU+CRF:将Bi-GRU模型与CRF模型以 分,在准确率上有所提升。实验说明本文模型与 链式方式进行组合,将训练好的词向量作为Bi 融合模型相比,在情感分析任务上确实具有更好
词向量维度是实验的一个重要参数,维度的 高低会影响模型中参数的数目。维度过高,容易 导致过拟合,达不到预期的效果。维度过低,难 以包含所需要的全部信息。本实验采用单因子变 量法确定词向量维度的最优值,实验结果如图 6 所示,词向量维度初始值从 30 开始,并不断增 加。在单一变量的情况下,词向量维度在 80 的时 候 F 值达到最优值。因此在神经网络训练过程 中,选用 80 作为词向量维度的设定值。本文模型 训练的参数和函数设置如表 3 所示。 F 值 20 40 60 80 100 120 140 160 0.80 0.85 0.90 0.95 词向量维度 图 6 基于词向量维度的 F 值的变化趋势 Fig. 6 Trends in F values based on word vector dimensions 表 3 实验参数设置 Table 3 Experimental parameter settings 参数名称 参数值 激活函数 Tanh 优化方法 Adam Dropout 0.5 神经网络迭代次数 30 词向量维度 80 3.4 实验结果及对比分析 为了证明本文提出模型的有效性,将本文模 型分别与 CNN、Bi-GRU、CRF、CNN+Bi-GRU、BiGRU+CRF 等模型做对比实验,进行情感分析的 性能对比。 CNN:将词向量作为输入在 CNN 中进行分类。 Bi-GRU:将词向量作为输入在双向门控循环 单元中进行分类。 CRF:将词向量输入到条件随机场中进行分类。 CNN+Bi-GRU:将 CNN 与 Bi-GRU 采用联合 训练的方式,词向量分别输入两种神经网络 中,得到的输出进行特征融合,利用 Softmax 进 行分类。 Bi-GRU+CRF:将 Bi-GRU 模型与 CRF 模型以 链式方式进行组合,将训练好的词向量作为 BiGRU 模型的输入,其输出作为 CRF 模型的输入, 最终输出情感分析结果。 C-BG+CRF:本文提出的混合神经网络与条 件随机场相结合的情感分析模型。 实验结果如图 7,对比发现,CRF 单模型和神 经网络模型相比,其分类的准确率和 F 值较低, 证明了传统机器学习方法在情感分析中的表现 与深度学习确实存在差距。本文模型的收敛速 度跟 CRF 单模型差距不大,且在准确率和 F 值等 指标上均优于其他模型,证明了本文模型的有效性。 F 值 0 5 10 15 20 25 30 0.75 0.80 0.85 0.90 迭代次数 CNN BiGRU CRF CNN+BiGRU BiGRU+CRF CNN+BiGRU+CRF 图 7 6 种模型 F 值比较 Fig. 7 Comparison of F value in six models 对比实验的测试结果如表 4 所示。本文模型 与 CNN 单模型、Bi-GRU 单模型和 CRF 单模型相 比在准确率、召回率和 F 值等指标上均表现出了 良好的优越性。实验说明本文模型与单个模型相 比,在情感分析任务上确实具有更好的效果。 表 4 不同模型的测试结果 Table 4 Test results of different models 模型 准确率A 召回率R F值 CNN 0.8665 0.865 0 0.8647 BiGRU 0.9096 0.886 3 0.8824 CRF 0.8527 0.855 9 0.8592 CNN+BiGRU 0.9169 0.910 0 0.9091 BiGRU+CRF 0.9107 0.896 9 0.9028 C-BG+CRF(本文) 0.9174 0.911 8 0.9156 本文模型与 CNN+BiGRU 模型进行对比,分 类效果有所提升。因为本文模型采用 CRF 作为 分类器而不是 Softmax 函数,对异常标签的处理 具有更好的准确性,可以有效地促进情感分类器 性能上的提升。本文模型与 BiGRU+CRF 模型相 比在 F 值上有所提升,同时收敛速度加快。两种 神经网络共同训练得到的特征比单一网络更加充 分,在准确率上有所提升。实验说明本文模型与 融合模型相比,在情感分析任务上确实具有更好 第 2 期 翟学明,等:混合神经网络和条件随机场相结合的文本情感分析 ·207·
·208· 智能系统学报 第16卷 的效果。 language processing(almost)from scratch[J].Journal of machine learning research,2011,12:2493-2537 4结束语 [8]KIM Y.Convolutional neural networks for sentence classi- 本文针对篇章级的文本进行了分析,提出一 fication[C]//Proceedings of 2014 Conference on Empirical 种混合神经网络和CRF相结合的情感分析模 Methods in Natural Language Processing.Doha,Qatar, 型。将一段文本按照句子划分为不同的区域,结 2014:1746-1751 合了CNN与Bi-GRU两种神经网络获得的语义 [9]YIN Wenpeng,KANN K,YU Mo,et al.Comparative 信息和结构特征。同时,将分别通过神经网络得 study of CNN and RNN for natural language processing[J]. 到的句子的向量表示拼接在一起,采用条件随机 2017. 场模型作为分类器。本文模型充分考虑了上下文 [10]TANG Duyu,QIN Bing,LIU Ting.Document modeling 信息,使学习到的特征更加丰富。在NLPCC with gated recurrent neural network for sentiment classi- 2014数据集上进行训练和测试,总体上看,证明 fication[C]//Proceedings of the 2015 Conference on Em- 了本文的方法能够有效地对篇章级文本进行情感 pirical Methods in Natural Language Processing.Lisbon, 分类,取得了良好的效果。下一步考虑在词向量 Portugal,2015:1422-1432. 中融入主题词信息,从而更好地针对篇章中多主 [11]HOCHREITER S,SCHMIDHUBER J.Long short-term 题进行文本情感分析任务。 memory[J].Neural computation,1997,9(8):1735-1780. [12]ZHU Xiaodan,SOBHANI P,GUO Hongyu.Long short- 参考文献: term memory over recursive structures[C]//Proceedings of [1]CAMBRIA E.Affective computing and sentiment analys- the 32nd International Conference on International Con- is[J].IEEE intelligent systems,2016,31(2):102-107. ference on Machine Learning.Lille,France,2015: [2]陈龙,管子玉,何金红,等.情感分类研究进展).计算机 1604-1612. 研究与发展,2017,54(6):1150-1170. [13]白静,李霏,姬东鸿.基于注意力的BiLSTM-CNN中文 CHEN Long,GUAN Ziyu,HE Jinhong,et al.A survey on 微博立场检测模型[).计算机应用与软件,2018,35(3): sentiment classification[]].Journal of computer research 266-274. and development,2017,54(6):1150-1170. BAI Jing,LI Fei,JI Donghong.Attention based BiLSTM- [3]杨立公,朱俭,汤世平.文本情感分析综述).计算机应 CNN Chinese microblogging position detection model[J]. 用,2013.33(6:1574-1578.1607. Computer applications and software,2018,35(3): YANG Ligong ZHU Jian,TANG Shiping.Survey of text 266-274. sentiment analysis[J].Journal of computer applications, [14]刘洋.基于GRU神经网络的时间序列预测研究D].成 2013,33(6):1574-1578,1607. 都:成都理工大学,2017. [4]TABOADA M,BROOKE J,TOFILOSKI M,et al.Lex- LIU Yang.The research of time series prediction based icon-based methods for sentiment analysis[J].Computa- on GRU neural network[D].Chengdu:Chengdu Uni- tional linguistics,2011,37(2):267-307 versity of Technology,2017. [5]丁晟春,吴靓婵媛,李红梅.基于SVM的中文微博观点 [15]魏韡,向阳,陈千.中文文本情感分析综述.计算机应 倾向性识别).情报学报,2016,35(12):1235-1243, 用.2011,31(12):3321-3323 DING Shengchun,WU Jingchanyuan,LI Hongmei. WEI Wei,XIANG Yang,CHEN Qian.Survey on Chinese Chinese micro-blogging opinion recognition based on text sentiment analysis[J].Journal of computer applica- SVM model[J].Journal of the China society for scientific tions,.2011,31(12:3321-3323. and technical information,2016,35(12):1235-1243. [16]齐小英.基于NLPIR的人工智能新闻事件的语义智能 [6]梁军,柴玉梅,原慧斌,等.基于深度学习的微博情感分 分析[J.信息与电脑(理论版),2019,31(20):104107 析[.中文信息学报,2014,28(5):155-161. QI Xiaoying.Semantic intelligence analysis of artificial LIANG Jun,CHAI Yumei,YUAN Huibin,et al.Deep intelligence news events based on NLPIR[J].China com- learning for Chinese micro-blog sentiment analysis[J]. puter communication,2019,31(20):104-107. Journal of Chinese information processing,2014,28(5): [17]MIKOLOV T,CHEN Kai,CORRADO G,et al.Efficient 155-161. estimation of word representations in vector space[Cl// [7]COLLOBERT R,WESTON J,BOTTOU L,et al.Natural Proceedings of Workshop at ZCLR.[S.1.],2013
的效果。 4 结束语 本文针对篇章级的文本进行了分析,提出一 种混合神经网络和 CRF 相结合的情感分析模 型。将一段文本按照句子划分为不同的区域,结 合了 CNN 与 Bi-GRU 两种神经网络获得的语义 信息和结构特征。同时,将分别通过神经网络得 到的句子的向量表示拼接在一起,采用条件随机 场模型作为分类器。本文模型充分考虑了上下文 信息,使学习到的特征更加丰富。在 NLPCC 2014 数据集上进行训练和测试,总体上看,证明 了本文的方法能够有效地对篇章级文本进行情感 分类,取得了良好的效果。下一步考虑在词向量 中融入主题词信息,从而更好地针对篇章中多主 题进行文本情感分析任务。 参考文献: CAMBRIA E. Affective computing and sentiment analysis[J]. IEEE intelligent systems, 2016, 31(2): 102–107. [1] 陈龙, 管子玉, 何金红, 等. 情感分类研究进展 [J]. 计算机 研究与发展, 2017, 54(6): 1150–1170. CHEN Long, GUAN Ziyu, HE Jinhong, et al. A survey on sentiment classification[J]. Journal of computer research and development, 2017, 54(6): 1150–1170. [2] 杨立公, 朱俭, 汤世平. 文本情感分析综述 [J]. 计算机应 用, 2013, 33(6): 1574–1578, 1607. YANG Ligong ZHU Jian, TANG Shiping. Survey of text sentiment analysis[J]. Journal of computer applications, 2013, 33(6): 1574–1578, 1607. [3] TABOADA M, BROOKE J, TOFILOSKI M, et al. Lexicon-based methods for sentiment analysis[J]. Computational linguistics, 2011, 37(2): 267–307. [4] 丁晟春, 吴靓婵媛, 李红梅. 基于 SVM 的中文微博观点 倾向性识别 [J]. 情报学报, 2016, 35(12): 1235–1243. DING Shengchun, WU Jingchanyuan, LI Hongmei. Chinese micro-blogging opinion recognition based on SVM model[J]. Journal of the China society for scientific and technical information, 2016, 35(12): 1235–1243. [5] 梁军, 柴玉梅, 原慧斌, 等. 基于深度学习的微博情感分 析 [J]. 中文信息学报, 2014, 28(5): 155–161. LIANG Jun, CHAI Yumei, YUAN Huibin, et al. Deep learning for Chinese micro-blog sentiment analysis[J]. Journal of Chinese information processing, 2014, 28(5): 155–161. [6] [7] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of machine learning research, 2011, 12: 2493–2537. KIM Y. Convolutional neural networks for sentence classification[C]//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar, 2014: 1746−1751. [8] YIN Wenpeng, KANN K, YU Mo, et al. Comparative study of CNN and RNN for natural language processing[J]. 2017. [9] TANG Duyu, QIN Bing, LIU Ting. Document modeling with gated recurrent neural network for sentiment classification[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal, 2015: 1422−1432. [10] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735–1780. [11] ZHU Xiaodan, SOBHANI P, GUO Hongyu. Long shortterm memory over recursive structures[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning. Lille, France, 2015: 1604−1612. [12] 白静, 李霏, 姬东鸿. 基于注意力的 BiLSTM-CNN 中文 微博立场检测模型 [J]. 计算机应用与软件, 2018, 35(3): 266–274. BAI Jing, LI Fei, JI Donghong. Attention based BiLSTMCNN Chinese microblogging position detection model[J]. Computer applications and software, 2018, 35(3): 266–274. [13] 刘洋. 基于 GRU 神经网络的时间序列预测研究 [D]. 成 都: 成都理工大学, 2017. LIU Yang. The research of time series prediction based on GRU neural network[D]. Chengdu: Chengdu University of Technology, 2017. [14] 魏韡, 向阳, 陈千. 中文文本情感分析综述 [J]. 计算机应 用, 2011, 31(12): 3321–3323. WEI Wei, XIANG Yang, CHEN Qian. Survey on Chinese text sentiment analysis[J]. Journal of computer applications, 2011, 31(12): 3321–3323. [15] 齐小英. 基于 NLPIR 的人工智能新闻事件的语义智能 分析 [J]. 信息与电脑(理论版), 2019, 31(20): 104–107. QI Xiaoying. Semantic intelligence analysis of artificial intelligence news events based on NLPIR[J]. China computer & communication, 2019, 31(20): 104–107. [16] MIKOLOV T, CHEN Kai, CORRADO G, et al. Efficient estimation of word representations in vector space[C]// Proceedings of Workshop at ZCLR. [S.l.], 2013. [17] ·208· 智 能 系 统 学 报 第 16 卷
第2期 翟学明,等:混合神经网络和条件随机场相结合的文本情感分析 ·209· [18]MNIH A,TEH Y W.A fast and simple algorithm for Guangzhou:Guangdong University of Technology,2013. training neural probabilistic language models[C]//Pro- 作者简介: ceedings of the 29th International Conference on Interna- 翟学明,副教授,博士,主要研究 tional Conference on Machine Learning.Edinburgh,UK, 方向为电力系统自动化在线监测技 2012:419-426. 术、绝缘监测技术、计算机网络及其 [19]王吴,邓三鸿.HMM和CRFs在信息抽取应用中的比 应用。 较研究).现代图书情报技术,2007(12)57-63. WANG Hao,DENG Sanhong.Comparative Study on HMM and CRFs applying in information extraction[J]. New technology of library and information service, 魏巍,硕士研究生,主要研究方向 2007(12:57-63 为自然语言处理、情感分析。 [20]王鸿飞.基于条件随机场的中文微博情感分析研究D] 广州:广东工业大学,2013. WANG Hongfei.Research of sentiment analysis for Chinese micro blog based on conditional random field D]. 2021全球人工智能技术大会(GAITC2021) 中国科学技术协会、中国科学院、中国工程院、浙江省人民政府指导,中国人工智能学会、杭州市余杭区 人民政府主办,浙江杭州未来科技城管理委员会承办的“2021全球人工智能技术大会”将于2021年6月 5一6日在杭州举办。大会邀请到31位院士参会,他们分别是:戴琼海、李德毅、姚期智、潘云鹤、徐宗本、姚 建铨、吴朝晖、赵春江、吾守尔斯拉木、管晓宏、谭蔚泓、薛禹胜、沈向洋、Michael I.Jordan、Barry O'Sullivan C.Mohan、李明、郭毅可、王永雄、Wendy Hall、谢立华、王真、陈义明、吴信东、潘毅、孙茂松、蒋田仔、周志 华、张勤、林勤纬、苗春燕。在汇聚中国科创智慧与活力的同时,与世界建立互通共享的沟通桥梁,在交流中 探索共建美好智能时代的合作方案和发展共识,以最前沿的国际视野推动人工智能高速、有序、安全发展, 造福人类生活。 中外院士携手领航 这是一场世界级的智脑风暴,也是洞见全球人工智能发展新思想、新趋势、新格局的绝佳窗口。31位院 士中,除了中国两院院士,还有来自欧美及亚洲国家和地区的院士专家。作为人工智能领域一年一度的全 球性盛会,中外院士将携手领航从行业热度、专业高度、话题深度等方面为大会提供权威的指导和把关。 重磅报告西湖论智 按照会议日程安排,大会开幕式后便是重磅的主题报告环节,将有六位中外院士及两位企业高管相继登 场,带来他们的最新研究成果,联袂打造一场智能科技的西湖论智。与此同时,院士们也将在为期两天的大 会中走进专题论坛现场,与各领域学界和产界代表共同交流分享,就具体的议题展开思想碰撞,共同探讨智 能产业发展及智能社会构建的良策。 扫码前往 ▣ ▣ 大会官网 观众交流群
MNIH A, TEH Y W. A fast and simple algorithm for training neural probabilistic language models[C]//Proceedings of the 29th International Conference on International Conference on Machine Learning. Edinburgh, UK, 2012: 419−426. [18] 王昊, 邓三鸿. HMM 和 CRFs 在信息抽取应用中的比 较研究 [J]. 现代图书情报技术, 2007(12): 57–63. WANG Hao, DENG Sanhong. Comparative Study on HMM and CRFs applying in information extraction[J]. New technology of library and information service, 2007(12): 57–63. [19] 王鸿飞. 基于条件随机场的中文微博情感分析研究 [D]. 广州: 广东工业大学, 2013. WANG Hongfei. Research of sentiment analysis for Chinese micro blog based on conditional random field[D]. [20] Guangzhou: Guangdong University of Technology, 2013. 作者简介: 翟学明,副教授,博士,主要研究 方向为电力系统自动化在线监测技 术、绝缘监测技术、计算机网络及其 应用。 魏巍,硕士研究生,主要研究方向 为自然语言处理、情感分析。 2021 全球人工智能技术大会(GAITC 2021) 中国科学技术协会、中国科学院、中国工程院、浙江省人民政府指导,中国人工智能学会、杭州市余杭区 人民政府主办,浙江杭州未来科技城管理委员会承办的“2021 全球人工智能技术大会”将于 2021 年 6 月 5—6 日在杭州举办。大会邀请到 31 位院士参会,他们分别是:戴琼海、李德毅、姚期智、潘云鹤、徐宗本、姚 建铨、吴朝晖、赵春江、吾守尔·斯拉木、管晓宏、谭蔚泓、薛禹胜、沈向洋、Michael I. Jordan、Barry O'Sullivan、 C. Mohan、李明、郭毅可、王永雄、Wendy Hall、谢立华、王真、陈义明、吴信东、潘毅、孙茂松、蒋田仔、周志 华、张勤、林勤纬、苗春燕。在汇聚中国科创智慧与活力的同时,与世界建立互通共享的沟通桥梁,在交流中 探索共建美好智能时代的合作方案和发展共识,以最前沿的国际视野推动人工智能高速、有序、安全发展, 造福人类生活。 中外院士携手领航 这是一场世界级的智脑风暴,也是洞见全球人工智能发展新思想、新趋势、新格局的绝佳窗口。31 位院 士中,除了中国两院院士,还有来自欧美及亚洲国家和地区的院士专家。作为人工智能领域一年一度的全 球性盛会,中外院士将携手领航从行业热度、专业高度、话题深度等方面为大会提供权威的指导和把关。 重磅报告西湖论智 按照会议日程安排,大会开幕式后便是重磅的主题报告环节,将有六位中外院士及两位企业高管相继登 场,带来他们的最新研究成果,联袂打造一场智能科技的西湖论智。与此同时,院士们也将在为期两天的大 会中走进专题论坛现场,与各领域学界和产界代表共同交流分享,就具体的议题展开思想碰撞,共同探讨智 能产业发展及智能社会构建的良策。 扫码前往 第 2 期 翟学明,等:混合神经网络和条件随机场相结合的文本情感分析 ·209·