正在加载图片...
·464· 智能系统学报 第15卷 3实验数据与实验设置 型实验结果,如表3所示,有SVM(support vector machine)、NN(neural network)等。 3.1数据集 表3情感分析模型的实验结果 为验证本文提出模型的有效性,实验部分在 Table 3 Results of the sentiment analysis of the models 以下3个公开数据集上进行,所用数据集来自于 模型 IMDB YELP 2013 YELP 2014 Chen等的数据集: Majority M①DB:用户在不同商品上的评论数据集。用 19.6 41.1 39.2 于对评论进行情感倾向性分析,每条评论分为 Trigram 39.9 56.9 57.7 10个情感强度 TextFeature 40.2 55.6 57.2 YELP:Yelp比赛2013年和2014年的数据 AvgWordvec 30.4 52.6 53 集,每条评论分为5个强度。 SSWE 31.2 54.9 55.7 数据集详细信息如表1所示。 Paragraph Vector 34.1 55.4 56.4 表1数据集 RNTN+RNN 40 57.4 58.2 Table 1 Datasets NSC 44.3 62.7 63.7 数据集类别文档数文档平均句子数句子平均单词数 NSC+LA 48.7 63.1 63 IMDB 1084919 16.08 24.54 Cnn2Cnn 48.6 YELP2013578966 63.2 62.8 10.89 17.38 Cnn2Rnn 49.4 64.1 64.2 YELP20145231163 11.41 17.26 3.2实验参数与数据处理 对比方法如下: 本数据集使用Keras进行数据预处理,分词 Majority:将训练集中占多数的情感标签视为 任务由Keras提供的tokenizer实现。将数据集划 测试集的情感标签。 分为训练、验证和测试集,划分比例分别为8:1:1。 Trigram:以一元词、二元词和三元词为特征 实验时对词向量进行降维处理,训练词向量维度 训练SVM分类器B。 为200维。卷积神经网络参数设置如表2所示。 TextFeature:提取文本的词特征、字符特征和 本文设置上下文范围大小D=2,滑动窗口数量为 词性特征训练SVM分类器。 1,GRU的输出维度设为100,双向得到向量为 AvgWordvec:将文档的词向量平均化得到文 200维,全连接层隐藏单元200个。 档表示,以此训练SVM分类器。 表2卷积层参数设置 S$WE:使用特别训练的情感词向量生成特 Table 2 Hyperparameter of CNN 征,SVM为分类器 参数 属性 NSC:双层LSTM分别获取词特征和句子特 激活函数 Recified linear Units 征,构建篇章表示四。 滑动窗口大小 1,3,4,5 NSC+LA:双层LSTM结合全局注意力机制 滑动窗口数量 100 提取篇章的特征表示 RNTN+RNN:使用递归神经网络提取句子 Dropout 0.5 的特征表示,并用循环神经网络得到篇章的特 Minibatch 64 征表示。 池化 最大池化 Paragraph Vector::PVDM模型用于情感分类。 实验模型指定batch size大小为32,同时对 Cnn2Cnn:词特征提取和句子特征提取都使 词向量进行动态微处理。本文使用Adadelta算法 用词注意卷积神经网络。 对模型参数进行了优化调整。为了提升实验效果 Cnn2Rnn:词特征提取使用词注意卷积神经 和模型准确率,训练过程中将含有句子数相近的 网络,句子特征提取使用GRU和全局注意力。 篇章形成一个batch,用以加速训练过程。最后, 3.4实验结果与分析 模型使用准确率作为评判标准。 本文的实验结果如表3所示,在3个数据集 3.3对比方法 上分别得到模型的准确率,将模型的对比实验分 为了测定模型效果,本实验对比了不同的模 为3组:第1组以传统特征提取结合分类器进行3 实验数据与实验设置 3.1 数据集 为验证本文提出模型的有效性,实验部分在 以下 3 个公开数据集上进行,所用数据集来自于 Chen 等 [32] 的数据集: IMDB:用户在不同商品上的评论数据集。用 于对评论进行情感倾向性分析,每条评论分为 10 个情感强度。 YELP:Yelp 比赛 2013 年和 2014 年的数据 集,每条评论分为 5 个强度。 数据集详细信息如表 1 所示。 表 1 数据集 Table 1 Datasets 数据集 类别 文档数 文档平均句子数 句子平均单词数 IMDB 10 84 919 16.08 24.54 YELP 2013 5 78 966 10.89 17.38 YELP 2014 5 231 163 11.41 17.26 3.2 实验参数与数据处理 本数据集使用 Keras 进行数据预处理,分词 任务由 Keras 提供的 tokenizer 实现。将数据集划 分为训练、验证和测试集,划分比例分别为 8∶1∶1。 实验时对词向量进行降维处理,训练词向量维度 为 200 维。卷积神经网络参数设置如表 2 所示。 本文设置上下文范围大小 D=2,滑动窗口数量为 1,GRU 的输出维度设为 100,双向得到向量为 200 维,全连接层隐藏单元 200 个。 表 2 卷积层参数设置 Table 2 Hyperparameter of CNN 参数 属性 激活函数 Recified linear Units 滑动窗口大小 1,3,4,5 滑动窗口数量 100 Dropout 0.5 Minibatch 64 池化 最大池化 实验模型指定 batch_size 大小为 32,同时对 词向量进行动态微处理。本文使用 Adadelta 算法 对模型参数进行了优化调整。为了提升实验效果 和模型准确率,训练过程中将含有句子数相近的 篇章形成一个 batch,用以加速训练过程。最后, 模型使用准确率作为评判标准。 3.3 对比方法 为了测定模型效果,本实验对比了不同的模 型实验结果,如表 3 所示,有 SVM(support vector machine)、NN(neural network) 等。 表 3 情感分析模型的实验结果 Table 3 Results of the sentiment analysis of the models 模型 IMDB YELP 2013 YELP 2014 Majority 19.6 41.1 39.2 Trigram 39.9 56.9 57.7 TextFeature 40.2 55.6 57.2 AvgWordvec 30.4 52.6 53 SSWE 31.2 54.9 55.7 Paragraph Vector 34.1 55.4 56.4 RNTN+RNN 40 57.4 58.2 NSC 44.3 62.7 63.7 NSC+LA 48.7 63.1 63 Cnn2Cnn 48.6 63.2 62.8 Cnn2Rnn 49.4 64.1 64.2 对比方法如下: Majority:将训练集中占多数的情感标签视为 测试集的情感标签。 Trigram:以一元词、二元词和三元词为特征 训练 SVM 分类器[33]。 TextFeature:提取文本的词特征、字符特征和 词性特征训练 SVM 分类器。 AvgWordvec:将文档的词向量平均化得到文 档表示,以此训练 SVM 分类器。 SSWE:使用特别训练的情感词向量生成特 征,SVM 为分类器。 NSC:双层 LSTM 分别获取词特征和句子特 征,构建篇章表示[32]。 NSC+LA:双层 LSTM 结合全局注意力机制 提取篇章的特征表示[14]。 RNTN+RNN:使用递归神经网络提取句子 的特征表示,并用循环神经网络得到篇章的特 征表示。 Paragraph Vector:PVDM[34] 模型用于情感分类。 Cnn2Cnn:词特征提取和句子特征提取都使 用词注意卷积神经网络。 Cnn2Rnn:词特征提取使用词注意卷积神经 网络,句子特征提取使用 GRU 和全局注意力。 3.4 实验结果与分析 本文的实验结果如表 3 所示,在 3 个数据集 上分别得到模型的准确率,将模型的对比实验分 为 3 组:第 1 组以传统特征提取结合分类器进行 ·464· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有