正在加载图片...
·148· 智能系统学报 第16卷 优秀的结果加粗表示。可以看到,在3个数据集 上,DFAOA-BERT均取得了非常优秀的成绩。 表2实验结果对比 Table 2 Comparison of the experimental results % 餐馆数据集 笔记本数据集 Twitter数据集 类别 模型 Acc MF Acc MF Acc MF SVM 80.16 70.49 63.40 TD-LSTM 75.63 68.13 70.80 69.00 基线 IAN 78.60 72.10 RAM 80.23 70.80 74.49 71.35 69.36 67.30 AOA 81.20 74.50 BERT-base 81.54 71.94 75.29 71.91 AEN-BERT 83.12 73.76 79.93 76.31 74.71 73.13 BERT模型 BERT-SPC 84.46 76.98 78.99 75.03 73.55 72.14 BERT-PT 84.95 76.96 78.07 75.08 BAT 86.03 79.24 79.35 76.50 本文模型 DFAOA-BERT 87.05 81.68 80.25 76.66 75.72 74.62 普通基线模型中,基于特征工程的SVM提出 BERT的强大优势,设计了合适的网络结构和子 时间最早,但其效果却出人意料得好,超过了多 模块来引导整个模型满足方面词情感分析任务的 数不含BERT加持的基线模型。因此,如果不考 要求,取得了令人瞩目的成绩。DFAOA-BERT则 虑人力成本,SVM在特定数据集上将会是一个不 凭借双特征AOA机制,无论是在准确度还是 错的选择。TD-LSTM模型的结构最为简单,只使 Macro-F,分数上,都获得了比上述基线更理想的 用了2个LSTM,但其效果也是最不理想的。而 结果,证明了整体模型在解决方面词情感分析任 引入注意力机制的模型,例如IAN、AOA,通过精 务上的优秀能力。 心设计的注意力机制来引导网络进行语义特征提 3.4子模块的有效性实验 取,从而获得比TD-LSTM优秀很多的结果。 为验证DFAOA-BERT模型中主要子模块的 根据表2可以观察到,就餐馆评论数据集而 设计合理性,本文进行了相应的补充实验。结果 言,80%的分类准确度已经接近模型效果的天花 如表3所示。其中,“w/o”(without)代表去除, 板了,而BERT模型的加持,则使情感分析结果获 “G”代表全局特征提取器,“L”代表局部特征提取 得了惊人的提升。即使是最简单的BERT-base模 器,“cdw”代表语境动态加权模块。所有实验均 型,其效果已经超过了绝大部分普通基线模型。 在显卡NVIDIA Tesla P1000上进行。最优秀的结 AEN-BERT、BERT-SPC和BAT为了充分发挥 果加粗表示。 表3 DFAOA-BERT模型与其变种的实验结果对比 Table 3 Comparison of experimental results between DFAOA-BERT model and its variants % 餐馆数据集 笔记本数据集 Twitter数据集 模型 Acc MF Acc MF Acc MF1 DFAOA-BERT w/o cdw 84.64 76.93 79.00 75.06 75.00 73.82 DFAOA-BERT w/o L 84.55 77.49 79.47 76.14 73.70 72.48 DFAOA-BERT w/o G 83.21 75.56 79.78 76.38 73.27 71.10 DFAOA-BERT 87.05 81.68 80.25 76.66 75.72 74.62 可以清楚地看到,缺少任一模块,DFAOA 取器将会因位置问题而在很大概率上忽视情感指 BERT模型的效果都将有着明显的下降。全局特 示词的作用,导致情感判断产生关键性错误。 征提取器的缺失对整体效果影响最大,这说明了 在笔记本评论数据集和Twitter评论数据集 全局语义特征对于本任务的重要性。最难判断的 上,局部特征提取器和全局特征提取器的缺失所 句子往往具有一个特点,即情感指示词会出现在 带来的效果下降幅度相近。这两者在整体模型中 模型意想不到的位置,因此,仅依靠局部特征提 有着相辅相成的关系,全局特征提取器能够顾及优秀的结果加粗表示。可以看到,在 3 个数据集 上,DFAOA-BERT 均取得了非常优秀的成绩。 表 2 实验结果对比 Table 2 Comparison of the experimental results % 类别 模型 餐馆数据集 笔记本数据集 Twitter数据集 Acc MF1 Acc MF1 Acc MF1 基线 SVM 80.16 — 70.49 — 63.40 — TD-LSTM 75.63 — 68.13 — 70.80 69.00 IAN 78.60 — 72.10 — — — RAM 80.23 70.80 74.49 71.35 69.36 67.30 AOA 81.20 — 74.50 — — — BERT模型 BERT-base 81.54 71.94 75.29 71.91 — — AEN-BERT 83.12 73.76 79.93 76.31 74.71 73.13 BERT-SPC 84.46 76.98 78.99 75.03 73.55 72.14 BERT-PT 84.95 76.96 78.07 75.08 — — BAT 86.03 79.24 79.35 76.50 — — 本文模型 DFAOA-BERT 87.05 81.68 80.25 76.66 75.72 74.62 普通基线模型中,基于特征工程的 SVM 提出 时间最早,但其效果却出人意料得好,超过了多 数不含 BERT 加持的基线模型。因此,如果不考 虑人力成本,SVM 在特定数据集上将会是一个不 错的选择。TD-LSTM 模型的结构最为简单,只使 用了 2 个 LSTM,但其效果也是最不理想的。而 引入注意力机制的模型,例如 IAN、AOA,通过精 心设计的注意力机制来引导网络进行语义特征提 取,从而获得比 TD-LSTM 优秀很多的结果。 根据表 2 可以观察到,就餐馆评论数据集而 言,80% 的分类准确度已经接近模型效果的天花 板了,而 BERT 模型的加持,则使情感分析结果获 得了惊人的提升。即使是最简单的 BERT-base 模 型,其效果已经超过了绝大部分普通基线模型。 AEN-BERT、BERT-SPC 和 BAT 为了充分发挥 BERT 的强大优势,设计了合适的网络结构和子 模块来引导整个模型满足方面词情感分析任务的 要求,取得了令人瞩目的成绩。DFAOA-BERT 则 凭借双特征 AOA 机制,无论是在准确度还是 Macro-F1 分数上,都获得了比上述基线更理想的 结果,证明了整体模型在解决方面词情感分析任 务上的优秀能力。 3.4 子模块的有效性实验 为验证 DFAOA-BERT 模型中主要子模块的 设计合理性,本文进行了相应的补充实验。结果 如表 3 所示。其中,“w/o”(without) 代表去除, “G”代表全局特征提取器,“L”代表局部特征提取 器,“cdw”代表语境动态加权模块。所有实验均 在显卡 NVIDIA Tesla P100 上进行。最优秀的结 果加粗表示。 表 3 DFAOA-BERT 模型与其变种的实验结果对比 Table 3 Comparison of experimental results between DFAOA-BERT model and its variants % 模型 餐馆数据集 笔记本数据集 Twitter数据集 Acc MF1 Acc MF1 Acc MF1 DFAOA-BERT w/o cdw 84.64 76.93 79.00 75.06 75.00 73.82 DFAOA-BERT w/o L 84.55 77.49 79.47 76.14 73.70 72.48 DFAOA-BERT w/o G 83.21 75.56 79.78 76.38 73.27 71.10 DFAOA-BERT 87.05 81.68 80.25 76.66 75.72 74.62 可以清楚地看到,缺少任一模块,DFAOA￾BERT 模型的效果都将有着明显的下降。全局特 征提取器的缺失对整体效果影响最大,这说明了 全局语义特征对于本任务的重要性。最难判断的 句子往往具有一个特点,即情感指示词会出现在 模型意想不到的位置,因此,仅依靠局部特征提 取器将会因位置问题而在很大概率上忽视情感指 示词的作用,导致情感判断产生关键性错误。 在笔记本评论数据集和 Twitter 评论数据集 上,局部特征提取器和全局特征提取器的缺失所 带来的效果下降幅度相近。这两者在整体模型中 有着相辅相成的关系,全局特征提取器能够顾及 ·148· 智 能 系 统 学 报 第 16 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有