第1期 周浩,等:融合语义与语法信息的中文评价对象提取 ·177· 克服标签偏差,有更好的提取结果。从引入特征 点考虑中文语义与语法特征,充分利用中文词语 角度分析,英文单词通过模型学习通常可以学习 组成字符的内部信息,完成提取任务。最终,主 到单词的前后缀信息,而中文不具备这一特点。 题词准确率达到77.51%,情感词准确率达到90.42%。 而优化语义策略充分考虑了词语含义,因而融人 通过提出的新标注策略完成了评价对象联合提 语义与语法信息后结果明显。但模型处理语法特 取,准确率达到77.16%。中文评价对象提取达到 征不够明显的中文句子时,语法信息的作用不够 了理想效果。 明显。 本模型优点明显:输入信息考虑了词语内部 表7不同模型下的实验结果 的相关性,较好地解决了中文边界不易判断的情 Table 7 Experimental results under different models 况:此外,新的标注策略可以直接显示标注结果 网络 引入特征提取目标准确率%召回率%F,% 的结构化信息。但特征选择多种多样。通过考虑 模型 中文句子中的其他特征,进一步丰富嵌入层的信 位置信息 主题词 78.10 61.70 69.00 息。此外结合中文评价对象提取任务的特点,在 CRF 规则信息 情感词 88.83 88.12 88.47 本文的基础上引入注意力机制也是笔者未来研究 Bi- 语义信息 主题词 76.64 69.37 72.82 的方向。 LSTM语法信息 情感词 87.61 86.5 87.05 参考文献: Bi- 语义信息 主题词 77.51 72.5 74.92 LSTM- [1]QIU Guang,LIU Bing,BU Jiajun,et al.Expanding do- 语法信息情感词 90.42 87.01 88.73 CRF main sentiment lexicon through double propagation[C]/ Proceedings of the 21st International Jont Conference on 实验4验证本文提出的Binary-BIO标注策 Artifical Intelligence.Pasadena,USA,2009:1199-1204. 略对评价对象联合提取的有效性。在提出的模型 [2]ZHAI Zhongwu,XU Hua,KANG Bada,et al.Exploiting 框架下,以BIO策略进行标注,顺序匹配得到联 effective features for Chinese sentiment classification[J]. 合提取结果。与Binary-BIO策略进行标注的结果 Expert systems with applications,2011,38(8):9139-9146 比较,先判断情感词是否存在匹配主题词,再进 [3]ZHANG Lei,LIU Bing,LIM S H,et al.Extracting and 行联合提取。实验4结果如表8所示。 ranking product features in opinion documents[C]//Pro- 表8联合提取效果 ceedings of the 23rd International Conference on Computa- Table 8 Emotional word recognition effect tional Linguistics:Posters.Beijing,China,2010: % 1462-1470. 标注方法 准确率 召回率 F [4]孟园,王洪伟.中文评论产品特征与观点抽取方法研究 BIO 72.81 63.63 67.91 [).现代图书情报技术,2016,32(2)16-24 Binary-BIO 77.16 67.20 71.84 MENG Yuan,WANG Hongwei.Extracting product fea- ture and user opinion from Chinese reviews[].Data ana- 通过改变标签结构的Binary-BlO标注方法可 lysis and knowledge discovery,2016.32(2):16-24. 以提高联合提取效果。该方法不但提高了准确 [5]廖样文,陈兴俊,魏晶晶,等.基于多层关系图模型的中 率,更重要的是为标注结果提供了结构化信息, 文评价对象与评价词抽取方法).自动化学报,2017, 而不需要额外的模型训练。此外,联合提取与单 43(3):462-471. 独提取相比,准确率有所下降。其主要原因是: LIAO Xiangwen,CHEN Xingjun,WEI Jingjing,et al.A 数据集中普遍存在仅有情感词而缺少主题词的情 multi-layer relation graph model for extracting opinion tar- 况,这导致匹配信息训练得不够充分,没有很好 gets and opinion words[J].Acta automatica sinica.2017. 地挖掘出存在匹配情况的评价对象的特点。 43(3):462-471 以上实验充分说明了,本文所考虑的中文语 [6]丁晟春,吴婧婵媛,李霄.基于CRFs和领域本体的中文 义与语法信息对提高评价对象提取的准确率有积 微博评价对象抽取研究U).中文信息学报,2016,30(4): 极意义,且新的标注策略对联合提取具有实际价值。 159-166. DING Shengchun,WU Jingchanyuan,LI Xiao.Opinion 4结束语 targets extraction from Chinese microblogs based on con- ditional random fields and domain ontology[J].Journal of 中文评价对象提取是情感分析任务的关键技 Chinese information processing,2016,30(4):159-166. 术。针对中文评论对象提取准确率低的现状,重 [7]PENG Nanyun,DREDZE M.Improving named entity re-克服标签偏差,有更好的提取结果。从引入特征 角度分析,英文单词通过模型学习通常可以学习 到单词的前后缀信息,而中文不具备这一特点。 而优化语义策略充分考虑了词语含义,因而融入 语义与语法信息后结果明显。但模型处理语法特 征不够明显的中文句子时,语法信息的作用不够 明显。 表 7 不同模型下的实验结果 Table 7 Experimental results under different models 网络 模型 引入特征 提取目标 准确率/% 召回率/% F1 /% CRF 位置信息 主题词 78.10 61.70 69.00 规则信息 情感词 88.83 88.12 88.47 BiLSTM 语义信息 主题词 76.64 69.37 72.82 语法信息 情感词 87.61 86.5 87.05 BiLSTMCRF 语义信息 主题词 77.51 72.5 74.92 语法信息 情感词 90.42 87.01 88.73 实验 4 验证本文提出的 Binary-BIO 标注策 略对评价对象联合提取的有效性。在提出的模型 框架下,以 BIO 策略进行标注,顺序匹配得到联 合提取结果。与 Binary-BIO 策略进行标注的结果 比较,先判断情感词是否存在匹配主题词,再进 行联合提取。实验 4 结果如表 8 所示。 表 8 联合提取效果 Table 8 Emotional word recognition effect % 标注方法 准确率 召回率 F1 BIO 72.81 63.63 67.91 Binary-BIO 77.16 67.20 71.84 通过改变标签结构的 Binary-BIO 标注方法可 以提高联合提取效果。该方法不但提高了准确 率,更重要的是为标注结果提供了结构化信息, 而不需要额外的模型训练。此外,联合提取与单 独提取相比,准确率有所下降。其主要原因是: 数据集中普遍存在仅有情感词而缺少主题词的情 况,这导致匹配信息训练得不够充分,没有很好 地挖掘出存在匹配情况的评价对象的特点。 以上实验充分说明了,本文所考虑的中文语 义与语法信息对提高评价对象提取的准确率有积 极意义,且新的标注策略对联合提取具有实际价值。 4 结束语 中文评价对象提取是情感分析任务的关键技 术。针对中文评论对象提取准确率低的现状,重 点考虑中文语义与语法特征,充分利用中文词语 组成字符的内部信息,完成提取任务。最终,主 题词准确率达到 77.51%,情感词准确率达到 90.42%。 通过提出的新标注策略完成了评价对象联合提 取,准确率达到 77.16%。中文评价对象提取达到 了理想效果。 本模型优点明显:输入信息考虑了词语内部 的相关性,较好地解决了中文边界不易判断的情 况;此外,新的标注策略可以直接显示标注结果 的结构化信息。但特征选择多种多样。通过考虑 中文句子中的其他特征,进一步丰富嵌入层的信 息。此外结合中文评价对象提取任务的特点,在 本文的基础上引入注意力机制也是笔者未来研究 的方向。 参考文献: QIU Guang, LIU Bing, BU Jiajun, et al. Expanding domain sentiment lexicon through double propagation[C]// Proceedings of the 21st International Jont Conference on Artifical Intelligence. Pasadena, USA, 2009: 1199–1204. [1] ZHAI Zhongwu, XU Hua, KANG Bada, et al. Exploiting effective features for Chinese sentiment classification[J]. Expert systems with applications, 2011, 38(8): 9139–9146. [2] ZHANG Lei, LIU Bing, LIM S H, et al. Extracting and ranking product features in opinion documents[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Beijing, China, 2010: 1462–1470. [3] 孟园, 王洪伟. 中文评论产品特征与观点抽取方法研究 [J]. 现代图书情报技术, 2016, 32(2): 16–24. MENG Yuan, WANG Hongwei. Extracting product feature and user opinion from Chinese reviews[J]. Data analysis and knowledge discovery, 2016, 32(2): 16–24. [4] 廖祥文, 陈兴俊, 魏晶晶, 等. 基于多层关系图模型的中 文评价对象与评价词抽取方法[J]. 自动化学报, 2017, 43(3): 462–471. LIAO Xiangwen, CHEN Xingjun, WEI Jingjing, et al. A multi-layer relation graph model for extracting opinion targets and opinion words[J]. Acta automatica sinica, 2017, 43(3): 462–471. [5] 丁晟春, 吴婧婵媛, 李霄. 基于 CRFs 和领域本体的中文 微博评价对象抽取研究[J]. 中文信息学报, 2016, 30(4): 159–166. DING Shengchun, WU Jingchanyuan, LI Xiao. Opinion targets extraction from Chinese microblogs based on conditional random fields and domain ontology[J]. Journal of Chinese information processing, 2016, 30(4): 159–166. [6] [7] PENG Nanyun, DREDZE M. Improving named entity re- 第 1 期 周浩,等:融合语义与语法信息的中文评价对象提取 ·177·