正在加载图片...
第1期 周浩,等:融合语义与语法信息的中文评价对象提取 ·177· 克服标签偏差,有更好的提取结果。从引入特征 点考虑中文语义与语法特征,充分利用中文词语 角度分析,英文单词通过模型学习通常可以学习 组成字符的内部信息,完成提取任务。最终,主 到单词的前后缀信息,而中文不具备这一特点。 题词准确率达到77.51%,情感词准确率达到90.42%。 而优化语义策略充分考虑了词语含义,因而融人 通过提出的新标注策略完成了评价对象联合提 语义与语法信息后结果明显。但模型处理语法特 取,准确率达到77.16%。中文评价对象提取达到 征不够明显的中文句子时,语法信息的作用不够 了理想效果。 明显。 本模型优点明显:输入信息考虑了词语内部 表7不同模型下的实验结果 的相关性,较好地解决了中文边界不易判断的情 Table 7 Experimental results under different models 况:此外,新的标注策略可以直接显示标注结果 网络 引入特征提取目标准确率%召回率%F,% 的结构化信息。但特征选择多种多样。通过考虑 模型 中文句子中的其他特征,进一步丰富嵌入层的信 位置信息 主题词 78.10 61.70 69.00 息。此外结合中文评价对象提取任务的特点,在 CRF 规则信息 情感词 88.83 88.12 88.47 本文的基础上引入注意力机制也是笔者未来研究 Bi- 语义信息 主题词 76.64 69.37 72.82 的方向。 LSTM语法信息 情感词 87.61 86.5 87.05 参考文献: Bi- 语义信息 主题词 77.51 72.5 74.92 LSTM- [1]QIU Guang,LIU Bing,BU Jiajun,et al.Expanding do- 语法信息情感词 90.42 87.01 88.73 CRF main sentiment lexicon through double propagation[C]/ Proceedings of the 21st International Jont Conference on 实验4验证本文提出的Binary-BIO标注策 Artifical Intelligence.Pasadena,USA,2009:1199-1204. 略对评价对象联合提取的有效性。在提出的模型 [2]ZHAI Zhongwu,XU Hua,KANG Bada,et al.Exploiting 框架下,以BIO策略进行标注,顺序匹配得到联 effective features for Chinese sentiment classification[J]. 合提取结果。与Binary-BIO策略进行标注的结果 Expert systems with applications,2011,38(8):9139-9146 比较,先判断情感词是否存在匹配主题词,再进 [3]ZHANG Lei,LIU Bing,LIM S H,et al.Extracting and 行联合提取。实验4结果如表8所示。 ranking product features in opinion documents[C]//Pro- 表8联合提取效果 ceedings of the 23rd International Conference on Computa- Table 8 Emotional word recognition effect tional Linguistics:Posters.Beijing,China,2010: % 1462-1470. 标注方法 准确率 召回率 F [4]孟园,王洪伟.中文评论产品特征与观点抽取方法研究 BIO 72.81 63.63 67.91 [).现代图书情报技术,2016,32(2)16-24 Binary-BIO 77.16 67.20 71.84 MENG Yuan,WANG Hongwei.Extracting product fea- ture and user opinion from Chinese reviews[].Data ana- 通过改变标签结构的Binary-BlO标注方法可 lysis and knowledge discovery,2016.32(2):16-24. 以提高联合提取效果。该方法不但提高了准确 [5]廖样文,陈兴俊,魏晶晶,等.基于多层关系图模型的中 率,更重要的是为标注结果提供了结构化信息, 文评价对象与评价词抽取方法).自动化学报,2017, 而不需要额外的模型训练。此外,联合提取与单 43(3):462-471. 独提取相比,准确率有所下降。其主要原因是: LIAO Xiangwen,CHEN Xingjun,WEI Jingjing,et al.A 数据集中普遍存在仅有情感词而缺少主题词的情 multi-layer relation graph model for extracting opinion tar- 况,这导致匹配信息训练得不够充分,没有很好 gets and opinion words[J].Acta automatica sinica.2017. 地挖掘出存在匹配情况的评价对象的特点。 43(3):462-471 以上实验充分说明了,本文所考虑的中文语 [6]丁晟春,吴婧婵媛,李霄.基于CRFs和领域本体的中文 义与语法信息对提高评价对象提取的准确率有积 微博评价对象抽取研究U).中文信息学报,2016,30(4): 极意义,且新的标注策略对联合提取具有实际价值。 159-166. DING Shengchun,WU Jingchanyuan,LI Xiao.Opinion 4结束语 targets extraction from Chinese microblogs based on con- ditional random fields and domain ontology[J].Journal of 中文评价对象提取是情感分析任务的关键技 Chinese information processing,2016,30(4):159-166. 术。针对中文评论对象提取准确率低的现状,重 [7]PENG Nanyun,DREDZE M.Improving named entity re-克服标签偏差,有更好的提取结果。从引入特征 角度分析,英文单词通过模型学习通常可以学习 到单词的前后缀信息,而中文不具备这一特点。 而优化语义策略充分考虑了词语含义,因而融入 语义与语法信息后结果明显。但模型处理语法特 征不够明显的中文句子时,语法信息的作用不够 明显。 表 7 不同模型下的实验结果 Table 7 Experimental results under different models 网络 模型 引入特征 提取目标 准确率/% 召回率/% F1 /% CRF 位置信息 主题词 78.10 61.70 69.00 规则信息 情感词 88.83 88.12 88.47 Bi￾LSTM 语义信息 主题词 76.64 69.37 72.82 语法信息 情感词 87.61 86.5 87.05 Bi￾LSTM￾CRF 语义信息 主题词 77.51 72.5 74.92 语法信息 情感词 90.42 87.01 88.73 实验 4 验证本文提出的 Binary-BIO 标注策 略对评价对象联合提取的有效性。在提出的模型 框架下,以 BIO 策略进行标注,顺序匹配得到联 合提取结果。与 Binary-BIO 策略进行标注的结果 比较,先判断情感词是否存在匹配主题词,再进 行联合提取。实验 4 结果如表 8 所示。 表 8 联合提取效果 Table 8 Emotional word recognition effect % 标注方法 准确率 召回率 F1 BIO 72.81 63.63 67.91 Binary-BIO 77.16 67.20 71.84 通过改变标签结构的 Binary-BIO 标注方法可 以提高联合提取效果。该方法不但提高了准确 率,更重要的是为标注结果提供了结构化信息, 而不需要额外的模型训练。此外,联合提取与单 独提取相比,准确率有所下降。其主要原因是: 数据集中普遍存在仅有情感词而缺少主题词的情 况,这导致匹配信息训练得不够充分,没有很好 地挖掘出存在匹配情况的评价对象的特点。 以上实验充分说明了,本文所考虑的中文语 义与语法信息对提高评价对象提取的准确率有积 极意义,且新的标注策略对联合提取具有实际价值。 4 结束语 中文评价对象提取是情感分析任务的关键技 术。针对中文评论对象提取准确率低的现状,重 点考虑中文语义与语法特征,充分利用中文词语 组成字符的内部信息,完成提取任务。最终,主 题词准确率达到 77.51%,情感词准确率达到 90.42%。 通过提出的新标注策略完成了评价对象联合提 取,准确率达到 77.16%。中文评价对象提取达到 了理想效果。 本模型优点明显:输入信息考虑了词语内部 的相关性,较好地解决了中文边界不易判断的情 况;此外,新的标注策略可以直接显示标注结果 的结构化信息。但特征选择多种多样。通过考虑 中文句子中的其他特征,进一步丰富嵌入层的信 息。此外结合中文评价对象提取任务的特点,在 本文的基础上引入注意力机制也是笔者未来研究 的方向。 参考文献: QIU Guang, LIU Bing, BU Jiajun, et al. Expanding do￾main sentiment lexicon through double propagation[C]// Proceedings of the 21st International Jont Conference on Artifical Intelligence. Pasadena, USA, 2009: 1199–1204. [1] ZHAI Zhongwu, XU Hua, KANG Bada, et al. Exploiting effective features for Chinese sentiment classification[J]. Expert systems with applications, 2011, 38(8): 9139–9146. [2] ZHANG Lei, LIU Bing, LIM S H, et al. Extracting and ranking product features in opinion documents[C]//Pro￾ceedings of the 23rd International Conference on Computa￾tional Linguistics: Posters. Beijing, China, 2010: 1462–1470. [3] 孟园, 王洪伟. 中文评论产品特征与观点抽取方法研究 [J]. 现代图书情报技术, 2016, 32(2): 16–24. MENG Yuan, WANG Hongwei. Extracting product fea￾ture and user opinion from Chinese reviews[J]. Data ana￾lysis and knowledge discovery, 2016, 32(2): 16–24. [4] 廖祥文, 陈兴俊, 魏晶晶, 等. 基于多层关系图模型的中 文评价对象与评价词抽取方法[J]. 自动化学报, 2017, 43(3): 462–471. LIAO Xiangwen, CHEN Xingjun, WEI Jingjing, et al. A multi-layer relation graph model for extracting opinion tar￾gets and opinion words[J]. Acta automatica sinica, 2017, 43(3): 462–471. [5] 丁晟春, 吴婧婵媛, 李霄. 基于 CRFs 和领域本体的中文 微博评价对象抽取研究[J]. 中文信息学报, 2016, 30(4): 159–166. DING Shengchun, WU Jingchanyuan, LI Xiao. Opinion targets extraction from Chinese microblogs based on con￾ditional random fields and domain ontology[J]. Journal of Chinese information processing, 2016, 30(4): 159–166. [6] [7] PENG Nanyun, DREDZE M. Improving named entity re- 第 1 期 周浩,等:融合语义与语法信息的中文评价对象提取 ·177·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有