【自然语言处理与理解】融合语义与语法信息的中文评价对象提取

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：1.14MB

第14卷第1期智能系统学报 Vol.14 No.I 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201809029 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20181127.1446.002.html 融合语义与语法信息的中文评价对象提取周浩，王莉2 (1.太原理工大学信息与计算机学院，山西晋中030600,2.太原理工大学大数据学院，山西晋中030600) 摘要：鉴于常规的序列化标注方法提取中文评价对象准确率低，存在忽略中文语义与语法信息的缺陷，提出了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化语义特征，弥补忽略的字符与词语的内部信息：并通过词性序列标注，对句子的词性信息进行表征，深化输入的语法特征。网络训练使用双向长短期记忆网络并用条件随机场克服标注标签的偏差，提高了提取准确率。该模型在BDCI2017数据集上进行验证，与未融入语义和语法的提取模型相比，中文主题词与情感词提取准确率分别提高了2.1%与1.68%，联合提取的准确率为77.16%.具备良好的中文评价对象提取效果。关键词：中文评价对象：语义：语法：序列标注：双向长短期记忆网络：条件随机场：提取模型中图分类号：TP391 文献标志码：A文章编号：1673-4785(2019)01-0171-08 中文引用格式：周浩，王莉.融合语义与语法信息的中文评价对象提取.智能系统学报，2019,14(1)：171-178. 英文引用格式：ZHOU Hao,WANG Li.Chinese opinion target extraction based on fusion of semantic and syntactic information(J. CAAI transactions on intelligent systems,2019,14(1):171-178. Chinese opinion target extraction based on fusion of semantic and syntactic information ZHOU Hao',WANG Li (1.College of Information and Computer Science,Taiyuan University of Technology,Jinzhong 030600,China;2.College of Big Data,Taiyuan University of Technology,Jinzhong 030600,China) Abstract:The regular method of Chinese opinion target extraction has poor accuracy,and it ignores Chinese semantics and syntactic information.Therefore,a Chinese opinion target extraction model that combines semantic and syntactic in- formation has been proposed.On the basis of the original word vector,the model strengthens the semantic features by optimizing the character meaning strategy,so as to make up for the internal information between the ignored characters and words,and through part-of-speech sequence annotation,the word-of-speech information of the sentence is charac- terized,and it represents the input syntactic information in depth.Through the bidirectional long short-term memory and the conditional random field,the deviation of the labeled label is avoided,improving the extraction accuracy.The mod- el was validated on the BDC12017 dataset.When compared with a unincorporated semantics and grammar extraction model,the accuracy of Chinese keyword and sentiment extraction increased by 2.1%and 1.68%,respectively.The ac- curacy of joint extraction was 77.16%,indicating a good effect on Chinese opinion target extraction. Keywords:Chinese opinion target;semantic;syntactic;sequence labeling;bidirectional long short-term memory;condi- tional random field;extraction model 随着互联网技术的发展，用户在线评论信息大量涌现。这些评论既包括来自电子商务网站上收稿日期：2018-09-14.网络出版日期：2018-11-28 对于商品的评价，也包括通过自媒体对自己所经基金项目：国家自然科学基金项目(61872260)：山西省重点研发计划国际合作项目(201703D421013). 历的事物发表自己的观点或看法。依据这些评论通信作者：王莉.E-mail:wangli@yut.edu.cn. 可解决多方面的问题，例如：帮助商家优化自身

DOI: 10.11992/tis.201809029 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20181127.1446.002.html 融合语义与语法信息的中文评价对象提取周浩1 ，王莉2 （1. 太原理工大学信息与计算机学院，山西晋中 030600; 2. 太原理工大学大数据学院，山西晋中 030600）摘要：鉴于常规的序列化标注方法提取中文评价对象准确率低，存在忽略中文语义与语法信息的缺陷，提出了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化语义特征，弥补忽略的字符与词语的内部信息；并通过词性序列标注，对句子的词性信息进行表征，深化输入的语法特征。网络训练使用双向长短期记忆网络并用条件随机场克服标注标签的偏差，提高了提取准确率。该模型在 BDCI2017 数据集上进行验证，与未融入语义和语法的提取模型相比，中文主题词与情感词提取准确率分别提高了 2.1% 与 1.68%，联合提取的准确率为 77.16%，具备良好的中文评价对象提取效果。关键词：中文评价对象；语义；语法；序列标注；双向长短期记忆网络；条件随机场；提取模型中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2019)01−0171−08 中文引用格式：周浩, 王莉. 融合语义与语法信息的中文评价对象提取[J]. 智能系统学报, 2019, 14(1): 171–178. 英文引用格式：ZHOU Hao, WANG Li. Chinese opinion target extraction based on fusion of semantic and syntactic information[J]. CAAI transactions on intelligent systems, 2019, 14(1): 171–178. Chinese opinion target extraction based on fusion of semantic and syntactic information ZHOU Hao1 ，WANG Li2 (1. College of Information and Computer Science, Taiyuan University of Technology, Jinzhong 030600, China; 2. College of Big Data, Taiyuan University of Technology, Jinzhong 030600, China) Abstract: The regular method of Chinese opinion target extraction has poor accuracy, and it ignores Chinese semantics and syntactic information. Therefore, a Chinese opinion target extraction model that combines semantic and syntactic information has been proposed. On the basis of the original word vector, the model strengthens the semantic features by optimizing the character meaning strategy, so as to make up for the internal information between the ignored characters and words, and through part-of-speech sequence annotation, the word-of-speech information of the sentence is characterized, and it represents the input syntactic information in depth. Through the bidirectional long short-term memory and the conditional random field, the deviation of the labeled label is avoided, improving the extraction accuracy. The model was validated on the BDCI2017 dataset. When compared with a unincorporated semantics and grammar extraction model, the accuracy of Chinese keyword and sentiment extraction increased by 2.1% and 1.68%, respectively. The accuracy of joint extraction was 77.16%, indicating a good effect on Chinese opinion target extraction. Keywords: Chinese opinion target; semantic; syntactic; sequence labeling; bidirectional long short-term memory; conditional random field; extraction model 随着互联网技术的发展，用户在线评论信息大量涌现。这些评论既包括来自电子商务网站上对于商品的评价，也包括通过自媒体对自己所经历的事物发表自己的观点或看法。依据这些评论可解决多方面的问题，例如：帮助商家优化自身收稿日期：2018−09−14. 网络出版日期：2018−11−28. 基金项目：国家自然科学基金项目 (61872260)；山西省重点研发计划国际合作项目 (201703D421013). 通信作者：王莉. E-mail：wangli@tyut.edu.cn. 第 14 卷第 1 期智能系统学报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019

·172· 智能系统学报第14卷产品，辅助用户进行消费决策，进行互联网舆情语由字符构成，如何利用词语的内部信息还未得分析等。通常将此类信息挖掘称为细粒度的情感到完美解决。深度学习中常规的网络模型嵌入分析。评价对象提取是将这些评论从非结构化转层，会忽略中文的语义与语法信息，从而影响中为结构化数据，从而为细粒度的情感分析做好铺文的评价对象提取的结果。垫。因此评价对象提取是细粒度情感分析的关键针对这些问题，本文将提取问题转换成序列步骤。例如：评论“手机电池很给力，但像素太标注问题。在采用双向长短期记忆网络(Bi- 低，不推荐”，其中“电池”与“像素”是评论主题词， LSTM)配合条件随机场(CRF)基础上，针对组成 “给力”与“太低”是评论情感词，这些都是需要提评价对象字符的内部信息，提出了融合中文评论取的目标。的语义与语法信息的评价对象提取。本文是对针对这一任务，早期的工作往往基于句法分 Jebbara等o工作的改进与扩充：l)首先，模型考析，在特定领域中对大量出现的名词与名词短语虑提取对象内部信息，在原始词向量的基础上，进行频率统计，完成对象提取。2009年，Qu等通过优化字符含义策略增强语义特征，弥补了忽利用词间依存关系对情感词和评价对象进行同步略的词语内部信息；2)深化网络对语法特征的理抽取，即双向传播算法。之后Zhai等将双向传解，通过对评论序列词性标注，训练生成词性向播算法成功应用于中文数据中，但是该方法在大量，将语义与语法信息共同作为网络输入；3)为规模的数据上表现不够理想。为了解决这一问了优化网络训练效果，引入Bi-LSTM捕获评论上题，Zhang等利用HTS算法候选属性词的相关下文信息，并通过CRF层克服标签偏差问题；性，以提高提取精度。但传统提取方法一般基于 4)最后模型考虑了评论信息中的结构特征，通过词与词之间的依赖关系，强调统计信息的作用，一种新标注策略(Binary-BIO标注)为标注结果提但这种方法需要抽取大量的人工特征与语言学基供了结构化信息，较好地完成了评价对象提取，础，因此造成特征稀硫的问题。孟园等通过考虑评价对象的关联关系与语义关系构建了置信度进一步提高了提取的准确率。排序模型，完成中文信息的提取。廖祥文等] 1中文评价对象提取模型与Bi-LSTM 通过分析评价对象间的依存句法关系进行置信度 CRF网络计算，对中文评论对象进行了抽取。近年来，学者广泛将评价对象提取定义为序 1.1中文评价对象提取模型列标注任务。丁晟春等通过条件随机场(CRF) 以双向长短期记忆网络(Bi-LSTM)配合条件模型在不同方面进行特征选择，对中文微博的内随机场(CRF)进行建模，提取模型基本可概括为容进行评价对象的提取。深度学习中的序列标注 4个层次。1)嵌入层，即embedding层。神经网络方法通过网络模型直接学习特征，避免了人工选无法直接处理自然语言，因此需要将文字映射成取特征的烦琐。该方法已广泛应用于文本提取等高维向量。本文的提取模型首先在原始字向量的自然语言处理领域。在此基础上，语言的字符与基础上，通过优化字符含义策略强化了语义特词语信息也受到越来越多学者的关注。2015年征，弥补了忽略的字符与词语间的内部信息。此 Peng等m使用词语建模中文信息，联合学习中文外通过词性序列标注方法，对评论中的词性信息字符的表示，以识别中文实体；2016年Ma等通进行了表征，深化了输入语法信息。将语义信息过单词与字符表示的学习和组合，以提高实体识与语法信息进行拼接，作为当前字符特征向量表别的效果；2017年Pham等通过预训练字符模型示。2)编码层。本文使用Bi-LSTM完成网络训来增强实体的识别效果。从上述文献中可以发练，双向捕获评论的双向信息，适合序列标注任现，在深度学习的背景下，考虑语言中词语的内务。3)解码层，即CRF层。通过考虑标签之间的部信息已经成为了评论对象提取的热门方法。约束关系，加入转移概率矩阵，选出分数最高的但中文与英文的语义表达和语法构成不同，标注路径作为标注结果。4)序列标注层。通过解主要体现在词汇的构成方式不同。目前效果较好码层的输出为每一个字符预测相应的标签，本文的提取模型考虑的信息多为西方语言特征，例如使用BIO标注方法，并在此基础上增加一位二进单词的前缀与后缀信息等，而没有考虑中文词语制标记为标注结果提供结构化的信息，从另一个的组成字符内部信息。中文句子由词语构成，词角度优化标注结果。具体模型如图1所示

产品，辅助用户进行消费决策，进行互联网舆情分析等。通常将此类信息挖掘称为细粒度的情感分析。评价对象提取是将这些评论从非结构化转为结构化数据，从而为细粒度的情感分析做好铺垫。因此评价对象提取是细粒度情感分析的关键步骤。例如：评论“手机电池很给力，但像素太低，不推荐”，其中“电池”与“像素”是评论主题词， “给力”与“太低”是评论情感词，这些都是需要提取的目标。针对这一任务，早期的工作往往基于句法分析，在特定领域中对大量出现的名词与名词短语进行频率统计，完成对象提取。2009 年，Qiu 等 [1] 利用词间依存关系对情感词和评价对象进行同步抽取，即双向传播算法。之后 Zhai 等 [2]将双向传播算法成功应用于中文数据中，但是该方法在大规模的数据上表现不够理想。为了解决这一问题，Zhang 等 [3]利用 HITS 算法候选属性词的相关性，以提高提取精度。但传统提取方法一般基于词与词之间的依赖关系，强调统计信息的作用，但这种方法需要抽取大量的人工特征与语言学基础，因此造成特征稀疏的问题。孟园等[4]通过考虑评价对象的关联关系与语义关系构建了置信度排序模型，完成中文信息的提取。廖祥文等[ 5 ] 通过分析评价对象间的依存句法关系进行置信度计算，对中文评论对象进行了抽取。近年来，学者广泛将评价对象提取定义为序列标注任务。丁晟春等[6]通过条件随机场 (CRF) 模型在不同方面进行特征选择，对中文微博的内容进行评价对象的提取。深度学习中的序列标注方法通过网络模型直接学习特征，避免了人工选取特征的烦琐。该方法已广泛应用于文本提取等自然语言处理领域。在此基础上，语言的字符与词语信息也受到越来越多学者的关注。2015 年 Peng 等 [7]使用词语建模中文信息，联合学习中文字符的表示，以识别中文实体；2016 年 Ma 等 [8]通过单词与字符表示的学习和组合，以提高实体识别的效果；2017 年 Pham 等 [9]通过预训练字符模型来增强实体的识别效果。从上述文献中可以发现，在深度学习的背景下，考虑语言中词语的内部信息已经成为了评论对象提取的热门方法。但中文与英文的语义表达和语法构成不同，主要体现在词汇的构成方式不同。目前效果较好的提取模型考虑的信息多为西方语言特征，例如单词的前缀与后缀信息等，而没有考虑中文词语的组成字符内部信息。中文句子由词语构成，词语由字符构成，如何利用词语的内部信息还未得到完美解决。深度学习中常规的网络模型嵌入层，会忽略中文的语义与语法信息，从而影响中文的评价对象提取的结果。针对这些问题，本文将提取问题转换成序列标注问题。在采用双向长短期记忆网络 (BiLSTM) 配合条件随机场 (CRF) 基础上，针对组成评价对象字符的内部信息，提出了融合中文评论的语义与语法信息的评价对象提取。本文是对 Jebbara 等 [10]工作的改进与扩充：1) 首先，模型考虑提取对象内部信息，在原始词向量的基础上，通过优化字符含义策略增强语义特征，弥补了忽略的词语内部信息；2) 深化网络对语法特征的理解，通过对评论序列词性标注，训练生成词性向量，将语义与语法信息共同作为网络输入；3) 为了优化网络训练效果，引入 Bi-LSTM 捕获评论上下文信息，并通过 CRF 层克服标签偏差问题； 4) 最后模型考虑了评论信息中的结构特征，通过一种新标注策略 (Binary-BIO 标注) 为标注结果提供了结构化信息，较好地完成了评价对象提取，进一步提高了提取的准确率。 1 中文评价对象提取模型与 Bi-LSTMCRF 网络 1.1 中文评价对象提取模型以双向长短期记忆网络 (Bi-LSTM) 配合条件随机场 (CRF) 进行建模，提取模型基本可概括为 4 个层次。1) 嵌入层，即 embedding 层。神经网络无法直接处理自然语言，因此需要将文字映射成高维向量。本文的提取模型首先在原始字向量的基础上，通过优化字符含义策略强化了语义特征，弥补了忽略的字符与词语间的内部信息。此外通过词性序列标注方法，对评论中的词性信息进行了表征，深化了输入语法信息。将语义信息与语法信息进行拼接，作为当前字符特征向量表示。2) 编码层。本文使用 Bi-LSTM 完成网络训练，双向捕获评论的双向信息，适合序列标注任务。3) 解码层，即 CRF 层。通过考虑标签之间的约束关系，加入转移概率矩阵，选出分数最高的标注路径作为标注结果。4) 序列标注层。通过解码层的输出为每一个字符预测相应的标签，本文使用 BIO 标注方法，并在此基础上增加一位二进制标记为标注结果提供结构化的信息，从另一个角度优化标注结果。具体模型如图 1 所示。 ·172· 智能系统学报第 14 卷

第1期周浩，等：融合语义与语法信息的中文评价对象提取 ·173 句子序列语义信息 B-表征L表征 B-表征I表征字表征 B-表征I【表征 B-表征L表征 g 5 语法信息词性表征词性表征词性表征词性表征词性表征训练层 LSTM LSTM LSTM LSTM LSTM LSTM STM LSTM LSTM 标注层 CRF CRF CRF CRF CRF 标注结果 B-sub-1 I-sub-1 0 B-sen-1 -sen-I 图1中文评价对象提取模型 Fig.1 Model of Chinese opinion target extraction 1.2Bi-LSTM-CRF网络 h=O,otanh(C) (6) 式中：i,为输入门；为遗忘门；0，为输出门；C,为状 Bi-LSTM-CRF网络是在长短期记忆网络的基态候选值；W代表权重矩阵；b代表偏置项；σ为础上优化后的模型，结合了长短期记忆网络与条 sigmoid函数；o代表按元素乘运算。双向长短期件随机场的优点，是循环神经网络的一种，常常记忆网络的隐藏层为双层结构，这样结合两个方用来处理序列数据。网络的优点是：解决长距向的信息进一步提高模型的学习能力，对于序列离依赖问题的同时避免了梯度爆炸或消失，并在标注任务非常有效。将输入字符设为X,先正向标注路径选择过程中，克服标注标签的偏差问计算得到正向隐藏层向量h,再反向计算得到反题。网络模型的核心是记忆单元。Bi-LSTM隐藏向隐藏层向量表示h:,然后进行拼接得到最终的层的神经元由多个门控制，包括输入门、输出门、隐藏层向量表示：遗忘门。这些门的设置可以使之前输人的信息保 hi=[hyi:hni] (7) 存在网络中，并一直向前传递。记忆单元简单的结构如图2所示。 2语义与语法信息的融合与标注策略网络输出 2.1优化字符含义策略输出门模型输入是由单个字符组成的句子序列 W={W,W,…,W。中文能够包含语义的最小单位是词语，因此使输入的字符包含所构成词语的语义信息是本文的优化目标之一。中文的某一字遗忘门细胞状态符在不同词语中位置不同从而导致字符含义发生 .0 变化，例如：“泡面”与“电灯泡”这组词语，由于泡”字位置不同，含义也完全不同。参考Chen等回输人门的思想，设计了优化字符含义的策略。考虑某字网络输入符因在组成词中的位置变化导致的含义不同，从而为具备这一特征的字符W:=C,C}分配两个图2LSTM神经单元 Fig.2 Structure of LSTM neural unit 向量，对应字符在词语中的起始与非起始位置。设1时刻下，网络输人为X,输人门输入为h, 因此嵌入层中的语义信息表征方法如图3所示。单元状态为C,记忆单元内对应的更新与输出提取对象1：泡如式(1)(6)： f;=(Wi[h-1.X]+br) (1) B-表征 1表征 i=(Wi[h-1X:]+bi) (2) 提取对象2： C,tanh(We[h-1.X,]+be) (3) O:=(Wo[h-1.X,]+bo) (4) 图3字向量选择方法 C:=fioC-1+inoC (5) Fig.3 Character vector selection method

1.2 Bi-LSTM-CRF 网络 Bi-LSTM-CRF 网络是在长短期记忆网络的基础上优化后的模型，结合了长短期记忆网络与条件随机场的优点，是循环神经网络的一种，常常用来处理序列数据[11]。网络的优点是：解决长距离依赖问题的同时避免了梯度爆炸或消失，并在标注路径选择过程中，克服标注标签的偏差问题。网络模型的核心是记忆单元。Bi-LSTM 隐藏层的神经元由多个门控制，包括输入门、输出门、遗忘门。这些门的设置可以使之前输入的信息保存在网络中，并一直向前传递。记忆单元简单的结构如图 2 所示。遗忘门网络输入输入门输出门网络输出 h 1 .0 g 细胞状态图 2 LSTM 神经单元 Fig. 2 Structure of LSTM neural unit Xt ht Ct 设 t 时刻下，网络输入为，输入门输入为，单元状态为，记忆单元内对应的更新与输出如式 (1)~(6)： ft = σ(Wf[ht−1,Xt]+bf) (1) it = σ(Wi[ht−1,Xt]+bi) (2) Cet = tanh(Wc[ht−1,Xt]+bc) (3) Ot = σ(W0[ht−1,Xt]+b0) (4) Ct = ft ◦Ct−1 +it ◦Cet (5) ht = Ot ◦ tanh(Ct) (6) it ft Ot Cet W b σ ◦ Xi hf i hri 式中：为输入门；为遗忘门；为输出门；为状态候选值；代表权重矩阵；代表偏置项；为 sigmoid 函数；代表按元素乘运算。双向长短期记忆网络的隐藏层为双层结构，这样结合两个方向的信息进一步提高模型的学习能力，对于序列标注任务非常有效。将输入字符设为，先正向计算得到正向隐藏层向量，再反向计算得到反向隐藏层向量表示，然后进行拼接得到最终的隐藏层向量表示： hi = [hf i; hri] (7) 2 语义与语法信息的融合与标注策略 2.1 优化字符含义策略 W = {W1,W2,··· ,Wk} Wi = {CB,CI} 模型输入是由单个字符组成的句子序列。中文能够包含语义的最小单位是词语，因此使输入的字符包含所构成词语的语义信息是本文的优化目标之一。中文的某一字符在不同词语中位置不同从而导致字符含义发生变化，例如：“泡面”与“电灯泡”这组词语，由于 “泡”字位置不同，含义也完全不同。参考 Chen 等 [12] 的思想，设计了优化字符含义的策略。考虑某字符因在组成词中的位置变化导致的含义不同，从而为具备这一特征的字符分配两个向量，对应字符在词语中的起始与非起始位置。因此嵌入层中的语义信息表征方法如图 3 所示。面电 B-表征 I-表征灯泡泡提取对象1：提取对象2：图 3 字向量选择方法 Fig. 3 Character vector selection method LSTM LSTM LSTM LSTM 灯泡还不 CRF B-sub-1 O B-sen-1 I-sub-1 错 I-sen-1 B-表征 I-表征词性表征字表征词性表征 B-表征 I-表征 B-表征 I-表征 B-表征 I-表征词性表征词性表征词性表征 LSTM LSTM LSTM LSTM LSTM LSTM CRF CRF CRF CRF 语义信息语法信息句子序列训练层标注层标注结果图 1 中文评价对象提取模型 Fig. 1 Model of Chinese opinion target extraction 第 1 期周浩，等：融合语义与语法信息的中文评价对象提取 ·173·

·174· 智能系统学报第14卷优化字符含义策略以连续词袋模型(CBOW) 性类别包括形容词(a)、动词(w)、名词(n)、动名为基础，根据上下文单元对当前单元进行向量表示。词(wn)、副词(d),再使用word2vec为每一种词性由于处理单元为字符，句子W={W,W2,…,W在训练生成对应的词性向量序列：wos={wpos1,wo2,…, CBOW模型下训练目标函数为 ws小，词性向量由集合e表示。在式(9)、式(10) W (8) 的基础上，融合语义与语法信息的字符向量X可表示为式中：K表示滑动窗口的大小；M为句子序列的字符个数。使用上下文预测目标字符向量x可表示为 X=W, *2 (12) X=W,⊕ 1 (9) 在式(11)基础上，最终嵌入层字符可表示为 X,=[e(w:e'(w] (13) 式中：W,为评价对象的初始化向量表示；N为当 2.3 序列标注策略前评价对象的字符组成个数：k表示当前滑动窗口本文将提取问题转换为序列标注问题进行处位于单词的第k个字符；⊕表示向量间的操作。当理，根据标注结果识别评价对象范围。传统的序评价对象组成字符由多个向量表示时，式(9)可列标注不能很好地体现出评价对象及其属性的匹改写为配关系。因此本文在传统的BIO标注方法1下，添加新的标记，用来优化标注结果，实现联合提 X,=W⊕ (10) 取。在BIO标注中，“B”与“I”表示词语的范围。根据式(9)为字符生成不同的向量表示，得到 “B”为提取对象的起始位置；I”为提取对象的非向量集合e5,则融合语义信息的输入字符w,的向起始位置；“O”代表提取对象外部，即无关字符。量X表示为本文所需识别评价对象可概括为主题词与情感 X,=[e(w] (11) 词，使用“sub”与“sen”分别表示标注含义。在此综上所述，优化含义的字符表示可由式(8)~ 基础上，添加一位二进制标记，用来表示提取对 (10)训练生成，并由式(11)表示。象是否存在匹配关系。联合提取“1”代表当前评 2.2词性向量训练价对象存在匹配情感属性内容，“0”则反之。例词性是一种重要的语法信息。自然语言中，如：“手机电池很给力，但像素太低，不推荐”，评句子中的固定成分具有固定词性，通过句子的词论对象为，对应标签{B-sub-l,I-sub- 性特征学习可以获得句子的语法约束。首先通 1,B-sen-l,I-sen-1}。从标注结果可以清晰看出，过条件随机场对中文评论进行词性标注，得到每评论的主题词存在对应情感，以就近原则完成联条评论的词性标注序列S={s,s2,…,Sm。标注词合提取。标注实例如表1所示。表1中文评论标注结果 Table 1 Chinese commentary annotation results 输入序列手机电沙给力 ,但举素太公主题词标签 B-sub-1 I-sub-1 B-sub-1 I-sub-1 情感词标签 B-sen-1 I-sen-1 B-sen-1 I-sen-1 外部标签 00 00 2.4标注原理与模型训练的选择，克服标签偏差问题1。已知输入句子的 Bi-LSTM网络的隐藏层输出为标签的概率分字符序列为W={W,W2,…,W,则对应的标签序布，使用softmax分类器完成标注时，每个字符的列为t={,2,…,tx,f为真实路径，r={,5,…,】标注结果互不影响，从而忽略了相邻标签之间的为W可能输出的标签序列。因此给定字符序列依赖关系。由标注规则可知，标签I无法成为序 W在所有可能标注序列下的条件概率为列的第一个标签；标签B-sub的下一个标签也仅 n6,(t-,t,W) 仅可能是I-sub或O。因此在CRF层中，引入标 P(IW)= (14) ∑Π⊙(，W) 签转移概率，使用Viterbi算法完成最优标注序列

W = {W1,W2,··· ,Wk} 优化字符含义策略以连续词袋模型 (CBOW)[13] 为基础，根据上下文单元对当前单元进行向量表示。由于处理单元为字符，句子在 CBOW 模型下训练目标函数为 Φ(W) = 1 K K∑−M i=M logP(wi |wi−M,wi−M + 1,··· ,wi+M) (8) K M Xj 式中：表示滑动窗口的大小；为句子序列的字符个数。使用上下文预测目标字符向量可表示为 Xj = Wj ⊕ 1 Nj ∑Nj k=1 ck (9) Wj Nj k k ⊕ 式中：为评价对象的初始化向量表示；为当前评价对象的字符组成个数；表示当前滑动窗口位于单词的第个字符；表示向量间的操作。当评价对象组成字符由多个向量表示时，式 (9) 可改写为 Xj = Wj ⊕ 1 Nj   c B 1 + ∑Nj k=2 c I k   (10) e c Wj Xj 根据式 (9) 为字符生成不同的向量表示，得到向量集合，则融合语义信息的输入字符的向量表示为 Xj = [e c (wj)] (11) 综上所述，优化含义的字符表示可由式 (8)~ (10) 训练生成，并由式 (11) 表示。 2.2 词性向量训练 S = {s1,s2,··· ,sm} 词性是一种重要的语法信息。自然语言中，句子中的固定成分具有固定词性，通过句子的词性特征学习可以获得句子的语法约束[14]。首先通过条件随机场对中文评论进行词性标注，得到每条评论的词性标注序列。标注词 wpos = {wpos1,wpos2,··· , wposk} e s Xj 性类别包括形容词 (/a)、动词 (/v)、名词 (/n)、动名词 (/vn)、副词 (/d)，再使用 word2vec 为每一种词性训练生成对应的词性向量序列：，词性向量由集合表示。在式 (9)、式 (10) 的基础上，融合语义与语法信息的字符向量可表示为 Xj = Wj ⊕ 1 Nj   c B 1 + ∑Nj k=2 c I k   ⊕Wposj (12) 在式 (11) 基础上，最终嵌入层字符可表示为 Xj = [e c (wj)；e s (wj)] (13) 2.3 序列标注策略本文将提取问题转换为序列标注问题进行处理，根据标注结果识别评价对象范围。传统的序列标注不能很好地体现出评价对象及其属性的匹配关系。因此本文在传统的 BIO 标注方法[15]下，添加新的标记，用来优化标注结果，实现联合提取。在 BIO 标注中，“B”与“I”表示词语的范围。 “B”为提取对象的起始位置；“I”为提取对象的非起始位置；“O”代表提取对象外部，即无关字符。本文所需识别评价对象可概括为主题词与情感词，使用“sub”与“sen”分别表示标注含义。在此基础上，添加一位二进制标记，用来表示提取对象是否存在匹配关系。联合提取“1”代表当前评价对象存在匹配情感属性内容，“0”则反之。例如：“手机电池很给力，但像素太低，不推荐”，评论对象为，对应标签{B-sub-1, I-sub- 1, B-sen-1, I-sen-1}。从标注结果可以清晰看出，评论的主题词存在对应情感，以就近原则完成联合提取。标注实例如表 1 所示。表 1 中文评论标注结果 Table 1 Chinese commentary annotation results 输入序列手机电池给力，但像素太低主题词标签 B-sub-1 I-sub-1 B-sub-1 I-sub-1 情感词标签 B-sen-1 I-sen-1 B-sen-1 I-sen-1 外部标签 O O O O 2.4 标注原理与模型训练 Bi-LSTM 网络的隐藏层输出为标签的概率分布，使用 softmax 分类器完成标注时，每个字符的标注结果互不影响，从而忽略了相邻标签之间的依赖关系。由标注规则可知，标签 I 无法成为序列的第一个标签；标签 B-sub 的下一个标签也仅仅可能是 I-sub 或 O。因此在 CRF 层中，引入标签转移概率，使用 Viterbi 算法完成最优标注序列 W = {W1,W2,··· ,Wk} t = {t1,t2,··· ,tK} et t ∗ = {t ∗ 1 ,t ∗ 2 ,··· ,t ∗ K } W W t ∗ 的选择，克服标签偏差问题[16]。已知输入句子的字符序列为，则对应的标签序列为，为真实路径，为可能输出的标签序列。因此给定字符序列在所有可能标注序列下的条件概率为 P(t|W) = ∏n i=1 Θi(ti−1,ti ,W) ∑ t∗ ∏n i=1 Θi(t ∗ i−1 ,t ∗ i ,W) (14) ·174· 智能系统学报第 14 卷

第1期周浩，等：融合语义与语法信息的中文评价对象提取 ·175· 式中O(t-,,W为潜在的增益函数，目的是使标注 TP (18) 的真实路径在所有可能路径中的得分最高。因此 R=TP,+FN, 在所有的标签序列找到条件概率最高的序列为 2PRi Fu=P+R (19) T=argmax p(W) (15) 式中：TP,为第类关系中被正确分类的实例个数；综上，通过神经网络训练输入标签的概率矩 FP:为被错误的分为第类的实例数；FN:为本属于阵后，根据式(14)、式(15)可选择出得分最高的标第类实例被分为其他类别的实例数。注序列。训练模型时给定一组已完成标记的训练 3.3超参数选择数据T,并定义L2正则化损失似然函数为神经网络在训练过程中，超参数的设置具有 L=∑，tog(P(W)+Ior (16) 重要的意义。实验结果证明，学习率、迭代次数对识别效果有很大影响。在网络模型训练过程式中：A为正则化系数；日为模型的参数集合；中，迭代次数超过60次时，评论对象提取结果的 (d/2)©为L2范数正则化。模型使用反向传播算准确率、召回率、F值均开始下降。可见迭代次法训练随机梯度下降(GSD)算法进行优化。数并非越多越好，过度迭代可能导致模型过拟 3实验结果与分析合，影响模型效果。在同一个模型下，以网络的学习率为自变量，迭代相同次数后，模型在学习为了验证语义与语法信息对中文评价对象提率为0.001时表现更好。可见，学习率对网络训取的积极作用，体现提出的语义信息与语法信息练效果影响同样很大，学习率过大模型无法收的有效性与优势，进行了以下实验。并在此基础敛，导致训练结果不理想。迭代次数和学习率的上，讨论了不同网络模型对于评价对象提取的影影响实验结果如图4、图5所示。响，论证了Binary-.BIO标注策略对提取结果结构化影响，验证了本文的优势。 3.1实验数据本文采用2017年CCF大数据与计算智能大赛(BDCI2017)所提供的中文电商商品评论数据士一准确率一·一召回率集，共包含17652条真实中文评论信息。经统计，一F 评论中共有情感词43041个，主题词22017个。 50 每条中文评论中存在多个（对）评价对象，按照主 10 30 50 70 迭代次数题词与情感词对应排序。图4迭代次数影响由于数据来源于真实的电商平台，存在数据 Fig.4 Effect of iterations 结构松散，存在大量无具体含义评论的情况，需进行数据清洗。例如：表情符号、错误的标点符号以及无需提取的短评论。清洗完毕后，将数据 80 态材书合为集划分为训练集与测试集，并使用新标注策略进行标注，生成训练数据。具体划分情况如表2所示。 0 表2数据分配表 60 -=0.01 ±—=0.001 Table 2 Data allocation table 数据中文评论条数/条 10 30 50 70 90 迭代次数训练集 12000 图5学习率影响测试集 2000 Fig.5 Effect of learning rate 3.2评价方法综上，模型的学习率设为0.001，迭代次数为对于评价对象提取评价，使用综合性能作为 60次，字符的向量维度设为300维，其中，包含语最终的评测标准。评价指标包括准确率、召回率义信息部分为250维，语法信息部分为50维。并和F值。计算公式如下：采用Hinton等提出的dropout方法将隐含层的节 TP 点以0.5的概率随机忽略。具体的超参数设置如 P,= (17) TP:+FP, 表3所示

Θi(ti−1,ti ,W) et 式中为潜在的增益函数，目的是使标注的真实路径在所有可能路径中的得分最高。因此在所有的标签序列找到条件概率最高的序列为 et = argmax t∈t ∗ p(t|W) (15) T L2 综上，通过神经网络训练输入标签的概率矩阵后，根据式 (14)、式 (15) 可选择出得分最高的标注序列。训练模型时给定一组已完成标记的训练数据，并定义正则化损失似然函数为 L = ∑ T log(P(ti |W))+ λ 2 ||Θ||2 (16) λ Θ (λ/2)∥Θ∥ 2 L2 式中：为正则化系数；为模型的参数集合；为范数正则化。模型使用反向传播算法训练随机梯度下降 (GSD) 算法进行优化。 3 实验结果与分析为了验证语义与语法信息对中文评价对象提取的积极作用，体现提出的语义信息与语法信息的有效性与优势，进行了以下实验。并在此基础上，讨论了不同网络模型对于评价对象提取的影响，论证了 Binary-BIO 标注策略对提取结果结构化影响，验证了本文的优势。 3.1 实验数据本文采用 2017 年 CCF 大数据与计算智能大赛 (BDCI2017) 所提供的中文电商商品评论数据集，共包含 17 652 条真实中文评论信息。经统计，评论中共有情感词 43 041 个，主题词 22 017 个。每条中文评论中存在多个 (对) 评价对象，按照主题词与情感词对应排序。由于数据来源于真实的电商平台，存在数据结构松散，存在大量无具体含义评论的情况，需进行数据清洗。例如：表情符号、错误的标点符号以及无需提取的短评论。清洗完毕后，将数据集划分为训练集与测试集，并使用新标注策略进行标注，生成训练数据。具体划分情况如表 2 所示。表 2 数据分配表 Table 2 Data allocation table 数据中文评论条数/条训练集 12 000 测试集 2 000 3.2 评价方法 F1 对于评价对象提取评价，使用综合性能作为最终的评测标准。评价指标包括准确率、召回率和值。计算公式如下： Pi = TPi TPi +FPi (17) Ri = TPi TPi +FNi (18) F1i = 2PiRi Pi +Ri (19) TPi i FPi i FNi i 式中：为第类关系中被正确分类的实例个数；为被错误的分为第类的实例数；为本属于第类实例被分为其他类别的实例数。 3.3 超参数选择 F1 神经网络在训练过程中，超参数的设置具有重要的意义。实验结果证明，学习率、迭代次数对识别效果有很大影响。在网络模型训练过程中，迭代次数超过 60 次时，评论对象提取结果的准确率、召回率、值均开始下降。可见迭代次数并非越多越好，过度迭代可能导致模型过拟合，影响模型效果。在同一个模型下，以网络的学习率为自变量，迭代相同次数后，模型在学习率为 0.001 时表现更好。可见，学习率对网络训练效果影响同样很大，学习率过大模型无法收敛，导致训练结果不理想。迭代次数和学习率的影响实验结果如图 4、图 5 所示。 60 70 80 90 10 30 50 70 90 百分比/% 迭代次数准确率召回率 F1 图 4 迭代次数影响 Fig. 4 Effect of iterations 50 60 70 80 90 10 30 50 70 90 F1/% 迭代次数 lr=0.01 lr=0.001 图 5 学习率影响 Fig. 5 Effect of learning rate 综上，模型的学习率设为 0.001，迭代次数为 60 次，字符的向量维度设为 300 维，其中，包含语义信息部分为 250 维，语法信息部分为 50 维。并采用 Hinton 等提出的 dropout 方法将隐含层的节点以 0.5 的概率随机忽略。具体的超参数设置如表 3 所示。第 1 期周浩，等：融合语义与语法信息的中文评价对象提取 ·175·

·176· 智能系统学报第14卷表3模型超参数表5融合语义信息与随机表示联合提取效果对比 Table 3 Model hyperparameter Table 5 Convergence semantics and random representa- 超参数参数值 tion 提取目标嵌入层表示准确率% 字符向量维度召回率/%F% 250 词性向量维度随机表示 50 73.63 59.85 66.03 迭代次数联合提取字词拼接 78.74 64.38 70.84 60 融合语义信息 78.12 71.64 学习率 66.15 0.001 dropout 0.5 实验2在Bi-LSTM-CRF网络的基础上，对比融合语法信息的向量表示对评价对象提取的影 3.4实验过程与结果分析响。其中字符向量化方法为随机初始化，实验结为了验证本文提出的语义与语法信息对中文果如表6所示。评价对象提取的积极作用，实验依据表3设置超表6融合词性信息与随机表示提取对比参数，依次进行以下实验。 Table 6 Convergence of convergence vectors and random- 实验1在Bi-LSTM-CRF网络基础上，对比 ized initialization vectors 融合语义信息的向量表示与随机初始化的向量表提取目标嵌人层表示准确率%召回率/%F,% 示对中文评价对象提取的影响。由3.1节论述可随机表示 76.64 69.37 72.82 知，模型需要为部分字符根据其在评价对象词语主题词融合语法信息 74.31 75.51 74.90 内的位置为其分配不同向量表示，因此从数据集中选取了300个具备可拆分特征的字符，例如“泡随机表示 85.13 84.94 85.04 情感词面”与“灯泡”、“差不多”与“不错”等，使用CBOW 融合语法信息 85.46 86.30 85.88 模型进行训练。实验结果如表4所示。从实验结果可以看出，通过词性标注，训练生表4融合语义信息与随机表示提取效果对比成的词性向量对于评价对象的提取准确率有一定 Table 4 Convergence semantics and random representa- 的影响，但效果并不显著，融合语法信息后，主题 tion extraction 词的提取准确率有所下降，情感词的准确率有所提取目标嵌人层表示准确率% 召回率%F% 提升，达到了85.46%，两者F,值都得到了提高。随机表示 76.64 69.37 72.82 分析数据特点，由于数据来自真实电商评论，语主题词字词拼接 76.51 72.71 74.56 法结构薄弱，多数情况下句子成分不完整，导致模型没有学习出句子词性序列的特征，语法信息融合语义信息 77.25 73.29 75.21 挖掘不够充分。当从训练数据中选择语法结构较随机表示 85.13 84.94 85.04 强的中文评论进行实验时，准确率明显提升。因情感词字词拼接 87.61 86.5 87.05 此，处理语法信息薄弱的中文句子时，可以通过融合语义信息 88.97 88.2788.62 补全信息的手段对数据样本进行处理，再进行评价对象提取的任务。融合语义信息后的向量在识别评价对象时准实验3以CRF与Bi-LSTM网络为基础，验确率更高，效果更好。与通用的字符向量与词语证Bi-LSTM-CRF网络的优势。由于数据集不同，向量拼接相比，本文根据位置为字符分配向量的通过参考相关的提取模型进行仿真实验，并对模训练方法更加科学，尤其是在中文领域。考虑策型输入添加不同信息进行对比实验。CRF 略也明显区别于英文。此外，情感词的识别效果模型引入词语位置与规则信息，Bi-LSTM模型列要好于主题词：情感词的训练样本要比情感词丰引入语义与语法信息。并与融合语义与语法信息富，情感词的类型数相对于主题词的类型数要小的Bi-LSTM-CRF模型进行比较，论证Bi-LSTM-CRF 很多。直观来看，情感类型数量要远小于商品属网络的优势，实验结果如表7所示。性数量，故在标注情感词时正确率也更高。但这对比CRF与Bi-LSTM-CRF模型，后者的提取也导致优化后的提取与字词向量直接拼接的提取效果更好，情感词提取准确率达到了90.42%。效果相差不大，实验结果验证了这一点。并从联更重要的是，启发式规则需要人工干预，而语义合提取的角度验证了该结论。联合提取的实验结与语法信息无需人工干预即可训练完成。对比果如表5所示。 Bi-LSTM与本模型，融合信息相同但CRF层可以

表 3 模型超参数 Table 3 Model hyperparameter 超参数参数值字符向量维度 250 词性向量维度 50 迭代次数 60 学习率 0.001 dropout 0.5 3.4 实验过程与结果分析为了验证本文提出的语义与语法信息对中文评价对象提取的积极作用，实验依据表 3 设置超参数，依次进行以下实验。实验 1 在 Bi-LSTM-CRF 网络基础上，对比融合语义信息的向量表示与随机初始化的向量表示对中文评价对象提取的影响。由 3.1 节论述可知，模型需要为部分字符根据其在评价对象词语内的位置为其分配不同向量表示，因此从数据集中选取了 300 个具备可拆分特征的字符，例如“泡面”与“灯泡”、“差不多”与“不错”等，使用 CBOW 模型进行训练。实验结果如表 4 所示。表 4 融合语义信息与随机表示提取效果对比 Table 4 Convergence semantics and random representation extraction 提取目标嵌入层表示准确率/% 召回率/% F1 /% 主题词随机表示 76.64 69.37 72.82 字词拼接 76.51 72.71 74.56 融合语义信息 77.25 73.29 75.21 情感词随机表示 85.13 84.94 85.04 字词拼接 87.61 86.5 87.05 融合语义信息 88.97 88.27 88.62 融合语义信息后的向量在识别评价对象时准确率更高，效果更好。与通用的字符向量与词语向量拼接相比，本文根据位置为字符分配向量的训练方法更加科学，尤其是在中文领域。考虑策略也明显区别于英文。此外，情感词的识别效果要好于主题词：情感词的训练样本要比情感词丰富，情感词的类型数相对于主题词的类型数要小很多。直观来看，情感类型数量要远小于商品属性数量，故在标注情感词时正确率也更高。但这也导致优化后的提取与字词向量直接拼接的提取效果相差不大，实验结果验证了这一点。并从联合提取的角度验证了该结论。联合提取的实验结果如表 5 所示。表 5 融合语义信息与随机表示联合提取效果对比 Table 5 Convergence semantics and random representation 提取目标嵌入层表示准确率/% 召回率/% F1 /% 联合提取随机表示 73.63 59.85 66.03 字词拼接 78.74 64.38 70.84 融合语义信息 78.12 66.15 71.64 实验 2 在 Bi-LSTM-CRF 网络的基础上，对比融合语法信息的向量表示对评价对象提取的影响。其中字符向量化方法为随机初始化，实验结果如表 6 所示。表 6 融合词性信息与随机表示提取对比 Table 6 Convergence of convergence vectors and randomized initialization vectors 提取目标嵌入层表示准确率/% 召回率/% F1 /% 主题词随机表示 76.64 69.37 72.82 融合语法信息 74.31 75.51 74.90 情感词随机表示 85.13 84.94 85.04 融合语法信息 85.46 86.30 85.88 从实验结果可以看出，通过词性标注，训练生成的词性向量对于评价对象的提取准确率有一定的影响，但效果并不显著，融合语法信息后，主题词的提取准确率有所下降，情感词的准确率有所提升，达到了 85.46%，两者 F1 值都得到了提高。分析数据特点，由于数据来自真实电商评论，语法结构薄弱，多数情况下句子成分不完整，导致模型没有学习出句子词性序列的特征，语法信息挖掘不够充分。当从训练数据中选择语法结构较强的中文评论进行实验时，准确率明显提升。因此，处理语法信息薄弱的中文句子时，可以通过补全信息的手段对数据样本进行处理，再进行评价对象提取的任务。实验 3 以 CRF 与 Bi-LSTM 网络为基础，验证 Bi-LSTM-CRF 网络的优势。由于数据集不同，通过参考相关的提取模型进行仿真实验，并对模型输入添加不同信息进行对比实验。 CRF 模型引入词语位置与规则信息，Bi-LSTM 模型[17] 引入语义与语法信息。并与融合语义与语法信息的 Bi-LSTM-CRF 模型进行比较，论证 Bi-LSTM-CRF 网络的优势，实验结果如表 7 所示。对比 CRF 与 Bi-LSTM-CRF 模型，后者的提取效果更好，情感词提取准确率达到了 90.42%。更重要的是，启发式规则需要人工干预，而语义与语法信息无需人工干预即可训练完成。对比 Bi-LSTM 与本模型，融合信息相同但 CRF 层可以 ·176· 智能系统学报第 14 卷

第1期周浩，等：融合语义与语法信息的中文评价对象提取 ·177· 克服标签偏差，有更好的提取结果。从引入特征点考虑中文语义与语法特征，充分利用中文词语角度分析，英文单词通过模型学习通常可以学习组成字符的内部信息，完成提取任务。最终，主到单词的前后缀信息，而中文不具备这一特点。题词准确率达到77.51%，情感词准确率达到90.42%。而优化语义策略充分考虑了词语含义，因而融人通过提出的新标注策略完成了评价对象联合提语义与语法信息后结果明显。但模型处理语法特取，准确率达到77.16%。中文评价对象提取达到征不够明显的中文句子时，语法信息的作用不够了理想效果。明显。本模型优点明显：输入信息考虑了词语内部表7不同模型下的实验结果的相关性，较好地解决了中文边界不易判断的情 Table 7 Experimental results under different models 况：此外，新的标注策略可以直接显示标注结果网络引入特征提取目标准确率%召回率%F,% 的结构化信息。但特征选择多种多样。通过考虑模型中文句子中的其他特征，进一步丰富嵌入层的信位置信息主题词 78.10 61.70 69.00 息。此外结合中文评价对象提取任务的特点，在 CRF 规则信息情感词 88.83 88.12 88.47 本文的基础上引入注意力机制也是笔者未来研究 Bi- 语义信息主题词 76.64 69.37 72.82 的方向。 LSTM语法信息情感词 87.61 86.5 87.05 参考文献： Bi- 语义信息主题词 77.51 72.5 74.92 LSTM- [1]QIU Guang,LIU Bing,BU Jiajun,et al.Expanding do- 语法信息情感词 90.42 87.01 88.73 CRF main sentiment lexicon through double propagation[C]/ Proceedings of the 21st International Jont Conference on 实验4验证本文提出的Binary-BIO标注策 Artifical Intelligence.Pasadena,USA,2009:1199-1204. 略对评价对象联合提取的有效性。在提出的模型 [2]ZHAI Zhongwu,XU Hua,KANG Bada,et al.Exploiting 框架下，以BIO策略进行标注，顺序匹配得到联 effective features for Chinese sentiment classification[J]. 合提取结果。与Binary-BIO策略进行标注的结果 Expert systems with applications,2011,38(8):9139-9146 比较，先判断情感词是否存在匹配主题词，再进 [3]ZHANG Lei,LIU Bing,LIM S H,et al.Extracting and 行联合提取。实验4结果如表8所示。 ranking product features in opinion documents[C]//Pro- 表8联合提取效果 ceedings of the 23rd International Conference on Computa- Table 8 Emotional word recognition effect tional Linguistics:Posters.Beijing,China,2010: % 1462-1470. 标注方法准确率召回率 F [4]孟园，王洪伟.中文评论产品特征与观点抽取方法研究 BIO 72.81 63.63 67.91 [).现代图书情报技术，2016,32(2)16-24 Binary-BIO 77.16 67.20 71.84 MENG Yuan,WANG Hongwei.Extracting product fea- ture and user opinion from Chinese reviews[].Data ana- 通过改变标签结构的Binary-BlO标注方法可 lysis and knowledge discovery,2016.32(2):16-24. 以提高联合提取效果。该方法不但提高了准确 [5]廖样文，陈兴俊，魏晶晶，等.基于多层关系图模型的中率，更重要的是为标注结果提供了结构化信息，文评价对象与评价词抽取方法).自动化学报，2017，而不需要额外的模型训练。此外，联合提取与单 43(3):462-471. 独提取相比，准确率有所下降。其主要原因是： LIAO Xiangwen,CHEN Xingjun,WEI Jingjing,et al.A 数据集中普遍存在仅有情感词而缺少主题词的情 multi-layer relation graph model for extracting opinion tar- 况，这导致匹配信息训练得不够充分，没有很好 gets and opinion words[J].Acta automatica sinica.2017. 地挖掘出存在匹配情况的评价对象的特点。 43(3):462-471 以上实验充分说明了，本文所考虑的中文语 [6]丁晟春，吴婧婵媛，李霄.基于CRFs和领域本体的中文义与语法信息对提高评价对象提取的准确率有积微博评价对象抽取研究U).中文信息学报，2016,30(4)：极意义，且新的标注策略对联合提取具有实际价值。 159-166. DING Shengchun,WU Jingchanyuan,LI Xiao.Opinion 4结束语 targets extraction from Chinese microblogs based on con- ditional random fields and domain ontology[J].Journal of 中文评价对象提取是情感分析任务的关键技 Chinese information processing,2016,30(4):159-166. 术。针对中文评论对象提取准确率低的现状，重 [7]PENG Nanyun,DREDZE M.Improving named entity re-

克服标签偏差，有更好的提取结果。从引入特征角度分析，英文单词通过模型学习通常可以学习到单词的前后缀信息，而中文不具备这一特点。而优化语义策略充分考虑了词语含义，因而融入语义与语法信息后结果明显。但模型处理语法特征不够明显的中文句子时，语法信息的作用不够明显。表 7 不同模型下的实验结果 Table 7 Experimental results under different models 网络模型引入特征提取目标准确率/% 召回率/% F1 /% CRF 位置信息主题词 78.10 61.70 69.00 规则信息情感词 88.83 88.12 88.47 BiLSTM 语义信息主题词 76.64 69.37 72.82 语法信息情感词 87.61 86.5 87.05 BiLSTMCRF 语义信息主题词 77.51 72.5 74.92 语法信息情感词 90.42 87.01 88.73 实验 4 验证本文提出的 Binary-BIO 标注策略对评价对象联合提取的有效性。在提出的模型框架下，以 BIO 策略进行标注，顺序匹配得到联合提取结果。与 Binary-BIO 策略进行标注的结果比较，先判断情感词是否存在匹配主题词，再进行联合提取。实验 4 结果如表 8 所示。表 8 联合提取效果 Table 8 Emotional word recognition effect % 标注方法准确率召回率 F1 BIO 72.81 63.63 67.91 Binary-BIO 77.16 67.20 71.84 通过改变标签结构的 Binary-BIO 标注方法可以提高联合提取效果。该方法不但提高了准确率，更重要的是为标注结果提供了结构化信息，而不需要额外的模型训练。此外，联合提取与单独提取相比，准确率有所下降。其主要原因是：数据集中普遍存在仅有情感词而缺少主题词的情况，这导致匹配信息训练得不够充分，没有很好地挖掘出存在匹配情况的评价对象的特点。以上实验充分说明了，本文所考虑的中文语义与语法信息对提高评价对象提取的准确率有积极意义，且新的标注策略对联合提取具有实际价值。 4 结束语中文评价对象提取是情感分析任务的关键技术。针对中文评论对象提取准确率低的现状，重点考虑中文语义与语法特征，充分利用中文词语组成字符的内部信息，完成提取任务。最终，主题词准确率达到 77.51%，情感词准确率达到 90.42%。通过提出的新标注策略完成了评价对象联合提取，准确率达到 77.16%。中文评价对象提取达到了理想效果。本模型优点明显：输入信息考虑了词语内部的相关性，较好地解决了中文边界不易判断的情况；此外，新的标注策略可以直接显示标注结果的结构化信息。但特征选择多种多样。通过考虑中文句子中的其他特征，进一步丰富嵌入层的信息。此外结合中文评价对象提取任务的特点，在本文的基础上引入注意力机制也是笔者未来研究的方向。参考文献： QIU Guang, LIU Bing, BU Jiajun, et al. Expanding domain sentiment lexicon through double propagation[C]// Proceedings of the 21st International Jont Conference on Artifical Intelligence. Pasadena, USA, 2009: 1199–1204. [1] ZHAI Zhongwu, XU Hua, KANG Bada, et al. Exploiting effective features for Chinese sentiment classification[J]. Expert systems with applications, 2011, 38(8): 9139–9146. [2] ZHANG Lei, LIU Bing, LIM S H, et al. Extracting and ranking product features in opinion documents[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Beijing, China, 2010: 1462–1470. [3] 孟园, 王洪伟. 中文评论产品特征与观点抽取方法研究 [J]. 现代图书情报技术, 2016, 32(2): 16–24. MENG Yuan, WANG Hongwei. Extracting product feature and user opinion from Chinese reviews[J]. Data analysis and knowledge discovery, 2016, 32(2): 16–24. [4] 廖祥文, 陈兴俊, 魏晶晶, 等. 基于多层关系图模型的中文评价对象与评价词抽取方法[J]. 自动化学报, 2017, 43(3): 462–471. LIAO Xiangwen, CHEN Xingjun, WEI Jingjing, et al. A multi-layer relation graph model for extracting opinion targets and opinion words[J]. Acta automatica sinica, 2017, 43(3): 462–471. [5] 丁晟春, 吴婧婵媛, 李霄. 基于 CRFs 和领域本体的中文微博评价对象抽取研究[J]. 中文信息学报, 2016, 30(4): 159–166. DING Shengchun, WU Jingchanyuan, LI Xiao. Opinion targets extraction from Chinese microblogs based on conditional random fields and domain ontology[J]. Journal of Chinese information processing, 2016, 30(4): 159–166. [6] [7] PENG Nanyun, DREDZE M. Improving named entity re- 第 1 期周浩，等：融合语义与语法信息的中文评价对象提取 ·177·

·178· 智能系统学报第14卷 cognition for Chinese social media with word segmenta- ceedings of COLING 2014,the 25th International Confer- tion representation learning[C]//Proceedings of the 54th ence on Computational Linguistics.Dublin,Ireland,2014: Annual Meeting of the Association for Computational Lin- 69-78. guistics.Berlin,Germany,2016:149-155. [15]ZHENG Xiaoqing,CHEN Hanyang,XU Tianyu.Deep [8]MA Xuezhe,HOVY E.End-to-end sequence labeling via learning for Chinese word segmentation and POS bi-directional LSTM-CNNs-CRF[C]//Proceedings of the tagging[C]//Proceedings of 2013 Conference on Empiric- 54th Annual Meeting of the Association for Computation- al Methods in Natural Language Processing.Seattle, al Linguistics.Berlin,Germany,2016:1064-1074. USA2013:647-657. [9]PHAM T H,LE-HONG P.End-to-end recurrent neural [16]SPITKOVSKY VI.ALSHAWI H,JURAFSKY D,et al. network models for Vietnamese named entity recognition: Viterbi training improves unsupervised dependency pars- word-level vs.Character-level[C]//Proceedings of the 15th ing[C]//Proceedings of the 14th Conference on Computa- International Conference of the Pacific Association for tional Natural Language Learning.Uppsala,Sweden Computational Linguistics.Yangon,Myanmar,2017: 2010:9-17 219-232. [17]YADAV V,BETHARD S.A survey on recent advances [10]JEBBARA S,CIMIANO P.Improving opinion-target ex- in named entity recognition from deep learning models traction with character-level word embeddings[C]//Pro- [C]//Proceedings of the 27th International Conference on ceedings of the Ist Workshop on Subword and Character Computational Linguistics.Santa Fe,USA,2018:2145- Level Models in NLP.Copenhagen,Denmark,2017: 2158. 159-167 [11]HAMMERTON J.Named entity recognition with long 作者简介： short-term memory[C]//Proceedings of the 7th Confer- 周浩.男，1993年生，硕士研究 ence on Natural Language Learning at HLT-NAACL 生，主要研究方向为自然语言处理、数 2003.Edmonton,Canada,2003:172-175. 据挖掘、情感分析。 [12]CHEN Xinxiong,XU Lei,LIU Zhiyuan,et al.Joint learn- ing of character and word embeddings[Cl//Proceedings of the 24th International Conference on Artificial Intelli- gence.Buenos Aires,Argentina,2015:1236-1242 [13]YU Mo,DREDZE M.Improving lexical embeddings with 王莉，女，1971年生，教授，博士生导师，主要研究方向为社会网络计 semantic knowledge[C//Proceedings of the 52nd Annual 算、大数据分析与计算、深度学习。 Meeting of the Association for Computational Linguistics. Baltimore,USA,2014:545-550. [14]DOS SANTOS C N,GATTI M.Deep convolutional neur- al networks for sentiment analysis of short texts[C]//Pro-

cognition for Chinese social media with word segmentation representation learning[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany, 2016: 149–155. MA Xuezhe, HOVY E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany, 2016: 1064–1074. [8] PHAM T H, LE-HONG P. End-to-end recurrent neural network models for Vietnamese named entity recognition: word-level vs. Character-level[C]//Proceedings of the 15th International Conference of the Pacific Association for Computational Linguistics. Yangon, Myanmar, 2017: 219–232. [9] JEBBARA S, CIMIANO P. Improving opinion-target extraction with character-level word embeddings[C]//Proceedings of the 1st Workshop on Subword and Character Level Models in NLP. Copenhagen, Denmark, 2017: 159–167. [10] HAMMERTON J. Named entity recognition with long short-term memory[C]//Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL 2003. Edmonton, Canada, 2003: 172–175. [11] CHEN Xinxiong, XU Lei, LIU Zhiyuan, et al. Joint learning of character and word embeddings[C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina, 2015: 1236–1242. [12] YU Mo, DREDZE M. Improving lexical embeddings with semantic knowledge[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, USA, 2014: 545–550. [13] DOS SANTOS C N, GATTI M. Deep convolutional neural networks for sentiment analysis of short texts[C]//Pro- [14] ceedings of COLING 2014, the 25th International Conference on Computational Linguistics. Dublin, Ireland, 2014: 69–78. ZHENG Xiaoqing, CHEN Hanyang, XU Tianyu. Deep learning for Chinese word segmentation and POS tagging[C]//Proceedings of 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, USA, 2013: 647–657. [15] SPITKOVSKY V I, ALSHAWI H, JURAFSKY D, et al. Viterbi training improves unsupervised dependency parsing[C]//Proceedings of the 14th Conference on Computational Natural Language Learning. Uppsala, Sweden, 2010: 9–17. [16] YADAV V, BETHARD S. A survey on recent advances in named entity recognition from deep learning models [C]//Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, USA, 2018: 2145– 2158. [17] 作者简介：周浩，男，1993 年生，硕士研究生，主要研究方向为自然语言处理、数据挖掘、情感分析。王莉，女，1971 年生，教授，博士生导师，主要研究方向为社会网络计算、大数据分析与计算、深度学习。 ·178· 智能系统学报第 14 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录