第14卷第1期 智能系统学报 Vol.14 No.I 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201809029 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20181127.1446.002.html 融合语义与语法信息的中文评价对象提取 周浩,王莉2 (1.太原理工大学信息与计算机学院,山西晋中030600,2.太原理工大学大数据学院,山西晋中030600) 摘要:鉴于常规的序列化标注方法提取中文评价对象准确率低,存在忽略中文语义与语法信息的缺陷,提出 了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化 语义特征,弥补忽略的字符与词语的内部信息:并通过词性序列标注,对句子的词性信息进行表征,深化输入 的语法特征。网络训练使用双向长短期记忆网络并用条件随机场克服标注标签的偏差,提高了提取准确率。 该模型在BDCI2017数据集上进行验证,与未融入语义和语法的提取模型相比,中文主题词与情感词提取准确 率分别提高了2.1%与1.68%,联合提取的准确率为77.16%.具备良好的中文评价对象提取效果。 关键词:中文评价对象:语义:语法:序列标注:双向长短期记忆网络:条件随机场:提取模型 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2019)01-0171-08 中文引用格式:周浩,王莉.融合语义与语法信息的中文评价对象提取.智能系统学报,2019,14(1):171-178. 英文引用格式:ZHOU Hao,WANG Li.Chinese opinion target extraction based on fusion of semantic and syntactic information(J. CAAI transactions on intelligent systems,2019,14(1):171-178. Chinese opinion target extraction based on fusion of semantic and syntactic information ZHOU Hao',WANG Li (1.College of Information and Computer Science,Taiyuan University of Technology,Jinzhong 030600,China;2.College of Big Data,Taiyuan University of Technology,Jinzhong 030600,China) Abstract:The regular method of Chinese opinion target extraction has poor accuracy,and it ignores Chinese semantics and syntactic information.Therefore,a Chinese opinion target extraction model that combines semantic and syntactic in- formation has been proposed.On the basis of the original word vector,the model strengthens the semantic features by optimizing the character meaning strategy,so as to make up for the internal information between the ignored characters and words,and through part-of-speech sequence annotation,the word-of-speech information of the sentence is charac- terized,and it represents the input syntactic information in depth.Through the bidirectional long short-term memory and the conditional random field,the deviation of the labeled label is avoided,improving the extraction accuracy.The mod- el was validated on the BDC12017 dataset.When compared with a unincorporated semantics and grammar extraction model,the accuracy of Chinese keyword and sentiment extraction increased by 2.1%and 1.68%,respectively.The ac- curacy of joint extraction was 77.16%,indicating a good effect on Chinese opinion target extraction. Keywords:Chinese opinion target;semantic;syntactic;sequence labeling;bidirectional long short-term memory;condi- tional random field;extraction model 随着互联网技术的发展,用户在线评论信息大量涌现。这些评论既包括来自电子商务网站上 收稿日期:2018-09-14.网络出版日期:2018-11-28 对于商品的评价,也包括通过自媒体对自己所经 基金项目:国家自然科学基金项目(61872260):山西省重点研 发计划国际合作项目(201703D421013). 历的事物发表自己的观点或看法。依据这些评论 通信作者:王莉.E-mail:wangli@yut.edu.cn. 可解决多方面的问题,例如:帮助商家优化自身
DOI: 10.11992/tis.201809029 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20181127.1446.002.html 融合语义与语法信息的中文评价对象提取 周浩1 ,王莉2 (1. 太原理工大学 信息与计算机学院,山西 晋中 030600; 2. 太原理工大学 大数据学院,山西 晋中 030600) 摘 要:鉴于常规的序列化标注方法提取中文评价对象准确率低,存在忽略中文语义与语法信息的缺陷,提出 了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化 语义特征,弥补忽略的字符与词语的内部信息;并通过词性序列标注,对句子的词性信息进行表征,深化输入 的语法特征。网络训练使用双向长短期记忆网络并用条件随机场克服标注标签的偏差,提高了提取准确率。 该模型在 BDCI2017 数据集上进行验证,与未融入语义和语法的提取模型相比,中文主题词与情感词提取准确 率分别提高了 2.1% 与 1.68%,联合提取的准确率为 77.16%,具备良好的中文评价对象提取效果。 关键词:中文评价对象;语义;语法;序列标注;双向长短期记忆网络;条件随机场;提取模型 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)01−0171−08 中文引用格式:周浩, 王莉. 融合语义与语法信息的中文评价对象提取[J]. 智能系统学报, 2019, 14(1): 171–178. 英文引用格式:ZHOU Hao, WANG Li. Chinese opinion target extraction based on fusion of semantic and syntactic information[J]. CAAI transactions on intelligent systems, 2019, 14(1): 171–178. Chinese opinion target extraction based on fusion of semantic and syntactic information ZHOU Hao1 ,WANG Li2 (1. College of Information and Computer Science, Taiyuan University of Technology, Jinzhong 030600, China; 2. College of Big Data, Taiyuan University of Technology, Jinzhong 030600, China) Abstract: The regular method of Chinese opinion target extraction has poor accuracy, and it ignores Chinese semantics and syntactic information. Therefore, a Chinese opinion target extraction model that combines semantic and syntactic information has been proposed. On the basis of the original word vector, the model strengthens the semantic features by optimizing the character meaning strategy, so as to make up for the internal information between the ignored characters and words, and through part-of-speech sequence annotation, the word-of-speech information of the sentence is characterized, and it represents the input syntactic information in depth. Through the bidirectional long short-term memory and the conditional random field, the deviation of the labeled label is avoided, improving the extraction accuracy. The model was validated on the BDCI2017 dataset. When compared with a unincorporated semantics and grammar extraction model, the accuracy of Chinese keyword and sentiment extraction increased by 2.1% and 1.68%, respectively. The accuracy of joint extraction was 77.16%, indicating a good effect on Chinese opinion target extraction. Keywords: Chinese opinion target; semantic; syntactic; sequence labeling; bidirectional long short-term memory; conditional random field; extraction model 随着互联网技术的发展,用户在线评论信息 大量涌现。这些评论既包括来自电子商务网站上 对于商品的评价,也包括通过自媒体对自己所经 历的事物发表自己的观点或看法。依据这些评论 可解决多方面的问题,例如:帮助商家优化自身 收稿日期:2018−09−14. 网络出版日期:2018−11−28. 基金项目:国家自然科学基金项目 (61872260);山西省重点研 发计划国际合作项目 (201703D421013). 通信作者:王莉. E-mail:wangli@tyut.edu.cn. 第 14 卷第 1 期 智 能 系 统 学 报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019
·172· 智能系统学报 第14卷 产品,辅助用户进行消费决策,进行互联网舆情 语由字符构成,如何利用词语的内部信息还未得 分析等。通常将此类信息挖掘称为细粒度的情感 到完美解决。深度学习中常规的网络模型嵌入 分析。评价对象提取是将这些评论从非结构化转 层,会忽略中文的语义与语法信息,从而影响中 为结构化数据,从而为细粒度的情感分析做好铺 文的评价对象提取的结果。 垫。因此评价对象提取是细粒度情感分析的关键 针对这些问题,本文将提取问题转换成序列 步骤。例如:评论“手机电池很给力,但像素太 标注问题。在采用双向长短期记忆网络(Bi- 低,不推荐”,其中“电池”与“像素”是评论主题词, LSTM)配合条件随机场(CRF)基础上,针对组成 “给力”与“太低”是评论情感词,这些都是需要提 评价对象字符的内部信息,提出了融合中文评论 取的目标。 的语义与语法信息的评价对象提取。本文是对 针对这一任务,早期的工作往往基于句法分 Jebbara等o工作的改进与扩充:l)首先,模型考 析,在特定领域中对大量出现的名词与名词短语 虑提取对象内部信息,在原始词向量的基础上, 进行频率统计,完成对象提取。2009年,Qu等 通过优化字符含义策略增强语义特征,弥补了忽 利用词间依存关系对情感词和评价对象进行同步 略的词语内部信息;2)深化网络对语法特征的理 抽取,即双向传播算法。之后Zhai等将双向传 解,通过对评论序列词性标注,训练生成词性向 播算法成功应用于中文数据中,但是该方法在大 量,将语义与语法信息共同作为网络输入;3)为 规模的数据上表现不够理想。为了解决这一问 了优化网络训练效果,引入Bi-LSTM捕获评论上 题,Zhang等利用HTS算法候选属性词的相关 下文信息,并通过CRF层克服标签偏差问题; 性,以提高提取精度。但传统提取方法一般基于 4)最后模型考虑了评论信息中的结构特征,通过 词与词之间的依赖关系,强调统计信息的作用, 一种新标注策略(Binary-BIO标注)为标注结果提 但这种方法需要抽取大量的人工特征与语言学基 供了结构化信息,较好地完成了评价对象提取, 础,因此造成特征稀硫的问题。孟园等通过考 虑评价对象的关联关系与语义关系构建了置信度 进一步提高了提取的准确率。 排序模型,完成中文信息的提取。廖祥文等] 1中文评价对象提取模型与Bi-LSTM 通过分析评价对象间的依存句法关系进行置信度 CRF网络 计算,对中文评论对象进行了抽取。 近年来,学者广泛将评价对象提取定义为序 1.1中文评价对象提取模型 列标注任务。丁晟春等通过条件随机场(CRF) 以双向长短期记忆网络(Bi-LSTM)配合条件 模型在不同方面进行特征选择,对中文微博的内 随机场(CRF)进行建模,提取模型基本可概括为 容进行评价对象的提取。深度学习中的序列标注 4个层次。1)嵌入层,即embedding层。神经网络 方法通过网络模型直接学习特征,避免了人工选 无法直接处理自然语言,因此需要将文字映射成 取特征的烦琐。该方法已广泛应用于文本提取等 高维向量。本文的提取模型首先在原始字向量的 自然语言处理领域。在此基础上,语言的字符与 基础上,通过优化字符含义策略强化了语义特 词语信息也受到越来越多学者的关注。2015年 征,弥补了忽略的字符与词语间的内部信息。此 Peng等m使用词语建模中文信息,联合学习中文 外通过词性序列标注方法,对评论中的词性信息 字符的表示,以识别中文实体;2016年Ma等通 进行了表征,深化了输入语法信息。将语义信息 过单词与字符表示的学习和组合,以提高实体识 与语法信息进行拼接,作为当前字符特征向量表 别的效果;2017年Pham等通过预训练字符模型 示。2)编码层。本文使用Bi-LSTM完成网络训 来增强实体的识别效果。从上述文献中可以发 练,双向捕获评论的双向信息,适合序列标注任 现,在深度学习的背景下,考虑语言中词语的内 务。3)解码层,即CRF层。通过考虑标签之间的 部信息已经成为了评论对象提取的热门方法。 约束关系,加入转移概率矩阵,选出分数最高的 但中文与英文的语义表达和语法构成不同, 标注路径作为标注结果。4)序列标注层。通过解 主要体现在词汇的构成方式不同。目前效果较好 码层的输出为每一个字符预测相应的标签,本文 的提取模型考虑的信息多为西方语言特征,例如 使用BIO标注方法,并在此基础上增加一位二进 单词的前缀与后缀信息等,而没有考虑中文词语 制标记为标注结果提供结构化的信息,从另一个 的组成字符内部信息。中文句子由词语构成,词 角度优化标注结果。具体模型如图1所示
产品,辅助用户进行消费决策,进行互联网舆情 分析等。通常将此类信息挖掘称为细粒度的情感 分析。评价对象提取是将这些评论从非结构化转 为结构化数据,从而为细粒度的情感分析做好铺 垫。因此评价对象提取是细粒度情感分析的关键 步骤。例如:评论“手机电池很给力,但像素太 低,不推荐”,其中“电池”与“像素”是评论主题词, “给力”与“太低”是评论情感词,这些都是需要提 取的目标。 针对这一任务,早期的工作往往基于句法分 析,在特定领域中对大量出现的名词与名词短语 进行频率统计,完成对象提取。2009 年,Qiu 等 [1] 利用词间依存关系对情感词和评价对象进行同步 抽取,即双向传播算法。之后 Zhai 等 [2]将双向传 播算法成功应用于中文数据中,但是该方法在大 规模的数据上表现不够理想。为了解决这一问 题,Zhang 等 [3]利用 HITS 算法候选属性词的相关 性,以提高提取精度。但传统提取方法一般基于 词与词之间的依赖关系,强调统计信息的作用, 但这种方法需要抽取大量的人工特征与语言学基 础,因此造成特征稀疏的问题。孟园等[4]通过考 虑评价对象的关联关系与语义关系构建了置信度 排序模型,完成中文信息的提取。廖祥文等[ 5 ] 通过分析评价对象间的依存句法关系进行置信度 计算,对中文评论对象进行了抽取。 近年来,学者广泛将评价对象提取定义为序 列标注任务。丁晟春等[6]通过条件随机场 (CRF) 模型在不同方面进行特征选择,对中文微博的内 容进行评价对象的提取。深度学习中的序列标注 方法通过网络模型直接学习特征,避免了人工选 取特征的烦琐。该方法已广泛应用于文本提取等 自然语言处理领域。在此基础上,语言的字符与 词语信息也受到越来越多学者的关注。2015 年 Peng 等 [7]使用词语建模中文信息,联合学习中文 字符的表示,以识别中文实体;2016 年 Ma 等 [8]通 过单词与字符表示的学习和组合,以提高实体识 别的效果;2017 年 Pham 等 [9]通过预训练字符模型 来增强实体的识别效果。从上述文献中可以发 现,在深度学习的背景下,考虑语言中词语的内 部信息已经成为了评论对象提取的热门方法。 但中文与英文的语义表达和语法构成不同, 主要体现在词汇的构成方式不同。目前效果较好 的提取模型考虑的信息多为西方语言特征,例如 单词的前缀与后缀信息等,而没有考虑中文词语 的组成字符内部信息。中文句子由词语构成,词 语由字符构成,如何利用词语的内部信息还未得 到完美解决。深度学习中常规的网络模型嵌入 层,会忽略中文的语义与语法信息,从而影响中 文的评价对象提取的结果。 针对这些问题,本文将提取问题转换成序列 标注问题。在采用双向长短期记忆网络 (BiLSTM) 配合条件随机场 (CRF) 基础上,针对组成 评价对象字符的内部信息,提出了融合中文评论 的语义与语法信息的评价对象提取。本文是对 Jebbara 等 [10]工作的改进与扩充:1) 首先,模型考 虑提取对象内部信息,在原始词向量的基础上, 通过优化字符含义策略增强语义特征,弥补了忽 略的词语内部信息;2) 深化网络对语法特征的理 解,通过对评论序列词性标注,训练生成词性向 量,将语义与语法信息共同作为网络输入;3) 为 了优化网络训练效果,引入 Bi-LSTM 捕获评论上 下文信息,并通过 CRF 层克服标签偏差问题; 4) 最后模型考虑了评论信息中的结构特征,通过 一种新标注策略 (Binary-BIO 标注) 为标注结果提 供了结构化信息,较好地完成了评价对象提取, 进一步提高了提取的准确率。 1 中文评价对象提取模型与 Bi-LSTMCRF 网络 1.1 中文评价对象提取模型 以双向长短期记忆网络 (Bi-LSTM) 配合条件 随机场 (CRF) 进行建模,提取模型基本可概括为 4 个层次。1) 嵌入层,即 embedding 层。神经网络 无法直接处理自然语言,因此需要将文字映射成 高维向量。本文的提取模型首先在原始字向量的 基础上,通过优化字符含义策略强化了语义特 征,弥补了忽略的字符与词语间的内部信息。此 外通过词性序列标注方法,对评论中的词性信息 进行了表征,深化了输入语法信息。将语义信息 与语法信息进行拼接,作为当前字符特征向量表 示。2) 编码层。本文使用 Bi-LSTM 完成网络训 练,双向捕获评论的双向信息,适合序列标注任 务。3) 解码层,即 CRF 层。通过考虑标签之间的 约束关系,加入转移概率矩阵,选出分数最高的 标注路径作为标注结果。4) 序列标注层。通过解 码层的输出为每一个字符预测相应的标签,本文 使用 BIO 标注方法,并在此基础上增加一位二进 制标记为标注结果提供结构化的信息,从另一个 角度优化标注结果。具体模型如图 1 所示。 ·172· 智 能 系 统 学 报 第 14 卷
第1期 周浩,等:融合语义与语法信息的中文评价对象提取 ·173 句子序列 语义信息 B-表征L表征 B-表征I表征 字表征 B-表征I【表征 B-表征L表征 g 5 语法信息 词性表征 词性表征 词性表征 词性表征 词性表征 训练层 LSTM LSTM LSTM LSTM LSTM LSTM STM LSTM LSTM 标注层 CRF CRF CRF CRF CRF 标注结果 B-sub-1 I-sub-1 0 B-sen-1 -sen-I 图1中文评价对象提取模型 Fig.1 Model of Chinese opinion target extraction 1.2Bi-LSTM-CRF网络 h=O,otanh(C) (6) 式中:i,为输入门;为遗忘门;0,为输出门;C,为状 Bi-LSTM-CRF网络是在长短期记忆网络的基 态候选值;W代表权重矩阵;b代表偏置项;σ为 础上优化后的模型,结合了长短期记忆网络与条 sigmoid函数;o代表按元素乘运算。双向长短期 件随机场的优点,是循环神经网络的一种,常常 记忆网络的隐藏层为双层结构,这样结合两个方 用来处理序列数据。网络的优点是:解决长距 向的信息进一步提高模型的学习能力,对于序列 离依赖问题的同时避免了梯度爆炸或消失,并在 标注任务非常有效。将输入字符设为X,先正向 标注路径选择过程中,克服标注标签的偏差问 计算得到正向隐藏层向量h,再反向计算得到反 题。网络模型的核心是记忆单元。Bi-LSTM隐藏 向隐藏层向量表示h:,然后进行拼接得到最终的 层的神经元由多个门控制,包括输入门、输出门、 隐藏层向量表示: 遗忘门。这些门的设置可以使之前输人的信息保 hi=[hyi:hni] (7) 存在网络中,并一直向前传递。记忆单元简单的 结构如图2所示。 2语义与语法信息的融合与标注策略 网络输出 2.1优化字符含义策略 输出门 模型输入是由单个字符组成的句子序列 W={W,W,…,W。中文能够包含语义的最小单 位是词语,因此使输入的字符包含所构成词语的 语义信息是本文的优化目标之一。中文的某一字 遗忘门 细胞状态 符在不同词语中位置不同从而导致字符含义发生 .0 变化,例如:“泡面”与“电灯泡”这组词语,由于 泡”字位置不同,含义也完全不同。参考Chen等回 输人门 的思想,设计了优化字符含义的策略。考虑某字 网络输入 符因在组成词中的位置变化导致的含义不同,从 而为具备这一特征的字符W:=C,C}分配两个 图2LSTM神经单元 Fig.2 Structure of LSTM neural unit 向量,对应字符在词语中的起始与非起始位置。 设1时刻下,网络输人为X,输人门输入为h, 因此嵌入层中的语义信息表征方法如图3所示。 单元状态为C,记忆单元内对应的更新与输出 提取对象1: 泡 如式(1)(6): f;=(Wi[h-1.X]+br) (1) B-表征 1表征 i=(Wi[h-1X:]+bi) (2) 提取对象2: C,tanh(We[h-1.X,]+be) (3) O:=(Wo[h-1.X,]+bo) (4) 图3字向量选择方法 C:=fioC-1+inoC (5) Fig.3 Character vector selection method
1.2 Bi-LSTM-CRF 网络 Bi-LSTM-CRF 网络是在长短期记忆网络的基 础上优化后的模型,结合了长短期记忆网络与条 件随机场的优点,是循环神经网络的一种,常常 用来处理序列数据[11]。网络的优点是:解决长距 离依赖问题的同时避免了梯度爆炸或消失,并在 标注路径选择过程中,克服标注标签的偏差问 题。网络模型的核心是记忆单元。Bi-LSTM 隐藏 层的神经元由多个门控制,包括输入门、输出门、 遗忘门。这些门的设置可以使之前输入的信息保 存在网络中,并一直向前传递。记忆单元简单的 结构如图 2 所示。 遗忘门 网络输入 输入门 输出门 网络输出 h 1 .0 g 细胞状态 图 2 LSTM 神经单元 Fig. 2 Structure of LSTM neural unit Xt ht Ct 设 t 时刻下,网络输入为 ,输入门输入为 , 单元状态为 ,记忆单元内对应的更新与输出 如式 (1)~(6): ft = σ(Wf[ht−1,Xt]+bf) (1) it = σ(Wi[ht−1,Xt]+bi) (2) Cet = tanh(Wc[ht−1,Xt]+bc) (3) Ot = σ(W0[ht−1,Xt]+b0) (4) Ct = ft ◦Ct−1 +it ◦Cet (5) ht = Ot ◦ tanh(Ct) (6) it ft Ot Cet W b σ ◦ Xi hf i hri 式中: 为输入门; 为遗忘门; 为输出门; 为状 态候选值; 代表权重矩阵; 代表偏置项; 为 sigmoid 函数; 代表按元素乘运算。双向长短期 记忆网络的隐藏层为双层结构,这样结合两个方 向的信息进一步提高模型的学习能力,对于序列 标注任务非常有效。将输入字符设为 ,先正向 计算得到正向隐藏层向量 ,再反向计算得到反 向隐藏层向量表示 ,然后进行拼接得到最终的 隐藏层向量表示: hi = [hf i; hri] (7) 2 语义与语法信息的融合与标注策略 2.1 优化字符含义策略 W = {W1,W2,··· ,Wk} Wi = {CB,CI} 模型输入是由单个字符组成的句子序列 。中文能够包含语义的最小单 位是词语,因此使输入的字符包含所构成词语的 语义信息是本文的优化目标之一。中文的某一字 符在不同词语中位置不同从而导致字符含义发生 变化,例如:“泡面”与“电灯泡”这组词语,由于 “泡”字位置不同,含义也完全不同。参考 Chen 等 [12] 的思想,设计了优化字符含义的策略。考虑某字 符因在组成词中的位置变化导致的含义不同,从 而为具备这一特征的字符 分配两个 向量,对应字符在词语中的起始与非起始位置。 因此嵌入层中的语义信息表征方法如图 3 所示。 面 电 B-表征 I-表征 灯 泡 泡 提取对象1: 提取对象2: 图 3 字向量选择方法 Fig. 3 Character vector selection method LSTM LSTM LSTM LSTM 灯 泡 还 不 CRF B-sub-1 O B-sen-1 I-sub-1 错 I-sen-1 B-表征 I-表征 词性表征 字表征 词性表征 B-表征 I-表征 B-表征 I-表征 B-表征 I-表征 词性表征 词性表征 词性表征 LSTM LSTM LSTM LSTM LSTM LSTM CRF CRF CRF CRF 语义信息 语法信息 句子序列 训练层 标注层 标注结果 图 1 中文评价对象提取模型 Fig. 1 Model of Chinese opinion target extraction 第 1 期 周浩,等:融合语义与语法信息的中文评价对象提取 ·173·
·174· 智能系统学报 第14卷 优化字符含义策略以连续词袋模型(CBOW) 性类别包括形容词(a)、动词(w)、名词(n)、动名 为基础,根据上下文单元对当前单元进行向量表示。 词(wn)、副词(d),再使用word2vec为每一种词性 由于处理单元为字符,句子W={W,W2,…,W在 训练生成对应的词性向量序列:wos={wpos1,wo2,…, CBOW模型下训练目标函数为 ws小,词性向量由集合e表示。在式(9)、式(10) W (8) 的基础上,融合语义与语法信息的字符向量X可 表示为 式中:K表示滑动窗口的大小;M为句子序列的字 符个数。使用上下文预测目标字符向量x可表示为 X=W, *2 (12) X=W,⊕ 1 (9) 在式(11)基础上,最终嵌入层字符可表示为 X,=[e(w:e'(w] (13) 式中:W,为评价对象的初始化向量表示;N为当 2.3 序列标注策略 前评价对象的字符组成个数:k表示当前滑动窗口 本文将提取问题转换为序列标注问题进行处 位于单词的第k个字符;⊕表示向量间的操作。当 理,根据标注结果识别评价对象范围。传统的序 评价对象组成字符由多个向量表示时,式(9)可 列标注不能很好地体现出评价对象及其属性的匹 改写为 配关系。因此本文在传统的BIO标注方法1下, 添加新的标记,用来优化标注结果,实现联合提 X,=W⊕ (10) 取。在BIO标注中,“B”与“I”表示词语的范围。 根据式(9)为字符生成不同的向量表示,得到 “B”为提取对象的起始位置;I”为提取对象的非 向量集合e5,则融合语义信息的输入字符w,的向 起始位置;“O”代表提取对象外部,即无关字符。 量X表示为 本文所需识别评价对象可概括为主题词与情感 X,=[e(w] (11) 词,使用“sub”与“sen”分别表示标注含义。在此 综上所述,优化含义的字符表示可由式(8)~ 基础上,添加一位二进制标记,用来表示提取对 (10)训练生成,并由式(11)表示。 象是否存在匹配关系。联合提取“1”代表当前评 2.2词性向量训练 价对象存在匹配情感属性内容,“0”则反之。例 词性是一种重要的语法信息。自然语言中, 如:“手机电池很给力,但像素太低,不推荐”,评 句子中的固定成分具有固定词性,通过句子的词 论对象为,对应标签{B-sub-l,I-sub- 性特征学习可以获得句子的语法约束。首先通 1,B-sen-l,I-sen-1}。从标注结果可以清晰看出, 过条件随机场对中文评论进行词性标注,得到每 评论的主题词存在对应情感,以就近原则完成联 条评论的词性标注序列S={s,s2,…,Sm。标注词 合提取。标注实例如表1所示。 表1中文评论标注结果 Table 1 Chinese commentary annotation results 输入序列 手机 电 沙 给 力 ,但 举 素 太 公 主题词标签 B-sub-1 I-sub-1 B-sub-1 I-sub-1 情感词标签 B-sen-1 I-sen-1 B-sen-1 I-sen-1 外部标签 00 00 2.4标注原理与模型训练 的选择,克服标签偏差问题1。已知输入句子的 Bi-LSTM网络的隐藏层输出为标签的概率分 字符序列为W={W,W2,…,W,则对应的标签序 布,使用softmax分类器完成标注时,每个字符的 列为t={,2,…,tx,f为真实路径,r={,5,…,】 标注结果互不影响,从而忽略了相邻标签之间的 为W可能输出的标签序列。因此给定字符序列 依赖关系。由标注规则可知,标签I无法成为序 W在所有可能标注序列下的条件概率为 列的第一个标签;标签B-sub的下一个标签也仅 n6,(t-,t,W) 仅可能是I-sub或O。因此在CRF层中,引入标 P(IW)= (14) ∑Π⊙(,W) 签转移概率,使用Viterbi算法完成最优标注序列
W = {W1,W2,··· ,Wk} 优化字符含义策略以连续词袋模型 (CBOW)[13] 为基础,根据上下文单元对当前单元进行向量表示。 由于处理单元为字符,句子 在 CBOW 模型下训练目标函数为 Φ(W) = 1 K K∑−M i=M logP(wi |wi−M,wi−M + 1,··· ,wi+M) (8) K M Xj 式中: 表示滑动窗口的大小; 为句子序列的字 符个数。使用上下文预测目标字符向量 可表示为 Xj = Wj ⊕ 1 Nj ∑Nj k=1 ck (9) Wj Nj k k ⊕ 式中: 为评价对象的初始化向量表示; 为当 前评价对象的字符组成个数; 表示当前滑动窗口 位于单词的第 个字符; 表示向量间的操作。当 评价对象组成字符由多个向量表示时,式 (9) 可 改写为 Xj = Wj ⊕ 1 Nj c B 1 + ∑Nj k=2 c I k (10) e c Wj Xj 根据式 (9) 为字符生成不同的向量表示,得到 向量集合 ,则融合语义信息的输入字符 的向 量 表示为 Xj = [e c (wj)] (11) 综上所述,优化含义的字符表示可由式 (8)~ (10) 训练生成,并由式 (11) 表示。 2.2 词性向量训练 S = {s1,s2,··· ,sm} 词性是一种重要的语法信息。自然语言中, 句子中的固定成分具有固定词性,通过句子的词 性特征学习可以获得句子的语法约束[14]。首先通 过条件随机场对中文评论进行词性标注,得到每 条评论的词性标注序列 。标注词 wpos = {wpos1,wpos2,··· , wposk} e s Xj 性类别包括形容词 (/a)、动词 (/v)、名词 (/n)、动名 词 (/vn)、副词 (/d),再使用 word2vec 为每一种词性 训练生成对应的词性向量序列: ,词性向量由集合 表示。在式 (9)、式 (10) 的基础上,融合语义与语法信息的字符向量 可 表示为 Xj = Wj ⊕ 1 Nj c B 1 + ∑Nj k=2 c I k ⊕Wposj (12) 在式 (11) 基础上,最终嵌入层字符可表示为 Xj = [e c (wj);e s (wj)] (13) 2.3 序列标注策略 本文将提取问题转换为序列标注问题进行处 理,根据标注结果识别评价对象范围。传统的序 列标注不能很好地体现出评价对象及其属性的匹 配关系。因此本文在传统的 BIO 标注方法[15]下, 添加新的标记,用来优化标注结果,实现联合提 取。在 BIO 标注中,“B”与“I”表示词语的范围。 “B”为提取对象的起始位置;“I”为提取对象的非 起始位置;“O”代表提取对象外部,即无关字符。 本文所需识别评价对象可概括为主题词与情感 词,使用“sub”与“sen”分别表示标注含义。在此 基础上,添加一位二进制标记,用来表示提取对 象是否存在匹配关系。联合提取“1”代表当前评 价对象存在匹配情感属性内容,“0”则反之。例 如:“手机电池很给力,但像素太低,不推荐”,评 论对象为,对应标签{B-sub-1, I-sub- 1, B-sen-1, I-sen-1}。从标注结果可以清晰看出, 评论的主题词存在对应情感,以就近原则完成联 合提取。标注实例如表 1 所示。 表 1 中文评论标注结果 Table 1 Chinese commentary annotation results 输入序列 手 机 电 池 给 力 , 但 像 素 太 低 主题词标签 B-sub-1 I-sub-1 B-sub-1 I-sub-1 情感词标签 B-sen-1 I-sen-1 B-sen-1 I-sen-1 外部标签 O O O O 2.4 标注原理与模型训练 Bi-LSTM 网络的隐藏层输出为标签的概率分 布,使用 softmax 分类器完成标注时,每个字符的 标注结果互不影响,从而忽略了相邻标签之间的 依赖关系。由标注规则可知,标签 I 无法成为序 列的第一个标签;标签 B-sub 的下一个标签也仅 仅可能是 I-sub 或 O。因此在 CRF 层中,引入标 签转移概率,使用 Viterbi 算法完成最优标注序列 W = {W1,W2,··· ,Wk} t = {t1,t2,··· ,tK} et t ∗ = {t ∗ 1 ,t ∗ 2 ,··· ,t ∗ K } W W t ∗ 的选择,克服标签偏差问题[16]。已知输入句子的 字符序列为 ,则对应的标签序 列为 , 为真实路径, 为 可能输出的标签序列。因此给定字符序列 在所有可能标注序列 下的条件概率为 P(t|W) = ∏n i=1 Θi(ti−1,ti ,W) ∑ t∗ ∏n i=1 Θi(t ∗ i−1 ,t ∗ i ,W) (14) ·174· 智 能 系 统 学 报 第 14 卷
第1期 周浩,等:融合语义与语法信息的中文评价对象提取 ·175· 式中O(t-,,W为潜在的增益函数,目的是使标注 TP (18) 的真实路径在所有可能路径中的得分最高。因此 R=TP,+FN, 在所有的标签序列找到条件概率最高的序列为 2PRi Fu=P+R (19) T=argmax p(W) (15) 式中:TP,为第类关系中被正确分类的实例个数; 综上,通过神经网络训练输入标签的概率矩 FP:为被错误的分为第类的实例数;FN:为本属于 阵后,根据式(14)、式(15)可选择出得分最高的标 第类实例被分为其他类别的实例数。 注序列。训练模型时给定一组已完成标记的训练 3.3超参数选择 数据T,并定义L2正则化损失似然函数为 神经网络在训练过程中,超参数的设置具有 L=∑,tog(P(W)+Ior (16) 重要的意义。实验结果证明,学习率、迭代次数 对识别效果有很大影响。在网络模型训练过程 式中:A为正则化系数;日为模型的参数集合; 中,迭代次数超过60次时,评论对象提取结果的 (d/2)©为L2范数正则化。模型使用反向传播算 准确率、召回率、F值均开始下降。可见迭代次 法训练随机梯度下降(GSD)算法进行优化。 数并非越多越好,过度迭代可能导致模型过拟 3实验结果与分析 合,影响模型效果。在同一个模型下,以网络的 学习率为自变量,迭代相同次数后,模型在学习 为了验证语义与语法信息对中文评价对象提 率为0.001时表现更好。可见,学习率对网络训 取的积极作用,体现提出的语义信息与语法信息 练效果影响同样很大,学习率过大模型无法收 的有效性与优势,进行了以下实验。并在此基础 敛,导致训练结果不理想。迭代次数和学习率的 上,讨论了不同网络模型对于评价对象提取的影 影响实验结果如图4、图5所示。 响,论证了Binary-.BIO标注策略对提取结果结构 化影响,验证了本文的优势。 3.1实验数据 本文采用2017年CCF大数据与计算智能大 赛(BDCI2017)所提供的中文电商商品评论数据 士一准确率 一·一召回率 集,共包含17652条真实中文评论信息。经统计, 一F 评论中共有情感词43041个,主题词22017个。 50 每条中文评论中存在多个(对)评价对象,按照主 10 30 50 70 迭代次数 题词与情感词对应排序。 图4迭代次数影响 由于数据来源于真实的电商平台,存在数据 Fig.4 Effect of iterations 结构松散,存在大量无具体含义评论的情况,需 进行数据清洗。例如:表情符号、错误的标点符 号以及无需提取的短评论。清洗完毕后,将数据 80 态材书合为 集划分为训练集与测试集,并使用新标注策略进 行标注,生成训练数据。具体划分情况如表2所示。 0 表2数据分配表 60 -=0.01 ±—=0.001 Table 2 Data allocation table 数据 中文评论条数/条 10 30 50 70 90 迭代次数 训练集 12000 图5学习率影响 测试集 2000 Fig.5 Effect of learning rate 3.2评价方法 综上,模型的学习率设为0.001,迭代次数为 对于评价对象提取评价,使用综合性能作为 60次,字符的向量维度设为300维,其中,包含语 最终的评测标准。评价指标包括准确率、召回率 义信息部分为250维,语法信息部分为50维。并 和F值。计算公式如下: 采用Hinton等提出的dropout方法将隐含层的节 TP 点以0.5的概率随机忽略。具体的超参数设置如 P,= (17) TP:+FP, 表3所示
Θi(ti−1,ti ,W) et 式中 为潜在的增益函数,目的是使标注 的真实路径在所有可能路径中的得分最高。因此 在所有的标签序列找到条件概率最高 的序列为 et = argmax t∈t ∗ p(t|W) (15) T L2 综上,通过神经网络训练输入标签的概率矩 阵后,根据式 (14)、式 (15) 可选择出得分最高的标 注序列。训练模型时给定一组已完成标记的训练 数据 ,并定义 正则化损失似然函数为 L = ∑ T log(P(ti |W))+ λ 2 ||Θ||2 (16) λ Θ (λ/2)∥Θ∥ 2 L2 式中: 为正则化系数; 为模型的参数集合; 为 范数正则化。模型使用反向传播算 法训练随机梯度下降 (GSD) 算法进行优化。 3 实验结果与分析 为了验证语义与语法信息对中文评价对象提 取的积极作用,体现提出的语义信息与语法信息 的有效性与优势,进行了以下实验。并在此基础 上,讨论了不同网络模型对于评价对象提取的影 响,论证了 Binary-BIO 标注策略对提取结果结构 化影响,验证了本文的优势。 3.1 实验数据 本文采用 2017 年 CCF 大数据与计算智能大 赛 (BDCI2017) 所提供的中文电商商品评论数据 集,共包含 17 652 条真实中文评论信息。经统计, 评论中共有情感词 43 041 个,主题词 22 017 个。 每条中文评论中存在多个 (对) 评价对象,按照主 题词与情感词对应排序。 由于数据来源于真实的电商平台,存在数据 结构松散,存在大量无具体含义评论的情况,需 进行数据清洗。例如:表情符号、错误的标点符 号以及无需提取的短评论。清洗完毕后,将数据 集划分为训练集与测试集,并使用新标注策略进 行标注,生成训练数据。具体划分情况如表 2 所示。 表 2 数据分配表 Table 2 Data allocation table 数据 中文评论条数/条 训练集 12 000 测试集 2 000 3.2 评价方法 F1 对于评价对象提取评价,使用综合性能作为 最终的评测标准。评价指标包括准确率、召回率 和 值。计算公式如下: Pi = TPi TPi +FPi (17) Ri = TPi TPi +FNi (18) F1i = 2PiRi Pi +Ri (19) TPi i FPi i FNi i 式中: 为第 类关系中被正确分类的实例个数; 为被错误的分为第 类的实例数; 为本属于 第 类实例被分为其他类别的实例数。 3.3 超参数选择 F1 神经网络在训练过程中,超参数的设置具有 重要的意义。实验结果证明,学习率、迭代次数 对识别效果有很大影响。在网络模型训练过程 中,迭代次数超过 60 次时,评论对象提取结果的 准确率、召回率、 值均开始下降。可见迭代次 数并非越多越好,过度迭代可能导致模型过拟 合,影响模型效果。在同一个模型下,以网络的 学习率为自变量,迭代相同次数后,模型在学习 率为 0.001 时表现更好。可见,学习率对网络训 练效果影响同样很大,学习率过大模型无法收 敛,导致训练结果不理想。迭代次数和学习率的 影响实验结果如图 4、图 5 所示。 60 70 80 90 10 30 50 70 90 百分比/% 迭代次数 准确率 召回率 F1 图 4 迭代次数影响 Fig. 4 Effect of iterations 50 60 70 80 90 10 30 50 70 90 F1/% 迭代次数 lr=0.01 lr=0.001 图 5 学习率影响 Fig. 5 Effect of learning rate 综上,模型的学习率设为 0.001,迭代次数为 60 次,字符的向量维度设为 300 维,其中,包含语 义信息部分为 250 维,语法信息部分为 50 维。并 采用 Hinton 等提出的 dropout 方法将隐含层的节 点以 0.5 的概率随机忽略。具体的超参数设置如 表 3 所示。 第 1 期 周浩,等:融合语义与语法信息的中文评价对象提取 ·175·
·176· 智能系统学报 第14卷 表3模型超参数 表5融合语义信息与随机表示联合提取效果对比 Table 3 Model hyperparameter Table 5 Convergence semantics and random representa- 超参数 参数值 tion 提取目标 嵌入层表示 准确率% 字符向量维度 召回率/%F% 250 词性向量维度 随机表示 50 73.63 59.85 66.03 迭代次数 联合提取 字词拼接 78.74 64.38 70.84 60 融合语义信息 78.12 71.64 学习率 66.15 0.001 dropout 0.5 实验2在Bi-LSTM-CRF网络的基础上,对 比融合语法信息的向量表示对评价对象提取的影 3.4实验过程与结果分析 响。其中字符向量化方法为随机初始化,实验结 为了验证本文提出的语义与语法信息对中文 果如表6所示。 评价对象提取的积极作用,实验依据表3设置超 表6融合词性信息与随机表示提取对比 参数,依次进行以下实验。 Table 6 Convergence of convergence vectors and random- 实验1在Bi-LSTM-CRF网络基础上,对比 ized initialization vectors 融合语义信息的向量表示与随机初始化的向量表 提取目标 嵌人层表示 准确率%召回率/%F,% 示对中文评价对象提取的影响。由3.1节论述可 随机表示 76.64 69.37 72.82 知,模型需要为部分字符根据其在评价对象词语 主题词 融合语法信息 74.31 75.51 74.90 内的位置为其分配不同向量表示,因此从数据集 中选取了300个具备可拆分特征的字符,例如“泡 随机表示 85.13 84.94 85.04 情感词 面”与“灯泡”、“差不多”与“不错”等,使用CBOW 融合语法信息 85.46 86.30 85.88 模型进行训练。实验结果如表4所示。 从实验结果可以看出,通过词性标注,训练生 表4融合语义信息与随机表示提取效果对比 成的词性向量对于评价对象的提取准确率有一定 Table 4 Convergence semantics and random representa- 的影响,但效果并不显著,融合语法信息后,主题 tion extraction 词的提取准确率有所下降,情感词的准确率有所 提取目标 嵌人层表示 准确率% 召回率%F% 提升,达到了85.46%,两者F,值都得到了提高。 随机表示 76.64 69.37 72.82 分析数据特点,由于数据来自真实电商评论,语 主题词 字词拼接 76.51 72.71 74.56 法结构薄弱,多数情况下句子成分不完整,导致 模型没有学习出句子词性序列的特征,语法信息 融合语义信息 77.25 73.29 75.21 挖掘不够充分。当从训练数据中选择语法结构较 随机表示 85.13 84.94 85.04 强的中文评论进行实验时,准确率明显提升。因 情感词 字词拼接 87.61 86.5 87.05 此,处理语法信息薄弱的中文句子时,可以通过 融合语义信息 88.97 88.2788.62 补全信息的手段对数据样本进行处理,再进行评 价对象提取的任务。 融合语义信息后的向量在识别评价对象时准 实验3以CRF与Bi-LSTM网络为基础,验 确率更高,效果更好。与通用的字符向量与词语 证Bi-LSTM-CRF网络的优势。由于数据集不同, 向量拼接相比,本文根据位置为字符分配向量的 通过参考相关的提取模型进行仿真实验,并对模 训练方法更加科学,尤其是在中文领域。考虑策 型输入添加不同信息进行对比实验。CRF 略也明显区别于英文。此外,情感词的识别效果 模型引入词语位置与规则信息,Bi-LSTM模型列 要好于主题词:情感词的训练样本要比情感词丰 引入语义与语法信息。并与融合语义与语法信息 富,情感词的类型数相对于主题词的类型数要小 的Bi-LSTM-CRF模型进行比较,论证Bi-LSTM-CRF 很多。直观来看,情感类型数量要远小于商品属 网络的优势,实验结果如表7所示。 性数量,故在标注情感词时正确率也更高。但这 对比CRF与Bi-LSTM-CRF模型,后者的提取 也导致优化后的提取与字词向量直接拼接的提取 效果更好,情感词提取准确率达到了90.42%。 效果相差不大,实验结果验证了这一点。并从联 更重要的是,启发式规则需要人工干预,而语义 合提取的角度验证了该结论。联合提取的实验结 与语法信息无需人工干预即可训练完成。对比 果如表5所示。 Bi-LSTM与本模型,融合信息相同但CRF层可以
表 3 模型超参数 Table 3 Model hyperparameter 超参数 参数值 字符向量维度 250 词性向量维度 50 迭代次数 60 学习率 0.001 dropout 0.5 3.4 实验过程与结果分析 为了验证本文提出的语义与语法信息对中文 评价对象提取的积极作用,实验依据表 3 设置超 参数,依次进行以下实验。 实验 1 在 Bi-LSTM-CRF 网络基础上,对比 融合语义信息的向量表示与随机初始化的向量表 示对中文评价对象提取的影响。由 3.1 节论述可 知,模型需要为部分字符根据其在评价对象词语 内的位置为其分配不同向量表示,因此从数据集 中选取了 300 个具备可拆分特征的字符,例如“泡 面”与“灯泡”、“差不多”与“不错”等,使用 CBOW 模型进行训练。实验结果如表 4 所示。 表 4 融合语义信息与随机表示提取效果对比 Table 4 Convergence semantics and random representation extraction 提取目标 嵌入层表示 准确率/% 召回率/% F1 /% 主题词 随机表示 76.64 69.37 72.82 字词拼接 76.51 72.71 74.56 融合语义信息 77.25 73.29 75.21 情感词 随机表示 85.13 84.94 85.04 字词拼接 87.61 86.5 87.05 融合语义信息 88.97 88.27 88.62 融合语义信息后的向量在识别评价对象时准 确率更高,效果更好。与通用的字符向量与词语 向量拼接相比,本文根据位置为字符分配向量的 训练方法更加科学,尤其是在中文领域。考虑策 略也明显区别于英文。此外,情感词的识别效果 要好于主题词:情感词的训练样本要比情感词丰 富,情感词的类型数相对于主题词的类型数要小 很多。直观来看,情感类型数量要远小于商品属 性数量,故在标注情感词时正确率也更高。但这 也导致优化后的提取与字词向量直接拼接的提取 效果相差不大,实验结果验证了这一点。并从联 合提取的角度验证了该结论。联合提取的实验结 果如表 5 所示。 表 5 融合语义信息与随机表示联合提取效果对比 Table 5 Convergence semantics and random representation 提取目标 嵌入层表示 准确率/% 召回率/% F1 /% 联合提取 随机表示 73.63 59.85 66.03 字词拼接 78.74 64.38 70.84 融合语义信息 78.12 66.15 71.64 实验 2 在 Bi-LSTM-CRF 网络的基础上,对 比融合语法信息的向量表示对评价对象提取的影 响。其中字符向量化方法为随机初始化,实验结 果如表 6 所示。 表 6 融合词性信息与随机表示提取对比 Table 6 Convergence of convergence vectors and randomized initialization vectors 提取目标 嵌入层表示 准确率/% 召回率/% F1 /% 主题词 随机表示 76.64 69.37 72.82 融合语法信息 74.31 75.51 74.90 情感词 随机表示 85.13 84.94 85.04 融合语法信息 85.46 86.30 85.88 从实验结果可以看出,通过词性标注,训练生 成的词性向量对于评价对象的提取准确率有一定 的影响,但效果并不显著,融合语法信息后,主题 词的提取准确率有所下降,情感词的准确率有所 提升,达到了 85.46%,两者 F1 值都得到了提高。 分析数据特点,由于数据来自真实电商评论,语 法结构薄弱,多数情况下句子成分不完整,导致 模型没有学习出句子词性序列的特征,语法信息 挖掘不够充分。当从训练数据中选择语法结构较 强的中文评论进行实验时,准确率明显提升。因 此,处理语法信息薄弱的中文句子时,可以通过 补全信息的手段对数据样本进行处理,再进行评 价对象提取的任务。 实验 3 以 CRF 与 Bi-LSTM 网络为基础,验 证 Bi-LSTM-CRF 网络的优势。由于数据集不同, 通过参考相关的提取模型进行仿真实验,并对模 型输入添加不同信息进行对比实验。 CRF 模型引入词语位置与规则信息,Bi-LSTM 模型[17] 引入语义与语法信息。并与融合语义与语法信息 的 Bi-LSTM-CRF 模型进行比较,论证 Bi-LSTM-CRF 网络的优势,实验结果如表 7 所示。 对比 CRF 与 Bi-LSTM-CRF 模型,后者的提取 效果更好,情感词提取准确率达到了 90.42%。 更重要的是,启发式规则需要人工干预,而语义 与语法信息无需人工干预即可训练完成。对比 Bi-LSTM 与本模型,融合信息相同但 CRF 层可以 ·176· 智 能 系 统 学 报 第 14 卷
第1期 周浩,等:融合语义与语法信息的中文评价对象提取 ·177· 克服标签偏差,有更好的提取结果。从引入特征 点考虑中文语义与语法特征,充分利用中文词语 角度分析,英文单词通过模型学习通常可以学习 组成字符的内部信息,完成提取任务。最终,主 到单词的前后缀信息,而中文不具备这一特点。 题词准确率达到77.51%,情感词准确率达到90.42%。 而优化语义策略充分考虑了词语含义,因而融人 通过提出的新标注策略完成了评价对象联合提 语义与语法信息后结果明显。但模型处理语法特 取,准确率达到77.16%。中文评价对象提取达到 征不够明显的中文句子时,语法信息的作用不够 了理想效果。 明显。 本模型优点明显:输入信息考虑了词语内部 表7不同模型下的实验结果 的相关性,较好地解决了中文边界不易判断的情 Table 7 Experimental results under different models 况:此外,新的标注策略可以直接显示标注结果 网络 引入特征提取目标准确率%召回率%F,% 的结构化信息。但特征选择多种多样。通过考虑 模型 中文句子中的其他特征,进一步丰富嵌入层的信 位置信息 主题词 78.10 61.70 69.00 息。此外结合中文评价对象提取任务的特点,在 CRF 规则信息 情感词 88.83 88.12 88.47 本文的基础上引入注意力机制也是笔者未来研究 Bi- 语义信息 主题词 76.64 69.37 72.82 的方向。 LSTM语法信息 情感词 87.61 86.5 87.05 参考文献: Bi- 语义信息 主题词 77.51 72.5 74.92 LSTM- [1]QIU Guang,LIU Bing,BU Jiajun,et al.Expanding do- 语法信息情感词 90.42 87.01 88.73 CRF main sentiment lexicon through double propagation[C]/ Proceedings of the 21st International Jont Conference on 实验4验证本文提出的Binary-BIO标注策 Artifical Intelligence.Pasadena,USA,2009:1199-1204. 略对评价对象联合提取的有效性。在提出的模型 [2]ZHAI Zhongwu,XU Hua,KANG Bada,et al.Exploiting 框架下,以BIO策略进行标注,顺序匹配得到联 effective features for Chinese sentiment classification[J]. 合提取结果。与Binary-BIO策略进行标注的结果 Expert systems with applications,2011,38(8):9139-9146 比较,先判断情感词是否存在匹配主题词,再进 [3]ZHANG Lei,LIU Bing,LIM S H,et al.Extracting and 行联合提取。实验4结果如表8所示。 ranking product features in opinion documents[C]//Pro- 表8联合提取效果 ceedings of the 23rd International Conference on Computa- Table 8 Emotional word recognition effect tional Linguistics:Posters.Beijing,China,2010: % 1462-1470. 标注方法 准确率 召回率 F [4]孟园,王洪伟.中文评论产品特征与观点抽取方法研究 BIO 72.81 63.63 67.91 [).现代图书情报技术,2016,32(2)16-24 Binary-BIO 77.16 67.20 71.84 MENG Yuan,WANG Hongwei.Extracting product fea- ture and user opinion from Chinese reviews[].Data ana- 通过改变标签结构的Binary-BlO标注方法可 lysis and knowledge discovery,2016.32(2):16-24. 以提高联合提取效果。该方法不但提高了准确 [5]廖样文,陈兴俊,魏晶晶,等.基于多层关系图模型的中 率,更重要的是为标注结果提供了结构化信息, 文评价对象与评价词抽取方法).自动化学报,2017, 而不需要额外的模型训练。此外,联合提取与单 43(3):462-471. 独提取相比,准确率有所下降。其主要原因是: LIAO Xiangwen,CHEN Xingjun,WEI Jingjing,et al.A 数据集中普遍存在仅有情感词而缺少主题词的情 multi-layer relation graph model for extracting opinion tar- 况,这导致匹配信息训练得不够充分,没有很好 gets and opinion words[J].Acta automatica sinica.2017. 地挖掘出存在匹配情况的评价对象的特点。 43(3):462-471 以上实验充分说明了,本文所考虑的中文语 [6]丁晟春,吴婧婵媛,李霄.基于CRFs和领域本体的中文 义与语法信息对提高评价对象提取的准确率有积 微博评价对象抽取研究U).中文信息学报,2016,30(4): 极意义,且新的标注策略对联合提取具有实际价值。 159-166. DING Shengchun,WU Jingchanyuan,LI Xiao.Opinion 4结束语 targets extraction from Chinese microblogs based on con- ditional random fields and domain ontology[J].Journal of 中文评价对象提取是情感分析任务的关键技 Chinese information processing,2016,30(4):159-166. 术。针对中文评论对象提取准确率低的现状,重 [7]PENG Nanyun,DREDZE M.Improving named entity re-
克服标签偏差,有更好的提取结果。从引入特征 角度分析,英文单词通过模型学习通常可以学习 到单词的前后缀信息,而中文不具备这一特点。 而优化语义策略充分考虑了词语含义,因而融入 语义与语法信息后结果明显。但模型处理语法特 征不够明显的中文句子时,语法信息的作用不够 明显。 表 7 不同模型下的实验结果 Table 7 Experimental results under different models 网络 模型 引入特征 提取目标 准确率/% 召回率/% F1 /% CRF 位置信息 主题词 78.10 61.70 69.00 规则信息 情感词 88.83 88.12 88.47 BiLSTM 语义信息 主题词 76.64 69.37 72.82 语法信息 情感词 87.61 86.5 87.05 BiLSTMCRF 语义信息 主题词 77.51 72.5 74.92 语法信息 情感词 90.42 87.01 88.73 实验 4 验证本文提出的 Binary-BIO 标注策 略对评价对象联合提取的有效性。在提出的模型 框架下,以 BIO 策略进行标注,顺序匹配得到联 合提取结果。与 Binary-BIO 策略进行标注的结果 比较,先判断情感词是否存在匹配主题词,再进 行联合提取。实验 4 结果如表 8 所示。 表 8 联合提取效果 Table 8 Emotional word recognition effect % 标注方法 准确率 召回率 F1 BIO 72.81 63.63 67.91 Binary-BIO 77.16 67.20 71.84 通过改变标签结构的 Binary-BIO 标注方法可 以提高联合提取效果。该方法不但提高了准确 率,更重要的是为标注结果提供了结构化信息, 而不需要额外的模型训练。此外,联合提取与单 独提取相比,准确率有所下降。其主要原因是: 数据集中普遍存在仅有情感词而缺少主题词的情 况,这导致匹配信息训练得不够充分,没有很好 地挖掘出存在匹配情况的评价对象的特点。 以上实验充分说明了,本文所考虑的中文语 义与语法信息对提高评价对象提取的准确率有积 极意义,且新的标注策略对联合提取具有实际价值。 4 结束语 中文评价对象提取是情感分析任务的关键技 术。针对中文评论对象提取准确率低的现状,重 点考虑中文语义与语法特征,充分利用中文词语 组成字符的内部信息,完成提取任务。最终,主 题词准确率达到 77.51%,情感词准确率达到 90.42%。 通过提出的新标注策略完成了评价对象联合提 取,准确率达到 77.16%。中文评价对象提取达到 了理想效果。 本模型优点明显:输入信息考虑了词语内部 的相关性,较好地解决了中文边界不易判断的情 况;此外,新的标注策略可以直接显示标注结果 的结构化信息。但特征选择多种多样。通过考虑 中文句子中的其他特征,进一步丰富嵌入层的信 息。此外结合中文评价对象提取任务的特点,在 本文的基础上引入注意力机制也是笔者未来研究 的方向。 参考文献: QIU Guang, LIU Bing, BU Jiajun, et al. Expanding domain sentiment lexicon through double propagation[C]// Proceedings of the 21st International Jont Conference on Artifical Intelligence. Pasadena, USA, 2009: 1199–1204. [1] ZHAI Zhongwu, XU Hua, KANG Bada, et al. Exploiting effective features for Chinese sentiment classification[J]. Expert systems with applications, 2011, 38(8): 9139–9146. [2] ZHANG Lei, LIU Bing, LIM S H, et al. Extracting and ranking product features in opinion documents[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Beijing, China, 2010: 1462–1470. [3] 孟园, 王洪伟. 中文评论产品特征与观点抽取方法研究 [J]. 现代图书情报技术, 2016, 32(2): 16–24. MENG Yuan, WANG Hongwei. Extracting product feature and user opinion from Chinese reviews[J]. Data analysis and knowledge discovery, 2016, 32(2): 16–24. [4] 廖祥文, 陈兴俊, 魏晶晶, 等. 基于多层关系图模型的中 文评价对象与评价词抽取方法[J]. 自动化学报, 2017, 43(3): 462–471. LIAO Xiangwen, CHEN Xingjun, WEI Jingjing, et al. A multi-layer relation graph model for extracting opinion targets and opinion words[J]. Acta automatica sinica, 2017, 43(3): 462–471. [5] 丁晟春, 吴婧婵媛, 李霄. 基于 CRFs 和领域本体的中文 微博评价对象抽取研究[J]. 中文信息学报, 2016, 30(4): 159–166. DING Shengchun, WU Jingchanyuan, LI Xiao. Opinion targets extraction from Chinese microblogs based on conditional random fields and domain ontology[J]. Journal of Chinese information processing, 2016, 30(4): 159–166. [6] [7] PENG Nanyun, DREDZE M. Improving named entity re- 第 1 期 周浩,等:融合语义与语法信息的中文评价对象提取 ·177·
·178· 智能系统学报 第14卷 cognition for Chinese social media with word segmenta- ceedings of COLING 2014,the 25th International Confer- tion representation learning[C]//Proceedings of the 54th ence on Computational Linguistics.Dublin,Ireland,2014: Annual Meeting of the Association for Computational Lin- 69-78. guistics.Berlin,Germany,2016:149-155. [15]ZHENG Xiaoqing,CHEN Hanyang,XU Tianyu.Deep [8]MA Xuezhe,HOVY E.End-to-end sequence labeling via learning for Chinese word segmentation and POS bi-directional LSTM-CNNs-CRF[C]//Proceedings of the tagging[C]//Proceedings of 2013 Conference on Empiric- 54th Annual Meeting of the Association for Computation- al Methods in Natural Language Processing.Seattle, al Linguistics.Berlin,Germany,2016:1064-1074. USA2013:647-657. [9]PHAM T H,LE-HONG P.End-to-end recurrent neural [16]SPITKOVSKY VI.ALSHAWI H,JURAFSKY D,et al. network models for Vietnamese named entity recognition: Viterbi training improves unsupervised dependency pars- word-level vs.Character-level[C]//Proceedings of the 15th ing[C]//Proceedings of the 14th Conference on Computa- International Conference of the Pacific Association for tional Natural Language Learning.Uppsala,Sweden Computational Linguistics.Yangon,Myanmar,2017: 2010:9-17 219-232. [17]YADAV V,BETHARD S.A survey on recent advances [10]JEBBARA S,CIMIANO P.Improving opinion-target ex- in named entity recognition from deep learning models traction with character-level word embeddings[C]//Pro- [C]//Proceedings of the 27th International Conference on ceedings of the Ist Workshop on Subword and Character Computational Linguistics.Santa Fe,USA,2018:2145- Level Models in NLP.Copenhagen,Denmark,2017: 2158. 159-167 [11]HAMMERTON J.Named entity recognition with long 作者简介: short-term memory[C]//Proceedings of the 7th Confer- 周浩.男,1993年生,硕士研究 ence on Natural Language Learning at HLT-NAACL 生,主要研究方向为自然语言处理、数 2003.Edmonton,Canada,2003:172-175. 据挖掘、情感分析。 [12]CHEN Xinxiong,XU Lei,LIU Zhiyuan,et al.Joint learn- ing of character and word embeddings[Cl//Proceedings of the 24th International Conference on Artificial Intelli- gence.Buenos Aires,Argentina,2015:1236-1242 [13]YU Mo,DREDZE M.Improving lexical embeddings with 王莉,女,1971年生,教授,博士 生导师,主要研究方向为社会网络计 semantic knowledge[C//Proceedings of the 52nd Annual 算、大数据分析与计算、深度学习。 Meeting of the Association for Computational Linguistics. Baltimore,USA,2014:545-550. [14]DOS SANTOS C N,GATTI M.Deep convolutional neur- al networks for sentiment analysis of short texts[C]//Pro-
cognition for Chinese social media with word segmentation representation learning[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany, 2016: 149–155. MA Xuezhe, HOVY E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany, 2016: 1064–1074. [8] PHAM T H, LE-HONG P. End-to-end recurrent neural network models for Vietnamese named entity recognition: word-level vs. Character-level[C]//Proceedings of the 15th International Conference of the Pacific Association for Computational Linguistics. Yangon, Myanmar, 2017: 219–232. [9] JEBBARA S, CIMIANO P. Improving opinion-target extraction with character-level word embeddings[C]//Proceedings of the 1st Workshop on Subword and Character Level Models in NLP. Copenhagen, Denmark, 2017: 159–167. [10] HAMMERTON J. Named entity recognition with long short-term memory[C]//Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL 2003. Edmonton, Canada, 2003: 172–175. [11] CHEN Xinxiong, XU Lei, LIU Zhiyuan, et al. Joint learning of character and word embeddings[C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina, 2015: 1236–1242. [12] YU Mo, DREDZE M. Improving lexical embeddings with semantic knowledge[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, USA, 2014: 545–550. [13] DOS SANTOS C N, GATTI M. Deep convolutional neural networks for sentiment analysis of short texts[C]//Pro- [14] ceedings of COLING 2014, the 25th International Conference on Computational Linguistics. Dublin, Ireland, 2014: 69–78. ZHENG Xiaoqing, CHEN Hanyang, XU Tianyu. Deep learning for Chinese word segmentation and POS tagging[C]//Proceedings of 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, USA, 2013: 647–657. [15] SPITKOVSKY V I, ALSHAWI H, JURAFSKY D, et al. Viterbi training improves unsupervised dependency parsing[C]//Proceedings of the 14th Conference on Computational Natural Language Learning. Uppsala, Sweden, 2010: 9–17. [16] YADAV V, BETHARD S. A survey on recent advances in named entity recognition from deep learning models [C]//Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, USA, 2018: 2145– 2158. [17] 作者简介: 周浩,男,1993 年生,硕士研究 生,主要研究方向为自然语言处理、数 据挖掘、情感分析。 王莉,女,1971 年生,教授,博士 生导师,主要研究方向为社会网络计 算、大数据分析与计算、深度学习。 ·178· 智 能 系 统 学 报 第 14 卷