工程科学学报,第41卷,第9期:1201-1207,2019年9月 Chinese Journal of Engineering,Vol.41,No.9:1201-1207,September 2019 DOI:10.13374/j.issn2095-9389.2019.09.012;http://journals.ustb.edu.cn 基于BiLSTM的公共安全事件触发词识别 易士翔),尹宏鹏)区,郑恒毅) 1)重庆大学自动化学院,重庆4000442)重庆大学机械工程学院,重庆400044 区通信作者,E-mail:yinhong即eng@gmail.com 摘要提出基于双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)和前向神经网络的融合模型完成公共安 全事件的触发词识别任务.首先通过BiLSTM提取整段文本的高层语义特征,避免了以往机器学习方法需要人工提取特征的 问题,其次采用特征拼接并在前向神经网络中识别并分类事件触发词.实验结果表明相较于基准模型,本文方法在中文突发 事件语料库(Chinese emergency corpus,CEC)上取得了更为突出的性能,Micro-F1值为78.47%.此外本文讨论了不同拼接特 征在触发词识别任务中的重要性,对文本分析中3类特征(词性、句法、实体)的重要程度进行了比较和分析,得出句法特征对 于事件触发词识别任务助益最大的结论 关键词触发词:双向长短期记忆网络;前向神经网络:公共安全事件:拼接特征 分类号TP391.1 Public security event trigger identification based on Bidirectional LSTM YI Shi-xiang),YIN Hong-peng,ZHENG Heng-yi) 1)School of Automation,Chongqing University,Chongqing 400044.China 2)School of Mechanical Engineering,Chongqing University,Chongqing 400044,China Corresponding author,E-mail:yinhongpeng@gmail.com ABSTRACT As the internet coverage continues to expand,obtaining valuable information from a large amount of fragmented semi- structured text data has become a huge challenge considering the vast amount of social public information.Event trigger identification technology can effectively mine and refine text information so that the users can quickly and accurately get what they need;thus,it has gradually become an active research area in the field of natural language processing.An event trigger word is generally a word or phrase that marks the occurrence of the event,then trigger word identification has been applied to many aspects and plays an important role in the fields of knowledge base construction,intelligent search engine,automatic question answering robot,and automatic summarization. However,the text data are characterized by high dimensionality and ambiguity.The existing identification methods are mostly based on manual complex feature engineering or only consider the features in a certain text window.In this process,manual analysis and selec- tion of a large number of features are required.Considerable reliance on natural language processing tools leads to the inability of apply- ing the model on a large scale,and there are problems of erroneous cascade communication and complicated feature engineering.This paper proposed a fusion model based on the bidirectional long short-term memory (BiLSTM)and feed-forward neural networks to com- plete the trigger identification task for public security events.First,the high-level features of the entire text were extracted through Bil- STM to avoid manual feature extraction,which was associated with the existing machine learning methods.Then,contacted features were used to input feed-forward neural networks and identify event triggers.The experimental results show that the proposed method achieves good performance in the Chinese emergency corpus,CEC,and the Micro-FI is 78.47%.In addition,the importance of dif- ferent contacted features was also discussed in trigger word recognition tasks,and the importance of three types of features,namely part 收稿日期:2019-01-05 基金项目:国家自然科学基金资助项目(61773080):重庆市基础科学与研究技术资助项目(tc2015jcyB0569);中央高校基本业务费资助项 (equ2018CDHB1B04,2019CDYGZD001)
工程科学学报,第 41 卷,第 9 期:1201鄄鄄1207,2019 年 9 月 Chinese Journal of Engineering, Vol. 41, No. 9: 1201鄄鄄1207, September 2019 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2019. 09. 012; http: / / journals. ustb. edu. cn 基于 BiLSTM 的公共安全事件触发词识别 易士翔1) , 尹宏鹏1) 苣 , 郑恒毅2) 1) 重庆大学自动化学院, 重庆 400044 2) 重庆大学机械工程学院, 重庆 400044 苣通信作者, E鄄mail: yinhongpeng@ gmail. com 摘 要 提出基于双向长短期记忆网络(bidirectional long short鄄term memory,BiLSTM)和前向神经网络的融合模型完成公共安 全事件的触发词识别任务. 首先通过 BiLSTM 提取整段文本的高层语义特征,避免了以往机器学习方法需要人工提取特征的 问题,其次采用特征拼接并在前向神经网络中识别并分类事件触发词. 实验结果表明相较于基准模型,本文方法在中文突发 事件语料库(Chinese emergency corpus,CEC)上取得了更为突出的性能,Micro鄄鄄F1 值为 78郾 47% . 此外本文讨论了不同拼接特 征在触发词识别任务中的重要性,对文本分析中 3 类特征(词性、句法、实体)的重要程度进行了比较和分析,得出句法特征对 于事件触发词识别任务助益最大的结论. 关键词 触发词; 双向长短期记忆网络; 前向神经网络; 公共安全事件; 拼接特征 分类号 TP391郾 1 收稿日期: 2019鄄鄄01鄄鄄05 基金项目: 国家自然科学基金资助项目(61773080);重庆市基础科学与研究技术资助项目( cstc2015jcyjB0569); 中央高校基本业务费资助项 目(cqu2018CDHB1B04, 2019CDYGZD001) Public security event trigger identification based on Bidirectional LSTM YI Shi鄄xiang 1) , YIN Hong鄄peng 1) 苣 , ZHENG Heng鄄yi 2) 1) School of Automation, Chongqing University, Chongqing 400044, China 2) School of Mechanical Engineering, Chongqing University, Chongqing 400044, China 苣Corresponding author, E鄄mail: yinhongpeng@ gmail. com ABSTRACT As the internet coverage continues to expand, obtaining valuable information from a large amount of fragmented semi鄄 structured text data has become a huge challenge considering the vast amount of social public information. Event trigger identification technology can effectively mine and refine text information so that the users can quickly and accurately get what they need; thus, it has gradually become an active research area in the field of natural language processing. An event trigger word is generally a word or phrase that marks the occurrence of the event, then trigger word identification has been applied to many aspects and plays an important role in the fields of knowledge base construction, intelligent search engine, automatic question answering robot, and automatic summarization. However, the text data are characterized by high dimensionality and ambiguity. The existing identification methods are mostly based on manual complex feature engineering or only consider the features in a certain text window. In this process, manual analysis and selec鄄 tion of a large number of features are required. Considerable reliance on natural language processing tools leads to the inability of apply鄄 ing the model on a large scale, and there are problems of erroneous cascade communication and complicated feature engineering. This paper proposed a fusion model based on the bidirectional long short鄄term memory (BiLSTM) and feed鄄forward neural networks to com鄄 plete the trigger identification task for public security events. First, the high鄄level features of the entire text were extracted through BiL鄄 STM to avoid manual feature extraction, which was associated with the existing machine learning methods. Then, contacted features were used to input feed鄄forward neural networks and identify event triggers. The experimental results show that the proposed method achieves good performance in the Chinese emergency corpus, CEC, and the Micro鄄鄄F1 is 78郾 47% . In addition, the importance of dif鄄 ferent contacted features was also discussed in trigger word recognition tasks, and the importance of three types of features, namely part
·1202· 工程科学学报,第41卷,第9期 of speech,syntax,and entity,in text analysis was analyzed.It is concluded that syntactic features are most helpful to the task of event- trigger word recognition. KEY WORDS trigger words;bidirectional long short-term memory;forward neural network;security event;contacted features 随着信息科技的快速发展,我国的互联网规模 触发词识别任务的开始阶段用于构建种子触发词词 迅速增长,互联网成为获取社会公共资讯的最快途 典,方便后续模型对其进行拓展和修正.随着机器 径,面对迅猛增长的互联网信息,快速发现并准确 学习方法的发展,大量基于传统机器学习模型的事 定位公众关注和讨论的事件变得至关重要.因此众 件触发词识别方法被提出.主要通过大量特征工程 多学者开始探索将信息化手段应用于公共安全事件 进行特征表示、特征选择,再采用支持向量机或者条 的发现和抽取研究,探索依靠高度发展的信息科技 件随机场等模型进行触发词分类.这类方法大大节 提升社会公共安全管理与决策水平.而公共安全事 省了人力成本,但是传统机器学习方法极其依赖特 件发现及抽取的第一步就是触发词识别,这里的触 征工程中提取的特征,通常这类特征无法泛化到其 发词的类型也就是整段文本所描述事件的类型,在 他领域,以至于在模型迁移的时候导致“偏见”,性 后续正文中,没有特别说明,触发词识别任务将包含 能出现大幅度下降.同时由于机器学习的方法极其 触发词分类这一子任务.Bjorne)的研究显示事件 依赖自然语言处理工具的实现及其效果,这些工具 抽取中出现的错误有超过60%来源于触发词识别 引入的误差很容易影响事件触发词识别的性能 阶段.如果触发词识别出现偏差,后续的工作也就 近年来,深度网络模型的火热发展,给事件触发 不再有可行性和有效性.所以,高质量地完成触发 词识别任务带来了新的研究思路,深度学习的重要 词识别任务是后续进行公共安全事件抽取的保证. 特点就是能够通过多层的网络结构自动获取数据的 特征表达,且该特征表达能够具有泛化性,能够适应 1研究现状 于不同的任务.文本表示学习就能够很好地解决文 国内外学者针对事件触发词的识别问题展开研 本特征表达方面的问题.文本表示学习通过学习自 究并取得了一定的成果,国内方面,轩小星等]在 然语言的数学描述来表示语言,以此抽象出文本中 种子触发词的基础上,通过支持向量机(support vec- 本质信息(语义、句法等)的可计算表示,能够衡量 tor machine,SVM)不断扩展触发词表.何馨宇与李 文本间的关联信息.Bengio等[1s]通过神经网络模 丽双[3]则使用两个长短期记忆(long short--tem 型进行上下文预测,得到的词嵌入表示在其他自然 memory,LSTM)模型分别进行触发词识别与分类,有 语言处理任务中取得了出乎意料的效果.Peters意 效缓解了事件语料库中存在的数据不平衡问题.国 识到神经网络的结构层次中较低层能够学习词性等 外方面,Pyysalo等通过数据处理得到大量的手工 信息,较高层则对语义有较好的编码效果,基于这一 特征并在支持向量机上完成了触发词识别任务. 特性,Peters等a构建了ELMo(embeddings from Zou等)则是利用词嵌入表示在支持向量机上取 language models)模型,在文本分类、语义角色标注 得了更好的结果.Wei等[]提出了流水线式识别方 等任务中都有可观的效果.目前将文本表示应用于 法,通过条件随机场(conditional random field,CRF) 高层任务有两种具体的策略,基于特征的策略与微 标记有效的触发词,然后基于支持向量机对触发词 调(fne-tuning)策略,基于特征的策略将文本表示作 类型进行判断 为额外的模型特征,另一种选择,则是借助迁移学习 根据以往研究成果的总结,事件触发词的识别 的思路,在预训练文本表示上基于自行构建的小型 方法可以被概括为3类:基于统计的方法[-8】、基于 领域语料库进行微调预训练参数,通常可以达到更 传统机器学习9-1o]的方法以及基于深度学习-2】 好的效果 的方法.基于统计的方法指人工统计并建立较完整 同时汉语本身具有结构多变、表达含义丰富等 的触发词词典,同时定义一些规则去寻找触发词,该 特点.例如,“恐怖分子挟持飞机撞向位于弗吉尼亚 类方法简单且效果较好,但是其人工标注代价非常 州阿灵顿县的五角大楼”,“摩托车和物流车同时撞 高,并且要求语料具有普遍性且足够丰富,但是由于 向护栏,致半挂车报废”,以上两个句子中均包含事 语言的发展以及技术的限制,也无法完全通过定义 件触发词“撞向”,但是这两句描述分属于不同的触 规则进行筛选,因此实际上不可能获得一个较为完 发词类型(恐怖袭击和交通事故).因此在进行事件 备的触发词词典.一般地,基于统计的方法被用在 触发词识别时不能只单独考虑句子本身,还应该利
工程科学学报,第 41 卷,第 9 期 of speech, syntax, and entity, in text analysis was analyzed. It is concluded that syntactic features are most helpful to the task of event鄄 trigger word recognition. KEY WORDS trigger words; bidirectional long short鄄term memory; forward neural network; security event; contacted features 随着信息科技的快速发展,我国的互联网规模 迅速增长, 互联网成为获取社会公共资讯的最快途 径, 面对迅猛增长的互联网信息, 快速发现并准确 定位公众关注和讨论的事件变得至关重要. 因此众 多学者开始探索将信息化手段应用于公共安全事件 的发现和抽取研究,探索依靠高度发展的信息科技 提升社会公共安全管理与决策水平. 而公共安全事 件发现及抽取的第一步就是触发词识别,这里的触 发词的类型也就是整段文本所描述事件的类型,在 后续正文中,没有特别说明,触发词识别任务将包含 触发词分类这一子任务. Bj觟rne [1] 的研究显示事件 抽取中出现的错误有超过 60% 来源于触发词识别 阶段. 如果触发词识别出现偏差,后续的工作也就 不再有可行性和有效性. 所以,高质量地完成触发 词识别任务是后续进行公共安全事件抽取的保证. 1 研究现状 国内外学者针对事件触发词的识别问题展开研 究并取得了一定的成果,国内方面,轩小星等[2] 在 种子触发词的基础上,通过支持向量机(support vec鄄 tor machine,SVM)不断扩展触发词表. 何馨宇与李 丽双[3] 则 使 用 两 个 长 短 期 记 忆 ( long short鄄term memory,LSTM)模型分别进行触发词识别与分类,有 效缓解了事件语料库中存在的数据不平衡问题. 国 外方面,Pyysalo 等[4]通过数据处理得到大量的手工 特征并在支持向量机上完成了触发词识别任务. Zhou 等[5]则是利用词嵌入表示在支持向量机上取 得了更好的结果. Wei 等[6]提出了流水线式识别方 法,通过条件随机场( conditional random field,CRF) 标记有效的触发词,然后基于支持向量机对触发词 类型进行判断. 根据以往研究成果的总结,事件触发词的识别 方法可以被概括为 3 类:基于统计的方法[7鄄鄄8] 、基于 传统机器学习[9鄄鄄10] 的方法以及基于深度学习[11鄄鄄12] 的方法. 基于统计的方法指人工统计并建立较完整 的触发词词典,同时定义一些规则去寻找触发词,该 类方法简单且效果较好,但是其人工标注代价非常 高,并且要求语料具有普遍性且足够丰富,但是由于 语言的发展以及技术的限制,也无法完全通过定义 规则进行筛选,因此实际上不可能获得一个较为完 备的触发词词典. 一般地,基于统计的方法被用在 触发词识别任务的开始阶段用于构建种子触发词词 典,方便后续模型对其进行拓展和修正. 随着机器 学习方法的发展,大量基于传统机器学习模型的事 件触发词识别方法被提出. 主要通过大量特征工程 进行特征表示、特征选择,再采用支持向量机或者条 件随机场等模型进行触发词分类. 这类方法大大节 省了人力成本,但是传统机器学习方法极其依赖特 征工程中提取的特征,通常这类特征无法泛化到其 他领域,以至于在模型迁移的时候导致“偏见冶,性 能出现大幅度下降. 同时由于机器学习的方法极其 依赖自然语言处理工具的实现及其效果,这些工具 引入的误差很容易影响事件触发词识别的性能. 近年来,深度网络模型的火热发展,给事件触发 词识别任务带来了新的研究思路,深度学习的重要 特点就是能够通过多层的网络结构自动获取数据的 特征表达,且该特征表达能够具有泛化性,能够适应 于不同的任务. 文本表示学习就能够很好地解决文 本特征表达方面的问题. 文本表示学习通过学习自 然语言的数学描述来表示语言,以此抽象出文本中 本质信息(语义、句法等)的可计算表示,能够衡量 文本间的关联信息. Bengio 等[13] 通过神经网络模 型进行上下文预测,得到的词嵌入表示在其他自然 语言处理任务中取得了出乎意料的效果. Peters 意 识到神经网络的结构层次中较低层能够学习词性等 信息,较高层则对语义有较好的编码效果,基于这一 特性, Peters 等[14] 构建了 ELMo ( embeddings from language models)模型,在文本分类、语义角色标注 等任务中都有可观的效果. 目前将文本表示应用于 高层任务有两种具体的策略,基于特征的策略与微 调(fine鄄tuning)策略,基于特征的策略将文本表示作 为额外的模型特征,另一种选择,则是借助迁移学习 的思路,在预训练文本表示上基于自行构建的小型 领域语料库进行微调预训练参数,通常可以达到更 好的效果. 同时汉语本身具有结构多变、表达含义丰富等 特点. 例如,“恐怖分子挟持飞机撞向位于弗吉尼亚 州阿灵顿县的五角大楼冶,“摩托车和物流车同时撞 向护栏,致半挂车报废冶,以上两个句子中均包含事 件触发词“撞向冶,但是这两句描述分属于不同的触 发词类型(恐怖袭击和交通事故). 因此在进行事件 触发词识别时不能只单独考虑句子本身,还应该利 ·1202·
易士翔等:基于BiLSTM的公共安全事件触发词识别 ·1203· 用句法依存关系、实体类型和词性等特征信息辅助 分完成词嵌入向量与其余词特征的拼接,高层语义 触发词识别任务.因此为了弥补传统事件触发词识 表示获取部分由BiLSTM网络模型完成,最后组合 别方法的不足,本研究工作提出了基于双向长短时 词的嵌入特征与文本的语义特征,利用前向神经网 (bidirectional long short-term memory,BiLSTM) 络模型完成最后的触发词分类任务.随后本文将简 和前向神经网络的融合模型,采用词预训练嵌入向 述模型的各个部分 量与其余特征进行拼接作为输入,能够同时基于词 2.1输入层 特征与句子全局特征进行触发词识别,因而可以有 作为模型第k时刻的输入,文本序列T中的词 效避免耗时耗力的特征工程,其中BiLSTM能够有 t4∈T,使用它的两个特征进行拼接,E.∈Rxd表 效地获取文本上下文的语义信息,是本模型能够取 示词的预训练嵌人表示,E。∈R。*表示词的其他特 得较好效果的关键. 征(实体类型、词性类型以及句法类型),n.,n。分别 表示词表的长度与其他特征类型的数量,d.,d。分 2模型及算法描述 别表示词嵌入表示向量的维度与特征嵌入表示的维 本研究提出的基于BiLSTM的事件触发词识别 度.通过两张词-特征嵌入向量查找表,文本中的每 方法如图1所示.主要可以分为3个部分:输入部 个词都被映射至一个稠密的向量表示. softmax(-) 前向神经网络 + 触发词分类 预测触发词类型 BiLSTM神经元 高层语义获取 词嵌入向量 E. 输入特征拼接 其余特征 嵌入向量 E 图1系统框架 Fig.1 System framework 2.2 BiLSTM模型 段将依赖上一个时间步的信息以及本时间步的状态 由于实际需求中处理的文本长度可能过长,常 信息决定当前状态的输出. 用的循环神经网络(recurrent neural network,RNN) 无法解决长程依赖的问题,其表现为多时间步后梯 tanh(·) 度传播消失或者爆炸.本模型选择BiLSTM网络模 C h 型,其中基本的LSTM网络中的隐藏神经元由多个 记忆块组成,而记忆块的激活状态由输入门、遗忘门 与输出门三个乘法门控制,利用门控制技术,因此能 实现选择性地让信息通过,从而有效缓解循环神经 h 网络中严重的梯度消失及爆炸问题. 图2LSTM神经元结构图 如图2所示,LSTM主要有三个阶段:信息遗忘 Fig.2 Structural diagram of LSTM neurons 阶段,在这个阶段中根据输入信息以及上一个时间 其中各乘法门的表达式如下, 步的隐藏层状态选择性地忘记上一个时间步的信 输入门表达式: 息:信息记忆阶段,这个阶段中将依据输入信息对该 Z:sigmoid(W:.[V;h]+b) (1) 时间步的输入进行选择性地记忆:输出阶段,这个阶
易士翔等: 基于 BiLSTM 的公共安全事件触发词识别 用句法依存关系、实体类型和词性等特征信息辅助 触发词识别任务. 因此为了弥补传统事件触发词识 别方法的不足,本研究工作提出了基于双向长短时 记忆(bidirectional long short鄄term memory, BiLSTM) 和前向神经网络的融合模型,采用词预训练嵌入向 量与其余特征进行拼接作为输入,能够同时基于词 特征与句子全局特征进行触发词识别,因而可以有 效避免耗时耗力的特征工程,其中 BiLSTM 能够有 效地获取文本上下文的语义信息,是本模型能够取 得较好效果的关键. 2 模型及算法描述 本研究提出的基于 BiLSTM 的事件触发词识别 方法如图 1 所示. 主要可以分为 3 个部分:输入部 分完成词嵌入向量与其余词特征的拼接,高层语义 表示获取部分由 BiLSTM 网络模型完成,最后组合 词的嵌入特征与文本的语义特征,利用前向神经网 络模型完成最后的触发词分类任务. 随后本文将简 述模型的各个部分. 2郾 1 输入层 作为模型第 k 时刻的输入,文本序列 T 中的词 t k沂T,使用它的两个特征进行拼接,Ew 沂R nw 伊 dw表 示词的预训练嵌入表示,Eo沂R no 伊 do表示词的其他特 征(实体类型、词性类型以及句法类型),nw ,no 分别 表示词表的长度与其他特征类型的数量,dw ,do 分 别表示词嵌入表示向量的维度与特征嵌入表示的维 度. 通过两张词鄄鄄特征嵌入向量查找表,文本中的每 个词都被映射至一个稠密的向量表示. 图 1 系统框架 Fig. 1 System framework 2郾 2 BiLSTM 模型 由于实际需求中处理的文本长度可能过长,常 用的循环神经网络( recurrent neural network,RNN) 无法解决长程依赖的问题,其表现为多时间步后梯 度传播消失或者爆炸. 本模型选择 BiLSTM 网络模 型,其中基本的 LSTM 网络中的隐藏神经元由多个 记忆块组成,而记忆块的激活状态由输入门、遗忘门 与输出门三个乘法门控制,利用门控制技术,因此能 实现选择性地让信息通过,从而有效缓解循环神经 网络中严重的梯度消失及爆炸问题. 如图 2 所示,LSTM 主要有三个阶段:信息遗忘 阶段,在这个阶段中根据输入信息以及上一个时间 步的隐藏层状态选择性地忘记上一个时间步的信 息;信息记忆阶段,这个阶段中将依据输入信息对该 时间步的输入进行选择性地记忆;输出阶段,这个阶 段将依赖上一个时间步的信息以及本时间步的状态 信息决定当前状态的输出. 图 2 LSTM 神经元结构图 Fig. 2 Structural diagram of LSTM neurons 其中各乘法门的表达式如下, 输入门表达式: Zi = sigmoid(Wi·[Vk;hk - 1 ] + bi) (1) ·1203·
.1204. 工程科学学报,第41卷,第9期 Z.=tanh (W..[V;hg-1]+b) (2) 加强的情况下,模型的复杂度没有大幅增加.在图1 遗忘门表达式: 的前向神经网络输入部分,BiLSTM中的隐层状态作 Z=sigmoid(W:[V;h]+b) (3) 为整段文本的语义特征,词及词其余特征的嵌入表 更新门表达式: 示作为词的特征,将这两部分特征拼接起来作为前 Ck=Z:*Ck-1+Z*Z。 (4) 向神经网络模型的输入,同时考虑到集成学习能够 Z=sigmoid(W[V;h]+b) (5) 有效地提升模型的分类准确率,使用dropout层以达 y=Z tanh (C) (6) 到集成学习的效果,并在输入层使用Softmax函数 式中:V=[E;E。]代表第k时刻输入词的嵌入表 对触发词进行分类.其中前向神经网络的各层表达 示;Z,Z,Z。,Z分别代表遗忘门单元,输入门单 式如下, 元,当前输入时间步以及输出门单元的状态;C4-1, f=g①V (7) C4分别代表k-1时刻和k时刻的状态信息;h:-1, h;=tanh (f+b) (8) :分别代表k-1时刻的隐层状态表示和k时刻的 p(ylf)=Softmax(H;+cam) (9) 隐层状态表示;W,W,W。,W分别代表遗忘门单 其中,g:和V通过矩阵加法集成这两部分的信息 元的权重矩阵、输人门单元的权重矩阵、当前输人单 得到前向神经网络的输入∫,H,b:分别表示各隐含 元状态权重矩阵和输出门单元的权重矩阵;b,b:, 层的参数,在本文模型中共有两层隐含层,因此i= b.,b分别代表遗忘门单元的偏置项、输人门单元 1,2.Hm,cm则表示输出层的参数,y表示具体的触 的偏置项、当前输入单元的偏置项和输出门的偏置 发词类型,P(yf)则表示前向神经网络对于当前输 项,y:则表示第k时刻的网络输出 入分类判断的概率分布情况 BiLSTM模型则是由前向LSTM与后向LSTM 2.4基于BiLSTM的触发词识别模型 组合而成,如图3所示,其中L:,:表示不同的LSTM 如图1所示,本文的触发词识别模型由双向长 神经元,相当于正序输入文本与反向输人词嵌人表 短期记忆网络和前向神经网络融合组成.针对本研 示,81,82,83,g4则表示网络输出的状态序列,与基 究工作中网络模型的基本设置而言,BiLSTM的层数 本的LSTM网络只利用了当前词之前的信息不同, 为2,前向神经网络部分包含两层隐藏层并选择交 BiLSTM通过前向与后向过程建模输入文本的上下 叉嫡作为模型的损失函数,此外dropout的概率设为 文信息,能够得到更具有全局性的文本语义嵌入 0.3.为了获得更优的模型超参数以完整体现模型 表示. 的优越性,通过将语料库划分为训练集、开发集以及 验证集,划分比例为7:2:1,使用训练集和开发集进 行模型的超参数选择,其中前向神经网络中隐藏层 的神经元数量候选集为{110,120,130,140,150}, BilsTm BiLSTM网络中神经元数量候选集为{170,180,190, 编码器 200,210}.基于训练误差和测试误差的变化趋势对 比确定了最终的模型超参数,其中前向神经网络有 两层隐藏层且隐藏层的神经元数量分别为130、 词嵌入 110,同时BiLSTM的隐藏层中神经元数目为200. 表示 Watney 针对公共安全事件的触发词识别问题,考虑到高昂 图3 BiLSTM模型结构图 的计算代价和相关语料库的匮乏,本文选择使用预 Fig.3 Structural diagram of BiLSTM 训练模型并整合进自己的任务模型中.根据来斯惟 2.3前向神经网络模型 的分析6],对于利用词向量语义信息的任务,有着 在最后的事件触发词分类部分,集成学习方法 致的结论:维度越大,效果越好.结合其对任务性 通常能够有效地提升模型的分类准确率,但是同时 能随词向量维度变化的研究,本文使用Google开源 考虑到集成学习的计算代价过于高昂,本模型中选 的Bert预训练模型[]作为词的嵌入表示进行微调, 择了带dropout的前向神经网络,dropout层表现为 其中词嵌入的维度为300,词的其余嵌入特征为50 随机选择神经网络的连接,这一特性能够部分模拟 维,该预训练模型基于带有自注意力机制的Trans- 集成学习的机理s).因此由带dropout的前向神经 former编码器多层堆叠构成,能够在低层较好地学 网络对事件触发词进行分类,在保证分类效果得到 习语法特征表示,在高层学习语义特征表示
工程科学学报,第 41 卷,第 9 期 Zc = tanh (Wc·[Vk;hk - 1 ] + bc) (2) 遗忘门表达式: Zf = sigmoid(Wf·[Vk;hk - 1 ] + bf) (3) 更新门表达式: Ck = Zf*Ck - 1 + Zi*Zc (4) Zou = sigmoid(Wou·[Vk;hk - 1 ] + bou ) (5) yk = Zou*tanh (Ck) (6) 式中:Vk = [Ew ;Eo]代表第 k 时刻输入词的嵌入表 示;Zf,Zi,Zc,Zou 分别代表遗忘门单元,输入门单 元,当前输入时间步以及输出门单元的状态;Ck - 1 , Ck 分别代表 k - 1 时刻和 k 时刻的状态信息;hk - 1 , hk 分别代表 k - 1 时刻的隐层状态表示和 k 时刻的 隐层状态表示;Wf,Wi,Wc,Wou分别代表遗忘门单 元的权重矩阵、输入门单元的权重矩阵、当前输入单 元状态权重矩阵和输出门单元的权重矩阵;bf,bi, bc,bou分别代表遗忘门单元的偏置项、输入门单元 的偏置项、当前输入单元的偏置项和输出门的偏置 项,yk 则表示第 k 时刻的网络输出. BiLSTM 模型则是由前向 LSTM 与后向 LSTM 组合而成,如图 3 所示,其中 l i,ri 表示不同的 LSTM 神经元,相当于正序输入文本与反向输入词嵌入表 示,g1 ,g2 ,g3 ,g4 则表示网络输出的状态序列,与基 本的 LSTM 网络只利用了当前词之前的信息不同, BiLSTM 通过前向与后向过程建模输入文本的上下 文信息,能够得到更具有全局性的文本语义嵌入 表示. 图 3 BiLSTM 模型结构图 Fig. 3 Structural diagram of BiLSTM 2郾 3 前向神经网络模型 在最后的事件触发词分类部分,集成学习方法 通常能够有效地提升模型的分类准确率,但是同时 考虑到集成学习的计算代价过于高昂,本模型中选 择了带 dropout 的前向神经网络,dropout 层表现为 随机选择神经网络的连接,这一特性能够部分模拟 集成学习的机理[15] . 因此由带 dropout 的前向神经 网络对事件触发词进行分类,在保证分类效果得到 加强的情况下,模型的复杂度没有大幅增加. 在图 1 的前向神经网络输入部分,BiLSTM 中的隐层状态作 为整段文本的语义特征,词及词其余特征的嵌入表 示作为词的特征,将这两部分特征拼接起来作为前 向神经网络模型的输入,同时考虑到集成学习能够 有效地提升模型的分类准确率,使用 dropout 层以达 到集成学习的效果,并在输入层使用 Softmax 函数 对触发词进行分类. 其中前向神经网络的各层表达 式如下, f = gk茌Vk (7) hi = tanh (Hi f + bi) (8) p(y |f) = Softmax(Houhi + cou ) (9) 其中,gk 和 Vk 通过矩阵加法集成这两部分的信息 得到前向神经网络的输入 f,Hi,bi 分别表示各隐含 层的参数,在本文模型中共有两层隐含层,因此 i = 1,2. Hou ,cou则表示输出层的参数,y 表示具体的触 发词类型,p(y | f)则表示前向神经网络对于当前输 入分类判断的概率分布情况. 2郾 4 基于 BiLSTM 的触发词识别模型 如图 1 所示,本文的触发词识别模型由双向长 短期记忆网络和前向神经网络融合组成. 针对本研 究工作中网络模型的基本设置而言,BiLSTM 的层数 为 2,前向神经网络部分包含两层隐藏层并选择交 叉熵作为模型的损失函数,此外 dropout 的概率设为 0郾 3. 为了获得更优的模型超参数以完整体现模型 的优越性,通过将语料库划分为训练集、开发集以及 验证集,划分比例为 7颐 2颐 1,使用训练集和开发集进 行模型的超参数选择,其中前向神经网络中隐藏层 的神经元数量候选集为{110,120,130,140,150}, BiLSTM 网络中神经元数量候选集为{170,180,190, 200,210}. 基于训练误差和测试误差的变化趋势对 比确定了最终的模型超参数,其中前向神经网络有 两层隐藏层且隐藏层的神经元数量分别为 130、 110,同时 BiLSTM 的隐藏层中神经元数目为 200. 针对公共安全事件的触发词识别问题,考虑到高昂 的计算代价和相关语料库的匮乏,本文选择使用预 训练模型并整合进自己的任务模型中. 根据来斯惟 的分析[16] ,对于利用词向量语义信息的任务,有着 一致的结论:维度越大,效果越好. 结合其对任务性 能随词向量维度变化的研究,本文使用 Google 开源 的 Bert 预训练模型[17]作为词的嵌入表示进行微调, 其中词嵌入的维度为 300,词的其余嵌入特征为 50 维,该预训练模型基于带有自注意力机制的 Trans鄄 former 编码器多层堆叠构成,能够在低层较好地学 习语法特征表示,在高层学习语义特征表示. ·1204·
易士翔等:基于BiLSTM的公共安全事件触发词识别 ·1205· 3实验与评估 库标记了6个最重要的事件抽取信息:Event、Deno- ter、Time、Location、Participant和Object..Event用于 3.1实验环境 描述事件;Denoter、Time、Location、Participant和Ob- 在操作系统Ubuntul6.04完成相应的实验, ject用于描述事件的指示词和要素. CPU处理器是Intel E5-26783,GPU显卡为Ge- 3.3实验设计 Force GTX1070Ti.同时,为了进行相应的实验,需要 CEC语料库被划分为训练集、开发集以及验证 用到一些开源框架,如基于数据流编程的符号数学 集,划分比例为7:2:1.模型的超参数通过开发集进 系统TensorFLow,是一个基于数据流编程(dataflow 行调整,最终的模型训练基于训练集和开发集.由 programming)的符号数学系统,被广泛应用于各类 于公共安全事件触发词识别是多分类任务,同时考 机器学习算法的编程实现,Stanford CoreNLP是自然 虑到各个事件类可能存在不平衡分布问题,模型评 语言领域的工具包,集成了分词、词性标注以及句法 价指标选择Micro-FI,其中Micro--FI的计算表达式 解析等工具,LTP则是哈工大针对中文语种的自然 如下, 语言处理系统,表1详细给出了实验用到了软件及 ∑TP 开源工具 P= (10) ∑TP,+P, 表1实验环境所需软件及下载地址 Table 1 Required software and download link ∑TP: 软件 版本号 地址 R- (11) ∑TP:+FN TensorFlow 1.10 www.tensorflow.org Stanford CoreNLP 3.9.2 stanfordnlp.github.io/CoreNLP/ mico-F1=2P×R P+R (12) LTP 3.4.0 ltp.ai 式中,TP,表示分类i判断为正的正确率,FP,表示分 libSVM 3.23 www.csie.ntu.edu.tw/~cilin/libsvm/ 类i的误报率,FN:表示分类i的漏报率.P与R则 3.2数据集描述 分别表示分类任务的精确率与召回率,通过计算得 采用上海大学构建的中文突发事件语料库 到P与R的加权调和平均数Micro-FI,能够较好地 (Chinese emergency corpus,CEC),其中包含了5类 评判模型的整体性能. (地震、火灾、交通事故、恐怖袭击和食物中毒)突发 3.4实验结果及分析 事件的社会新闻报道,同时该语料库对搜集的事件 3.4.1模型性能比较 信息进行了预处理、文本分析、事件标注以及一致性 由于中文相关语料库受限,多数事件触发词的 检查等处理.CEC事件语料库的统计信息及其常见 研究都未在CEC数据集上进行,因此论文选择复现 触发词如表2所示. 传统机器学习与深度神经网络中的典型模型进行比 较.其中有,Pyysalo等基于人工提取特征的支持 表2CEC事件语料库及常见触发词 Table 2 Statistics of CEC and common trigger words 向量机分类模型,Zhou等[)从领域语料库里面获得 类型 篇数句子事件 常见触发词 词的领域信息表示,并与句法语义等特征信息进行 292682震级震源、震感 组合,最终使用多核学习的方法进行分类,以及 地震 45 交通事故49 265798酒后驾驶、相撞、碰撞、追尾 Wang等us]基于N-Gram特征与实体信息两类特征 恐怖袭击30273456恐怖组织,自杀式袭击、劫持 作为输入,采用卷积神经网络模型识别触发词.为 食物中毒45 288701食物中毒,腐烂、呕吐、腹污 了能够有效复现对比模型,论文基于libSVM与Ten- 火灾 31260496火灾,烧毁,浓烟,燃烧 sorFlow开源软件复现上述工作,在保证效果无损失 的情况下,应用于本文的语料库进行实验,对比实验 与ACE2005提供的数据集类似,CEC也采用了 结果如表3所示. XML语言作为事件标注格式.相较而言,ACE语料 可以看出,本文所提模型对比以往的基准模型, 库只标注指定特征类型的事件以及事件元素,CEC 在Micro--F1评价指标下有一定的提升,相比于其他 语料库则侧重于事件、事件的对象、时间、环境等事 方法中最好的结果提高了约0.8个百分点.将文本 件元素的标注,因此针对本文对公共安全事件场景 特征提取、特征选择之后,输入到支持向量机中学习 的研究,CEC是更合适的选择.更具体的,CEC语料 分类决策函数并得到最优分割面,这类传统机器学
易士翔等: 基于 BiLSTM 的公共安全事件触发词识别 3 实验与评估 3郾 1 实验环境 在操作系 统 Ubuntu16郾 04 完 成 相 应 的 实 验, CPU 处理器是 Intel E5鄄鄄 2678 v3,GPU 显卡为 Ge鄄 Force GTX1070Ti. 同时,为了进行相应的实验,需要 用到一些开源框架,如基于数据流编程的符号数学 系统 TensorFLow,是一个基于数据流编程( dataflow programming)的符号数学系统,被广泛应用于各类 机器学习算法的编程实现,Stanford CoreNLP 是自然 语言领域的工具包,集成了分词、词性标注以及句法 解析等工具,LTP 则是哈工大针对中文语种的自然 语言处理系统,表 1 详细给出了实验用到了软件及 开源工具. 表 1 实验环境所需软件及下载地址 Table 1 Required software and download link 软件 版本号 地址 TensorFlow 1郾 10 www. tensorflow. org Stanford CoreNLP 3郾 9郾 2 stanfordnlp. github. io / CoreNLP / LTP 3郾 4郾 0 ltp. ai libSVM 3郾 23 www. csie. ntu. edu. tw/ ~ cjlin / libsvm/ 3郾 2 数据集描述 采用上海大学构建的中文突发事件语料库 (Chinese emergency corpus,CEC),其中包含了 5 类 (地震、火灾、交通事故、恐怖袭击和食物中毒)突发 事件的社会新闻报道,同时该语料库对搜集的事件 信息进行了预处理、文本分析、事件标注以及一致性 检查等处理. CEC 事件语料库的统计信息及其常见 触发词如表 2 所示. 表 2 CEC 事件语料库及常见触发词 Table 2 Statistics of CEC and common trigger words 类型 篇数 句子 事件 常见触发词 地震 45 292 682 震级、震源、震感 交通事故 49 265 798 酒后驾驶、相撞、碰撞、追尾 恐怖袭击 30 273 456 恐怖组织、自杀式袭击、劫持 食物中毒 45 288 701 食物中毒、腐烂、呕吐、腹泻 火灾 31 260 496 火灾、烧毁、浓烟、燃烧 与 ACE2005 提供的数据集类似,CEC 也采用了 XML 语言作为事件标注格式. 相较而言,ACE 语料 库只标注指定特征类型的事件以及事件元素,CEC 语料库则侧重于事件、事件的对象、时间、环境等事 件元素的标注,因此针对本文对公共安全事件场景 的研究,CEC 是更合适的选择. 更具体的,CEC 语料 库标记了 6 个最重要的事件抽取信息:Event、Deno鄄 ter、Time、Location、Participant 和 Object. Event 用于 描述事件;Denoter、Time、Location、Participant 和 Ob鄄 ject 用于描述事件的指示词和要素. 3郾 3 实验设计 CEC 语料库被划分为训练集、开发集以及验证 集,划分比例为 7颐 2颐 1. 模型的超参数通过开发集进 行调整,最终的模型训练基于训练集和开发集. 由 于公共安全事件触发词识别是多分类任务,同时考 虑到各个事件类可能存在不平衡分布问题,模型评 价指标选择 Micro鄄鄄F1,其中 Micro鄄鄄F1 的计算表达式 如下, P = 移i TPi 移i TPi + FPi (10) R = 移i TPi 移i TPi + FNi (11) micro鄄F1 = 2 P 伊 R P + R (12) 式中,TPi 表示分类 i 判断为正的正确率,FPi 表示分 类 i 的误报率,FNi 表示分类 i 的漏报率. P 与 R 则 分别表示分类任务的精确率与召回率,通过计算得 到 P 与 R 的加权调和平均数 Micro鄄鄄F1,能够较好地 评判模型的整体性能. 3郾 4 实验结果及分析 3郾 4郾 1 模型性能比较 由于中文相关语料库受限,多数事件触发词的 研究都未在 CEC 数据集上进行,因此论文选择复现 传统机器学习与深度神经网络中的典型模型进行比 较. 其中有,Pyysalo 等[4] 基于人工提取特征的支持 向量机分类模型,Zhou 等[5]从领域语料库里面获得 词的领域信息表示,并与句法语义等特征信息进行 组合,最终使用多核学习的方法进行分类,以及 Wang 等[18]基于 N鄄鄄Gram 特征与实体信息两类特征 作为输入,采用卷积神经网络模型识别触发词. 为 了能够有效复现对比模型,论文基于 libSVM 与 Ten鄄 sorFlow 开源软件复现上述工作,在保证效果无损失 的情况下,应用于本文的语料库进行实验,对比实验 结果如表 3 所示. 可以看出,本文所提模型对比以往的基准模型, 在 Micro鄄鄄F1 评价指标下有一定的提升,相比于其他 方法中最好的结果提高了约 0郾 8 个百分点. 将文本 特征提取、特征选择之后,输入到支持向量机中学习 分类决策函数并得到最优分割面,这类传统机器学 ·1205·
·1206· 工程科学学报.第41卷,第9期 表3模型性能比较 对象元素可能相距较远,单独的词性或者实体类型 Table 3 Comparison of model performance 都不足以能够包含触发词的类型信息,而这恰恰是 模型 P/% R/% Micro-F1/% 依存关系特征的优势所在 SVMC4] 76.45 71.04 73.65 表4特征性能比较 SVM+Embedding[5] 77.85 73.62 75.68 Table 4 Comparison of features performance CNN[I8] 79.21 76.53 77.85 序号 特征 Micro-F1/% 本文模型 78.39 78.56 78.47 1 E..g 76.61 2 E.+E。,g(词性标签) 77.59 习方法虽然取得了较好的分类效果,但效果明显逊 3 78.18 色于本文模型,这说明了以往的典型模型,即传统机 E。+E。,g(实体类型) E。+E。g(依存关系) 78.47 器学习模型(SVM等)和简单的深度神经网络模型 (CNN等)重度依赖于自然语言处理工具会不断地 引入误差,同时完全由经验决定的特征工程所得到 结论 的特征无法高效地表示文本信息.需要注意的是, 针对传统事件触发词识别方法中存在的特征工 基于CNN的触发词识别方法虽然在精度上超过本 程复杂、低泛化性等问题,提出了一种基于双向长短 文模型,但是在召回率上却大幅降低,这是由于在 期记忆网络和前向神经网络的融合模型.该模型采 CNN模型中输入维度固定,因此同一时刻只能获取 用词嵌入向量与其余词特征向量拼接后的向量表示 固定窗口内的文本信息,也就是要求卷积的对象具 作为输入,通过双向长短期记忆网络有效地捕捉上 有局部相关性,而这在长文本中就会遇到无法学习 下文信息生成高层次的文本语义信息表示,之后再 到长程依赖的信息,此外召回率大幅下滑这一现象 利用带dropout的前向网络模型对触发词进行分类. 在其余基准模型中也得到了体现,这在一定程度上 基于该融合模型对中文突发事件语料库进行训练学 说明了BiLSTM模型对于长文本信息捕捉能力的优 习得到的触发词识别模型,相较于基准模型均有一 越性. 定的提升,Micro-F1达到78.47%.对不同拼接特 模型的收敛性方面,本文提出的BiLSTM-FNN 征的重要程度也进行了对比及分析,其中依存关系 模型也体现了一定的优越性,本模型大约在20次左 特征能够在实际应用中表征事件对象元素与触发词 右就已经收敛,而卷积神经网络的则需要不断调整 之间的依赖关系,因此与词性标签、实体类型两类特 batch-size等参数的大小,需要近800次左右才能完 征相比其性能最优.在未来的工作中,将考虑并研 全收敛.这是因为卷积操作能够获取的上下文信息 究构建事件抽取的单模型方法,避免经过多个处理 有限,相较而言BiLSTM模型则是能够双向建模长 步骤导致的误差传播 文本的语义信息,因此本模型能够更快地收敛 3.4.2特征性能比较 参考文献 通常文本分析能够得到大量的特征,主要可以 [1]Bjome J.Biomedical Event Extraction with Machine Learning 分为词法特征(词性标签、同义词)、句法特征(当前 Dissertation ]Turku:University of Turku,2014 [2]Xuan XX,Liao T,Gao BB.Automatic extraction of Chinese 词的依存词、词之间的依存关系等)、实体信息(实 event trigger word.Comput Digit Eng,2015,43(3):457 体类型、距离最近的实体类型).不同特征对于模型 (轩小星,廖涛,高贝贝.中文事件触发词的自动抽取研究 性能的影响,对比结果如表4所示 计算机与数字工程,2015,43(3):457) 可以看出句法特征对于事件触发词识别任务的 [3]He X Y,Li L S.Trigger detection based on bidirectional LSTM 助益最大,其中词性信息通常用作语义角色标注及 and two-stage method.J Chin Inform Process,2017,31(6):147 (何馨宇,李丽双.基于双向LSTM和两阶段方法的触发词识 实体识别等任务的辅助特征,从句法与语义的角度 别.中文信息学报,2017,31(6):147) 看,这部分特征对于触发词的相关信息表达极少,因 [4]Pyysalo S,Ohta T,Miwa M,et al.Event extraction across multi- 此在辅助触发词识别的特征中效果最差,而实体类 ple levels of biological organization.Bioinformatics,2012,28 型能够在一定程度上表征事件的各组成要素,诸如 (18):i575 时间、地点、对象等,所以对触发词识别任务的帮助 [5]Zhou D Y,Zhong D Y,He Y L.Event trigger identification for biomedical events extraction using domain knowledge.Bioinforma- 较大.通常事件触发词与事件的对象要素有直接的 tics,2014,30(11):1587 依存关系,而在实际的长文本中,事件触发词与事件 [6]Wei X M,Zhu Q,Lyu C,et al.A hybrid method to extract trig-
工程科学学报,第 41 卷,第 9 期 表 3 模型性能比较 Table 3 Comparison of model performance 模型 P/ % R/ % Micro鄄鄄F1 / % SVM [4] 76郾 45 71郾 04 73郾 65 SVM + Embedding [5] 77郾 85 73郾 62 75郾 68 CNN [18] 79郾 21 76郾 53 77郾 85 本文模型 78郾 39 78郾 56 78郾 47 习方法虽然取得了较好的分类效果,但效果明显逊 色于本文模型,这说明了以往的典型模型,即传统机 器学习模型( SVM 等)和简单的深度神经网络模型 (CNN 等)重度依赖于自然语言处理工具会不断地 引入误差,同时完全由经验决定的特征工程所得到 的特征无法高效地表示文本信息. 需要注意的是, 基于 CNN 的触发词识别方法虽然在精度上超过本 文模型,但是在召回率上却大幅降低,这是由于在 CNN 模型中输入维度固定,因此同一时刻只能获取 固定窗口内的文本信息,也就是要求卷积的对象具 有局部相关性,而这在长文本中就会遇到无法学习 到长程依赖的信息,此外召回率大幅下滑这一现象 在其余基准模型中也得到了体现,这在一定程度上 说明了 BiLSTM 模型对于长文本信息捕捉能力的优 越性. 模型的收敛性方面,本文提出的 BiLSTM鄄鄄 FNN 模型也体现了一定的优越性,本模型大约在 20 次左 右就已经收敛,而卷积神经网络的则需要不断调整 batch鄄鄄size 等参数的大小,需要近 800 次左右才能完 全收敛. 这是因为卷积操作能够获取的上下文信息 有限,相较而言 BiLSTM 模型则是能够双向建模长 文本的语义信息,因此本模型能够更快地收敛. 3郾 4郾 2 特征性能比较 通常文本分析能够得到大量的特征,主要可以 分为词法特征(词性标签、同义词)、句法特征(当前 词的依存词、词之间的依存关系等)、实体信息(实 体类型、距离最近的实体类型). 不同特征对于模型 性能的影响,对比结果如表 4 所示. 可以看出句法特征对于事件触发词识别任务的 助益最大,其中词性信息通常用作语义角色标注及 实体识别等任务的辅助特征,从句法与语义的角度 看,这部分特征对于触发词的相关信息表达极少,因 此在辅助触发词识别的特征中效果最差,而实体类 型能够在一定程度上表征事件的各组成要素,诸如 时间、地点、对象等,所以对触发词识别任务的帮助 较大. 通常事件触发词与事件的对象要素有直接的 依存关系,而在实际的长文本中,事件触发词与事件 对象元素可能相距较远,单独的词性或者实体类型 都不足以能够包含触发词的类型信息,而这恰恰是 依存关系特征的优势所在. 表 4 特征性能比较 Table 4 Comparison of features performance 序号 特征 Micro鄄鄄F1 / % 1 Ew ,g 76郾 61 2 Ew + Eo,g(词性标签) 77郾 59 3 Ew + Eo,g(实体类型) 78郾 18 4 Ew + Eo,g(依存关系) 78郾 47 4 结论 针对传统事件触发词识别方法中存在的特征工 程复杂、低泛化性等问题,提出了一种基于双向长短 期记忆网络和前向神经网络的融合模型. 该模型采 用词嵌入向量与其余词特征向量拼接后的向量表示 作为输入,通过双向长短期记忆网络有效地捕捉上 下文信息生成高层次的文本语义信息表示,之后再 利用带 dropout 的前向网络模型对触发词进行分类. 基于该融合模型对中文突发事件语料库进行训练学 习得到的触发词识别模型,相较于基准模型均有一 定的提升,Micro鄄鄄 F1 达到 78郾 47% . 对不同拼接特 征的重要程度也进行了对比及分析,其中依存关系 特征能够在实际应用中表征事件对象元素与触发词 之间的依赖关系,因此与词性标签、实体类型两类特 征相比其性能最优. 在未来的工作中,将考虑并研 究构建事件抽取的单模型方法,避免经过多个处理 步骤导致的误差传播. 参 考 文 献 [1] Bj觟rne J. Biomedical Event Extraction with Machine Learning [Dissertation]. Turku: University of Turku, 2014 [2] Xuan X X, Liao T, Gao B B. Automatic extraction of Chinese event trigger word. Comput Digit Eng, 2015, 43(3): 457 (轩小星, 廖涛, 高贝贝. 中文事件触发词的自动抽取研究. 计算机与数字工程, 2015, 43(3): 457) [3] He X Y, Li L S. Trigger detection based on bidirectional LSTM and two鄄stage method. J Chin Inform Process, 2017, 31(6): 147 (何馨宇, 李丽双. 基于双向 LSTM 和两阶段方法的触发词识 别. 中文信息学报, 2017, 31(6): 147) [4] Pyysalo S, Ohta T, Miwa M, et al. Event extraction across multi鄄 ple levels of biological organization. Bioinformatics, 2012, 28 (18): i575 [5] Zhou D Y, Zhong D Y, He Y L. Event trigger identification for biomedical events extraction using domain knowledge. Bioinforma鄄 tics, 2014, 30(11): 1587 [6] Wei X M, Zhu Q,Lyu C, et al. A hybrid method to extract trig鄄 ·1206·
易士翔等:基于BiLSTM的公共安全事件触发词识别 ·1207· gers in biomedical events.Digit Inform Manage,2015,13(4): tection based on bidirectional LSTM and CRF /2017 /EEE In- 298 ternational Conference on Bioinformatics and Biomedicine [7]Lousteau-Cazalet C,Barakat A,Belaud J P,et al.A decision (BIBM).Kansas City,2017:445 support system for eco-efficient biorefinery process comparison u- [13]Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic sing a semantic approach.Comput Electron Agric,2016,127:351 language model.J Mach Learn Res,2003,3:1137 [8]Chen Z Y,Huang Y,Wang Y,et al.Unsupervised method for e- [14]Peters M E,Neumann M,lyyer M,et al.Deep contextualized vent trigger identification and classification.Foreign Electron Meas word representations /Proceedings of the 2018 Conference of the Technol,2016,35(7):91 North American Chapter of the Association for Computational Lin- (陈自岩,黄宇,王洋,等.一种非监督的事件触发词检测和 guistics.New Orleans,2018:2227 分类方法.国外电子测量技术,2016,35(7):91) [15]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:a simple [9]Wang Y,Wang J.Lin H F,et al.Bidirectional long short-term way to prevent neural networks from overfitting.Mach Learn memory with CRF for detecting biomedical event trigger in FastText Res,2014,15(1):1929 semantic space.BMC Bioinf.2018,19(Suppl 20):507 [16]Lai S W.Word and Document Embeddings Based on Neural Net- [10]Amami M,Elkhlifi A,Faiz R.Biological event extraction using cork Approaches Dissertation].Beijing:The University of Chi- SVM and composite kernel function /The Extraction and Knowl- nese Academy of Sciences,2016 edge Management Conference.Bordeaux,2012:333 (来斯惟.基于神经网络的词和文档语义向量表示方法研究 Amami M,Elkhlifi A,Faiz R.Biological event extraction using [学位论文].北京:中国科学院大学,2016) SVM and composite kernel function//Conference Internationale [17]Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deep Francophone sur F'Extraction et la Gestion des Connaissances.Bor- bidirectional transformers for language understandingProceed dcam,2012:333) ings of the 2019 Conference of the North American Chapter of the [11]Vanegas JA,Matos S,Gonzdlez F,et al.An overview of biomo- Association for Computational Linguistics.Minneapolis,2019 lecular event extraction from scientific documents.Comput Math [18]Wang J.Li HL.An Y,et al.Biomedical event trigger detection Methods Med,2015,2015:571381 based on convolutional neural network.Int I Data Min Bioinf, [12]Wang Y,Wang J,Lin H F,et al.Biomedical event trigger de- 2016,15(3):195
易士翔等: 基于 BiLSTM 的公共安全事件触发词识别 gers in biomedical events. J Digit Inform Manage, 2015, 13(4): 298 [7] Lousteau鄄Cazalet C, Barakat A, Belaud J P, et al. A decision support system for eco鄄efficient biorefinery process comparison u鄄 sing a semantic approach. Comput Electron Agric, 2016, 127: 351 [8] Chen Z Y, Huang Y, Wang Y, et al. Unsupervised method for e鄄 vent trigger identification and classification. Foreign Electron Meas Technol, 2016, 35(7): 91 (陈自岩, 黄宇, 王洋, 等. 一种非监督的事件触发词检测和 分类方法. 国外电子测量技术, 2016, 35(7): 91) [9] Wang Y, Wang J, Lin H F, et al. Bidirectional long short鄄term memory with CRF for detecting biomedical event trigger in FastText semantic space. BMC Bioinf, 2018, 19(Suppl 20): 507 [10] Amami M, Elkhlifi A, Faiz R. Biological event extraction using SVM and composite kernel function / / The Extraction and Knowl鄄 edge Management Conference. Bordeaux, 2012: 333 (Amami M, Elkhlifi A, Faiz R. Biological event extraction using SVM and composite kernel function / / Conf佴rence Internationale Francophone sur l蒺Extraction et la Gestion des Connaissances. Bor鄄 deaux, 2012: 333) [11] Vanegas J A, Matos S, Gonz佗lez F, et al. An overview of biomo鄄 lecular event extraction from scientific documents. Comput Math Methods Med, 2015, 2015: 571381 [12] Wang Y, Wang J, Lin H F, et al. Biomedical event trigger de鄄 tection based on bidirectional LSTM and CRF / / 2017 IEEE In鄄 ternational Conference on Bioinformatics and Biomedicine (BIBM). Kansas City, 2017: 445 [13] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model. J Mach Learn Res, 2003, 3: 1137 [14] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations / / Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Lin鄄 guistics. New Orleans, 2018: 2227 [15] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to prevent neural networks from overfitting. J Mach Learn Res, 2014, 15(1): 1929 [16] Lai S W. Word and Document Embeddings Based on Neural Net鄄 work Approaches [Dissertation]. Beijing: The University of Chi鄄 nese Academy of Sciences, 2016 (来斯惟. 基于神经网络的词和文档语义向量表示方法研究 [学位论文]. 北京: 中国科学院大学, 2016) [17] Devlin J, Chang M W, Lee K, et al. Bert: Pre鄄training of deep bidirectional transformers for language understanding / / Proceed鄄 ings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis, 2019 [18] Wang J, Li H L, An Y, et al. Biomedical event trigger detection based on convolutional neural network. Int J Data Min Bioinf, 2016, 15(3): 195 ·1207·