基于BiLSTM的公共安全事件触发词识别

提出基于双向长短期记忆网络（bidirectional long short-term memory，BiLSTM）和前向神经网络的融合模型完成公共安全事件的触发词识别任务.首先通过BiLSTM提取整段文本的高层语义特征，避免了以往机器学习方法需要人工提取特征的问题，其次采用特征拼接并在前向神经网络中识别并分类事件触发词.实验结果表明相较于基准模型，本文方法在中文突发事件语料库（Chinese emergency corpus，CEC）上取得了更为突出的性能，Micro-F1值为78.47%.此外本文讨论了不同拼接特征在触发词识别任务中的重要性，对文本分析中3类特征（词性、句法、实体）的重要程度进行了比较和分析，得出句法特征对于事件触发词识别任务助益最大的结论.

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：798.92KB

工程科学学报，第41卷，第9期：1201-1207,2019年9月 Chinese Journal of Engineering,Vol.41,No.9:1201-1207,September 2019 DOI:10.13374/j.issn2095-9389.2019.09.012;http://journals.ustb.edu.cn 基于BiLSTM的公共安全事件触发词识别易士翔)，尹宏鹏)区，郑恒毅) 1)重庆大学自动化学院，重庆4000442)重庆大学机械工程学院，重庆400044 区通信作者，E-mail:yinhong即eng@gmail.com 摘要提出基于双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)和前向神经网络的融合模型完成公共安全事件的触发词识别任务.首先通过BiLSTM提取整段文本的高层语义特征，避免了以往机器学习方法需要人工提取特征的问题，其次采用特征拼接并在前向神经网络中识别并分类事件触发词.实验结果表明相较于基准模型，本文方法在中文突发事件语料库(Chinese emergency corpus,CEC)上取得了更为突出的性能，Micro-F1值为78.47%.此外本文讨论了不同拼接特征在触发词识别任务中的重要性，对文本分析中3类特征（词性、句法、实体）的重要程度进行了比较和分析，得出句法特征对于事件触发词识别任务助益最大的结论关键词触发词：双向长短期记忆网络；前向神经网络：公共安全事件：拼接特征分类号TP391.1 Public security event trigger identification based on Bidirectional LSTM YI Shi-xiang),YIN Hong-peng,ZHENG Heng-yi) 1)School of Automation,Chongqing University,Chongqing 400044.China 2)School of Mechanical Engineering,Chongqing University,Chongqing 400044,China Corresponding author,E-mail:yinhongpeng@gmail.com ABSTRACT As the internet coverage continues to expand,obtaining valuable information from a large amount of fragmented semi- structured text data has become a huge challenge considering the vast amount of social public information.Event trigger identification technology can effectively mine and refine text information so that the users can quickly and accurately get what they need;thus,it has gradually become an active research area in the field of natural language processing.An event trigger word is generally a word or phrase that marks the occurrence of the event,then trigger word identification has been applied to many aspects and plays an important role in the fields of knowledge base construction,intelligent search engine,automatic question answering robot,and automatic summarization. However,the text data are characterized by high dimensionality and ambiguity.The existing identification methods are mostly based on manual complex feature engineering or only consider the features in a certain text window.In this process,manual analysis and selec- tion of a large number of features are required.Considerable reliance on natural language processing tools leads to the inability of apply- ing the model on a large scale,and there are problems of erroneous cascade communication and complicated feature engineering.This paper proposed a fusion model based on the bidirectional long short-term memory (BiLSTM)and feed-forward neural networks to com- plete the trigger identification task for public security events.First,the high-level features of the entire text were extracted through Bil- STM to avoid manual feature extraction,which was associated with the existing machine learning methods.Then,contacted features were used to input feed-forward neural networks and identify event triggers.The experimental results show that the proposed method achieves good performance in the Chinese emergency corpus,CEC,and the Micro-FI is 78.47%.In addition,the importance of dif- ferent contacted features was also discussed in trigger word recognition tasks,and the importance of three types of features,namely part 收稿日期：2019-01-05 基金项目：国家自然科学基金资助项目(61773080)：重庆市基础科学与研究技术资助项目(tc2015jcyB0569)；中央高校基本业务费资助项 (equ2018CDHB1B04,2019CDYGZD001)

工程科学学报,第 41 卷,第 9 期:1201鄄鄄1207,2019 年 9 月 Chinese Journal of Engineering, Vol. 41, No. 9: 1201鄄鄄1207, September 2019 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2019. 09. 012; http: / / journals. ustb. edu. cn 基于 BiLSTM 的公共安全事件触发词识别易士翔1) , 尹宏鹏1) 苣 , 郑恒毅2) 1) 重庆大学自动化学院, 重庆 400044 2) 重庆大学机械工程学院, 重庆 400044 苣通信作者, E鄄mail: yinhongpeng@ gmail. com 摘要提出基于双向长短期记忆网络(bidirectional long short鄄term memory,BiLSTM)和前向神经网络的融合模型完成公共安全事件的触发词识别任务. 首先通过 BiLSTM 提取整段文本的高层语义特征,避免了以往机器学习方法需要人工提取特征的问题,其次采用特征拼接并在前向神经网络中识别并分类事件触发词. 实验结果表明相较于基准模型,本文方法在中文突发事件语料库(Chinese emergency corpus,CEC)上取得了更为突出的性能,Micro鄄鄄F1 值为 78郾 47% . 此外本文讨论了不同拼接特征在触发词识别任务中的重要性,对文本分析中 3 类特征(词性、句法、实体)的重要程度进行了比较和分析,得出句法特征对于事件触发词识别任务助益最大的结论. 关键词触发词; 双向长短期记忆网络; 前向神经网络; 公共安全事件; 拼接特征分类号 TP391郾 1 收稿日期: 2019鄄鄄01鄄鄄05 基金项目: 国家自然科学基金资助项目(61773080);重庆市基础科学与研究技术资助项目( cstc2015jcyjB0569); 中央高校基本业务费资助项目(cqu2018CDHB1B04, 2019CDYGZD001) Public security event trigger identification based on Bidirectional LSTM YI Shi鄄xiang 1) , YIN Hong鄄peng 1) 苣 , ZHENG Heng鄄yi 2) 1) School of Automation, Chongqing University, Chongqing 400044, China 2) School of Mechanical Engineering, Chongqing University, Chongqing 400044, China 苣Corresponding author, E鄄mail: yinhongpeng@ gmail. com ABSTRACT As the internet coverage continues to expand, obtaining valuable information from a large amount of fragmented semi鄄 structured text data has become a huge challenge considering the vast amount of social public information. Event trigger identification technology can effectively mine and refine text information so that the users can quickly and accurately get what they need; thus, it has gradually become an active research area in the field of natural language processing. An event trigger word is generally a word or phrase that marks the occurrence of the event, then trigger word identification has been applied to many aspects and plays an important role in the fields of knowledge base construction, intelligent search engine, automatic question answering robot, and automatic summarization. However, the text data are characterized by high dimensionality and ambiguity. The existing identification methods are mostly based on manual complex feature engineering or only consider the features in a certain text window. In this process, manual analysis and selec鄄 tion of a large number of features are required. Considerable reliance on natural language processing tools leads to the inability of apply鄄 ing the model on a large scale, and there are problems of erroneous cascade communication and complicated feature engineering. This paper proposed a fusion model based on the bidirectional long short鄄term memory (BiLSTM) and feed鄄forward neural networks to com鄄 plete the trigger identification task for public security events. First, the high鄄level features of the entire text were extracted through BiL鄄 STM to avoid manual feature extraction, which was associated with the existing machine learning methods. Then, contacted features were used to input feed鄄forward neural networks and identify event triggers. The experimental results show that the proposed method achieves good performance in the Chinese emergency corpus, CEC, and the Micro鄄鄄F1 is 78郾 47% . In addition, the importance of dif鄄 ferent contacted features was also discussed in trigger word recognition tasks, and the importance of three types of features, namely part

·1202· 工程科学学报，第41卷，第9期 of speech,syntax,and entity,in text analysis was analyzed.It is concluded that syntactic features are most helpful to the task of event- trigger word recognition. KEY WORDS trigger words;bidirectional long short-term memory;forward neural network;security event;contacted features 随着信息科技的快速发展，我国的互联网规模触发词识别任务的开始阶段用于构建种子触发词词迅速增长，互联网成为获取社会公共资讯的最快途典，方便后续模型对其进行拓展和修正.随着机器径，面对迅猛增长的互联网信息，快速发现并准确学习方法的发展，大量基于传统机器学习模型的事定位公众关注和讨论的事件变得至关重要.因此众件触发词识别方法被提出.主要通过大量特征工程多学者开始探索将信息化手段应用于公共安全事件进行特征表示、特征选择，再采用支持向量机或者条的发现和抽取研究，探索依靠高度发展的信息科技件随机场等模型进行触发词分类.这类方法大大节提升社会公共安全管理与决策水平.而公共安全事省了人力成本，但是传统机器学习方法极其依赖特件发现及抽取的第一步就是触发词识别，这里的触征工程中提取的特征，通常这类特征无法泛化到其发词的类型也就是整段文本所描述事件的类型，在他领域，以至于在模型迁移的时候导致“偏见”，性后续正文中，没有特别说明，触发词识别任务将包含能出现大幅度下降.同时由于机器学习的方法极其触发词分类这一子任务.Bjorne)的研究显示事件依赖自然语言处理工具的实现及其效果，这些工具抽取中出现的错误有超过60%来源于触发词识别引入的误差很容易影响事件触发词识别的性能阶段.如果触发词识别出现偏差，后续的工作也就近年来，深度网络模型的火热发展，给事件触发不再有可行性和有效性.所以，高质量地完成触发词识别任务带来了新的研究思路，深度学习的重要词识别任务是后续进行公共安全事件抽取的保证. 特点就是能够通过多层的网络结构自动获取数据的特征表达，且该特征表达能够具有泛化性，能够适应 1研究现状于不同的任务.文本表示学习就能够很好地解决文国内外学者针对事件触发词的识别问题展开研本特征表达方面的问题.文本表示学习通过学习自究并取得了一定的成果，国内方面，轩小星等]在然语言的数学描述来表示语言，以此抽象出文本中种子触发词的基础上，通过支持向量机(support vec- 本质信息（语义、句法等）的可计算表示，能够衡量 tor machine,SVM)不断扩展触发词表.何馨宇与李文本间的关联信息.Bengio等[1s]通过神经网络模丽双[3]则使用两个长短期记忆(long short--tem 型进行上下文预测，得到的词嵌入表示在其他自然 memory,LSTM)模型分别进行触发词识别与分类，有语言处理任务中取得了出乎意料的效果.Peters意效缓解了事件语料库中存在的数据不平衡问题.国识到神经网络的结构层次中较低层能够学习词性等外方面，Pyysalo等通过数据处理得到大量的手工信息，较高层则对语义有较好的编码效果，基于这一特征并在支持向量机上完成了触发词识别任务. 特性，Peters等a构建了ELMo(embeddings from Zou等)则是利用词嵌入表示在支持向量机上取 language models)模型，在文本分类、语义角色标注得了更好的结果.Wei等[]提出了流水线式识别方等任务中都有可观的效果.目前将文本表示应用于法，通过条件随机场(conditional random field,CRF) 高层任务有两种具体的策略，基于特征的策略与微标记有效的触发词，然后基于支持向量机对触发词调(fne-tuning)策略，基于特征的策略将文本表示作类型进行判断为额外的模型特征，另一种选择，则是借助迁移学习根据以往研究成果的总结，事件触发词的识别的思路，在预训练文本表示上基于自行构建的小型方法可以被概括为3类：基于统计的方法[-8】、基于领域语料库进行微调预训练参数，通常可以达到更传统机器学习9-1o]的方法以及基于深度学习-2】好的效果的方法.基于统计的方法指人工统计并建立较完整同时汉语本身具有结构多变、表达含义丰富等的触发词词典，同时定义一些规则去寻找触发词，该特点.例如，“恐怖分子挟持飞机撞向位于弗吉尼亚类方法简单且效果较好，但是其人工标注代价非常州阿灵顿县的五角大楼”，“摩托车和物流车同时撞高，并且要求语料具有普遍性且足够丰富，但是由于向护栏，致半挂车报废”，以上两个句子中均包含事语言的发展以及技术的限制，也无法完全通过定义件触发词“撞向”，但是这两句描述分属于不同的触规则进行筛选，因此实际上不可能获得一个较为完发词类型（恐怖袭击和交通事故）.因此在进行事件备的触发词词典.一般地，基于统计的方法被用在触发词识别时不能只单独考虑句子本身，还应该利

工程科学学报,第 41 卷,第 9 期 of speech, syntax, and entity, in text analysis was analyzed. It is concluded that syntactic features are most helpful to the task of event鄄 trigger word recognition. KEY WORDS trigger words; bidirectional long short鄄term memory; forward neural network; security event; contacted features 随着信息科技的快速发展,我国的互联网规模迅速增长, 互联网成为获取社会公共资讯的最快途径, 面对迅猛增长的互联网信息, 快速发现并准确定位公众关注和讨论的事件变得至关重要. 因此众多学者开始探索将信息化手段应用于公共安全事件的发现和抽取研究,探索依靠高度发展的信息科技提升社会公共安全管理与决策水平. 而公共安全事件发现及抽取的第一步就是触发词识别,这里的触发词的类型也就是整段文本所描述事件的类型,在后续正文中,没有特别说明,触发词识别任务将包含触发词分类这一子任务. Bj觟rne [1] 的研究显示事件抽取中出现的错误有超过 60% 来源于触发词识别阶段. 如果触发词识别出现偏差,后续的工作也就不再有可行性和有效性. 所以,高质量地完成触发词识别任务是后续进行公共安全事件抽取的保证. 1 研究现状国内外学者针对事件触发词的识别问题展开研究并取得了一定的成果,国内方面,轩小星等[2] 在种子触发词的基础上,通过支持向量机(support vec鄄 tor machine,SVM)不断扩展触发词表. 何馨宇与李丽双[3] 则使用两个长短期记忆 ( long short鄄term memory,LSTM)模型分别进行触发词识别与分类,有效缓解了事件语料库中存在的数据不平衡问题. 国外方面,Pyysalo 等[4]通过数据处理得到大量的手工特征并在支持向量机上完成了触发词识别任务. Zhou 等[5]则是利用词嵌入表示在支持向量机上取得了更好的结果. Wei 等[6]提出了流水线式识别方法,通过条件随机场( conditional random field,CRF) 标记有效的触发词,然后基于支持向量机对触发词类型进行判断. 根据以往研究成果的总结,事件触发词的识别方法可以被概括为 3 类:基于统计的方法[7鄄鄄8] 、基于传统机器学习[9鄄鄄10] 的方法以及基于深度学习[11鄄鄄12] 的方法. 基于统计的方法指人工统计并建立较完整的触发词词典,同时定义一些规则去寻找触发词,该类方法简单且效果较好,但是其人工标注代价非常高,并且要求语料具有普遍性且足够丰富,但是由于语言的发展以及技术的限制,也无法完全通过定义规则进行筛选,因此实际上不可能获得一个较为完备的触发词词典. 一般地,基于统计的方法被用在触发词识别任务的开始阶段用于构建种子触发词词典,方便后续模型对其进行拓展和修正. 随着机器学习方法的发展,大量基于传统机器学习模型的事件触发词识别方法被提出. 主要通过大量特征工程进行特征表示、特征选择,再采用支持向量机或者条件随机场等模型进行触发词分类. 这类方法大大节省了人力成本,但是传统机器学习方法极其依赖特征工程中提取的特征,通常这类特征无法泛化到其他领域,以至于在模型迁移的时候导致“偏见冶,性能出现大幅度下降. 同时由于机器学习的方法极其依赖自然语言处理工具的实现及其效果,这些工具引入的误差很容易影响事件触发词识别的性能. 近年来,深度网络模型的火热发展,给事件触发词识别任务带来了新的研究思路,深度学习的重要特点就是能够通过多层的网络结构自动获取数据的特征表达,且该特征表达能够具有泛化性,能够适应于不同的任务. 文本表示学习就能够很好地解决文本特征表达方面的问题. 文本表示学习通过学习自然语言的数学描述来表示语言,以此抽象出文本中本质信息(语义、句法等)的可计算表示,能够衡量文本间的关联信息. Bengio 等[13] 通过神经网络模型进行上下文预测,得到的词嵌入表示在其他自然语言处理任务中取得了出乎意料的效果. Peters 意识到神经网络的结构层次中较低层能够学习词性等信息,较高层则对语义有较好的编码效果,基于这一特性, Peters 等[14] 构建了 ELMo ( embeddings from language models)模型,在文本分类、语义角色标注等任务中都有可观的效果. 目前将文本表示应用于高层任务有两种具体的策略,基于特征的策略与微调(fine鄄tuning)策略,基于特征的策略将文本表示作为额外的模型特征,另一种选择,则是借助迁移学习的思路,在预训练文本表示上基于自行构建的小型领域语料库进行微调预训练参数,通常可以达到更好的效果. 同时汉语本身具有结构多变、表达含义丰富等特点. 例如,“恐怖分子挟持飞机撞向位于弗吉尼亚州阿灵顿县的五角大楼冶,“摩托车和物流车同时撞向护栏,致半挂车报废冶,以上两个句子中均包含事件触发词“撞向冶,但是这两句描述分属于不同的触发词类型(恐怖袭击和交通事故). 因此在进行事件触发词识别时不能只单独考虑句子本身,还应该利 ·1202·

易士翔等：基于BiLSTM的公共安全事件触发词识别 ·1203· 用句法依存关系、实体类型和词性等特征信息辅助分完成词嵌入向量与其余词特征的拼接，高层语义触发词识别任务.因此为了弥补传统事件触发词识表示获取部分由BiLSTM网络模型完成，最后组合别方法的不足，本研究工作提出了基于双向长短时词的嵌入特征与文本的语义特征，利用前向神经网 (bidirectional long short-term memory,BiLSTM) 络模型完成最后的触发词分类任务.随后本文将简和前向神经网络的融合模型，采用词预训练嵌入向述模型的各个部分量与其余特征进行拼接作为输入，能够同时基于词 2.1输入层特征与句子全局特征进行触发词识别，因而可以有作为模型第k时刻的输入，文本序列T中的词效避免耗时耗力的特征工程，其中BiLSTM能够有 t4∈T,使用它的两个特征进行拼接，E.∈Rxd表效地获取文本上下文的语义信息，是本模型能够取示词的预训练嵌人表示，E。∈R。*表示词的其他特得较好效果的关键. 征（实体类型、词性类型以及句法类型），n.,n。分别表示词表的长度与其他特征类型的数量，d.,d。分 2模型及算法描述别表示词嵌入表示向量的维度与特征嵌入表示的维本研究提出的基于BiLSTM的事件触发词识别度.通过两张词-特征嵌入向量查找表，文本中的每方法如图1所示.主要可以分为3个部分：输入部个词都被映射至一个稠密的向量表示. softmax(-）前向神经网络 + 触发词分类预测触发词类型 BiLSTM神经元高层语义获取词嵌入向量 E. 输入特征拼接其余特征嵌入向量 E 图1系统框架 Fig.1 System framework 2.2 BiLSTM模型段将依赖上一个时间步的信息以及本时间步的状态由于实际需求中处理的文本长度可能过长，常信息决定当前状态的输出. 用的循环神经网络(recurrent neural network,RNN) 无法解决长程依赖的问题，其表现为多时间步后梯 tanh(·) 度传播消失或者爆炸.本模型选择BiLSTM网络模 C h 型，其中基本的LSTM网络中的隐藏神经元由多个记忆块组成，而记忆块的激活状态由输入门、遗忘门与输出门三个乘法门控制，利用门控制技术，因此能实现选择性地让信息通过，从而有效缓解循环神经 h 网络中严重的梯度消失及爆炸问题. 图2LSTM神经元结构图如图2所示，LSTM主要有三个阶段：信息遗忘 Fig.2 Structural diagram of LSTM neurons 阶段，在这个阶段中根据输入信息以及上一个时间其中各乘法门的表达式如下，步的隐藏层状态选择性地忘记上一个时间步的信输入门表达式：息：信息记忆阶段，这个阶段中将依据输入信息对该 Z:sigmoid(W:.[V;h]+b) (1) 时间步的输入进行选择性地记忆：输出阶段，这个阶

易士翔等: 基于 BiLSTM 的公共安全事件触发词识别用句法依存关系、实体类型和词性等特征信息辅助触发词识别任务. 因此为了弥补传统事件触发词识别方法的不足,本研究工作提出了基于双向长短时记忆(bidirectional long short鄄term memory, BiLSTM) 和前向神经网络的融合模型,采用词预训练嵌入向量与其余特征进行拼接作为输入,能够同时基于词特征与句子全局特征进行触发词识别,因而可以有效避免耗时耗力的特征工程,其中 BiLSTM 能够有效地获取文本上下文的语义信息,是本模型能够取得较好效果的关键. 2 模型及算法描述本研究提出的基于 BiLSTM 的事件触发词识别方法如图 1 所示. 主要可以分为 3 个部分:输入部分完成词嵌入向量与其余词特征的拼接,高层语义表示获取部分由 BiLSTM 网络模型完成,最后组合词的嵌入特征与文本的语义特征,利用前向神经网络模型完成最后的触发词分类任务. 随后本文将简述模型的各个部分. 2郾 1 输入层作为模型第 k 时刻的输入,文本序列 T 中的词 t k沂T,使用它的两个特征进行拼接,Ew 沂R nw 伊 dw表示词的预训练嵌入表示,Eo沂R no 伊 do表示词的其他特征(实体类型、词性类型以及句法类型),nw ,no 分别表示词表的长度与其他特征类型的数量,dw ,do 分别表示词嵌入表示向量的维度与特征嵌入表示的维度. 通过两张词鄄鄄特征嵌入向量查找表,文本中的每个词都被映射至一个稠密的向量表示. 图 1 系统框架 Fig. 1 System framework 2郾 2 BiLSTM 模型由于实际需求中处理的文本长度可能过长,常用的循环神经网络( recurrent neural network,RNN) 无法解决长程依赖的问题,其表现为多时间步后梯度传播消失或者爆炸. 本模型选择 BiLSTM 网络模型,其中基本的 LSTM 网络中的隐藏神经元由多个记忆块组成,而记忆块的激活状态由输入门、遗忘门与输出门三个乘法门控制,利用门控制技术,因此能实现选择性地让信息通过,从而有效缓解循环神经网络中严重的梯度消失及爆炸问题. 如图 2 所示,LSTM 主要有三个阶段:信息遗忘阶段,在这个阶段中根据输入信息以及上一个时间步的隐藏层状态选择性地忘记上一个时间步的信息;信息记忆阶段,这个阶段中将依据输入信息对该时间步的输入进行选择性地记忆;输出阶段,这个阶段将依赖上一个时间步的信息以及本时间步的状态信息决定当前状态的输出. 图 2 LSTM 神经元结构图 Fig. 2 Structural diagram of LSTM neurons 其中各乘法门的表达式如下, 输入门表达式: Zi = sigmoid(Wi·[Vk;hk - 1 ] + bi) (1) ·1203·

.1204. 工程科学学报，第41卷，第9期 Z.=tanh (W..[V;hg-1]+b) (2) 加强的情况下，模型的复杂度没有大幅增加.在图1 遗忘门表达式：的前向神经网络输入部分，BiLSTM中的隐层状态作 Z=sigmoid(W:[V;h]+b) (3) 为整段文本的语义特征，词及词其余特征的嵌入表更新门表达式：示作为词的特征，将这两部分特征拼接起来作为前 Ck=Z:*Ck-1+Z*Z。 (4) 向神经网络模型的输入，同时考虑到集成学习能够 Z=sigmoid(W[V;h]+b) (5) 有效地提升模型的分类准确率，使用dropout层以达 y=Z tanh (C) (6) 到集成学习的效果，并在输入层使用Softmax函数式中：V=[E;E。]代表第k时刻输入词的嵌入表对触发词进行分类.其中前向神经网络的各层表达示；Z,Z,Z。,Z分别代表遗忘门单元，输入门单式如下，元，当前输入时间步以及输出门单元的状态；C4-1, f=g①V (7) C4分别代表k-1时刻和k时刻的状态信息；h:-1, h;=tanh (f+b) (8) :分别代表k-1时刻的隐层状态表示和k时刻的 p(ylf)=Softmax(H;+cam) (9) 隐层状态表示；W,W,W。,W分别代表遗忘门单其中，g:和V通过矩阵加法集成这两部分的信息元的权重矩阵、输人门单元的权重矩阵、当前输人单得到前向神经网络的输入∫，H,b:分别表示各隐含元状态权重矩阵和输出门单元的权重矩阵；b,b:, 层的参数，在本文模型中共有两层隐含层，因此i= b.,b分别代表遗忘门单元的偏置项、输人门单元 1,2.Hm,cm则表示输出层的参数，y表示具体的触的偏置项、当前输入单元的偏置项和输出门的偏置发词类型，P(yf)则表示前向神经网络对于当前输项，y:则表示第k时刻的网络输出入分类判断的概率分布情况 BiLSTM模型则是由前向LSTM与后向LSTM 2.4基于BiLSTM的触发词识别模型组合而成，如图3所示，其中L:,:表示不同的LSTM 如图1所示，本文的触发词识别模型由双向长神经元，相当于正序输入文本与反向输人词嵌人表短期记忆网络和前向神经网络融合组成.针对本研示，81,82,83，g4则表示网络输出的状态序列，与基究工作中网络模型的基本设置而言，BiLSTM的层数本的LSTM网络只利用了当前词之前的信息不同，为2，前向神经网络部分包含两层隐藏层并选择交 BiLSTM通过前向与后向过程建模输入文本的上下叉嫡作为模型的损失函数，此外dropout的概率设为文信息，能够得到更具有全局性的文本语义嵌入 0.3.为了获得更优的模型超参数以完整体现模型表示. 的优越性，通过将语料库划分为训练集、开发集以及验证集，划分比例为7：2：1，使用训练集和开发集进行模型的超参数选择，其中前向神经网络中隐藏层的神经元数量候选集为{110,120,130,140,150}， BilsTm BiLSTM网络中神经元数量候选集为{170,180,190，编码器 200,210}.基于训练误差和测试误差的变化趋势对比确定了最终的模型超参数，其中前向神经网络有两层隐藏层且隐藏层的神经元数量分别为130、词嵌入 110,同时BiLSTM的隐藏层中神经元数目为200. 表示 Watney 针对公共安全事件的触发词识别问题，考虑到高昂图3 BiLSTM模型结构图的计算代价和相关语料库的匮乏，本文选择使用预 Fig.3 Structural diagram of BiLSTM 训练模型并整合进自己的任务模型中.根据来斯惟 2.3前向神经网络模型的分析6]，对于利用词向量语义信息的任务，有着在最后的事件触发词分类部分，集成学习方法致的结论：维度越大，效果越好.结合其对任务性通常能够有效地提升模型的分类准确率，但是同时能随词向量维度变化的研究，本文使用Google开源考虑到集成学习的计算代价过于高昂，本模型中选的Bert预训练模型[]作为词的嵌入表示进行微调，择了带dropout的前向神经网络，dropout层表现为其中词嵌入的维度为300，词的其余嵌入特征为50 随机选择神经网络的连接，这一特性能够部分模拟维，该预训练模型基于带有自注意力机制的Trans- 集成学习的机理s).因此由带dropout的前向神经 former编码器多层堆叠构成，能够在低层较好地学网络对事件触发词进行分类，在保证分类效果得到习语法特征表示，在高层学习语义特征表示

工程科学学报,第 41 卷,第 9 期 Zc = tanh (Wc·[Vk;hk - 1 ] + bc) (2) 遗忘门表达式: Zf = sigmoid(Wf·[Vk;hk - 1 ] + bf) (3) 更新门表达式: Ck = Zf*Ck - 1 + Zi*Zc (4) Zou = sigmoid(Wou·[Vk;hk - 1 ] + bou ) (5) yk = Zou*tanh (Ck) (6) 式中:Vk = [Ew ;Eo]代表第 k 时刻输入词的嵌入表示;Zf,Zi,Zc,Zou 分别代表遗忘门单元,输入门单元,当前输入时间步以及输出门单元的状态;Ck - 1 , Ck 分别代表 k - 1 时刻和 k 时刻的状态信息;hk - 1 , hk 分别代表 k - 1 时刻的隐层状态表示和 k 时刻的隐层状态表示;Wf,Wi,Wc,Wou分别代表遗忘门单元的权重矩阵、输入门单元的权重矩阵、当前输入单元状态权重矩阵和输出门单元的权重矩阵;bf,bi, bc,bou分别代表遗忘门单元的偏置项、输入门单元的偏置项、当前输入单元的偏置项和输出门的偏置项,yk 则表示第 k 时刻的网络输出. BiLSTM 模型则是由前向 LSTM 与后向 LSTM 组合而成,如图 3 所示,其中 l i,ri 表示不同的 LSTM 神经元,相当于正序输入文本与反向输入词嵌入表示,g1 ,g2 ,g3 ,g4 则表示网络输出的状态序列,与基本的 LSTM 网络只利用了当前词之前的信息不同, BiLSTM 通过前向与后向过程建模输入文本的上下文信息,能够得到更具有全局性的文本语义嵌入表示. 图 3 BiLSTM 模型结构图 Fig. 3 Structural diagram of BiLSTM 2郾 3 前向神经网络模型在最后的事件触发词分类部分,集成学习方法通常能够有效地提升模型的分类准确率,但是同时考虑到集成学习的计算代价过于高昂,本模型中选择了带 dropout 的前向神经网络,dropout 层表现为随机选择神经网络的连接,这一特性能够部分模拟集成学习的机理[15] . 因此由带 dropout 的前向神经网络对事件触发词进行分类,在保证分类效果得到加强的情况下,模型的复杂度没有大幅增加. 在图 1 的前向神经网络输入部分,BiLSTM 中的隐层状态作为整段文本的语义特征,词及词其余特征的嵌入表示作为词的特征,将这两部分特征拼接起来作为前向神经网络模型的输入,同时考虑到集成学习能够有效地提升模型的分类准确率,使用 dropout 层以达到集成学习的效果,并在输入层使用 Softmax 函数对触发词进行分类. 其中前向神经网络的各层表达式如下, f = gk茌Vk (7) hi = tanh (Hi f + bi) (8) p(y |f) = Softmax(Houhi + cou ) (9) 其中,gk 和 Vk 通过矩阵加法集成这两部分的信息得到前向神经网络的输入 f,Hi,bi 分别表示各隐含层的参数,在本文模型中共有两层隐含层,因此 i = 1,2. Hou ,cou则表示输出层的参数,y 表示具体的触发词类型,p(y | f)则表示前向神经网络对于当前输入分类判断的概率分布情况. 2郾 4 基于 BiLSTM 的触发词识别模型如图 1 所示,本文的触发词识别模型由双向长短期记忆网络和前向神经网络融合组成. 针对本研究工作中网络模型的基本设置而言,BiLSTM 的层数为 2,前向神经网络部分包含两层隐藏层并选择交叉熵作为模型的损失函数,此外 dropout 的概率设为 0郾 3. 为了获得更优的模型超参数以完整体现模型的优越性,通过将语料库划分为训练集、开发集以及验证集,划分比例为 7颐 2颐 1,使用训练集和开发集进行模型的超参数选择,其中前向神经网络中隐藏层的神经元数量候选集为{110,120,130,140,150}, BiLSTM 网络中神经元数量候选集为{170,180,190, 200,210}. 基于训练误差和测试误差的变化趋势对比确定了最终的模型超参数,其中前向神经网络有两层隐藏层且隐藏层的神经元数量分别为 130、 110,同时 BiLSTM 的隐藏层中神经元数目为 200. 针对公共安全事件的触发词识别问题,考虑到高昂的计算代价和相关语料库的匮乏,本文选择使用预训练模型并整合进自己的任务模型中. 根据来斯惟的分析[16] ,对于利用词向量语义信息的任务,有着一致的结论:维度越大,效果越好. 结合其对任务性能随词向量维度变化的研究,本文使用 Google 开源的 Bert 预训练模型[17]作为词的嵌入表示进行微调, 其中词嵌入的维度为 300,词的其余嵌入特征为 50 维,该预训练模型基于带有自注意力机制的 Trans鄄 former 编码器多层堆叠构成,能够在低层较好地学习语法特征表示,在高层学习语义特征表示. ·1204·

易士翔等：基于BiLSTM的公共安全事件触发词识别 ·1205· 3实验与评估库标记了6个最重要的事件抽取信息：Event、Deno- ter、Time、Location、Participant和Object..Event用于 3.1实验环境描述事件；Denoter、Time、Location、Participant和Ob- 在操作系统Ubuntul6.04完成相应的实验， ject用于描述事件的指示词和要素. CPU处理器是Intel E5-26783,GPU显卡为Ge- 3.3实验设计 Force GTX1070Ti.同时，为了进行相应的实验，需要 CEC语料库被划分为训练集、开发集以及验证用到一些开源框架，如基于数据流编程的符号数学集，划分比例为7：2：1.模型的超参数通过开发集进系统TensorFLow,是一个基于数据流编程(dataflow 行调整，最终的模型训练基于训练集和开发集.由 programming)的符号数学系统，被广泛应用于各类于公共安全事件触发词识别是多分类任务，同时考机器学习算法的编程实现，Stanford CoreNLP是自然虑到各个事件类可能存在不平衡分布问题，模型评语言领域的工具包，集成了分词、词性标注以及句法价指标选择Micro-FI,其中Micro--FI的计算表达式解析等工具，LTP则是哈工大针对中文语种的自然如下，语言处理系统，表1详细给出了实验用到了软件及 ∑TP 开源工具 P= (10) ∑TP,+P, 表1实验环境所需软件及下载地址 Table 1 Required software and download link ∑TP: 软件版本号地址 R- (11) ∑TP:+FN TensorFlow 1.10 www.tensorflow.org Stanford CoreNLP 3.9.2 stanfordnlp.github.io/CoreNLP/ mico-F1=2P×R P+R (12) LTP 3.4.0 ltp.ai 式中，TP,表示分类i判断为正的正确率，FP,表示分 libSVM 3.23 www.csie.ntu.edu.tw/~cilin/libsvm/ 类i的误报率，FN:表示分类i的漏报率.P与R则 3.2数据集描述分别表示分类任务的精确率与召回率，通过计算得采用上海大学构建的中文突发事件语料库到P与R的加权调和平均数Micro-FI,能够较好地 (Chinese emergency corpus,CEC),其中包含了5类评判模型的整体性能. (地震、火灾、交通事故、恐怖袭击和食物中毒)突发 3.4实验结果及分析事件的社会新闻报道，同时该语料库对搜集的事件 3.4.1模型性能比较信息进行了预处理、文本分析、事件标注以及一致性由于中文相关语料库受限，多数事件触发词的检查等处理.CEC事件语料库的统计信息及其常见研究都未在CEC数据集上进行，因此论文选择复现触发词如表2所示. 传统机器学习与深度神经网络中的典型模型进行比较.其中有，Pyysalo等基于人工提取特征的支持表2CEC事件语料库及常见触发词 Table 2 Statistics of CEC and common trigger words 向量机分类模型，Zhou等[)从领域语料库里面获得类型篇数句子事件常见触发词词的领域信息表示，并与句法语义等特征信息进行 292682震级震源、震感组合，最终使用多核学习的方法进行分类，以及地震 45 交通事故49 265798酒后驾驶、相撞、碰撞、追尾 Wang等us]基于N-Gram特征与实体信息两类特征恐怖袭击30273456恐怖组织，自杀式袭击、劫持作为输入，采用卷积神经网络模型识别触发词.为食物中毒45 288701食物中毒，腐烂、呕吐、腹污了能够有效复现对比模型，论文基于libSVM与Ten- 火灾 31260496火灾，烧毁，浓烟，燃烧 sorFlow开源软件复现上述工作，在保证效果无损失的情况下，应用于本文的语料库进行实验，对比实验与ACE2005提供的数据集类似，CEC也采用了结果如表3所示. XML语言作为事件标注格式.相较而言，ACE语料可以看出，本文所提模型对比以往的基准模型，库只标注指定特征类型的事件以及事件元素，CEC 在Micro--F1评价指标下有一定的提升，相比于其他语料库则侧重于事件、事件的对象、时间、环境等事方法中最好的结果提高了约0.8个百分点.将文本件元素的标注，因此针对本文对公共安全事件场景特征提取、特征选择之后，输入到支持向量机中学习的研究，CEC是更合适的选择.更具体的，CEC语料分类决策函数并得到最优分割面，这类传统机器学

易士翔等: 基于 BiLSTM 的公共安全事件触发词识别 3 实验与评估 3郾 1 实验环境在操作系统 Ubuntu16郾 04 完成相应的实验, CPU 处理器是 Intel E5鄄鄄 2678 v3,GPU 显卡为 Ge鄄 Force GTX1070Ti. 同时,为了进行相应的实验,需要用到一些开源框架,如基于数据流编程的符号数学系统 TensorFLow,是一个基于数据流编程( dataflow programming)的符号数学系统,被广泛应用于各类机器学习算法的编程实现,Stanford CoreNLP 是自然语言领域的工具包,集成了分词、词性标注以及句法解析等工具,LTP 则是哈工大针对中文语种的自然语言处理系统,表 1 详细给出了实验用到了软件及开源工具. 表 1 实验环境所需软件及下载地址 Table 1 Required software and download link 软件版本号地址 TensorFlow 1郾 10 www. tensorflow. org Stanford CoreNLP 3郾 9郾 2 stanfordnlp. github. io / CoreNLP / LTP 3郾 4郾 0 ltp. ai libSVM 3郾 23 www. csie. ntu. edu. tw/ ~ cjlin / libsvm/ 3郾 2 数据集描述采用上海大学构建的中文突发事件语料库 (Chinese emergency corpus,CEC),其中包含了 5 类 (地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的社会新闻报道,同时该语料库对搜集的事件信息进行了预处理、文本分析、事件标注以及一致性检查等处理. CEC 事件语料库的统计信息及其常见触发词如表 2 所示. 表 2 CEC 事件语料库及常见触发词 Table 2 Statistics of CEC and common trigger words 类型篇数句子事件常见触发词地震 45 292 682 震级、震源、震感交通事故 49 265 798 酒后驾驶、相撞、碰撞、追尾恐怖袭击 30 273 456 恐怖组织、自杀式袭击、劫持食物中毒 45 288 701 食物中毒、腐烂、呕吐、腹泻火灾 31 260 496 火灾、烧毁、浓烟、燃烧与 ACE2005 提供的数据集类似,CEC 也采用了 XML 语言作为事件标注格式. 相较而言,ACE 语料库只标注指定特征类型的事件以及事件元素,CEC 语料库则侧重于事件、事件的对象、时间、环境等事件元素的标注,因此针对本文对公共安全事件场景的研究,CEC 是更合适的选择. 更具体的,CEC 语料库标记了 6 个最重要的事件抽取信息:Event、Deno鄄 ter、Time、Location、Participant 和 Object. Event 用于描述事件;Denoter、Time、Location、Participant 和 Ob鄄 ject 用于描述事件的指示词和要素. 3郾 3 实验设计 CEC 语料库被划分为训练集、开发集以及验证集,划分比例为 7颐 2颐 1. 模型的超参数通过开发集进行调整,最终的模型训练基于训练集和开发集. 由于公共安全事件触发词识别是多分类任务,同时考虑到各个事件类可能存在不平衡分布问题,模型评价指标选择 Micro鄄鄄F1,其中 Micro鄄鄄F1 的计算表达式如下, P = 移i TPi 移i TPi + FPi (10) R = 移i TPi 移i TPi + FNi (11) micro鄄F1 = 2 P 伊 R P + R (12) 式中,TPi 表示分类 i 判断为正的正确率,FPi 表示分类 i 的误报率,FNi 表示分类 i 的漏报率. P 与 R 则分别表示分类任务的精确率与召回率,通过计算得到 P 与 R 的加权调和平均数 Micro鄄鄄F1,能够较好地评判模型的整体性能. 3郾 4 实验结果及分析 3郾 4郾 1 模型性能比较由于中文相关语料库受限,多数事件触发词的研究都未在 CEC 数据集上进行,因此论文选择复现传统机器学习与深度神经网络中的典型模型进行比较. 其中有,Pyysalo 等[4] 基于人工提取特征的支持向量机分类模型,Zhou 等[5]从领域语料库里面获得词的领域信息表示,并与句法语义等特征信息进行组合,最终使用多核学习的方法进行分类,以及 Wang 等[18]基于 N鄄鄄Gram 特征与实体信息两类特征作为输入,采用卷积神经网络模型识别触发词. 为了能够有效复现对比模型,论文基于 libSVM 与 Ten鄄 sorFlow 开源软件复现上述工作,在保证效果无损失的情况下,应用于本文的语料库进行实验,对比实验结果如表 3 所示. 可以看出,本文所提模型对比以往的基准模型, 在 Micro鄄鄄F1 评价指标下有一定的提升,相比于其他方法中最好的结果提高了约 0郾 8 个百分点. 将文本特征提取、特征选择之后,输入到支持向量机中学习分类决策函数并得到最优分割面,这类传统机器学 ·1205·

·1206· 工程科学学报.第41卷，第9期表3模型性能比较对象元素可能相距较远，单独的词性或者实体类型 Table 3 Comparison of model performance 都不足以能够包含触发词的类型信息，而这恰恰是模型 P/% R/% Micro-F1/% 依存关系特征的优势所在 SVMC4] 76.45 71.04 73.65 表4特征性能比较 SVM+Embedding[5] 77.85 73.62 75.68 Table 4 Comparison of features performance CNN[I8] 79.21 76.53 77.85 序号特征 Micro-F1/% 本文模型 78.39 78.56 78.47 1 E..g 76.61 2 E.+E。,g(词性标签) 77.59 习方法虽然取得了较好的分类效果，但效果明显逊 3 78.18 色于本文模型，这说明了以往的典型模型，即传统机 E。+E。,g(实体类型) E。+E。g(依存关系) 78.47 器学习模型(SVM等)和简单的深度神经网络模型 (CNN等)重度依赖于自然语言处理工具会不断地引入误差，同时完全由经验决定的特征工程所得到结论的特征无法高效地表示文本信息.需要注意的是，针对传统事件触发词识别方法中存在的特征工基于CNN的触发词识别方法虽然在精度上超过本程复杂、低泛化性等问题，提出了一种基于双向长短文模型，但是在召回率上却大幅降低，这是由于在期记忆网络和前向神经网络的融合模型.该模型采 CNN模型中输入维度固定，因此同一时刻只能获取用词嵌入向量与其余词特征向量拼接后的向量表示固定窗口内的文本信息，也就是要求卷积的对象具作为输入，通过双向长短期记忆网络有效地捕捉上有局部相关性，而这在长文本中就会遇到无法学习下文信息生成高层次的文本语义信息表示，之后再到长程依赖的信息，此外召回率大幅下滑这一现象利用带dropout的前向网络模型对触发词进行分类. 在其余基准模型中也得到了体现，这在一定程度上基于该融合模型对中文突发事件语料库进行训练学说明了BiLSTM模型对于长文本信息捕捉能力的优习得到的触发词识别模型，相较于基准模型均有一越性. 定的提升，Micro-F1达到78.47%.对不同拼接特模型的收敛性方面，本文提出的BiLSTM-FNN 征的重要程度也进行了对比及分析，其中依存关系模型也体现了一定的优越性，本模型大约在20次左特征能够在实际应用中表征事件对象元素与触发词右就已经收敛，而卷积神经网络的则需要不断调整之间的依赖关系，因此与词性标签、实体类型两类特 batch-size等参数的大小，需要近800次左右才能完征相比其性能最优.在未来的工作中，将考虑并研全收敛.这是因为卷积操作能够获取的上下文信息究构建事件抽取的单模型方法，避免经过多个处理有限，相较而言BiLSTM模型则是能够双向建模长步骤导致的误差传播文本的语义信息，因此本模型能够更快地收敛 3.4.2特征性能比较参考文献通常文本分析能够得到大量的特征，主要可以 [1]Bjome J.Biomedical Event Extraction with Machine Learning 分为词法特征（词性标签、同义词）、句法特征（当前 Dissertation ]Turku:University of Turku,2014 [2]Xuan XX,Liao T,Gao BB.Automatic extraction of Chinese 词的依存词、词之间的依存关系等)、实体信息（实 event trigger word.Comput Digit Eng,2015,43(3):457 体类型、距离最近的实体类型).不同特征对于模型 (轩小星，廖涛，高贝贝.中文事件触发词的自动抽取研究性能的影响，对比结果如表4所示计算机与数字工程，2015,43(3)：457) 可以看出句法特征对于事件触发词识别任务的 [3]He X Y,Li L S.Trigger detection based on bidirectional LSTM 助益最大，其中词性信息通常用作语义角色标注及 and two-stage method.J Chin Inform Process,2017,31(6):147 (何馨宇，李丽双.基于双向LSTM和两阶段方法的触发词识实体识别等任务的辅助特征，从句法与语义的角度别.中文信息学报，2017,31(6)：147) 看，这部分特征对于触发词的相关信息表达极少，因 [4]Pyysalo S,Ohta T,Miwa M,et al.Event extraction across multi- 此在辅助触发词识别的特征中效果最差，而实体类 ple levels of biological organization.Bioinformatics,2012,28 型能够在一定程度上表征事件的各组成要素，诸如 (18):i575 时间、地点、对象等，所以对触发词识别任务的帮助 [5]Zhou D Y,Zhong D Y,He Y L.Event trigger identification for biomedical events extraction using domain knowledge.Bioinforma- 较大.通常事件触发词与事件的对象要素有直接的 tics,2014,30(11):1587 依存关系，而在实际的长文本中，事件触发词与事件 [6]Wei X M,Zhu Q,Lyu C,et al.A hybrid method to extract trig-

工程科学学报,第 41 卷,第 9 期表 3 模型性能比较 Table 3 Comparison of model performance 模型 P/ % R/ % Micro鄄鄄F1 / % SVM [4] 76郾 45 71郾 04 73郾 65 SVM + Embedding [5] 77郾 85 73郾 62 75郾 68 CNN [18] 79郾 21 76郾 53 77郾 85 本文模型 78郾 39 78郾 56 78郾 47 习方法虽然取得了较好的分类效果,但效果明显逊色于本文模型,这说明了以往的典型模型,即传统机器学习模型( SVM 等)和简单的深度神经网络模型 (CNN 等)重度依赖于自然语言处理工具会不断地引入误差,同时完全由经验决定的特征工程所得到的特征无法高效地表示文本信息. 需要注意的是, 基于 CNN 的触发词识别方法虽然在精度上超过本文模型,但是在召回率上却大幅降低,这是由于在 CNN 模型中输入维度固定,因此同一时刻只能获取固定窗口内的文本信息,也就是要求卷积的对象具有局部相关性,而这在长文本中就会遇到无法学习到长程依赖的信息,此外召回率大幅下滑这一现象在其余基准模型中也得到了体现,这在一定程度上说明了 BiLSTM 模型对于长文本信息捕捉能力的优越性. 模型的收敛性方面,本文提出的 BiLSTM鄄鄄 FNN 模型也体现了一定的优越性,本模型大约在 20 次左右就已经收敛,而卷积神经网络的则需要不断调整 batch鄄鄄size 等参数的大小,需要近 800 次左右才能完全收敛. 这是因为卷积操作能够获取的上下文信息有限,相较而言 BiLSTM 模型则是能够双向建模长文本的语义信息,因此本模型能够更快地收敛. 3郾 4郾 2 特征性能比较通常文本分析能够得到大量的特征,主要可以分为词法特征(词性标签、同义词)、句法特征(当前词的依存词、词之间的依存关系等)、实体信息(实体类型、距离最近的实体类型). 不同特征对于模型性能的影响,对比结果如表 4 所示. 可以看出句法特征对于事件触发词识别任务的助益最大,其中词性信息通常用作语义角色标注及实体识别等任务的辅助特征,从句法与语义的角度看,这部分特征对于触发词的相关信息表达极少,因此在辅助触发词识别的特征中效果最差,而实体类型能够在一定程度上表征事件的各组成要素,诸如时间、地点、对象等,所以对触发词识别任务的帮助较大. 通常事件触发词与事件的对象要素有直接的依存关系,而在实际的长文本中,事件触发词与事件对象元素可能相距较远,单独的词性或者实体类型都不足以能够包含触发词的类型信息,而这恰恰是依存关系特征的优势所在. 表 4 特征性能比较 Table 4 Comparison of features performance 序号特征 Micro鄄鄄F1 / % 1 Ew ,g 76郾 61 2 Ew + Eo,g(词性标签) 77郾 59 3 Ew + Eo,g(实体类型) 78郾 18 4 Ew + Eo,g(依存关系) 78郾 47 4 结论针对传统事件触发词识别方法中存在的特征工程复杂、低泛化性等问题,提出了一种基于双向长短期记忆网络和前向神经网络的融合模型. 该模型采用词嵌入向量与其余词特征向量拼接后的向量表示作为输入,通过双向长短期记忆网络有效地捕捉上下文信息生成高层次的文本语义信息表示,之后再利用带 dropout 的前向网络模型对触发词进行分类. 基于该融合模型对中文突发事件语料库进行训练学习得到的触发词识别模型,相较于基准模型均有一定的提升,Micro鄄鄄 F1 达到 78郾 47% . 对不同拼接特征的重要程度也进行了对比及分析,其中依存关系特征能够在实际应用中表征事件对象元素与触发词之间的依赖关系,因此与词性标签、实体类型两类特征相比其性能最优. 在未来的工作中,将考虑并研究构建事件抽取的单模型方法,避免经过多个处理步骤导致的误差传播. 参考文献 [1] Bj觟rne J. Biomedical Event Extraction with Machine Learning [Dissertation]. Turku: University of Turku, 2014 [2] Xuan X X, Liao T, Gao B B. Automatic extraction of Chinese event trigger word. Comput Digit Eng, 2015, 43(3): 457 (轩小星, 廖涛, 高贝贝. 中文事件触发词的自动抽取研究. 计算机与数字工程, 2015, 43(3): 457) [3] He X Y, Li L S. Trigger detection based on bidirectional LSTM and two鄄stage method. J Chin Inform Process, 2017, 31(6): 147 (何馨宇, 李丽双. 基于双向 LSTM 和两阶段方法的触发词识别. 中文信息学报, 2017, 31(6): 147) [4] Pyysalo S, Ohta T, Miwa M, et al. Event extraction across multi鄄 ple levels of biological organization. Bioinformatics, 2012, 28 (18): i575 [5] Zhou D Y, Zhong D Y, He Y L. Event trigger identification for biomedical events extraction using domain knowledge. Bioinforma鄄 tics, 2014, 30(11): 1587 [6] Wei X M, Zhu Q,Lyu C, et al. A hybrid method to extract trig鄄 ·1206·

易士翔等：基于BiLSTM的公共安全事件触发词识别 ·1207· gers in biomedical events.Digit Inform Manage,2015,13(4): tection based on bidirectional LSTM and CRF /2017 /EEE In- 298 ternational Conference on Bioinformatics and Biomedicine [7]Lousteau-Cazalet C,Barakat A,Belaud J P,et al.A decision (BIBM).Kansas City,2017:445 support system for eco-efficient biorefinery process comparison u- [13]Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic sing a semantic approach.Comput Electron Agric,2016,127:351 language model.J Mach Learn Res,2003,3:1137 [8]Chen Z Y,Huang Y,Wang Y,et al.Unsupervised method for e- [14]Peters M E,Neumann M,lyyer M,et al.Deep contextualized vent trigger identification and classification.Foreign Electron Meas word representations /Proceedings of the 2018 Conference of the Technol,2016,35(7):91 North American Chapter of the Association for Computational Lin- (陈自岩，黄宇，王洋，等.一种非监督的事件触发词检测和 guistics.New Orleans,2018:2227 分类方法.国外电子测量技术，2016,35(7)：91) [15]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:a simple [9]Wang Y,Wang J.Lin H F,et al.Bidirectional long short-term way to prevent neural networks from overfitting.Mach Learn memory with CRF for detecting biomedical event trigger in FastText Res,2014,15(1):1929 semantic space.BMC Bioinf.2018,19(Suppl 20):507 [16]Lai S W.Word and Document Embeddings Based on Neural Net- [10]Amami M,Elkhlifi A,Faiz R.Biological event extraction using cork Approaches Dissertation].Beijing:The University of Chi- SVM and composite kernel function /The Extraction and Knowl- nese Academy of Sciences,2016 edge Management Conference.Bordeaux,2012:333 (来斯惟.基于神经网络的词和文档语义向量表示方法研究 Amami M,Elkhlifi A,Faiz R.Biological event extraction using [学位论文].北京：中国科学院大学，2016) SVM and composite kernel function//Conference Internationale [17]Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deep Francophone sur F'Extraction et la Gestion des Connaissances.Bor- bidirectional transformers for language understandingProceed dcam,2012:333) ings of the 2019 Conference of the North American Chapter of the [11]Vanegas JA,Matos S,Gonzdlez F,et al.An overview of biomo- Association for Computational Linguistics.Minneapolis,2019 lecular event extraction from scientific documents.Comput Math [18]Wang J.Li HL.An Y,et al.Biomedical event trigger detection Methods Med,2015,2015:571381 based on convolutional neural network.Int I Data Min Bioinf, [12]Wang Y,Wang J,Lin H F,et al.Biomedical event trigger de- 2016,15(3):195

易士翔等: 基于 BiLSTM 的公共安全事件触发词识别 gers in biomedical events. J Digit Inform Manage, 2015, 13(4): 298 [7] Lousteau鄄Cazalet C, Barakat A, Belaud J P, et al. A decision support system for eco鄄efficient biorefinery process comparison u鄄 sing a semantic approach. Comput Electron Agric, 2016, 127: 351 [8] Chen Z Y, Huang Y, Wang Y, et al. Unsupervised method for e鄄 vent trigger identification and classification. Foreign Electron Meas Technol, 2016, 35(7): 91 (陈自岩, 黄宇, 王洋, 等. 一种非监督的事件触发词检测和分类方法. 国外电子测量技术, 2016, 35(7): 91) [9] Wang Y, Wang J, Lin H F, et al. Bidirectional long short鄄term memory with CRF for detecting biomedical event trigger in FastText semantic space. BMC Bioinf, 2018, 19(Suppl 20): 507 [10] Amami M, Elkhlifi A, Faiz R. Biological event extraction using SVM and composite kernel function / / The Extraction and Knowl鄄 edge Management Conference. Bordeaux, 2012: 333 (Amami M, Elkhlifi A, Faiz R. Biological event extraction using SVM and composite kernel function / / Conf佴rence Internationale Francophone sur l蒺Extraction et la Gestion des Connaissances. Bor鄄 deaux, 2012: 333) [11] Vanegas J A, Matos S, Gonz佗lez F, et al. An overview of biomo鄄 lecular event extraction from scientific documents. Comput Math Methods Med, 2015, 2015: 571381 [12] Wang Y, Wang J, Lin H F, et al. Biomedical event trigger de鄄 tection based on bidirectional LSTM and CRF / / 2017 IEEE In鄄 ternational Conference on Bioinformatics and Biomedicine (BIBM). Kansas City, 2017: 445 [13] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model. J Mach Learn Res, 2003, 3: 1137 [14] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations / / Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Lin鄄 guistics. New Orleans, 2018: 2227 [15] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to prevent neural networks from overfitting. J Mach Learn Res, 2014, 15(1): 1929 [16] Lai S W. Word and Document Embeddings Based on Neural Net鄄 work Approaches [Dissertation]. Beijing: The University of Chi鄄 nese Academy of Sciences, 2016 (来斯惟. 基于神经网络的词和文档语义向量表示方法研究 [学位论文]. 北京: 中国科学院大学, 2016) [17] Devlin J, Chang M W, Lee K, et al. Bert: Pre鄄training of deep bidirectional transformers for language understanding / / Proceed鄄 ings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis, 2019 [18] Wang J, Li H L, An Y, et al. Biomedical event trigger detection based on convolutional neural network. Int J Data Min Bioinf, 2016, 15(3): 195 ·1207·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录