工程科学学报,第 41 卷,第 9 期 of speech, syntax

正在加载图片...

·1202· 工程科学学报，第41卷，第9期 of speech,syntax,and entity,in text analysis was analyzed.It is concluded that syntactic features are most helpful to the task of event- trigger word recognition. KEY WORDS trigger words;bidirectional long short-term memory;forward neural network;security event;contacted features 随着信息科技的快速发展，我国的互联网规模触发词识别任务的开始阶段用于构建种子触发词词迅速增长，互联网成为获取社会公共资讯的最快途典，方便后续模型对其进行拓展和修正.随着机器径，面对迅猛增长的互联网信息，快速发现并准确学习方法的发展，大量基于传统机器学习模型的事定位公众关注和讨论的事件变得至关重要.因此众件触发词识别方法被提出.主要通过大量特征工程多学者开始探索将信息化手段应用于公共安全事件进行特征表示、特征选择，再采用支持向量机或者条的发现和抽取研究，探索依靠高度发展的信息科技件随机场等模型进行触发词分类.这类方法大大节提升社会公共安全管理与决策水平.而公共安全事省了人力成本，但是传统机器学习方法极其依赖特件发现及抽取的第一步就是触发词识别，这里的触征工程中提取的特征，通常这类特征无法泛化到其发词的类型也就是整段文本所描述事件的类型，在他领域，以至于在模型迁移的时候导致“偏见”，性后续正文中，没有特别说明，触发词识别任务将包含能出现大幅度下降.同时由于机器学习的方法极其触发词分类这一子任务.Bjorne)的研究显示事件依赖自然语言处理工具的实现及其效果，这些工具抽取中出现的错误有超过60%来源于触发词识别引入的误差很容易影响事件触发词识别的性能阶段.如果触发词识别出现偏差，后续的工作也就近年来，深度网络模型的火热发展，给事件触发不再有可行性和有效性.所以，高质量地完成触发词识别任务带来了新的研究思路，深度学习的重要词识别任务是后续进行公共安全事件抽取的保证. 特点就是能够通过多层的网络结构自动获取数据的特征表达，且该特征表达能够具有泛化性，能够适应 1研究现状于不同的任务.文本表示学习就能够很好地解决文国内外学者针对事件触发词的识别问题展开研本特征表达方面的问题.文本表示学习通过学习自究并取得了一定的成果，国内方面，轩小星等]在然语言的数学描述来表示语言，以此抽象出文本中种子触发词的基础上，通过支持向量机(support vec- 本质信息（语义、句法等）的可计算表示，能够衡量 tor machine,SVM)不断扩展触发词表.何馨宇与李文本间的关联信息.Bengio等[1s]通过神经网络模丽双[3]则使用两个长短期记忆(long short--tem 型进行上下文预测，得到的词嵌入表示在其他自然 memory,LSTM)模型分别进行触发词识别与分类，有语言处理任务中取得了出乎意料的效果.Peters意效缓解了事件语料库中存在的数据不平衡问题.国识到神经网络的结构层次中较低层能够学习词性等外方面，Pyysalo等通过数据处理得到大量的手工信息，较高层则对语义有较好的编码效果，基于这一特征并在支持向量机上完成了触发词识别任务. 特性，Peters等a构建了ELMo(embeddings from Zou等)则是利用词嵌入表示在支持向量机上取 language models)模型，在文本分类、语义角色标注得了更好的结果.Wei等[]提出了流水线式识别方等任务中都有可观的效果.目前将文本表示应用于法，通过条件随机场(conditional random field,CRF) 高层任务有两种具体的策略，基于特征的策略与微标记有效的触发词，然后基于支持向量机对触发词调(fne-tuning)策略，基于特征的策略将文本表示作类型进行判断为额外的模型特征，另一种选择，则是借助迁移学习根据以往研究成果的总结，事件触发词的识别的思路，在预训练文本表示上基于自行构建的小型方法可以被概括为3类：基于统计的方法[-8】、基于领域语料库进行微调预训练参数，通常可以达到更传统机器学习9-1o]的方法以及基于深度学习-2】好的效果的方法.基于统计的方法指人工统计并建立较完整同时汉语本身具有结构多变、表达含义丰富等的触发词词典，同时定义一些规则去寻找触发词，该特点.例如，“恐怖分子挟持飞机撞向位于弗吉尼亚类方法简单且效果较好，但是其人工标注代价非常州阿灵顿县的五角大楼”，“摩托车和物流车同时撞高，并且要求语料具有普遍性且足够丰富，但是由于向护栏，致半挂车报废”，以上两个句子中均包含事语言的发展以及技术的限制，也无法完全通过定义件触发词“撞向”，但是这两句描述分属于不同的触规则进行筛选，因此实际上不可能获得一个较为完发词类型（恐怖袭击和交通事故）.因此在进行事件备的触发词词典.一般地，基于统计的方法被用在触发词识别时不能只单独考虑句子本身，还应该利工程科学学报,第 41 卷,第 9 期 of speech, syntax, and entity, in text analysis was analyzed. It is concluded that syntactic features are most helpful to the task of event鄄 trigger word recognition. KEY WORDS trigger words; bidirectional long short鄄term memory; forward neural network; security event; contacted features 随着信息科技的快速发展,我国的互联网规模迅速增长, 互联网成为获取社会公共资讯的最快途径, 面对迅猛增长的互联网信息, 快速发现并准确定位公众关注和讨论的事件变得至关重要. 因此众多学者开始探索将信息化手段应用于公共安全事件的发现和抽取研究,探索依靠高度发展的信息科技提升社会公共安全管理与决策水平. 而公共安全事件发现及抽取的第一步就是触发词识别,这里的触发词的类型也就是整段文本所描述事件的类型,在后续正文中,没有特别说明,触发词识别任务将包含触发词分类这一子任务. Bj觟rne [1] 的研究显示事件抽取中出现的错误有超过 60% 来源于触发词识别阶段. 如果触发词识别出现偏差,后续的工作也就不再有可行性和有效性. 所以,高质量地完成触发词识别任务是后续进行公共安全事件抽取的保证. 1 研究现状国内外学者针对事件触发词的识别问题展开研究并取得了一定的成果,国内方面,轩小星等[2] 在种子触发词的基础上,通过支持向量机(support vec鄄 tor machine,SVM)不断扩展触发词表. 何馨宇与李丽双[3] 则使用两个长短期记忆 ( long short鄄term memory,LSTM)模型分别进行触发词识别与分类,有效缓解了事件语料库中存在的数据不平衡问题. 国外方面,Pyysalo 等[4]通过数据处理得到大量的手工特征并在支持向量机上完成了触发词识别任务. Zhou 等[5]则是利用词嵌入表示在支持向量机上取得了更好的结果. Wei 等[6]提出了流水线式识别方法,通过条件随机场( conditional random field,CRF) 标记有效的触发词,然后基于支持向量机对触发词类型进行判断. 根据以往研究成果的总结,事件触发词的识别方法可以被概括为 3 类:基于统计的方法[7鄄鄄8] 、基于传统机器学习[9鄄鄄10] 的方法以及基于深度学习[11鄄鄄12] 的方法. 基于统计的方法指人工统计并建立较完整的触发词词典,同时定义一些规则去寻找触发词,该类方法简单且效果较好,但是其人工标注代价非常高,并且要求语料具有普遍性且足够丰富,但是由于语言的发展以及技术的限制,也无法完全通过定义规则进行筛选,因此实际上不可能获得一个较为完备的触发词词典. 一般地,基于统计的方法被用在触发词识别任务的开始阶段用于构建种子触发词词典,方便后续模型对其进行拓展和修正. 随着机器学习方法的发展,大量基于传统机器学习模型的事件触发词识别方法被提出. 主要通过大量特征工程进行特征表示、特征选择,再采用支持向量机或者条件随机场等模型进行触发词分类. 这类方法大大节省了人力成本,但是传统机器学习方法极其依赖特征工程中提取的特征,通常这类特征无法泛化到其他领域,以至于在模型迁移的时候导致“偏见冶,性能出现大幅度下降. 同时由于机器学习的方法极其依赖自然语言处理工具的实现及其效果,这些工具引入的误差很容易影响事件触发词识别的性能. 近年来,深度网络模型的火热发展,给事件触发词识别任务带来了新的研究思路,深度学习的重要特点就是能够通过多层的网络结构自动获取数据的特征表达,且该特征表达能够具有泛化性,能够适应于不同的任务. 文本表示学习就能够很好地解决文本特征表达方面的问题. 文本表示学习通过学习自然语言的数学描述来表示语言,以此抽象出文本中本质信息(语义、句法等)的可计算表示,能够衡量文本间的关联信息. Bengio 等[13] 通过神经网络模型进行上下文预测,得到的词嵌入表示在其他自然语言处理任务中取得了出乎意料的效果. Peters 意识到神经网络的结构层次中较低层能够学习词性等信息,较高层则对语义有较好的编码效果,基于这一特性, Peters 等[14] 构建了 ELMo ( embeddings from language models)模型,在文本分类、语义角色标注等任务中都有可观的效果. 目前将文本表示应用于高层任务有两种具体的策略,基于特征的策略与微调(fine鄄tuning)策略,基于特征的策略将文本表示作为额外的模型特征,另一种选择,则是借助迁移学习的思路,在预训练文本表示上基于自行构建的小型领域语料库进行微调预训练参数,通常可以达到更好的效果. 同时汉语本身具有结构多变、表达含义丰富等特点. 例如,“恐怖分子挟持飞机撞向位于弗吉尼亚州阿灵顿县的五角大楼冶,“摩托车和物流车同时撞向护栏,致半挂车报废冶,以上两个句子中均包含事件触发词“撞向冶,但是这两句描述分属于不同的触发词类型(恐怖袭击和交通事故). 因此在进行事件触发词识别时不能只单独考虑句子本身,还应该利 ·1202·

<<向上翻页向下翻页>>

点击下载：基于BiLSTM的公共安全事件触发词识别