正在加载图片...
·1202· 工程科学学报,第41卷,第9期 of speech,syntax,and entity,in text analysis was analyzed.It is concluded that syntactic features are most helpful to the task of event- trigger word recognition. KEY WORDS trigger words;bidirectional long short-term memory;forward neural network;security event;contacted features 随着信息科技的快速发展,我国的互联网规模 触发词识别任务的开始阶段用于构建种子触发词词 迅速增长,互联网成为获取社会公共资讯的最快途 典,方便后续模型对其进行拓展和修正.随着机器 径,面对迅猛增长的互联网信息,快速发现并准确 学习方法的发展,大量基于传统机器学习模型的事 定位公众关注和讨论的事件变得至关重要.因此众 件触发词识别方法被提出.主要通过大量特征工程 多学者开始探索将信息化手段应用于公共安全事件 进行特征表示、特征选择,再采用支持向量机或者条 的发现和抽取研究,探索依靠高度发展的信息科技 件随机场等模型进行触发词分类.这类方法大大节 提升社会公共安全管理与决策水平.而公共安全事 省了人力成本,但是传统机器学习方法极其依赖特 件发现及抽取的第一步就是触发词识别,这里的触 征工程中提取的特征,通常这类特征无法泛化到其 发词的类型也就是整段文本所描述事件的类型,在 他领域,以至于在模型迁移的时候导致“偏见”,性 后续正文中,没有特别说明,触发词识别任务将包含 能出现大幅度下降.同时由于机器学习的方法极其 触发词分类这一子任务.Bjorne)的研究显示事件 依赖自然语言处理工具的实现及其效果,这些工具 抽取中出现的错误有超过60%来源于触发词识别 引入的误差很容易影响事件触发词识别的性能 阶段.如果触发词识别出现偏差,后续的工作也就 近年来,深度网络模型的火热发展,给事件触发 不再有可行性和有效性.所以,高质量地完成触发 词识别任务带来了新的研究思路,深度学习的重要 词识别任务是后续进行公共安全事件抽取的保证. 特点就是能够通过多层的网络结构自动获取数据的 特征表达,且该特征表达能够具有泛化性,能够适应 1研究现状 于不同的任务.文本表示学习就能够很好地解决文 国内外学者针对事件触发词的识别问题展开研 本特征表达方面的问题.文本表示学习通过学习自 究并取得了一定的成果,国内方面,轩小星等]在 然语言的数学描述来表示语言,以此抽象出文本中 种子触发词的基础上,通过支持向量机(support vec- 本质信息(语义、句法等)的可计算表示,能够衡量 tor machine,SVM)不断扩展触发词表.何馨宇与李 文本间的关联信息.Bengio等[1s]通过神经网络模 丽双[3]则使用两个长短期记忆(long short--tem 型进行上下文预测,得到的词嵌入表示在其他自然 memory,LSTM)模型分别进行触发词识别与分类,有 语言处理任务中取得了出乎意料的效果.Peters意 效缓解了事件语料库中存在的数据不平衡问题.国 识到神经网络的结构层次中较低层能够学习词性等 外方面,Pyysalo等通过数据处理得到大量的手工 信息,较高层则对语义有较好的编码效果,基于这一 特征并在支持向量机上完成了触发词识别任务. 特性,Peters等a构建了ELMo(embeddings from Zou等)则是利用词嵌入表示在支持向量机上取 language models)模型,在文本分类、语义角色标注 得了更好的结果.Wei等[]提出了流水线式识别方 等任务中都有可观的效果.目前将文本表示应用于 法,通过条件随机场(conditional random field,CRF) 高层任务有两种具体的策略,基于特征的策略与微 标记有效的触发词,然后基于支持向量机对触发词 调(fne-tuning)策略,基于特征的策略将文本表示作 类型进行判断 为额外的模型特征,另一种选择,则是借助迁移学习 根据以往研究成果的总结,事件触发词的识别 的思路,在预训练文本表示上基于自行构建的小型 方法可以被概括为3类:基于统计的方法[-8】、基于 领域语料库进行微调预训练参数,通常可以达到更 传统机器学习9-1o]的方法以及基于深度学习-2】 好的效果 的方法.基于统计的方法指人工统计并建立较完整 同时汉语本身具有结构多变、表达含义丰富等 的触发词词典,同时定义一些规则去寻找触发词,该 特点.例如,“恐怖分子挟持飞机撞向位于弗吉尼亚 类方法简单且效果较好,但是其人工标注代价非常 州阿灵顿县的五角大楼”,“摩托车和物流车同时撞 高,并且要求语料具有普遍性且足够丰富,但是由于 向护栏,致半挂车报废”,以上两个句子中均包含事 语言的发展以及技术的限制,也无法完全通过定义 件触发词“撞向”,但是这两句描述分属于不同的触 规则进行筛选,因此实际上不可能获得一个较为完 发词类型(恐怖袭击和交通事故).因此在进行事件 备的触发词词典.一般地,基于统计的方法被用在 触发词识别时不能只单独考虑句子本身,还应该利工程科学学报,第 41 卷,第 9 期 of speech, syntax, and entity, in text analysis was analyzed. It is concluded that syntactic features are most helpful to the task of event鄄 trigger word recognition. KEY WORDS trigger words; bidirectional long short鄄term memory; forward neural network; security event; contacted features 随着信息科技的快速发展,我国的互联网规模 迅速增长, 互联网成为获取社会公共资讯的最快途 径, 面对迅猛增长的互联网信息, 快速发现并准确 定位公众关注和讨论的事件变得至关重要. 因此众 多学者开始探索将信息化手段应用于公共安全事件 的发现和抽取研究,探索依靠高度发展的信息科技 提升社会公共安全管理与决策水平. 而公共安全事 件发现及抽取的第一步就是触发词识别,这里的触 发词的类型也就是整段文本所描述事件的类型,在 后续正文中,没有特别说明,触发词识别任务将包含 触发词分类这一子任务. Bj觟rne [1] 的研究显示事件 抽取中出现的错误有超过 60% 来源于触发词识别 阶段. 如果触发词识别出现偏差,后续的工作也就 不再有可行性和有效性. 所以,高质量地完成触发 词识别任务是后续进行公共安全事件抽取的保证. 1 研究现状 国内外学者针对事件触发词的识别问题展开研 究并取得了一定的成果,国内方面,轩小星等[2] 在 种子触发词的基础上,通过支持向量机(support vec鄄 tor machine,SVM)不断扩展触发词表. 何馨宇与李 丽双[3] 则 使 用 两 个 长 短 期 记 忆 ( long short鄄term memory,LSTM)模型分别进行触发词识别与分类,有 效缓解了事件语料库中存在的数据不平衡问题. 国 外方面,Pyysalo 等[4]通过数据处理得到大量的手工 特征并在支持向量机上完成了触发词识别任务. Zhou 等[5]则是利用词嵌入表示在支持向量机上取 得了更好的结果. Wei 等[6]提出了流水线式识别方 法,通过条件随机场( conditional random field,CRF) 标记有效的触发词,然后基于支持向量机对触发词 类型进行判断. 根据以往研究成果的总结,事件触发词的识别 方法可以被概括为 3 类:基于统计的方法[7鄄鄄8] 、基于 传统机器学习[9鄄鄄10] 的方法以及基于深度学习[11鄄鄄12] 的方法. 基于统计的方法指人工统计并建立较完整 的触发词词典,同时定义一些规则去寻找触发词,该 类方法简单且效果较好,但是其人工标注代价非常 高,并且要求语料具有普遍性且足够丰富,但是由于 语言的发展以及技术的限制,也无法完全通过定义 规则进行筛选,因此实际上不可能获得一个较为完 备的触发词词典. 一般地,基于统计的方法被用在 触发词识别任务的开始阶段用于构建种子触发词词 典,方便后续模型对其进行拓展和修正. 随着机器 学习方法的发展,大量基于传统机器学习模型的事 件触发词识别方法被提出. 主要通过大量特征工程 进行特征表示、特征选择,再采用支持向量机或者条 件随机场等模型进行触发词分类. 这类方法大大节 省了人力成本,但是传统机器学习方法极其依赖特 征工程中提取的特征,通常这类特征无法泛化到其 他领域,以至于在模型迁移的时候导致“偏见冶,性 能出现大幅度下降. 同时由于机器学习的方法极其 依赖自然语言处理工具的实现及其效果,这些工具 引入的误差很容易影响事件触发词识别的性能. 近年来,深度网络模型的火热发展,给事件触发 词识别任务带来了新的研究思路,深度学习的重要 特点就是能够通过多层的网络结构自动获取数据的 特征表达,且该特征表达能够具有泛化性,能够适应 于不同的任务. 文本表示学习就能够很好地解决文 本特征表达方面的问题. 文本表示学习通过学习自 然语言的数学描述来表示语言,以此抽象出文本中 本质信息(语义、句法等)的可计算表示,能够衡量 文本间的关联信息. Bengio 等[13] 通过神经网络模 型进行上下文预测,得到的词嵌入表示在其他自然 语言处理任务中取得了出乎意料的效果. Peters 意 识到神经网络的结构层次中较低层能够学习词性等 信息,较高层则对语义有较好的编码效果,基于这一 特性, Peters 等[14] 构建了 ELMo ( embeddings from language models)模型,在文本分类、语义角色标注 等任务中都有可观的效果. 目前将文本表示应用于 高层任务有两种具体的策略,基于特征的策略与微 调(fine鄄tuning)策略,基于特征的策略将文本表示作 为额外的模型特征,另一种选择,则是借助迁移学习 的思路,在预训练文本表示上基于自行构建的小型 领域语料库进行微调预训练参数,通常可以达到更 好的效果. 同时汉语本身具有结构多变、表达含义丰富等 特点. 例如,“恐怖分子挟持飞机撞向位于弗吉尼亚 州阿灵顿县的五角大楼冶,“摩托车和物流车同时撞 向护栏,致半挂车报废冶,以上两个句子中均包含事 件触发词“撞向冶,但是这两句描述分属于不同的触 发词类型(恐怖袭击和交通事故). 因此在进行事件 触发词识别时不能只单独考虑句子本身,还应该利 ·1202·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有