易士翔等: 基于 BiLSTM 的公共安全事件触发词识别 3 实验与评估

正在加载图片...

易士翔等：基于BiLSTM的公共安全事件触发词识别 ·1205· 3实验与评估库标记了6个最重要的事件抽取信息：Event、Deno- ter、Time、Location、Participant和Object..Event用于 3.1实验环境描述事件；Denoter、Time、Location、Participant和Ob- 在操作系统Ubuntul6.04完成相应的实验， ject用于描述事件的指示词和要素. CPU处理器是Intel E5-26783,GPU显卡为Ge- 3.3实验设计 Force GTX1070Ti.同时，为了进行相应的实验，需要 CEC语料库被划分为训练集、开发集以及验证用到一些开源框架，如基于数据流编程的符号数学集，划分比例为7：2：1.模型的超参数通过开发集进系统TensorFLow,是一个基于数据流编程(dataflow 行调整，最终的模型训练基于训练集和开发集.由 programming)的符号数学系统，被广泛应用于各类于公共安全事件触发词识别是多分类任务，同时考机器学习算法的编程实现，Stanford CoreNLP是自然虑到各个事件类可能存在不平衡分布问题，模型评语言领域的工具包，集成了分词、词性标注以及句法价指标选择Micro-FI,其中Micro--FI的计算表达式解析等工具，LTP则是哈工大针对中文语种的自然如下，语言处理系统，表1详细给出了实验用到了软件及 ∑TP 开源工具 P= (10) ∑TP,+P, 表1实验环境所需软件及下载地址 Table 1 Required software and download link ∑TP: 软件版本号地址 R- (11) ∑TP:+FN TensorFlow 1.10 www.tensorflow.org Stanford CoreNLP 3.9.2 stanfordnlp.github.io/CoreNLP/ mico-F1=2P×R P+R (12) LTP 3.4.0 ltp.ai 式中，TP,表示分类i判断为正的正确率，FP,表示分 libSVM 3.23 www.csie.ntu.edu.tw/~cilin/libsvm/ 类i的误报率，FN:表示分类i的漏报率.P与R则 3.2数据集描述分别表示分类任务的精确率与召回率，通过计算得采用上海大学构建的中文突发事件语料库到P与R的加权调和平均数Micro-FI,能够较好地 (Chinese emergency corpus,CEC),其中包含了5类评判模型的整体性能. (地震、火灾、交通事故、恐怖袭击和食物中毒)突发 3.4实验结果及分析事件的社会新闻报道，同时该语料库对搜集的事件 3.4.1模型性能比较信息进行了预处理、文本分析、事件标注以及一致性由于中文相关语料库受限，多数事件触发词的检查等处理.CEC事件语料库的统计信息及其常见研究都未在CEC数据集上进行，因此论文选择复现触发词如表2所示. 传统机器学习与深度神经网络中的典型模型进行比较.其中有，Pyysalo等基于人工提取特征的支持表2CEC事件语料库及常见触发词 Table 2 Statistics of CEC and common trigger words 向量机分类模型，Zhou等[)从领域语料库里面获得类型篇数句子事件常见触发词词的领域信息表示，并与句法语义等特征信息进行 292682震级震源、震感组合，最终使用多核学习的方法进行分类，以及地震 45 交通事故49 265798酒后驾驶、相撞、碰撞、追尾 Wang等us]基于N-Gram特征与实体信息两类特征恐怖袭击30273456恐怖组织，自杀式袭击、劫持作为输入，采用卷积神经网络模型识别触发词.为食物中毒45 288701食物中毒，腐烂、呕吐、腹污了能够有效复现对比模型，论文基于libSVM与Ten- 火灾 31260496火灾，烧毁，浓烟，燃烧 sorFlow开源软件复现上述工作，在保证效果无损失的情况下，应用于本文的语料库进行实验，对比实验与ACE2005提供的数据集类似，CEC也采用了结果如表3所示. XML语言作为事件标注格式.相较而言，ACE语料可以看出，本文所提模型对比以往的基准模型，库只标注指定特征类型的事件以及事件元素，CEC 在Micro--F1评价指标下有一定的提升，相比于其他语料库则侧重于事件、事件的对象、时间、环境等事方法中最好的结果提高了约0.8个百分点.将文本件元素的标注，因此针对本文对公共安全事件场景特征提取、特征选择之后，输入到支持向量机中学习的研究，CEC是更合适的选择.更具体的，CEC语料分类决策函数并得到最优分割面，这类传统机器学易士翔等: 基于 BiLSTM 的公共安全事件触发词识别 3 实验与评估 3郾 1 实验环境在操作系统 Ubuntu16郾 04 完成相应的实验, CPU 处理器是 Intel E5鄄鄄 2678 v3,GPU 显卡为 Ge鄄 Force GTX1070Ti. 同时,为了进行相应的实验,需要用到一些开源框架,如基于数据流编程的符号数学系统 TensorFLow,是一个基于数据流编程( dataflow programming)的符号数学系统,被广泛应用于各类机器学习算法的编程实现,Stanford CoreNLP 是自然语言领域的工具包,集成了分词、词性标注以及句法解析等工具,LTP 则是哈工大针对中文语种的自然语言处理系统,表 1 详细给出了实验用到了软件及开源工具. 表 1 实验环境所需软件及下载地址 Table 1 Required software and download link 软件版本号地址 TensorFlow 1郾 10 www. tensorflow. org Stanford CoreNLP 3郾 9郾 2 stanfordnlp. github. io / CoreNLP / LTP 3郾 4郾 0 ltp. ai libSVM 3郾 23 www. csie. ntu. edu. tw/ ~ cjlin / libsvm/ 3郾 2 数据集描述采用上海大学构建的中文突发事件语料库 (Chinese emergency corpus,CEC),其中包含了 5 类 (地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的社会新闻报道,同时该语料库对搜集的事件信息进行了预处理、文本分析、事件标注以及一致性检查等处理. CEC 事件语料库的统计信息及其常见触发词如表 2 所示. 表 2 CEC 事件语料库及常见触发词 Table 2 Statistics of CEC and common trigger words 类型篇数句子事件常见触发词地震 45 292 682 震级、震源、震感交通事故 49 265 798 酒后驾驶、相撞、碰撞、追尾恐怖袭击 30 273 456 恐怖组织、自杀式袭击、劫持食物中毒 45 288 701 食物中毒、腐烂、呕吐、腹泻火灾 31 260 496 火灾、烧毁、浓烟、燃烧与 ACE2005 提供的数据集类似,CEC 也采用了 XML 语言作为事件标注格式. 相较而言,ACE 语料库只标注指定特征类型的事件以及事件元素,CEC 语料库则侧重于事件、事件的对象、时间、环境等事件元素的标注,因此针对本文对公共安全事件场景的研究,CEC 是更合适的选择. 更具体的,CEC 语料库标记了 6 个最重要的事件抽取信息:Event、Deno鄄 ter、Time、Location、Participant 和 Object. Event 用于描述事件;Denoter、Time、Location、Participant 和 Ob鄄 ject 用于描述事件的指示词和要素. 3郾 3 实验设计 CEC 语料库被划分为训练集、开发集以及验证集,划分比例为 7颐 2颐 1. 模型的超参数通过开发集进行调整,最终的模型训练基于训练集和开发集. 由于公共安全事件触发词识别是多分类任务,同时考虑到各个事件类可能存在不平衡分布问题,模型评价指标选择 Micro鄄鄄F1,其中 Micro鄄鄄F1 的计算表达式如下, P = 移i TPi 移i TPi + FPi (10) R = 移i TPi 移i TPi + FNi (11) micro鄄F1 = 2 P 伊 R P + R (12) 式中,TPi 表示分类 i 判断为正的正确率,FPi 表示分类 i 的误报率,FNi 表示分类 i 的漏报率. P 与 R 则分别表示分类任务的精确率与召回率,通过计算得到 P 与 R 的加权调和平均数 Micro鄄鄄F1,能够较好地评判模型的整体性能. 3郾 4 实验结果及分析 3郾 4郾 1 模型性能比较由于中文相关语料库受限,多数事件触发词的研究都未在 CEC 数据集上进行,因此论文选择复现传统机器学习与深度神经网络中的典型模型进行比较. 其中有,Pyysalo 等[4] 基于人工提取特征的支持向量机分类模型,Zhou 等[5]从领域语料库里面获得词的领域信息表示,并与句法语义等特征信息进行组合,最终使用多核学习的方法进行分类,以及 Wang 等[18]基于 N鄄鄄Gram 特征与实体信息两类特征作为输入,采用卷积神经网络模型识别触发词. 为了能够有效复现对比模型,论文基于 libSVM 与 Ten鄄 sorFlow 开源软件复现上述工作,在保证效果无损失的情况下,应用于本文的语料库进行实验,对比实验结果如表 3 所示. 可以看出,本文所提模型对比以往的基准模型, 在 Micro鄄鄄F1 评价指标下有一定的提升,相比于其他方法中最好的结果提高了约 0郾 8 个百分点. 将文本特征提取、特征选择之后,输入到支持向量机中学习分类决策函数并得到最优分割面,这类传统机器学 ·1205·

<<向上翻页向下翻页>>

点击下载：基于BiLSTM的公共安全事件触发词识别