正在加载图片...
·1206· 工程科学学报.第41卷,第9期 表3模型性能比较 对象元素可能相距较远,单独的词性或者实体类型 Table 3 Comparison of model performance 都不足以能够包含触发词的类型信息,而这恰恰是 模型 P/% R/% Micro-F1/% 依存关系特征的优势所在 SVMC4] 76.45 71.04 73.65 表4特征性能比较 SVM+Embedding[5] 77.85 73.62 75.68 Table 4 Comparison of features performance CNN[I8] 79.21 76.53 77.85 序号 特征 Micro-F1/% 本文模型 78.39 78.56 78.47 1 E..g 76.61 2 E.+E。,g(词性标签) 77.59 习方法虽然取得了较好的分类效果,但效果明显逊 3 78.18 色于本文模型,这说明了以往的典型模型,即传统机 E。+E。,g(实体类型) E。+E。g(依存关系) 78.47 器学习模型(SVM等)和简单的深度神经网络模型 (CNN等)重度依赖于自然语言处理工具会不断地 引入误差,同时完全由经验决定的特征工程所得到 结论 的特征无法高效地表示文本信息.需要注意的是, 针对传统事件触发词识别方法中存在的特征工 基于CNN的触发词识别方法虽然在精度上超过本 程复杂、低泛化性等问题,提出了一种基于双向长短 文模型,但是在召回率上却大幅降低,这是由于在 期记忆网络和前向神经网络的融合模型.该模型采 CNN模型中输入维度固定,因此同一时刻只能获取 用词嵌入向量与其余词特征向量拼接后的向量表示 固定窗口内的文本信息,也就是要求卷积的对象具 作为输入,通过双向长短期记忆网络有效地捕捉上 有局部相关性,而这在长文本中就会遇到无法学习 下文信息生成高层次的文本语义信息表示,之后再 到长程依赖的信息,此外召回率大幅下滑这一现象 利用带dropout的前向网络模型对触发词进行分类. 在其余基准模型中也得到了体现,这在一定程度上 基于该融合模型对中文突发事件语料库进行训练学 说明了BiLSTM模型对于长文本信息捕捉能力的优 习得到的触发词识别模型,相较于基准模型均有一 越性. 定的提升,Micro-F1达到78.47%.对不同拼接特 模型的收敛性方面,本文提出的BiLSTM-FNN 征的重要程度也进行了对比及分析,其中依存关系 模型也体现了一定的优越性,本模型大约在20次左 特征能够在实际应用中表征事件对象元素与触发词 右就已经收敛,而卷积神经网络的则需要不断调整 之间的依赖关系,因此与词性标签、实体类型两类特 batch-size等参数的大小,需要近800次左右才能完 征相比其性能最优.在未来的工作中,将考虑并研 全收敛.这是因为卷积操作能够获取的上下文信息 究构建事件抽取的单模型方法,避免经过多个处理 有限,相较而言BiLSTM模型则是能够双向建模长 步骤导致的误差传播 文本的语义信息,因此本模型能够更快地收敛 3.4.2特征性能比较 参考文献 通常文本分析能够得到大量的特征,主要可以 [1]Bjome J.Biomedical Event Extraction with Machine Learning 分为词法特征(词性标签、同义词)、句法特征(当前 Dissertation ]Turku:University of Turku,2014 [2]Xuan XX,Liao T,Gao BB.Automatic extraction of Chinese 词的依存词、词之间的依存关系等)、实体信息(实 event trigger word.Comput Digit Eng,2015,43(3):457 体类型、距离最近的实体类型).不同特征对于模型 (轩小星,廖涛,高贝贝.中文事件触发词的自动抽取研究 性能的影响,对比结果如表4所示 计算机与数字工程,2015,43(3):457) 可以看出句法特征对于事件触发词识别任务的 [3]He X Y,Li L S.Trigger detection based on bidirectional LSTM 助益最大,其中词性信息通常用作语义角色标注及 and two-stage method.J Chin Inform Process,2017,31(6):147 (何馨宇,李丽双.基于双向LSTM和两阶段方法的触发词识 实体识别等任务的辅助特征,从句法与语义的角度 别.中文信息学报,2017,31(6):147) 看,这部分特征对于触发词的相关信息表达极少,因 [4]Pyysalo S,Ohta T,Miwa M,et al.Event extraction across multi- 此在辅助触发词识别的特征中效果最差,而实体类 ple levels of biological organization.Bioinformatics,2012,28 型能够在一定程度上表征事件的各组成要素,诸如 (18):i575 时间、地点、对象等,所以对触发词识别任务的帮助 [5]Zhou D Y,Zhong D Y,He Y L.Event trigger identification for biomedical events extraction using domain knowledge.Bioinforma- 较大.通常事件触发词与事件的对象要素有直接的 tics,2014,30(11):1587 依存关系,而在实际的长文本中,事件触发词与事件 [6]Wei X M,Zhu Q,Lyu C,et al.A hybrid method to extract trig-工程科学学报,第 41 卷,第 9 期 表 3 模型性能比较 Table 3 Comparison of model performance 模型 P/ % R/ % Micro鄄鄄F1 / % SVM [4] 76郾 45 71郾 04 73郾 65 SVM + Embedding [5] 77郾 85 73郾 62 75郾 68 CNN [18] 79郾 21 76郾 53 77郾 85 本文模型 78郾 39 78郾 56 78郾 47 习方法虽然取得了较好的分类效果,但效果明显逊 色于本文模型,这说明了以往的典型模型,即传统机 器学习模型( SVM 等)和简单的深度神经网络模型 (CNN 等)重度依赖于自然语言处理工具会不断地 引入误差,同时完全由经验决定的特征工程所得到 的特征无法高效地表示文本信息. 需要注意的是, 基于 CNN 的触发词识别方法虽然在精度上超过本 文模型,但是在召回率上却大幅降低,这是由于在 CNN 模型中输入维度固定,因此同一时刻只能获取 固定窗口内的文本信息,也就是要求卷积的对象具 有局部相关性,而这在长文本中就会遇到无法学习 到长程依赖的信息,此外召回率大幅下滑这一现象 在其余基准模型中也得到了体现,这在一定程度上 说明了 BiLSTM 模型对于长文本信息捕捉能力的优 越性. 模型的收敛性方面,本文提出的 BiLSTM鄄鄄 FNN 模型也体现了一定的优越性,本模型大约在 20 次左 右就已经收敛,而卷积神经网络的则需要不断调整 batch鄄鄄size 等参数的大小,需要近 800 次左右才能完 全收敛. 这是因为卷积操作能够获取的上下文信息 有限,相较而言 BiLSTM 模型则是能够双向建模长 文本的语义信息,因此本模型能够更快地收敛. 3郾 4郾 2 特征性能比较 通常文本分析能够得到大量的特征,主要可以 分为词法特征(词性标签、同义词)、句法特征(当前 词的依存词、词之间的依存关系等)、实体信息(实 体类型、距离最近的实体类型). 不同特征对于模型 性能的影响,对比结果如表 4 所示. 可以看出句法特征对于事件触发词识别任务的 助益最大,其中词性信息通常用作语义角色标注及 实体识别等任务的辅助特征,从句法与语义的角度 看,这部分特征对于触发词的相关信息表达极少,因 此在辅助触发词识别的特征中效果最差,而实体类 型能够在一定程度上表征事件的各组成要素,诸如 时间、地点、对象等,所以对触发词识别任务的帮助 较大. 通常事件触发词与事件的对象要素有直接的 依存关系,而在实际的长文本中,事件触发词与事件 对象元素可能相距较远,单独的词性或者实体类型 都不足以能够包含触发词的类型信息,而这恰恰是 依存关系特征的优势所在. 表 4 特征性能比较 Table 4 Comparison of features performance 序号 特征 Micro鄄鄄F1 / % 1 Ew ,g 76郾 61 2 Ew + Eo,g(词性标签) 77郾 59 3 Ew + Eo,g(实体类型) 78郾 18 4 Ew + Eo,g(依存关系) 78郾 47 4 结论 针对传统事件触发词识别方法中存在的特征工 程复杂、低泛化性等问题,提出了一种基于双向长短 期记忆网络和前向神经网络的融合模型. 该模型采 用词嵌入向量与其余词特征向量拼接后的向量表示 作为输入,通过双向长短期记忆网络有效地捕捉上 下文信息生成高层次的文本语义信息表示,之后再 利用带 dropout 的前向网络模型对触发词进行分类. 基于该融合模型对中文突发事件语料库进行训练学 习得到的触发词识别模型,相较于基准模型均有一 定的提升,Micro鄄鄄 F1 达到 78郾 47% . 对不同拼接特 征的重要程度也进行了对比及分析,其中依存关系 特征能够在实际应用中表征事件对象元素与触发词 之间的依赖关系,因此与词性标签、实体类型两类特 征相比其性能最优. 在未来的工作中,将考虑并研 究构建事件抽取的单模型方法,避免经过多个处理 步骤导致的误差传播. 参 考 文 献 [1] Bj觟rne J. Biomedical Event Extraction with Machine Learning [Dissertation]. Turku: University of Turku, 2014 [2] Xuan X X, Liao T, Gao B B. Automatic extraction of Chinese event trigger word. Comput Digit Eng, 2015, 43(3): 457 (轩小星, 廖涛, 高贝贝. 中文事件触发词的自动抽取研究. 计算机与数字工程, 2015, 43(3): 457) [3] He X Y, Li L S. Trigger detection based on bidirectional LSTM and two鄄stage method. J Chin Inform Process, 2017, 31(6): 147 (何馨宇, 李丽双. 基于双向 LSTM 和两阶段方法的触发词识 别. 中文信息学报, 2017, 31(6): 147) [4] Pyysalo S, Ohta T, Miwa M, et al. Event extraction across multi鄄 ple levels of biological organization. Bioinformatics, 2012, 28 (18): i575 [5] Zhou D Y, Zhong D Y, He Y L. Event trigger identification for biomedical events extraction using domain knowledge. Bioinforma鄄 tics, 2014, 30(11): 1587 [6] Wei X M, Zhu Q,Lyu C, et al. A hybrid method to extract trig鄄 ·1206·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有