结果整合成最终的输出特征。线性连接层定义的数学形式为 hcomb=Wco

正在加载图片...

·522· 智能系统学报第16卷结果整合成最终的输出特征。线性连接层定义的例，依次设置k=2,3,4,5,6],下面讨论k值对所提数学形式为模型性能的影响。表1展示了不同k值下所提模 hicomb=Wcomb hout +bcomb 型的F指标值。可以看出，当仁4时，模型得到式中：Wob是线性连接层的权重矩阵；bomb是线性了最佳的F指标值。鉴于此，后续实验中设置一4。连接层的偏置矩阵；ncomb为最终输出的特征。表1不同k值下所提模型的实验结果 2.7输出层 Table 1 Experimental results obtained using the pro- 针对最终输出的特征homb,先通过最大池化 posed model with different k values 号层，保留句子中最重要的特征，再通过softmax函 k头数 F 数计算每一个类别的条件概率，进而输出模型预 =2 84.6 测特征的标签类别。每一个特征对应标签类别的 =3 85.1 预测概率为 =4 85.3 i,i=1,2…,N =5 84.7 p(h)= 了hob k=6 84.6 3.3评价指标 3 实验分析本文采用关系抽取任务中常用的3类评价指标：精确率P、召回率R和F值。二分类中常用 3.1数据集的计算公式为本节在2个常用的关系抽取数据集中验证所 TP P= 提模型的有效性。它们分别是TACRED数据集 TP+FP TP 和SemEval2010task8数据集2。 TACRED数据集：该数据集共106264条实 R=P+F时 2PR 例，分为训练集68124条，验证集22631条，测试集 F1= P+R 15509条。数据集引入了41种关系类型和一种式中：TP((true positives)表示将正样本预测为正的特殊的“no relation”类型，来描述实例中相关实样本数；FP(false positives)表示将负样本预测为正体对之间的关系。的样本数；FN(false nagatives)表示将正样本预测 SemEval2010task8数据集：该数据集主要用为负的样本数。于对名词性实体之间的语义关系进行分类。它采 3.4对比算法用9种关系类型和一种特殊的关系类型“Other'” 将AGLSTM模型与10种典型关系抽取方法来描述实体对之间的关系。数据集一共包含10717 进行对比，它们分别为条实例，其中，8000条实例为训练数据，其余为测 I)逻辑回归模型(logistics regression,LR)o 试数据。 2)支持向量机模型(support vector machine, 3.2模型参数与性能指标 SVM) 采用Adam算法优化本文所提模型，网络隐 3)双向LSTM模型+注意力机制(BiLSTM什At) 藏层节点数设置为300。为防止过拟合，在输入该模型将双向LSTM模型与注意力机制结合进行层和AGLSTM层同时引入损失率(dropout),并且关系抽取。在目标函数中引入L2正则化项，正则化因子取值 4)位置感知注意力LSTM模型(PA-LSTM)9: 为O.001。对于TACRED数据集，模型参数设置该模型通过对引入实体位置的注意力机制建立学习率为0.7，在输入层和AGLSTM层的损失率模型。都设为0.5。对于SemEval2010task8数据集，模 5)最短依存路径LSTM模型(SDP-LSTM)6: 型设置学习率为0.5，在输入层和AGLSTM层的该模型使用2个实体之间的最短依存路径，并结损失率分别设为0.5和0.3。采用预训练好的Glove 合LSTM模型进行建模。向量对数据集进行词向量训练，生成词嵌入向 6)树结构LSTM模型(tree-LSTM)m:不同于量；结合实体位置嵌入和NER标签嵌人，生成最以往的顺序LSTM模型，该模型结合句子依存关终嵌人层向量。系树将LSTM推广到树形结构。在注意力层，多头注意力机制的参数k会对 7)分段注意力LSTM模型(SA-LSTM)2:考模型性能产生较大的影响。以SemEval数据集为虑到部分实体关系信息包含在句子中的某些片段结果整合成最终的输出特征。线性连接层定义的数学形式为 hcomb=Wcombhout+bcomb Wcomb bcomb hcomb 式中: 是线性连接层的权重矩阵；是线性连接层的偏置矩阵；为最终输出的特征。 2.7 输出层针对最终输出的特征 hcomb，先通过最大池化层，保留句子中最重要的特征，再通过 softmax 函数计算每一个类别的条件概率，进而输出模型预测特征的标签类别。每一个特征对应标签类别的预测概率为 p(hi) = h i comb ∑N n=1 h n comb , i = 1,2,··· ,N 3 实验分析 3.1 数据集本节在 2 个常用的关系抽取数据集中验证所提模型的有效性。它们分别是 TACRED 数据集[19] 和 SemEval 2010 task 8 数据集[23]。 TACRED 数据集：该数据集共 106 264 条实例，分为训练集 68124 条，验证集 22 631 条，测试集 15 509 条。数据集引入了 41 种关系类型和一种特殊的“no relation”类型，来描述实例中相关实体对之间的关系。 SemEval 2010 task 8 数据集：该数据集主要用于对名词性实体之间的语义关系进行分类。它采用 9 种关系类型和一种特殊的关系类型“Other” 来描述实体对之间的关系。数据集一共包含 10 717 条实例，其中，8 000 条实例为训练数据，其余为测试数据。 3.2 模型参数与性能指标采用 Adam 算法优化本文所提模型，网络隐藏层节点数设置为 300。为防止过拟合，在输入层和 AGLSTM 层同时引入损失率 (dropout)，并且在目标函数中引入 L2 正则化项，正则化因子取值为 0.001。对于 TACRED 数据集，模型参数设置学习率为 0.7，在输入层和 AGLSTM 层的损失率都设为 0.5。对于 SemEval 2010 task8 数据集，模型设置学习率为 0.5，在输入层和 AGLSTM 层的损失率分别设为 0.5 和 0.3。采用预训练好的 Glove 向量[24] 对数据集进行词向量训练，生成词嵌入向量；结合实体位置嵌入和 NER 标签嵌入，生成最终嵌入层向量。在注意力层，多头注意力机制的参数 k 会对模型性能产生较大的影响。以 SemEval 数据集为例，依次设置 k=[2,3,4,5,6]，下面讨论 k 值对所提模型性能的影响。表 1 展示了不同 k 值下所提模型的 F1 指标值。可以看出，当 k=4 时，模型得到了最佳的 F1 指标值。鉴于此，后续实验中设置 k=4。表 1 不同 k 值下所提模型的实验结果 Table 1 Experimental results obtained using the proposed model with different k values % k头数 F1 k=2 84.6 k=3 85.1 k=4 85.3 k=5 84.7 k=6 84.6 3.3 评价指标本文采用关系抽取任务中常用的 3 类评价指标：精确率 P、召回率 R 和 F1 值。二分类中常用的计算公式为 P = TP TP+FP R = TP TP+FN F1 = 2PR P+R 式中：TP(true positives) 表示将正样本预测为正的样本数；FP(false positives) 表示将负样本预测为正的样本数；FN(false nagatives) 表示将正样本预测为负的样本数。 3.4 对比算法将 AGLSTM 模型与 10 种典型关系抽取方法进行对比，它们分别为 1) 逻辑回归模型 (logistics regression, LR)。 2) 支持向量机模型 (support vector machine, SVM)。 3) 双向 LSTM 模型+注意力机制 (BiLSTM+Att)[4] ：该模型将双向 LSTM 模型与注意力机制结合进行关系抽取。 4) 位置感知注意力 LSTM 模型 (PA-LSTM)[19] ：该模型通过对引入实体位置的注意力机制建立模型。 5) 最短依存路径 LSTM 模型 (SDP-LSTM)[6] ：该模型使用 2 个实体之间的最短依存路径，并结合 LSTM 模型进行建模。 6) 树结构 LSTM 模型 (tree-LSTM)[7] ：不同于以往的顺序 LSTM 模型，该模型结合句子依存关系树将 LSTM 推广到树形结构。 7) 分段注意力 LSTM 模型 (SA-LSTM)[25] ：考虑到部分实体关系信息包含在句子中的某些片段 ·522· 智能系统学报第 16 卷

<<向上翻页向下翻页>>

点击下载：【知识工程】用于关系抽取的注意力图长短时记忆神经网络