正在加载图片...
478 工程科学学报,第42卷,第4期 序列,然后将字向量序列输人BLSTM层,经过 向的LSTM与后向的LSTM拼接而成.BLSTM对 BLSTM层处理捕获每个字对应的每个标签的分 每个句子分别采用正向和反向计算,运用向量拼 数,最后将得到的标签分数输入L-CRF层,并通 接将得到的两种结果进行向量拼接从而获得最后 过L-CRF层获得全局最优序列.与BLSTM-CRF 的隐层表示.BLSTM结构如图1所示 相比,采用具有回路的CRF,约束性更好、识别效 中 果更佳. STM LSTM LSTM 1命名实体识别模型 LSTM LSTM LSTM 1.1 BLSTM模块 h- h, 长短时记忆网络(Long-short term memory, 图1 BLSTM模型结构 LSTM)是一种改进后的循环网络.与传统循环网 Fig.1 BLSTM model structure 络相比,LSTM多了一个用来储存长距离信息的单 元状态,解决了梯度过长而产生的梯度弥散问题; 1.2L-CRF模块 LSTM重复模块构造不同,包含了四个交互层并以 条件随机场是Lafferty等2四提出的一种新的 一种十分特别的形式进行交互;LSTM中特殊设计 概率图模型,该模型能从训练集数据中学习约束, 的门结构使得模型能够决定丢弃信息、确定更新 从而获得了全局最优序列,同时解决了最大嫡模 细胞、更新细胞状态.LSTM的单元结构中内部参 型中存在的标注偏置问题 数可表达为: 线性链结构的CRF是最常见的CRF,它根据 i=r(W·h-1+W:x+b) 不同应用模式下CRF中的变量关系描绘出不同的 fi=c(Wr.h-1+Wr.x:+be) 图形.例如,可以选择树状条件随机场1描绘具 o=r(W。·hr-l+W。x+bo) (1) 有阶层关系的变量.针对数控机床历史维修记录 C=f*Cr-l+i,*tanh(We·h,-l+Wc·x,+bc) 中同一故障存在多种描述的特点,本文采用L h;=0,*tanh(C:) CRF2架构来获取最优序列,与传统的CRF相比, LSTM有四个输入和一个输出,输入处都经过 L-CRF能够获取过去及未来时间点的信息,使得 激活函数,sigmoid和tanh是LSTM的两个激励函 到的序列准确率更高,L-CRF架构如图2所示. 数,激活函数c使用的是sigmoid函数,值在0到 1之间,用以模拟门打开、关闭的效果.、、分 别表示时刻输人门、忘记门、输出门的输出,C表 示t时刻状态向量;W为连接两层的权重矩阵,W、 W、W。分别表示输入门、忘记门、输出门的权重 图2L-CRF架构图 矩阵,W表示细胞状态下对于输入x的权重矩阵; Fig.2 L-CRF architecture diagram b为偏置向量,b、br、b。、be分别表示隐藏层的输 该架构图中,输入值与输出值过去与未来的 入门、忘记门、输出门及细胞状态的偏置向量; 时间点包含在相互影响的关系中,因而形成具体 x为时刻输人层的输人向量,h、h-分别为t时 回路的图形架构.为了能按照标准方法来推导模 刻、t-时刻的输出,其最终结果是一个高维实向 型,按照构建联合树的步骤来检视图形,根据图2 量.LSTM的实验包括三步,首先,通过忘记门决 建构了一个联合树,通过对各时间点的联合树进 定丢弃信息:然后,通过输入门确定更新的信息; 行组合得到与L-CRF架构对应的联合树,如图3 最后,采用sigmoid函数得到细胞状态的输出,将输 所示,图中圆节点代表团结点而方形节点代表分 出结果与tanh相乘最终确定输出的信息 割结点 LSTM仅获取了文本的过去的信息,但对数控 将图形模型所代表的联合概率分布拆解成: 机床设备故障命名实体识别任务而言,设备故障 PA(Y.H)= Πcece(he) 描述的前后几个词对预测结果都有很大的影响, ☐er4,(a,s nh+1a1e4 (2) 获取上下文信息对数控机床设备故障的命名实体 识别任务有很大的帮助.为了获取上下文信息,本 0y,》1+1)μ(h+1y1+1) 文采用了双向LSTM(BLSTM)结构,BLSTM由前 定义H为输入序列,Y为一个联合树所有接口的序列 ,然后将字向量序列输入 BLSTM 层 ,经过 BLSTM 层处理捕获每个字对应的每个标签的分 数,最后将得到的标签分数输入 L-CRF 层,并通 过 L-CRF 层获得全局最优序列. 与 BLSTM-CRF 相比,采用具有回路的 CRF,约束性更好、识别效 果更佳. 1    命名实体识别模型 1.1    BLSTM 模块 长 短 时 记 忆 网 络 ( Long-short  term  memory, LSTM)是一种改进后的循环网络. 与传统循环网 络相比,LSTM 多了一个用来储存长距离信息的单 元状态,解决了梯度过长而产生的梯度弥散问题; LSTM 重复模块构造不同,包含了四个交互层并以 一种十分特别的形式进行交互;LSTM 中特殊设计 的门结构使得模型能够决定丢弃信息、确定更新 细胞、更新细胞状态. LSTM 的单元结构中内部参 数可表达为: it=σ(Wi · ht−1+Wi · xt+bi) ft= σ(Wf · ht−1+Wf · xt+bf) ot= σ(Wo · ht−1+Wo · xt+bo) Ct=ft∗Ct−1+it∗tanh(Wc · ht−1+Wc · xt+bc) ht=ot∗tanh(Ct) (1) sigmoid tan h σ sigmoid it ft ot t Ct t W Wi Wf Wo Wc xt b bi bf bo bc xt t ht ht−1 t t−1 sigmoid tan h LSTM 有四个输入和一个输出,输入处都经过 激活函数, 和 是 LSTM 的两个激励函 数 ,激活函数 使用的是 函数 ,值 在 0 到 1 之间,用以模拟门打开、关闭的效果. 、 、 分 别表示 时刻输入门、忘记门、输出门的输出, 表 示 时刻状态向量; 为连接两层的权重矩阵, 、 、 分别表示输入门、忘记门、输出门的权重 矩阵, 表示细胞状态下对于输入 的权重矩阵; 为偏置向量, 、 、 、 分别表示隐藏层的输 入门、忘记门、输出门及细胞状态的偏置向量; 为 时刻输入层的输入向量 , 、 分别为 时 刻、 时刻的输出,其最终结果是一个高维实向 量. LSTM 的实验包括三步,首先,通过忘记门决 定丢弃信息;然后,通过输入门确定更新的信息; 最后,采用 函数得到细胞状态的输出,将输 出结果与 相乘最终确定输出的信息. LSTM 仅获取了文本的过去的信息,但对数控 机床设备故障命名实体识别任务而言,设备故障 描述的前后几个词对预测结果都有很大的影响, 获取上下文信息对数控机床设备故障的命名实体 识别任务有很大的帮助. 为了获取上下文信息,本 文采用了双向 LSTM(BLSTM)结构,BLSTM 由前 向的 LSTM 与后向的 LSTM 拼接而成. BLSTM 对 每个句子分别采用正向和反向计算,运用向量拼 接将得到的两种结果进行向量拼接从而获得最后 的隐层表示. BLSTM 结构如图 1 所示. 1.2    L-CRF 模块 条件随机场是 Lafferty 等[22] 提出的一种新的 概率图模型,该模型能从训练集数据中学习约束, 从而获得了全局最优序列,同时解决了最大熵模 型中存在的标注偏置问题. 线性链结构的 CRF 是最常见的 CRF,它根据 不同应用模式下 CRF 中的变量关系描绘出不同的 图形. 例如,可以选择树状条件随机场[23] 描绘具 有阶层关系的变量. 针对数控机床历史维修记录 中同一故障存在多种描述的特点,本文采用 L￾CRF[24] 架构来获取最优序列,与传统的 CRF 相比, L-CRF 能够获取过去及未来时间点的信息,使得 到的序列准确率更高,L-CRF 架构如图 2 所示. 该架构图中,输入值与输出值过去与未来的 时间点包含在相互影响的关系中,因而形成具体 回路的图形架构. 为了能按照标准方法来推导模 型,按照构建联合树的步骤来检视图形,根据图 2 建构了一个联合树,通过对各时间点的联合树进 行组合得到与 L-CRF 架构对应的联合树,如图 3 所示,图中圆节点代表团结点而方形节点代表分 割结点. 将图形模型所代表的联合概率分布拆解成: PA(Y, H) = ∏ c∈C µc(hc) ∏ y∈Y [µy(hy)]d(y)−1 = ∏N−1 t=1 µ(ht , yt , yt+1)µ(ht+1, yt , yt+1) µ(yt , yt+1)µ(ht+1, yt+1) (2) 定义 H 为输入序列, Y 为一个联合树所有接口的 LSTM LSTM LSTM LSTM LSTM LSTM xt+1 ht−1 xt−1 xt ht−1 ht ht ht+1 ht+1 图 1    BLSTM 模型结构 Fig.1    BLSTM model structure y1 h1 yt−1 ht−1 yt ht yN hN 图 2    L-CRF 架构图 Fig.2    L-CRF architecture diagram · 478 · 工程科学学报,第 42 卷,第 4 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有