480 工程科学学报,第42卷,第4期 5: while t iteration do 改源代码中的迭代次数进行对比实验发现,迭代 6: get a batch of train and dev data 次数为100时识别效果最好.通过采用不同的 7: function forward Dropout的值对模型进行了交叉验证,结果表明 8: forward pass of BLSTM-layer Dropout值为0.68时达到最好的识别效果.BLSTM- 9: forward pass of L-CRF-layer L-CRF模型参数如表3所示 10: end function 2.3评价标准及结果分析 1: function backward 本文采用信息检索通用的评价方法作为评价 12: backward pass of BLSTM-layer 标准,即准确率(Precision)、召回率(Recall)和F-测 13: backward pass of L-CRF-layer 度值(F-measure,指精确度和召回率的调和平均, 14: end function 简称F).定义如下: 15: end while P= n 16:end while ×100% R= N×100% (6) 实验设计与结果分析 2PR F= ×100% 2.1实验数据集 P+R 为了对BLSTM-L-CRF模型进行有效的评估, 其中,n为正确识别的实体个数,M为识别出的实 本文以某工厂获取历年的数控机床历史故障维修 体总数,N为标准结果中的实体个数.根据准确 记录作为数据集,对数据进行了清洗和整理,共获 率、召回率和F值三个指标对模型的性能进行全 得17485条设备故障数据.数据集按照6:2:2的 面的评价 比例进行划分,即训练集10491条,验证集3497条, 对人民日报1998年1月份的新闻标注语料、 测试集3497条 MARA语料和玻森NLP语料分别进行实验,分析 2.2实验参数设置 了该方法的可行性,不同数据集的识别效果如表4 Word2vec是指将语言单词嵌入到向量空间从 所示 而得到词向量,即该实验中的标注语料通过训练 从实验结果可知,该模型在不同数据集上是 模型转换为向量形式.Skip-gram和CBOW是 可行的,具有有效性 Word2vec的两种常用模型,文献[25]对两种模型 使用不同模型在数控机床设备故障数据上进 进行对比实验得出以下结论:当实验训练语料较 行对比实验,不同模型下数控机床设备故障命名 少时,Skip-gram模型效果更好,当语料较多时则选 实体识别的识别效果如表5所示 用CBOW模型效果更好.本文采用Skip-gram模 对比L-CRF模型与其他模型的实验结果发 型结合数控机床历史维修数据集预训练字向量, 现,L-CRF模型的准确率高,但是单一的L-CRF模 通过对比实验获得最优参数,如表2所示 型的召回率和F值都比较低;通过对比BLSTM-L 为了确定BLSTM-L-CRF模型的参数,通过更 CRF模型与其他模型的实验结果,发现该模型的 B-Dev I-Dev I-Dev 0 B-Dev I-Dev B-Fau I-Fau Output layer L-CRF L-CRF layer LSTMLSTMLSTMLSTM LSTMLSTM LSTMLSTM LSTM BLSTM Word embedd -ing 螺 钉 牙 图4 BLSTM-L-CRF模型 Fig.4 BLSTM-L-CRF model5: while t < iteration do 6: get a batch of train and dev data 7: function forward 8: forward pass of BLSTM-layer 9: forward pass of L-CRF-layer 10: end function 11: function backward 12: backward pass of BLSTM-layer 13: backward pass of L-CRF-layer 14: end function 15: end while 16: end while 2 实验设计与结果分析 2.1 实验数据集 为了对 BLSTM-L-CRF 模型进行有效的评估, 本文以某工厂获取历年的数控机床历史故障维修 记录作为数据集,对数据进行了清洗和整理,共获 得 17485 条设备故障数据. 数据集按照 6∶2∶2 的 比例进行划分,即训练集 10491 条,验证集 3497 条, 测试集 3497 条. 2.2 实验参数设置 Word2vec 是指将语言单词嵌入到向量空间从 而得到词向量,即该实验中的标注语料通过训练 模 型 转 换 为 向 量 形 式 . Skip-gram 和 CBOW 是 Word2vec 的两种常用模型,文献 [25] 对两种模型 进行对比实验得出以下结论:当实验训练语料较 少时,Skip-gram 模型效果更好,当语料较多时则选 用 CBOW 模型效果更好. 本文采用 Skip-gram 模 型结合数控机床历史维修数据集预训练字向量, 通过对比实验获得最优参数,如表 2 所示. 为了确定 BLSTM-L-CRF 模型的参数,通过更 改源代码中的迭代次数进行对比实验发现,迭代 次数为 100 时识别效果最好. 通过采用不同的 Dropout 的值对模型进行了交叉验证,结果表明 Dropout 值为 0.68 时达到最好的识别效果. BLSTML-CRF 模型参数如表 3 所示. 2.3 评价标准及结果分析 本文采用信息检索通用的评价方法作为评价 标准,即准确率(Precision)、召回率(Recall)和 F-测 度值(F-measure,指精确度和召回率的调和平均, 简称 F). 定义如下: P = n M ×100% R = n N ×100% F = 2PR P+R ×100% (6) 其中,n 为正确识别的实体个数,M 为识别出的实 体总数,N 为标准结果中的实体个数. 根据准确 率、召回率和 F 值三个指标对模型的性能进行全 面的评价. 对人民日报 1998 年 1 月份的新闻标注语料、 MARA 语料和玻森 NLP 语料分别进行实验,分析 了该方法的可行性,不同数据集的识别效果如表 4 所示. 从实验结果可知,该模型在不同数据集上是 可行的,具有有效性. 使用不同模型在数控机床设备故障数据上进 行对比实验,不同模型下数控机床设备故障命名 实体识别的识别效果如表 5 所示. 对比 L-CRF 模型与其他模型的实验结果发 现,L-CRF 模型的准确率高,但是单一的 L-CRF 模 型的召回率和 F 值都比较低;通过对比 BLSTM-LCRF 模型与其他模型的实验结果,发现该模型的 发 LSTM B-Dev 动 LSTM I-Dev 机 LSTM I-Dev 中 LSTM O 的 LSTM O 螺 LSTM B-Dev 钉 LSTM I-Dev 滑 LSTM B-Fau 牙 LSTM I-Fau BLSTM Word embedd -ing Output layer L-CRF layer L-CRF 图 4 BLSTM-L-CRF 模型 Fig.4 BLSTM-L-CRF model · 480 · 工程科学学报,第 42 卷,第 4 期