王欢等:基于数控机床设备故障领域的命名实体识别 477 to obtain the global optimal sequence.The experimental results show that the method is superior to other named entity recognition methods,which lays a solid foundation for the intelligent maintenance and the real-time diagnostic tasks of CNC machine tools KEY WORDS computer numerical control machine tools;equipment failure;bidirectional long short-term memory;conditional random field with loop;named entity recognition 随着智能制造的快速发展和云计算-]时代 息而无法获取上文信息.Graves与Schmidhuber 的到来,“互联网+工业”成为了学者研究的重点, 构建了BLSTM模块,可以在输入的方向获得长时 工业设备智能化对数控机床设备的检修与诊断提 的上下文信息.杨红梅等2I提出了BLSTM-CRF 出了严峻挑战.数控机床设备智能检修与实时诊 命名实体识别模型,使标签结果更为合理.Lin等) 断是保障数控机床设备安全、稳定、经济运行的 提出了多通道BILSTM-CRF模型在社交媒体中的 重要手段,是实现数控机床智能制造的关键.数控 新兴命名实体识别方法.Bharadwaj等在BILSTM- 机床设备智能检修与实时诊断是通过整合海量、 CRF模型上加入了音韵特征和attention机制,对有 多源、异构的设备检修大数据,利用自然语言处 效的字符关注度更高;L等啊针对包装专业领域 理、语义匹配、知识图谱构建等技术对工业设备 语料匮乏的特点,提出了一个多层神经网络模型 故障现象进行全面诊断,实现设备检修、诊断的智 进行包装领域的命名实体识别,该模型可以自动 能化管理;数控机床设备故障命名实体的识别作 学习分布式单词特征和部分语音特征,实现 为图谱识别、自然语言处理、语义匹配等复杂任 NER包装产品技术;易士翔等(针对公共安全事 务的基础工作,对数控机床设备智能检修与实时 件的触发词识别任务提出BLSTM与前向神经网 诊断起着至关重要的作用.为了提高命名实体识 络相结合的模型,在突发事件语料库上取得了较 别系统的性能,为数控机床故障精准诊断提供保 好的识别效果 障,延长数控机床的使用周期,本文对数控机床设 尽管通用领域深度学习的命名实体识别方法 备故障领域的命名实体识别方法展开了研究,通 取得了较好的成果,但在数控机床领域中依然存 过提高命名实体识别效果为后续数控机床智能检 在不足.陈秋瑗等提出了一种基于紧密度的命 修和故障诊断工作打下了坚实的基础,进而防止 名实体识别,使用逻辑回归方法来计算相邻字串 意外故障带来的毁灭性事故和经济损失 之间的紧密程度,提高了机械领域新词的准确率 浅层机器学习和深度学习)是通用领域的两 在数控机床领域,学者对数控机床设备故障实体 种常用方法.浅层机器学习方法包括隐马尔可夫 识别的研究较少,现有的研究主要针对数控机床 模型、最大嫡模型和条件随机场(Conditional 特定部件存在的故障8-判:数控机床的历史维修 random fields,CRF)等.俞鸿魁等在双层隐马尔 记录是由工作人员撰写的描述数控机床异常的信 可夫模型上进行实体识别,将不同的命名实体的 息,该记录包括设备名称、故障描述、故障原因以 识别结果融合到同一个理论模型中,提高了F值; 及处理过程,这些都是数控机床的重要数据,自动 何炎祥等图提出CRF+特定规则模型,提高了召回 抽取这些信息能够更加高效、精准的收集案例支 率,改善了对实体识别的效果;王路路等例针对维 持智能检修问答系统,而历史维修记录的重复利 吾尔命名实体提出了半监督学习方法,减少了对 用主要受数据结构化程度的影响,因而对数据进 人工特征提取的依赖 行命名实体识别至关重要 近年来,命名实体的研究热点已从传统的机 目前数控机床故障领域的实体识别存在以下 器学习方法转移到深度学习方法.与传统的机器 几个难点2:第一,没有基于数控机床领域的语料 学习方法相比,深度学习速度更快、泛化性更强, 库:第二,没有数控机床故障领域的命名实体标注 并且可以让计算机自主学习得到模式特征,将其 语料;第三,数控机床故障描述过于口语化,同一 融入实验模型从而减少对人工特征的依赖,因此 故障存在多种不同的描述.针对以上难点本文提 使用深度学习进行命名实体识别的识别性能更 出了一种基于双向长短期记忆网络与具有回路的 好.Hochreiter与Schmidhubert提出了一种通过门限 条件随机场相结合的命名实体识别方法BLSTM- 机制对历史信息进行过滤的LSTM,解决了循环网 L-CRF,首先使用Word2vec2对数据集进行预训 络中的梯度消失问题,但是LSTM只能获取下文信 练获取字向量,字向量通过词嵌入层得到字向量to obtain the global optimal sequence. The experimental results show that the method is superior to other named entity recognition methods, which lays a solid foundation for the intelligent maintenance and the real-time diagnostic tasks of CNC machine tools. KEY WORDS computer numerical control machine tools; equipment failure; bidirectional long short-term memory; conditional random field with loop;named entity recognition 随着智能制造的快速发展和云计算[1−2] 时代 的到来,“互联网+工业”成为了学者研究的重点, 工业设备智能化对数控机床设备的检修与诊断提 出了严峻挑战. 数控机床设备智能检修与实时诊 断是保障数控机床设备安全、稳定、经济运行的 重要手段,是实现数控机床智能制造的关键. 数控 机床设备智能检修与实时诊断是通过整合海量、 多源、异构的设备检修大数据,利用自然语言处 理、语义匹配、知识图谱构建等技术对工业设备 故障现象进行全面诊断,实现设备检修、诊断的智 能化管理;数控机床设备故障命名实体的识别作 为图谱识别、自然语言处理、语义匹配等复杂任 务的基础工作,对数控机床设备智能检修与实时 诊断起着至关重要的作用. 为了提高命名实体识 别系统的性能,为数控机床故障精准诊断提供保 障,延长数控机床的使用周期,本文对数控机床设 备故障领域的命名实体识别方法展开了研究,通 过提高命名实体识别效果为后续数控机床智能检 修和故障诊断工作打下了坚实的基础,进而防止 意外故障带来的毁灭性事故和经济损失. 浅层机器学习和深度学习[3] 是通用领域的两 种常用方法. 浅层机器学习方法包括隐马尔可夫 模型[4]、最大熵模型[5] 和条件随机场[6] (Conditional random fields, CRF)等. 俞鸿魁等[7] 在双层隐马尔 可夫模型上进行实体识别,将不同的命名实体的 识别结果融合到同一个理论模型中,提高了 F 值; 何炎祥等[8] 提出 CRF+特定规则模型,提高了召回 率,改善了对实体识别的效果;王路路等[9] 针对维 吾尔命名实体提出了半监督学习方法,减少了对 人工特征提取的依赖. 近年来,命名实体的研究热点已从传统的机 器学习方法转移到深度学习方法. 与传统的机器 学习方法相比,深度学习速度更快、泛化性更强, 并且可以让计算机自主学习得到模式特征,将其 融入实验模型从而减少对人工特征的依赖,因此 使用深度学习进行命名实体识别的识别性能更 好. Hochreiter 与Schmidhuber[10] 提出了一种通过门限 机制对历史信息进行过滤的 LSTM,解决了循环网 络中的梯度消失问题,但是 LSTM 只能获取下文信 息而无法获取上文信息. Graves 与 Schmidhuber[11] 构建了 BLSTM 模块,可以在输入的方向获得长时 的上下文信息. 杨红梅等[12] 提出了 BLSTM-CRF 命名实体识别模型,使标签结果更为合理. Lin 等[13] 提出了多通道 BILSTM-CRF 模型在社交媒体中的 新兴命名实体识别方法. Bharadwaj 等[14] 在BILSTMCRF 模型上加入了音韵特征和 attention机制,对有 效的字符关注度更高;Li 等[15] 针对包装专业领域 语料匮乏的特点,提出了一个多层神经网络模型 进行包装领域的命名实体识别,该模型可以自动 学 习 分 布 式 单 词 特 征 和 部 分 语 音 特 征 , 实 现 NER 包装产品技术;易士翔等[16] 针对公共安全事 件的触发词识别任务提出 BLSTM 与前向神经网 络相结合的模型,在突发事件语料库上取得了较 好的识别效果. 尽管通用领域深度学习的命名实体识别方法 取得了较好的成果,但在数控机床领域中依然存 在不足. 陈秋瑗等[17] 提出了一种基于紧密度的命 名实体识别,使用逻辑回归方法来计算相邻字串 之间的紧密程度,提高了机械领域新词的准确率. 在数控机床领域,学者对数控机床设备故障实体 识别的研究较少,现有的研究主要针对数控机床 特定部件存在的故障[18−19] ;数控机床的历史维修 记录是由工作人员撰写的描述数控机床异常的信 息,该记录包括设备名称、故障描述、故障原因以 及处理过程,这些都是数控机床的重要数据,自动 抽取这些信息能够更加高效、精准的收集案例支 持智能检修问答系统,而历史维修记录的重复利 用主要受数据结构化程度的影响,因而对数据进 行命名实体识别至关重要. 目前数控机床故障领域的实体识别存在以下 几个难点[20] :第一,没有基于数控机床领域的语料 库;第二,没有数控机床故障领域的命名实体标注 语料;第三,数控机床故障描述过于口语化,同一 故障存在多种不同的描述. 针对以上难点本文提 出了一种基于双向长短期记忆网络与具有回路的 条件随机场相结合的命名实体识别方法 BLSTML-CRF,首先使用 Word2vec[21] 对数据集进行预训 练获取字向量,字向量通过词嵌入层得到字向量 王 欢等: 基于数控机床设备故障领域的命名实体识别 · 477 ·