【机器学习】卷积神经网络金相组织自动识别

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：5.7MB

第17卷第4期智能系统学报 Vol.17 No.4 2022年7月 CAAI Transactions on Intelligent Systems Jul.2022 D0:10.11992/tis.202110035 网络出版地址：https:/ns.cnki.net/kcms/detail/23.1538.TP.20220421.0817.002.html 卷积神经网络金相组织自动识别王佳锐2，刘能锋2，曲鹏 (1.廊坊燕京职业技术学院机电工程系，河北廊坊065200；2.哈尔滨工业大学实验与创新实践教育中心，广东深圳518055) 摘要：为了降低人工分辨金相组织图像类别的误差率，提高分辨效率，采用卷积神经网络模型对金相组织图像进行自动辨识。对制备金相样块所得铁素体与马氏体两种金相组织图像进行分析，提出符合金相组织图像分布特征的预处理方案。通过采用图像尺寸归一化、灰度值归一化以及高斯平滑处理等方法，对原始金相组织图像进行预处理，建立金相组织图像数据集。针对建立的铁素体和马氏体金相组织图像数据集，提出了适合金相组织图像辨识的改进模型，分别记为LeNet-MetStr模型、AlexNet-MetStr模型和VGGNet-MetStr模型。对3种改进卷积神经网络进行模型训练及分析，结果表明VGGNet-MetStr模型对2种金相组织图像自动辨识具有更高的准确度。关键词：卷积神经网络；金相组织；图像处理；网络模型；自动辨识；LeNet神经网络；AlexNet神经网络： VGGNet神经网络中图分类号：TG141,TP391.4,TP183文献标志码：A 文章编号：1673-4785(2022)04-0698-09 中文引用格式：王佳锐，刘能锋，曲鹏.卷积神经网络金相组织自动识别.智能系统学报，2022,17(4)：698-706. 英文引用格式：WANG Jiarui,.LIU Nengfeng,.QU Peng.Automatic identification of metallographic structure based on convolution- al neural network J.CAAI transactions on intelligent systems,2022,17(4):698-706. Automatic identification of metallographic structure based on convolutional neural network WANG Jiarui,LIU Nengfeng QU Peng' (1.Mechanical and Electronic Engineering Department,Langfang Yanjing Polytechnic Inst.,Langfang 065200,China;2.Education Center of Experiments and Innovations,Harbin Institute of Technology,Shenzhen 518055,China) Abstract:The convolutional neural model was used to automatically identify metallographic structure images to reduce the error rate of manual resolution of metallographic structure image categories and improve the resolution effi- ciency.Two kinds of metallographic structure images of ferrite and martensite obtained from metallographic sample blocks were analyzed,and a preprocessing scheme conforming to the distribution characteristics of the metallographic structure image was proposed.Image size normalization,gray value normalization,and Gaussian smoothing are used to establish the metallographic image sample set and training set.Aiming at the established image data sets of two types of metallographic structures such as ferrite and martensite,the improved models suitable for metallographic structure image recognition are proposed,which are named the LeNet-MetStr model,AlexNet-MetStr model,and VGGNet-Met- Str model,respectively.Three improved convolutional neural networks were trained and analyzed.The results show that the VGGNet-MetStr model has higher accuracy for the automatic identification of two kinds of metallographic structure images. Keywords:convolutional neural network;metallographic structure;image processing;network model;automatic identi- fication:LeNet neural network:AlexNet neural network:VGGNet neural network 收稿日期：2021-10-29.网络出版日期：2022-04-21 钢铁材料是目前工业中应用最广、用量最大基金项目：国家自然科学基金项目(52161004)：2021年廊坊市的金属材料。钢铁材料受加热条件、轧制工艺、科技局高新技术项目(2021011018). 通信作者：曲鹏.E-mail:372292920@qq.com 冷却速度、热处理工艺等因素的影响，其显微组

DOI: 10.11992/tis.202110035 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20220421.0817.002.html 卷积神经网络金相组织自动识别王佳锐1,2，刘能锋2 ，曲鹏1 （1. 廊坊燕京职业技术学院机电工程系，河北廊坊 065200; 2. 哈尔滨工业大学实验与创新实践教育中心，广东深圳 518055）摘要：为了降低人工分辨金相组织图像类别的误差率，提高分辨效率，采用卷积神经网络模型对金相组织图像进行自动辨识。对制备金相样块所得铁素体与马氏体两种金相组织图像进行分析，提出符合金相组织图像分布特征的预处理方案。通过采用图像尺寸归一化、灰度值归一化以及高斯平滑处理等方法，对原始金相组织图像进行预处理，建立金相组织图像数据集。针对建立的铁素体和马氏体金相组织图像数据集，提出了适合金相组织图像辨识的改进模型，分别记为 LeNet-MetStr 模型、AlexNet-MetStr 模型和 VGGNet-MetStr 模型。对 3 种改进卷积神经网络进行模型训练及分析，结果表明 VGGNet-MetStr 模型对 2 种金相组织图像自动辨识具有更高的准确度。关键词：卷积神经网络；金相组织；图像处理；网络模型；自动辨识；LeNet 神经网络；AlexNet 神经网络； VGGNet 神经网络中图分类号：TG141;TP391.4;TP183 文献标志码：A 文章编号：1673−4785(2022)04−0698−09 中文引用格式：王佳锐, 刘能锋, 曲鹏. 卷积神经网络金相组织自动识别 [J]. 智能系统学报, 2022, 17(4): 698–706. 英文引用格式：WANG Jiarui, LIU Nengfeng, QU Peng. Automatic identification of metallographic structure based on convolutional neural network[J]. CAAI transactions on intelligent systems, 2022, 17(4): 698–706. Automatic identification of metallographic structure based on convolutional neural network WANG Jiarui1,2 ，LIU Nengfeng2 ，QU Peng1 (1. Mechanical and Electronic Engineering Department, Langfang Yanjing Polytechnic Inst., Langfang 065200, China; 2. Education Center of Experiments and Innovations, Harbin Institute of Technology, Shenzhen 518055, China) Abstract: The convolutional neural model was used to automatically identify metallographic structure images to reduce the error rate of manual resolution of metallographic structure image categories and improve the resolution efficiency. Two kinds of metallographic structure images of ferrite and martensite obtained from metallographic sample blocks were analyzed, and a preprocessing scheme conforming to the distribution characteristics of the metallographic structure image was proposed. Image size normalization, gray value normalization, and Gaussian smoothing are used to establish the metallographic image sample set and training set. Aiming at the established image data sets of two types of metallographic structures such as ferrite and martensite, the improved models suitable for metallographic structure image recognition are proposed, which are named the LeNet-MetStr model, AlexNet-MetStr model, and VGGNet-MetStr model, respectively. Three improved convolutional neural networks were trained and analyzed. The results show that the VGGNet-MetStr model has higher accuracy for the automatic identification of two kinds of metallographic structure images. Keywords: convolutional neural network; metallographic structure; image processing; network model; automatic identification; LeNet neural network; AlexNet neural network; VGGNet neural network 钢铁材料是目前工业中应用最广、用量最大的金属材料[1]。钢铁材料受加热条件、轧制工艺、冷却速度、热处理工艺等因素的影响，其显微组收稿日期：2021−10−29. 网络出版日期：2022−04−21. 基金项目：国家自然科学基金项目（52161004）；2021 年廊坊市科技局高新技术项目（2021011018）. 通信作者：曲鹏. E-mail：372292920@qq.com. 第 17 卷第 4 期智能系统学报 Vol.17 No.4 2022 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2022

第4期王佳锐，等：卷积神经网络金相组织自动识别 ·699· 织类型及形貌特征等呈现出多样性和复杂性，也识，取得了较好的效果，然而训练样本数量过小，决定着材料的性能，因此对钢铁材料显微组织进容易造成模型过拟合现象，对于不同尺度的微观行正确分类尤其重要。其中铁素体和马氏体的组织图并未做深入研究。目前针对金属表面形貌结构和性能差别较大。铁素体)显微组织呈明亮的自动识别研究主要集中于通过SEM扫描电镜的多边形晶粒组织，各晶粒位向不同，受腐蚀程得到清晰度较高的某种特定微观组织图像，采用度略有差异，因而稍显明暗不同。铁素体组织具传统的数字图像处理方法，拟合晶粒边界，实现有良好的塑性和韧性，但强度和硬度很低。铁素晶粒分割例：获取晶粒尺寸信息、对晶粒尺寸及性体不锈钢因性价比高而应用广泛。430铁素体不能预测5刃：采取手动提取图像特征，利用数据挖锈钢1可作为洗衣机滚筒制造材料，洗碗机内壁掘或机器学习实现图像分类或结构性能分析材料等。439铁素体不锈钢)具有焊接性和成型等01)。然而利用卷积神经网络技术对金相组织性佳的特点，在制糖和能源产业中作为热交换管图像自动识别的研究却非常少，有效研究成果更使用。马氏体)的立体组织有片状和板条状，在是寥寥无几。金相中多为针状组织。相比铁素体而言马氏体具本文建立金相组织图像数据集，改进LeNet- 有高强度和硬度，但塑性几乎为零。420马氏体 5、AlexNet、VGGNet3种不同卷积神经网络模型，不锈钢)用作外壳手术刀具。铁素体和马氏体组实现自动辨识铁素体与马氏体的金相组织。通过织对钢铁材料的工艺性能和使用性能有着重要影实验结果分析改进卷积神经网络模型特点，使卷响，区分与辨识二者尤为关键。积神经网络算法可在金属材料组织的自动辨识领不同材料元素在一定条件下可以制备出相应域推广应用。该技术可在工业原材料检测、材料的金属材料，每种金属材料由于各组份呈现不同制备检测、成本检测及教学科研等领域实现铁素的分布状态和具有特定形态的金相组织图像。通体与马氏体金属材料组织的自动辨识，不受人为过金相组织图像可以观察该材料的宏观组织形因素影响，有效提高二者的识别率，为后续材料貌。金相组织主要是通过光学显微镜拍摄相应图性能分析、工艺研究以及材料的使用等奠定理论像，通过人工观察与分析金相图片可获得材料信依据。息，如通过确定金相组织可推测该材料的力学性能、评判工艺措施是否合理等，是最常规的一种 1金相组织图像获取与数据集创建材料表征方法。该表征方法需要技术人员具有数据集是影响卷积神经网络准确度的重要因较高的专业知识储备以及丰富的实践经验。现实素之一，数据集的整理也是本文需要解决的首要中往往由于从业人员专业水平不高、人工观察不问题。卷积神经网络等算法模型要得到高的准确细致，导致分析的结果不准确，效率较低。因此，度，需要大量的样本训练，然而实验数据有限，很利用自动辨识技术对金相组织图像进行计算机辅难获得大量相同材料的金相组织图像。通过标准助鉴别，将有效提高评判的准确度和效率，对金金相样块，利用奥林巴斯BX系列正置金相显微相组织相关的科研分析、生产检测以及相关教学镜获取金相图像。图1为收集的金相显微组织工作都具有重要意义。图像。计算机图像识别技术是人工智能技术的重要领域之一，在许多领域都有成熟的应用，对金属材料领域也有一定的应用。张勇等改进BP神经网络对AZ91镁合金晶粒尺寸进行预测，使误差降低5%。张鹏等提出了一种预测Gd,06061Al 中子屏蔽材料力学性能的卷积神经网络模型，捕捉晶粒并统计晶粒大小、数目等信息。曹卓等可研究发现卷积神经网络模型中梯度与材料性能之间有一定的关联性，并进一步验证了卷积神经网络具有较好的材料性能预测能力。李维刚等⑧采用扫描电子显微镜(scanning electron microscope, SEM)获得钢铁材料微观组织图片进行自动辨 (a)铁素体

织类型及形貌特征等呈现出多样性和复杂性，也决定着材料的性能，因此对钢铁材料显微组织进行正确分类尤其重要[2]。其中铁素体和马氏体的结构和性能差别较大。铁素体[3] 显微组织呈明亮的多边形晶粒组织，各晶粒位向不同，受腐蚀程度略有差异，因而稍显明暗不同。铁素体组织具有良好的塑性和韧性，但强度和硬度很低。铁素体不锈钢因性价比高而应用广泛。430 铁素体不锈钢[3] 可作为洗衣机滚筒制造材料，洗碗机内壁材料等。439 铁素体不锈钢[3] 具有焊接性和成型性佳的特点，在制糖和能源产业中作为热交换管使用。马氏体[3] 的立体组织有片状和板条状，在金相中多为针状组织。相比铁素体而言马氏体具有高强度和硬度，但塑性几乎为零。420 马氏体不锈钢[3] 用作外壳手术刀具。铁素体和马氏体组织对钢铁材料的工艺性能和使用性能有着重要影响，区分与辨识二者尤为关键。不同材料元素在一定条件下可以制备出相应的金属材料，每种金属材料由于各组份呈现不同的分布状态和具有特定形态的金相组织图像。通过金相组织图像可以观察该材料的宏观组织形貌。金相组织主要是通过光学显微镜拍摄相应图像，通过人工观察与分析金相图片可获得材料信息，如通过确定金相组织可推测该材料的力学性能、评判工艺措施是否合理等，是最常规的一种材料表征方法[4]。该表征方法需要技术人员具有较高的专业知识储备以及丰富的实践经验。现实中往往由于从业人员专业水平不高、人工观察不细致，导致分析的结果不准确，效率较低。因此，利用自动辨识技术对金相组织图像进行计算机辅助鉴别，将有效提高评判的准确度和效率，对金相组织相关的科研分析、生产检测以及相关教学工作都具有重要意义。计算机图像识别技术是人工智能技术的重要领域之一，在许多领域都有成熟的应用，对金属材料领域也有一定的应用。张勇等[5] 改进 BP 神经网络对 AZ91 镁合金晶粒尺寸进行预测，使误差降低 5%。张鹏等[6] 提出了一种预测 Gd2O3 /6061Al 中子屏蔽材料力学性能的卷积神经网络模型，捕捉晶粒并统计晶粒大小、数目等信息。曹卓等[7] 研究发现卷积神经网络模型中梯度与材料性能之间有一定的关联性，并进一步验证了卷积神经网络具有较好的材料性能预测能力。李维刚等[8] 采用扫描电子显微镜（scanning electron microscope， SEM）获得钢铁材料微观组织图片进行自动辨识，取得了较好的效果，然而训练样本数量过小，容易造成模型过拟合现象，对于不同尺度的微观组织图并未做深入研究。目前针对金属表面形貌的自动识别研究主要集中于通过 SEM 扫描电镜得到清晰度较高的某种特定微观组织图像，采用传统的数字图像处理方法，拟合晶粒边界，实现晶粒分割[9] ；获取晶粒尺寸信息、对晶粒尺寸及性能预测[5-7] ；采取手动提取图像特征，利用数据挖掘或机器学习实现图像分类或结构性能分析等 [10-13]。然而利用卷积神经网络技术对金相组织图像自动识别的研究却非常少，有效研究成果更是寥寥无几。本文建立金相组织图像数据集，改进 LeNet- 5、AlexNet、VGGNet 3 种不同卷积神经网络模型，实现自动辨识铁素体与马氏体的金相组织。通过实验结果分析改进卷积神经网络模型特点，使卷积神经网络算法可在金属材料组织的自动辨识领域推广应用。该技术可在工业原材料检测、材料制备检测、成本检测及教学科研等领域实现铁素体与马氏体金属材料组织的自动辨识，不受人为因素影响，有效提高二者的识别率，为后续材料性能分析、工艺研究以及材料的使用等奠定理论依据。 1 金相组织图像获取与数据集创建数据集是影响卷积神经网络准确度的重要因素之一，数据集的整理也是本文需要解决的首要问题。卷积神经网络等算法模型要得到高的准确度，需要大量的样本训练，然而实验数据有限，很难获得大量相同材料的金相组织图像。通过标准金相样块，利用奥林巴斯 BX 系列正置金相显微镜获取金相图像。图 1 为收集的金相显微组织图像。 (a) 铁素体 (b) 马氏体第 4 期王佳锐，等：卷积神经网络金相组织自动识别 ·699·

·700· 智能系统学报第17卷 b)马氏体图1金相组织图像 Fig.1 Metallographic structure images (c)图(a)的(32×32)dpi分割图虽然在同一平面内晶粒大小不同，但金相组织分布相对均匀，整体特征与局部特征相似，分割后的图像也具有较高的辨识度。训练卷积神经网络模型需要大量样本集，如果输入的图像尺寸 (d)图(b)的(32×32)dpi缩小图较大，则训练过程中会产生较大的计算量和大量的参数，这会影响模型训练的速度，甚至对计算图2金相组织图像分辨率统一及分割图像对比 Fig.2 Resolution unification of metallographic structure 机硬件提出很高的要求，实验室无法实现其模型 images and image segmentation comparison 训练过程。小尺寸图像样本有助于提高模型的训图2中(a)图为将图1中(a)图铁素体的金相练速度，对计算机的硬件要求相对较低。有些图组织图像分辨率归一化为(128×128)dpi,将(a)图像的局部特征不明显或清晰度不高，影响模型训分割成(64×64)dpi的四分图像得到图2中的练的准确度，采用图像分割可以将其去除，避免 (b)图，(c)图为将(a)图分割成16份(32×32) 不必要的影响。因此，本文采用金相组织图像分 dpi的图像，(d)图中将(b)图(64×64)dpi的图像缩割的方法增大样本数量。小成(32×32)dpi的图像。由所得图像可以观察图2为采集的金相组织图像经过改变分辨到，(c)图中大部分晶粒被分割图像中信息无法率和分割的方法获得大小为(32×32)dpi的对比反映晶粒特征，()图中的晶粒特征被保留下来，图像。本文采用此类图像建立样本数据集。金相组织图像的清晰度受光线等影响，在参与模型训练前需进行图像预处理。本文运用归一化方法将图像灰度值范围扩大以提高图像的对比度。实验发现该方法同时会产生一定的干扰点，本文通过高斯平滑处理切进行降噪，得到较理想的图像，如图3所示。因金相组织图像放大 (a)(128×128)dpi 倍数不同，在分割成相同尺寸的图像时，放大倍数较大的金相组织晶粒较少，有些图像甚至只有某个晶粒的一部分，为使模型具有一定的实用性，本文将一些图像进行缩小处理，从而替代无法反应晶粒真实特征的图像。 (a)铁素体(32×32)(b)将(a)图灰度值(c)将(b)图高斯 (b)图(a)的(64×64)dpi分割图 dpi原图归一化平滑处理

(a) 铁素体 (b) 马氏体图 1 金相组织图像 Fig. 1 Metallographic structure images 虽然在同一平面内晶粒大小不同，但金相组织分布相对均匀，整体特征与局部特征相似，分割后的图像也具有较高的辨识度。训练卷积神经网络模型需要大量样本集，如果输入的图像尺寸较大，则训练过程中会产生较大的计算量和大量的参数，这会影响模型训练的速度，甚至对计算机硬件提出很高的要求，实验室无法实现其模型训练过程。小尺寸图像样本有助于提高模型的训练速度，对计算机的硬件要求相对较低。有些图像的局部特征不明显或清晰度不高，影响模型训练的准确度，采用图像分割可以将其去除，避免不必要的影响。因此，本文采用金相组织图像分割的方法增大样本数量。图 2 为采集的金相组织图像经过改变分辨率和分割的方法获得大小为 (32×32) dpi 的对比图像。 (a) (128×128) dpi (b) 图 (a) 的 (64×64) dpi 分割图 (c) 图 (a) 的 (32×32) dpi 分割图 (d) 图 (b) 的 (32×32) dpi 缩小图 (a) (128×128) dpi (b) 图 (a) 的 (64×64) dpi 分割图 (c) 图 (a) 的 (32×32) dpi 分割图 (d) 图 (b) 的 (32×32) dpi 缩小图图 2 金相组织图像分辨率统一及分割图像对比 Fig. 2 Resolution unification of metallographic structure images and image segmentation comparison 图 2 中 (a) 图为将图 1 中 (a) 图铁素体的金相组织图像分辨率归一化为 (128×128) dpi，将 (a) 图分割成 (64×64) dpi 的四分图像得到图 2 中的 (b) 图， (c) 图为将 (a) 图分割成 16 份 (32×32) dpi 的图像，(d) 图中将 (b) 图 (64×64) dpi 的图像缩小成 (32×32) dpi 的图像。由所得图像可以观察到，(c) 图中大部分晶粒被分割，图像中信息无法反映晶粒特征，(d) 图中的晶粒特征被保留下来，本文采用此类图像建立样本数据集。金相组织图像的清晰度受光线等影响，在参与模型训练前需进行图像预处理。本文运用归一化 [14] 方法将图像灰度值范围扩大以提高图像的对比度。实验发现该方法同时会产生一定的干扰点，本文通过高斯平滑处理[15-17] 进行降噪，得到较理想的图像，如图 3 所示。因金相组织图像放大倍数不同，在分割成相同尺寸的图像时，放大倍数较大的金相组织晶粒较少，有些图像甚至只有某个晶粒的一部分，为使模型具有一定的实用性，本文将一些图像进行缩小处理，从而替代无法反应晶粒真实特征的图像。 (a) 铁素体 (32×32) dpi 原图 (b) 将 (a) 图灰度值归一化 (c) 将 (b) 图高斯平滑处理 (d) 马氏体 (32×32) dpi 原图 (e) 将 (d) 图灰度值归一化 (f) 将 (e) 图高斯平滑处理 ·700· 智能系统学报第 17 卷

第4期王佳锐，等：卷积神经网络金相组织自动识别 ·701 为特征值。特征图像经过池化层2后可缩小尺度。池化层的采样方式有均匀采样、最大下采样等。最 (d)马氏体(32×32)(e)将(d)图灰度值（①将(e)图高斯大下采样(max pooling)是在采样区域取最大值作 dpi原图归一化平滑处理为输出。如果进行S×S,的均匀采样，取S×S2内输图3金相组织图像灰度值归一化、平滑处理对比入值x的平均值为该区域的输出值y,具体计算为 Fig.3 Comparison of normalization and smoothing of gray value of metallographic structure image 1 XmxS1+inxS2+j 图3中(a)和(d)分别是铁素体和马氏体经过分割后的图像，(b)和(e)分别是(a)与(d)经过灰式中：ymm为S,×S2区域的输出值，xmxs+mxS:+J为度值归一化后所得的图像，晶粒特征更加清晰， S,×S2区域内的任意输入值。但同时产生一些噪点，干扰图像信息，（©）和()分全连接层是一个浅层感知机，起到分类的作用。别是(b)与（©）经过高斯平滑处理后所得图像，可输出层采用softmax分类器，通过计算概率来判看出图像降噪处理后，其特征信息同时得到保别样本种类，可完成多种类别的分类，具体计算为留。本文所建数据集为原图像经过上述图像预处 p00=1r0,0 e明 p00=2x⊙，0 e 理操作。 f(xo10)= 综上所述，本文的数据集图像分为两类：铁素 p00=kx0,0) e叹体和马氏体，每类图像的训练样本集有1000张，测试集为150张，分辨率为(32×32)dpi,均为1通式中：k表示某个分类，x0表示该分类的值，p0o= 道灰度图像。 x,)表示第k类的概率，为权重。通过训l练集样本的学习，softmax分类器学习 2卷积神经网络结构最优参数，使得损失函数的损失值达到最小，最常用的为交叉熵函数，具体计算为人工神经网络9是模拟动物神经网络连接方式处理数据的一种算法模型，它由多个神经元 e明r 结构连接组成。神经网络的学习，是通过计算机 1=1 = 自主学习找到一组权重，使得神经网络的输出与式中：1bo=表示若样本i的真实分类为j,则取目标越来越接近。值为1。卷积神经网络(convolutional neural network, 训练的过程中损失函数的值逐渐减小，准确 CNN)2o2的层与层之间通过卷积计算的方式连度逐渐增高，卷积神经网络模型逐渐收敛，当损接。图4反应了全连接与卷积连接的区别。失函数小于允许的范围，即得到训练模型。 3不同卷积神经网络对比及改进 3.1 LeNet--5网络结构及改进 LeNet-5网络26结构中使用BP算法训练模型，采用Sigmoid作为激活函数，提取原始图像上的有效表征。Sigmoid激活函数具体计算为 (a)全连接方式 (b)卷积连接方式 1 f(x)= 1+e-x 图4全连接与卷积连接方式比较该函数平滑、易与求导，将输入值映射到[0,1]。 Fig.4 Comparison of fully connection and convolutional 本文改进LeNet-5网络模型记为LeNet-Met- connection Str,输入层为(32×32)dpi的1通道灰度图像，第卷积神经网络主要包含卷积层、池化层和全 1层为卷积层，包含6个5×5的卷积核，步长为1，连接层。输入数据经过卷积层的卷积计算后，得与输入图像进行卷积计算，得到6个(28×28)dpi 到特征图像，具体计算为的特征图像：第2层为池化层，池化核尺寸为2×2 xw+b0≤m<M,0≤n<N 步长为2，采用均值下采样方式得到6个(14×14) dpi特征图像；第3层为卷积层，16个5×5的卷积式中：w为权重值，xm+i+i为输入值，b为偏置，ym 核，步长为1，采用局部连接的方式得到16个(10×

(a) 铁素体 (32×32) dpi 原图 (b) 将 (a) 图灰度值归一化 (c) 将 (b) 图高斯平滑处理 (d) 马氏体 (32×32) dpi 原图 (e) 将 (d) 图灰度值归一化 (f) 将 (e) 图高斯平滑处理图 3 金相组织图像灰度值归一化、平滑处理对比 Fig. 3 Comparison of normalization and smoothing of gray value of metallographic structure image 图 3 中 (a) 和 (d) 分别是铁素体和马氏体经过分割后的图像，(b) 和 (e) 分别是 (a) 与 (d) 经过灰度值归一化后所得的图像，晶粒特征更加清晰，但同时产生一些噪点，干扰图像信息，(c) 和 (f) 分别是 (b) 与 (e) 经过高斯平滑处理后所得图像，可看出图像降噪处理后，其特征信息同时得到保留。本文所建数据集为原图像经过上述图像预处理操作。综上所述，本文的数据集图像分为两类：铁素体和马氏体，每类图像的训练样本集有 1 000 张，测试集为 150 张，分辨率为 (32×32) dpi，均为 1 通道灰度图像。 2 卷积神经网络结构人工神经网络[18-19] 是模拟动物神经网络连接方式处理数据的一种算法模型，它由多个神经元结构连接组成。神经网络的学习，是通过计算机自主学习找到一组权重，使得神经网络的输出与目标越来越接近[18]。卷积神经网络（convolutional neural network, CNN） [20-22] 的层与层之间通过卷积计算的方式连接。图 4 反应了全连接与卷积连接的区别。 … (a) 全连接方式 (b) 卷积连接方式图 4 全连接与卷积连接方式比较 Fig. 4 Comparison of fully connection and convolutional connection 卷积神经网络主要包含卷积层、池化层和全连接层。输入数据经过卷积层的卷积计算后，得到特征图像，具体计算为 ymn = f   ∑J−1 j=0 ∑I−1 i=0 xm+i,n+jwi j +b   ,0 ⩽ m < M,0 ⩽ n < N 式中： wi j 为权重值，xm+i,n+j 为输入值， b 为偏置， ymn 为特征值。 x y 特征图像经过池化层[24-25] 后可缩小尺度。池化层的采样方式有均匀采样、最大下采样等。最大下采样（max pooling）是在采样区域取最大值作为输出。如果进行 S1×S2 的均匀采样，取 S1×S2 内输入值的平均值为该区域的输出值，具体计算为 ymn = 1 S 1S 2 ∑S 2−1 j=0 ∑S 1−1 i=0 xm×S 1+i,n×S 2+j 式中： ymn为 S 1×S 2 区域的输出值，xm×S 1+i,n×S 2+j 为 S1×S2 区域内的任意输入值。全连接层是一个浅层感知机，起到分类的作用。输出层采用 softmax 分类器，通过计算概率来判别样本种类，可完成多种类别的分类，具体计算为 f(x (i) |θ) =   p(y (i) = 1|x (i) ,θ) p(y (i) = 2|x (i) ,θ) . . . p(y (i) = k|x (i) ,θ)   = 1 ∑k j=1 e θ T j x (i)   e θ T 1 x (i) e θ T 2 x (i) . . . e θ T k x (i)   k θ T j x (i) p(y (i) = k|x (i) ,θ) k θ 式中：表示某个分类，表示该分类的值，表示第类的概率，为权重。通过训练集样本的学习，softmax 分类器学习最优参数，使得损失函数的损失值达到最小，最常用的为交叉熵函数，具体计算为 J(θ) = − 1 m   ∑m i=1 ∑k j=1 1{y (i) = j}lg e θ T j x (i) ∑k l=1 e θ T l x (i)   1{y (i) 式中： = j} 表示若样本 i 的真实分类为 j，则取值为 1。训练的过程中损失函数的值逐渐减小，准确度逐渐增高，卷积神经网络模型逐渐收敛，当损失函数小于允许的范围，即得到训练模型。 3 不同卷积神经网络对比及改进 3.1 LeNet-5 网络结构及改进 LeNet-5 网络[26] 结构中使用 BP 算法训练模型，采用 Sigmoid 作为激活函数，提取原始图像上的有效表征。Sigmoid 激活函数具体计算为 f(x) = 1 1+e −x 该函数平滑、易与求导，将输入值映射到 [0,1]。本文改进 LeNet-5 网络模型记为 LeNet-MetStr，输入层为 (32×32) dpi 的 1 通道灰度图像，第 1 层为卷积层，包含 6 个 5×5 的卷积核，步长为 1，与输入图像进行卷积计算，得到 6 个 (28×28) dpi 的特征图像；第 2 层为池化层，池化核尺寸为 2×2 步长为 2，采用均值下采样方式得到 6 个 (14×14) dpi 特征图像；第 3 层为卷积层，16 个 5×5 的卷积核，步长为 1，采用局部连接的方式得到 16 个 (10× 第 4 期王佳锐，等：卷积神经网络金相组织自动识别 ·701·

·702· 智能系统学报第17卷 10)di的特征图像；第4层为池化层，池化核尺寸激活函数为ELU函数)，具体计算为为2×2，步长为2，采用均值下采样方法得到16 x,x>0 个(5×5)dpi的特征图像；第5层为全连接层，使 f)=ae-1).其他用120个神经元做全连接：第6层为全连接层，含式中：a为可调节的参数。ELU函数将Sigmoid函有84个隐藏单元；最后的输出层为2个，用以实数和Relu函数相结合，有效解决Relu函数在负数现铁素体和马氏体的自动识别。图5为本文运用时不被激活、梯度消失的情况，更具鲁棒性，收敛 LeNet-MetStr网络结构训练金相组织模型示意图。速度更快。特征图像全连接层输出层 VGG-MetStr网络结构共有17层，分为6段，输人层前5段每段由两层卷积层和一层池化层组成，卷积层采用3×3，步长为1的卷积核进行卷积，池化卷积计算下采样卷积计算下采样全连接高斯连接层采用大小为2×2，步长为1的池化核进行池化计算。最后一段为2层全连接层。图5 LeNet-MetStr网络结构 Fig.5 LeNet-MetStr network structure 4实验结果与分析 3.2 AlexNet网络结构及改进 AlexNet网络2-2I结构采用了Relu激活函数；本实验的硬件支持CPU为intel i7-9750H, 池化尺寸比步长大，产生覆盖的池化操作，使结 GPU为NVIDIA GTX1650,内存8GB,操作系统果更准确；引入Dropout随机删除网络中的一些为Unbuntul8,环境为Pycharm,平台使用Tensor- 隐藏神经元，有效避免过拟合现象，模型训练时 flow与keras,语言使用Python。网络模型的参数间也相对缩短。采用随机生成，实验所得数据结果采用Tensor- Relu激活函数2的具体计算为 Board可视化。经过预处理后的数据集图像作为 f(x)=max(0,x) 输入，经过3种改进网络结构训练，得到本文主要该函数为非零线性函数，有效克服梯度消失，统计的2个指标，准确度(acc)和损失函数(loss)。加快训练速度。图6为LeNet-MetStr网络模型在不同迭代次数训l AlexNet网络输入的图像是能反应颜色特征练样本模型时所得的准确度。的三通道彩色图像，且分辨率是(224×224)dpi。 1.0 而本文所研究的金相组织图像并不需要彩色来反 0.9 0.8 应其特征，所以输入图像仍为(32×32)dpi的单通兰0.7 道灰度图像。是06 本文将AlexNet改进网络记为AlexNet-Met- 0.5 实验数据 0.4 Sr,网络结构共6层，其中2层卷积层，2层池化一拟合数据 0.3 层，2层全连接层。第1层为卷积层，采用7×7的 400 800120016002000 选代次数 96个卷积核，步长为1，得到(26×26)dpi的96个 (a)Epoch=20 特征图像：第2层为池化层，采用3×3的池化核， 1.0 步长为2的最大值下采样法进行池化；第3层为 0.8 卷积层，采用5×5×256的卷积核，步长为1，得到是06 实验数据 0.4 (9×9)dpi的256个特征图像；第4层为池化层，一拟合数据 0.2 采用3×3的池化核，步长为1最大值下采样法进 0 10002000.3000 40005000 迭代次数行池化；第5层和第6层为全连接层，全连接层采 (b)Epoch=50 用Dropout(丢弃概率rate=O.5)来随机删除一些隐图6 LeNet-MetStr网络模型在不同迭代次数训练样本藏神经元以提高效率，降低过拟合现象。模型所得的准确度 3.3 VGGNet网络结构及改进 Fig.6 Accuracy of LeNet-Metstr network model in train- VGGNet29通过采用3×3，步长为1的小卷积 ing sample model with different iteration times 核多次扫描的方法，加深了网络的深度，其优点图6(a)为采用LeNet-MetStr网络模型在训练是有较好的泛化能力，良好的迁移学习能力。次数为20时所得训练样本准确度，图6(b)为采本文根据所研究图像特性对VGG16网络结用LeNet-MetStr网络模型在训练次数为50时所构进行改进，记为VGG-MetStr。该模型中采用的得训练样本准确度。由图6可以看出，随着训练

10) dpi 的特征图像；第 4 层为池化层，池化核尺寸为 2×2，步长为 2，采用均值下采样方法得到 16 个 (5×5) dpi 的特征图像；第 5 层为全连接层，使用 120 个神经元做全连接；第 6 层为全连接层，含有 84 个隐藏单元；最后的输出层为 2 个，用以实现铁素体和马氏体的自动识别。图 5 为本文运用 LeNet-MetStr 网络结构训练金相组织模型示意图。输入层特征图像全连接层输出层高斯连接卷积计算下采样卷积计算下采样全连接图 5 LeNet- MetStr 网络结构 Fig. 5 LeNet- MetStr network structure 3.2 AlexNet 网络结构及改进 AlexNet 网络[27-28] 结构采用了 Relu 激活函数；池化尺寸比步长大，产生覆盖的池化操作，使结果更准确；引入 Dropout 随机删除网络中的一些隐藏神经元，有效避免过拟合现象，模型训练时间也相对缩短。 Relu 激活函数[29] 的具体计算为 f(x) = max(0, x) 该函数为非零线性函数，有效克服梯度消失，加快训练速度。 AlexNet 网络输入的图像是能反应颜色特征的三通道彩色图像，且分辨率是 (224×224) dpi。而本文所研究的金相组织图像并不需要彩色来反应其特征，所以输入图像仍为 (32×32) dpi 的单通道灰度图像。本文将 AlexNet 改进网络记为 AlexNet-MetStr，网络结构共 6 层，其中 2 层卷积层，2 层池化层，2 层全连接层。第 1 层为卷积层，采用 7×7 的 96 个卷积核，步长为 1，得到 (26×26) dpi 的 96 个特征图像；第 2 层为池化层，采用 3×3 的池化核，步长为 2 的最大值下采样法进行池化；第 3 层为卷积层，采用 5×5×256 的卷积核，步长为 1，得到 (9×9) dpi 的 256 个特征图像；第 4 层为池化层，采用 3×3 的池化核，步长为 1 最大值下采样法进行池化；第 5 层和第 6 层为全连接层，全连接层采用 Dropout (丢弃概率 rate=0.5) 来随机删除一些隐藏神经元以提高效率，降低过拟合现象。 3.3 VGGNet 网络结构及改进 VGGNet[29] 通过采用 3×3，步长为 1 的小卷积核多次扫描的方法，加深了网络的深度，其优点是有较好的泛化能力，良好的迁移学习能力。本文根据所研究图像特性对 VGG16 网络结构进行改进，记为 VGG-MetStr。该模型中采用的激活函数为 ELU 函数[30] ，具体计算为 f(x) = { x, x > 0 α(ex −1), 其他式中：α为可调节的参数。ELU 函数将 Sigmoid 函数和 Relu 函数相结合，有效解决 Relu 函数在负数时不被激活、梯度消失的情况，更具鲁棒性，收敛速度更快。 VGG-MetStr 网络结构共有 17 层，分为 6 段，前 5 段每段由两层卷积层和一层池化层组成，卷积层采用 3×3，步长为 1 的卷积核进行卷积，池化层采用大小为 2×2，步长为 1 的池化核进行池化计算。最后一段为 2 层全连接层。 4 实验结果与分析本实验的硬件支持 CPU 为 intel i7-9750H， GPU 为 NVIDIA GTX1650，内存 8 GB，操作系统为 Unbuntu18，环境为 Pycharm，平台使用 Tensorflow 与 keras，语言使用 Python。网络模型的参数采用随机生成，实验所得数据结果采用 TensorBoard 可视化。经过预处理后的数据集图像作为输入，经过 3 种改进网络结构训练，得到本文主要统计的 2 个指标，准确度 (acc) 和损失函数 (loss)。图 6 为 LeNet-MetStr 网络模型在不同迭代次数训练样本模型时所得的准确度。 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 准确度准确度 0 400 800 1 200 1 600 2 000 迭代次数 0 1 000 2 000 3 000 4 000 5 000 迭代次数 (a) Epoch=20 (b) Epoch=50 实验数据拟合数据实验数据拟合数据 1.0 0.8 0.6 0.4 0.2 图 6 LeNet-MetStr 网络模型在不同迭代次数训练样本模型所得的准确度 Fig. 6 Accuracy of LeNet-Metstr network model in training sample model with different iteration times 图 6(a) 为采用 LeNet-MetStr 网络模型在训练次数为 20 时所得训练样本准确度，图 6(b) 为采用 LeNet-MetStr 网络模型在训练次数为 50 时所得训练样本准确度。由图 6 可以看出，随着训练 ·702· 智能系统学报第 17 卷

第4期王佳锐，等：卷积神经网络金相组织自动识别 ·703· 次数及迭代次数增多，模型收敛速度加快，准确收敛，随后准确度缓慢上升；AlexNet--MetStr网络度也有所增长。后续的模型训练中，本文均采用模型在迭代次数约500次之前，训练过程与LeN- 训练次数为50。 et-MetStr网络模型训练过程相似，其后收敛效果本文将3种改进网络训练模型的准确度与损较优，准确度提升相对较慢；VGG-MetStr网络模失函数值做对比得出结果如表I所示，其中LeNet- 型在迭代约600次后，准确度开始快速上升，迭代 MetStr网络和VGG-MetStr网络训练模型的准确次数至500次左右，准确度达到约0.8，训练过程度均可达到最高值l00%,AlexNet-.MetStr网络训稍长，迭代次数在4500至5000次左右时，收敛效练模型的准确度可达到97%；对比损失函数值，果更优，准确度更高。该结果与网络结构设置及 AlexNet-MetStr网络训练模型的损失函数值最大，相关参数设置相符。 LeNet-MetStr网络训练模型的损失函数值其次！本文将测试集数据传入3种网络训练好的模 VGG-MetStr网络训练模型的损失函数值最小。型，得到测试集的准确度如表2所示。表1 LeNet-MetStr、AlexNet-.MetStr、.VGG-MetStr训练表2 LeNet-MetStr、AlexNet-MetStr、VGG-MetStr模型模型准确度和损失值对比测试集准确度 Table 1 Comparison of accuracyand loss value of LeNet- Table 2 Test accuracy of LeNet-MetStr,AlexNet-MetStr MetStr,AlexNet-MetStr and VGG-MetStr train- and VGG-MetStr models ing models 性能 LeNet-MetStr AlexNet-MetStr VGG-MetStr 性能 LeNet-MetStr AlexNet-MetStr VGG-MetStr 准确度 0.9499 0.9499 1.0000 准确度 1.0000 0.9700 1.0000 损失值 0.0057 0.0131 0.0035 由表2可以看出，VGG-MetStr网络所得训练模型能够100%识别测试集的图像，LeNet-Met- 图7为3种改进网络模型训练过程所得准确 Str网络和AlexNet-MetStr网络所得的训练模型识度的变化过程。别测试集图像的准确度均为94.99%。VGG-Met- 1.0 Str网络模型要优于LeNet-MetStr网络模型和 0.8 6 AlexNet--MetStr网络模型。实验数据在实际使用中，会出现未经过预处理的图像 0.4 一拟合数据 0.2 作为输入，检测材料类别。为此，将未经预处理的 0 100020003000.40005000 迭代次数 150张测试集图像进行测试，所得结果如图8 (a)LeNet-MetStr 所示。 1.0 0.8 T:正确 0.4 实验数据拟合数据 0.2 0 100020003000 40005000 迭代次数 (b)AlexNet-MetSt 1.0 0.8 30 60 90 120 150 0.6 图像标记码张实验数据 0.4 (a)LeNet-MetStr 拟合数据 0.2 T:正确 100020003000 40005000 迭代次数 (c)VGG-MetStr 图73种改进网络模型训练所得准确度变化过程 Fig.7 Change process of accuracy obtained from training of three improved network models 对比图7中3种模型训练过程中准确度的变化过程，可以观察到LeNet-MetStr网络模型在迭 30 60 90 120 150 代约300次后，准确度开始快速上升，迭代次数图像标记码/张至500次左右，准确度达到约0.8，能较快的趋于 (b)AlexNet-MetStr

次数及迭代次数增多，模型收敛速度加快，准确度也有所增长。后续的模型训练中，本文均采用训练次数为 50。本文将 3 种改进网络训练模型的准确度与损失函数值做对比得出结果如表 1 所示，其中 LeNetMetStr 网络和 VGG-MetStr 网络训练模型的准确度均可达到最高值 100%，AlexNet-MetStr 网络训练模型的准确度可达到 97%；对比损失函数值， AlexNet-MetStr 网络训练模型的损失函数值最大， LeNet-MetStr 网络训练模型的损失函数值其次， VGG-MetStr 网络训练模型的损失函数值最小。表 1 LeNet-MetStr、AlexNet-MetStr、VGG-MetStr 训练模型准确度和损失值对比 Table 1 Comparison of accuracyand loss value of LeNetMetStr,AlexNet-MetStr and VGG-MetStr training models 性能 LeNet-MetStr AlexNet-MetStr VGG-MetStr 准确度 1.0000 0.9700 1.0000 损失值 0.0057 0.0131 0.0035 图 7 为 3 种改进网络模型训练过程所得准确度的变化过程。准确度 1.0 0.8 0.6 0.4 0.2 0 1 000 2 000 3 000 4 000 5 000 实验数据拟合数据迭代次数 (a) LeNet-MetStr 准确度 1.0 0.8 0.6 0.4 0.2 准确度 1.0 0.8 0.6 0.4 0.2 0 1 000 2 000 3 000 4 000 5 000 实验数据拟合数据实验数据拟合数据迭代次数 (b) AlexNet-MetStr 0 1 000 2 000 3 000 4 000 5 000 迭代次数 (c) VGG-MetStr 图 7 3 种改进网络模型训练所得准确度变化过程 Fig. 7 Change process of accuracy obtained from training of three improved network models 对比图 7 中 3 种模型训练过程中准确度的变化过程，可以观察到 LeNet-MetStr 网络模型在迭代约 300 次后，准确度开始快速上升，迭代次数至 500 次左右，准确度达到约 0.8，能较快的趋于收敛，随后准确度缓慢上升；AlexNet-MetStr 网络模型在迭代次数约 500 次之前，训练过程与 LeNet-MetStr 网络模型训练过程相似，其后收敛效果较优，准确度提升相对较慢；VGG-MetStr 网络模型在迭代约 600 次后，准确度开始快速上升，迭代次数至 500 次左右，准确度达到约 0.8，训练过程稍长，迭代次数在 4 500 至 5 000 次左右时，收敛效果更优，准确度更高。该结果与网络结构设置及相关参数设置相符。本文将测试集数据传入 3 种网络训练好的模型，得到测试集的准确度如表 2 所示。表 2 LeNet-MetStr、AlexNet-MetStr、VGG-MetStr 模型测试集准确度 Table 2 Test accuracy of LeNet-MetStr,AlexNet-MetStr and VGG-MetStr models 性能 LeNet-MetStr AlexNet-MetStr VGG-MetStr 准确度 0.9499 0.9499 1.0000 由表 2 可以看出，VGG-MetStr 网络所得训练模型能够 100% 识别测试集的图像，LeNet-MetStr 网络和 AlexNet-MetStr 网络所得的训练模型识别测试集图像的准确度均为 94.99%。VGG-MetStr 网络模型要优于 LeNet-MetStr 网络模型和 AlexNet-MetStr 网络模型。在实际使用中，会出现未经过预处理的图像作为输入，检测材料类别。为此，将未经预处理的 150 张测试集图像进行测试，所得结果如图 8 所示。 T: 正确 F: 错误 T F 判断结果 30 60 90 120 150 图像标记码/张 (a) LeNet-MetStr T: 正确 F: 错误 T F 判断结果 30 60 90 120 150 图像标记码/张 T: 正确 F: 错误 T F 判断结果图像标记码/张 (c) VGG-MetStr (b) AlexNet-MetStr 第 4 期王佳锐，等：卷积神经网络金相组织自动识别 ·703·

·704· 智能系统学报第17卷 T:正确经预处理测试集准确度对比。 F:错误表3 LeNet--MetStr、AlexNet-MetStr、VGG-MetStr模型未经预处理测试集准确度 Table 3 Unprocessed Test accuracy of LeNet-MetStr, AlexNet-MetStr and VGG-MetStr models LeNet-MetStr AlexNet-MetStr VGG-MetStr 准确度 0.8933 0.8533 0.9400 30 60 90 120150 图像标记码张 (c)VGG-MetStr 由此可见，对未经预处理的图像测试，VGG MetStr网络模型仍可得到较高的准确度。图83种改进网络模型对未经预处理测试集判断结果 Fig.8 Judgment results of three improved network mod- 本文对3种改进网络层级进行比较，如表4 els on non preprocessed test sets 所示。可以看出LeNet-MetStr和AlexNet-.Met- 由结果可见，l50个测试图像中，LeNet--Met- Str的网络层级相同，AlexNet-MetStr比LeNet-. Str网络模型可以准确识别134个，AlexNet--Met- MetStr的卷积核和池化尺寸较大，VGG-MetStr网 Str网络模型可以准确识别128个，VGG-MetStr网络的卷积核小，层级比LeNet-MetStr和AlexNet- 络模型可以准确识别141个。表3为3种模型未 MetStr两种网络模型更深。表4 LeNet--MetStr、.AlexNet--MetStr、VGG-MetStr网络层级比较 Table 4 Comparison of network levels of LeNet-MetStr,AlexNet-MetStr,VGG-MetStr LeNet-MetStr AlexNet-MetStr VGG-MetStr 输入图像(32×32)dpi,单通道输入图像(32×32)dpi,单通道输入图像(32×32)dpi,单通道卷积层：卷积核64个3×3，步长=1；卷积层：卷积核6个5×5，步长=1 卷积层：卷积核96个7×7.步长=1 卷积核64个3×3，步长=1：池化层：2×2.步长=1 卷积层：卷积核128个3×3，步长=1；池化层：2×2.步长=2 池化层：3×3，步长=2 卷积核128个3×3，步长=1：池化层：2×2步长=1 卷积层：卷积核256个3×3，步长=1；卷积层：卷积核16个5×5，步长=1 卷积层：卷积核256个5×5，步长=1 卷积核256个3×3，步长=1；池化层：2×2，步长=1 卷积层：卷积核512个3×3，步长=1；池化层：2×2.步长=2 池化层：3×3.步长=1 卷积核512个3×3，步长=1；池化层：2×2.步长=1 卷积层：卷积核512个3×3，步长=1；卷积核512个3×3，步长=，池化层：2×2，步长=1 2层全连接层 2层全连接层 2层全连接层经过实验数据对比可以看出，LeNet-Met- 像，能提取图像中细小的特征，VGG-MetStr比Lc Sr网络结构简单，由于卷积核尺寸较小，网络层 Net-MetStr和AlexNet-.MetStr具有更高的准确度，级较深，对本文所研究的小尺寸图像训练有很好更好的收敛效果。的效果。AlexNet-.MetStr网络模型卷积核尺寸相对较大，对大数量样本和大尺寸彩色图像有很快 5结束语的计算速度和很高的准确度，而本文由于样本数本文通过对金相组织图像特征分析，改进卷量有限，输人的图像尺寸相对较小，AlexNet-Met- 积神经网络实现铁素体和马氏体两种金相组织图 Str网络在训练过程中会丢失图像部分细节特征，的自动识别，模型训练及测试准确度最高均可达从而没有得到较好的准确度。VGG-MetStr网络到100%。结论总结如下：模型采用更深的层和更小的卷积核计算特征图 1)分析铁素体与马氏体的金相组织图像特

T: 正确 F: 错误 T F 判断结果图像标记码/张 (a) LeNet-MetStr T: 正确 F: 错误 T F 判断结果图像标记码/张 T: 正确 F: 错误 T F 判断结果 30 60 90 120 150 图像标记码/张 (c) VGG-MetStr (b) AlexNet-MetStr 图 8 3 种改进网络模型对未经预处理测试集判断结果 Fig. 8 Judgment results of three improved network models on non preprocessed test sets 由结果可见，150 个测试图像中，LeNet-MetStr 网络模型可以准确识别 134 个，AlexNet-MetStr 网络模型可以准确识别 128 个，VGG-MetStr 网络模型可以准确识别 141 个。表 3 为 3 种模型未经预处理测试集准确度对比。表 3 LeNet-MetStr、AlexNet-MetStr、VGG-MetStr 模型未经预处理测试集准确度 Table 3 Unprocessed Test accuracy of LeNet-MetStr, AlexNet-MetStr and VGG-MetStr models LeNet-MetStr AlexNet-MetStr VGG-MetStr 准确度 0.8933 0.8533 0.9400 由此可见，对未经预处理的图像测试，VGGMetStr 网络模型仍可得到较高的准确度。本文对 3 种改进网络层级进行比较，如表 4 所示。可以看出 LeNet-MetStr 和 AlexNet-MetStr 的网络层级相同，AlexNet-MetStr 比 LeNetMetStr 的卷积核和池化尺寸较大，VGG-MetStr 网络的卷积核小，层级比 LeNet-MetStr 和 AlexNetMetStr 两种网络模型更深。表 4 LeNet-MetStr、AlexNet-MetStr、VGG-MetStr 网络层级比较 Table 4 Comparison of network levels of LeNet-MetStr,AlexNet-MetStr,VGG-MetStr LeNet-MetStr AlexNet-MetStr VGG-MetStr 输入图像(32×32) dpi，单通道输入图像(32×32) dpi，单通道输入图像(32×32) dpi，单通道卷积层：卷积核6个5×5，步长=1 卷积层：卷积核96个7×7，步长=1 卷积层：卷积核64个3×3，步长=1; 卷积核64个3×3，步长=1; 池化层：2×2，步长=1 池化层：2×2，步长=2 池化层：3×3，步长=2 卷积层：卷积核128个3×3，步长=1; 卷积核128个3×3，步长=1; 池化层：2×2，步长=1 卷积层：卷积核16个5×5，步长=1 卷积层：卷积核256个5×5，步长=1 卷积层：卷积核256个3×3，步长=1; 卷积核256个3×3，步长=1; 池化层：2×2，步长=1 池化层：2×2，步长=2 池化层：3×3，步长=1 卷积层：卷积核512个3×3，步长=1; 卷积核512个3×3，步长=1; 池化层：2×2，步长=1 — — 卷积层：卷积核512个3×3，步长=1; 卷积核512个3×3，步长=1; 池化层：2×2，步长=1 2层全连接层 2层全连接层 2层全连接层经过实验数据对比可以看出，LeNet-MetStr 网络结构简单，由于卷积核尺寸较小，网络层级较深，对本文所研究的小尺寸图像训练有很好的效果。AlexNet-MetStr 网络模型卷积核尺寸相对较大，对大数量样本和大尺寸彩色图像有很快的计算速度和很高的准确度，而本文由于样本数量有限，输入的图像尺寸相对较小，AlexNet-MetStr 网络在训练过程中会丢失图像部分细节特征，从而没有得到较好的准确度。VGG-MetStr 网络模型采用更深的层和更小的卷积核计算特征图像，能提取图像中细小的特征，VGG-MetStr 比 LeNet-MetStr 和 AlexNet-MetStr 具有更高的准确度，更好的收敛效果。 5 结束语本文通过对金相组织图像特征分析，改进卷积神经网络实现铁素体和马氏体两种金相组织图的自动识别，模型训练及测试准确度最高均可达到 100%。结论总结如下： 1）分析铁素体与马氏体的金相组织图像特 ·704· 智能系统学报第 17 卷

第4期王佳锐，等：卷积神经网络金相组织自动识别 ·705· 点，采用图像增强、图像裁剪、尺寸缩放等方法进材料进展，2020,39(5)：385-390 行图像预处理，得到能够反映铁素体和马氏体金 CAO Zhuo,DAN Yabo,LI Xiang,et al.Research on op- 相组织特征的训练样本集和测试集。 timization and prediction mechanism of material proper- 2)提出金相组织自动识别卷积网铬模型。结 ties based on gradient and feature analysis in convolution 合金相组织训练样本图像特征，优化卷积神经网 neural network[J].Materials China,2020,39(5):385- 络模型，对各层网络结构和参数进行调整，获得 390. [8]李维刚，湛竞成，范丽霞，等.基于卷积神经网铬的钢铁训l练模型准确度优异的LeNet-MetStr、AlexNet- 材料微观组织自动辨识).钢铁研究学报，2020,32(1) MetStr、VGG-MetStr3种改进网络模型， 33-43. 3)通过对比3种改进卷积神经网络模型，分 LI Weigang,CHEN Jingcheng,FAN Lixia,et al.Auto- 析其性能，得出VGG-MetStr网络模型优于LeNet- matic identification of microstructure of iron and steel MetStr、AlexNet-.MetStr网络模型的结论，与理论 material based on convolutional neural network[].Journ- 相符。本文验证了使用卷积神经网络实现金相 al of iron and steel research,2020,32(1):33-43. 组织图像自动识别的可行性和准确性，为今后更 [9] 雷涛，李云形，周文政，等.数据与模型联合驱动的陶瓷多金相组织种类的自动识别奠定基础，笔者今后材料晶粒分割).自动化学报，2022,48(4)：1137-1152，将对双相金相组织图像分析及自动辨识做进一步 LEI Tao,LI Yuntong,ZHOU Wenzheng,et al.Grain seg- 研究。 mentation of ceramic materials using data-driven jointing model-driven[J].Acta automatica sinica,2022,48(4): 参考文献： 1137-1152 [1]KHEDKAR P,MOTAGI R,MAHAJAN P,et al.A re- [10]GOLA J.BRITZ D.STAUDT T.et al.Advanced micro- view on advance higu strength steels[J].International structure classification by data mining methods[J].Com- journal of current engineering and technology,2016,6: putational materials science,2018,148:324-335 240. [11]WEBEL J,GOLA J,BRITZ D,et al.A new analysis ap- [2]HONEYCOMBE R W K.Steels:microstructure and proach based on Haralick texture features for the charac- properties[M].Fourth edition,Oxford:Butterworth- terization of microstructure on the example of low-alloy Heinemann,2017. steels[J].Materials characterization,2018,144:584- [3]KRAUSS G.Steels:processing,structure,and perform- 596. ance[M].2nd edition.Materials Park:ASM International. [12]TSUTSUI K.TERASAKI H.MAEMURA T,et al.Mi- 2015. crostructural diagram for steel based on crystallography [4]OHSER J,MUCKLICH F.Statistical analysis of micro- with machine learning[J].Computational materials sci- structures in materials science[].Practical metallography, ence,2019,159:403-411 2001,38(9):538-539. [13]GOLA J.WEBEL J,BRITZ D,et al.Objective micro- [5]张勇，李恒灿，梁明亮.基于PSO-BP神经网络的汽车 structure classification by support vector machine 用铸造AZ91镁合金晶粒尺寸的预测[.热加工工艺 (SVM)using a combination of morphological paramet- 2019,48(3):105-107,111. ers and textural features for low carbon steels[J].Com- ZHANG Yong,LI Hengcan,LIANG Mingliang.Predic- putational materials science,2019,160:186-196. tion of grain size of cast AZ91 magnesium alloy for auto- [14邹耀斌，雷帮军，臧兆祥，等.归一化互信息量最大化 mobile based on PSO-BP neural network[J].Hot working 导向的自动阈值选择方法[.自动化学报，2019， technology,2019,48(3:105-107,111 45(7):1373-1385 [6]张鹏，李靖，王文先，等.基于卷积神经网络模型的 ZOU Yaobin,LEI Bangjun,ZANG Zhaoxiang,et al. Gd2O,/6061A1中子屏蔽材料的力学性能预测U.原子 Automatic threshold selection guided by maximizing 能科学技术，2020,54(8)：1513-1518 normalized mutual information[J].Acta automatica sin- ZHANG Peng,LI Jing,WANG Wenxian,et al.Predic- ica,2019,45(7):1373-1385. tion of mechanical property of Gd2O3/6061Al neutron [15]WU Tingfan,MOVELLAN J.Semi-parametric Gaussi- shielding material based on convolutional neural network an process for robot system identification[C]//2012 model[]].Atomic energy science and technology,2020, IEEE/RSJ International Conference on Intelligent Ro- 54(8):1513-1518. bots and Systems.Vilamoura Algarve:IEEE,2012: [7]曹卓，但雅波，李想，等.基于卷积神经网络模型中梯度 725-731. 与特征分析的材料性能优化与预测机理研究[).中国 [16]VAN DER WILK M.RASMUSSEN C E.HENSMAN

点，采用图像增强、图像裁剪、尺寸缩放等方法进行图像预处理，得到能够反映铁素体和马氏体金相组织特征的训练样本集和测试集。 2）提出金相组织自动识别卷积网络模型。结合金相组织训练样本图像特征，优化卷积神经网络模型，对各层网络结构和参数进行调整，获得训练模型准确度优异的 LeNet-MetStr、AlexNetMetStr、VGG-MetStr 3 种改进网络模型。 3）通过对比 3 种改进卷积神经网络模型，分析其性能，得出 VGG-MetStr 网络模型优于 LeNetMetStr、AlexNet-MetStr 网络模型的结论，与理论相符。本文验证了使用卷积神经网络实现金相组织图像自动识别的可行性和准确性，为今后更多金相组织种类的自动识别奠定基础，笔者今后将对双相金相组织图像分析及自动辨识做进一步研究。参考文献： KHEDKAR P, MOTAGI R, MAHAJAN P, et al. A review on advance higu strength steels[J]. International journal of current engineering and technology, 2016, 6: 240. [1] HONEYCOMBE R W K. Steels: microstructure and properties[M]. Fourth edition, Oxford: ButterworthHeinemann, 2017. [2] KRAUSS G. Steels: processing, structure, and performance[M]. 2nd edition. Materials Park: ASM International, 2015. [3] OHSER J, MÜCKLICH F. Statistical analysis of microstructures in materials science[J]. Practical metallography, 2001, 38(9): 538–539. [4] 张勇, 李恒灿, 梁明亮. 基于 PSO-BP 神经网络的汽车用铸造 AZ91 镁合金晶粒尺寸的预测 [J]. 热加工工艺, 2019, 48(3): 105–107,111. ZHANG Yong, LI Hengcan, LIANG Mingliang. Prediction of grain size of cast AZ91 magnesium alloy for automobile based on PSO-BP neural network[J]. Hot working technology, 2019, 48(3): 105–107,111. [5] 张鹏, 李靖, 王文先, 等. 基于卷积神经网络模型的 Gd2O3 /6061Al 中子屏蔽材料的力学性能预测 [J]. 原子能科学技术, 2020, 54(8): 1513–1518. ZHANG Peng, LI Jing, WANG Wenxian, et al. Prediction of mechanical property of Gd2O3 /6061Al neutron shielding material based on convolutional neural network model[J]. Atomic energy science and technology, 2020, 54(8): 1513–1518. [6] 曹卓, 但雅波, 李想, 等. 基于卷积神经网络模型中梯度与特征分析的材料性能优化与预测机理研究 [J]. 中国 [7] 材料进展, 2020, 39(5): 385–390. CAO Zhuo, DAN Yabo, LI Xiang, et al. Research on optimization and prediction mechanism of material properties based on gradient and feature analysis in convolution neural network[J]. Materials China, 2020, 39(5): 385– 390. 李维刚, 谌竟成, 范丽霞, 等. 基于卷积神经网络的钢铁材料微观组织自动辨识 [J]. 钢铁研究学报, 2020, 32(1): 33–43. LI Weigang, CHEN Jingcheng, FAN Lixia, et al. Automatic identification of microstructure of iron and steel material based on convolutional neural network[J]. Journal of iron and steel research, 2020, 32(1): 33–43. [8] 雷涛, 李云彤, 周文政, 等. 数据与模型联合驱动的陶瓷材料晶粒分割 [J]. 自动化学报, 2022, 48(4): 1137–1152. LEI Tao, LI Yuntong, ZHOU Wenzheng, et al. Grain segmentation of ceramic materials using data-driven jointing model-driven[J]. Acta automatica sinica, 2022, 48(4): 1137–1152. [9] GOLA J, BRITZ D, STAUDT T, et al. Advanced microstructure classification by data mining methods[J]. Computational materials science, 2018, 148: 324–335. [10] WEBEL J, GOLA J, BRITZ D, et al. A new analysis approach based on Haralick texture features for the characterization of microstructure on the example of low-alloy steels[J]. Materials characterization, 2018, 144: 584– 596. [11] TSUTSUI K, TERASAKI H, MAEMURA T, et al. Microstructural diagram for steel based on crystallography with machine learning[J]. Computational materials science, 2019, 159: 403–411. [12] GOLA J, WEBEL J, BRITZ D, et al. Objective microstructure classification by support vector machine (SVM) using a combination of morphological parameters and textural features for low carbon steels[J]. Computational materials science, 2019, 160: 186–196. [13] 邹耀斌, 雷帮军, 臧兆祥, 等. 归一化互信息量最大化导向的自动阈值选择方法 [J]. 自动化学报, 2019, 45(7): 1373–1385. ZOU Yaobin, LEI Bangjun, ZANG Zhaoxiang, et al. Automatic threshold selection guided by maximizing normalized mutual information[J]. Acta automatica sinica, 2019, 45(7): 1373–1385. [14] WU Tingfan, MOVELLAN J. Semi-parametric Gaussian process for robot system identification[C]//2012 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vilamoura Algarve: IEEE, 2012: 725−731. [15] [16] VAN DER WILK M, RASMUSSEN C E, HENSMAN 第 4 期王佳锐，等：卷积神经网络金相组织自动识别 ·705·

·706· 智能系统学报第17卷 J.Convolutional Gaussian processes[Cl//NIPS'17:Pro- tional Symposium on Performance Analysis of Systems ceedings of the 31st International Conference on Neural and Software.New York:IEEE.2017:55-64 Information Processing Systems.New York:ACM, [28]KRIZHEVSKY A.SUTSKEVER I.HINTON G E.Im- 2017:2845-2854. ageNet classification with deep convolutional neural net- [17]RASMUSSEN C E,WILLIAMS C K I.Gaussian pro- works[Cl//Proceedings of Advances in Neural Informa- cesses for machine learning[M].London:MIT,2006 tion Processing Systems 25.Nevada:Curran Associates, [18]张若非，付强，高斌.深度学习模型及应用详解M北 2012:1097-1105. 京：电子工业出版社，2019：2-6 [29]SIMONYAN K.ZISSERMAN A.Very deep convolu- [19]MITCHELL Tom M.机器学习M).曾华军，张银奎译 tional networks for large-scale image recognition[EB/OL]. 北京：机械工业出版社，2012：60-63. New York:arXiv,2014.(2014-09-04)[2021-10-29] [20]LECUN Y,BOSER B,DENKER J S,et al.Back- propagation applied to handwritten zip code recognition https://arxiv.org/abs/1409.1556 [J].Neural computation,1989,1(4):541-551. [30]CLEVERT D A,UNTERTHINER T,HOCHREITER S. [21]LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient- Fast and accurate deep network learning by exponential based learning applied to document recognition[J].Pro- linear units[EB/OL].New York:arXiv,2015.(2015- ceedings of the IEEE,1998,86(11):2278-2324. 11-23)[2021-10-29]https:/arxiv.org/abs/1511.07289. [22]BOUVRIE J.Notes on convolutional neural networks[J]. 作者简介： In practice,2006:47-60. 王佳锐，讲师，主要研究方向为机 [23]DUDA Richard O,HART Peter E,STORK David G. 器视觉、人工智能、深度学习算法应用。式分类[M.李宏东，姚天翔译.北京：机械工业出版社.2004. [24]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE transactions on pattern analysis and machine intelligence,2015,37(9):1904- 刘能锋，副教授，主要研究方向为 1916. 机器人控制、教学平台设计。 [25]ZEILER M D,FERGUS R.Stochastic pooling for regu- larization of deep convolutional neural networks[EB/OL]. New York:arXiv,2013.(2013-01-162021-10-29 https:∥ arxiv.org/abs/1301.3557. [26]LE CUN Y.BOSER B.DENKER J S,et al.Handwrit- ten digit recognition with a back-propagation network 曲鹏，讲师，主要研究方向为金属 [CV/NIPS'89:Proceedings of the 2nd International Con- 材料制备与表征、高熵合金力学性能与检测、锆钛合金力学性能与检测。 ference on Neural Information Processing Systems.New York:ACM,1989:396-404. [27]KIM H,NAM H,JUNG W,et al.Performance analysis of CNN frameworks for GPUs[C]//2017 IEEE Interna-

J. Convolutional Gaussian processes[C]//NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 2017: 2845−2854. RASMUSSEN C E, WILLIAMS C K I. Gaussian processes for machine learning[M]. London: MIT, 2006 [17] 张若非, 付强, 高斌. 深度学习模型及应用详解 [M]. 北京: 电子工业出版社, 2019: 2−6. [18] MITCHELL Tom M. 机器学习 [M]. 曾华军, 张银奎译. 北京: 机械工业出版社, 2012: 60−63. [19] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition [J]. Neural computation, 1989, 1(4): 541–551. [20] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradientbased learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. [21] BOUVRIE J. Notes on convolutional neural networks[J]. In practice, 2006: 47–60. [22] DUDA Richard O, HART Peter E, STORK David G. 模式分类 [M]. 李宏东, 姚天翔译. 北京: 机械工业出版社, 2004. [23] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904– 1916. [24] ZEILER M D, FERGUS R. Stochastic pooling for regularization of deep convolutional neural networks[EB/OL]. New York: arXiv, 2013. (2013−01−16)[2021−10−29].https:// arxiv.org/abs/1301.3557. [25] LE CUN Y, BOSER B, DENKER J S, et al. Handwritten digit recognition with a back-propagation network [C]//NIPS'89: Proceedings of the 2nd International Conference on Neural Information Processing Systems. New York: ACM, 1989: 396−404. [26] KIM H, NAM H, JUNG W, et al. Performance analysis of CNN frameworks for GPUs[C]//2017 IEEE Interna- [27] tional Symposium on Performance Analysis of Systems and Software. New York: IEEE, 2017: 55−64. KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of Advances in Neural Information Processing Systems 25. Nevada: Curran Associates, 2012: 1097−1105. [28] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. New York: arXiv, 2014. (2014−09−04)[2021−10−29]. https://arxiv.org/abs/1409.1556. [29] CLEVERT D A, UNTERTHINER T, HOCHREITER S. Fast and accurate deep network learning by exponential linear units[EB/OL]. New York: arXiv, 2015. (2015− 11−23) [2021−10−29].https://arxiv.org/abs/1511.07289. [30] 作者简介：王佳锐，讲师，主要研究方向为机器视觉、人工智能、深度学习算法应用。刘能锋，副教授，主要研究方向为机器人控制、教学平台设计。曲鹏，讲师，主要研究方向为金属材料制备与表征、高熵合金力学性能与检测、锆钛合金力学性能与检测。 ·706· 智能系统学报第 17 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录