【智能系统】基于改进残差学习的东巴象形文字识别

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：4.66MB

第17卷第1期智能系统学报 Vol.17 No.1 2022年1月 CAAI Transactions on Intelligent Systems Jan.2022 D0:10.11992/tis.202112009 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20211224.0916.002html 基于改进残差学习的东巴象形文字识别骆彦龙，毕晓君2，吴立成2，李霞丽（1.哈尔滨工程大学信息与通信工程学院，黑龙江哈尔滨150001；2.中央民族大学信息工程学院，北京 100081) 摘要：基于深度学习模型的东巴象形文字识别效果明显优于传统算法，但目前仍存在识别字数少、识别准确率低等问题。为此本文建立了包含1387个东巴象形文字、图片总量达到22万余张的数据集，大幅度增加了可识别字数，并辅助提高了东巴象形文字的识别准确率。同时，本文根据东巴象形文字相似度高、手写随意性大的特点，选择ResNet模型作为改进的网络结构，设计了残差跳跃连接方式和卷积层的数量，并通过加入最大池化层实现了下采样的改进。实验结果表明，在本文建立的东巴象形文字数据集上，改进的ResNet模型实现了东巴象形文字识别字数多且识别准确率高的最好效果，识别准确率可达到98.65%。关键词：深度学习；东巴象形文字；图像识别；数据集建立；RsNt模型：残差跳跃连接；下采样改进；识别准确率中图分类号：TP18文献标志码：A 文章编号：1673-4785(2022)01-0079-09 中文引用格式：骆彦龙，毕晓君，吴立成，等.基于改进残差学习的东巴象形文字识别小.智能系统学报，2022,17(1)：79-87. 英文引用格式：LUO Yanlong,BI Xiaojun,,WU Licheng,et al Dongba pictographs recognition based on improved residual learn- ing[J).CAAI transactions on intelligent systems,2022,17(1):79-87. Dongba pictographs recognition based on improved residual learning LUO Yanlong',BI Xiaojun',WU Licheng LI Xiali? (1.College of Information and Communication Engineering,Harbin Engineering University,Harbin 150001,China,2.School of In- formation Engineering,Minzu University of China,Beijing 100081,China) Abstract:Dongba pictographs recognition based on deep learning model has better recognition effect than that of tradi- tional algorithms.However,these methods have disadvantages such as small number of recognizable Dongba picto- graphs and low recognition accuracy.Aiming at these problems,in this study,we build a novel dataset of Dongba picto- graphs that contains 1387 Dongba pictographs and more than 220 thousand images.Therefore,the number of recogniz- able Dongba pictographs is greatly increased and the Dongba pictographs recognition accuracy is improved.Since Dongba pictographs are characterized by high similarity and random writing,ResNet is adopted as an improved net- work structure.Moreover,we design a residual shortcut connection and the number of convolutional layers and intro- duce the max-pooling into the ResNet to improve down-sampling.The experimental results demonstrate that the im- proved ResNet model can recognize more Dongba characters,and has achieved the highest recognition accuracy 98.65% in our dataset. Keywords:deep learning,Dongba pictographs;image recognition;build dataset;ResNet model;residual shortcut con- nection;improved down-sampling,recognition accuracy 东巴象形文字由纳西族祖先创造，至今已有直是研究的热点和重点。早期的东巴象形文字识两千多年的历史。2003年，东巴古籍文献被联合别研究一般采用传统算法提取东巴象形文字特征国教科文组织列为“世界记忆遗产”名录，成为人进行识别，关键步骤一般包括图像去噪、特征提类共同拥有的宝贵财富。东巴象形文字的识别一取和分类器识别3个步骤。常用的图像去噪方法有中值去噪、自适应去噪和小波去噪：在特征提收稿日期：2021-12-05.网络出版日期：2021-12-24. 基金项目：国家社科基金重大项目(20&ZD279). 取方面，方向元素、粗网格]等统计特征比分析通信作者：毕晓君.E-mail:bixiaojun@hrbeu.edu.cn 东巴象形文字的结构、笔画等结构特征取得的效

DOI: 10.11992/tis.202112009 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20211224.0916.002.html. 基于改进残差学习的东巴象形文字识别骆彦龙1 ，毕晓君2 ，吴立成2 ，李霞丽2 （1. 哈尔滨工程大学信息与通信工程学院, 黑龙江哈尔滨 150001; 2. 中央民族大学信息工程学院, 北京 100081）摘要：基于深度学习模型的东巴象形文字识别效果明显优于传统算法，但目前仍存在识别字数少、识别准确率低等问题。为此本文建立了包含 1 387 个东巴象形文字、图片总量达到 22 万余张的数据集，大幅度增加了可识别字数，并辅助提高了东巴象形文字的识别准确率。同时，本文根据东巴象形文字相似度高、手写随意性大的特点，选择 ResNet 模型作为改进的网络结构，设计了残差跳跃连接方式和卷积层的数量，并通过加入最大池化层实现了下采样的改进。实验结果表明，在本文建立的东巴象形文字数据集上，改进的 ResNet 模型实现了东巴象形文字识别字数多且识别准确率高的最好效果，识别准确率可达到 98.65%。关键词：深度学习；东巴象形文字；图像识别；数据集建立；ResNet 模型；残差跳跃连接；下采样改进；识别准确率中图分类号：TP18 文献标志码：A 文章编号：1673−4785(2022)01−0079−09 中文引用格式：骆彦龙, 毕晓君, 吴立成, 等. 基于改进残差学习的东巴象形文字识别 [J]. 智能系统学报, 2022, 17(1): 79–87. 英文引用格式：LUO Yanlong, BI Xiaojun, WU Licheng, et al. Dongba pictographs recognition based on improved residual learning[J]. CAAI transactions on intelligent systems, 2022, 17(1): 79–87. Dongba pictographs recognition based on improved residual learning LUO Yanlong1 ，BI Xiaojun2 ，WU Licheng2 ，LI Xiali2 (1. College of Information and Communication Engineering, Harbin Engineering University, Harbin 150001, China; 2. School of Information Engineering, Minzu University of China, Beijing 100081, China) Abstract: Dongba pictographs recognition based on deep learning model has better recognition effect than that of traditional algorithms. However, these methods have disadvantages such as small number of recognizable Dongba pictographs and low recognition accuracy. Aiming at these problems, in this study, we build a novel dataset of Dongba pictographs that contains 1387 Dongba pictographs and more than 220 thousand images. Therefore, the number of recognizable Dongba pictographs is greatly increased and the Dongba pictographs recognition accuracy is improved. Since Dongba pictographs are characterized by high similarity and random writing, ResNet is adopted as an improved network structure. Moreover, we design a residual shortcut connection and the number of convolutional layers and introduce the max-pooling into the ResNet to improve down-sampling. The experimental results demonstrate that the improved ResNet model can recognize more Dongba characters, and has achieved the highest recognition accuracy 98.65% in our dataset. Keywords: deep learning; Dongba pictographs; image recognition; build dataset; ResNet model; residual shortcut connection; improved down-sampling; recognition accuracy 东巴象形文字由纳西族祖先创造，至今已有两千多年的历史。2003 年，东巴古籍文献被联合国教科文组织列为“世界记忆遗产”名录，成为人类共同拥有的宝贵财富。东巴象形文字的识别一直是研究的热点和重点。早期的东巴象形文字识别研究一般采用传统算法提取东巴象形文字特征进行识别，关键步骤一般包括图像去噪、特征提取和分类器识别 3 个步骤。常用的图像去噪方法有中值去噪、自适应去噪和小波去噪[1] ；在特征提取方面，方向元素、粗网格[2-3] 等统计特征比分析东巴象形文字的结构、笔画等结构特征取得的效收稿日期：2021−12−05. 网络出版日期：2021−12−24. 基金项目：国家社科基金重大项目 (20&ZD279). 通信作者：毕晓君. E-mail：bixiaojun@hrbeu.edu.cn. 第 17 卷第 1 期智能系统学报 Vol.17 No.1 2022 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2022

第17卷智能系统学报 ·80· 果更好：常用的分类器模型包括支持向量机、随先研究如何建立大规模的东巴象形文字数据集，机森林1等。代表性的研究有2017年徐小力等来保证识别的东巴象形文字更多，并可辅助提高采用拓扑特征法和投影法相结合的特征提取方算法识别的准确率。法，取得了84.4%的识别准确率。2019年杨玉东巴象形文字的特点可总结如下。1)内容广婷等通过结合东巴象形文字的结构和形态，提出泛、字数多。按照属性可分为天文、地理、建筑等了基于网格分辨率的东巴象形文字相似度测量算十八大类，共有2000余字（包括异体字）。2) 法，能够检索和识别不同形状的东巴象形文字。相似度高。结构相似的东巴象形文字因其细节上述研究虽然取得了一定的成果，但实现过程复部分不同，其字义亦不同。3)书写随意性较大。杂且效率较低，算法的识别准确率有待提高。直不同人书写的东巴象形文字都会有不规则的形到2019年，随着人工智能技术的发展，国内外开始变。4)异体字多。大多数东巴象形文字都有多个出现基于深度学习的东巴文识别文章，2019年张异体字。泽晖建立了包含30592张图片的东巴象形文字数上述特点增加了东巴象形文字的识别难度，据集，设计了孪生网络并协同进行文字语义识别，因此为了获得更好的识别效果，数据集中每个东对956个东巴象形文字测试，取得了85.6%识别准巴象形文字大约需要150张图像，才能满足训练确率图：同年，Wu9在训练集图像3800张，测试集的要求。但是仅通过东巴古籍来获取远远不能达图像200张的条件下，使用VGGNet取得了到数量的要求，常用的数据增强方法主要是几何 95.8%的识别准确率；2021年谢裕睿等提出了基变换，但由于东巴文本身象形字的图画特点，于ResNet网络的东巴象形文字识别方法，建立了包相近的形状可表达不同的含义，通过几何变换可含536个东巴象形文字的数据集，并对94个东巴能变成其他文字，所以这种数据增强的方法难以象形文字测试，取得了93.58%的识别准确率10。适用东巴象形文字。以上研究对东巴象形文字识别做出较大的贡为此本文根据东巴象形文字手写或刀刻的书献，但目前还存在一些问题：1)东巴象形文字大写习惯，提出采用人工仿写东巴象形文字字典的多包含多个异体字，且在东巴经典中广泛存在；方法建立大规模数据集，再通过图像预处理方法但现有的数据集都没有涉及异体字，导致东巴经提高数据集的图片质量，这样可以保证数据集中典中的大量文字不能识别：2)现有的东巴象形文东巴象形文字的数量足够多，既可以最大幅度地增字数据集规模较小，影响了算法识别的准确率；加算法可识别的东巴象形文字字数，又可以辅助 3)所采用的深度学习模型较为初级，无法适应东提高算法识别的准确率。本文建立的东巴象形文巴象形文字的随机性和手写不确定性，识别准确字数据集示例如图1所示，其中每一行的5幅图率有待进一步提高。片同属异体字，共有相同的释义，第一列为统一的为了解决上述问题，本文主要做了以下两个文字释义，从中可以看出异体字之间的差别较大。方面的工作： 1)根据东巴象形文字字典]，采用人工仿写的方法建立了1387个东巴象形文字（包括异体云字)、图像规模达22万余张的东巴象形文字数据集，有效解决了异体字问题，大幅增加了可识别石头东巴象形文字的数量，并有效扩充了数据集的规模。2)根据东巴象形文字的图像特点，选择应用效果最好的ResNet模型作为改进的网络结构，设背常计了残差跳跃连接方式和卷积层的数量，并通过加入最大池化层实现了下采样的改进，有效提高船了算法识别的准确率。 1东巴象形文字数据集建立春天 1.1东巴象形文字图像获取深度学习模型能够取得较好的识别效果，其图1东巴象形文字数据集示例前提是需要大量带标注的训练数据。为此本文首 Fig.1 Samples of Dongba pictographs datasets

果更好；常用的分类器模型包括支持向量机[4] 、随机森林[5] 等。代表性的研究有 2017 年徐小力等采用拓扑特征法和投影法相结合的特征提取方法，取得了 84.4% 的识别准确率[6]。2019 年杨玉婷等通过结合东巴象形文字的结构和形态，提出了基于网格分辨率的东巴象形文字相似度测量算法，能够检索和识别不同形状的东巴象形文字[7]。上述研究虽然取得了一定的成果，但实现过程复杂且效率较低，算法的识别准确率有待提高。直到 2019 年，随着人工智能技术的发展，国内外开始出现基于深度学习的东巴文识别文章，2019 年张泽晖建立了包含 30 592 张图片的东巴象形文字数据集，设计了孪生网络并协同进行文字语义识别，对 956 个东巴象形文字测试，取得了 85.6% 识别准确率[8] ；同年，Wu[9] 在训练集图像 3 800 张，测试集图像 2 0 0 张的条件下，使用 VGGNe t 取得了 95.8% 的识别准确率；2021 年谢裕睿等提出了基于 ResNet 网络的东巴象形文字识别方法，建立了包含 536 个东巴象形文字的数据集，并对 94 个东巴象形文字测试，取得了 93.58% 的识别准确率[10]。以上研究对东巴象形文字识别做出较大的贡献，但目前还存在一些问题：1) 东巴象形文字大多包含多个异体字，且在东巴经典中广泛存在；但现有的数据集都没有涉及异体字，导致东巴经典中的大量文字不能识别；2) 现有的东巴象形文字数据集规模较小，影响了算法识别的准确率； 3) 所采用的深度学习模型较为初级，无法适应东巴象形文字的随机性和手写不确定性，识别准确率有待进一步提高。为了解决上述问题，本文主要做了以下两个方面的工作： 1) 根据东巴象形文字字典[11-12] ，采用人工仿写的方法建立了 1 387 个东巴象形文字 (包括异体字)、图像规模达 22 万余张的东巴象形文字数据集，有效解决了异体字问题，大幅增加了可识别东巴象形文字的数量，并有效扩充了数据集的规模。2) 根据东巴象形文字的图像特点，选择应用效果最好的 ResNet 模型作为改进的网络结构，设计了残差跳跃连接方式和卷积层的数量，并通过加入最大池化层实现了下采样的改进，有效提高了算法识别的准确率。 1 东巴象形文字数据集建立 1.1 东巴象形文字图像获取深度学习模型能够取得较好的识别效果，其前提是需要大量带标注的训练数据。为此本文首先研究如何建立大规模的东巴象形文字数据集，来保证识别的东巴象形文字更多，并可辅助提高算法识别的准确率。东巴象形文字的特点可总结如下。1) 内容广泛、字数多。按照属性可分为天文、地理、建筑等十八大类，共有 2000 余字 (包括异体字) [11]。2) 相似度高。结构相似的东巴象形文字因其细节部分不同，其字义亦不同。3) 书写随意性较大。不同人书写的东巴象形文字都会有不规则的形变。4) 异体字多。大多数东巴象形文字都有多个异体字。上述特点增加了东巴象形文字的识别难度，因此为了获得更好的识别效果，数据集中每个东巴象形文字大约需要 150 张图像，才能满足训练的要求。但是仅通过东巴古籍来获取远远不能达到数量的要求，常用的数据增强方法主要是几何变换[13-15] ，但由于东巴文本身象形字的图画特点，相近的形状可表达不同的含义，通过几何变换可能变成其他文字，所以这种数据增强的方法难以适用东巴象形文字。为此本文根据东巴象形文字手写或刀刻的书写习惯，提出采用人工仿写东巴象形文字字典的方法建立大规模数据集，再通过图像预处理方法提高数据集的图片质量，这样可以保证数据集中东巴象形文字的数量足够多，既可以最大幅度地增加算法可识别的东巴象形文字字数，又可以辅助提高算法识别的准确率。本文建立的东巴象形文字数据集示例如图 1 所示，其中每一行的 5 幅图片同属异体字，共有相同的释义，第一列为统一的文字释义，从中可以看出异体字之间的差别较大。云石头背靠船春天图 1 东巴象形文字数据集示例 Fig. 1 Samples of Dongba pictographs datasets 第 17 卷智能系统学报 ·80·

·81· 骆彦龙，等：基于改进残差学习的东巴象形文字识别第1期 1.2东巴象形文字图像预处理是双线性插值法，但是当原图像与尺寸归一化图人工仿写的东巴象形文字受光照以及拍照设像尺寸相差过大时，尺寸归一化后的图像纹理特备等的影响，往往会产生极大的噪声，影响东巴征易损坏，不利于深度学习模型识别。而像素区象形文字数据集的质量，因此必须对其进行一系域关系重采样法能够保留完整图像信息的条件列的图像预处理。图2给出了本文建立东巴象形下，将输入图像尺寸最大程度减小，大幅度减少文字数据集的技术路线，具体步骤如下。图像像素数以及数据量，在保证深度学习模型识别准确率不变的前提下，加快模型的训练速度。根据其他数据集图像尺寸大小设置的经验以及多次对比实验验证，我们发现当图像尺寸归一化为 64×64时，可以取得最好的识别效果，并且模型训手写文字字符裁剪灰度化练速度快。本文对像素区域关系重采样法和双线性插值法在东巴文字图像上的效果进行了简单的实验对比，分别将图像尺寸归一化为64×64。东巴象形文字数据集图3给出了实验结果。数据标注尺寸归一化二值化图2东巴象形文字数据集建立技术路线 Fig.2 Technical route for Dongba pictographs dataset es- (a)双线性插值法 (b)像素区域关系重采样法 tablishment 图3两种尺寸归一化方法示例 1)字符裁剪。对人工仿写的原始图像进行字 Fig.3 Samples of two size normalization methods 符裁剪，使得每张图像中仅包含一个东巴象形文从图3中可以看出，双线性插值法后的东巴字。具体过程如算法1所示。象形文字纹理特征有残缺，而像素区域关系重采算法1符裁剪算法样可获得更好的尺寸归一化效果。输入未裁剪的手写东巴象形文字图像X: 因此本文选择像素区域关系重采样法进行尺输出仅包含一个东巴象形文字的图像Y。寸归一化操作，其公式如式(3)所示： ①Xa←图像X的高度； A=B ②x←图像X的宽度； ∑a ③Yh←1/3X.-2/3Xk; (3) ④Y.←1/3X.-2/3Xm; f= ⑤Y←-Yh-Ywo 2)灰度化。黑白两种颜色反差较大，可提高式中：B表示图像某区域内像素值矩阵；α是与东巴象形文字识别的效果。为此，使用加权平均 B相对应的像素值系数矩阵，其取值取决于原图值法进行图像灰度化，去除图像的颜色信息，将像与尺寸归一化图像的尺寸大小关系；⊙表示三通道的彩色图像转换成单通道的灰度图像。灰 Hadamard积；表示图像B区域通过尺寸归一化度化公式如式(1)所示：后的像素值。 Gray=0.299R+0.587G+0.114B (1) 5)数据标注。通过数据编码标注，将第i个式中：R、G、B分别代表图像在(i,)处的红、东巴象形文字的所有图像【统一编码为i,使计算绿、蓝3种颜色分量像素值；Gray,代表图像在机将图像和编码相互对应，如式(4)所示： (,)处的灰度值。 F()=i (4) 3)二值化。为了极大程度减少图像数据量，式中F(·)表示编码标注算法，具体过程如算法通过全局阈值二值化减少图像无关像素信息，并 2所示。使整个图像呈现出明显的黑白效果，凸显东巴象算法2编码标注算法形文字轮廓，图像二值化公式如式(2)所示：输入train,test(其中有命名为i(包含图像 sw-si )的文件夹) (2) 输出图像I与其编码i相互对应的xt文档式中b表示图像二值化后图像在位，处的像素值。 ①for ietrain,test; 4)尺寸归一化。常用的图像尺寸归一化方法 ②for lei:

1.2 东巴象形文字图像预处理人工仿写的东巴象形文字受光照以及拍照设备等的影响，往往会产生极大的噪声，影响东巴象形文字数据集的质量，因此必须对其进行一系列的图像预处理。图 2 给出了本文建立东巴象形文字数据集的技术路线，具体步骤如下。手写文字字符裁剪灰度化数据标注东巴象形文字数据集尺寸归一化二值化图 2 东巴象形文字数据集建立技术路线 Fig. 2 Technical route for Dongba pictographs dataset establishment 1) 字符裁剪。对人工仿写的原始图像进行字符裁剪，使得每张图像中仅包含一个东巴象形文字。具体过程如算法 1 所示。算法 1 符裁剪算法输入未裁剪的手写东巴象形文字图像 X；输出仅包含一个东巴象形文字的图像 Y。 ① Xh ←图像 X 的高度； ② Xw ←图像 X 的宽度； ③ Yh ← 1/ 3Xh −2/ 3Xh； ④ Yw ← 1/ 3Xw −2/ 3Xw； ⑤ Y ← Yh −Yw。 2) 灰度化。黑白两种颜色反差较大，可提高东巴象形文字识别的效果。为此，使用加权平均值法进行图像灰度化，去除图像的颜色信息，将三通道的彩色图像转换成单通道的灰度图像。灰度化公式如式 (1) 所示： Grayi, j = 0.299Ri, j +0.587Gi, j +0.114Bi, j (1) Ri, j Gi, j Bi, j (i, j) Grayi, j (i, j) 式中：、、分别代表图像在处的红、绿、蓝 3 种颜色分量像素值；代表图像在处的灰度值。 3) 二值化。为了极大程度减少图像数据量，通过全局阈值二值化减少图像无关像素信息，并使整个图像呈现出明显的黑白效果，凸显东巴象形文字轮廓，图像二值化公式如式 (2) 所示： bi, j = { 0, Grayi, j ⩾ 125 255, Grayi, j < 125 (2) 式中 bi, j 表示图像二值化后图像在 (i, j) 处的像素值。 4) 尺寸归一化。常用的图像尺寸归一化方法 64×64 64×64 是双线性插值法，但是当原图像与尺寸归一化图像尺寸相差过大时，尺寸归一化后的图像纹理特征易损坏，不利于深度学习模型识别。而像素区域关系重采样法能够保留完整图像信息的条件下，将输入图像尺寸最大程度减小，大幅度减少图像像素数以及数据量，在保证深度学习模型识别准确率不变的前提下，加快模型的训练速度。根据其他数据集图像尺寸大小设置的经验以及多次对比实验验证，我们发现当图像尺寸归一化为时，可以取得最好的识别效果，并且模型训练速度快。本文对像素区域关系重采样法和双线性插值法在东巴文字图像上的效果进行了简单的实验对比，分别将图像尺寸归一化为。图 3 给出了实验结果。 (a) 双线性插值法 (b) 像素区域关系重采样法图 3 两种尺寸归一化方法示例 Fig. 3 Samples of two size normalization methods 从图 3 中可以看出，双线性插值法后的东巴象形文字纹理特征有残缺，而像素区域关系重采样可获得更好的尺寸归一化效果。因此本文选择像素区域关系重采样法进行尺寸归一化操作，其公式如式 (3) 所示： A = B⊙α fi, j = ∑ i, j ai, j ∑ i, j αi, j (3) α ⊙ fi, j 式中：B 表示图像某区域内像素值矩阵；是与 B 相对应的像素值系数矩阵，其取值取决于原图像与尺寸归一化图像的尺寸大小关系；表示 Hadamard 积；表示图像 B 区域通过尺寸归一化后的像素值。 5) 数据标注。通过数据编码标注，将第 i 个东巴象形文字的所有图像 I 统一编码为 i，使计算机将图像和编码相互对应，如式 (4) 所示： F(I) = i (4) 式中 F(·) 表示编码标注算法，具体过程如算法 2 所示。算法 2 编码标注算法输入 train，test (其中有命名为 i(包含图像 I) 的文件夹) 输出图像 I 与其编码 i 相互对应的 txt 文档 ① for i ∈ train，test； ②for I ∈ i ； ·81· 骆彦龙，等：基于改进残差学习的东巴象形文字识别第 1 期

第17卷智能系统学报 ·82· ③将I的绝对地址和i写入txt文档： cut connection)结构2o,解决了网络加深带来的梯 ④换行；度消失问题以及神经网络深度与识别准确度之间 ⑤重复迭代2)4)：的矛盾，可有效提取更多的图像细节特征，目前 ⑥返回图像【与其编码i相互对应的txt文档已成为图像识别的主流深度学习模型。通过上述一系列的图像预处理，本文建立了东考虑到东巴象形文字识别的具体问题，不仅巴象形文字数据集，该数据集包含1387个东巴象字数多、书写随意性较大，而且有些字形较为相形文字（包括异体字），每个东巴象形文字对应160余似，因此需要提取细节特征能力强的网络结构，张书写各异的图片，数据集图片总量为223050张。为此本文选择ResNet模型作为本文改进的网络 2改进残差学习神经网络结构，设计了残差跳跃连接方式和卷积层的数量，并通过加入最大池化层实现了对下采样的改近年来，深度学习成功应用于图像识别61) 进，更好地提取了东巴象形文字的纹理分布特领域，提出了一系列性能优异的网络模型，其中征。本文设计的网络主要框架如图4所示。下面 ResNet模型首次提出残差跳跃连接(residual short- 将详细介绍设计思路和改进方法。 88 Res block-c☐ Maxpool-2×2] 最大池化层大小为2×2 残差跳跃连接c代表其中卷积操作的通道数 ■Avgpool-4×4 平均池化层大小为4×4 图4东巴象形文字识别网络结构 Fig.4 Network structure of Dongba pictographs recognition y=(W2o(Wx)+x) (8) 2.1残差跳跃连接残差跳跃连接可以解决神经网络随着深度增式中：σ均表示ReLU激活函数，W和W2分别表示加出现性能退化的问题。深层神经网络难以拟合卷积层学习的参数。的原因是恒等映射H(x)=x的学习比较困难，但当 Conv3x3-S=1☐ 把网络设计为H(x)=F(x)+x时，可以把学习恒等 Conv3×3-S=1 3×3卷积层代表步长 BN 映射转化为更加容易学习的残差映射F()=H()-x ReLU F(x) 并且F(x)对输出变化更加敏感，参数的调整幅度 BN Conv3×3-S=1 BN 更大，从而可以加快学习速度，提高网络的优化 Batch normalization 性能。残差跳跃连接的一般定义如式（⑤）所示： ReLU F(x)+x y=F(x,(Wil+Wx (5) ReLU层 ReLU 其中W,主要是用1×1卷积2来匹配残差跳跃连接 y 输入x和输出y的通道维度。F(x,{W)为网络需图5本文残差跳跃连接模块要学习的残差映射。而当残差跳跃连接输入和输 Fig.5 Residual skip connection module of this paper 出维度相同时，可将其定义如式(6)所示： 2.2卷积层的选择 y=F(x,WiD+x (6) 网络模型卷积核的选择与网络计算量大小密文献「22]证明了越是接近当前卷积层的前层切相关。尽管大的卷积核可以直接增大感受野，输出对当前层的特征提取效果影响越大，可以使但是会带来网络计算量的暴增，而多个3×3卷积网络更容易训练。为此本文仅将相邻堆叠的卷积核可以在降低计算量的前提下实现5×5或7×7乃层组成残差跳跃连接结构，在有效重复利用特征至更大卷积核的效果。由式(9)可以发现，3个图的同时，降低网络参数量和复杂度。本文残差 3×3卷积核实现7×7卷积核效果时，其参数量可以跳跃连接结构如图5所示。图5中残差映射减少到55%。 F(x)如式(7)所示，输出y和输入x的关系式如式 3×3×3×C2 (8)所示： 1= ×100%≈55% (9) 7×7XC2 F(x)=W2(Wix) (7) 其中C指输入和输出的通道数

③将 I 的绝对地址和 i 写入 txt 文档； ④换行； ⑤重复迭代 2)~4)； ⑥返回图像 I 与其编码 i 相互对应的 txt 文档通过上述一系列的图像预处理，本文建立了东巴象形文字数据集,该数据集包含 1 387 个东巴象形文字（包括异体字），每个东巴象形文字对应 160 余张书写各异的图片，数据集图片总量为 223050 张。 2 改进残差学习神经网络近年来，深度学习成功应用于图像识别[16-19] 领域，提出了一系列性能优异的网络模型，其中 ResNet 模型首次提出残差跳跃连接 (residual shortcut connection) 结构[20] ，解决了网络加深带来的梯度消失问题以及神经网络深度与识别准确度之间的矛盾，可有效提取更多的图像细节特征，目前已成为图像识别的主流深度学习模型。考虑到东巴象形文字识别的具体问题，不仅字数多、书写随意性较大，而且有些字形较为相似，因此需要提取细节特征能力强的网络结构，为此本文选择 ResNet 模型作为本文改进的网络结构，设计了残差跳跃连接方式和卷积层的数量，并通过加入最大池化层实现了对下采样的改进，更好地提取了东巴象形文字的纹理分布特征。本文设计的网络主要框架如图 4 所示。下面将详细介绍设计思路和改进方法。 Res block-64 Res block-64 Res block-128 Res block-128 Res block-256 Res block-256 Res block-256 Res block-256 Res block-512 Res block-512 Res block-512 Res block-512 Res block-1 024 Res block-1 024 Res block-1 024 Res block-1 024 Maxpool-2×2 Maxpool-2×2 Maxpool-2×2 Maxpool-2×2 输入图像 64×64 Avgpool-4×4 东巴文字识别 Res block-c 残差跳跃连接 Maxpool-2×2 最大池化层大小为 2×2全连接层 c 代表其中卷积操作的通道数 Avgpool-4×4 平均池化层大小为 4×4 图 4 东巴象形文字识别网络结构 Fig. 4 Network structure of Dongba pictographs recognition 2.1 残差跳跃连接 H(x) = x H(x) = F(x)+ x F(x) = H(x)− x F(x) 残差跳跃连接可以解决神经网络随着深度增加出现性能退化的问题。深层神经网络难以拟合的原因是恒等映射的学习比较困难，但当把网络设计为时，可以把学习恒等映射转化为更加容易学习的残差映射，并且对输出变化更加敏感，参数的调整幅度更大，从而可以加快学习速度，提高网络的优化性能。残差跳跃连接的一般定义如式 (5) 所示： y = F(x,{Wi})+ Wsx (5) Ws 1×1 F(x,{Wi}) 其中主要是用卷积[21] 来匹配残差跳跃连接输入 x 和输出 y 的通道维度。为网络需要学习的残差映射。而当残差跳跃连接输入和输出维度相同时，可将其定义如式 (6) 所示： y = F(x,{Wi})+ x (6) F(x) 文献 [22] 证明了越是接近当前卷积层的前层输出对当前层的特征提取效果影响越大，可以使网络更容易训练。为此本文仅将相邻堆叠的卷积层组成残差跳跃连接结构，在有效重复利用特征图的同时，降低网络参数量和复杂度。本文残差跳跃连接结构如图 5 所示。图 5 中残差映射如式 (7) 所示，输出 y 和输入 x 的关系式如式 (8) 所示： F(x) = W2σ(W1 x) (7) y = σ(W2σ(W1 x)+ x) (8) 式中：σ均表示 ReLU 激活函数， W1和 W2分别表示卷积层学习的参数。 Conv3×3−S=1 Conv3×3−S=1 BN ReLU BN x ReLU Conv3×3−S=1 3×3 卷积层代表步长 BN Batch normalization ReLU ReLU 层 F (x) F (x)+x y 图 5 本文残差跳跃连接模块 Fig. 5 Residual skip connection module of this paper 2.2 卷积层的选择 3×3 5×5 7×7 3×3 7×7 网络模型卷积核的选择与网络计算量大小密切相关。尽管大的卷积核可以直接增大感受野，但是会带来网络计算量的暴增，而多个卷积核可以在降低计算量的前提下实现或乃至更大卷积核的效果。由式 (9) 可以发现，3 个卷积核实现卷积核效果时，其参数量可以减少到 55%。 η = 3×3×3×C 2 7×7×C2 ×100% ≈ 55% (9) 其中 C 指输入和输出的通道数。第 17 卷智能系统学报 ·82·

·83· 骆彦龙，等：基于改进残差学习的东巴象形文字识别第1期除了能够降低网络模型的计算量，单个3×3 3实验结果及分析卷积核还可以捕获特征图像素四周的信息，多个 3×3卷积核的叠加还可以直接增加网络深度2)，为验证本文创新工作的有效性与先进性，实使网络模型的特征提取能力更强，从而取得更好验部分主要做了3个方面的工作：1)本文建立的的识别效果。东巴象形文字数据集对比实验及分析；2)本文提东巴象形文字具有字数多、字形相似等特点，出的东巴象形文字识别方法对比实验及分析，包因此需要提取特征能力强的网络结构，而多个卷括网络改进前后的对比实验；3)结合实验结果，积层的叠加能够在参数量最少的前提下实现最好分析归纳了目前仍存在的问题。的特征提取能力。因此本文设计了32层3×3的 3.1实验条件卷积层，再加1层全连接层，构成33层网络模型，实验中所有对比实验均在表1所示的实验平用以获得东巴象形文字最好的识别效果。台上运行。同时，为了防止网络过拟合，加快网络训练速表1实验环境配置度，本文对每一个卷积层执行批量归一化(batch Table 1 Experimental environment configurations normalization)2操作。然后再使用修正线性单元配件参数 ReLU2(rectified linear units)fx)=max(0,x)作为激操作系统 Ubuntu 16.04 活函数，增强网络的非线性表达能力，在x>0时处理器 IntelCoreTM:7-7700CPU@3.60GHz 保持梯度不衰减，从而缓解网络出现的梯度消失显卡 GeForce GTX 1070 Ti 问题。内存 16 GB 2.3下采样改进开发工具 Pytorch1.0.0 Python3.6.2 下采样可以降低特征图维度，保留图像主要特征的同时减少网络模型的参数量，防止过拟合实验epoch设置为80，初始学习率设置为现象的发生。在ResNet模型中通常采用令卷积 0.001,每50个epoch将学习率降低为原来的三分步长Stride=2来实现下采样的效果，但是由于本文之一，直到运行结束所有epoch. 建立的东巴象形文字数据集经过灰度归一化后，本文梯度优化函数选择Adam函数，损失函数其前景像素值远远大于背景像素值，用这种方法使用交叉熵函数，交叉嫡函数定义如式(11)所示：实现下采样获得的东巴象形文字纹理特征不够丰 exp(x)】富，影响了识别效果，因此有必要对下采样进行 -+log∑exp) (11) exp(）改进。最大池化层通过提取特征图局部区域内的像其中x代表全连接层第j个网络节点输出值。素最大值，可以最大程度降低特征图背景的无关本文改进的ResNet模型具体参数如表2所示。信息，使网络模型提取更多有用的前景特征，降 3.2 本文建立的数据集验证低背景特征干扰。因此，本文对ResNet模型中的目前关于东巴象形文字的数据集较少，文献下采样方式进行了改进，通过采用最大池化层来 [8-10]是目前已知的3个东巴象形文字数据集，获得丰富的纹理特征。最大池化层的公式如式因此将本文的数据集与上述3种数据集都进行了 10)所示：对比实验。 poolingmax maxai,ier (10) 3.2.1数据集有效性验证其中：k=12…,)为特征图所划分的多个区这里选取在图像识别领域表现优异的Res- 域，a表示第i区域内的像素值。 Netl8、ResNet34、VGGNet以及本文的改进网络模而网络深层的平均池化层通过提取特征图的型在本文建立的东巴象形文字数据集上进行识别像素加权值，可以保留更加完整的特征图信息。效果对比。在数据集中随机选取5000张图像计并且通过平均池化将特征图下采样为1×1后再与算其均值和方差，然后将图像归一化处理后输入全连接层相连接，可以减少网络参数。池化层的网络。随机选取数据集图片总数的80%作为训池化区域为特征图中的连续区域，对小的形态改练集，即178223张图片，其余44827张图片作为变具有不变性，不仅能够逐步减少特征图的空间测试集。在训练集上训练网络模型后，在测试集大小、参数数量、内存占用和计算量，而且拥有更上对1387个东巴象形文字（包括异体字）进行识大的感受野，可有效控制过拟合现象的发生。别准确率测试。其实验结果如表3所示

3×3 3×3 除了能够降低网络模型的计算量，单个卷积核还可以捕获特征图像素四周的信息，多个卷积核的叠加还可以直接增加网络深度[23] ，使网络模型的特征提取能力更强，从而取得更好的识别效果。 3×3 东巴象形文字具有字数多、字形相似等特点，因此需要提取特征能力强的网络结构，而多个卷积层的叠加能够在参数量最少的前提下实现最好的特征提取能力。因此本文设计了 32 层的卷积层，再加 1 层全连接层，构成 33 层网络模型，用以获得东巴象形文字最好的识别效果。 f(x) = max(0, x) x > 0 同时，为了防止网络过拟合，加快网络训练速度，本文对每一个卷积层执行批量归一化 (batch normalization)[24] 操作。然后再使用修正线性单元 ReLU[25] (rectified linear units) 作为激活函数，增强网络的非线性表达能力，在时保持梯度不衰减，从而缓解网络出现的梯度消失问题。 2.3 下采样改进 Stride = 2 下采样可以降低特征图维度，保留图像主要特征的同时减少网络模型的参数量，防止过拟合现象的发生。在 ResNet 模型中通常采用令卷积步长来实现下采样的效果，但是由于本文建立的东巴象形文字数据集经过灰度归一化后，其前景像素值远远大于背景像素值，用这种方法实现下采样获得的东巴象形文字纹理特征不够丰富，影响了识别效果，因此有必要对下采样进行改进。最大池化层通过提取特征图局部区域内的像素最大值，可以最大程度降低特征图背景的无关信息，使网络模型提取更多有用的前景特征，降低背景特征干扰。因此，本文对 ResNet 模型中的下采样方式进行了改进，通过采用最大池化层来获得丰富的纹理特征。最大池化层的公式如式 (10) 所示： poolingmax = maxai , i ∈ rk (10) rk(k = 1,2,··· ,K) ai 其中：为特征图所划分的多个区域，表示第 i 区域内的像素值。 1×1 而网络深层的平均池化层通过提取特征图的像素加权值，可以保留更加完整的特征图信息。并且通过平均池化将特征图下采样为后再与全连接层相连接，可以减少网络参数。池化层的池化区域为特征图中的连续区域，对小的形态改变具有不变性，不仅能够逐步减少特征图的空间大小、参数数量、内存占用和计算量，而且拥有更大的感受野，可有效控制过拟合现象的发生。 3 实验结果及分析为验证本文创新工作的有效性与先进性，实验部分主要做了 3 个方面的工作：1) 本文建立的东巴象形文字数据集对比实验及分析；2) 本文提出的东巴象形文字识别方法对比实验及分析，包括网络改进前后的对比实验；3) 结合实验结果，分析归纳了目前仍存在的问题。 3.1 实验条件实验中所有对比实验均在表 1 所示的实验平台上运行。表 1 实验环境配置 Table 1 Experimental environment configurations 配件参数操作系统 Ubuntu 16.04 处理器 IntelR CoreTMi7-7700CPU@3.60 GHz 显卡 GeForce GTX 1070 Ti 内存 16 GB 开发工具 Pytorch1.0.0 Python3.6.2 实验 epoch 设置为 80，初始学习率设置为 0.001，每 50 个 epoch 将学习率降低为原来的三分之一，直到运行结束所有 epoch。本文梯度优化函数选择 Adam 函数，损失函数使用交叉熵函数，交叉熵函数定义如式 (11) 所示： L = −log   exp(xj) ∑ i exp(xi)   = −xj +log∑ i exp(xi) (11) 其中xj 代表全连接层第 j 个网络节点输出值。本文改进的 ResNet 模型具体参数如表 2 所示。 3.2 本文建立的数据集验证目前关于东巴象形文字的数据集较少，文献 [8-10] 是目前已知的 3 个东巴象形文字数据集，因此将本文的数据集与上述 3 种数据集都进行了对比实验。 3.2.1 数据集有效性验证这里选取在图像识别领域表现优异的 ResNet18、ResNet34、VGGNet 以及本文的改进网络模型在本文建立的东巴象形文字数据集上进行识别效果对比。在数据集中随机选取 5 000 张图像计算其均值和方差，然后将图像归一化处理后输入网络。随机选取数据集图片总数的 80% 作为训练集，即 178 223 张图片，其余 44 827 张图片作为测试集。在训练集上训练网络模型后，在测试集上对 1 387 个东巴象形文字 (包括异体字) 进行识别准确率测试。其实验结果如表 3 所示。 ·83· 骆彦龙，等：基于改进残差学习的东巴象形文字识别第 1 期

第17卷智能系统学报 ·84· 表2本文网络参数设计络模型在不同的东巴象形文字数据集上取得的识 Table 2 Network configurations of this paper 别效果不同，相较于其他3个文献所建立的数据输出图像集，本文建立的数据集采用3种相对应的网辂模网络层卷积核尺寸大小/输出通道数型都取得了最高的识别准确率，说明本文建立的像素×像素数据集在数据规模和数据质量上都是目前最好输入层 64×64 的，也说明优秀的数据集可辅助提高深度学习模 3×3步长=1 卷积层 3×3步长-1 ×2 型的性能。 64×64 64 表4数据集先进性验证实验最大池化 2×2步长=2 32×32 64 Table 4 Experiment of dataset advancement verification 3×3步长=1 卷积层 3×3步长=1 ×2 32×32 128 实验数据集可识别东巴文字数测试模型识别准确率/% 文献8]数据集 956 ResNet18 85.6 最大池化 2×2步长=2 16×16 128 文献[9]数据集 200 VGGNet 95.8 3×3步长=1 卷积层 3×3步长-1 ×4 16×16 256 文献[10]数据集 536 ResNet20 93.58 最大池化 2×2步长=2 8×8 256 ResNet18 98.22 3×3步长=1 本文数据集 1387 VGGNet 98.34 卷积层 3×3步长=1 ×4 8×8 512 ResNet20 97.7 最大池化 2×2步长=2 4×4 512 3.3 3×3步长=1 本文识别算法的实验验证卷积层 ×4 3×3步长=1 4×4 1024 根据东巴象形文字识别的特点，本文对Res 平均池化 4×4 Net模型进行了改进，提高了东巴象形文字的识 1×1 1024 别准确率。这里将验证本文网络模型改进的有效全连接层softmax 性。通过将其与采用残差跳跃连接加传统池化方表3数据集有效性验证实验式以及无残差跳跃连接加最大池化方式的网络模 Table 3 Experiment of dataset validity verification 型进行消融实验。同时，将本文改进的网络模型测试模型识别准确率/% 与文献[8-10]中取得识别准确率最高的网络模型 ResNet18 98.22 以及ResNet.34进行对比实验，以验证其先进性。 ResNet34 98.01 所有实验在本文建立的数据集上进行。 3.31算法的有效性验证 VGGNet 98.34 为了验证本文改进ResNet模型的有效性，这本文算法 98.65 里进行了改进前后的对比实验。将本文改进的网从表3中可以看出，对于不同的网络模型，本络模型（残差+最大池化）与残差加传统池化、无文建立的东巴象形文字数据集都获得了高于残差加最大池化3种网络模型进行识别效果对 98%的识别准确率，最高可达98.65%，这说明本比，实验结果如表5所示。文建立的东巴象形文字数据集是有效的，每个东表5算法有效性验证实验巴象形文字多达160多张书写各异的图片，其数 Table 5 Experiment of algorithm validity verification 据规模完全满足具体识别的要求。测试模型识别准确率% 3.2.2数据集先进性验证残差+传统池化 98.11 文献[8-10]分别给出了3种东巴象形文字识无残差+最大池化 97.64 别方法和与之对应的3个东巴象形文字数据集，残差+最大池化 98.65 这里采用这3种识别方法在本文提出的数据集上分别进行了识别准确率方面的对比实验。表4给由表5可以看出，本文改进的残差跳跃连接出了各个数据集能够识别的字数和不同模型在数加最大池化下采样网络模型取得了最高的识别准据集上进行识别的准确率。确率，相较于残差跳跃连接加传统池化的网络模从表4中可以看出，首先本文建立的数据集型提高了0.54%；相较于无残差跳跃连接加最大能够识别的东巴象形文字最多；其次，相同的网池化下采样的网络模型提高了1.01%，从而验证

表 2 本文网络参数设计 Table 2 Network configurations of this paper 网络层卷积核输出图像尺寸大小/ 像素×像素输出通道数输入层 / 64×64 1 卷积层 [ 3×3步长=1 3×3步长=1 ] ×2 64×64 64 最大池化 2×2 步长=2 32×32 64 卷积层 [ 3×3步长=1 3×3步长=1 ] ×2 32×32 128 最大池化 2×2 步长=2 16×16 128 卷积层 [ 3×3步长=1 3×3步长=1 ] ×4 16×16 256 最大池化 2×2 步长=2 8×8 256 卷积层 [ 3×3步长=1 3×3步长=1 ] ×4 8×8 512 最大池化 2×2 步长=2 4×4 512 卷积层 [ 3×3步长=1 3×3步长=1 ] ×4 4×4 1 024 平均池化 4×4 1×1 1 024 全连接层 softmax 表 3 数据集有效性验证实验 Table 3 Experiment of dataset validity verification 测试模型识别准确率/% ResNet18 98.22 ResNet34 98.01 VGGNet 98.34 本文算法 98.65 从表 3 中可以看出，对于不同的网络模型，本文建立的东巴象形文字数据集都获得了高于 98% 的识别准确率，最高可达 98.65%，这说明本文建立的东巴象形文字数据集是有效的，每个东巴象形文字多达 160 多张书写各异的图片，其数据规模完全满足具体识别的要求。 3.2.2 数据集先进性验证文献 [8-10] 分别给出了 3 种东巴象形文字识别方法和与之对应的 3 个东巴象形文字数据集，这里采用这 3 种识别方法在本文提出的数据集上分别进行了识别准确率方面的对比实验。表 4 给出了各个数据集能够识别的字数和不同模型在数据集上进行识别的准确率。从表 4 中可以看出，首先本文建立的数据集能够识别的东巴象形文字最多；其次，相同的网络模型在不同的东巴象形文字数据集上取得的识别效果不同，相较于其他 3 个文献所建立的数据集，本文建立的数据集采用 3 种相对应的网络模型都取得了最高的识别准确率，说明本文建立的数据集在数据规模和数据质量上都是目前最好的，也说明优秀的数据集可辅助提高深度学习模型的性能。表 4 数据集先进性验证实验 Table 4 Experiment of dataset advancement verification 实验数据集可识别东巴文字数测试模型识别准确率/% 文献[8]数据集 956 ResNet18 85.6 文献[9]数据集 200 VGGNet 95.8 文献[10]数据集 536 ResNet20 93.58 本文数据集 1 387 ResNet18 98.22 VGGNet 98.34 ResNet20 97.7 3.3 本文识别算法的实验验证根据东巴象形文字识别的特点，本文对 ResNet 模型进行了改进，提高了东巴象形文字的识别准确率。这里将验证本文网络模型改进的有效性。通过将其与采用残差跳跃连接加传统池化方式以及无残差跳跃连接加最大池化方式的网络模型进行消融实验。同时，将本文改进的网络模型与文献 [8-10] 中取得识别准确率最高的网络模型以及 ResNet34 进行对比实验，以验证其先进性。所有实验在本文建立的数据集上进行。 3.3.1 算法的有效性验证为了验证本文改进 ResNet 模型的有效性，这里进行了改进前后的对比实验。将本文改进的网络模型 (残差+最大池化) 与残差加传统池化、无残差加最大池化 3 种网络模型进行识别效果对比，实验结果如表 5 所示。表 5 算法有效性验证实验 Table 5 Experiment of algorithm validity verification 测试模型识别准确率/% 残差+传统池化 98.11 无残差+最大池化 97.64 残差+最大池化 98.65 由表 5 可以看出，本文改进的残差跳跃连接加最大池化下采样网络模型取得了最高的识别准确率，相较于残差跳跃连接加传统池化的网络模型提高了 0.54%；相较于无残差跳跃连接加最大池化下采样的网络模型提高了 1.01%，从而验证第 17 卷智能系统学报 ·84·

·85· 骆彦龙，等：基于改进残差学习的东巴象形文字识别第1期了本文改进残差跳跃连接加最大池化网络模型的从图6可以看出，“水槽”和“水涧”，“侧视之有效性。人”和“左”或“爬”等字的区别仅仅体现在线条的 3.3.2算法的先进性验证弯曲程度不同；“腰”和“爬”更多体现在它们之间为了验证本文改进网络模型的先进性，在相大小有所差异：“神山山脚”和“神山山腰”，“中”和同的实验环境下，本文分别与文献[8]采用的Res “矛”主要体现在图像上部分所画的高度不同；“尾 Netl8网络模型、文献[9]采用的VGGNet网络模巴”和“树倒”的差异体现在右下角线条的长度和型以及文献[I0]采用的20层ResNet网络模型进弯曲程度；“臂膀”和“手”则几乎相同。行了对比实验，实验结果如表6所示。可见，东巴象形文字中有很多相似乃至接近表6算法先进性验证实验 “相同”的文字，又因为东巴象形文字的手工书写 Table 6 Experiment of model advancement verification 形式，随意性较大，这些相似的东巴象形文字在测试模型识别准确率/% 书写过程中极容易导致差异性变小、辨识度下 ResNet18文献[8] 98.22 降，这是影响东巴象形文字识别准确率的主要 VGGNet文献I9] 98.34 原因。 ResNet20文献[1O] 97.7 ResNet34 98.01 4结束语本文算法 98.65 针对现有东巴象形文字识别方法存在的识别从表6中可以看出，本文改进的网络模型识文字数量少、识别准确率较低等问题，本文首先别准确率最高，相较于文献[8]的方法提高了建立了包含1387个东巴象形文字（包括异体字）、 0.43%:相较于文献[9]的方法提高了0.31%：相较图片总量达到22万余张的东巴象形文字数据集，于文献[10]的方法提高了0.95%。充分验证了本可识别的东巴象形文字大幅增加。通过扩大数据文改进网络模型的先进性。集的规模，辅助提高了算法识别的准确率；更为同时，本文又与层数有所增加的ResNet34网络进行了对比性实验。从表6中可以看出，34层重要的是本文选择ResNet模型作为改进的网络网络模型的识别准确率不仅低于本文的33层网结构，设计了残差跳跃连接方式和卷积层的数络模型，而且也低于18层的网络模型，这说明网量，并通过加入最大池化层实现了对下采样的改进，络层数的简单叠加在具体的东巴象形文字识别中更好地提取了东巴象形文字的纹理分布特征。通不一定获得更好的识别效果。过对1387个东巴象形文字（包括异体字）分别进 3.4存在的问题行测试，实验结果表明，本文提出的改进ResNet 虽然本文取得了98.65%的识别准确率，但对模型识别准确率平均达到98.65%，取得了当前识于误识别问题我们又进行了深入分析，通过观察别字数最多、识别准确率最高的效果。多次实验结果，发现错误识别的东巴象形文字都未来将继续扩大东巴象形文字数据集的文字有一个共同的特点，那就是都有与之非常相似的东数量，力争包含现存的所有东巴象形文字。针对巴象形文字，图6给出了部分相似文字的示例。其中相似度极高的文字，将研究设计专门的网络模型来有效将它们区别开来，从而进一步提高东巴象形文字识别的准确率。水槽水涧神山山脚神山山腰参考文献：侧视之人左中 [1]GUO Hai,ZHAO Jingying,LI Xiaoniu.Preprocessing method for NaXi pictographs character recognition using wavelet transform[J].International journal of digital con- 侧视之人尾巴树倒 tent technology and its applications,2010,4(3):117-131. [2]GUO Hai,ZHAO Jingying.Research on feature extrac- tion for character recognition of NaXi pictograph[J]. 腰爬臂膀 Journal of computers,2011,6(5):947-954. 图6相似东巴象形文字示例 [3]DA Mingjun,ZHAO Jingying.SUO Guojie,et al.Online Fig.6 Samples of similar Dongba pictographs handwritten Naxi pictograph digits recognition system us-

了本文改进残差跳跃连接加最大池化网络模型的有效性。 3.3.2 算法的先进性验证为了验证本文改进网络模型的先进性，在相同的实验环境下，本文分别与文献 [8] 采用的 ResNet18 网络模型、文献 [9] 采用的 VGGNet 网络模型以及文献 [10] 采用的 20 层 ResNet 网络模型进行了对比实验，实验结果如表 6 所示。表 6 算法先进性验证实验 Table 6 Experiment of model advancement verification 测试模型识别准确率/% ResNet18文献[8] 98.22 VGGNet文献[9] 98.34 ResNet20文献[10] 97.7 ResNet34 98.01 本文算法 98.65 从表 6 中可以看出，本文改进的网络模型识别准确率最高，相较于文献 [8] 的方法提高了 0.43%；相较于文献 [9] 的方法提高了 0.31%；相较于文献 [10] 的方法提高了 0.95%。充分验证了本文改进网络模型的先进性。同时，本文又与层数有所增加的 ResNet34 网络进行了对比性实验。从表 6 中可以看出，34 层网络模型的识别准确率不仅低于本文的 33 层网络模型，而且也低于 18 层的网络模型，这说明网络层数的简单叠加在具体的东巴象形文字识别中不一定获得更好的识别效果。 3.4 存在的问题虽然本文取得了 98.65% 的识别准确率，但对于误识别问题我们又进行了深入分析，通过观察多次实验结果，发现错误识别的东巴象形文字都有一个共同的特点，那就是都有与之非常相似的东巴象形文字，图 6 给出了部分相似文字的示例。水槽水涧侧视之人左侧视之人爬爬神山山脚神山山腰尾巴树倒中腰臂膀手矛图 6 相似东巴象形文字示例 Fig. 6 Samples of similar Dongba pictographs 从图 6 可以看出，“水槽”和“水涧”，“侧视之人”和“左”或“爬”等字的区别仅仅体现在线条的弯曲程度不同；“腰”和“爬”更多体现在它们之间大小有所差异；“神山山脚”和“神山山腰”，“中”和 “矛”主要体现在图像上部分所画的高度不同；“尾巴”和“树倒”的差异体现在右下角线条的长度和弯曲程度；“臂膀”和“手”则几乎相同。可见，东巴象形文字中有很多相似乃至接近 “相同”的文字，又因为东巴象形文字的手工书写形式，随意性较大，这些相似的东巴象形文字在书写过程中极容易导致差异性变小、辨识度下降，这是影响东巴象形文字识别准确率的主要原因。 4 结束语针对现有东巴象形文字识别方法存在的识别文字数量少、识别准确率较低等问题，本文首先建立了包含 1 387 个东巴象形文字 (包括异体字)、图片总量达到 22 万余张的东巴象形文字数据集，可识别的东巴象形文字大幅增加。通过扩大数据集的规模，辅助提高了算法识别的准确率；更为重要的是本文选择 ResNet 模型作为改进的网络结构，设计了残差跳跃连接方式和卷积层的数量，并通过加入最大池化层实现了对下采样的改进，更好地提取了东巴象形文字的纹理分布特征。通过对 1 387 个东巴象形文字 (包括异体字) 分别进行测试，实验结果表明，本文提出的改进 ResNet 模型识别准确率平均达到 98.65%，取得了当前识别字数最多、识别准确率最高的效果。未来将继续扩大东巴象形文字数据集的文字数量，力争包含现存的所有东巴象形文字。针对其中相似度极高的文字，将研究设计专门的网络模型来有效将它们区别开来，从而进一步提高东巴象形文字识别的准确率。参考文献： GUO Hai, ZHAO Jingying, LI Xiaoniu. Preprocessing method for NaXi pictographs character recognition using wavelet transform[J]. International journal of digital content technology and its applications, 2010, 4(3): 117–131. [1] GUO Hai, ZHAO Jingying. Research on feature extraction for character recognition of NaXi pictograph[J]. Journal of computers, 2011, 6(5): 947–954. [2] DA Mingjun, ZHAO Jingying, SUO Guojie, et al. Online handwritten Naxi pictograph digits recognition system us- [3] ·85· 骆彦龙，等：基于改进残差学习的东巴象形文字识别第 1 期

第17卷智能系统学报 ·86· ing coarse grid[C]//Computer science for environmental al.Albumentations:fast and flexible image augmenta- engineering and Ecolnformatics.Berlin,German:Spring- tions[EB/OL].(2018-09-18)[2021-11-30].htps:/∥ er,2011:390-396. arxiv.org/abs/1809.06839. [4]HSU C W.LIN C J.A comparison of methods for multi- [14]ZHANG Hongyi,MOUSTAPHA Cisseet,YANN N class support vector machines[J].IEEE transactions on Dauphin,et al.Mixup:beyond empirical risk minimiza- neural networks,2002,13(2):415-425. tion[EB/OL].(2017-10-25)[2021-11-30].https://arxiv. [5]BREIMAN L.Random forests[J].Machine learning, org/abs/1710.09412. 2001,45(1):5-32. [15]DAN Hendrycks,NORMAN Mu,EKIN D Cubuk,et al. [6]徐小力，蒋章雷，吴国新，等.基于拓扑特征和投影法的 AugMix:A simple data processing method to improve 东巴象形文识别方法研究).电子测量与仪器学报， robustness and uncertainty [EB/OL].(2019-12-05) 2017,31(1)少150-154. [2021-11-30]https:/arxiv.org/abs/1912.02781. XU Xiaoli,JIANG Zhanglei,WU Guoxin,et al.Identific- [16]HE Tong,ZHANG Zhi,ZHANG Hang,et al.Bag of ation method of Dongba pictograph based on topological tricks for image classification with convolutional neural characteristic and projection method[J].Journal of elec- networks[C]//2019 IEEE/CVF Conference on Computer tronic measurement and instrumentation,2017,31(1): Vision and Pattern Recognition.New York,USA:IEEE. 150-154 2019:558-567 [7]杨玉婷，康厚良.东巴象形文字特征曲线提取算法研究 [17]KHAN A,SOHAIL A,ZAHOORA U,et al.A survey of [円.图学学报，2019,40(3)：591-599 the recent architectures of deep convolutional neural net- YANG Yuting,KANG Houliang.Research on the ex- works[J].Artificial intelligence review,2020,53(8) tracting algorithm of dongba hieroglyphic feature 5455-5516. curves[J1.Journal of graphics,2019,40(3):591-599. [18]XIE Saining,GIRSHICK R,DOLLAR P,et al.Aggreg- [8]张泽晖.基于卷积神经网络的东巴文字分类与识别 ated residual transformations for deep neural networks D].昆明：云南大学，2019， [C]//2017 IEEE Conference on Computer Vision and ZHANG Zehui.Classification and recognition of dongba Pattern Recognition.New York,USA:IEEE,2017: characters based on convolutional neural network[D]. 5987-5995. Kunming:Yunnan University,2019. [19]TAN Mingxing,LE Quoc V.EfficientNet:rethinking [9]WU Guoxin,LIU Xiuli,JIANG Zhanglei,et al.Dongba model scaling for convolutional neural networks classical ancient books image classification method based [EB/OL].(2019-05-28)[2021-11-30]https:/∥arxiv.org on ReN-Softplus convolution residual neural network abs/1905.11946. [C]//2019 14th IEEE International Conference on Elec- [20]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. tronic Measurement Instruments.New York,USA: Deep residual learning for image recognition[C]//2016 IEEE,2019:398-404. IEEE Conference on Computer Vision and Pattern Re- [IO]谢裕睿，董建娥.基于ResNet网络的东巴象形文字识 cognition.New York,USA:IEEE,2016:770-778. 别研究).计算机时代，2021(1少：6-10. [21]LIN Min,CHEN Qiang,YAN Shuicheng.Network in XIE Yurui,DONG Jian'e.Research on Dongba hiero- network[EB/OL].(2013-12-16)[2021-11-30].https://arx- glyph recognition using ResNet network[J].Computer i.org/abs/1312.4400. era,2021(1):6-10. [22]HUANG Gao,LIU Shichen,MAATEN L V D,et al. [11]李霖灿.纳西族象形标音文字字典M).昆明：云南民 CondenseNet:an efficient DenseNet using learned group 族出版社，2001 convolutions[Cl//2018 IEEE/CVF Conference on Com- LI Lincan.Naxi Pictographs and Transcription Charac- puter Vision and Pattern Recognition.New York.USA: ters Dictionary[M].Kunming:Yunnan Nationalities IEEE.2018:2752-2761 Publishing House,2001. [23]SIMONYAN K,ZISSERMAN A.Very deep convolu- [12]方国瑜，和志武.纳西象形文字谱M.昆明：云南人民 tional networks for large-scale image recognition 出版社，1981 [EB/OL].(2014-09-04)[2021-11-30].https:/arxiv. FANG Guoyu,HE Zhiwu.Naxi pictograph character org/abs/1409.1556v3 chart[M].Kunming:Yunnan People's Publishing House, [24]IOFFE Sergey,SZEGEDY Christian.Batch normaliza- 1981. tion:accelerating deep network training by reducing in- [13]BUSLAEV A,PARINOV A,KHVEDCHENYA E,et ternal covariate shift [C]//2015 International Conference

ing coarse grid[C]//Computer science for environmental engineering and EcoInformatics. Berlin, German: Springer, 2011: 390−396. HSU C W, LIN C J. A comparison of methods for multiclass support vector machines[J]. IEEE transactions on neural networks, 2002, 13(2): 415–425. [4] BREIMAN L. Random forests[J]. Machine learning, 2001, 45(1): 5–32. [5] 徐小力, 蒋章雷, 吴国新, 等. 基于拓扑特征和投影法的东巴象形文识别方法研究 [J]. 电子测量与仪器学报, 2017, 31(1): 150–154. XU Xiaoli, JIANG Zhanglei, WU Guoxin, et al. Identification method of Dongba pictograph based on topological characteristic and projection method[J]. Journal of electronic measurement and instrumentation, 2017, 31(1): 150–154. [6] 杨玉婷, 康厚良. 东巴象形文字特征曲线提取算法研究 [J]. 图学学报, 2019, 40(3): 591–599. YANG Yuting, KANG Houliang. Research on the extracting algorithm of dongba hieroglyphic feature curves[J]. Journal of graphics, 2019, 40(3): 591–599. [7] 张泽晖. 基于卷积神经网络的东巴文字分类与识别 [D]. 昆明: 云南大学, 2019. ZHANG Zehui. Classification and recognition of dongba characters based on convolutional neural network[D]. Kunming: Yunnan University, 2019. [8] WU Guoxin, LIU Xiuli, JIANG Zhanglei, et al. Dongba classical ancient books image classification method based on ReN-Softplus convolution residual neural network [C]//2019 14th IEEE International Conference on Electronic Measurement & Instruments. New York, USA: IEEE, 2019: 398−404. [9] 谢裕睿, 董建娥. 基于 ResNet 网络的东巴象形文字识别研究 [J]. 计算机时代, 2021(1): 6–10. XIE Yurui, DONG Jian'e. Research on Dongba hieroglyph recognition using ResNet network[J]. Computer era, 2021(1): 6–10. [10] 李霖灿. 纳西族象形标音文字字典 [M]. 昆明: 云南民族出版社, 2001. LI Lincan. Naxi Pictographs and Transcription Characters Dictionary[M]. Kunming: Yunnan Nationalities Publishing House, 2001. [11] 方国瑜, 和志武. 纳西象形文字谱 [M]. 昆明: 云南人民出版社, 1981. FANG Guoyu, HE Zhiwu. Naxi pictograph character chart[M]. Kunming: Yunnan People’s Publishing House, 1981. [12] [13] BUSLAEV A, PARINOV A, KHVEDCHENYA E, et al. Albumentations: fast and flexible image augmentations[EB/OL]. (2018-09-18) [2021-11-30].https:// arxiv.org/abs/1809.06839. ZHANG Hongyi, MOUSTAPHA Cisseet, YANN N Dauphin, et al. Mixup: beyond empirical risk minimization[EB/OL]. (2017-10-25) [2021-11-30].https://arxiv. org/abs/1710.09412. [14] DAN Hendrycks, NORMAN Mu, EKIN D Cubuk, et al. AugMix: A simple data processing method to improve robustness and uncertainty[EB/OL]. (2019-12-05) [2021-11-30].https://arxiv.org/abs/1912.02781. [15] HE Tong, ZHANG Zhi, ZHANG Hang, et al. Bag of tricks for image classification with convolutional neural networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2019: 558−567. [16] KHAN A, SOHAIL A, ZAHOORA U, et al. A survey of the recent architectures of deep convolutional neural networks[J]. Artificial intelligence review, 2020, 53(8): 5455–5516. [17] XIE Saining, GIRSHICK R, DOLLÁR P, et al. Aggregated residual transformations for deep neural networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2017: 5987−5995. [18] TAN Mingxing, LE Quoc V. EfficientNet: rethinking model scaling for convolutional neural networks [EB/OL]. (2019-05-28) [2021-11-30].https://arxiv.org/ abs/1905.11946. [19] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2016: 770−778. [20] LIN Min, CHEN Qiang, YAN Shuicheng. Network in network[EB/OL]. (2013-12-16) [2021-11-30].https://arxiv.org/abs/1312.4400. [21] HUANG Gao, LIU Shichen, MAATEN L V D, et al. CondenseNet: an efficient DenseNet using learned group convolutions[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2018: 2752−2761. [22] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2014-09-04) [2021-11-30].https://arxiv. org/abs/1409.1556v3. [23] IOFFE Sergey, SZEGEDY Christian. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]//2015 International Conference [24] 第 17 卷智能系统学报 ·86·

·87· 骆彦龙，等：基于改进残差学习的东巴象形文字识别第1期 on Machine Learning.New York,USA:ACM,2015: 毕晓君，教授，博士生导师，主要研究方向为智能信息处理技术、数字 448-456. 图像处理、机器学习。主持国家重点 [25]VINOD Nair,GEOFFREY E Hinton.Rectified Linear 研发计划项目、国家社科基金重大项 Units Improve Restricted Boltzmann Machines[Cl//2010 目等国家级、省部级项目6项。获得高等学校科学技术进步一等奖1项、 International Conference on Machine Learning.New 省部级科学技术奖7项。发表学术论 York.USA:ACM,2010:807-814. 文170余篇。作者简介：吴立成，教授，博士生导师，主要骆彦龙，博士研究生，主要研究方研究方向为智能机器人、人工智能。向为图像识别、深度学习。主持国家自然科学基金、863项目等国家级、省部级项目十余项。获教育部科技进步奖、江苏省科技进步奖各 1项。发表学术论文80余篇。第五届中国模式识别与计算机视觉大会 The 5th Chinese Conference on Pattern Recognition and Computer Vision 第五届中国模式识别与计算机视觉大会(The5 th Chinese Conference on Pattern Recognition and Computer Vision,PRCV2022)将于2022年10月14日至10月17日在深圳举办。PRCV2022由中国人工智能学会 (CAAI)、中国计算机学会(CCF)、中国自动化学会(CAA)和中国图象图形学学会(CSIG)联合主办；由南方科技大学和深圳职业技术学院共同承办；并由香港浸会大学、香港中文大学（深圳）、哈尔滨工业大学（深圳）、中国科学院深圳先进技术研究院和中山大学联合承办，是国内顶级的模式识别和计算机视觉领域学术盛会。本届会议旨在汇聚国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行，共同分享我国模式识别与计算机视觉领域的最新理论和技术成果。现向广大科技工作者公开征集高质量原创性的优秀英文学术论文。录用的论文将在大会上展示，会议论文集将由Springer出版社出版，并被 EI和ISTP检索。征稿范围（包括但不限于）：模式分类与聚类分析：结构模式识别：机器学习：神经网络与深度学习：特征提取与特征选择；计算机视觉基础理论；底层视觉理解、图像处理；三维视觉与重构；计算摄像学、传感与显示技术；文档分析与识别；字符识别；人脸识别与姿态识别；性能评测和基准数据库；目标检测、跟踪与识别；行为识别；多媒体分析与推理：医学图像处理与分析：生物特征识别：遥感影像解译：优化及学习方法：多模态信息处理：视频分析与理解：视觉应用与系统：机器人、自动驾驶中的视觉问题。重要日期：投稿截止日期：2022年4月15日录用通知日期：2022年6月15日终稿截止日期：2022年7月5日联系咨询：prcv2022@163.com

on Machine Learning. New York, USA: ACM, 2015: 448−456. VINOD Nair, GEOFFREY E Hinton. Rectified Linear Units Improve Restricted Boltzmann Machines[C]//2010 International Conference on Machine Learning. New York, USA: ACM, 2010: 807−814. [25] 作者简介：骆彦龙，博士研究生，主要研究方向为图像识别、深度学习。毕晓君, 教授，博士生导师，主要研究方向为智能信息处理技术、数字图像处理、机器学习。主持国家重点研发计划项目、国家社科基金重大项目等国家级、省部级项目 6 项。获得高等学校科学技术进步一等奖 1 项、省部级科学技术奖 7 项。发表学术论文 170 余篇。吴立成，教授，博士生导师，主要研究方向为智能机器人、人工智能。主持国家自然科学基金、863 项目等国家级、省部级项目十余项。获教育部科技进步奖、江苏省科技进步奖各 1 项。发表学术论文 80 余篇。第五届中国模式识别与计算机视觉大会 The 5th Chinese Conference on Pattern Recognition and Computer Vision 第五届中国模式识别与计算机视觉大会 (The 5th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2022) 将于 2022 年 10 月 14 日至 10 月 17 日在深圳举办。PRCV 2022 由中国人工智能学会 (CAAI)、中国计算机学会 (CCF)、中国自动化学会 (CAA) 和中国图象图形学学会 (CSIG) 联合主办；由南方科技大学和深圳职业技术学院共同承办；并由香港浸会大学、香港中文大学 (深圳)、哈尔滨工业大学 (深圳)、中国科学院深圳先进技术研究院和中山大学联合承办，是国内顶级的模式识别和计算机视觉领域学术盛会。本届会议旨在汇聚国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行，共同分享我国模式识别与计算机视觉领域的最新理论和技术成果。现向广大科技工作者公开征集高质量、原创性的优秀英文学术论文。录用的论文将在大会上展示，会议论文集将由 Springer 出版社出版，并被 EI 和 ISTP 检索。征稿范围 (包括但不限于)：模式分类与聚类分析；结构模式识别；机器学习；神经网络与深度学习；特征提取与特征选择；计算机视觉基础理论；底层视觉理解、图像处理；三维视觉与重构；计算摄像学、传感与显示技术；文档分析与识别；字符识别；人脸识别与姿态识别；性能评测和基准数据库；目标检测、跟踪与识别；行为识别；多媒体分析与推理；医学图像处理与分析；生物特征识别；遥感影像解译；优化及学习方法；多模态信息处理；视频分析与理解；视觉应用与系统；机器人、自动驾驶中的视觉问题。重要日期：投稿截止日期：2022 年 4 月 15 日录用通知日期：2022 年 6 月 15 日终稿截止日期：2022 年 7 月 5 日联系咨询：prcv2022@163.com ·87· 骆彦龙，等：基于改进残差学习的东巴象形文字识别第 1 期

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录