第17卷第1期 智能系统学报 Vol.17 No.1 2022年1月 CAAI Transactions on Intelligent Systems Jan.2022 D0:10.11992/tis.202112009 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20211224.0916.002html 基于改进残差学习的东巴象形文字识别 骆彦龙,毕晓君2,吴立成2,李霞丽 (1.哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001;2.中央民族大学信息工程学院,北京 100081) 摘要:基于深度学习模型的东巴象形文字识别效果明显优于传统算法,但目前仍存在识别字数少、识别准确 率低等问题。为此本文建立了包含1387个东巴象形文字、图片总量达到22万余张的数据集,大幅度增加了可 识别字数,并辅助提高了东巴象形文字的识别准确率。同时,本文根据东巴象形文字相似度高、手写随意性大 的特点,选择ResNet模型作为改进的网络结构,设计了残差跳跃连接方式和卷积层的数量,并通过加入最大池 化层实现了下采样的改进。实验结果表明,在本文建立的东巴象形文字数据集上,改进的ResNet模型实现了 东巴象形文字识别字数多且识别准确率高的最好效果,识别准确率可达到98.65%。 关键词:深度学习;东巴象形文字;图像识别;数据集建立;RsNt模型:残差跳跃连接;下采样改进;识别准确率 中图分类号:TP18文献标志码:A 文章编号:1673-4785(2022)01-0079-09 中文引用格式:骆彦龙,毕晓君,吴立成,等.基于改进残差学习的东巴象形文字识别小.智能系统学报,2022,17(1):79-87. 英文引用格式:LUO Yanlong,BI Xiaojun,,WU Licheng,et al Dongba pictographs recognition based on improved residual learn- ing[J).CAAI transactions on intelligent systems,2022,17(1):79-87. Dongba pictographs recognition based on improved residual learning LUO Yanlong',BI Xiaojun',WU Licheng LI Xiali? (1.College of Information and Communication Engineering,Harbin Engineering University,Harbin 150001,China,2.School of In- formation Engineering,Minzu University of China,Beijing 100081,China) Abstract:Dongba pictographs recognition based on deep learning model has better recognition effect than that of tradi- tional algorithms.However,these methods have disadvantages such as small number of recognizable Dongba picto- graphs and low recognition accuracy.Aiming at these problems,in this study,we build a novel dataset of Dongba picto- graphs that contains 1387 Dongba pictographs and more than 220 thousand images.Therefore,the number of recogniz- able Dongba pictographs is greatly increased and the Dongba pictographs recognition accuracy is improved.Since Dongba pictographs are characterized by high similarity and random writing,ResNet is adopted as an improved net- work structure.Moreover,we design a residual shortcut connection and the number of convolutional layers and intro- duce the max-pooling into the ResNet to improve down-sampling.The experimental results demonstrate that the im- proved ResNet model can recognize more Dongba characters,and has achieved the highest recognition accuracy 98.65% in our dataset. Keywords:deep learning,Dongba pictographs;image recognition;build dataset;ResNet model;residual shortcut con- nection;improved down-sampling,recognition accuracy 东巴象形文字由纳西族祖先创造,至今已有 直是研究的热点和重点。早期的东巴象形文字识 两千多年的历史。2003年,东巴古籍文献被联合 别研究一般采用传统算法提取东巴象形文字特征 国教科文组织列为“世界记忆遗产”名录,成为人进行识别,关键步骤一般包括图像去噪、特征提 类共同拥有的宝贵财富。东巴象形文字的识别一 取和分类器识别3个步骤。常用的图像去噪方法 有中值去噪、自适应去噪和小波去噪:在特征提 收稿日期:2021-12-05.网络出版日期:2021-12-24. 基金项目:国家社科基金重大项目(20&ZD279). 取方面,方向元素、粗网格]等统计特征比分析 通信作者:毕晓君.E-mail:bixiaojun@hrbeu.edu.cn 东巴象形文字的结构、笔画等结构特征取得的效
DOI: 10.11992/tis.202112009 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20211224.0916.002.html. 基于改进残差学习的东巴象形文字识别 骆彦龙1 ,毕晓君2 ,吴立成2 ,李霞丽2 (1. 哈尔滨工程大学 信息与通信工程学院, 黑龙江 哈尔滨 150001; 2. 中央民族大学 信息工程学院, 北京 100081) 摘 要:基于深度学习模型的东巴象形文字识别效果明显优于传统算法,但目前仍存在识别字数少、识别准确 率低等问题。为此本文建立了包含 1 387 个东巴象形文字、图片总量达到 22 万余张的数据集,大幅度增加了可 识别字数,并辅助提高了东巴象形文字的识别准确率。同时,本文根据东巴象形文字相似度高、手写随意性大 的特点,选择 ResNet 模型作为改进的网络结构,设计了残差跳跃连接方式和卷积层的数量,并通过加入最大池 化层实现了下采样的改进。实验结果表明,在本文建立的东巴象形文字数据集上,改进的 ResNet 模型实现了 东巴象形文字识别字数多且识别准确率高的最好效果,识别准确率可达到 98.65%。 关键词:深度学习;东巴象形文字;图像识别;数据集建立;ResNet 模型;残差跳跃连接;下采样改进;识别准确率 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2022)01−0079−09 中文引用格式:骆彦龙, 毕晓君, 吴立成, 等. 基于改进残差学习的东巴象形文字识别 [J]. 智能系统学报, 2022, 17(1): 79–87. 英文引用格式:LUO Yanlong, BI Xiaojun, WU Licheng, et al. Dongba pictographs recognition based on improved residual learning[J]. CAAI transactions on intelligent systems, 2022, 17(1): 79–87. Dongba pictographs recognition based on improved residual learning LUO Yanlong1 ,BI Xiaojun2 ,WU Licheng2 ,LI Xiali2 (1. College of Information and Communication Engineering, Harbin Engineering University, Harbin 150001, China; 2. School of Information Engineering, Minzu University of China, Beijing 100081, China) Abstract: Dongba pictographs recognition based on deep learning model has better recognition effect than that of traditional algorithms. However, these methods have disadvantages such as small number of recognizable Dongba pictographs and low recognition accuracy. Aiming at these problems, in this study, we build a novel dataset of Dongba pictographs that contains 1387 Dongba pictographs and more than 220 thousand images. Therefore, the number of recognizable Dongba pictographs is greatly increased and the Dongba pictographs recognition accuracy is improved. Since Dongba pictographs are characterized by high similarity and random writing, ResNet is adopted as an improved network structure. Moreover, we design a residual shortcut connection and the number of convolutional layers and introduce the max-pooling into the ResNet to improve down-sampling. The experimental results demonstrate that the improved ResNet model can recognize more Dongba characters, and has achieved the highest recognition accuracy 98.65% in our dataset. Keywords: deep learning; Dongba pictographs; image recognition; build dataset; ResNet model; residual shortcut connection; improved down-sampling; recognition accuracy 东巴象形文字由纳西族祖先创造,至今已有 两千多年的历史。2003 年,东巴古籍文献被联合 国教科文组织列为“世界记忆遗产”名录,成为人 类共同拥有的宝贵财富。东巴象形文字的识别一 直是研究的热点和重点。早期的东巴象形文字识 别研究一般采用传统算法提取东巴象形文字特征 进行识别,关键步骤一般包括图像去噪、特征提 取和分类器识别 3 个步骤。常用的图像去噪方法 有中值去噪、自适应去噪和小波去噪[1] ;在特征提 取方面,方向元素、粗网格[2-3] 等统计特征比分析 东巴象形文字的结构、笔画等结构特征取得的效 收稿日期:2021−12−05. 网络出版日期:2021−12−24. 基金项目:国家社科基金重大项目 (20&ZD279). 通信作者:毕晓君. E-mail:bixiaojun@hrbeu.edu.cn. 第 17 卷第 1 期 智 能 系 统 学 报 Vol.17 No.1 2022 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2022
第17卷 智能系统学报 ·80· 果更好:常用的分类器模型包括支持向量机、随 先研究如何建立大规模的东巴象形文字数据集, 机森林1等。代表性的研究有2017年徐小力等 来保证识别的东巴象形文字更多,并可辅助提高 采用拓扑特征法和投影法相结合的特征提取方 算法识别的准确率。 法,取得了84.4%的识别准确率。2019年杨玉 东巴象形文字的特点可总结如下。1)内容广 婷等通过结合东巴象形文字的结构和形态,提出 泛、字数多。按照属性可分为天文、地理、建筑等 了基于网格分辨率的东巴象形文字相似度测量算 十八大类,共有2000余字(包括异体字)。2) 法,能够检索和识别不同形状的东巴象形文字。 相似度高。结构相似的东巴象形文字因其细节 上述研究虽然取得了一定的成果,但实现过程复 部分不同,其字义亦不同。3)书写随意性较大。 杂且效率较低,算法的识别准确率有待提高。直 不同人书写的东巴象形文字都会有不规则的形 到2019年,随着人工智能技术的发展,国内外开始 变。4)异体字多。大多数东巴象形文字都有多个 出现基于深度学习的东巴文识别文章,2019年张 异体字。 泽晖建立了包含30592张图片的东巴象形文字数 上述特点增加了东巴象形文字的识别难度, 据集,设计了孪生网络并协同进行文字语义识别, 因此为了获得更好的识别效果,数据集中每个东 对956个东巴象形文字测试,取得了85.6%识别准 巴象形文字大约需要150张图像,才能满足训练 确率图:同年,Wu9在训练集图像3800张,测试集 的要求。但是仅通过东巴古籍来获取远远不能达 图像200张的条件下,使用VGGNet取得了 到数量的要求,常用的数据增强方法主要是几何 95.8%的识别准确率;2021年谢裕睿等提出了基 变换,但由于东巴文本身象形字的图画特点, 于ResNet网络的东巴象形文字识别方法,建立了包 相近的形状可表达不同的含义,通过几何变换可 含536个东巴象形文字的数据集,并对94个东巴 能变成其他文字,所以这种数据增强的方法难以 象形文字测试,取得了93.58%的识别准确率10。 适用东巴象形文字。 以上研究对东巴象形文字识别做出较大的贡 为此本文根据东巴象形文字手写或刀刻的书 献,但目前还存在一些问题:1)东巴象形文字大 写习惯,提出采用人工仿写东巴象形文字字典的 多包含多个异体字,且在东巴经典中广泛存在; 方法建立大规模数据集,再通过图像预处理方法 但现有的数据集都没有涉及异体字,导致东巴经 提高数据集的图片质量,这样可以保证数据集中 典中的大量文字不能识别:2)现有的东巴象形文 东巴象形文字的数量足够多,既可以最大幅度地增 字数据集规模较小,影响了算法识别的准确率; 加算法可识别的东巴象形文字字数,又可以辅助 3)所采用的深度学习模型较为初级,无法适应东 提高算法识别的准确率。本文建立的东巴象形文 巴象形文字的随机性和手写不确定性,识别准确 字数据集示例如图1所示,其中每一行的5幅图 率有待进一步提高。 片同属异体字,共有相同的释义,第一列为统一的 为了解决上述问题,本文主要做了以下两个 文字释义,从中可以看出异体字之间的差别较大。 方面的工作: 1)根据东巴象形文字字典],采用人工仿 写的方法建立了1387个东巴象形文字(包括异体 云 字)、图像规模达22万余张的东巴象形文字数据 集,有效解决了异体字问题,大幅增加了可识别 石头 东巴象形文字的数量,并有效扩充了数据集的规 模。2)根据东巴象形文字的图像特点,选择应用 效果最好的ResNet模型作为改进的网络结构,设 背常 计了残差跳跃连接方式和卷积层的数量,并通过 加入最大池化层实现了下采样的改进,有效提高 船 了算法识别的准确率。 1东巴象形文字数据集建立 春天 1.1东巴象形文字图像获取 深度学习模型能够取得较好的识别效果,其 图1东巴象形文字数据集示例 前提是需要大量带标注的训练数据。为此本文首 Fig.1 Samples of Dongba pictographs datasets
果更好;常用的分类器模型包括支持向量机[4] 、随 机森林[5] 等。代表性的研究有 2017 年徐小力等 采用拓扑特征法和投影法相结合的特征提取方 法,取得了 84.4% 的识别准确率[6]。2019 年杨玉 婷等通过结合东巴象形文字的结构和形态,提出 了基于网格分辨率的东巴象形文字相似度测量算 法,能够检索和识别不同形状的东巴象形文字[7]。 上述研究虽然取得了一定的成果,但实现过程复 杂且效率较低,算法的识别准确率有待提高。直 到 2019 年,随着人工智能技术的发展,国内外开始 出现基于深度学习的东巴文识别文章,2019 年张 泽晖建立了包含 30 592 张图片的东巴象形文字数 据集,设计了孪生网络并协同进行文字语义识别, 对 956 个东巴象形文字测试,取得了 85.6% 识别准 确率[8] ;同年,Wu[9] 在训练集图像 3 800 张,测试集 图 像 2 0 0 张的条件下,使 用 VGGNe t 取 得 了 95.8% 的识别准确率;2021 年谢裕睿等提出了基 于 ResNet 网络的东巴象形文字识别方法,建立了包 含 536 个东巴象形文字的数据集,并对 94 个东巴 象形文字测试,取得了 93.58% 的识别准确率[10]。 以上研究对东巴象形文字识别做出较大的贡 献,但目前还存在一些问题:1) 东巴象形文字大 多包含多个异体字,且在东巴经典中广泛存在; 但现有的数据集都没有涉及异体字,导致东巴经 典中的大量文字不能识别;2) 现有的东巴象形文 字数据集规模较小,影响了算法识别的准确率; 3) 所采用的深度学习模型较为初级,无法适应东 巴象形文字的随机性和手写不确定性,识别准确 率有待进一步提高。 为了解决上述问题,本文主要做了以下两个 方面的工作: 1) 根据东巴象形文字字典[11-12] ,采用人工仿 写的方法建立了 1 387 个东巴象形文字 (包括异体 字)、图像规模达 22 万余张的东巴象形文字数据 集,有效解决了异体字问题,大幅增加了可识别 东巴象形文字的数量,并有效扩充了数据集的规 模。2) 根据东巴象形文字的图像特点,选择应用 效果最好的 ResNet 模型作为改进的网络结构,设 计了残差跳跃连接方式和卷积层的数量,并通过 加入最大池化层实现了下采样的改进,有效提高 了算法识别的准确率。 1 东巴象形文字数据集建立 1.1 东巴象形文字图像获取 深度学习模型能够取得较好的识别效果,其 前提是需要大量带标注的训练数据。为此本文首 先研究如何建立大规模的东巴象形文字数据集, 来保证识别的东巴象形文字更多,并可辅助提高 算法识别的准确率。 东巴象形文字的特点可总结如下。1) 内容广 泛、字数多。按照属性可分为天文、地理、建筑等 十八大类,共有 2000 余字 (包括异体字) [11]。2) 相似度高。结构相似的东巴象形文字因其细节 部分不同,其字义亦不同。3) 书写随意性较大。 不同人书写的东巴象形文字都会有不规则的形 变。4) 异体字多。大多数东巴象形文字都有多个 异体字。 上述特点增加了东巴象形文字的识别难度, 因此为了获得更好的识别效果,数据集中每个东 巴象形文字大约需要 150 张图像,才能满足训练 的要求。但是仅通过东巴古籍来获取远远不能达 到数量的要求,常用的数据增强方法主要是几何 变换[13-15] ,但由于东巴文本身象形字的图画特点, 相近的形状可表达不同的含义,通过几何变换可 能变成其他文字,所以这种数据增强的方法难以 适用东巴象形文字。 为此本文根据东巴象形文字手写或刀刻的书 写习惯,提出采用人工仿写东巴象形文字字典的 方法建立大规模数据集,再通过图像预处理方法 提高数据集的图片质量,这样可以保证数据集中 东巴象形文字的数量足够多,既可以最大幅度地增 加算法可识别的东巴象形文字字数,又可以辅助 提高算法识别的准确率。本文建立的东巴象形文 字数据集示例如图 1 所示,其中每一行的 5 幅图 片同属异体字,共有相同的释义,第一列为统一的 文字释义,从中可以看出异体字之间的差别较大。 云 石头 背靠 船 春天 图 1 东巴象形文字数据集示例 Fig. 1 Samples of Dongba pictographs datasets 第 17 卷 智 能 系 统 学 报 ·80·
·81· 骆彦龙,等:基于改进残差学习的东巴象形文字识别 第1期 1.2东巴象形文字图像预处理 是双线性插值法,但是当原图像与尺寸归一化图 人工仿写的东巴象形文字受光照以及拍照设 像尺寸相差过大时,尺寸归一化后的图像纹理特 备等的影响,往往会产生极大的噪声,影响东巴 征易损坏,不利于深度学习模型识别。而像素区 象形文字数据集的质量,因此必须对其进行一系 域关系重采样法能够保留完整图像信息的条件 列的图像预处理。图2给出了本文建立东巴象形 下,将输入图像尺寸最大程度减小,大幅度减少 文字数据集的技术路线,具体步骤如下。 图像像素数以及数据量,在保证深度学习模型识 别准确率不变的前提下,加快模型的训练速度。 根据其他数据集图像尺寸大小设置的经验以及多 次对比实验验证,我们发现当图像尺寸归一化为 64×64时,可以取得最好的识别效果,并且模型训 手写文字 字符裁剪 灰度化 练速度快。本文对像素区域关系重采样法和双线 性插值法在东巴文字图像上的效果进行了简单的 实验对比,分别将图像尺寸归一化为64×64。 东巴象形文 字数据集 图3给出了实验结果。 数据标注 尺寸归一化 二值化 图2东巴象形文字数据集建立技术路线 Fig.2 Technical route for Dongba pictographs dataset es- (a)双线性插值法 (b)像素区域关系重采样法 tablishment 图3两种尺寸归一化方法示例 1)字符裁剪。对人工仿写的原始图像进行字 Fig.3 Samples of two size normalization methods 符裁剪,使得每张图像中仅包含一个东巴象形文 从图3中可以看出,双线性插值法后的东巴 字。具体过程如算法1所示。 象形文字纹理特征有残缺,而像素区域关系重采 算法1符裁剪算法 样可获得更好的尺寸归一化效果。 输入未裁剪的手写东巴象形文字图像X: 因此本文选择像素区域关系重采样法进行尺 输出仅包含一个东巴象形文字的图像Y。 寸归一化操作,其公式如式(3)所示: ①Xa←图像X的高度; A=B ②x←图像X的宽度; ∑a ③Yh←1/3X.-2/3Xk; (3) ④Y.←1/3X.-2/3Xm; f= ⑤Y←-Yh-Ywo 2)灰度化。黑白两种颜色反差较大,可提高 式中:B表示图像某区域内像素值矩阵;α是与 东巴象形文字识别的效果。为此,使用加权平均 B相对应的像素值系数矩阵,其取值取决于原图 值法进行图像灰度化,去除图像的颜色信息,将 像与尺寸归一化图像的尺寸大小关系;⊙表示 三通道的彩色图像转换成单通道的灰度图像。灰 Hadamard积;表示图像B区域通过尺寸归一化 度化公式如式(1)所示: 后的像素值。 Gray=0.299R+0.587G+0.114B (1) 5)数据标注。通过数据编码标注,将第i个 式中:R、G、B分别代表图像在(i,)处的红、 东巴象形文字的所有图像【统一编码为i,使计算 绿、蓝3种颜色分量像素值;Gray,代表图像在 机将图像和编码相互对应,如式(4)所示: (,)处的灰度值。 F()=i (4) 3)二值化。为了极大程度减少图像数据量, 式中F(·)表示编码标注算法,具体过程如算法 通过全局阈值二值化减少图像无关像素信息,并 2所示。 使整个图像呈现出明显的黑白效果,凸显东巴象 算法2编码标注算法 形文字轮廓,图像二值化公式如式(2)所示: 输入train,test(其中有命名为i(包含图像 sw-si )的文件夹) (2) 输出图像I与其编码i相互对应的xt文档 式中b表示图像二值化后图像在位,处的像素值。 ①for ietrain,test; 4)尺寸归一化。常用的图像尺寸归一化方法 ②for lei:
1.2 东巴象形文字图像预处理 人工仿写的东巴象形文字受光照以及拍照设 备等的影响,往往会产生极大的噪声,影响东巴 象形文字数据集的质量,因此必须对其进行一系 列的图像预处理。图 2 给出了本文建立东巴象形 文字数据集的技术路线,具体步骤如下。 手写文字 字符裁剪 灰度化 数据标注 东巴象形文 字数据集 尺寸归一化 二值化 图 2 东巴象形文字数据集建立技术路线 Fig. 2 Technical route for Dongba pictographs dataset establishment 1) 字符裁剪。对人工仿写的原始图像进行字 符裁剪,使得每张图像中仅包含一个东巴象形文 字。具体过程如算法 1 所示。 算法 1 符裁剪算法 输入 未裁剪的手写东巴象形文字图像 X; 输出 仅包含一个东巴象形文字的图像 Y。 ① Xh ←图像 X 的高度; ② Xw ←图像 X 的宽度; ③ Yh ← 1/ 3Xh −2/ 3Xh; ④ Yw ← 1/ 3Xw −2/ 3Xw; ⑤ Y ← Yh −Yw。 2) 灰度化。黑白两种颜色反差较大,可提高 东巴象形文字识别的效果。为此,使用加权平均 值法进行图像灰度化,去除图像的颜色信息,将 三通道的彩色图像转换成单通道的灰度图像。灰 度化公式如式 (1) 所示: Grayi, j = 0.299Ri, j +0.587Gi, j +0.114Bi, j (1) Ri, j Gi, j Bi, j (i, j) Grayi, j (i, j) 式中: 、 、 分别代表图像在 处的红、 绿 、蓝 3 种颜色分量像素值; 代表图像在 处的灰度值。 3) 二值化。为了极大程度减少图像数据量, 通过全局阈值二值化减少图像无关像素信息,并 使整个图像呈现出明显的黑白效果,凸显东巴象 形文字轮廓,图像二值化公式如式 (2) 所示: bi, j = { 0, Grayi, j ⩾ 125 255, Grayi, j < 125 (2) 式中 bi, j 表示图像二值化后图像在 (i, j) 处的像素值。 4) 尺寸归一化。常用的图像尺寸归一化方法 64×64 64×64 是双线性插值法,但是当原图像与尺寸归一化图 像尺寸相差过大时,尺寸归一化后的图像纹理特 征易损坏,不利于深度学习模型识别。而像素区 域关系重采样法能够保留完整图像信息的条件 下,将输入图像尺寸最大程度减小,大幅度减少 图像像素数以及数据量,在保证深度学习模型识 别准确率不变的前提下,加快模型的训练速度。 根据其他数据集图像尺寸大小设置的经验以及多 次对比实验验证,我们发现当图像尺寸归一化为 时,可以取得最好的识别效果,并且模型训 练速度快。本文对像素区域关系重采样法和双线 性插值法在东巴文字图像上的效果进行了简单的 实验对比,分别将图像尺寸归一化为 。 图 3 给出了实验结果。 (a) 双线性插值法 (b) 像素区域关系重采样法 图 3 两种尺寸归一化方法示例 Fig. 3 Samples of two size normalization methods 从图 3 中可以看出,双线性插值法后的东巴 象形文字纹理特征有残缺,而像素区域关系重采 样可获得更好的尺寸归一化效果。 因此本文选择像素区域关系重采样法进行尺 寸归一化操作,其公式如式 (3) 所示: A = B⊙α fi, j = ∑ i, j ai, j ∑ i, j αi, j (3) α ⊙ fi, j 式中:B 表示图像某区域内像素值矩阵; 是与 B 相对应的像素值系数矩阵,其取值取决于原图 像与尺寸归一化图像的尺寸大小关系; 表示 Hadamard 积; 表示图像 B 区域通过尺寸归一化 后的像素值。 5) 数据标注。通过数据编码标注,将第 i 个 东巴象形文字的所有图像 I 统一编码为 i,使计算 机将图像和编码相互对应,如式 (4) 所示: F(I) = i (4) 式中 F(·) 表示编码标注算法,具体过程如算法 2 所示。 算法 2 编码标注算法 输入 train,test (其中有命名为 i(包含图像 I) 的文件夹) 输出 图像 I 与其编码 i 相互对应的 txt 文档 ① for i ∈ train,test; ②for I ∈ i ; ·81· 骆彦龙,等:基于改进残差学习的东巴象形文字识别 第 1 期
第17卷 智能系统学报 ·82· ③将I的绝对地址和i写入txt文档: cut connection)结构2o,解决了网络加深带来的梯 ④换行; 度消失问题以及神经网络深度与识别准确度之间 ⑤重复迭代2)4): 的矛盾,可有效提取更多的图像细节特征,目前 ⑥返回图像【与其编码i相互对应的txt文档 已成为图像识别的主流深度学习模型。 通过上述一系列的图像预处理,本文建立了东 考虑到东巴象形文字识别的具体问题,不仅 巴象形文字数据集,该数据集包含1387个东巴象 字数多、书写随意性较大,而且有些字形较为相 形文字(包括异体字),每个东巴象形文字对应160余 似,因此需要提取细节特征能力强的网络结构, 张书写各异的图片,数据集图片总量为223050张。 为此本文选择ResNet模型作为本文改进的网络 2改进残差学习神经网络 结构,设计了残差跳跃连接方式和卷积层的数 量,并通过加入最大池化层实现了对下采样的改 近年来,深度学习成功应用于图像识别61) 进,更好地提取了东巴象形文字的纹理分布特 领域,提出了一系列性能优异的网络模型,其中 征。本文设计的网络主要框架如图4所示。下面 ResNet模型首次提出残差跳跃连接(residual short- 将详细介绍设计思路和改进方法。 88 Res block-c☐ Maxpool-2×2] 最大池化层大小为2×2 残差跳跃连接c代表其中卷积操作的通道数 ■Avgpool-4×4 平均池化层大小为4×4 图4东巴象形文字识别网络结构 Fig.4 Network structure of Dongba pictographs recognition y=(W2o(Wx)+x) (8) 2.1残差跳跃连接 残差跳跃连接可以解决神经网络随着深度增 式中:σ均表示ReLU激活函数,W和W2分别表示 加出现性能退化的问题。深层神经网络难以拟合 卷积层学习的参数。 的原因是恒等映射H(x)=x的学习比较困难,但当 Conv3x3-S=1☐ 把网络设计为H(x)=F(x)+x时,可以把学习恒等 Conv3×3-S=1 3×3卷积层代表步长 BN 映射转化为更加容易学习的残差映射F()=H()-x ReLU F(x) 并且F(x)对输出变化更加敏感,参数的调整幅度 BN Conv3×3-S=1 BN 更大,从而可以加快学习速度,提高网络的优化 Batch normalization 性能。残差跳跃连接的一般定义如式(⑤)所示: ReLU F(x)+x y=F(x,(Wil+Wx (5) ReLU层 ReLU 其中W,主要是用1×1卷积2来匹配残差跳跃连接 y 输入x和输出y的通道维度。F(x,{W)为网络需 图5本文残差跳跃连接模块 要学习的残差映射。而当残差跳跃连接输入和输 Fig.5 Residual skip connection module of this paper 出维度相同时,可将其定义如式(6)所示: 2.2卷积层的选择 y=F(x,WiD+x (6) 网络模型卷积核的选择与网络计算量大小密 文献「22]证明了越是接近当前卷积层的前层 切相关。尽管大的卷积核可以直接增大感受野, 输出对当前层的特征提取效果影响越大,可以使 但是会带来网络计算量的暴增,而多个3×3卷积 网络更容易训练。为此本文仅将相邻堆叠的卷积 核可以在降低计算量的前提下实现5×5或7×7乃 层组成残差跳跃连接结构,在有效重复利用特征 至更大卷积核的效果。由式(9)可以发现,3个 图的同时,降低网络参数量和复杂度。本文残差 3×3卷积核实现7×7卷积核效果时,其参数量可以 跳跃连接结构如图5所示。图5中残差映射 减少到55%。 F(x)如式(7)所示,输出y和输入x的关系式如式 3×3×3×C2 (8)所示: 1= ×100%≈55% (9) 7×7XC2 F(x)=W2(Wix) (7) 其中C指输入和输出的通道数
③将 I 的绝对地址和 i 写入 txt 文档; ④换行; ⑤重复迭代 2)~4); ⑥返回图像 I 与其编码 i 相互对应的 txt 文档 通过上述一系列的图像预处理,本文建立了东 巴象形文字数据集,该数据集包含 1 387 个东巴象 形文字(包括异体字),每个东巴象形文字对应 160 余 张书写各异的图片,数据集图片总量为 223050 张。 2 改进残差学习神经网络 近年来,深度学习成功应用于图像识别[16-19] 领域,提出了一系列性能优异的网络模型,其中 ResNet 模型首次提出残差跳跃连接 (residual shortcut connection) 结构[20] ,解决了网络加深带来的梯 度消失问题以及神经网络深度与识别准确度之间 的矛盾,可有效提取更多的图像细节特征,目前 已成为图像识别的主流深度学习模型。 考虑到东巴象形文字识别的具体问题,不仅 字数多、书写随意性较大,而且有些字形较为相 似,因此需要提取细节特征能力强的网络结构, 为此本文选择 ResNet 模型作为本文改进的网络 结构,设计了残差跳跃连接方式和卷积层的数 量,并通过加入最大池化层实现了对下采样的改 进,更好地提取了东巴象形文字的纹理分布特 征。本文设计的网络主要框架如图 4 所示。下面 将详细介绍设计思路和改进方法。 Res block-64 Res block-64 Res block-128 Res block-128 Res block-256 Res block-256 Res block-256 Res block-256 Res block-512 Res block-512 Res block-512 Res block-512 Res block-1 024 Res block-1 024 Res block-1 024 Res block-1 024 Maxpool-2×2 Maxpool-2×2 Maxpool-2×2 Maxpool-2×2 输入图像 64×64 Avgpool-4×4 东巴文字识别 Res block-c 残差跳跃连接 Maxpool-2×2 最大池化层 大小为 2×2全连接层 c 代表其中卷积操作的通道数 Avgpool-4×4 平均池化层 大小为 4×4 图 4 东巴象形文字识别网络结构 Fig. 4 Network structure of Dongba pictographs recognition 2.1 残差跳跃连接 H(x) = x H(x) = F(x)+ x F(x) = H(x)− x F(x) 残差跳跃连接可以解决神经网络随着深度增 加出现性能退化的问题。深层神经网络难以拟合 的原因是恒等映射 的学习比较困难,但当 把网络设计为 时,可以把学习恒等 映射转化为更加容易学习的残差映射 , 并且 对输出变化更加敏感,参数的调整幅度 更大,从而可以加快学习速度,提高网络的优化 性能。残差跳跃连接的一般定义如式 (5) 所示: y = F(x,{Wi})+ Wsx (5) Ws 1×1 F(x,{Wi}) 其中 主要是用 卷积[21] 来匹配残差跳跃连接 输入 x 和输出 y 的通道维度。 为网络需 要学习的残差映射。而当残差跳跃连接输入和输 出维度相同时,可将其定义如式 (6) 所示: y = F(x,{Wi})+ x (6) F(x) 文献 [22] 证明了越是接近当前卷积层的前层 输出对当前层的特征提取效果影响越大,可以使 网络更容易训练。为此本文仅将相邻堆叠的卷积 层组成残差跳跃连接结构,在有效重复利用特征 图的同时,降低网络参数量和复杂度。本文残差 跳跃连接结构如 图 5 所示。 图 5 中残差映射 如式 (7) 所示,输出 y 和输入 x 的关系式如式 (8) 所示: F(x) = W2σ(W1 x) (7) y = σ(W2σ(W1 x)+ x) (8) 式中:σ均表示 ReLU 激活函数, W1和 W2分别表示 卷积层学习的参数。 Conv3×3−S=1 Conv3×3−S=1 BN ReLU BN x ReLU Conv3×3−S=1 3×3 卷积层代表步长 BN Batch normalization ReLU ReLU 层 F (x) F (x)+x y 图 5 本文残差跳跃连接模块 Fig. 5 Residual skip connection module of this paper 2.2 卷积层的选择 3×3 5×5 7×7 3×3 7×7 网络模型卷积核的选择与网络计算量大小密 切相关。尽管大的卷积核可以直接增大感受野, 但是会带来网络计算量的暴增,而多个 卷积 核可以在降低计算量的前提下实现 或 乃 至更大卷积核的效果。由式 (9) 可以发现,3 个 卷积核实现 卷积核效果时,其参数量可以 减少到 55%。 η = 3×3×3×C 2 7×7×C2 ×100% ≈ 55% (9) 其中 C 指输入和输出的通道数。 第 17 卷 智 能 系 统 学 报 ·82·
·83· 骆彦龙,等:基于改进残差学习的东巴象形文字识别 第1期 除了能够降低网络模型的计算量,单个3×3 3实验结果及分析 卷积核还可以捕获特征图像素四周的信息,多个 3×3卷积核的叠加还可以直接增加网络深度2), 为验证本文创新工作的有效性与先进性,实 使网络模型的特征提取能力更强,从而取得更好 验部分主要做了3个方面的工作:1)本文建立的 的识别效果。 东巴象形文字数据集对比实验及分析;2)本文提 东巴象形文字具有字数多、字形相似等特点, 出的东巴象形文字识别方法对比实验及分析,包 因此需要提取特征能力强的网络结构,而多个卷 括网络改进前后的对比实验;3)结合实验结果, 积层的叠加能够在参数量最少的前提下实现最好 分析归纳了目前仍存在的问题。 的特征提取能力。因此本文设计了32层3×3的 3.1实验条件 卷积层,再加1层全连接层,构成33层网络模型, 实验中所有对比实验均在表1所示的实验平 用以获得东巴象形文字最好的识别效果。 台上运行。 同时,为了防止网络过拟合,加快网络训练速 表1实验环境配置 度,本文对每一个卷积层执行批量归一化(batch Table 1 Experimental environment configurations normalization)2操作。然后再使用修正线性单元 配件 参数 ReLU2(rectified linear units)fx)=max(0,x)作为激 操作系统 Ubuntu 16.04 活函数,增强网络的非线性表达能力,在x>0时 处理器 IntelCoreTM:7-7700CPU@3.60GHz 保持梯度不衰减,从而缓解网络出现的梯度消失 显卡 GeForce GTX 1070 Ti 问题。 内存 16 GB 2.3下采样改进 开发工具 Pytorch1.0.0 Python3.6.2 下采样可以降低特征图维度,保留图像主要 特征的同时减少网络模型的参数量,防止过拟合 实验epoch设置为80,初始学习率设置为 现象的发生。在ResNet模型中通常采用令卷积 0.001,每50个epoch将学习率降低为原来的三分 步长Stride=2来实现下采样的效果,但是由于本文 之一,直到运行结束所有epoch. 建立的东巴象形文字数据集经过灰度归一化后, 本文梯度优化函数选择Adam函数,损失函数 其前景像素值远远大于背景像素值,用这种方法 使用交叉熵函数,交叉嫡函数定义如式(11)所示: 实现下采样获得的东巴象形文字纹理特征不够丰 exp(x)】 富,影响了识别效果,因此有必要对下采样进行 -+log∑exp) (11) exp() 改进。 最大池化层通过提取特征图局部区域内的像 其中x代表全连接层第j个网络节点输出值。 素最大值,可以最大程度降低特征图背景的无关 本文改进的ResNet模型具体参数如表2所示。 信息,使网络模型提取更多有用的前景特征,降 3.2 本文建立的数据集验证 低背景特征干扰。因此,本文对ResNet模型中的 目前关于东巴象形文字的数据集较少,文献 下采样方式进行了改进,通过采用最大池化层来 [8-10]是目前已知的3个东巴象形文字数据集, 获得丰富的纹理特征。最大池化层的公式如式 因此将本文的数据集与上述3种数据集都进行了 10)所示: 对比实验。 poolingmax maxai,ier (10) 3.2.1数据集有效性验证 其中:k=12…,)为特征图所划分的多个区 这里选取在图像识别领域表现优异的Res- 域,a表示第i区域内的像素值。 Netl8、ResNet34、VGGNet以及本文的改进网络模 而网络深层的平均池化层通过提取特征图的 型在本文建立的东巴象形文字数据集上进行识别 像素加权值,可以保留更加完整的特征图信息。 效果对比。在数据集中随机选取5000张图像计 并且通过平均池化将特征图下采样为1×1后再与 算其均值和方差,然后将图像归一化处理后输入 全连接层相连接,可以减少网络参数。池化层的 网络。随机选取数据集图片总数的80%作为训 池化区域为特征图中的连续区域,对小的形态改 练集,即178223张图片,其余44827张图片作为 变具有不变性,不仅能够逐步减少特征图的空间 测试集。在训练集上训练网络模型后,在测试集 大小、参数数量、内存占用和计算量,而且拥有更 上对1387个东巴象形文字(包括异体字)进行识 大的感受野,可有效控制过拟合现象的发生。 别准确率测试。其实验结果如表3所示
3×3 3×3 除了能够降低网络模型的计算量,单个 卷积核还可以捕获特征图像素四周的信息,多个 卷积核的叠加还可以直接增加网络深度[23] , 使网络模型的特征提取能力更强,从而取得更好 的识别效果。 3×3 东巴象形文字具有字数多、字形相似等特点, 因此需要提取特征能力强的网络结构,而多个卷 积层的叠加能够在参数量最少的前提下实现最好 的特征提取能力。因此本文设计了 32 层 的 卷积层,再加 1 层全连接层,构成 33 层网络模型, 用以获得东巴象形文字最好的识别效果。 f(x) = max(0, x) x > 0 同时,为了防止网络过拟合,加快网络训练速 度,本文对每一个卷积层执行批量归一化 (batch normalization)[24] 操作。然后再使用修正线性单元 ReLU[25] (rectified linear units) 作为激 活函数,增强网络的非线性表达能力,在 时 保持梯度不衰减,从而缓解网络出现的梯度消失 问题。 2.3 下采样改进 Stride = 2 下采样可以降低特征图维度,保留图像主要 特征的同时减少网络模型的参数量,防止过拟合 现象的发生。在 ResNet 模型中通常采用令卷积 步长 来实现下采样的效果,但是由于本文 建立的东巴象形文字数据集经过灰度归一化后, 其前景像素值远远大于背景像素值,用这种方法 实现下采样获得的东巴象形文字纹理特征不够丰 富,影响了识别效果,因此有必要对下采样进行 改进。 最大池化层通过提取特征图局部区域内的像 素最大值,可以最大程度降低特征图背景的无关 信息,使网络模型提取更多有用的前景特征,降 低背景特征干扰。因此,本文对 ResNet 模型中的 下采样方式进行了改进,通过采用最大池化层来 获得丰富的纹理特征。最大池化层的公式如式 (10) 所示: poolingmax = maxai , i ∈ rk (10) rk(k = 1,2,··· ,K) ai 其中: 为特征图所划分的多个区 域, 表示第 i 区域内的像素值。 1×1 而网络深层的平均池化层通过提取特征图的 像素加权值,可以保留更加完整的特征图信息。 并且通过平均池化将特征图下采样为 后再与 全连接层相连接,可以减少网络参数。池化层的 池化区域为特征图中的连续区域,对小的形态改 变具有不变性,不仅能够逐步减少特征图的空间 大小、参数数量、内存占用和计算量,而且拥有更 大的感受野,可有效控制过拟合现象的发生。 3 实验结果及分析 为验证本文创新工作的有效性与先进性,实 验部分主要做了 3 个方面的工作:1) 本文建立的 东巴象形文字数据集对比实验及分析;2) 本文提 出的东巴象形文字识别方法对比实验及分析,包 括网络改进前后的对比实验;3) 结合实验结果, 分析归纳了目前仍存在的问题。 3.1 实验条件 实验中所有对比实验均在表 1 所示的实验平 台上运行。 表 1 实验环境配置 Table 1 Experimental environment configurations 配件 参数 操作系统 Ubuntu 16.04 处理器 IntelR CoreTMi7-7700CPU@3.60 GHz 显卡 GeForce GTX 1070 Ti 内存 16 GB 开发工具 Pytorch1.0.0 Python3.6.2 实验 epoch 设置为 80,初始学习率设置为 0.001,每 50 个 epoch 将学习率降低为原来的三分 之一,直到运行结束所有 epoch。 本文梯度优化函数选择 Adam 函数,损失函数 使用交叉熵函数,交叉熵函数定义如式 (11) 所示: L = −log exp(xj) ∑ i exp(xi) = −xj +log∑ i exp(xi) (11) 其中xj 代表全连接层第 j 个网络节点输出值。 本文改进的 ResNet 模型具体参数如表 2 所示。 3.2 本文建立的数据集验证 目前关于东巴象形文字的数据集较少,文献 [8-10] 是目前已知的 3 个东巴象形文字数据集, 因此将本文的数据集与上述 3 种数据集都进行了 对比实验。 3.2.1 数据集有效性验证 这里选取在图像识别领域表现优异的 ResNet18、ResNet34、VGGNet 以及本文的改进网络模 型在本文建立的东巴象形文字数据集上进行识别 效果对比。在数据集中随机选取 5 000 张图像计 算其均值和方差,然后将图像归一化处理后输入 网络。随机选取数据集图片总数的 80% 作为训 练集,即 178 223 张图片,其余 44 827 张图片作为 测试集。在训练集上训练网络模型后,在测试集 上对 1 387 个东巴象形文字 (包括异体字) 进行识 别准确率测试。其实验结果如表 3 所示。 ·83· 骆彦龙,等:基于改进残差学习的东巴象形文字识别 第 1 期
第17卷 智能系统学报 ·84· 表2本文网络参数设计 络模型在不同的东巴象形文字数据集上取得的识 Table 2 Network configurations of this paper 别效果不同,相较于其他3个文献所建立的数据 输出图像 集,本文建立的数据集采用3种相对应的网辂模 网络层 卷积核 尺寸大小/输出通道数 型都取得了最高的识别准确率,说明本文建立的 像素×像素 数据集在数据规模和数据质量上都是目前最好 输入层 64×64 的,也说明优秀的数据集可辅助提高深度学习模 3×3步长=1 卷积层 3×3步长-1 ×2 型的性能。 64×64 64 表4数据集先进性验证实验 最大池化 2×2步长=2 32×32 64 Table 4 Experiment of dataset advancement verification 3×3步长=1 卷积层 3×3步长=1 ×2 32×32 128 实验数据集 可识别东巴文字数测试模型识别准确率/% 文献8]数据集 956 ResNet18 85.6 最大池化 2×2步长=2 16×16 128 文献[9]数据集 200 VGGNet 95.8 3×3步长=1 卷积层 3×3步长-1 ×4 16×16 256 文献[10]数据集 536 ResNet20 93.58 最大池化 2×2步长=2 8×8 256 ResNet18 98.22 3×3步长=1 本文数据集 1387 VGGNet 98.34 卷积层 3×3步长=1 ×4 8×8 512 ResNet20 97.7 最大池化 2×2步长=2 4×4 512 3.3 3×3步长=1 本文识别算法的实验验证 卷积层 ×4 3×3步长=1 4×4 1024 根据东巴象形文字识别的特点,本文对Res 平均池化 4×4 Net模型进行了改进,提高了东巴象形文字的识 1×1 1024 别准确率。这里将验证本文网络模型改进的有效 全连接层softmax 性。通过将其与采用残差跳跃连接加传统池化方 表3数据集有效性验证实验 式以及无残差跳跃连接加最大池化方式的网络模 Table 3 Experiment of dataset validity verification 型进行消融实验。同时,将本文改进的网络模型 测试模型 识别准确率/% 与文献[8-10]中取得识别准确率最高的网络模型 ResNet18 98.22 以及ResNet.34进行对比实验,以验证其先进性。 ResNet34 98.01 所有实验在本文建立的数据集上进行。 3.31算法的有效性验证 VGGNet 98.34 为了验证本文改进ResNet模型的有效性,这 本文算法 98.65 里进行了改进前后的对比实验。将本文改进的网 从表3中可以看出,对于不同的网络模型,本 络模型(残差+最大池化)与残差加传统池化、无 文建立的东巴象形文字数据集都获得了高于 残差加最大池化3种网络模型进行识别效果对 98%的识别准确率,最高可达98.65%,这说明本 比,实验结果如表5所示。 文建立的东巴象形文字数据集是有效的,每个东 表5算法有效性验证实验 巴象形文字多达160多张书写各异的图片,其数 Table 5 Experiment of algorithm validity verification 据规模完全满足具体识别的要求。 测试模型 识别准确率% 3.2.2数据集先进性验证 残差+传统池化 98.11 文献[8-10]分别给出了3种东巴象形文字识 无残差+最大池化 97.64 别方法和与之对应的3个东巴象形文字数据集, 残差+最大池化 98.65 这里采用这3种识别方法在本文提出的数据集上 分别进行了识别准确率方面的对比实验。表4给 由表5可以看出,本文改进的残差跳跃连接 出了各个数据集能够识别的字数和不同模型在数 加最大池化下采样网络模型取得了最高的识别准 据集上进行识别的准确率。 确率,相较于残差跳跃连接加传统池化的网络模 从表4中可以看出,首先本文建立的数据集 型提高了0.54%;相较于无残差跳跃连接加最大 能够识别的东巴象形文字最多;其次,相同的网 池化下采样的网络模型提高了1.01%,从而验证
表 2 本文网络参数设计 Table 2 Network configurations of this paper 网络层 卷积核 输出图像 尺寸大小/ 像素×像素 输出通道数 输入层 / 64×64 1 卷积层 [ 3×3步长=1 3×3步长=1 ] ×2 64×64 64 最大池化 2×2 步长=2 32×32 64 卷积层 [ 3×3步长=1 3×3步长=1 ] ×2 32×32 128 最大池化 2×2 步长=2 16×16 128 卷积层 [ 3×3步长=1 3×3步长=1 ] ×4 16×16 256 最大池化 2×2 步长=2 8×8 256 卷积层 [ 3×3步长=1 3×3步长=1 ] ×4 8×8 512 最大池化 2×2 步长=2 4×4 512 卷积层 [ 3×3步长=1 3×3步长=1 ] ×4 4×4 1 024 平均池化 4×4 1×1 1 024 全连接层 softmax 表 3 数据集有效性验证实验 Table 3 Experiment of dataset validity verification 测试模型 识别准确率/% ResNet18 98.22 ResNet34 98.01 VGGNet 98.34 本文算法 98.65 从表 3 中可以看出,对于不同的网络模型,本 文建立的东巴象形文字数据集都获得了高于 98% 的识别准确率,最高可达 98.65%,这说明本 文建立的东巴象形文字数据集是有效的,每个东 巴象形文字多达 160 多张书写各异的图片,其数 据规模完全满足具体识别的要求。 3.2.2 数据集先进性验证 文献 [8-10] 分别给出了 3 种东巴象形文字识 别方法和与之对应的 3 个东巴象形文字数据集, 这里采用这 3 种识别方法在本文提出的数据集上 分别进行了识别准确率方面的对比实验。表 4 给 出了各个数据集能够识别的字数和不同模型在数 据集上进行识别的准确率。 从表 4 中可以看出,首先本文建立的数据集 能够识别的东巴象形文字最多;其次,相同的网 络模型在不同的东巴象形文字数据集上取得的识 别效果不同,相较于其他 3 个文献所建立的数据 集,本文建立的数据集采用 3 种相对应的网络模 型都取得了最高的识别准确率,说明本文建立的 数据集在数据规模和数据质量上都是目前最好 的,也说明优秀的数据集可辅助提高深度学习模 型的性能。 表 4 数据集先进性验证实验 Table 4 Experiment of dataset advancement verification 实验数据集 可识别东巴文字数 测试模型 识别准确率/% 文献[8]数据集 956 ResNet18 85.6 文献[9]数据集 200 VGGNet 95.8 文献[10]数据集 536 ResNet20 93.58 本文数据集 1 387 ResNet18 98.22 VGGNet 98.34 ResNet20 97.7 3.3 本文识别算法的实验验证 根据东巴象形文字识别的特点,本文对 ResNet 模型进行了改进,提高了东巴象形文字的识 别准确率。这里将验证本文网络模型改进的有效 性。通过将其与采用残差跳跃连接加传统池化方 式以及无残差跳跃连接加最大池化方式的网络模 型进行消融实验。同时,将本文改进的网络模型 与文献 [8-10] 中取得识别准确率最高的网络模型 以及 ResNet34 进行对比实验,以验证其先进性。 所有实验在本文建立的数据集上进行。 3.3.1 算法的有效性验证 为了验证本文改进 ResNet 模型的有效性,这 里进行了改进前后的对比实验。将本文改进的网 络模型 (残差+最大池化) 与残差加传统池化、无 残差加最大池化 3 种网络模型进行识别效果对 比,实验结果如表 5 所示。 表 5 算法有效性验证实验 Table 5 Experiment of algorithm validity verification 测试模型 识别准确率/% 残差+传统池化 98.11 无残差+最大池化 97.64 残差+最大池化 98.65 由表 5 可以看出,本文改进的残差跳跃连接 加最大池化下采样网络模型取得了最高的识别准 确率,相较于残差跳跃连接加传统池化的网络模 型提高了 0.54%;相较于无残差跳跃连接加最大 池化下采样的网络模型提高了 1.01%,从而验证 第 17 卷 智 能 系 统 学 报 ·84·
·85· 骆彦龙,等:基于改进残差学习的东巴象形文字识别 第1期 了本文改进残差跳跃连接加最大池化网络模型的 从图6可以看出,“水槽”和“水涧”,“侧视之 有效性。 人”和“左”或“爬”等字的区别仅仅体现在线条的 3.3.2算法的先进性验证 弯曲程度不同;“腰”和“爬”更多体现在它们之间 为了验证本文改进网络模型的先进性,在相 大小有所差异:“神山山脚”和“神山山腰”,“中”和 同的实验环境下,本文分别与文献[8]采用的Res “矛”主要体现在图像上部分所画的高度不同;“尾 Netl8网络模型、文献[9]采用的VGGNet网络模 巴”和“树倒”的差异体现在右下角线条的长度和 型以及文献[I0]采用的20层ResNet网络模型进 弯曲程度;“臂膀”和“手”则几乎相同。 行了对比实验,实验结果如表6所示。 可见,东巴象形文字中有很多相似乃至接近 表6算法先进性验证实验 “相同”的文字,又因为东巴象形文字的手工书写 Table 6 Experiment of model advancement verification 形式,随意性较大,这些相似的东巴象形文字在 测试模型 识别准确率/% 书写过程中极容易导致差异性变小、辨识度下 ResNet18文献[8] 98.22 降,这是影响东巴象形文字识别准确率的主要 VGGNet文献I9] 98.34 原因。 ResNet20文献[1O] 97.7 ResNet34 98.01 4结束语 本文算法 98.65 针对现有东巴象形文字识别方法存在的识别 从表6中可以看出,本文改进的网络模型识 文字数量少、识别准确率较低等问题,本文首先 别准确率最高,相较于文献[8]的方法提高了 建立了包含1387个东巴象形文字(包括异体字)、 0.43%:相较于文献[9]的方法提高了0.31%:相较 图片总量达到22万余张的东巴象形文字数据集, 于文献[10]的方法提高了0.95%。充分验证了本 可识别的东巴象形文字大幅增加。通过扩大数据 文改进网络模型的先进性。 集的规模,辅助提高了算法识别的准确率;更为 同时,本文又与层数有所增加的ResNet34网 络进行了对比性实验。从表6中可以看出,34层 重要的是本文选择ResNet模型作为改进的网络 网络模型的识别准确率不仅低于本文的33层网 结构,设计了残差跳跃连接方式和卷积层的数 络模型,而且也低于18层的网络模型,这说明网 量,并通过加入最大池化层实现了对下采样的改进, 络层数的简单叠加在具体的东巴象形文字识别中 更好地提取了东巴象形文字的纹理分布特征。通 不一定获得更好的识别效果。 过对1387个东巴象形文字(包括异体字)分别进 3.4存在的问题 行测试,实验结果表明,本文提出的改进ResNet 虽然本文取得了98.65%的识别准确率,但对 模型识别准确率平均达到98.65%,取得了当前识 于误识别问题我们又进行了深入分析,通过观察 别字数最多、识别准确率最高的效果。 多次实验结果,发现错误识别的东巴象形文字都 未来将继续扩大东巴象形文字数据集的文字 有一个共同的特点,那就是都有与之非常相似的东 数量,力争包含现存的所有东巴象形文字。针对 巴象形文字,图6给出了部分相似文字的示例。 其中相似度极高的文字,将研究设计专门的网络 模型来有效将它们区别开来,从而进一步提高东 巴象形文字识别的准确率。 水槽 水涧 神山山脚神山山腰 参考文献: 侧视之人 左 中 [1]GUO Hai,ZHAO Jingying,LI Xiaoniu.Preprocessing method for NaXi pictographs character recognition using wavelet transform[J].International journal of digital con- 侧视之人 尾巴 树倒 tent technology and its applications,2010,4(3):117-131. [2]GUO Hai,ZHAO Jingying.Research on feature extrac- tion for character recognition of NaXi pictograph[J]. 腰 爬 臂膀 Journal of computers,2011,6(5):947-954. 图6相似东巴象形文字示例 [3]DA Mingjun,ZHAO Jingying.SUO Guojie,et al.Online Fig.6 Samples of similar Dongba pictographs handwritten Naxi pictograph digits recognition system us-
了本文改进残差跳跃连接加最大池化网络模型的 有效性。 3.3.2 算法的先进性验证 为了验证本文改进网络模型的先进性,在相 同的实验环境下,本文分别与文献 [8] 采用的 ResNet18 网络模型、文献 [9] 采用的 VGGNet 网络模 型以及文献 [10] 采用的 20 层 ResNet 网络模型进 行了对比实验,实验结果如表 6 所示。 表 6 算法先进性验证实验 Table 6 Experiment of model advancement verification 测试模型 识别准确率/% ResNet18文献[8] 98.22 VGGNet文献[9] 98.34 ResNet20文献[10] 97.7 ResNet34 98.01 本文算法 98.65 从表 6 中可以看出,本文改进的网络模型识 别准确率最高,相较于文献 [8] 的方法提高了 0.43%;相较于文献 [9] 的方法提高了 0.31%;相较 于文献 [10] 的方法提高了 0.95%。充分验证了本 文改进网络模型的先进性。 同时,本文又与层数有所增加的 ResNet34 网 络进行了对比性实验。从表 6 中可以看出,34 层 网络模型的识别准确率不仅低于本文的 33 层网 络模型,而且也低于 18 层的网络模型,这说明网 络层数的简单叠加在具体的东巴象形文字识别中 不一定获得更好的识别效果。 3.4 存在的问题 虽然本文取得了 98.65% 的识别准确率,但对 于误识别问题我们又进行了深入分析,通过观察 多次实验结果,发现错误识别的东巴象形文字都 有一个共同的特点,那就是都有与之非常相似的东 巴象形文字,图 6 给出了部分相似文字的示例。 水槽 水涧 侧视之人 左 侧视之人 爬 爬 神山山脚 神山山腰 尾巴 树倒 中 腰 臂膀 手 矛 图 6 相似东巴象形文字示例 Fig. 6 Samples of similar Dongba pictographs 从图 6 可以看出,“水槽”和“水涧”,“侧视之 人”和“左”或“爬”等字的区别仅仅体现在线条的 弯曲程度不同;“腰”和“爬”更多体现在它们之间 大小有所差异;“神山山脚”和“神山山腰”,“中”和 “矛”主要体现在图像上部分所画的高度不同;“尾 巴”和“树倒”的差异体现在右下角线条的长度和 弯曲程度;“臂膀”和“手”则几乎相同。 可见,东巴象形文字中有很多相似乃至接近 “相同”的文字,又因为东巴象形文字的手工书写 形式,随意性较大,这些相似的东巴象形文字在 书写过程中极容易导致差异性变小、辨识度下 降,这是影响东巴象形文字识别准确率的主要 原因。 4 结束语 针对现有东巴象形文字识别方法存在的识别 文字数量少、识别准确率较低等问题,本文首先 建立了包含 1 387 个东巴象形文字 (包括异体字)、 图片总量达到 22 万余张的东巴象形文字数据集, 可识别的东巴象形文字大幅增加。通过扩大数据 集的规模,辅助提高了算法识别的准确率;更为 重要的是本文选择 ResNet 模型作为改进的网络 结构,设计了残差跳跃连接方式和卷积层的数 量,并通过加入最大池化层实现了对下采样的改进, 更好地提取了东巴象形文字的纹理分布特征。通 过对 1 387 个东巴象形文字 (包括异体字) 分别进 行测试,实验结果表明,本文提出的改进 ResNet 模型识别准确率平均达到 98.65%,取得了当前识 别字数最多、识别准确率最高的效果。 未来将继续扩大东巴象形文字数据集的文字 数量,力争包含现存的所有东巴象形文字。针对 其中相似度极高的文字,将研究设计专门的网络 模型来有效将它们区别开来,从而进一步提高东 巴象形文字识别的准确率。 参考文献: GUO Hai, ZHAO Jingying, LI Xiaoniu. Preprocessing method for NaXi pictographs character recognition using wavelet transform[J]. International journal of digital content technology and its applications, 2010, 4(3): 117–131. [1] GUO Hai, ZHAO Jingying. Research on feature extraction for character recognition of NaXi pictograph[J]. Journal of computers, 2011, 6(5): 947–954. [2] DA Mingjun, ZHAO Jingying, SUO Guojie, et al. Online handwritten Naxi pictograph digits recognition system us- [3] ·85· 骆彦龙,等:基于改进残差学习的东巴象形文字识别 第 1 期
第17卷 智能系统学报 ·86· ing coarse grid[C]//Computer science for environmental al.Albumentations:fast and flexible image augmenta- engineering and Ecolnformatics.Berlin,German:Spring- tions[EB/OL].(2018-09-18)[2021-11-30].htps:/∥ er,2011:390-396. arxiv.org/abs/1809.06839. [4]HSU C W.LIN C J.A comparison of methods for multi- [14]ZHANG Hongyi,MOUSTAPHA Cisseet,YANN N class support vector machines[J].IEEE transactions on Dauphin,et al.Mixup:beyond empirical risk minimiza- neural networks,2002,13(2):415-425. tion[EB/OL].(2017-10-25)[2021-11-30].https://arxiv. [5]BREIMAN L.Random forests[J].Machine learning, org/abs/1710.09412. 2001,45(1):5-32. [15]DAN Hendrycks,NORMAN Mu,EKIN D Cubuk,et al. [6]徐小力,蒋章雷,吴国新,等.基于拓扑特征和投影法的 AugMix:A simple data processing method to improve 东巴象形文识别方法研究).电子测量与仪器学报, robustness and uncertainty [EB/OL].(2019-12-05) 2017,31(1)少150-154. [2021-11-30]https:/arxiv.org/abs/1912.02781. XU Xiaoli,JIANG Zhanglei,WU Guoxin,et al.Identific- [16]HE Tong,ZHANG Zhi,ZHANG Hang,et al.Bag of ation method of Dongba pictograph based on topological tricks for image classification with convolutional neural characteristic and projection method[J].Journal of elec- networks[C]//2019 IEEE/CVF Conference on Computer tronic measurement and instrumentation,2017,31(1): Vision and Pattern Recognition.New York,USA:IEEE. 150-154 2019:558-567 [7]杨玉婷,康厚良.东巴象形文字特征曲线提取算法研究 [17]KHAN A,SOHAIL A,ZAHOORA U,et al.A survey of [円.图学学报,2019,40(3):591-599 the recent architectures of deep convolutional neural net- YANG Yuting,KANG Houliang.Research on the ex- works[J].Artificial intelligence review,2020,53(8) tracting algorithm of dongba hieroglyphic feature 5455-5516. curves[J1.Journal of graphics,2019,40(3):591-599. [18]XIE Saining,GIRSHICK R,DOLLAR P,et al.Aggreg- [8]张泽晖.基于卷积神经网络的东巴文字分类与识别 ated residual transformations for deep neural networks D].昆明:云南大学,2019, [C]//2017 IEEE Conference on Computer Vision and ZHANG Zehui.Classification and recognition of dongba Pattern Recognition.New York,USA:IEEE,2017: characters based on convolutional neural network[D]. 5987-5995. Kunming:Yunnan University,2019. [19]TAN Mingxing,LE Quoc V.EfficientNet:rethinking [9]WU Guoxin,LIU Xiuli,JIANG Zhanglei,et al.Dongba model scaling for convolutional neural networks classical ancient books image classification method based [EB/OL].(2019-05-28)[2021-11-30]https:/∥arxiv.org on ReN-Softplus convolution residual neural network abs/1905.11946. [C]//2019 14th IEEE International Conference on Elec- [20]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. tronic Measurement Instruments.New York,USA: Deep residual learning for image recognition[C]//2016 IEEE,2019:398-404. IEEE Conference on Computer Vision and Pattern Re- [IO]谢裕睿,董建娥.基于ResNet网络的东巴象形文字识 cognition.New York,USA:IEEE,2016:770-778. 别研究).计算机时代,2021(1少:6-10. [21]LIN Min,CHEN Qiang,YAN Shuicheng.Network in XIE Yurui,DONG Jian'e.Research on Dongba hiero- network[EB/OL].(2013-12-16)[2021-11-30].https://arx- glyph recognition using ResNet network[J].Computer i.org/abs/1312.4400. era,2021(1):6-10. [22]HUANG Gao,LIU Shichen,MAATEN L V D,et al. [11]李霖灿.纳西族象形标音文字字典M).昆明:云南民 CondenseNet:an efficient DenseNet using learned group 族出版社,2001 convolutions[Cl//2018 IEEE/CVF Conference on Com- LI Lincan.Naxi Pictographs and Transcription Charac- puter Vision and Pattern Recognition.New York.USA: ters Dictionary[M].Kunming:Yunnan Nationalities IEEE.2018:2752-2761 Publishing House,2001. [23]SIMONYAN K,ZISSERMAN A.Very deep convolu- [12]方国瑜,和志武.纳西象形文字谱M.昆明:云南人民 tional networks for large-scale image recognition 出版社,1981 [EB/OL].(2014-09-04)[2021-11-30].https:/arxiv. FANG Guoyu,HE Zhiwu.Naxi pictograph character org/abs/1409.1556v3 chart[M].Kunming:Yunnan People's Publishing House, [24]IOFFE Sergey,SZEGEDY Christian.Batch normaliza- 1981. tion:accelerating deep network training by reducing in- [13]BUSLAEV A,PARINOV A,KHVEDCHENYA E,et ternal covariate shift [C]//2015 International Conference
ing coarse grid[C]//Computer science for environmental engineering and EcoInformatics. Berlin, German: Springer, 2011: 390−396. HSU C W, LIN C J. A comparison of methods for multiclass support vector machines[J]. IEEE transactions on neural networks, 2002, 13(2): 415–425. [4] BREIMAN L. Random forests[J]. Machine learning, 2001, 45(1): 5–32. [5] 徐小力, 蒋章雷, 吴国新, 等. 基于拓扑特征和投影法的 东巴象形文识别方法研究 [J]. 电子测量与仪器学报, 2017, 31(1): 150–154. XU Xiaoli, JIANG Zhanglei, WU Guoxin, et al. Identification method of Dongba pictograph based on topological characteristic and projection method[J]. Journal of electronic measurement and instrumentation, 2017, 31(1): 150–154. [6] 杨玉婷, 康厚良. 东巴象形文字特征曲线提取算法研究 [J]. 图学学报, 2019, 40(3): 591–599. YANG Yuting, KANG Houliang. Research on the extracting algorithm of dongba hieroglyphic feature curves[J]. Journal of graphics, 2019, 40(3): 591–599. [7] 张泽晖. 基于卷积神经网络的东巴文字分类与识别 [D]. 昆明: 云南大学, 2019. ZHANG Zehui. Classification and recognition of dongba characters based on convolutional neural network[D]. Kunming: Yunnan University, 2019. [8] WU Guoxin, LIU Xiuli, JIANG Zhanglei, et al. Dongba classical ancient books image classification method based on ReN-Softplus convolution residual neural network [C]//2019 14th IEEE International Conference on Electronic Measurement & Instruments. New York, USA: IEEE, 2019: 398−404. [9] 谢裕睿, 董建娥. 基于 ResNet 网络的东巴象形文字识 别研究 [J]. 计算机时代, 2021(1): 6–10. XIE Yurui, DONG Jian'e. Research on Dongba hieroglyph recognition using ResNet network[J]. Computer era, 2021(1): 6–10. [10] 李霖灿. 纳西族象形标音文字字典 [M]. 昆明: 云南民 族出版社, 2001. LI Lincan. Naxi Pictographs and Transcription Characters Dictionary[M]. Kunming: Yunnan Nationalities Publishing House, 2001. [11] 方国瑜, 和志武. 纳西象形文字谱 [M]. 昆明: 云南人民 出版社, 1981. FANG Guoyu, HE Zhiwu. Naxi pictograph character chart[M]. Kunming: Yunnan People’s Publishing House, 1981. [12] [13] BUSLAEV A, PARINOV A, KHVEDCHENYA E, et al. Albumentations: fast and flexible image augmentations[EB/OL]. (2018-09-18) [2021-11-30].https:// arxiv.org/abs/1809.06839. ZHANG Hongyi, MOUSTAPHA Cisseet, YANN N Dauphin, et al. Mixup: beyond empirical risk minimization[EB/OL]. (2017-10-25) [2021-11-30].https://arxiv. org/abs/1710.09412. [14] DAN Hendrycks, NORMAN Mu, EKIN D Cubuk, et al. AugMix: A simple data processing method to improve robustness and uncertainty[EB/OL]. (2019-12-05) [2021-11-30].https://arxiv.org/abs/1912.02781. [15] HE Tong, ZHANG Zhi, ZHANG Hang, et al. Bag of tricks for image classification with convolutional neural networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2019: 558−567. [16] KHAN A, SOHAIL A, ZAHOORA U, et al. A survey of the recent architectures of deep convolutional neural networks[J]. Artificial intelligence review, 2020, 53(8): 5455–5516. [17] XIE Saining, GIRSHICK R, DOLLÁR P, et al. Aggregated residual transformations for deep neural networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2017: 5987−5995. [18] TAN Mingxing, LE Quoc V. EfficientNet: rethinking model scaling for convolutional neural networks [EB/OL]. (2019-05-28) [2021-11-30].https://arxiv.org/ abs/1905.11946. [19] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2016: 770−778. [20] LIN Min, CHEN Qiang, YAN Shuicheng. Network in network[EB/OL]. (2013-12-16) [2021-11-30].https://arxiv.org/abs/1312.4400. [21] HUANG Gao, LIU Shichen, MAATEN L V D, et al. CondenseNet: an efficient DenseNet using learned group convolutions[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2018: 2752−2761. [22] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2014-09-04) [2021-11-30].https://arxiv. org/abs/1409.1556v3. [23] IOFFE Sergey, SZEGEDY Christian. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]//2015 International Conference [24] 第 17 卷 智 能 系 统 学 报 ·86·
·87· 骆彦龙,等:基于改进残差学习的东巴象形文字识别 第1期 on Machine Learning.New York,USA:ACM,2015: 毕晓君,教授,博士生导师,主要 研究方向为智能信息处理技术、数字 448-456. 图像处理、机器学习。主持国家重点 [25]VINOD Nair,GEOFFREY E Hinton.Rectified Linear 研发计划项目、国家社科基金重大项 Units Improve Restricted Boltzmann Machines[Cl//2010 目等国家级、省部级项目6项。获得 高等学校科学技术进步一等奖1项、 International Conference on Machine Learning.New 省部级科学技术奖7项。发表学术论 York.USA:ACM,2010:807-814. 文170余篇。 作者简介: 吴立成,教授,博士生导师,主要 骆彦龙,博士研究生,主要研究方 研究方向为智能机器人、人工智能。 向为图像识别、深度学习。 主持国家自然科学基金、863项目等 国家级、省部级项目十余项。获教育 部科技进步奖、江苏省科技进步奖各 1项。发表学术论文80余篇。 第五届中国模式识别与计算机视觉大会 The 5th Chinese Conference on Pattern Recognition and Computer Vision 第五届中国模式识别与计算机视觉大会(The5 th Chinese Conference on Pattern Recognition and Computer Vision,PRCV2022)将于2022年10月14日至10月17日在深圳举办。PRCV2022由中国人工智能学会 (CAAI)、中国计算机学会(CCF)、中国自动化学会(CAA)和中国图象图形学学会(CSIG)联合主办;由南方科 技大学和深圳职业技术学院共同承办;并由香港浸会大学、香港中文大学(深圳)、哈尔滨工业大学(深圳)、 中国科学院深圳先进技术研究院和中山大学联合承办,是国内顶级的模式识别和计算机视觉领域学术盛会。 本届会议旨在汇聚国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行, 共同分享我国模式识别与计算机视觉领域的最新理论和技术成果。现向广大科技工作者公开征集高质量 原创性的优秀英文学术论文。录用的论文将在大会上展示,会议论文集将由Springer出版社出版,并被 EI和ISTP检索。 征稿范围(包括但不限于): 模式分类与聚类分析:结构模式识别:机器学习:神经网络与深度学习:特征提取与特征选择;计算机视 觉基础理论;底层视觉理解、图像处理;三维视觉与重构;计算摄像学、传感与显示技术;文档分析与识别; 字符识别;人脸识别与姿态识别;性能评测和基准数据库;目标检测、跟踪与识别;行为识别;多媒体分析与 推理:医学图像处理与分析:生物特征识别:遥感影像解译:优化及学习方法:多模态信息处理:视频分析与 理解:视觉应用与系统:机器人、自动驾驶中的视觉问题。 重要日期: 投稿截止日期:2022年4月15日 录用通知日期:2022年6月15日 终稿截止日期:2022年7月5日 联系咨询:prcv2022@163.com
on Machine Learning. New York, USA: ACM, 2015: 448−456. VINOD Nair, GEOFFREY E Hinton. Rectified Linear Units Improve Restricted Boltzmann Machines[C]//2010 International Conference on Machine Learning. New York, USA: ACM, 2010: 807−814. [25] 作者简介: 骆彦龙,博士研究生,主要研究方 向为图像识别、深度学习。 毕晓君, 教授,博士生导师,主要 研究方向为智能信息处理技术、数字 图像处理、机器学习。主持国家重点 研发计划项目、国家社科基金重大项 目等国家级、省部级项目 6 项。获得 高等学校科学技术进步一等奖 1 项、 省部级科学技术奖 7 项。发表学术论 文 170 余篇。 吴立成,教授,博士生导师,主要 研究方向为智能机器人、人工智能。 主持国家自然科学基金、863 项目等 国家级、省部级项目十余项。获教育 部科技进步奖、江苏省科技进步奖各 1 项。发表学术论文 80 余篇。 第五届中国模式识别与计算机视觉大会 The 5th Chinese Conference on Pattern Recognition and Computer Vision 第五届中国模式识别与计算机视觉大会 (The 5th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2022) 将于 2022 年 10 月 14 日至 10 月 17 日在深圳举办。PRCV 2022 由中国人工智能学会 (CAAI)、中国计算机学会 (CCF)、中国自动化学会 (CAA) 和中国图象图形学学会 (CSIG) 联合主办;由南方科 技大学和深圳职业技术学院共同承办;并由香港浸会大学、香港中文大学 (深圳)、哈尔滨工业大学 (深圳)、 中国科学院深圳先进技术研究院和中山大学联合承办,是国内顶级的模式识别和计算机视觉领域学术盛会。 本届会议旨在汇聚国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行, 共同分享我国模式识别与计算机视觉领域的最新理论和技术成果。现向广大科技工作者公开征集高质量、 原创性的优秀英文学术论文。录用的论文将在大会上展示,会议论文集将由 Springer 出版社出版,并被 EI 和 ISTP 检索。 征稿范围 (包括但不限于): 模式分类与聚类分析;结构模式识别;机器学习;神经网络与深度学习;特征提取与特征选择;计算机视 觉基础理论;底层视觉理解、图像处理;三维视觉与重构;计算摄像学、传感与显示技术;文档分析与识别; 字符识别;人脸识别与姿态识别;性能评测和基准数据库;目标检测、跟踪与识别;行为识别;多媒体分析与 推理;医学图像处理与分析;生物特征识别;遥感影像解译;优化及学习方法;多模态信息处理;视频分析与 理解;视觉应用与系统;机器人、自动驾驶中的视觉问题。 重要日期: 投稿截止日期:2022 年 4 月 15 日 录用通知日期:2022 年 6 月 15 日 终稿截止日期:2022 年 7 月 5 日 联系咨询:prcv2022@163.com ·87· 骆彦龙,等:基于改进残差学习的东巴象形文字识别 第 1 期