第14卷第1期 智能系统学报 Vol.14 No.1 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201805002 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20180928.1338.002.html 基于卷积神经网络的盲文音乐识别研究 刘彪2,黄蓉蓉,林和,苏伟 (1.兰州大学信息科学与工程学院,甘肃兰州730000:2.解放军69230部队,新疆乌苏833000) 摘要:盲人音乐家在交流创作的音乐作品时面临着人工转换和效率较低的问题,信息科学与技术的迅速发展 为解决此类问题提供了许多解决方案。虽然目前有许多盲文音乐作品的识别方案,但其存在识别效率低和兼 容能力不足等缺点。为了避免传统方案在盲文音乐图片特征提取时过多依赖人工经验,通过研究提出并设计 了基于卷积神经网络的识别模型。在对盲文音乐图片的样例数据进行预处理之后,通过多次反复迭代训练,模 型就可学习到盲文音乐图片中音乐符号的特征。实验结果表明,该模型的识别有效性和较强的泛化能力为盲 文音乐作品的识别提供了一种新的解决方案。 关键词:机器学习;盲文音乐识别;卷积神经网络;深度学习;计算机视觉;图像识别;人工智能:图像处理 中图分类号:TP39 文献标志码:A 文章编号:1673-4785(2019)01-0186-08 中文引用格式:刘彪,黄蓉蓉,林和,等.基于卷积神经网络的盲文音乐识别研究.智能系统学报,2019,14(1):186-193. 英文引用格式:LIU Biao,HUANG Rongrong,LNHe,etal.Research on braille music recognition based on convolutional neural networksJ.CAAI transactions on intelligent systems,2019,14(1):186-193. Research on braille music recognition based on convolutional neural networks LIU Biao,HUANG Rongrong',LIN He',SU Wei' (1.School of Information Science and Engineering,Lanzhou University,Lanzhou 730000,China;2.No.69230 Troops of PLA,Wusu 833000.China) Abstract:Blind musicians are confronted with the problems of manual conversion and low efficiency in the communic- ation of musical works.The rapid development of information science and technology has provided many solutions to these problems.However,most of the recognition schemes for braille music works lack recognition efficiency and com- patibility.In consideration of this deficiency,whereby traditional schemes rely heavily on artificial experience in braille music picture extraction,a convolution neural network-based recognition model has been developed.After prepro- cessing the sample data of braille music pictures through repeated iterative training,the recognition model was able learn the characteristics of music notation in braille music pictures.The experimental results showed the recognition ef- fectiveness and strong generalization ability of the model,which provides a new idea for the recognition of braille mu- sic works. Keywords:machine learning;braille music recognition;convolution neural network;deep learning;computer vision; image recognition;artificial intelligence;,image processing 我国的盲人数量约为752万人,是全球盲人 要方式,但用其创作的音乐作品仍然需要人工的 数量最多的国家山。随着从事音乐工作的盲人越 转换和翻译,所以急需一种自动盲文音乐识别方 来越多,盲文成为盲人与常人进行书面交流的主 案。文献[2]最早使用硬件设备采集普通盲文内 容的图片,虽然可通过光学识别出相应内容,但 收稿日期:2018-05-04.网络出版日期:2018-09-30. 基金项目:广西科技计划项目(桂科AA17204096.桂科AD16380076). 是缺乏与用户的交互性。文献[3]设计了一个单 通信作者:林和.E-mail:linhe@lzu.edu.cn. 面盲文图片的智能识别系统,包括图像采集、噪
DOI: 10.11992/tis.201805002 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20180928.1338.002.html 基于卷积神经网络的盲文音乐识别研究 刘彪1,2,黄蓉蓉1,林和1,苏伟1 (1. 兰州大学 信息科学与工程学院,甘肃 兰州 730000; 2. 解放军 69230 部队,新疆 乌苏 833000) 摘 要:盲人音乐家在交流创作的音乐作品时面临着人工转换和效率较低的问题,信息科学与技术的迅速发展 为解决此类问题提供了许多解决方案。虽然目前有许多盲文音乐作品的识别方案,但其存在识别效率低和兼 容能力不足等缺点。为了避免传统方案在盲文音乐图片特征提取时过多依赖人工经验,通过研究提出并设计 了基于卷积神经网络的识别模型。在对盲文音乐图片的样例数据进行预处理之后,通过多次反复迭代训练,模 型就可学习到盲文音乐图片中音乐符号的特征。实验结果表明,该模型的识别有效性和较强的泛化能力为盲 文音乐作品的识别提供了一种新的解决方案。 关键词:机器学习;盲文音乐识别;卷积神经网络;深度学习;计算机视觉;图像识别;人工智能;图像处理 中图分类号:TP39 文献标志码:A 文章编号:1673−4785(2019)01−0186−08 中文引用格式:刘彪, 黄蓉蓉, 林和, 等. 基于卷积神经网络的盲文音乐识别研究 [J]. 智能系统学报, 2019, 14(1): 186–193. 英文引用格式:LIU Biao, HUANG Rongrong, LIN He, et al. Research on braille music recognition based on convolutional neural networks[J]. CAAI transactions on intelligent systems, 2019, 14(1): 186–193. Research on braille music recognition based on convolutional neural networks LIU Biao1,2 ,HUANG Rongrong1 ,LIN He1 ,SU Wei1 (1. School of Information Science and Engineering, Lanzhou University, Lanzhou 730000, China; 2. No.69230 Troops of PLA, Wusu 833000, China) Abstract: Blind musicians are confronted with the problems of manual conversion and low efficiency in the communication of musical works. The rapid development of information science and technology has provided many solutions to these problems. However, most of the recognition schemes for braille music works lack recognition efficiency and compatibility. In consideration of this deficiency, whereby traditional schemes rely heavily on artificial experience in braille music picture extraction, a convolution neural network-based recognition model has been developed. After preprocessing the sample data of braille music pictures through repeated iterative training, the recognition model was able learn the characteristics of music notation in braille music pictures. The experimental results showed the recognition effectiveness and strong generalization ability of the model, which provides a new idea for the recognition of braille music works. Keywords: machine learning; braille music recognition; convolution neural network; deep learning; computer vision; image recognition; artificial intelligence; image processing 我国的盲人数量约为 752 万人,是全球盲人 数量最多的国家[1]。随着从事音乐工作的盲人越 来越多,盲文成为盲人与常人进行书面交流的主 要方式,但用其创作的音乐作品仍然需要人工的 转换和翻译,所以急需一种自动盲文音乐识别方 案。文献 [2] 最早使用硬件设备采集普通盲文内 容的图片,虽然可通过光学识别出相应内容,但 是缺乏与用户的交互性。文献 [3] 设计了一个单 面盲文图片的智能识别系统,包括图像采集、噪 收稿日期:2018−05−04. 网络出版日期:2018−09−30. 基金项目:广西科技计划项目 (桂科 AA17204096,桂科 AD16380076). 通信作者:林和. E-mail:linhe@lzu.edu.cn. 第 14 卷第 1 期 智 能 系 统 学 报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019
第1期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·187· 声消除、图像分割、特征提取和字符识别等步骤, 1识别模型 其识别率达到94.39%,但使用了固定盲文单元大 小和盲文点的位置来识别盲文符号,其可扩展性 卷积神经网络(convolutional neural network, 极其有限。文献「4]提出了一种用于识别双面盲 CNN因其具有独特的结构1,在进行图像特征 文内容的高效算法,即通过对凸点和凹点的灰度 提取的同时,还能够提取更细节的图像信息。这 值变化来区分正面点和反面点,识别率虽然比较 样不仅解决了多数的传统神经网络中参数较多、 乐观,但其局限性在于当正面点和反面点重叠较 训练缓慢的难题,而且还防止了过拟合的出现。 多时,对每个盲文点的质心检测和识别会出现很 自2016年AlphaGo战胜世界围棋冠军李世石以 多歧义,其识别效果也因此受到较大影响。文 来,卷积神经网络再一次被推向浪潮,尤其是在 献[5-7]采用传统的方法对盲文音乐符号进行识 计算机视觉领域的研究更是大热。卷积神经网络 别,其中文献[7]以MusicXML作为中间桥梁来实 具有了两个很重要的特点: 现盲文的转换,并由此设计了从MusicXML到盲 1)共享权值6”。传统的神经网络中每一层 文乐谱ASCIⅡ码的自动转换软件。文献[8]提出 的权值w仅使用一次,而当下一次使用时便会重 一种基于深度学习模型识别盲文字符的方法,使 新生成不同的权值w。但在卷积网络中,卷积核 用堆叠去噪自动编码器来解决盲文识别过程中特 要与图像中的每个像素值(输入向量)进行卷积 征自动提取与降维等问题,利用SDAE自动学习 运算,所以仅需要一组权值即可。当输入向量与 盲文点字的图片特征,使用Softmax分类器进行 该组权值运算完毕时,则表明该次卷积操作结 盲文识别。文献[9]提出将双面阿姆哈拉盲文图 束。共享权值的设计在前向传播阶段并未缩减消 片翻译为阿姆哈拉文的系统。该系统使用方向场 耗时间,但是却在某种程度上将整个模型所需要 张量从背景中分割盲文点,使用梯度场识别正面 的权重参数的数量大大降低,很大程度上提高了 点和反面点;对于重叠盲文点的分割是该文的核 计算机的运算性能。在进行卷积运算时,卷积核 心内容,使用盲文点的属性(质心和面积)来分割 按照给定的步长s在输入图像上从左到右、从上 重叠点并且提出了相应的正面点和反面点识别算 到下依次进行滑动,直至操作结束。相对于传统 法。文献[10]使用人工神经网络对单面的阿姆哈 的神经网络而言,卷积神经网络的参数数量不仅 拉图片进行识别,采用自适应直方图均衡化和形 降低了,而且其运算速度也在一定程度上提高了。 态学操作相结合来对文件中的不同等级的噪声进 2)稀疏连接。为了挖掘图像空间局部关联 行降噪处理,并在识别阶段采用人工神经网络和 的信息,卷积神经网络采用了通过加强神经网络 二进制编码相结合的形式进行盲文图像识别,识 中相邻层之间节点的局部连接模式,而摒弃了全 别率达到95.5%。文献[11]采用BP神经网络对 连接的方式,即采用核少于输入的方式来完成。 英语盲文数字(0~9)图像进行识别。该文展示了 例如,如果有m个输入n个输出,传统的神经网 BP神经网络的参数设置以及图像的特征提取过 络会把每个输出与每个输入进行矩阵乘法运算, 程,其训练精度达到97.1%,测试精度达到85%。 则时间复杂度为Om×n),而卷积神经网络只提取 文献[12]在FCM和KNN的启发下,提出了一个 其中有意义的k个输入,其时间复杂度为Ok×), 模糊的聚类算法和一种新的数字特征检测算法, 因为在实际应用中,k一般远小于m,并更有实际 称之为斑点检测算法,即在4个扫描方向上扫描 意义,这一方面降低了时间复杂度,也提升了存 1个盲文单元,从而生成1个八进制编码。然后 储的效率。 模糊分类算法根据生成的八进制编码来识别相应 2盲文音乐识别方法 的盲文字符,识别精度达到83%。上述这些研究 存在识别过程较烦琐、识别度较低、泛化能力较 在传统的盲文音乐识别方法中,人工介入的 差等问题。 工作量较大。尽管目前部分传统模型提出的算法 为了使研究具有较强泛化能力和较高识别 在一定程度上能够实现对盲文图像的特征提取 度,同时简化其识别过程,本文从盲文音乐图片 但是对于以点状为基本组成且难以分辨的盲文音 的结构出发,应用卷积神经网络的识别模型,并 乐图片而言,其识别的效果并不理想,这归咎于 在Tensorflow深度学习框架下进行实验。实验表 其弱学习能力和弱适应性。而相比之下,近年来 明,采用卷积神经网络模型来识别盲文音乐图片 发展迅速的CNN的效果却较为乐观90,表现出 具有较为乐观的结果。 较高的识别精准率和较强的泛化能力
声消除、图像分割、特征提取和字符识别等步骤, 其识别率达到 94.39%,但使用了固定盲文单元大 小和盲文点的位置来识别盲文符号,其可扩展性 极其有限。文献 [4] 提出了一种用于识别双面盲 文内容的高效算法,即通过对凸点和凹点的灰度 值变化来区分正面点和反面点,识别率虽然比较 乐观,但其局限性在于当正面点和反面点重叠较 多时,对每个盲文点的质心检测和识别会出现很 多歧义,其识别效果也因此受到较大影响。文 献 [5-7] 采用传统的方法对盲文音乐符号进行识 别,其中文献 [7] 以 MusicXML 作为中间桥梁来实 现盲文的转换,并由此设计了从 MusicXML 到盲 文乐谱 ASCII 码的自动转换软件。文献 [8] 提出 一种基于深度学习模型识别盲文字符的方法,使 用堆叠去噪自动编码器来解决盲文识别过程中特 征自动提取与降维等问题,利用 SDAE 自动学习 盲文点字的图片特征,使用 Softmax 分类器进行 盲文识别。文献 [9] 提出将双面阿姆哈拉盲文图 片翻译为阿姆哈拉文的系统。该系统使用方向场 张量从背景中分割盲文点,使用梯度场识别正面 点和反面点;对于重叠盲文点的分割是该文的核 心内容,使用盲文点的属性 (质心和面积) 来分割 重叠点并且提出了相应的正面点和反面点识别算 法。文献 [10] 使用人工神经网络对单面的阿姆哈 拉图片进行识别,采用自适应直方图均衡化和形 态学操作相结合来对文件中的不同等级的噪声进 行降噪处理,并在识别阶段采用人工神经网络和 二进制编码相结合的形式进行盲文图像识别,识 别率达到 95.5%。文献 [11] 采用 BP 神经网络对 英语盲文数字 (0~9) 图像进行识别。该文展示了 BP 神经网络的参数设置以及图像的特征提取过 程,其训练精度达到 97.1%,测试精度达到 85%。 文献 [12] 在 FCM 和 KNN 的启发下,提出了一个 模糊的聚类算法和一种新的数字特征检测算法, 称之为斑点检测算法,即在 4 个扫描方向上扫描 1 个盲文单元,从而生成 1 个八进制编码。然后 模糊分类算法根据生成的八进制编码来识别相应 的盲文字符,识别精度达到 83%。上述这些研究 存在识别过程较烦琐、识别度较低、泛化能力较 差等问题。 为了使研究具有较强泛化能力和较高识别 度,同时简化其识别过程,本文从盲文音乐图片 的结构出发,应用卷积神经网络的识别模型,并 在 Tensorflow 深度学习框架下进行实验。实验表 明,采用卷积神经网络模型来识别盲文音乐图片 具有较为乐观的结果。 1 识别模型 卷积神经网络 (convolutional neural network, CNN) 因其具有独特的结构[13-15] ,在进行图像特征 提取的同时,还能够提取更细节的图像信息。这 样不仅解决了多数的传统神经网络中参数较多、 训练缓慢的难题,而且还防止了过拟合的出现。 自 2016 年 AlphaGo 战胜世界围棋冠军李世石以 来,卷积神经网络再一次被推向浪潮,尤其是在 计算机视觉领域的研究更是大热。卷积神经网络 具有了两个很重要的特点: 1) 共享权值[16-17]。传统的神经网络中每一层 的权值 w 仅使用一次 ,而当下一次使用时便会重 新生成不同的权值 w。但在卷积网络中,卷积核 要与图像中的每个像素值 (输入向量) 进行卷积 运算,所以仅需要一组权值即可。当输入向量与 该组权值运算完毕时,则表明该次卷积操作结 束。共享权值的设计在前向传播阶段并未缩减消 耗时间,但是却在某种程度上将整个模型所需要 的权重参数的数量大大降低,很大程度上提高了 计算机的运算性能。在进行卷积运算时,卷积核 按照给定的步长 s 在输入图像上从左到右、从上 到下依次进行滑动,直至操作结束。相对于传统 的神经网络而言,卷积神经网络的参数数量不仅 降低了,而且其运算速度也在一定程度上提高了。 O(m×n) O(k×n) 2) 稀疏连接[18]。为了挖掘图像空间局部关联 的信息,卷积神经网络采用了通过加强神经网络 中相邻层之间节点的局部连接模式,而摒弃了全 连接的方式,即采用核少于输入的方式来完成。 例如,如果有 m 个输入 n 个输出,传统的神经网 络会把每个输出与每个输入进行矩阵乘法运算, 则时间复杂度为 ,而卷积神经网络只提取 其中有意义的 k 个输入,其时间复杂度为 , 因为在实际应用中,k 一般远小于 m,并更有实际 意义,这一方面降低了时间复杂度,也提升了存 储的效率。 2 盲文音乐识别方法 在传统的盲文音乐识别方法中,人工介入的 工作量较大。尽管目前部分传统模型提出的算法 在一定程度上能够实现对盲文图像的特征提取, 但是对于以点状为基本组成且难以分辨的盲文音 乐图片而言,其识别的效果并不理想,这归咎于 其弱学习能力和弱适应性。而相比之下,近年来 发展迅速的 CNN 的效果却较为乐观[19-20] ,表现出 较高的识别精准率和较强的泛化能力。 第 1 期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·187·
·188· 智能系统学报 第14卷 2.1图像预处理 2)C,层。主要作用是首次进行提取图像的特 盲文音乐图片的分辨率因受多种因素的影响 征参数,它会过滤掉多余的特征。C,层与输人层 而不尽相同,为了达到良好的识别效果,还需要 传入的数据进行模板匹配运算,从而得到了给定 进行一定的图像处理过程。本文在对盲文音乐图 数量的输出特征四。卷积核的作用并不是单纯地 像识别前,先对图像进行了预处理操作,包括降 计算卷积操作后的结果,而是在给定的权重矩阵 噪处理、倾斜校正、形态学处理、水平/垂直投影 下对输入的图像数据进行匹配运算操作。若卷积 分割、点位标记、盲文单元切割等,其预处理前后 核尺寸过大,网络参数会增多,网络速度会降低, 的对比效果如图1所示。 过小则会影响特征提取的精度,所以卷积核的大 小选择尤为关键。在此次卷积神经网络的识别模 型中,每个卷积层均采用大小为3×3的卷积核,可 ξ· 以降低该模型的参数数量。给定输入层的维度 为32×64,C,层的卷积核大小设置为3×3,并设置 32个卷积核,步长为1。图4为卷积神经网络的 卷积操作过程。 班 特图征32 ▣ (a)处理前 (b)处理后 图1盲文音乐图片倾斜校正 Fig.1 Braille music image before tilt correction process 2.2模型的构建 图2为盲文音乐图像识别的卷积神经网络模 型结构。该识别模型有1个输入层,3个卷积层 (C、C、C),2个池化层(S2,S),2个全连接层以 及1个输出层2。卷积层的作用是:对盲文音乐 图像进行特征提取,进而确定其周围特征参数的 位置关系,实验采用多层卷积层,以便可以获得 特图征1 更深层次的特征图。池化层是特征映射层,其主 图4卷积操作示意图 要作用是:对输入的特征图进行压缩,简化网络 Fig.4 Convolution operation diagram 计算复杂度,提取主要特征。输出层即展示盲文 通过该卷积操作就可获得大小为30×62的特 音乐图像的分类结果。 征图。为了保证卷积前后的图像大小保持一致 在这里采用“same”卷积方式,从而保证卷积后得 角出层 到特征图的大小仍为32×64。为了保证不丢失图 像的边缘信息,在后面的卷积层(C、C)都采用 该操作。 由于每个滤波器会得到一个特征图,经过 全连接层 输入层 S C C,层的卷积操作,如图5所示,图2中的盲文音 乐图像可得到32个不同的特征图。某些特征图 图2识别模型结构图 中的盲文点边界比较清晰,例如第1行第7个特 Fig.2 Identification model structure 征图,这说明该卷积层提取到了图像中盲文音乐 1)输入层。将预处理后的图像作为该模型的 符号的主干信息。其次也可以看出每个特征图的 输入。图3为训练集中的多个样例图片,每个图 具体状态迥异,这是因为每个卷积核的权值信息 像的大小为32×64,即该识别模型的输入维度为 不同,因而学习到的特征不同。 2048. 3)S2层。该池化层的主要作用是对特征的具 ●●●●●◆● 体位置进行淡化。当提取某个特征之后,只需了 ●● 身色● ● ●。●●0●●9●●电 解该特征与其他特征的相对位置,例如图3中的 图3训练集中的样例图片 盲文音乐字符,当得到上层的特征之后,就不用 Fig.3 Sample images in the training set 再考虑其字符的具体位置,只要得到下面对应的
2.1 图像预处理 盲文音乐图片的分辨率因受多种因素的影响 而不尽相同,为了达到良好的识别效果,还需要 进行一定的图像处理过程。本文在对盲文音乐图 像识别前,先对图像进行了预处理操作,包括降 噪处理、倾斜校正、形态学处理、水平/垂直投影 分割、点位标记、盲文单元切割等,其预处理前后 的对比效果如图 1 所示。 ⠇⠁⠝ ⠵⠓⠕ ⠥⠀⠥⠝ ⠊⠧⠑ ⠗⠎⠊ ⠞⠽⠀⠇ ⠊⠥⠃ ⠊⠁⠕⠀ (a) 处理前 (b) 处理后 图 1 盲文音乐图片倾斜校正 Fig. 1 Braille music image before tilt correction process 2.2 模型的构建 图 2 为盲文音乐图像识别的卷积神经网络模 型结构。该识别模型有 1 个输入层,3 个卷积层 (C1、C3、C5 ),2 个池化层 (S2,S4 ),2 个全连接层以 及 1 个输出层[21]。卷积层的作用是:对盲文音乐 图像进行特征提取,进而确定其周围特征参数的 位置关系,实验采用多层卷积层,以便可以获得 更深层次的特征图。池化层是特征映射层,其主 要作用是:对输入的特征图进行压缩,简化网络 计算复杂度,提取主要特征。输出层即展示盲文 音乐图像的分类结果。 S 输入层 C1 4 S2 C3 输出层 C5 全连接层 图 2 识别模型结构图 Fig. 2 Identification model structure 1) 输入层。将预处理后的图像作为该模型的 输入。图 3 为训练集中的多个样例图片,每个图 像的大小为 32×64,即该识别模型的输入维度为 2 048。 图 3 训练集中的样例图片 Fig. 3 Sample images in the training set 2)C1 层。主要作用是首次进行提取图像的特 征参数,它会过滤掉多余的特征。C1 层与输入层 传入的数据进行模板匹配运算,从而得到了给定 数量的输出特征[22]。卷积核的作用并不是单纯地 计算卷积操作后的结果,而是在给定的权重矩阵 下对输入的图像数据进行匹配运算操作。若卷积 核尺寸过大,网络参数会增多,网络速度会降低, 过小则会影响特征提取的精度,所以卷积核的大 小选择尤为关键。在此次卷积神经网络的识别模 型中,每个卷积层均采用大小为 3×3 的卷积核,可 以降低该模型的参数数量。给定输入层的维度 为 32×64,C1 层的卷积核大小设置为 3×3,并设置 32 个卷积核,步长为 1。图 4 为卷积神经网络的 卷积操作过程。 特图征 32 特图征 1 图 4 卷积操作示意图 Fig. 4 Convolution operation diagram 通过该卷积操作就可获得大小为 30×62 的特 征图。为了保证卷积前后的图像大小保持一致, 在这里采用“same”卷积方式,从而保证卷积后得 到特征图的大小仍为 32×64。为了保证不丢失图 像的边缘信息,在后面的卷积层 (C3、C5 ) 都采用 该操作。 由于每个滤波器会得到一个特征图,经过 C1 层的卷积操作,如图 5 所示,图 2 中的盲文音 乐图像可得到 32 个不同的特征图。某些特征图 中的盲文点边界比较清晰,例如第 1 行第 7 个特 征图,这说明该卷积层提取到了图像中盲文音乐 符号的主干信息。其次也可以看出每个特征图的 具体状态迥异,这是因为每个卷积核的权值信息 不同,因而学习到的特征不同。 3)S2 层。该池化层的主要作用是对特征的具 体位置进行淡化。当提取某个特征之后,只需了 解该特征与其他特征的相对位置,例如图 3 中的 盲文音乐字符,当得到上层的特征之后,就不用 再考虑其字符的具体位置,只要得到下面对应的 ·188· 智 能 系 统 学 报 第 14 卷
第1期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·189· 特征,并将上下二者有效地组合在一起便是要识 4)C:层。C层的卷积操作建立在S,层的基 别的盲文音乐字符。 础上,其卷积操作与C,层类似。主要是对S2层 的输出进行再卷积操作,进行特征再提取。在 C3层中,将卷积核的数目设置为64,即可得出 64个大小为14×30且图像内容各不相同的特征 图。在该层使用“same”卷积操作后,最后得到特 征图的尺寸大小为16×32。值得注意的是,输入 与输出的特征图虽然在尺寸上大小相同,但是最 终得到的特征图数目却不一样,其中32个S,层 图5C,卷积后的特征图 的特征图作为C;层的输入,最终得出了如图8所 Fig.5 The feature map after C convolution 示的64个C3层的结果特征图。在图8中可以发 在卷积神经网络中,特征所对应的具体位置 现,其盲文点的边缘信息越来越突出。 将不再重要。对C,层卷积后的结果进行池化操 作,即得到32个大小为16×32的结果,输出的维 国 图 图 E 度相比该层输入的维度缩减了一半。该层是通过 ■ 池化操作实现二次特征提取的,有效地减少了输 国 入数据的参数数量,降低了图像的大小,简化了 网络计算的复杂度。同时,它还可减弱卷积层的 ■ 8 图 输出在角度变形或拉伸变化方面的敏感程度,进 目 图 ■ ■ 行主要特征提取。 E 如图6为整个池化操作过程,该操作是利用 国 医 国 墨 池化参数来进行最大下采样操作,池化层中的步 ■ 长s设置为1,其权值矩阵设置为2×2。在C,层 图 图 题 图 的输出特征图中,对每个特征图中进行下采样操 图8C:层卷积操作后的特征图 作,根据图6所示此规则输出S2层的输出结果, Fig.8 The feature map after C:convolution operation 但是尺寸大小缩小为原来的一半2。 图9所展示的是S2层与C3层之间的关联和 映射,从图中可以看出这些连接并不是一一对应 的关系。卷积神经网络这样设计的优点是:消除 了网络的对称性,从而让映射的数量保持在一定 的范围之内;增加了特征映射的多样性,从而实 现了不同特征的有效提取和传递。 图6下采样操作 Fig.6 Down sampling operation S2层的下采样操作后得到如图7所示的 32个尺寸大小为16×32的特征图。从图7中可以 看出,除了图像的尺寸大小发生了变化之外,还 忽略了部分盲文音乐符号的细节信息。 S,层 C,层 图9S2层和C,层的连接图 Fig.9 Connection diagram of S2 and C3 5)S4层。该层是识别模型最后一个池化层· S,层是对C,层的输出结果进行池化操作,其操作 与S,层的操作类似。通过S4层的下采样操作得 到如图10所示的64个大小为8×16的特征图。 图7S,池化操作后的特征图 6)C层。C层是识别模型的最后一个卷积操 Fig.7 The feature map after S2 pooling 作,作用是进一步提取图像特征。该操作与之前
特征,并将上下二者有效地组合在一起便是要识 别的盲文音乐字符。 图 5 C1 卷积后的特征图 Fig. 5 The feature map after C1 convolution 在卷积神经网络中,特征所对应的具体位置 将不再重要。对 C1 层卷积后的结果进行池化操 作,即得到 32 个大小为 16×32 的结果,输出的维 度相比该层输入的维度缩减了一半。该层是通过 池化操作实现二次特征提取的,有效地减少了输 入数据的参数数量,降低了图像的大小,简化了 网络计算的复杂度。同时,它还可减弱卷积层的 输出在角度变形或拉伸变化方面的敏感程度,进 行主要特征提取。 如图 6 为整个池化操作过程,该操作是利用 池化参数来进行最大下采样操作,池化层中的步 长 s 设置为 1,其权值矩阵设置为 2×2。在 C1 层 的输出特征图中,对每个特征图中进行下采样操 作,根据图 6 所示此规则输出 S2 层的输出结果, 但是尺寸大小缩小为原来的一半[22]。 1 5 6 2 7 3 1 8 6 9 4 3 7 8 7 8 5 6 9 6 图 6 下采样操作 Fig. 6 Down sampling operation S 2 层的下采样操作后得到如 图 7 所 示 的 32 个尺寸大小为 16×32 的特征图。从图 7 中可以 看出,除了图像的尺寸大小发生了变化之外,还 忽略了部分盲文音乐符号的细节信息。 图 7 S2 池化操作后的特征图 Fig. 7 The feature map after S2 pooling 4)C3 层。C3 层的卷积操作建立在 S2 层的基 础上,其卷积操作与 C1 层类似。主要是对 S2 层 的输出进行再卷积操作,进行特征再提取。在 C3 层中,将卷积核的数目设置为 64,即可得出 64 个大小为 14×30 且图像内容各不相同的特征 图。在该层使用“same”卷积操作后,最后得到特 征图的尺寸大小为 16×32。值得注意的是,输入 与输出的特征图虽然在尺寸上大小相同,但是最 终得到的特征图数目却不一样,其中 32 个 S2 层 的特征图作为 C3 层的输入,最终得出了如图 8 所 示的 64 个 C3 层的结果特征图。在图 8 中可以发 现,其盲文点的边缘信息越来越突出。 图 8 C3 层卷积操作后的特征图 Fig. 8 The feature map after C3 convolution operation 图 9 所展示的是 S2 层与 C3 层之间的关联和 映射,从图中可以看出这些连接并不是一一对应 的关系。卷积神经网络这样设计的优点是:消除 了网络的对称性,从而让映射的数量保持在一定 的范围之内;增加了特征映射的多样性,从而实 现了不同特征的有效提取和传递。 S2 层 C3 层 图 9 S2 层和 C3 层的连接图 Fig. 9 Connection diagram of S2 and C3 5)S4 层。该层是识别模型最后一个池化层, S4 层是对 C3 层的输出结果进行池化操作,其操作 与 S2 层的操作类似。通过 S4 层的下采样操作得 到如图 10 所示的 64 个大小为 8×16 的特征图。 6)C5 层。C5 层是识别模型的最后一个卷积操 作,作用是进一步提取图像特征。该操作与之前 第 1 期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·189·
·190· 智能系统学报 第14卷 的卷积操作类似,但是此处将卷积核的个数设置 获得较高质量的盲文图片,组成较好的数据集。 为128。因此得到128个大小为8×16的特征图, 另外,受限于版权,实验采集到的前2种盲文音乐 如图11所示。 图片数量极其有限,主要是采用第3种盲文音乐 图片作为训练集,后期的研究可以在取得相应许 图 唇 國 国 图 图 可后进行大规模数据的采集,以便于模型本身能 目 目 图 是 图 够有更好的兼容性。 图 图 ■ 3 E 图 本文采集的6400张经过预处理后的盲文音 国 型 ■ 图 显 图 乐符号图片(10个盲文数字、28种常用符号和 图 0 日 图 图 26个英文大写字母)中,总共有64个盲文音乐符 号,每个符号对应100张图片。对于每个盲文音 图 图 乐符号,实验随机选择其中的80张作为训练集, 国 图 透 日 剩余的20张作为测试集。其主要的划分情况如 罗 目 ■ 表1所示。 图10S,层操作后的特征图 表1训练集和测试集 Fig.10 The feature map after S pool Table 1 Training sets and test sets 序号 盲文符号 训练集张 测试集/张 1 数字09 800 200 2 常用符号 2240 560 3 英文字母 2080 520 现实中电子版的盲文字符表现形式有多种,主要 ■图E 形式如图12所示,该图展示了测试集中的样例图片。 。∷…∷。∷。。°。°∷ ::::识沿日 图11C层卷积后的特征图 Fig.11 The feature map after Cs convolution 。: 7)输出层。为了确保输出层的分类数量与实 图12测试集中的样例图片 际的64个盲文符号数相一致,实验的模型在最后 Fig.12 Sample images in the test sets 采用了两个全连接层使得卷积层C,能够和输出 分类关联上,即输出层有64个神经元数量。在输 4算法的设计 出结果时,本文使用softmax函数对盲文音乐符 结合构建的基于卷积神经网络的盲文音乐识 号进行分类,用dropout函数来防止过拟合现象。 别模型,本节编写出相应的盲文音乐图像训练算 3图像数据集 法以及测试算法,对应的伪码描述分别如算法 1和算法2所示。 为了增强此次盲文所训练的基于卷积神经网 算法1CNN盲文识别模型训练算法 络识别模型的泛化能力,前期需要大量具有代表 输入TRAIN IMAGES是训练集,EPOCH 性的训练样本,供其学习并获得可观的模型。然 是迭代次数,BATCH SIZE是迭代量,TRAIN ERROR 而,由于盲文本身的局限性图像化的数据集更是 是错误率; 相对匮乏,目前公认的数据集主要来源于:)线 下纸质的扫描文件,主要通过现有的OC技术对 输出y是分类结果。 图像中的盲文字符进行提取,但这种提取质量很 1)random(w); 大程度上受限于扫描文件本身的质量(分辨率)、 2)random(b); OCR技术的缺陷(光线敏感)、纸质盲文的规整 3)for i=1 in EPOCH: 性;2)线上互联网共享的盲文图片,图片的分辨 4)x=BATCH SIZE: 率、位深等属性较为可观,通常可以取得较好的 5)y_true=batchy;x中每个元素对应的正确 识别效果:3)电子版音乐文件,可以通过预处理 值y_true;
的卷积操作类似,但是此处将卷积核的个数设置 为 128。因此得到 128 个大小为 8×16 的特征图, 如图 11 所示。 图 10 S4 层操作后的特征图 Fig. 10 The feature map after S4 pool 图 11 C5 层卷积后的特征图 Fig. 11 The feature map after C5 convolution 7) 输出层。为了确保输出层的分类数量与实 际的 64 个盲文符号数相一致,实验的模型在最后 采用了两个全连接层使得卷积层 C5 能够和输出 分类关联上,即输出层有 64 个神经元数量。在输 出结果时,本文使用 softmax 函数对盲文音乐符 号进行分类,用 dropout 函数来防止过拟合现象。 3 图像数据集 为了增强此次盲文所训练的基于卷积神经网 络识别模型的泛化能力,前期需要大量具有代表 性的训练样本,供其学习并获得可观的模型。然 而,由于盲文本身的局限性图像化的数据集更是 相对匮乏,目前公认的数据集主要来源于:1) 线 下纸质的扫描文件,主要通过现有的 OCR 技术对 图像中的盲文字符进行提取,但这种提取质量很 大程度上受限于扫描文件本身的质量 (分辨率)、 OCR 技术的缺陷 (光线敏感)、纸质盲文的规整 性;2) 线上互联网共享的盲文图片,图片的分辨 率、位深等属性较为可观,通常可以取得较好的 识别效果;3) 电子版音乐文件,可以通过预处理 获得较高质量的盲文图片,组成较好的数据集。 另外,受限于版权,实验采集到的前 2 种盲文音乐 图片数量极其有限,主要是采用第 3 种盲文音乐 图片作为训练集,后期的研究可以在取得相应许 可后进行大规模数据的采集,以便于模型本身能 够有更好的兼容性。 本文采集的 6 400 张经过预处理后的盲文音 乐符号图片 (10 个盲文数字、28 种常用符号和 26 个英文大写字母) 中,总共有 64 个盲文音乐符 号,每个符号对应 100 张图片。对于每个盲文音 乐符号,实验随机选择其中的 80 张作为训练集, 剩余的 20 张作为测试集。其主要的划分情况如 表 1 所示。 表 1 训练集和测试集 Table 1 Training sets and test sets 序号 盲文符号 训练集/张 测试集/张 1 数字0~9 800 200 2 常用符号 2 240 560 3 英文字母 2 080 520 现实中电子版的盲文字符表现形式有多种,主要 形式如图 12 所示,该图展示了测试集中的样例图片。 图 12 测试集中的样例图片 Fig. 12 Sample images in the test sets 4 算法的设计 结合构建的基于卷积神经网络的盲文音乐识 别模型,本节编写出相应的盲文音乐图像训练算 法以及测试算法,对应的伪码描述分别如算法 1 和算法 2 所示。 算法 1 CNN 盲文识别模型训练算法 输入 TRAIN_IMAGES 是训练集,EPOCH 是迭代次数,BATCH_SIZE 是迭代量,TRAIN_ERROR 是错误率; 输出 y 是分类结果。 1) random(w); 2) random(b); 3) for i=1 in EPOCH : 4) x = BATCH_SIZE ; 5) y_true = batch_y ;x 中每个元素对应的正确 值 y_true; ·190· 智 能 系 统 学 报 第 14 卷
第1期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·191· 6)y=batchx×w+b;经过模型预测的值; 一。这些都需要在后期的研究中进行改进,从而 7)Error=eror(batch_y,y_true)正确值与预测值 达到更好识别性能。 的错误率: 1.0 8)if Error>TRAIN ERROR 0.9 0 9)update(w);update (b) 0 .6 Continue step 3; 0.5 10)else 0.2 ll)update(w吵;update(b): 0.1 12)end 020406080100120140160180200 迭代次数 13)end 图13正确率与迭代次数关系 14)保存训练后的CNN模型y,其中y=x× Fig.13 The relationship between the correct rate and the 1w+b: number of iterations 15)end 就总体识别效果而言,本文所训练的模型的 算法2CNN盲文识别模型测试算法 识别准确度优于多数流行的方法,其对比图如 输入TEST IMAGES是测试数据集,TEST 表2所示。因为本文的盲文音乐图片是基于单面 SIZE是测试数据量; 形式的盲文图片,所以此处的对比只限于单面盲 输出test_accuracy是正确率。 文图片的识别对比。将CNN模型与近几年来所 1)random(w);random (b); 使用的前馈神经网络O、BP神经网络)、模糊分 2)load训练模型为y: 类算法、标准距离定位法21作对比,由此可见 3)test_x=TEST_SIZE的数据作为输入数据; 本文中盲文音乐图像的识别正确率均高于其他方法。 4)获取测试图片数据text_x与对应的标签值 表2正确率对比 y true; Table 2 Correct rate comparison 5)test_y test_xxw+b; 序号 方法 正确率/% 6)其测试正确率为test accuracy=accuracy 1 前馈神经网络 (test_y,y_true); 95.5 7)output test accuracy 2 BP神经网络 85 3 模糊分类算法 83 5实验结果分析 标准距离定位法 95.9 在该阶段,为了验证实验建立的卷积神经网 CNN识别模型 98.7 络识别模型的有效性,实验中的权重参数的初始 化一律采用随机数。其次,为了使得模型在训练 6 结束语 时不过早地陷入饱和,影响卷积神经网络的学习 本文首次尝试了将卷积神经网络识别模型应 能力,实验采用的随机数会比较小。 用于盲文音乐图片。在识别过程中,首先对盲文 本次实验中的训练和测试都以分批迭代的方 音乐图片进行了预处理操作,以便于获得更好的 式来进行的,分别迭代200次训练,并且每20次 输人图片。其次,本文展示了通过卷积层、池化 输出测试数据的正确率。通过训练和测试,正确 层等处理后的盲文音乐图片的特征图。在展示特 率的变化趋势如图13所示,通过分析可见在迭 征图的同时,对识别模型的细节也进行了说明, 代140次后该模型的正确率走向趋于平稳,并接 例如关键参数的设定。最后,通过对实验结果进 近1。这是因为:盲文音乐符号的结构相对而言 行分析,可以发现该模型可以很好地提取到盲文 较简单(以点状为主要特征),且在训练和测试时 音乐符号的特征,对盲文音乐具有良好的识别效 使用的图片的分辨率较高,即图像的质量较好; 果。当然本文也存在诸多不足之处,例如对数据 其次,识别模型对盲文音乐图片中盲文音乐符号 集的选取较单一,若可以采集到现实生活中纸质 的特征提取较为容易,从而可以快速地进行盲文 的盲文书籍,那么数据集就较为充实,该识别模 音乐符号的识别。本次实验也存在许多不足,例 型就可以广泛用到生活中,可以减少盲文识别对 如:受限于版权,数据集资源过小,来源也较单 人工操作的依赖性
6) y = batch_x×w+b ; 经过模型预测的值; 7) Error = error(batch_y, y_true) 正确值与预测值 的错误率; 8) if Error>TRAIN_ERROR 9) update (w); update (b) Continue step 3; 10) else 11) update (w); update (b); 12) end 13) end 14) 保存训练后的 CNN 模型 y,其中 y=x× w+b; 15) end 算法 2 CNN 盲文识别模型测试算法 输入 TEST_IMAGES 是测试数据集,TEST_ SIZE 是测试数据量; 输出 test_accuracy 是正确率。 1) random (w); random (b); 2) load 训练模型为 y; 3) test_x = TEST_SIZE 的数据作为输入数据; 4) 获取测试图片数据 text_x 与对应的标签值 y_true; 5) test_y = test_x×w+b ; test_accuracy = accuracy (test_y, y_true) 6 ) 其测试正确率为 ; 7) output test accuracy 5 实验结果分析 在该阶段,为了验证实验建立的卷积神经网 络识别模型的有效性,实验中的权重参数的初始 化一律采用随机数。其次,为了使得模型在训练 时不过早地陷入饱和,影响卷积神经网络的学习 能力,实验采用的随机数会比较小。 本次实验中的训练和测试都以分批迭代的方 式来进行的,分别迭代 200 次训练,并且每 20 次 输出测试数据的正确率。通过训练和测试,正确 率的变化趋势如图 13 所示,通过分析可见在迭 代 140 次后该模型的正确率走向趋于平稳,并接 近 1。这是因为:盲文音乐符号的结构相对而言 较简单 (以点状为主要特征),且在训练和测试时 使用的图片的分辨率较高,即图像的质量较好; 其次,识别模型对盲文音乐图片中盲文音乐符号 的特征提取较为容易,从而可以快速地进行盲文 音乐符号的识别。本次实验也存在许多不足,例 如:受限于版权,数据集资源过小,来源也较单 一。这些都需要在后期的研究中进行改进,从而 达到更好识别性能。 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 正确率/% 20 40 60 80 100 120 140 160 180 200 迭代次数 图 13 正确率与迭代次数关系 Fig. 13 The relationship between the correct rate and the number of iterations 就总体识别效果而言,本文所训练的模型的 识别准确度优于多数流行的方法,其对比图如 表 2 所示。因为本文的盲文音乐图片是基于单面 形式的盲文图片,所以此处的对比只限于单面盲 文图片的识别对比。将 CNN 模型与近几年来所 使用的前馈神经网络[10] 、BP 神经网络[11] 、模糊分 类算法[12] 、标准距离定位法[23] 作对比,由此可见 本文中盲文音乐图像的识别正确率均高于其他方法。 表 2 正确率对比 Table 2 Correct rate comparison 序号 方法 正确率/% 1 前馈神经网络 95.5 2 BP神经网络 85 3 模糊分类算法 83 4 标准距离定位法 95.9 5 CNN识别模型 98.7 6 结束语 本文首次尝试了将卷积神经网络识别模型应 用于盲文音乐图片。在识别过程中,首先对盲文 音乐图片进行了预处理操作,以便于获得更好的 输入图片。其次,本文展示了通过卷积层、池化 层等处理后的盲文音乐图片的特征图。在展示特 征图的同时,对识别模型的细节也进行了说明, 例如关键参数的设定。最后,通过对实验结果进 行分析,可以发现该模型可以很好地提取到盲文 音乐符号的特征,对盲文音乐具有良好的识别效 果。当然本文也存在诸多不足之处,例如对数据 集的选取较单一,若可以采集到现实生活中纸质 的盲文书籍,那么数据集就较为充实,该识别模 型就可以广泛用到生活中,可以减少盲文识别对 人工操作的依赖性。 第 1 期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·191·
·192· 智能系统学报 第14卷 参考文献: acters[J].International journal of applied engineering re- search,2018,13(6):3662-3669 [1]MARIOTTI S P.Global data on visual impairments [13]KRIZHEVSKY A.SUTSKEVER I.HINTON G E.Im- 2010[R].Geneva:World Health Organization,2012:1-17. ageNet classification with deep convolutional neural net- [2]ANTONACOPOULOS A,BRIDSON D.A robust braille works[Cl//Proceedings of the 25th International Confer- recognition system [C]//6th International Workshop on ence on Neural Information Processing Systems.Lake Document Analysis Systems.Florence,Italy,2004: Tahoe,Nevada.2012:1097-1105. 533-545. [14]SIMONYAN K,ZISSERMAN A.Very deep convolu- [3]MOUSA A.HIARY H.ALOMARI R.et al.Smart braille tional networks for large-scale image recognition[J].arX- system recognizer[J].IJCSI international journal of com- iv preprint arXiv:1409.1556,2014. puter science issues,2013,10(6):52-60. [15]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. [4]SHREEKANTH T,UDAYASHANKARA V.An al- gorithmic approach for double sided Braille dot recogni- Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recog- tion using image processing techniques[.International nition.Las Vegas,NV,USA,2016:770-778. journal of image processing and visual communication, [16]周飞燕,金林鹏,董军.卷积神经网络研究综述几.计算 2014,2(4):1-6. [5]王倩倩.基于DSP的简谱识别和盲文乐谱转换算法研究 机学报,2017,40(6):1229-1251 与实现D1.沈阳:东北大学,2013 ZHOU Feiyan,JIN Linpeng,DONG Jun.Review of con- WANG Qianqian.Research and implementation of volutional neural network[J].Chinese journal of com- numbered musical notation identification and braille mu- puters,.2017,40(6:1229-1251. sical translation algorithm based on DSP[D].Shenyang: [17刀常亮,邓小明,周明全,等.图像理解中的卷积神经网络 Northeastern University,2013. U.自动化学报,2016,42(9):1300-1312 [6]黄河燕,周强,沈鑫,等.基于对节记谱法的盲文乐谱自 CHANG Liang,DENG Xiaoming,ZHOU Mingquan,et 动排版方法及装置:CN105719626AP].2016-06-29. al.Convolutional neural networks in image understand- HUANG Heyan,ZHOU Qiang,SHEN Xin,et al.Automat- ing[J].Acta automatica sinica,2016,42(9):1300-1312. ic braille music score typesetting method and device based [18]李彦冬,郝宗波,雷航.卷积神经网络研究综述).计算 on by-rhythm stave memorizing method:CN1057196 机应用,2016.36(9):2508-2515,2565 26AP].2016-06-29. LI Yandong,HAO Zongbo,LEI Hang.Survey of convo- [7]张志强.视障乐谱转换软件SunMusic的设计实现D]. lutional neural network[J].Journal of computer applica- 兰州:兰州大学,2016 tions,2016,36(9):2508-2515,2565. ZHANG Zhigiang.The design and implementation of mu- [19]周俊宇,赵艳明.卷积神经网络在图像分类和目标检测 sic conversion software SunMusic for visually impaired 应用综述[.计算机工程与应用,2017,53(13):34-41. [D].Lanzhou:Lanzhou University,2016. ZHOU Junyu,ZHAO Yanming.Application of convolu- [8]李婷.基于深度学习的盲文识别方法).计算机与现代 tion neural network in image classification and object de- 化,2015(6):37-40. tection[J].Computer engineering and applications,2017, LI Ting.A deep learning method for braille recognition[]. 53(13):34-41. Computer and modernization,2015(6):37-40. [20]GU Jiuxiang,WANG Zhenhua,KUEN J,et al.Recent ad- [9]ALI H S,ASSABIE Y.Recognition of double sided Am- vances in convolutional neural networks[J].Pattern recog- haric braille documents[J].International journal of image, nition,.2018,77:354-377 graphics and signal processing,2017,9(4):1-9. [21]LI Yangyan,SU Hao,QI C R,et al.Joint embeddings of [10]JIBRIL E C.MESHESHA M.Recognition of Amharic shapes and images via CNN image purification[J].ACM braille documents[C]//The 5th International Conference transactions on graphics (TOG),2015,34(6):1-5. on the Advancement of Science and Technology.2017. [22]卢宏涛,张秦川.深度卷积神经网铬在计算机视觉中的 15:22-29 应用研究综述数据采集与处理,2016,31(1):1-17. [11]WALEED M.Braille identification system using artifi- LU Hongtao,ZHANG Qinchuan.Applications of deep cial neural networks[J].Tikrit journal of pure science. convolutional neural network in computer vision[]. 2017,22(2)140-145 Journal of data acquisition and processing,2016,31(1): [12]AL NASSIRI A,ABDULLA S.A fuzzy classification 1-17. and recognition system for arabic braille segmented char- [23]李念峰,董迎红,肖志国.基于图像处理的盲文自动识
参考文献: MARIOTTI S P. Global data on visual impairments 2010[R]. Geneva: World Health Organization, 2012: 1–17. [1] ANTONACOPOULOS A, BRIDSON D. A robust braille recognition system[C]//6th International Workshop on Document Analysis Systems. Florence, Italy, 2004: 533–545. [2] MOUSA A, HIARY H, ALOMARI R, et al. Smart braille system recognizer[J]. IJCSI international journal of computer science issues, 2013, 10(6): 52–60. [3] SHREEKANTH T, UDAYASHANKARA V. An algorithmic approach for double sided Braille dot recognition using image processing techniques[J]. International journal of image processing and visual communication, 2014, 2(4): 1–6. [4] 王倩倩. 基于 DSP 的简谱识别和盲文乐谱转换算法研究 与实现 [D]. 沈阳: 东北大学, 2013. WANG Qianqian. Research and implementation of numbered musical notation identification and braille musical translation algorithm based on DSP[D]. Shenyang: Northeastern University, 2013. [5] 黄河燕, 周强, 沈鑫, 等. 基于对节记谱法的盲文乐谱自 动排版方法及装置 : CN105719626A[P]. 2016-06-29. HUANG Heyan, ZHOU Qiang, SHEN Xin, et al. Automatic braille music score typesetting method and device based on by-rhythm stave memorizing method: CN1057196 26A[P]. 2016-06-29. [6] 张志强. 视障乐谱转换软件 SunMusic 的设计实现 [D]. 兰州: 兰州大学, 2016. ZHANG Zhiqiang. The design and implementation of music conversion software SunMusic for visually impaired [D]. Lanzhou: Lanzhou University, 2016. [7] 李婷. 基于深度学习的盲文识别方法 [J]. 计算机与现代 化, 2015(6): 37–40. LI Ting. A deep learning method for braille recognition[J]. Computer and modernization, 2015(6): 37–40. [8] ALI H S, ASSABIE Y. Recognition of double sided Amharic braille documents[J]. International journal of image, graphics and signal processing, 2017, 9(4): 1–9. [9] JIBRIL E C, MESHESHA M. Recognition of Amharic braille documents[C]//The 5th International Conference on the Advancement of Science and Technology. 2017, 15: 22–29. [10] WALEED M. Braille identification system using artificial neural networks[J]. Tikrit journal of pure science, 2017, 22(2): 140–145. [11] AL NASSIRI A, ABDULLA S. A fuzzy classification and recognition system for arabic braille segmented char- [12] acters[J]. International journal of applied engineering research, 2018, 13(6): 3662–3669. KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, 2012: 1097–1105. [13] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv: 1409.1556, 2014. [14] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 770–778. [15] 周飞燕, 金林鹏, 董军. 卷积神经网络研究综述 [J]. 计算 机学报, 2017, 40(6): 1229–1251. ZHOU Feiyan, JIN Linpeng, DONG Jun. Review of convolutional neural network[J]. Chinese journal of computers, 2017, 40(6): 1229–1251. [16] 常亮, 邓小明, 周明全, 等. 图像理解中的卷积神经网络 [J]. 自动化学报, 2016, 42(9): 1300–1312. CHANG Liang, DENG Xiaoming, ZHOU Mingquan, et al. Convolutional neural networks in image understanding[J]. Acta automatica sinica, 2016, 42(9): 1300–1312. [17] 李彦冬, 郝宗波, 雷航. 卷积神经网络研究综述 [J]. 计算 机应用, 2016, 36(9): 2508–2515, 2565. LI Yandong, HAO Zongbo, LEI Hang. Survey of convolutional neural network[J]. Journal of computer applications, 2016, 36(9): 2508–2515, 2565. [18] 周俊宇, 赵艳明. 卷积神经网络在图像分类和目标检测 应用综述 [J]. 计算机工程与应用, 2017, 53(13): 34–41. ZHOU Junyu, ZHAO Yanming. Application of convolution neural network in image classification and object detection[J]. Computer engineering and applications, 2017, 53(13): 34–41. [19] GU Jiuxiang, WANG Zhenhua, KUEN J, et al. Recent advances in convolutional neural networks[J]. Pattern recognition, 2018, 77: 354–377. [20] LI Yangyan, SU Hao, QI C R, et al. Joint embeddings of shapes and images via CNN image purification[J]. ACM transactions on graphics (TOG), 2015, 34(6): 1–5. [21] 卢宏涛, 张秦川. 深度卷积神经网络在计算机视觉中的 应用研究综述 [J]. 数据采集与处理, 2016, 31(1): 1–17. LU Hongtao, ZHANG Qinchuan. Applications of deep convolutional neural network in computer vision[J]. Journal of data acquisition and processing, 2016, 31(1): 1–17. [22] [23] 李念峰, 董迎红, 肖志国. 基于图像处理的盲文自动识 ·192· 智 能 系 统 学 报 第 14 卷
第1期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·193· 别系统研究U.制造业自动化,2012,343少:63-67. 黄蓉蓉,女,1994年生,硕士研究 生,主要研究方向为人工智能与机器 LI Nianfeng,DONG Yinghong,XIAO Zhiguo.Study on 学习。 image processing based braille automatic identification system[J].Manufacturing automation,2012,34(3): 63-67. 作者简介: 刘彪,男,1984年生,硕士研究 林和,男,1963年生,副教授,主要 生,主要研究方向为智能软件与机器 研究方向为人工智能与机器学习。发 学习。 表学术论文100余篇。 北京大学谭营教授主编的英文著作《群体智能: 从概念到应用》由ET出版 日前,由北京大学谭营教授主编的《群体智能:从概念到应用》(英文名称:Swarm Intelligence:From Con- cepts to Applications)由英国工程技术学会(ET)出版。该专著包括“算法原理、现有算法与方法”(Principles,, current algorithms and methods)、“创新与新兴算法"(Innovation,.new algorithms and methods)和“算法应 用"(Applications)等3卷,共64章,汇集群体智能、进化计算、计算智能、人工智能等领域众多知名国际学 者和专家的最新成果,系统呈现了群体智能的算法原理、最新算法发展及其典型的实际应用,充分反映了当 前群体智能研究的现状和最新发展,是群体智能研究发展进程中里程碑式的著作,必将对该领域产生积极 影响。近年来,谭营教授领导的团队在群体智能领域取得多项创新性的重要成果,推动了相关领域研究的 发展。 英国工程技术学会是工程技术领域的全球顶级专业学术学会,总部设在伦敦,其前身是创建于1871年 的英国电气工程师学会(EE)。2006年3月,IEE与英国企业工程师学会(E)合并,更为现名。目前,ET在 全球150个国家和地区拥有近16.7万会员,是学会所涉及的能源电力、交通运输、信息与通信、设计与制造、 建筑环境等行业和领域范围内,欧洲规模最大、全球第二的国际专业技术学会。 相关链接:htps:www.theiet.org/resources/books//control/swarm-vol-l.cfim https://www.theiet.org/resources/books/control/swarm-vol-2.cfm https://www.theiet.org/resources/books/control/swarm-vol-3.cfm
别系统研究 [J]. 制造业自动化, 2012, 34(3): 63–67. LI Nianfeng, DONG Yinghong, XIAO Zhiguo. Study on image processing based braille automatic identification system[J]. Manufacturing automation, 2012, 34(3): 63–67. 作者简介: 刘彪,男,1984 年生,硕士研究 生,主要研究方向为智能软件与机器 学习。 黄蓉蓉,女,1994 年生,硕士研究 生,主要研究方向为人工智能与机器 学习。 林和,男,1963 年生, 副教授,主要 研究方向为人工智能与机器学习。发 表学术论文 100 余篇。 北京大学谭营教授主编的英文著作《群体智能: 从概念到应用》由 IET 出版 日前,由北京大学谭营教授主编的《群体智能:从概念到应用》(英文名称:Swarm Intelligence: From Concepts to Applications) 由英国工程技术学会 (IET) 出版。该专著包括“算法原理、现有算法与方法”(Principles, current algorithms and methods)、“创新与新兴算法”(Innovation, new algorithms and methods) 和“算法应 用”(Applications) 等 3 卷,共 64 章,汇集群体智能、进化计算、计算智能、人工智能等领域众多知名国际学 者和专家的最新成果,系统呈现了群体智能的算法原理、最新算法发展及其典型的实际应用,充分反映了当 前群体智能研究的现状和最新发展,是群体智能研究发展进程中里程碑式的著作,必将对该领域产生积极 影响。近年来,谭营教授领导的团队在群体智能领域取得多项创新性的重要成果,推动了相关领域研究的 发展。 英国工程技术学会是工程技术领域的全球顶级专业学术学会,总部设在伦敦,其前身是创建于 1871 年 的英国电气工程师学会 (IEE)。2006 年 3 月,IEE 与英国企业工程师学会 (IIE) 合并,更为现名。目前,IET 在 全球 150 个国家和地区拥有近 16.7 万会员,是学会所涉及的能源电力、交通运输、信息与通信、设计与制造、 建筑环境等行业和领域范围内,欧洲规模最大、全球第二的国际专业技术学会。 相关链接:https://www.theiet.org/resources/books/control/swarm-vol-1.cfm https://www.theiet.org/resources/books/control/swarm-vol-2.cfm https://www.theiet.org/resources/books/control/swarm-vol-3.cfm 第 1 期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·193·