正在加载图片...
第1期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·191· 6)y=batchx×w+b;经过模型预测的值; 一。这些都需要在后期的研究中进行改进,从而 7)Error=eror(batch_y,y_true)正确值与预测值 达到更好识别性能。 的错误率: 1.0 8)if Error>TRAIN ERROR 0.9 0 9)update(w);update (b) 0 .6 Continue step 3; 0.5 10)else 0.2 ll)update(w吵;update(b): 0.1 12)end 020406080100120140160180200 迭代次数 13)end 图13正确率与迭代次数关系 14)保存训练后的CNN模型y,其中y=x× Fig.13 The relationship between the correct rate and the 1w+b: number of iterations 15)end 就总体识别效果而言,本文所训练的模型的 算法2CNN盲文识别模型测试算法 识别准确度优于多数流行的方法,其对比图如 输入TEST IMAGES是测试数据集,TEST 表2所示。因为本文的盲文音乐图片是基于单面 SIZE是测试数据量; 形式的盲文图片,所以此处的对比只限于单面盲 输出test_accuracy是正确率。 文图片的识别对比。将CNN模型与近几年来所 1)random(w);random (b); 使用的前馈神经网络O、BP神经网络)、模糊分 2)load训练模型为y: 类算法、标准距离定位法21作对比,由此可见 3)test_x=TEST_SIZE的数据作为输入数据; 本文中盲文音乐图像的识别正确率均高于其他方法。 4)获取测试图片数据text_x与对应的标签值 表2正确率对比 y true; Table 2 Correct rate comparison 5)test_y test_xxw+b; 序号 方法 正确率/% 6)其测试正确率为test accuracy=accuracy 1 前馈神经网络 (test_y,y_true); 95.5 7)output test accuracy 2 BP神经网络 85 3 模糊分类算法 83 5实验结果分析 标准距离定位法 95.9 在该阶段,为了验证实验建立的卷积神经网 CNN识别模型 98.7 络识别模型的有效性,实验中的权重参数的初始 化一律采用随机数。其次,为了使得模型在训练 6 结束语 时不过早地陷入饱和,影响卷积神经网络的学习 本文首次尝试了将卷积神经网络识别模型应 能力,实验采用的随机数会比较小。 用于盲文音乐图片。在识别过程中,首先对盲文 本次实验中的训练和测试都以分批迭代的方 音乐图片进行了预处理操作,以便于获得更好的 式来进行的,分别迭代200次训练,并且每20次 输人图片。其次,本文展示了通过卷积层、池化 输出测试数据的正确率。通过训练和测试,正确 层等处理后的盲文音乐图片的特征图。在展示特 率的变化趋势如图13所示,通过分析可见在迭 征图的同时,对识别模型的细节也进行了说明, 代140次后该模型的正确率走向趋于平稳,并接 例如关键参数的设定。最后,通过对实验结果进 近1。这是因为:盲文音乐符号的结构相对而言 行分析,可以发现该模型可以很好地提取到盲文 较简单(以点状为主要特征),且在训练和测试时 音乐符号的特征,对盲文音乐具有良好的识别效 使用的图片的分辨率较高,即图像的质量较好; 果。当然本文也存在诸多不足之处,例如对数据 其次,识别模型对盲文音乐图片中盲文音乐符号 集的选取较单一,若可以采集到现实生活中纸质 的特征提取较为容易,从而可以快速地进行盲文 的盲文书籍,那么数据集就较为充实,该识别模 音乐符号的识别。本次实验也存在许多不足,例 型就可以广泛用到生活中,可以减少盲文识别对 如:受限于版权,数据集资源过小,来源也较单 人工操作的依赖性。6) y = batch_x×w+b ; 经过模型预测的值; 7) Error = error(batch_y, y_true) 正确值与预测值 的错误率; 8) if Error>TRAIN_ERROR 9) update (w); update (b) Continue step 3; 10) else 11) update (w); update (b); 12) end 13) end 14) 保存训练后的 CNN 模型 y,其中 y=x× w+b; 15) end 算法 2 CNN 盲文识别模型测试算法 输入 TEST_IMAGES 是测试数据集,TEST_ SIZE 是测试数据量; 输出 test_accuracy 是正确率。 1) random (w); random (b); 2) load 训练模型为 y; 3) test_x = TEST_SIZE 的数据作为输入数据; 4) 获取测试图片数据 text_x 与对应的标签值 y_true; 5) test_y = test_x×w+b ; test_accuracy = accuracy (test_y, y_true) 6 ) 其测试正确率为 ; 7) output test accuracy 5 实验结果分析 在该阶段,为了验证实验建立的卷积神经网 络识别模型的有效性,实验中的权重参数的初始 化一律采用随机数。其次,为了使得模型在训练 时不过早地陷入饱和,影响卷积神经网络的学习 能力,实验采用的随机数会比较小。 本次实验中的训练和测试都以分批迭代的方 式来进行的,分别迭代 200 次训练,并且每 20 次 输出测试数据的正确率。通过训练和测试,正确 率的变化趋势如图 13 所示,通过分析可见在迭 代 140 次后该模型的正确率走向趋于平稳,并接 近 1。这是因为:盲文音乐符号的结构相对而言 较简单 (以点状为主要特征),且在训练和测试时 使用的图片的分辨率较高,即图像的质量较好; 其次,识别模型对盲文音乐图片中盲文音乐符号 的特征提取较为容易,从而可以快速地进行盲文 音乐符号的识别。本次实验也存在许多不足,例 如:受限于版权,数据集资源过小,来源也较单 一。这些都需要在后期的研究中进行改进,从而 达到更好识别性能。 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 正确率/% 20 40 60 80 100 120 140 160 180 200 迭代次数 图 13 正确率与迭代次数关系 Fig. 13 The relationship between the correct rate and the number of iterations 就总体识别效果而言,本文所训练的模型的 识别准确度优于多数流行的方法,其对比图如 表 2 所示。因为本文的盲文音乐图片是基于单面 形式的盲文图片,所以此处的对比只限于单面盲 文图片的识别对比。将 CNN 模型与近几年来所 使用的前馈神经网络[10] 、BP 神经网络[11] 、模糊分 类算法[12] 、标准距离定位法[23] 作对比,由此可见 本文中盲文音乐图像的识别正确率均高于其他方法。 表 2 正确率对比 Table 2 Correct rate comparison 序号 方法 正确率/% 1 前馈神经网络 95.5 2 BP神经网络 85 3 模糊分类算法 83 4 标准距离定位法 95.9 5 CNN识别模型 98.7 6 结束语 本文首次尝试了将卷积神经网络识别模型应 用于盲文音乐图片。在识别过程中,首先对盲文 音乐图片进行了预处理操作,以便于获得更好的 输入图片。其次,本文展示了通过卷积层、池化 层等处理后的盲文音乐图片的特征图。在展示特 征图的同时,对识别模型的细节也进行了说明, 例如关键参数的设定。最后,通过对实验结果进 行分析,可以发现该模型可以很好地提取到盲文 音乐符号的特征,对盲文音乐具有良好的识别效 果。当然本文也存在诸多不足之处,例如对数据 集的选取较单一,若可以采集到现实生活中纸质 的盲文书籍,那么数据集就较为充实,该识别模 型就可以广泛用到生活中,可以减少盲文识别对 人工操作的依赖性。 第 1 期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·191·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有