6) y = batch_x×w+b ；经过模型预测的值； 7

正在加载图片...

第1期刘彪，等：基于卷积神经网络的盲文音乐识别研究 ·191· 6)y=batchx×w+b;经过模型预测的值；一。这些都需要在后期的研究中进行改进，从而 7)Error=eror(batch_y,y_true)正确值与预测值达到更好识别性能。的错误率： 1.0 8)if Error>TRAIN ERROR 0.9 0 9)update(w);update (b) 0 .6 Continue step 3; 0.5 10)else 0.2 ll)update(w吵；update(b): 0.1 12)end 020406080100120140160180200 迭代次数 13)end 图13正确率与迭代次数关系 14)保存训练后的CNN模型y,其中y=x× Fig.13 The relationship between the correct rate and the 1w+b: number of iterations 15)end 就总体识别效果而言，本文所训练的模型的算法2CNN盲文识别模型测试算法识别准确度优于多数流行的方法，其对比图如输入TEST IMAGES是测试数据集，TEST 表2所示。因为本文的盲文音乐图片是基于单面 SIZE是测试数据量；形式的盲文图片，所以此处的对比只限于单面盲输出test_accuracy是正确率。文图片的识别对比。将CNN模型与近几年来所 1)random(w);random (b); 使用的前馈神经网络O、BP神经网络)、模糊分 2)load训练模型为y: 类算法、标准距离定位法21作对比，由此可见 3)test_x=TEST_SIZE的数据作为输入数据；本文中盲文音乐图像的识别正确率均高于其他方法。 4)获取测试图片数据text_x与对应的标签值表2正确率对比 y true; Table 2 Correct rate comparison 5)test_y test_xxw+b; 序号方法正确率/% 6)其测试正确率为test accuracy=accuracy 1 前馈神经网络 (test_y,y_true); 95.5 7)output test accuracy 2 BP神经网络 85 3 模糊分类算法 83 5实验结果分析标准距离定位法 95.9 在该阶段，为了验证实验建立的卷积神经网 CNN识别模型 98.7 络识别模型的有效性，实验中的权重参数的初始化一律采用随机数。其次，为了使得模型在训练 6 结束语时不过早地陷入饱和，影响卷积神经网络的学习本文首次尝试了将卷积神经网络识别模型应能力，实验采用的随机数会比较小。用于盲文音乐图片。在识别过程中，首先对盲文本次实验中的训练和测试都以分批迭代的方音乐图片进行了预处理操作，以便于获得更好的式来进行的，分别迭代200次训练，并且每20次输人图片。其次，本文展示了通过卷积层、池化输出测试数据的正确率。通过训练和测试，正确层等处理后的盲文音乐图片的特征图。在展示特率的变化趋势如图13所示，通过分析可见在迭征图的同时，对识别模型的细节也进行了说明，代140次后该模型的正确率走向趋于平稳，并接例如关键参数的设定。最后，通过对实验结果进近1。这是因为：盲文音乐符号的结构相对而言行分析，可以发现该模型可以很好地提取到盲文较简单（以点状为主要特征），且在训练和测试时音乐符号的特征，对盲文音乐具有良好的识别效使用的图片的分辨率较高，即图像的质量较好；果。当然本文也存在诸多不足之处，例如对数据其次，识别模型对盲文音乐图片中盲文音乐符号集的选取较单一，若可以采集到现实生活中纸质的特征提取较为容易，从而可以快速地进行盲文的盲文书籍，那么数据集就较为充实，该识别模音乐符号的识别。本次实验也存在许多不足，例型就可以广泛用到生活中，可以减少盲文识别对如：受限于版权，数据集资源过小，来源也较单人工操作的依赖性。6) y = batch_x×w+b ；经过模型预测的值； 7) Error = error(batch_y, y_true) 正确值与预测值的错误率； 8) if Error>TRAIN_ERROR 9) update (w); update (b) Continue step 3； 10) else 11) update (w); update (b)； 12) end 13) end 14) 保存训练后的 CNN 模型 y，其中 y=x× w+b； 15) end 算法 2 CNN 盲文识别模型测试算法输入 TEST_IMAGES 是测试数据集，TEST_ SIZE 是测试数据量；输出 test_accuracy 是正确率。 1) random (w); random (b); 2) load 训练模型为 y； 3) test_x = TEST_SIZE 的数据作为输入数据； 4) 获取测试图片数据 text_x 与对应的标签值 y_true； 5) test_y = test_x×w+b ； test_accuracy = accuracy (test_y, y_true) 6 ) 其测试正确率为 ; 7) output test accuracy 5 实验结果分析在该阶段，为了验证实验建立的卷积神经网络识别模型的有效性，实验中的权重参数的初始化一律采用随机数。其次，为了使得模型在训练时不过早地陷入饱和，影响卷积神经网络的学习能力，实验采用的随机数会比较小。本次实验中的训练和测试都以分批迭代的方式来进行的，分别迭代 200 次训练，并且每 20 次输出测试数据的正确率。通过训练和测试，正确率的变化趋势如图 13 所示，通过分析可见在迭代 140 次后该模型的正确率走向趋于平稳，并接近 1。这是因为：盲文音乐符号的结构相对而言较简单 (以点状为主要特征)，且在训练和测试时使用的图片的分辨率较高，即图像的质量较好；其次，识别模型对盲文音乐图片中盲文音乐符号的特征提取较为容易，从而可以快速地进行盲文音乐符号的识别。本次实验也存在许多不足，例如：受限于版权，数据集资源过小，来源也较单一。这些都需要在后期的研究中进行改进，从而达到更好识别性能。 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 正确率/% 20 40 60 80 100 120 140 160 180 200 迭代次数图 13 正确率与迭代次数关系 Fig. 13 The relationship between the correct rate and the number of iterations 就总体识别效果而言，本文所训练的模型的识别准确度优于多数流行的方法，其对比图如表 2 所示。因为本文的盲文音乐图片是基于单面形式的盲文图片，所以此处的对比只限于单面盲文图片的识别对比。将 CNN 模型与近几年来所使用的前馈神经网络[10] 、BP 神经网络[11] 、模糊分类算法[12] 、标准距离定位法[23] 作对比，由此可见本文中盲文音乐图像的识别正确率均高于其他方法。表 2 正确率对比 Table 2 Correct rate comparison 序号方法正确率/% 1 前馈神经网络 95.5 2 BP神经网络 85 3 模糊分类算法 83 4 标准距离定位法 95.9 5 CNN识别模型 98.7 6 结束语本文首次尝试了将卷积神经网络识别模型应用于盲文音乐图片。在识别过程中，首先对盲文音乐图片进行了预处理操作，以便于获得更好的输入图片。其次，本文展示了通过卷积层、池化层等处理后的盲文音乐图片的特征图。在展示特征图的同时，对识别模型的细节也进行了说明，例如关键参数的设定。最后，通过对实验结果进行分析，可以发现该模型可以很好地提取到盲文音乐符号的特征，对盲文音乐具有良好的识别效果。当然本文也存在诸多不足之处，例如对数据集的选取较单一，若可以采集到现实生活中纸质的盲文书籍，那么数据集就较为充实，该识别模型就可以广泛用到生活中，可以减少盲文识别对人工操作的依赖性。第 1 期刘彪，等：基于卷积神经网络的盲文音乐识别研究 ·191·

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】基于卷积神经网络的盲文音乐识别研究