特征，并将上下二者有效地组合在一起便是要识别的盲文音乐字符。图 5 C

正在加载图片...

第1期刘彪，等：基于卷积神经网络的盲文音乐识别研究 ·189· 特征，并将上下二者有效地组合在一起便是要识 4)C:层。C层的卷积操作建立在S,层的基别的盲文音乐字符。础上，其卷积操作与C,层类似。主要是对S2层的输出进行再卷积操作，进行特征再提取。在 C3层中，将卷积核的数目设置为64，即可得出 64个大小为14×30且图像内容各不相同的特征图。在该层使用“same”卷积操作后，最后得到特征图的尺寸大小为16×32。值得注意的是，输入与输出的特征图虽然在尺寸上大小相同，但是最终得到的特征图数目却不一样，其中32个S,层图5C,卷积后的特征图的特征图作为C;层的输入，最终得出了如图8所 Fig.5 The feature map after C convolution 示的64个C3层的结果特征图。在图8中可以发在卷积神经网络中，特征所对应的具体位置现，其盲文点的边缘信息越来越突出。将不再重要。对C,层卷积后的结果进行池化操作，即得到32个大小为16×32的结果，输出的维国图图 E 度相比该层输入的维度缩减了一半。该层是通过 ■ 池化操作实现二次特征提取的，有效地减少了输国入数据的参数数量，降低了图像的大小，简化了网络计算的复杂度。同时，它还可减弱卷积层的 ■ 8 图输出在角度变形或拉伸变化方面的敏感程度，进目图 ■ ■ 行主要特征提取。 E 如图6为整个池化操作过程，该操作是利用国医国墨池化参数来进行最大下采样操作，池化层中的步 ■ 长s设置为1，其权值矩阵设置为2×2。在C,层图图题图的输出特征图中，对每个特征图中进行下采样操图8C:层卷积操作后的特征图作，根据图6所示此规则输出S2层的输出结果， Fig.8 The feature map after C:convolution operation 但是尺寸大小缩小为原来的一半2。图9所展示的是S2层与C3层之间的关联和映射，从图中可以看出这些连接并不是一一对应的关系。卷积神经网络这样设计的优点是：消除了网络的对称性，从而让映射的数量保持在一定的范围之内；增加了特征映射的多样性，从而实现了不同特征的有效提取和传递。图6下采样操作 Fig.6 Down sampling operation S2层的下采样操作后得到如图7所示的 32个尺寸大小为16×32的特征图。从图7中可以看出，除了图像的尺寸大小发生了变化之外，还忽略了部分盲文音乐符号的细节信息。 S,层 C,层图9S2层和C,层的连接图 Fig.9 Connection diagram of S2 and C3 5)S4层。该层是识别模型最后一个池化层· S,层是对C,层的输出结果进行池化操作，其操作与S,层的操作类似。通过S4层的下采样操作得到如图10所示的64个大小为8×16的特征图。图7S,池化操作后的特征图 6)C层。C层是识别模型的最后一个卷积操 Fig.7 The feature map after S2 pooling 作，作用是进一步提取图像特征。该操作与之前特征，并将上下二者有效地组合在一起便是要识别的盲文音乐字符。图 5 C1 卷积后的特征图 Fig. 5 The feature map after C1 convolution 在卷积神经网络中，特征所对应的具体位置将不再重要。对 C1 层卷积后的结果进行池化操作，即得到 32 个大小为 16×32 的结果，输出的维度相比该层输入的维度缩减了一半。该层是通过池化操作实现二次特征提取的，有效地减少了输入数据的参数数量，降低了图像的大小，简化了网络计算的复杂度。同时，它还可减弱卷积层的输出在角度变形或拉伸变化方面的敏感程度，进行主要特征提取。如图 6 为整个池化操作过程，该操作是利用池化参数来进行最大下采样操作，池化层中的步长 s 设置为 1，其权值矩阵设置为 2×2。在 C1 层的输出特征图中，对每个特征图中进行下采样操作，根据图 6 所示此规则输出 S2 层的输出结果，但是尺寸大小缩小为原来的一半[22]。 1 5 6 2 7 3 1 8 6 9 4 3 7 8 7 8 5 6 9 6 图 6 下采样操作 Fig. 6 Down sampling operation S 2 层的下采样操作后得到如图 7 所示的 32 个尺寸大小为 16×32 的特征图。从图 7 中可以看出，除了图像的尺寸大小发生了变化之外，还忽略了部分盲文音乐符号的细节信息。图 7 S2 池化操作后的特征图 Fig. 7 The feature map after S2 pooling 4)C3 层。C3 层的卷积操作建立在 S2 层的基础上，其卷积操作与 C1 层类似。主要是对 S2 层的输出进行再卷积操作，进行特征再提取。在 C3 层中，将卷积核的数目设置为 64，即可得出 64 个大小为 14×30 且图像内容各不相同的特征图。在该层使用“same”卷积操作后，最后得到特征图的尺寸大小为 16×32。值得注意的是，输入与输出的特征图虽然在尺寸上大小相同，但是最终得到的特征图数目却不一样，其中 32 个 S2 层的特征图作为 C3 层的输入，最终得出了如图 8 所示的 64 个 C3 层的结果特征图。在图 8 中可以发现，其盲文点的边缘信息越来越突出。图 8 C3 层卷积操作后的特征图 Fig. 8 The feature map after C3 convolution operation 图 9 所展示的是 S2 层与 C3 层之间的关联和映射，从图中可以看出这些连接并不是一一对应的关系。卷积神经网络这样设计的优点是：消除了网络的对称性，从而让映射的数量保持在一定的范围之内；增加了特征映射的多样性，从而实现了不同特征的有效提取和传递。 S2 层 C3 层图 9 S2 层和 C3 层的连接图 Fig. 9 Connection diagram of S2 and C3 5)S4 层。该层是识别模型最后一个池化层， S4 层是对 C3 层的输出结果进行池化操作，其操作与 S2 层的操作类似。通过 S4 层的下采样操作得到如图 10 所示的 64 个大小为 8×16 的特征图。 6)C5 层。C5 层是识别模型的最后一个卷积操作，作用是进一步提取图像特征。该操作与之前第 1 期刘彪，等：基于卷积神经网络的盲文音乐识别研究 ·189·

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】基于卷积神经网络的盲文音乐识别研究