正在加载图片...
第1期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·189· 特征,并将上下二者有效地组合在一起便是要识 4)C:层。C层的卷积操作建立在S,层的基 别的盲文音乐字符。 础上,其卷积操作与C,层类似。主要是对S2层 的输出进行再卷积操作,进行特征再提取。在 C3层中,将卷积核的数目设置为64,即可得出 64个大小为14×30且图像内容各不相同的特征 图。在该层使用“same”卷积操作后,最后得到特 征图的尺寸大小为16×32。值得注意的是,输入 与输出的特征图虽然在尺寸上大小相同,但是最 终得到的特征图数目却不一样,其中32个S,层 图5C,卷积后的特征图 的特征图作为C;层的输入,最终得出了如图8所 Fig.5 The feature map after C convolution 示的64个C3层的结果特征图。在图8中可以发 在卷积神经网络中,特征所对应的具体位置 现,其盲文点的边缘信息越来越突出。 将不再重要。对C,层卷积后的结果进行池化操 作,即得到32个大小为16×32的结果,输出的维 国 图 图 E 度相比该层输入的维度缩减了一半。该层是通过 ■ 池化操作实现二次特征提取的,有效地减少了输 国 入数据的参数数量,降低了图像的大小,简化了 网络计算的复杂度。同时,它还可减弱卷积层的 ■ 8 图 输出在角度变形或拉伸变化方面的敏感程度,进 目 图 ■ ■ 行主要特征提取。 E 如图6为整个池化操作过程,该操作是利用 国 医 国 墨 池化参数来进行最大下采样操作,池化层中的步 ■ 长s设置为1,其权值矩阵设置为2×2。在C,层 图 图 题 图 的输出特征图中,对每个特征图中进行下采样操 图8C:层卷积操作后的特征图 作,根据图6所示此规则输出S2层的输出结果, Fig.8 The feature map after C:convolution operation 但是尺寸大小缩小为原来的一半2。 图9所展示的是S2层与C3层之间的关联和 映射,从图中可以看出这些连接并不是一一对应 的关系。卷积神经网络这样设计的优点是:消除 了网络的对称性,从而让映射的数量保持在一定 的范围之内;增加了特征映射的多样性,从而实 现了不同特征的有效提取和传递。 图6下采样操作 Fig.6 Down sampling operation S2层的下采样操作后得到如图7所示的 32个尺寸大小为16×32的特征图。从图7中可以 看出,除了图像的尺寸大小发生了变化之外,还 忽略了部分盲文音乐符号的细节信息。 S,层 C,层 图9S2层和C,层的连接图 Fig.9 Connection diagram of S2 and C3 5)S4层。该层是识别模型最后一个池化层· S,层是对C,层的输出结果进行池化操作,其操作 与S,层的操作类似。通过S4层的下采样操作得 到如图10所示的64个大小为8×16的特征图。 图7S,池化操作后的特征图 6)C层。C层是识别模型的最后一个卷积操 Fig.7 The feature map after S2 pooling 作,作用是进一步提取图像特征。该操作与之前特征,并将上下二者有效地组合在一起便是要识 别的盲文音乐字符。 图 5 C1 卷积后的特征图 Fig. 5 The feature map after C1 convolution 在卷积神经网络中,特征所对应的具体位置 将不再重要。对 C1 层卷积后的结果进行池化操 作,即得到 32 个大小为 16×32 的结果,输出的维 度相比该层输入的维度缩减了一半。该层是通过 池化操作实现二次特征提取的,有效地减少了输 入数据的参数数量,降低了图像的大小,简化了 网络计算的复杂度。同时,它还可减弱卷积层的 输出在角度变形或拉伸变化方面的敏感程度,进 行主要特征提取。 如图 6 为整个池化操作过程,该操作是利用 池化参数来进行最大下采样操作,池化层中的步 长 s 设置为 1,其权值矩阵设置为 2×2。在 C1 层 的输出特征图中,对每个特征图中进行下采样操 作,根据图 6 所示此规则输出 S2 层的输出结果, 但是尺寸大小缩小为原来的一半[22]。 1 5 6 2 7 3 1 8 6 9 4 3 7 8 7 8 5 6 9 6 图 6 下采样操作 Fig. 6 Down sampling operation S 2 层的下采样操作后得到如 图 7 所 示 的 32 个尺寸大小为 16×32 的特征图。从图 7 中可以 看出,除了图像的尺寸大小发生了变化之外,还 忽略了部分盲文音乐符号的细节信息。 图 7 S2 池化操作后的特征图 Fig. 7 The feature map after S2 pooling 4)C3 层。C3 层的卷积操作建立在 S2 层的基 础上,其卷积操作与 C1 层类似。主要是对 S2 层 的输出进行再卷积操作,进行特征再提取。在 C3 层中,将卷积核的数目设置为 64,即可得出 64 个大小为 14×30 且图像内容各不相同的特征 图。在该层使用“same”卷积操作后,最后得到特 征图的尺寸大小为 16×32。值得注意的是,输入 与输出的特征图虽然在尺寸上大小相同,但是最 终得到的特征图数目却不一样,其中 32 个 S2 层 的特征图作为 C3 层的输入,最终得出了如图 8 所 示的 64 个 C3 层的结果特征图。在图 8 中可以发 现,其盲文点的边缘信息越来越突出。 图 8 C3 层卷积操作后的特征图 Fig. 8 The feature map after C3 convolution operation 图 9 所展示的是 S2 层与 C3 层之间的关联和 映射,从图中可以看出这些连接并不是一一对应 的关系。卷积神经网络这样设计的优点是:消除 了网络的对称性,从而让映射的数量保持在一定 的范围之内;增加了特征映射的多样性,从而实 现了不同特征的有效提取和传递。 S2 层 C3 层 图 9 S2 层和 C3 层的连接图 Fig. 9 Connection diagram of S2 and C3 5)S4 层。该层是识别模型最后一个池化层, S4 层是对 C3 层的输出结果进行池化操作,其操作 与 S2 层的操作类似。通过 S4 层的下采样操作得 到如图 10 所示的 64 个大小为 8×16 的特征图。 6)C5 层。C5 层是识别模型的最后一个卷积操 作,作用是进一步提取图像特征。该操作与之前 第 1 期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·189·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有