第15卷第4期 智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0L:10.11992tis.201909032 基于增强AlexNet的音乐流派识别研究 刘万军,孟仁杰,曲海成,刘腊梅 (辽宁工程技术大学软件学院,辽宁葫芦岛125105) 摘要:针对机器学习模型对音乐流派特征识别能力较弱的问题,提出了一种基于深度卷积神经网络的音乐流 派识别(DCNN-MG)模型。该模型首先通过快速傅里叶变换提取音频信息,生成可以输入DCNN的频谱并切 割生成频谱切片。然后通过融合带泄露整流(Leaky ReLU)函数、双曲正切(Tanh)函数和Softplus分类器对 AlexNet进行增强。其次将生成的频谱切片输入增强的AlexNet进行多批次的训练与验证,提取并学习音乐特 征,得到可以有效分辨音乐特征的网络模型。最后使用输出模型进行音乐流派识别测试。实验结果表明,增强 的AlexNet在音乐特征识别准确率和网络收敛效果上明显优于AlexNet及其他常用的DCNN、DCNN-MGR模型 在音乐流派识别准确率上比其他机器学习模型提升了4%~20%。 关键词:音乐流派识别;深度卷积神经网络;机器学习;深度学习;AlexNet;音频特征提取;音乐特征识别 中图分类号:TP181文献标志码:A文章编号:1673-4785(2020)04-0750-08 中文引用格式:刘万军,孟仁杰,曲海成,等.基于增强AlexNεt的音乐流派识别研究J几.智能系统学报,2020,15(4): 750-757. 英文引用格式:LIUWanjun,,MENGRenjie,.QU Haicheng,et al.Music genre recognition research based on enhanced AlexNetJ. CAAI transactions on intelligent systems,2020,15(4):750-757. Music genre recognition research based on enhanced AlexNet LIU Wanjun,MENG Renjie,QU Haicheng,LIU Lamei (College of Software,Liaoning Technical University,Huludao 125105,China) Abstract:To solve the problem that machine learning model has weak ability to identify music genre features,a music genre recognition model based on deep convolutional neural network(DCNN-MGR)is proposed in this paper.At first, the model extracts audio information through Fast Fourier Transformation,generating spectrums that can be input to the DCNN and slicing the generated spectrums.Then AlexNet is enhanced by fusion of Leaky ReLU function,Tanh func- tion and Softplus classifier.The generated spectrum slices are input into the enhanced AlexNet for multi-batch training and verification.Music features are extracted and learned,and a network model that can effectively distinguish music features is obtained.At last,the output model is applied to music genre recognition and test.The experimental results show that the enhanced AlexNet is superior to AlexNet and other commonly used DCNN in terms of accuracy of music feature recognition and network convergence effect.The DCNN-MGR model is 4%~20%higher than other machine learning models in music genre recognition accuracy. Keywords:music genres recognition;deep convolutional neural network;machine learning;deep learning:AlexNet;au- dio feature extraction:audio feature extraction 音乐流派是被提及最多的音乐标签之一。随行音乐流派识别可以有效减少人力成本。常用的 着互联网曲库容量的增加,按流派检索音乐成为 音乐流派识别模型一般包括训练和测试两个阶 音乐信息检索的主流方法,同时也是音乐服务平 段。在训练阶段,首先通过建立数学模型描绘具 台为用户推荐音乐的重要基础。自动且精准地进 有区分度的音乐流派数字特征;然后采用预加 重、梅尔滤波、倒谱提升等方式提取音乐文件的 收稿日期:2019-09-16. 基金项目:国家自然科学基金青年基金项目(41701479). 数字特征;最后基于不同流派的数字特征和分布 通信作者:孟仁杰.E-mail:mengrenjie95@l63.com 特性训练分类器。在测试阶段,使用与训练阶段
DOI: 10.11992/tis.201909032 基于增强 AlexNet 的音乐流派识别研究 刘万军,孟仁杰,曲海成,刘腊梅 (辽宁工程技术大学 软件学院,辽宁 葫芦岛 125105) 摘 要:针对机器学习模型对音乐流派特征识别能力较弱的问题,提出了一种基于深度卷积神经网络的音乐流 派识别 (DCNN-MGR) 模型。该模型首先通过快速傅里叶变换提取音频信息,生成可以输入 DCNN 的频谱并切 割生成频谱切片。然后通过融合带泄露整流 (Leaky ReLU) 函数、双曲正切 (Tanh) 函数和 Softplus 分类器对 AlexNet 进行增强。其次将生成的频谱切片输入增强的 AlexNet 进行多批次的训练与验证,提取并学习音乐特 征,得到可以有效分辨音乐特征的网络模型。最后使用输出模型进行音乐流派识别测试。实验结果表明,增强 的 AlexNet 在音乐特征识别准确率和网络收敛效果上明显优于 AlexNet 及其他常用的 DCNN、DCNN-MGR 模型 在音乐流派识别准确率上比其他机器学习模型提升了 4%~20%。 关键词:音乐流派识别;深度卷积神经网络;机器学习;深度学习;AlexNet;音频特征提取;音乐特征识别 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2020)04−0750−08 中文引用格式:刘万军, 孟仁杰, 曲海成, 等. 基于增强 AlexNet 的音乐流派识别研究 [J]. 智能系统学报, 2020, 15(4): 750–757. 英文引用格式:LIU Wanjun, MENG Renjie, QU Haicheng, et al. Music genre recognition research based on enhanced AlexNet[J]. CAAI transactions on intelligent systems, 2020, 15(4): 750–757. Music genre recognition research based on enhanced AlexNet LIU Wanjun,MENG Renjie,QU Haicheng,LIU Lamei (College of Software, Liaoning Technical University, Huludao 125105, China) Abstract: To solve the problem that machine learning model has weak ability to identify music genre features, a music genre recognition model based on deep convolutional neural network (DCNN-MGR) is proposed in this paper. At first, the model extracts audio information through Fast Fourier Transformation, generating spectrums that can be input to the DCNN and slicing the generated spectrums. Then AlexNet is enhanced by fusion of Leaky ReLU function, Tanh function and Softplus classifier. The generated spectrum slices are input into the enhanced AlexNet for multi-batch training and verification. Music features are extracted and learned, and a network model that can effectively distinguish music features is obtained. At last, the output model is applied to music genre recognition and test. The experimental results show that the enhanced AlexNet is superior to AlexNet and other commonly used DCNN in terms of accuracy of music feature recognition and network convergence effect. The DCNN-MGR model is 4%~20% higher than other machine learning models in music genre recognition accuracy. Keywords: music genres recognition; deep convolutional neural network; machine learning; deep learning; AlexNet; audio feature extraction; audio feature extraction 音乐流派是被提及最多的音乐标签之一。随 着互联网曲库容量的增加,按流派检索音乐成为 音乐信息检索的主流方法,同时也是音乐服务平 台为用户推荐音乐的重要基础。自动且精准地进 行音乐流派识别可以有效减少人力成本。常用的 音乐流派识别模型一般包括训练和测试两个阶 段。在训练阶段,首先通过建立数学模型描绘具 有区分度的音乐流派数字特征;然后采用预加 重、梅尔滤波、倒谱提升等方式提取音乐文件的 数字特征;最后基于不同流派的数字特征和分布 特性训练分类器。在测试阶段,使用与训练阶段 收稿日期:2019−09−16. 基金项目:国家自然科学基金青年基金项目 (41701479). 通信作者:孟仁杰. E-mail:mengrenjie95@163.com. 第 15 卷第 4 期 智 能 系 统 学 报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020
第4期 刘万军,等:基于增强AlexNet的音乐流派识别研究 ·751· 相同的方式进行数字特征提取,利用在训练阶段 识别的准确率。 得到的分类器对提取到的数字特征进行计算并评 估流派。 1 AlexNet网络 常用的机器学习音乐流派识别模型主要有支 Krizhevsky等Io提出了由5个卷积层、3个最 持向量机(support vector machine,SVM)模型、K- 大池化层、3个局部响应归一化(local response 近邻(K-nearest neighbor,.KNN)模型、梯度提升 normalization,LRN)层、3个全连接层堆叠成的 (gradient boosting)模型和极端随机树(extra trees)模型。邵曦等山利用音乐的梅尔频率倒谱 AlexNet。AlexNet使用线性整流(rectified linear 系数(Mel frequency cepstrum coefficient,MFCC)特 unit,ReLU)函数作为卷积层和全连接层的激活 征构造了SVM模型,对5个流派的音乐进行识 函数,有效解决了网络较深时的梯度消失问题。 别,取得了81.20%的识别准确率。Ai等将MFCC AlexNet利用GPU的并行计算来处理神经网络训 特征输入KNN模型,在GTZAN数据集)上进行 练时大量的矩阵运算,使卷积神经网络的训练变 实验,验证了KNN模型对音乐流派识别的有效 得更加高效,从而增强了DCNN在工业生产中的 性。Murauer等对比了Gradient Boosting模型和 实用性。AlexNet在医疗诊断Is-7、目标检测I&1 Extra Trees模型对音乐流派多维数字特征的提取 人脸识别2o等领域有着广泛的应用,AlexNet的 能力,证明了两个模型能够有效识别音乐流派特 网络结构如图1所示。 征信息。但常用的机器学习音乐流派识别模型存 卷积11×11s496/线性整流函数 在容易过拟合的问题,在完成一定数据量的训练 之后,输入更多的数据进行训练,无法得到更好 最大池化3×3s2 的扩展。因此常用的机器学习音乐流派识别模型 局部响应归一化 在处理大量的训练样本时表现较差。 卷积5×5s1256/线性整流函数 近年来,学者们尝试使用深度学习模型来提 高音乐流派自动识别的准确率,采用循环神经网 最大池化3×3s2 络(recurrent neural network,RNN)构建深度学习 局部响应归一化 音乐流派识别模型逐渐成为当前的研究热点。 卷积3×3s1384/线性整流函数 Dai等提出了融合段特征的概念,验证了音乐 特征分段提取的有效性,成功将长短时记忆网 卷积3×3s1384/线性整流函数 络(long short-term memory,LSTM)引入音乐流派 卷积3×3s1256/线性整流函数 识别领域。Jakubik)采用音乐长片段和短片段 最大池化3×3s2 两种数据格式进行模型训练,建立了有效的LSTM 和门控循环单元(gated recurrent unit,GRU)音乐 局部响应归一化 流派识别模型,并将LSTM模型和GRU模型进 全连接4096/线性整流函数 行了对比,在GTZAN数据集上,GRU模型取得 全连接4096/线性整流函数 了更高的音乐流派识别准确率。但是LSTM和 GU难以表达具有良好区分度的音乐特征⑧,因 全连接1000 此LSTM和GRU在音乐流派识别领域表现不够 图1 AlexNet网络结构 理想。而图像识别领域中的深度卷积神经网络 Fig.1 AlexNet network structure (deep convolutional neural network,DCNN)模型具 为了避免网络在训练过程中出现过拟合现 有权值共享和良好的局部感知特性,能够学习 象,AlexNet在全连接层间应用Dropout。在进行 音乐的频谱图像中局部细腻的音乐流派特征和 前向传播时以概率p=0.5随机删除网络中隐藏 频率节奏等变化。因此本文在对比了AlexNet0、 层的神经元。然后进行反向传播,更新参数,恢 VGGNet16u、VGGNet199W、GoogLeNet21和Res- 复被删除的神经元,再随机删除神经元,重复以 Net-34B11后,选择了参数较少,参数空间较小, 上过程,保持输入输出的神经元数量不变,减少 不易导致过拟合和梯度消失的AlexNet!做出增 神经元间的相互作用。Dropout的计算过程如式 强,基于增强的AlexNet构建了深度卷积神经网 (1)(4)所示。 络音乐流派识别(deep convolutional neural net- work music genre recognition,DCNN-MGR)模型, ~Bernoulli(p) (1) 旨在进一步提高机器学习模型对音乐流派自动 0=少xy0 (2)
相同的方式进行数字特征提取,利用在训练阶段 得到的分类器对提取到的数字特征进行计算并评 估流派。 常用的机器学习音乐流派识别模型主要有支 持向量机 (support vector machine,SVM) 模型、K- 近邻 (K-nearest neighbor,KNN) 模型、梯度提升 (gradient boosting) 模型和极端随机树 (extra trees) 模型。邵曦等[1] 利用音乐的梅尔频率倒谱 系数 (Mel frequency cepstrum coefficient, MFCC) 特 征构造了 SVM 模型,对 5 个流派的音乐进行识 别,取得了 81.20% 的识别准确率。Ali 等 [2] 将 MFCC 特征输入 KNN 模型,在 GTZAN 数据集[3] 上进行 实验,验证了 KNN 模型对音乐流派识别的有效 性。Murauer 等 [4] 对比了 Gradient Boosting 模型和 Extra Trees 模型对音乐流派多维数字特征的提取 能力,证明了两个模型能够有效识别音乐流派特 征信息。但常用的机器学习音乐流派识别模型存 在容易过拟合的问题,在完成一定数据量的训练 之后,输入更多的数据进行训练,无法得到更好 的扩展。因此常用的机器学习音乐流派识别模型 在处理大量的训练样本时表现较差[5]。 近年来,学者们尝试使用深度学习模型来提 高音乐流派自动识别的准确率,采用循环神经网 络 (recurrent neural network,RNN) 构建深度学习 音乐流派识别模型逐渐成为当前的研究热点。 Dai 等 [6] 提出了融合段特征的概念,验证了音乐 特征分段提取的有效性,成功将长短时记忆网 络 (long short-term memory, LSTM) 引入音乐流派 识别领域。Jakubik[7] 采用音乐长片段和短片段 两种数据格式进行模型训练,建立了有效的 LSTM 和门控循环单元 (gated recurrent unit,GRU) 音乐 流派识别模型,并将 LSTM 模型和 GRU 模型进 行了对比,在 GTZAN 数据集上,GRU 模型取得 了更高的音乐流派识别准确率。但是 LSTM 和 GRU 难以表达具有良好区分度的音乐特征[8] ,因 此 LSTM 和 GRU 在音乐流派识别领域表现不够 理想。而图像识别领域中的深度卷积神经网络 (deep convolutional neural network,DCNN) 模型具 有权值共享和良好的局部感知特性[9] ,能够学习 音乐的频谱图像中局部细腻的音乐流派特征和 频率节奏等变化。因此本文在对比了 AlexNet[10] 、 VGGNet16[11] 、VGGNet19[11] 、GoogLeNet[12] 和 ResNet-34B[13] 后,选择了参数较少,参数空间较小, 不易导致过拟合和梯度消失的 AlexNet[14] 做出增 强,基于增强的 AlexNet 构建了深度卷积神经网 络音乐流派识别 (deep convolutional neural network music genre recognition,DCNN-MGR) 模型, 旨在进一步提高机器学习模型对音乐流派自动 识别的准确率。 1 AlexNet 网络 Krizhevsky 等 [10] 提出了由 5 个卷积层、3 个最 大池化层、3 个局部响应归一化 (local response normalization,LRN) 层、3 个全连接层堆叠成的 AlexNet。AlexNet 使用线性整流 (rectified linear unit,ReLU) 函数作为卷积层和全连接层的激活 函数,有效解决了网络较深时的梯度消失问题。 AlexNet 利用 GPU 的并行计算来处理神经网络训 练时大量的矩阵运算,使卷积神经网络的训练变 得更加高效,从而增强了 DCNN 在工业生产中的 实用性。AlexNet 在医疗诊断[15-17] 、目标检测[18-19] 、 人脸识别[20] 等领域有着广泛的应用,AlexNet 的 网络结构如图 1 所示。 局部响应归一化 最大池化 3×3 s2 最大池化 3×3 s2 最大池化 3×3 s2 卷积 11×11 s4 96/线性整流函数 卷积 5×5 s1 256/线性整流函数 卷积 3×3 s1 384/线性整流函数 卷积 3×3 s1 384/线性整流函数 卷积 3×3 s1 256/线性整流函数 局部响应归一化 全连接 4 096/线性整流函数 全连接 4 096/线性整流函数 全连接 1 000 局部响应归一化 图 1 AlexNet 网络结构 Fig. 1 AlexNet network structure p = 0.5 为了避免网络在训练过程中出现过拟合现 象,AlexNet 在全连接层间应用 Dropout。在进行 前向传播时以概率 随机删除网络中隐藏 层的神经元。然后进行反向传播,更新参数,恢 复被删除的神经元,再随机删除神经元,重复以 上过程,保持输入输出的神经元数量不变,减少 神经元间的相互作用。Dropout 的计算过程如式 (1)~(4) 所示。 r (l) j ∼ Bernoulli(p) (1) y˜ (l) = r (l) × y (l) (2) 第 4 期 刘万军,等:基于增强 AlexNet 的音乐流派识别研究 ·751·
·752· 智能系统学报 第15卷 24=wy+4 (3) 卷积11×11s464/带泄露整流函数 y4=f2 (4) 最大池化3×3s2 式中:l表示隐藏层数;Bernoulli(p)生成概率向量 r;表示以概率r使得部分神经元停止工作后的 卷积5×5s1192带泄露整流函数 中间结果:z表示输入到1层中的向量;w和b表 最大池化3×3s2 示1层的权重和偏差。 卷积3×3s1384/带泄露整流函数 2DCNN-MGR模型 卷积3×3s1384带泄露整流函数 卷积3×3s1256带泄露整流函数 2.1 AlexNet-enhanced网络 2.1.1网络结构及模型 最大池化3×3s2 本文在AlexNet的基础上,针对DCNN的音 全连接4096/双曲正切函数 乐特征提取能力和频谱识别性能,对网络性能进 全连接4096/双曲正切函数 行增强并改进其部分结构,提出了AlexNet-en- 全连接10 hanced。AlexNet-enhanced由5个卷积层、3个最 大池化层、3个全连接层及Softplus分类器构成, Softplus分类器 AlexNet-enhanced的网络结构如图2所示,网络模 图2 AlexNet-enhanced网络结构 型如图3所示。 Fig.2 AlexNet-enhanced network structure 输入 57×57×64 227×277×1 29×29×6429×29×192 15×15×384 Softplus 15×15×192 x15x385x5x25 ×8×2564096409610 分类器 卷积 卷积 全连接全连接 全连接 卷积 最大池化 卷积 最大池化 最大池化 图3 AlexNet--enhanced网络模型 Fig.3 AlexNet-enhanced network model 2.1.2网络性能增强 中不断增强网络对音乐特征的提取效果。 增强1 AlexNet--enhanced将卷积层的激活函 2.1.3网络结构改进 数 一ReLU函数替换为带泄露整流(leaky recti- 改进1为了使网络更易并行化,AlexNet- fied linear unit,.Leaky ReLU)函数。Leaky ReLU激 enhanced去掉了对音乐特征识别泛化能力增益较 活函数计算公式四为 弱的LRN层。 ={20&0 =max(0.01x,x)(5) 改进2 AlexNet-enhanced将第1个卷积层的 输出节点减少至64个,第2个卷积层的输出节点 Leaky ReLU函数可以有效解决ReLU函数带 减少至192个,最后一个全连接层的输出节点减 来的神经元坏死问题。Leaky ReLU函数的导数 少至10个,通过减少冗余参数来加速收敛网络, 不为零,可以减少静默神经元的出现。同时其自 减少网络的训练时间。 变量在负区间取值时,输出值不为0,避免了ReLU 函数进入负区间后神经元不学习的问题。因此, 改进3 AlexNet-enhanced在提取特征的全连 在特征提取过程中,Leaky ReLU函数能够有效提 接层后加入Softplus21分类器进行特征分类。 高特征信息的完整性和利用率。 Softplus计算公式为 增强2 AlexNet-enhanced将全连接层的激活 (x)=log(1+e*) (7) 函数ReLU函数替换为双曲正切(hyperbolic tan- Softplus具有单侧抑制、相对宽阔的兴奋边界 gent,Tanh)函数。Tanh激活函数计算公式为 等优点,其在定义域内连续可导,使得梯度可在 f(r)=sinh()e-e 整个定义域内传播,更接近生物特性。 (6) cosh(x)e+e-r 2.2模型构建 Tanh函数在自然语言处理领域有着广泛的 2.2.1模型流程图 应用,其函数的零均值化处理,可以在迭代过程 DCNN-MGR模型通过快速傅里叶变换(fast
z (l+1) i = w (l+1) i y˜ l + b (l+1) i (3) y (l+1) i = f(z (l+1) i ) (4) l Bernoulli(p) r y˜ r z l w b l 式中: 表示隐藏层数; 生成概率向量 ; 表示以概率 使得部分神经元停止工作后的 中间结果; 表示输入到 层中的向量; 和 表 示 层的权重和偏差。 2 DCNN-MGR 模型 2.1 AlexNet-enhanced 网络 2.1.1 网络结构及模型 本文在 AlexNet 的基础上,针对 DCNN 的音 乐特征提取能力和频谱识别性能,对网络性能进 行增强并改进其部分结构,提出了 AlexNet-enhanced。AlexNet-enhanced 由 5 个卷积层、3 个最 大池化层、3 个全连接层及 Softplus 分类器构成, AlexNet-enhanced 的网络结构如图 2 所示,网络模 型如图 3 所示。 全连接 10 Softplus 分类器 最大池化 3×3 s2 最大池化 3×3 s2 最大池化 3×3 s2 卷积 11×11 s4 64/带泄露整流函数 卷积 5×5 s1 192/带泄露整流函数 卷积 3×3 s1 384/带泄露整流函数 卷积 3×3 s1 384/带泄露整流函数 卷积 3×3 s1 256/带泄露整流函数 全连接 4 096/双曲正切函数 全连接 4 096/双曲正切函数 图 2 AlexNet-enhanced 网络结构 Fig. 2 AlexNet-enhanced network structure 输入 227×277×1 57×57×64 29×29×64 29×29×192 15×15×192 15×15×384 15×15×384 15×15×256 8×8×256 … 卷积 最大池化 卷积 最大池化 卷积 卷积 卷积 最大池化 全连接 全连接 全连接 4 096 4 096 10 Softplus 分类器 … … … … … … … 图 3 AlexNet-enhanced 网络模型 Fig. 3 AlexNet-enhanced network model 2.1.2 网络性能增强 增强 1 AlexNet-enhanced 将卷积层的激活函 数−ReLU 函数替换为带泄露整流 (leaky rectified linear unit,Leaky ReLU) 函数。Leaky ReLU 激 活函数计算公式[21] 为 f(x) = { 0.01x, x < 0 x, x ⩾ 0 } = max(0.01x, x) (5) Leaky ReLU 函数可以有效解决 ReLU 函数带 来的神经元坏死问题。Leaky ReLU 函数的导数 不为零,可以减少静默神经元的出现。同时其自 变量在负区间取值时,输出值不为 0,避免了 ReLU 函数进入负区间后神经元不学习的问题。因此, 在特征提取过程中,Leaky ReLU 函数能够有效提 高特征信息的完整性和利用率。 增强 2 AlexNet-enhanced 将全连接层的激活 函数 ReLU 函数替换为双曲正切 (hyperbolic tangent,Tanh) 函数。Tanh 激活函数计算公式为 f(x) = sinh(x) cosh(x) = e x −e −x e x +e −x (6) Tanh 函数在自然语言处理领域有着广泛的 应用,其函数的零均值化处理,可以在迭代过程 中不断增强网络对音乐特征的提取效果。 2.1.3 网络结构改进 改进 1 为了使网络更易并行化,AlexNetenhanced 去掉了对音乐特征识别泛化能力增益较 弱的 LRN 层。 改进 2 AlexNet-enhanced 将第 1 个卷积层的 输出节点减少至 64 个,第 2 个卷积层的输出节点 减少至 192 个,最后一个全连接层的输出节点减 少至 10 个,通过减少冗余参数来加速收敛网络, 减少网络的训练时间。 改进 3 AlexNet-enhanced 在提取特征的全连 接层后加入 Softplus[ 2 2 ] 分类器进行特征分类。 Softplus 计算公式为 ζ(x) = log(1+e x ) (7) Softplus 具有单侧抑制、相对宽阔的兴奋边界 等优点,其在定义域内连续可导,使得梯度可在 整个定义域内传播,更接近生物特性[23]。 2.2 模型构建 2.2.1 模型流程图 DCNN-MGR 模型通过快速傅里叶变换 (fast ·752· 智 能 系 统 学 报 第 15 卷
第4期 刘万军,等:基于增强AlexNet的音乐流派识别研究 ·753· fourier transform,FFT)P提取音频信息,生成可以 频谱切片以x轴表示时间,y轴表示频率,其 输人DCNN的频谱,并将频谱进行切割后输入 中顶部为最高频率,底部为最低频率;以灰度显 DCNN。以模型完成训练集中全部音乐文件的一 示频率的缩放幅度,其中白色为最大值,黑色为 次训练,验证集中全部音乐文件的一次验证,作 最小值。 为一个批次,多次迭代训练模型和验证模型,在 达到指定批次时输出音乐流派识别模型。模型流 3实验及结果分析 程如图4所示。 3.1实验环境 开始 本文实验主要在Intel Core i72.9 GHz CPU+ Nvidia GeForce GTX2080 Ti GPU配置的服务器上 输人训练集和 验证集 进行,另外采用基于Python语言的TensorFlow深 度学习框架构建DCNN进行对比实验。 FFT提取音频信息 3.2数据集 GTZAN数据集是音乐流派识别领域常用的 生成频谱 公开数据集,其音乐数据分为10个流派,分别为 频谱切制 流行、古典、金属、爵士、雷鬼、蓝调、迪斯科、嘻 哈、乡村、摇滚。 输入AlexNet-enhanced 可 GTZAN数据集共有1000条音乐数据,本文 训练模型 实验以800条音乐数据作为训练集,100条音乐 数据作为验证集进行监督学习,100条音乐数据 验证模型 作为测试集进行音乐流派识别准确率测试。 3.3DCNN对比实验 是否达到指定批次 3.3.1网络评价指标 Y 本文采用频谱识别准确率和频谱识别损失函 输出模型 数值作为DCNN的性能评价指标。其中频谱识 结束 别准确率指网络对频谱切片的识别准确率,频谱 识别损失函数为适用于多分类问题的交叉熵函 图4DCNN-MGR模型流程图 Fig.4 DCNN-MGR model flow chart 数。交叉熵函数计算公式为 2.2.2音频处理 (8) DCNN-MGR模型提取音频信息的方法为:通 ls=-rlbg9 i= 过将音频数据的声道由立体声转换为单声道,降 式中:n表示样本数:i表示类别数;p(x)是分布目 低信息冗余;通过FFT将时域数据转换到频域, 标;q(x)是预测的匹配分布,可以将交叉嫡函数看 使数据更加简单和紧凑,生成频谱。模型将频谱 作通过q(x)表示p(x)的困难程度,交叉熵函数的 切分为227像素×227像素的切片后输入DCNN, 函数值越小,网络收敛效果越好。 以此更加拟合人类的学习和认知规律。音频处理 3.3.2实验结果分析 得到的频谱切片如图5所示。 AlexNet-enhanced与常用DCNN以学习率 0.001迭代31000次的训练集频谱识别准确率变 化曲线如图6所示。在迭代31000次后的训练集 频谱识别准确率见表1。DCNN通过梯度下降算 法训练网络,迭代更新权重参数,网络从欠拟合 趋向于最佳拟合),应用更新后的权重参数计算 频谱识别准确率。随着迭代次数的增加,频谱识 别准确率逐渐提升,并趋于稳定。根据图6看出, 各网络迭代31000次后,训练集频谱识别准确率 图5音频处理得到的频谱切片图 均趋于稳定,AlexNet-.enhanced的训练集频谱识别 Fig.5 Spectrum sliced image obtained by audio processing 准确率高于常用DCNN。表I数据表明,AlexNet-
fourier transform,FFT)[24] 提取音频信息,生成可以 输入 DCNN 的频谱,并将频谱进行切割后输入 DCNN。以模型完成训练集中全部音乐文件的一 次训练,验证集中全部音乐文件的一次验证,作 为一个批次,多次迭代训练模型和验证模型,在 达到指定批次时输出音乐流派识别模型。模型流 程如图 4 所示。 输入训练集和 验证集 FFT提取音频信息 开始 结束 频谱切割 输入AlexNet-enhanced 生成频谱 训练模型 验证模型 输出模型 是否达到指定批次 N Y 图 4 DCNN-MGR 模型流程图 Fig. 4 DCNN-MGR model flow chart 2.2.2 音频处理 DCNN-MGR 模型提取音频信息的方法为:通 过将音频数据的声道由立体声转换为单声道,降 低信息冗余;通过 FFT 将时域数据转换到频域, 使数据更加简单和紧凑,生成频谱。模型将频谱 切分为 227 像素×227 像素的切片后输入 DCNN, 以此更加拟合人类的学习和认知规律。音频处理 得到的频谱切片如图 5 所示。 图 5 音频处理得到的频谱切片图 Fig. 5 Spectrum sliced image obtained by audio processing 频谱切片以 x 轴表示时间, y 轴表示频率,其 中顶部为最高频率,底部为最低频率;以灰度显 示频率的缩放幅度,其中白色为最大值,黑色为 最小值。 3 实验及结果分析 3.1 实验环境 本文实验主要在 Intel Core i7 2.9 GHz CPU + Nvidia GeForce GTX 2 080 Ti GPU 配置的服务器上 进行,另外采用基于 Python 语言的 TensorFlow 深 度学习框架构建 DCNN 进行对比实验。 3.2 数据集 GTZAN 数据集是音乐流派识别领域常用的 公开数据集,其音乐数据分为 10 个流派,分别为 流行、古典、金属、爵士、雷鬼、蓝调、迪斯科、嘻 哈、乡村、摇滚。 GTZAN 数据集共有 1 000 条音乐数据,本文 实验以 800 条音乐数据作为训练集,100 条音乐 数据作为验证集进行监督学习,100 条音乐数据 作为测试集进行音乐流派识别准确率测试。 3.3 DCNN 对比实验 3.3.1 网络评价指标 本文采用频谱识别准确率和频谱识别损失函 数值作为 DCNN 的性能评价指标。其中频谱识 别准确率指网络对频谱切片的识别准确率,频谱 识别损失函数为适用于多分类问题的交叉熵函 数。交叉熵函数计算公式为 loss = − ∑n i=1 p(xi)logq(xi) (8) n i p(x) q(x) q(x) p(x) 式中: 表示样本数; 表示类别数; 是分布目 标; 是预测的匹配分布,可以将交叉熵函数看 作通过 表示 的困难程度,交叉熵函数的 函数值越小,网络收敛效果越好。 3.3.2 实验结果分析 AlexNet-enhanced 与常用 DCNN 以学习率 0.001 迭代 31 000 次的训练集频谱识别准确率变 化曲线如图 6 所示。在迭代 31 000 次后的训练集 频谱识别准确率见表 1。DCNN 通过梯度下降算 法训练网络,迭代更新权重参数,网络从欠拟合 趋向于最佳拟合[25] ,应用更新后的权重参数计算 频谱识别准确率。随着迭代次数的增加,频谱识 别准确率逐渐提升,并趋于稳定。根据图 6 看出, 各网络迭代 31 000 次后,训练集频谱识别准确率 均趋于稳定,AlexNet-enhanced 的训练集频谱识别 准确率高于常用 DCNN。表 1 数据表明,AlexNet- 第 4 期 刘万军,等:基于增强 AlexNet 的音乐流派识别研究 ·753·
·754· 智能系统学报 第15卷 enhanced的训练集频谱识别准确率比常用DCNN AlexNet--enhanced的训练集频谱识别损失函数值 高出0.50%~4.05%。 低于常用DCNN。表2数据表明,AlexNet-en- hanced的训练集频谱识别损失函数值比常用DCNN 100 低0.0281~0.1324。 80 表2各网络训练集频谱识别损失函数值 60 Table 2 Loss of each network in the training set -AlexNet VGGNet16 网络 损失函数值 VGGNet19 Goodlenet ResNet-34B AlexNet 0.1224 AlexNet-enhanced10 VGGNet16 0.1015 0 0.51.01.52.02.53.03.5 迭代次数 VGGNet19 0.2058 图6各网络训练集频谱识别准确率变化曲线 GoogLeNet 0.1364 Fig.6 Spectrum recognition accuracy curve of each net- ResNet-34B 0.1471 work in the training set AlexNet-enhanced 0.0734 表1各网络训练集频谱识别准确率 Table 1 Spectrum recognition accuracy of each network in AlexNet-enhanced与常用DCNN以学习率 the training set 0.001迭代31000次的验证集频谱识别准确率变 网络 频谱识别准确率% 化曲线如图8所示。在迭代31000次后的验证集 AlexNet 97.40 频谱识别准确率见表3。 VGGNet16 98.93 100 VGGNet19 97.93 80 GoogLeNet 95.38 60 ResNet-34B AlexNet 95.66 40 VGGNet16 VGGNet19 AlexNet-enhanced 99.43 GoodLeNet 20 ResNet-34B AlexNet-enhanced AlexNet-enhanced与常用DCNN以学习率 0.001迭代31000次的训练集频谱识别损失函数 0 0.5 1.0 1.52.0 2.53.0 35*10 迭代次数 值变化曲线如图7所示。在迭代31000次后的训 图8各网络验证集频谱识别准确率变化曲线 练集频谱识别损失函数值见表2。 Fig.8 Spectrum recognition accuracy curve of each net- work in the validation set 2.5 .AlexNet 2.0 VGGNet16 表3各网络验证集频谱识别准确率 VGGNet19 Table 3 Spectrum recognition accuracy of each network in GoodLeNet 1.5 ResNet-34B the validation set AlexNet-enhanced 1.0 网络 频谱识别准确率% 0.5 AlexNet 86.26 VGGNet16 86.31 0 0.5 101520253.035x10 迭代次数 VGGNet19 86.11 图7各网络训练集频谱识别损失函数值变化曲线 GoogLeNet 81.18 Fig.7 Loss curve of each network in the training set ResNet-34B 84.67 DCNN在最小化频谱识别损失函数值时,通 AlexNet-enhanced 88.16 过梯度下降算法逐步迭代求解。随着迭代次数的 增加,频谱识别损失函数值逐渐下降,并趋于稳 根据图8可以看出,各网络在迭代31000次 定。根据图7可以看出,各网络在迭代31000次 后,对验证集音乐的频谱识别准确率趋于稳定, 后,训练集频谱识别损失函数值均趋于稳定, 且AlexNet-enhanced的准确率达到了最高,表3数
enhanced 的训练集频谱识别准确率比常用 DCNN 高出 0.50%~4.05%。 100 80 60 40 20 0 0.5 1.0 1.5 迭代次数 频谱识别准确率/% 2.0 AlexNet AlexNet-enhanced VGGNet16 VGGNet19 GoodLeNet ResNet-34B 2.5 3.0 3.5 × 104 图 6 各网络训练集频谱识别准确率变化曲线 Fig. 6 Spectrum recognition accuracy curve of each network in the training set 表 1 各网络训练集频谱识别准确率 Table 1 Spectrum recognition accuracy of each network in the training set 网络 频谱识别准确率/% AlexNet 97.40 VGGNet16 98.93 VGGNet19 97.93 GoogLeNet 95.38 ResNet-34B 95.66 AlexNet-enhanced 99.43 AlexNet-enhanced 与常用 DCNN 以学习率 0.001 迭代 31 000 次的训练集频谱识别损失函数 值变化曲线如图 7 所示。在迭代 31 000 次后的训 练集频谱识别损失函数值见表 2。 2.5 2.0 1.5 1.0 0.5 0 0.5 1.0 1.5 迭代次数 损失函数值 2.0 AlexNet AlexNet-enhanced VGGNet16 VGGNet19 GoodLeNet ResNet-34B 2.5 3.0 3.5 × 104 图 7 各网络训练集频谱识别损失函数值变化曲线 Fig. 7 Loss curve of each network in the training set DCNN 在最小化频谱识别损失函数值时,通 过梯度下降算法逐步迭代求解。随着迭代次数的 增加,频谱识别损失函数值逐渐下降,并趋于稳 定。根据图 7 可以看出,各网络在迭代 31 000 次 后,训练集频谱识别损失函数值均趋于稳定, AlexNet-enhanced 的训练集频谱识别损失函数值 低于常用 DCNN。表 2 数据表明,AlexNet-enhanced 的训练集频谱识别损失函数值比常用 DCNN 低 0.028 1~0.132 4。 表 2 各网络训练集频谱识别损失函数值 Table 2 Loss of each network in the training set 网络 损失函数值 AlexNet 0.122 4 VGGNet16 0.101 5 VGGNet19 0.205 8 GoogLeNet 0.136 4 ResNet-34B 0.147 1 AlexNet-enhanced 0.073 4 AlexNet-enhanced 与常用 DCNN 以学习率 0.001 迭代 31 000 次的验证集频谱识别准确率变 化曲线如图 8 所示。在迭代 31 000 次后的验证集 频谱识别准确率见表 3。 100 80 60 40 20 0 0.5 1.0 1.5 迭代次数 频谱识别准确率/% 2.0 AlexNet AlexNet-enhanced VGGNet16 VGGNet19 GoodLeNet ResNet-34B 2.5 3.0 3.5 × 104 图 8 各网络验证集频谱识别准确率变化曲线 Fig. 8 Spectrum recognition accuracy curve of each network in the validation set 表 3 各网络验证集频谱识别准确率 Table 3 Spectrum recognition accuracy of each network in the validation set 网络 频谱识别准确率/% AlexNet 86.26 VGGNet16 86.31 VGGNet19 86.11 GoogLeNet 81.18 ResNet-34B 84.67 AlexNet-enhanced 88.16 根据图 8 可以看出,各网络在迭代 31 000 次 后,对验证集音乐的频谱识别准确率趋于稳定, 且 AlexNet-enhanced 的准确率达到了最高,表 3 数 ·754· 智 能 系 统 学 报 第 15 卷
第4期 刘万军,等:基于增强AlexNet的音乐流派识别研究 ·755· 据表明,AlexNet--enhanced的验证集频谱识别准确 他机器学习模型对GTZAN数据集的测试集音乐 率比常用DCNN高出1.85%6.98%。 进行流派识别,识别准确率见表5。 AlexNet-.enhanced与常用DCNN以学习率 表5各模型测试集音乐识别准确率 0.001迭代31000次的验证集频谱识别损失函数 Table 5 Music recognition accuracy of each model in the 值变化曲线如图9所示。在迭代31000次后的验 test set 证集频谱识别损失函数值见表4。 模型 准确率% 2.5 SVM 73.00 AlexNet 2.0 VGGNet16 KNN☒ 59.00 VGGNet19 GoodLeNet -ResNet-34B Gradient Boosting 69.00 AlexNet-enhanced 10 Extra Trees4 72.00 0.5 LSTM 74.00 GRU I 75.00 0 0.5 10520253035×10 迭代次数 DCNN-MGR(AlexNet) 76.00 DCNN-MGR(VGGNet16) 77.00 图9各网络验证集频谱识别损失函数值变化曲线 Fig.9 Loss curve of each network in the validation set DCNN-MGR(VGGNet19) 76.00 表4各网络验证集频谱识别损失函数值 DCNN-MGR(GoogLeNet) 70.00 Table 4 Loss of each network in the validation set DCNN-MGR(ResNet-34B) 72.00 网络 损失函数值 DCNN-MGR(AlexNet-enhanced) 79.00 AlexNet 0.5874 实验结果表明,基于AlexNet-.enhanced的 VGGNet16 0.7008 DCNN-MGR模型在GTZAN数据集中测试集上 VGGNet19 0.6693 的音乐流派识别准确率达到79.00%,比基于其他 GoogLeNet 0.7762 DCNN的DCNN-MGR模型高出2.00%-9.00%;比 ResNet-34B 0.5995 其他机器学习模型高出4.00%~20.00%。由此可 AlexNet-enhanced 0.4653 以看出,相较于基于其他DCNN的DCNN-MGR 模型,基于AlexNet-enhanced的DCNN-MGR模型 根据图9可以看出,各网络在迭代31000次 具有更高的音乐流派识别准确率;相较于其他机 后,对验证集音乐的频谱识别损失函数值趋于稳 器学习模型,基于AlexNet-enhanced的DCNN- 定,且AlexNet-enhanced的损失函数值降到了最 MGR模型具有更高的音乐流派识别准确率。 低,表4数据表明,AlexNet-enhanced的验证集频 谱识别损失函数值比常用DCNN低0.1221~0.3109。 4结束语 对比实验结果表明,DCNN在经过31O00次 本文针对机器学习模型对音乐流派特征识别 迭代之后,频谱识别准确率和频谱识别损失函数 能力较弱的问题,提出了基于增强AlexNet的音 值均趋于稳定。AlexNet-.enhanced的训练集频谱 乐流派识别DCNN-MGR模型。一方面通过融合 识别准确率和验证集频谱识别准确率分别达到 Leaky ReLU函数、Tanh函数和Softplus分类器对 了99.43%和88.16%,训练集频谱识别损失函数 AlexNet做出增强,并对AlexNet做出了部分网络 值和验证集频谱识别损失函数值分别降低到0.0734 结构调整,得到了频谱识别准确率更高,网络收 和0.4653。由此可以看出,AlexNet-enhanced具有 敛效果更好的DCNN;另一方面通过FFT提取音 更好的频谱识别性能。 频信息,生成可以输入DCNN的频谱,并将频谱 3.4机器学习模型对比实验 进行切割后输入DCNN进行深度学习,以此构建 将基于AlexNet--enhanced的DCNN-MGR模 音乐流派识别模型。将本文模型与其他机器学习 型和基于AlexNet、VGGNetl6、VGGNetl9 模型在GTZAN数据集上进行对比实验,实验结 GoogLeNet、ResNet-.34B的DCNN-MGR模型与其 果表明,对于音乐流派的识别,基于AlexNet-.en-
据表明,AlexNet-enhanced 的验证集频谱识别准确 率比常用 DCNN 高出 1.85%~6.98%。 AlexNet-enhanced 与常用 DCNN 以学习率 0.001 迭代 31 000 次的验证集频谱识别损失函数 值变化曲线如图 9 所示。在迭代 31 000 次后的验 证集频谱识别损失函数值见表 4。 2.5 2.0 1.5 1.0 0.5 0 0.5 1.0 1.5 迭代次数 损失函数值 2.0 AlexNet AlexNet-enhanced VGGNet16 VGGNet19 GoodLeNet ResNet-34B 2.5 3.0 3.5 × 104 图 9 各网络验证集频谱识别损失函数值变化曲线 Fig. 9 Loss curve of each network in the validation set 表 4 各网络验证集频谱识别损失函数值 Table 4 Loss of each network in the validation set 网络 损失函数值 AlexNet 0.587 4 VGGNet16 0.700 8 VGGNet19 0.669 3 GoogLeNet 0.776 2 ResNet-34B 0.599 5 AlexNet-enhanced 0.465 3 根据图 9 可以看出,各网络在迭代 31 000 次 后,对验证集音乐的频谱识别损失函数值趋于稳 定,且 AlexNet-enhanced 的损失函数值降到了最 低,表 4 数据表明,AlexNet-enhanced 的验证集频 谱识别损失函数值比常用 DCNN 低 0.122 1~0.310 9。 对比实验结果表明,DCNN 在经过 31 000 次 迭代之后,频谱识别准确率和频谱识别损失函数 值均趋于稳定。AlexNet-enhanced 的训练集频谱 识别准确率和验证集频谱识别准确率分别达到 了 99.43% 和 88.16%,训练集频谱识别损失函数 值和验证集频谱识别损失函数值分别降低到 0.073 4 和 0.465 3。由此可以看出,AlexNet-enhanced 具有 更好的频谱识别性能。 3.4 机器学习模型对比实验 将基于 AlexNet-enhanced 的 DCNN-MGR 模 型和基于 AlexNet、 VGGNet16、 VGGNet19、 GoogLeNet、ResNet-34B 的 DCNN-MGR 模型与其 他机器学习模型对 GTZAN 数据集的测试集音乐 进行流派识别,识别准确率见表 5。 表 5 各模型测试集音乐识别准确率 Table 5 Music recognition accuracy of each model in the test set 模型 准确率/% SVM [1] 73.00 KNN [2] 59.00 Gradient Boosting [4] 69.00 Extra Trees [4] 72.00 LSTM [7] 74.00 GRU [7] 75.00 DCNN-MGR(AlexNet) 76.00 DCNN-MGR(VGGNet16) 77.00 DCNN-MGR(VGGNet19) 76.00 DCNN-MGR(GoogLeNet) 70.00 DCNN-MGR(ResNet-34B) 72.00 DCNN-MGR(AlexNet-enhanced) 79.00 实验结果表明,基于 AlexNet-enhanced 的 DCNN-MGR 模型在 GTZAN 数据集中测试集上 的音乐流派识别准确率达到 79.00%,比基于其他 DCNN 的 DCNN-MGR 模型高出 2.00%~9.00%;比 其他机器学习模型高出 4.00%~20.00%。由此可 以看出,相较于基于其他 DCNN 的 DCNN-MGR 模型,基于 AlexNet-enhanced 的 DCNN-MGR 模型 具有更高的音乐流派识别准确率;相较于其他机 器学习模型,基于 AlexNet-enhanced 的 DCNNMGR 模型具有更高的音乐流派识别准确率。 4 结束语 本文针对机器学习模型对音乐流派特征识别 能力较弱的问题,提出了基于增强 AlexNet 的音 乐流派识别 DCNN-MGR 模型。一方面通过融合 Leaky ReLU 函数、Tanh 函数和 Softplus 分类器对 AlexNet 做出增强,并对 AlexNet 做出了部分网络 结构调整,得到了频谱识别准确率更高,网络收 敛效果更好的 DCNN;另一方面通过 FFT 提取音 频信息,生成可以输入 DCNN 的频谱,并将频谱 进行切割后输入 DCNN 进行深度学习,以此构建 音乐流派识别模型。将本文模型与其他机器学习 模型在 GTZAN 数据集上进行对比实验,实验结 果表明,对于音乐流派的识别,基于 AlexNet-en- 第 4 期 刘万军,等:基于增强 AlexNet 的音乐流派识别研究 ·755·
·756· 智能系统学报 第15卷 hanced的DCNN-MGR模型具有较高的准确率, current neural network[J].CAAI transactions on intelli- 证明了本文模型的有效性。本文模型在GTZAN gent systems,2019,141)y:158-164 数据集上取得了79%的音乐流派识别准确率,仍 [10]KRIZHEVSKY A.SUTSKEVER I.HINTON G E.Im- 有较大的提高空间,下一步将充分发挥DCNN的 agenet classification with deep convolutional neural net- 特性以进一步提高音乐流派识别的准确率。 works[C]//Advances in neural Information Processing 参考文献: Systems.Lake Tahoe,USA,2012:1097-1105. [11]SIMONYAN K,ZISSERMAN A.Very deep convolu- [1]邵曦,姚磊.基于SVM主动学习的音乐分类).计算机 tional networks for large-scale image recognition[J]. 工程与应用.2016.52(6):127-133. Computer science,2014:1409-1556. SHAO Xi,YAO Lei.Music classification based on SVM [12]SZEGEDY C,LIU W,JIA Y,et al.Going deeper with active learning[J].Computer engineering and applications, convolutions[C]//Proceedings of the IEEE Conference on 2016.52(6):127-133. Computer Vision and Pattern Recognition.Boston,USA, [2]ALI M A,SIDDIQUI Z A.Automatic music genres classi- 2015:1-9 fication using machine learning[J].International journal of [13]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. advanced computer science and applications,2017,8(8): Deep residual learning for image recognition[C]//Proceed- 337-344 ings of the IEEE Conference on Computer Vision and [3]TZANETAKIS G,COOK P.Musical genre classification Pattern Recognition.Las Vegas,USA,2016:770-778. of audio signals[J].IEEE transactions on speech and audio [14]吴进,钱雪忠.紧凑型深度卷积神经网络在图像识别中 processing,2002,10(5:293-302 的应用.计算机科学与探索,2019,13(2):275-284。 [4]MURAUER B,SPECHT G.Detecting music genre using WU Jin,QIAN Xuezhong.Compact deep convolutional extreme gradient boosting[C]//Companion of the The Web neural network in image recognition[J].Journal of fronti- Conference 2018.Lyon,France,2018:1923-1927. ers of computer science and technology,2019,13(2): [5]焦李成,杨淑媛,刘芳,等.神经网络七十年:回顾与展 275-284 望几.计算机学报,2016.398):1697-1716 [15]吕鸿蒙,赵地,迟学斌.基于增强AlexNet的深度学习的 JIAO Licheng,YANG Shuyuan,LIU fang,et al.Seventy 阿尔茨海默病的早期诊断).计算机科学,2017,44(6): years beyond neural networks:retrospect and prospect[J]. 50-60. Chinese journal of computers,2016,39(8):1697-1716. LYU Hongmeng,ZHAO Di,CHI Xuebin.Deep learning [6]DAI Jia.LIANG Shan,XUE Wei.et al.Long short-term for early diagnosis of Alzheimer's disease based on in- memory recurrent neural network based segment features tensive AlexNet[J].Computer science,2017,44(6): for music genre classification[C]//2016 10th International 50-60. Symposium on Chinese Spoken Language Processing. [16]甘岚,郭子涵,王瑶.基于径向变换和改进AlexNet的胃 Tianjin,China,2016:1-5. 肿瘤细胞图像识别方法).计算机应用,2019,39(10): [7]JAKUBIK J.Evaluation of gated recurrent neural net- 2923-2929 works in music classification tasks[C]//International Con- GAN Lan,GUO Zihan,Wang Yao.Gastric tumor cell im- ference on Information Systems Architecture and Techno- age recognition method based on radial transformation logy.Szklarska Poreba,Poland,2017:27-37. [8]马世龙,乌尼日其其格,李小平.大数据与深度学习综 and improved AlexNet[J].Journal of computer applica- 述[).智能系统学报,2016,11(6):728-742. tions,2019,3910):2923-2929. MA Shilong,WUNIRI Qiqige,LI Xiaoping.Deep learn- [I7]刀陈思文,刘玉江,刘冬,等.基于AlexNet模型和自适应 ing with big data:state of the art and development[J]. 对比度增强的乳腺结节超声图像分类】.计算机科学, CAAI transactions on intelligent systems,2016,11(6): 2019,46(6):146-152 728-742. CHEN Siwen,LIU Yujiang,LIU Dong,et al.AlexNet [9]苗北辰,郭为安,汪镭,等.隐式特征和循环神经网络的 model and adaptive contrast enhancement based ultra- 多声部音乐生成系统「J1.智能系统学报,2019,14(1): sound imaging classification[J].Computer science,2019. 158-164 46(6:146-152 MIAO Beichen,GUO Weian,WANG Lei.A polyphony [18]王文秀,傅雨田,董峰,等.基于深度卷积神经网络的红 music generation system based on latent features and a re- 外船只目标检测方法[】.光学学报,2018,38(7)
hanced 的 DCNN-MGR 模型具有较高的准确率, 证明了本文模型的有效性。本文模型在 GTZAN 数据集上取得了 79% 的音乐流派识别准确率,仍 有较大的提高空间,下一步将充分发挥 DCNN 的 特性以进一步提高音乐流派识别的准确率。 参考文献: 邵曦, 姚磊. 基于 SVM 主动学习的音乐分类 [J]. 计算机 工程与应用, 2016, 52(6): 127–133. SHAO Xi, YAO Lei. Music classification based on SVM active learning[J]. Computer engineering and applications, 2016, 52(6): 127–133. [1] ALI M A, SIDDIQUI Z A. Automatic music genres classification using machine learning[J]. International journal of advanced computer science and applications, 2017, 8(8): 337–344. [2] TZANETAKIS G, COOK P. Musical genre classification of audio signals[J]. IEEE transactions on speech and audio processing, 2002, 10(5): 293–302. [3] MURAUER B, SPECHT G. Detecting music genre using extreme gradient boosting[C]//Companion of the The Web Conference 2018. Lyon, France, 2018: 1923−1927. [4] 焦李成, 杨淑媛, 刘芳, 等. 神经网络七十年:回顾与展 望 [J]. 计算机学报, 2016, 39(8): 1697–1716. JIAO Licheng, YANG Shuyuan, LIU fang, et al. Seventy years beyond neural networks: retrospect and prospect[J]. Chinese journal of computers, 2016, 39(8): 1697–1716. [5] DAI Jia, LIANG Shan, XUE Wei, et al. Long short-term memory recurrent neural network based segment features for music genre classification[C]//2016 10th International Symposium on Chinese Spoken Language Processing. Tianjin, China, 2016: 1−5. [6] JAKUBIK J. Evaluation of gated recurrent neural networks in music classification tasks[C]//International Conference on Information Systems Architecture and Technology. Szklarska Poręba, Poland, 2017: 27−37. [7] 马世龙, 乌尼日其其格, 李小平. 大数据与深度学习综 述 [J]. 智能系统学报, 2016, 11(6): 728–742. MA Shilong, WUNIRI Qiqige, LI Xiaoping. Deep learning with big data: state of the art and development[J]. CAAI transactions on intelligent systems, 2016, 11(6): 728–742. [8] 苗北辰, 郭为安, 汪镭, 等. 隐式特征和循环神经网络的 多声部音乐生成系统 [J]. 智能系统学报, 2019, 14(1): 158–164. MIAO Beichen, GUO Weian, WANG Lei. A polyphony music generation system based on latent features and a re- [9] current neural network[J]. CAAI transactions on intelligent systems, 2019, 14(1): 158–164. KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural Information Processing Systems. Lake Tahoe, USA, 2012: 1097−1105. [10] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer science, 2014: 1409–1556. [11] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 1−9. [12] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. [13] 吴进, 钱雪忠. 紧凑型深度卷积神经网络在图像识别中 的应用 [J]. 计算机科学与探索, 2019, 13(2): 275–284. WU Jin, QIAN Xuezhong. Compact deep convolutional neural network in image recognition[J]. Journal of frontiers of computer science and technology, 2019, 13(2): 275–284. [14] 吕鸿蒙, 赵地, 迟学斌. 基于增强 AlexNet 的深度学习的 阿尔茨海默病的早期诊断 [J]. 计算机科学, 2017, 44(6): 50–60. LYU Hongmeng, ZHAO Di, CHI Xuebin. Deep learning for early diagnosis of Alzheimer’s disease based on intensive AlexNet[J]. Computer science, 2017, 44(6): 50–60. [15] 甘岚, 郭子涵, 王瑶. 基于径向变换和改进 AlexNet 的胃 肿瘤细胞图像识别方法 [J]. 计算机应用, 2019, 39(10): 2923–2929. GAN Lan, GUO Zihan, Wang Yao. Gastric tumor cell image recognition method based on radial transformation and improved AlexNet[J]. Journal of computer applications, 2019, 39(10): 2923–2929. [16] 陈思文, 刘玉江, 刘冬, 等. 基于 AlexNet 模型和自适应 对比度增强的乳腺结节超声图像分类 [J]. 计算机科学, 2019, 46(6): 146–152. CHEN Siwen, LIU Yujiang, LIU Dong, et al. AlexNet model and adaptive contrast enhancement based ultrasound imaging classification[J]. Computer science, 2019, 46(6): 146–152. [17] 王文秀, 傅雨田, 董峰, 等. 基于深度卷积神经网络的红 外船只目标检测方法 [J]. 光学学报, 2018, 38(7): [18] ·756· 智 能 系 统 学 报 第 15 卷
第4期 刘万军,等:基于增强AlexNet的音乐流派识别研究 ·757· 160-166 plus linear unit for deep CNN[J].Journal of Harbin insti- WANG Wenxiu,FU Yutian,DONG Feng,et al.Infrared tute of technology,2018,50(4):117-123. ship target detection method based on deep convolution [24]ELBIR A,ILHAN H O,SERBES G,et al.Short time neural network[J].Acta optica sinica,2018,38(7): Fourier transform based music genre classification[C]// 160-166. 2018 Electric Electronics,Computer Science,Biomedical [19]李祥鹏,闵卫东,韩清,等.基于深度学习的车牌定位和 Engineerings'Meeting.Istanbul,Turkey,2018:1-4. 识别方法].计算机辅助设计与图形学学报,2019, [25]毛勇华,桂小林,李前,等.深度学习技术应用研究[), 31(6):979-987. 计算机应用研究,2016,33(11):3201-3205. LI Xiangpeng,MIN Weidong,HAN Qing,et al.License plate location and recognition based on deep learning[J]. MAO Yonghua,GUI Xiaolin,LI Qian,et al.Study on ap- Journal of computer-aided design computer graphics, plication technology of deep learning[J].Application re- 2019,31(6):979-987. search of computers,2016,33(11):3201-3205. [20]赵远东,刘振字,柯丽,等.人脸识别中AlexNet网络设 作者简介: 计和改进方法研究)通信技术,2019,52(3):592-598. 刘万军,教授,主要研究方向为数 ZHAO Yuandong,LIU Zhenyu,Ke li,et al.Alexnet net- 字图像处理、运动目标检测与跟踪。 work design and improvement methods in face recogin- 主持国家级和省部级科研项目20余 tion[J].Communications technology,2019,52(3): 项。发表学术论文120余篇。 592-598. [21]盖杉,鲍中运.基于改进深度卷积神经网络的纸币识别 研究.电子与信息学报,2019,41(8):1993-2000. GAI Shan,BAO Zhongyun.Banknote recognition re- 孟仁杰,硕士研究生,主要研究方 向为深度学习、自然语言处理。 search based on improved deep convolutional neural net- work[J].Journal of electronics and information techno- 1ogy,2019,41(8):1993-2000 [22]ZHENG Hao,YANG Zhanlei,LIU Wenju,et al.Improv- ing deep neural networks using softplus units[C]//2015 In- ternational Joint Conference on Neural Networks.Killar- 曲海成,副教授,主要研究方向为 ney,Ireland,2015:1-4. 高光谱遥感图像处理、GPU并行计 [23]赵慧珍,刘付显,李龙跃.一种新的深度卷积神经网络 算。主持辽宁省科技厅和教育厅一般 项目各1项,参与国家自然基金项目 的SLU函数[.哈尔滨工业大学学报,2018,50(4): 2项。发表学术论文30余篇。 117-123 ZHAO Huizhen,LIU Fuxian,LI Longyue.A novel soft-
160–166. WANG Wenxiu, FU Yutian, DONG Feng, et al. Infrared ship target detection method based on deep convolution neural network[J]. Acta optica sinica, 2018, 38(7): 160–166. 李祥鹏, 闵卫东, 韩清, 等. 基于深度学习的车牌定位和 识别方法 [J]. 计算机辅助设计与图形学学报, 2019, 31(6): 979–987. LI Xiangpeng, MIN Weidong, HAN Qing, et al. License plate location and recognition based on deep learning[J]. Journal of computer-aided design & computer graphics, 2019, 31(6): 979–987. [19] 赵远东, 刘振宇, 柯丽, 等. 人脸识别中 AlexNet 网络设 计和改进方法研究 [J]. 通信技术, 2019, 52(3): 592–598. ZHAO Yuandong, LIU Zhenyu, Ke li, et al. Alexnet network design and improvement methods in face recogintion[J]. Communications technology, 2019, 52(3): 592–598. [20] 盖杉, 鲍中运. 基于改进深度卷积神经网络的纸币识别 研究 [J]. 电子与信息学报, 2019, 41(8): 1993–2000. GAI Shan, BAO Zhongyun. Banknote recognition research based on improved deep convolutional neural network[J]. Journal of electronics and information technology, 2019, 41(8): 1993–2000. [21] ZHENG Hao, YANG Zhanlei, LIU Wenju, et al. Improving deep neural networks using softplus units[C]//2015 International Joint Conference on Neural Networks. Killarney, Ireland, 2015: 1−4. [22] 赵慧珍, 刘付显, 李龙跃. 一种新的深度卷积神经网络 的 SLU 函数 [J]. 哈尔滨工业大学学报, 2018, 50(4): 117–123. ZHAO Huizhen, LIU Fuxian, LI Longyue. A novel soft- [23] plus linear unit for deep CNN[J]. Journal of Harbin institute of technology, 2018, 50(4): 117–123. ELBIR A, İLHAN H O, SERBES G, et al. Short time Fourier transform based music genre classification[C]// 2018 Electric Electronics, Computer Science, Biomedical Engineerings' Meeting. Istanbul, Turkey, 2018: 1−4. [24] 毛勇华, 桂小林, 李前, 等. 深度学习技术应用研究 [J]. 计算机应用研究, 2016, 33(11): 3201–3205. MAO Yonghua, GUI Xiaolin, LI Qian, et al. Study on application technology of deep learning[J]. Application research of computers, 2016, 33(11): 3201–3205. [25] 作者简介: 刘万军,教授,主要研究方向为数 字图像处理、运动目标检测与跟踪。 主持国家级和省部级科研项目 20 余 项。发表学术论文 120余篇。 孟仁杰,硕士研究生,主要研究方 向为深度学习、自然语言处理。 曲海成,副教授,主要研究方向为 高光谱遥感图像处理、GPU 并行计 算。主持辽宁省科技厅和教育厅一般 项目各 1 项,参与国家自然基金项目 2 项。发表学术论文 30 余篇。 第 4 期 刘万军,等:基于增强 AlexNet 的音乐流派识别研究 ·757·