基于卷积神经网络的反无人机系统声音识别方法.pdf_大学文库

工程科学学报 Chinese Journal of Engineering 基于卷积神经网络的反无人机系统声音识别方法薛珊李广青吕琼莹毛逸维 Sound recognition method of an anti-UAV system based on a convolutional neural network XUE Shan,LI Guang-qing,L Qiong-ying.MAO Yi-wei 引用本文：薛珊，李广青，吕琼莹，毛逸维.基于卷积神经网络的反无人机系统声音识别方法.工程科学学报，2020,42(11)：1516- 1524.doi:10.13374j.issn2095-9389.2020.06.30.008 XUE Shan,LI Guang-qing,L Qiong-ying.MAO Yi-wei.Sound recognition method of an anti-UAV system based on a convolutional neural network[J].Chinese Journal of Engineering,2020,42(11):1516-1524.doi:10.13374/j.issn2095-9389.2020.06.30.008 在线阅读View online::htps:/ldoi.org/10.13374.issn2095-9389.2020.06.30.008 您可能感兴趣的其他文章 Articles you may be interested in 基于深度卷积神经网络的地磁导航方向适配性分析 Direction-matching-suitability analysis for geomagnetic navigation based on convolutional neural networks 工程科学学报.2017,3910：1584htps:1doi.org/10.13374.issn2095-9389.2017.10.018 仿鸿雁编队的无人机集群飞行验证 Verification of unmanned aerial vehicle swarm behavioral mechanism underlying the formation of Anser cygnoides 工程科学学报.2019.41(12：1599htps:doi.org10.13374.issn2095-9389.2018.12.18.001 基于BP神经网络的机器人波动摩擦力矩修正方法 Wave friction correction method for a robot based on BP neural network 工程科学学报.2019,41(8：1085htps:1doi.org/10.13374j.issn2095-9389.2019.08.014 基于集成神经网络的剩余寿命预测 Remaining useful life prediction based on an integrated neural network 工程科学学报.2020,42(10：1372htps:oi.org10.13374.issn2095-9389.2019.10.10.005 基于YOLOv3的无人机识别与定位追踪 Drone identification and location tracking based on YOLOv3 工程科学学报.2020,42(4：463 https:/doi.org10.13374.issn2095-9389.2019.09.10.002 无人机遥感在矿业领域应用现状及发展态势 Current status and development trend of UAV remote sensing applications in the mining industry 工程科学学报.2020.42(9)：1085 https:/doi.org/10.13374.issn2095-9389.2019.12.18.003

基于卷积神经网络的反无人机系统声音识别方法薛珊李广青吕琼莹毛逸维 Sound recognition method of an anti-UAV system based on a convolutional neural network XUE Shan, LI Guang-qing, L Qiong-ying, MAO Yi-wei 引用本文: 薛珊, 李广青, 吕琼莹, 毛逸维. 基于卷积神经网络的反无人机系统声音识别方法[J]. 工程科学学报, 2020, 42(11): 1516- 1524. doi: 10.13374/j.issn2095-9389.2020.06.30.008 XUE Shan, LI Guang-qing, L Qiong-ying, MAO Yi-wei. Sound recognition method of an anti-UAV system based on a convolutional neural network[J]. Chinese Journal of Engineering, 2020, 42(11): 1516-1524. doi: 10.13374/j.issn2095-9389.2020.06.30.008 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.06.30.008 您可能感兴趣的其他文章 Articles you may be interested in 基于深度卷积神经网络的地磁导航方向适配性分析 Direction-matching-suitability analysis for geomagnetic navigation based on convolutional neural networks 工程科学学报. 2017, 39(10): 1584 https://doi.org/10.13374/j.issn2095-9389.2017.10.018 仿鸿雁编队的无人机集群飞行验证 Verification of unmanned aerial vehicle swarm behavioral mechanism underlying the formation of Anser cygnoides 工程科学学报. 2019, 41(12): 1599 https://doi.org/10.13374/j.issn2095-9389.2018.12.18.001 基于BP神经网络的机器人波动摩擦力矩修正方法 Wave friction correction method for a robot based on BP neural network 工程科学学报. 2019, 41(8): 1085 https://doi.org/10.13374/j.issn2095-9389.2019.08.014 基于集成神经网络的剩余寿命预测 Remaining useful life prediction based on an integrated neural network 工程科学学报. 2020, 42(10): 1372 https://doi.org/10.13374/j.issn2095-9389.2019.10.10.005 基于YOLOv3的无人机识别与定位追踪 Drone identification and location tracking based on YOLOv3 工程科学学报. 2020, 42(4): 463 https://doi.org/10.13374/j.issn2095-9389.2019.09.10.002 无人机遥感在矿业领域应用现状及发展态势 Current status and development trend of UAV remote sensing applications in the mining industry 工程科学学报. 2020, 42(9): 1085 https://doi.org/10.13374/j.issn2095-9389.2019.12.18.003

工程科学学报.第42卷.第11期：1516-1524.2020年11月 Chinese Journal of Engineering,Vol.42,No.11:1516-1524,November 2020 https://doi.org/10.13374/j.issn2095-9389.2020.06.30.008;http://cje.ustb.edu.cn 基于卷积神经网络的反无人机系统声音识别方法薛珊，2)四，李广青)，吕琼莹)，毛逸维 1)长春理工大学机电工程学院，长春1300222)长春理工大学重庆研究院，重庆400000 ☒通信作者，E-mail:1660348815@qq.com 摘要针对如何识别无人机的问题，提出了一种基于卷积神经网络的声音识别无人机的方法.首先，对100范围内的无人机、鸟和人的声音进行采集、预处理和提取MFCC+GFCC特征值，将其特征参数作为卷积神经网络学习和识别的数据集：然后分别设计了支持向量机和卷积神经网络两种模型对无人机等声音进行识别实验.实验结果表明，运用支持向量机识别无人机的准确率为91.9%，卷积神经网络识别无人机的准确率为96.5%.为了进一步验证设计的卷积神经网络的识别能力，在部分UrbanSound8K数据集上进行测试，准确率达到90%.实验结果表明运用卷积神经网络识别无人机具有可行性，且识别性能优于支持向量机. 关键词无人机：声音检测：公共安全：MFCC特征值：GFCC特征值：卷积神经网络分类号TP391 Sound recognition method of an anti-UAV system based on a convolutional neural network XUE Shan LI Guang-qing,LU Qiong-ying,MAO Yi-wei 1)School of Mechanical and Electrical Engineering,Changchun University of Science and Technology,Changchun 130022,China 2)Chongqing Research Institute,Changchun University of Science and Technology,Chongqing 400000,China Corresponding author,E-mail:1660348815@qq.com ABSTRACT With the rapid growth of the UAV market,UAVs have been widely used in aerial photography,agricultural plant protection,power inspection,forest fire prevention,high-altitude fire fighting,emergency communication,and UAV logistics.However, "black flight"incidents of unlicensed flights and random flights frequently occur,which results in severe security risks to civil aviation airports,sensitive targets,and major activities.Moreover,owing to their characteristics of maneuverability,intelligent control,and low cost,UAVs can be easily used for criminal activities,which threatens public and national security.How to effectively detect UAVs and implement effective measures for UAVs,especially "black-flying"UAVs,is an active and difficult problem that needs to be urgently solved,and it is also an important research area in the field of anti-UAV systems.The research and development of anti-UAV systems is an important focus in national public security,and UAV identification is one of the key technologies in anti-UAV systems.Aiming at the problem of how to recognize UAVs,a sound-recognition method based on a convolutional neural network(CNN)was proposed.The UAV anti-jamming technology based on acoustic signals is not easily affected by an UAV size,shelter,ambient light,and ground clutter, and sound is an inherent attribute of UAVs,which is also applicable to UAVs in a radio-silence state.In this study,UAV sounds,bird sounds,and human voice within 100 m were collected and preprocessed;then the mel frequency cepstral coefficient and gammatone frequency cepstral coefficient eigenvalues were extracted.Support vector machine(SVM)and CNN models were designed to recognize UAV sounds and other sounds.The experimental results show that the SVM and CNN accuracies are 93.3%and 96.7%,respectively.To 收稿日期：2020-06-30 基金项目：吉林省重点科技研发资助项目(20180201058SF)

基于卷积神经网络的反无人机系统声音识别方法薛珊1,2) 苣，李广青1)，吕琼莹1)，毛逸维1) 1) 长春理工大学机电工程学院，长春 130022 2) 长春理工大学重庆研究院，重庆 400000 苣通信作者，E-mail: 1660348815@qq.com 摘要针对如何识别无人机的问题，提出了一种基于卷积神经网络的声音识别无人机的方法. 首先，对 100 m 范围内的无人机、鸟和人的声音进行采集、预处理和提取 MFCC+GFCC 特征值，将其特征参数作为卷积神经网络学习和识别的数据集；然后分别设计了支持向量机和卷积神经网络两种模型对无人机等声音进行识别实验. 实验结果表明，运用支持向量机识别无人机的准确率为 91.9%，卷积神经网络识别无人机的准确率为 96.5%. 为了进一步验证设计的卷积神经网络的识别能力，在部分 UrbanSound8K 数据集上进行测试，准确率达到 90%. 实验结果表明运用卷积神经网络识别无人机具有可行性，且识别性能优于支持向量机. 关键词无人机；声音检测；公共安全；MFCC 特征值；GFCC 特征值；卷积神经网络分类号 TP391 Sound recognition method of an anti-UAV system based on a convolutional neural network XUE Shan1,2) 苣，LI Guang-qing1) ，LÜ Qiong-ying1) ，MAO Yi-wei1) 1) School of Mechanical and Electrical Engineering, Changchun University of Science and Technology, Changchun 130022, China 2) Chongqing Research Institute, Changchun University of Science and Technology, Chongqing 400000, China 苣 Corresponding author, E-mail: 1660348815@qq.com ABSTRACT With the rapid growth of the UAV market, UAVs have been widely used in aerial photography, agricultural plant protection, power inspection, forest fire prevention, high-altitude fire fighting, emergency communication, and UAV logistics. However, “black flight” incidents of unlicensed flights and random flights frequently occur, which results in severe security risks to civil aviation airports, sensitive targets, and major activities. Moreover, owing to their characteristics of maneuverability, intelligent control, and low cost, UAVs can be easily used for criminal activities, which threatens public and national security. How to effectively detect UAVs and implement effective measures for UAVs, especially “black-flying” UAVs, is an active and difficult problem that needs to be urgently solved, and it is also an important research area in the field of anti-UAV systems. The research and development of anti-UAV systems is an important focus in national public security, and UAV identification is one of the key technologies in anti-UAV systems. Aiming at the problem of how to recognize UAVs, a sound-recognition method based on a convolutional neural network (CNN) was proposed. The UAV anti-jamming technology based on acoustic signals is not easily affected by an UAV size, shelter, ambient light, and ground clutter, and sound is an inherent attribute of UAVs, which is also applicable to UAVs in a radio-silence state. In this study, UAV sounds, bird sounds, and human voice within 100 m were collected and preprocessed; then the mel frequency cepstral coefficient and gammatone frequency cepstral coefficient eigenvalues were extracted. Support vector machine (SVM) and CNN models were designed to recognize UAV sounds and other sounds. The experimental results show that the SVM and CNN accuracies are 93.3% and 96.7%, respectively. To 收稿日期: 2020−06−30 基金项目: 吉林省重点科技研发资助项目（20180201058SF）工程科学学报，第 42 卷，第 11 期：1516−1524，2020 年 11 月 Chinese Journal of Engineering, Vol. 42, No. 11: 1516−1524, November 2020 https://doi.org/10.13374/j.issn2095-9389.2020.06.30.008; http://cje.ustb.edu.cn

薛珊等：基于卷积神经网络的反无人机系统声音识别方法 1517 further verify the recognition ability of the designed CNN,it was tested on some Urbansound8K datasets,and its accuracy reached 90%. The experimental results show that a CNN is feasible for UAV recognition,and it has a better recognition performance than a SVM. KEY WORDS UAV:voice detection:public security;MFCC eigenvalue;GFCC eigenvalue;convolution neural network 近年来，无人机市场需求量不断攀升，但是由式中，表示信号抽样频率，五表示无人机声音的于人们缺乏公共安全意识且无人机易被不法分子最高频率.无人机主要声音频段小于16kHz,本文利用，“黑飞”无人机给国家公共安全造成了严重选取抽样频率为32kHz. 危害.2015年4月22日，日本首相人身安全受到 1.2无人机声音样本的预加重无人机威胁：2015年5月14日，无人机人侵白宫由于噪声的干扰，无人机的声音信息在空气事件：2017年4月，成都双流机场多次受到来历不中传播时会受到不同程度的衰减，并且高频部分明的小型无人机的干扰，客机起飞、降落受到不同受到衰减的程度会大于低频部分.所以为了弥补程度的影响，甚至航班取消.无人机带来的安全高频声音信息的损失，防止声音信息部分的丢失，问题多种多样，给社会安全问题造成了极大的隐要对其进行预加重.公式如式(2)：患.如何识别和治理无人机迫在眉睫，而如何检测 z(n)=d(n)-a×d(n-1) (2) 无人机更是重中之重，是当前必须要解决的难点本文选取预加重系数0.97，dn)表示第n个问题采样点的幅值，无人机声音样本预加重后图像如到目前为止检测无人机的方法有多种，陈唯图1所示，绿色曲线表示声音时域原始图像，黄色实等四使用低空监视雷达检测无人机是否存在；曲线表示预加重后的声音图像但是雷达检测无人机设备价格昂贵，存在强人体 Green:original sound image 辐射，并且存在检测盲区.Bis0等提出了一种基 Yellow:pre emphasis sound image 于WIFI统计指纹的无人机检测方法，该方法能够 0.02 识别附近的无人机威胁：但是无人机信号为跳频 0.01 输出，WIFI检测技术难度较高，工艺繁琐，并且 0 -0.01 无人机“静默”时无法进行检测.基于此，本文提出 -0.02 了声音检测4-1无人机的方法.声音作为无人机的 0 02 0.40.60.8 1.0 固有属性，区别于周围的其它声音，而且声音检测 Time/s 不受光线、电子的干扰，具有可以穿透遮挡物，价图1无人机声音样本预加重图格低，使用方便等优点.首先对无人机声音进行预 Fig.1 Pre-weighting diagram of an UAV sound sample 处理，然后提取梅尔频率倒谱系数(MFCC)和 13无人机声音样本的分帧 Gammatone频率倒谱系数(GFCC)特征，最后使用由于无人机声音样本很长无法直接提取特多层卷积神经网络(CNN)对无人机进行声音识别. 征，所以为了方便进行分析和提取特征，并进入到卷积神经网络首先应用于图像识别领域，在卷积神经网络，所以要对声音样本进行分帧，使其该领域得到了广泛应用6刀，在2012年之后，开始变为一个个的小片段.每个小片段之间会有重叠应用于声音识别领域中.2013年，Sainath等s使用部分，约占整个片段的1/5~1/2.本次实验选择分卷积神经网络在Broadca st News和Switchboard task 帧长度25ms,帧移10ms. 任务上进行实验.本文将卷积神经网络运用在无 1.4无人机声音样本的加窗人机的声音检测中，用来识别“黑飞”无人机为了防止声音样本进行分帧后两端的不连续 1无人机声音样本的采集与预处理性，所以要进行加窗.本文选用的是汉明窗，公式如式(3)： 1.1无人机声音样本的采集 0.54-0.46cos 2元 ,0≤n<L-1 根据奈奎斯特抽样定理，要想抽样后能够不 w(n)= L-1 (3) 失真地还原出原始信号，则采样频率必须大于等 0,other 于两倍信号谱的最高频率，如式(1)：式中：=0,1，，L-1;L为采样窗口长度；w(n)是窗 f5≥26 (1) 函数

further verify the recognition ability of the designed CNN, it was tested on some Urbansound8K datasets, and its accuracy reached 90%. The experimental results show that a CNN is feasible for UAV recognition, and it has a better recognition performance than a SVM. KEY WORDS UAV；voice detection；public security；MFCC eigenvalue；GFCC eigenvalue；convolution neural network 近年来，无人机市场需求量不断攀升，但是由于人们缺乏公共安全意识且无人机易被不法分子利用，“黑飞”无人机给国家公共安全造成了严重危害. 2015 年 4 月 22 日，日本首相人身安全受到无人机威胁；2015 年 5 月 14 日，无人机入侵白宫事件；2017 年 4 月，成都双流机场多次受到来历不明的小型无人机的干扰，客机起飞、降落受到不同程度的影响，甚至航班取消. 无人机带来的安全问题多种多样，给社会安全问题造成了极大的隐患. 如何识别和治理无人机迫在眉睫，而如何检测无人机更是重中之重，是当前必须要解决的难点问题. 到目前为止检测无人机的方法有多种，陈唯实等[1] 使用低空监视雷达检测无人机是否存在；但是雷达检测无人机设备价格昂贵，存在强人体辐射，并且存在检测盲区. Bisio 等[2] 提出了一种基于 WIFI 统计指纹的无人机检测方法，该方法能够识别附近的无人机威胁；但是无人机信号为跳频输出[3] ，WIFI 检测技术难度较高，工艺繁琐，并且无人机“静默”时无法进行检测. 基于此，本文提出了声音检测[4−5] 无人机的方法. 声音作为无人机的固有属性，区别于周围的其它声音，而且声音检测不受光线、电子的干扰，具有可以穿透遮挡物，价格低，使用方便等优点. 首先对无人机声音进行预处理，然后提取梅尔频率倒谱系数（ MFCC）和 Gammatone 频率倒谱系数（GFCC）特征，最后使用多层卷积神经网络（CNN）对无人机进行声音识别. 卷积神经网络首先应用于图像识别领域，在该领域得到了广泛应用[6−7] ，在 2012 年之后，开始应用于声音识别领域中. 2013 年，Sainath 等[8] 使用卷积神经网络在 Broadca st News 和 Switchboard task 任务上进行实验. 本文将卷积神经网络运用在无人机的声音检测中，用来识别“黑飞”无人机. 1 无人机声音样本的采集与预处理 1.1 无人机声音样本的采集根据奈奎斯特抽样定理，要想抽样后能够不失真地还原出原始信号，则采样频率必须大于等于两倍信号谱的最高频率，如式（1）： fs ⩾ 2 fh （1）式中，f s 表示信号抽样频率，fh 表示无人机声音的最高频率. 无人机主要声音频段小于 16 kHz，本文选取抽样频率为 32 kHz. 1.2 无人机声音样本的预加重由于噪声的干扰，无人机的声音信息在空气中传播时会受到不同程度的衰减，并且高频部分受到衰减的程度会大于低频部分. 所以为了弥补高频声音信息的损失，防止声音信息部分的丢失，要对其进行预加重. 公式如式（2）： z(n) = d (n)−a×d(n−1) （2）本文选取预加重系数 a=0.97，d(n) 表示第 n 个采样点的幅值，无人机声音样本预加重后图像如图 1 所示，绿色曲线表示声音时域原始图像，黄色曲线表示预加重后的声音图像. 1.3 无人机声音样本的分帧由于无人机声音样本很长无法直接提取特征，所以为了方便进行分析和提取特征，并进入到卷积神经网络，所以要对声音样本进行分帧，使其变为一个个的小片段. 每个小片段之间会有重叠部分，约占整个片段的 1/5～1/2. 本次实验选择分帧长度 25 ms，帧移 10 ms. 1.4 无人机声音样本的加窗为了防止声音样本进行分帧后两端的不连续性，所以要进行加窗. 本文选用的是汉明窗，公式如式（3）： w(n) =    0.54−0.46 cos( 2πn L−1 ) ,0 ⩽ n < L−1 0,other （3）式中：n=0，1, ···，L−1；L 为采样窗口长度；w(n) 是窗函数. Green: original sound image Yellow: pre emphasis sound image 0.02 0.01 0.2 0.4 Time/s 0 0.6 0.8 1.0 0 Amplitude −0.01 −0.02 图 1 无人机声音样本预加重图 Fig.1 Pre-weighting diagram of an UAV sound sample 薛珊等：基于卷积神经网络的反无人机系统声音识别方法 · 1517 ·

·1518 工程科学学报，第42卷，第11期在预加重图像的基础上进行加汉明窗操作， 5000 结果如图2所示，绿色曲线表示声音经过预加重 4500 4000 后的图像，黄色曲线是在预加重图像基础上经过 3500 加窗的图像至3000 Green:pre emphasis sound image Yellow:add hamming window sound image 是2350 是2000 0.006 1500 0.004 0.002 1000 0 -02 500 -0.004 0 -0006 0 50010001500200025003000350040004500 -0.008 Frequency/Hz 0 0.005 0.0100.0150.0200.025 Time/s 图3线性额率与梅尔频率转换曲线图图2无人机声音样本加汉明窗函数图 Fig.3 Conversion curve of linear frequency and Mel frequency Fig.2 Function diagram of an UAV sound sample plus a Hamming window 合的特征，既可有效提取声音特征，又可克服随机噪音带来的千扰. 2无人机声音样本特征值的提取 Gammatone滤波器的时域表达式如式(5)：梅尔频率倒谱系数(MFCC)广泛应用于声音 g(fe.t)=kiP-le-2b cos(2nfet+) (5) 识别领域，是在梅尔频率域得到的一种参数，可以准确地还原原始声音信息式中，1为时间，p为相位，6为中心频率，k是常数，先对录取的声音进行预处理，得到关于声音 p为滤波器阶数，b是滤波器的带宽.b的公式如式的帧信号；由于在时域内难以判别声音信号的特 (6): 性，所以接着再进行快速傅立叶变换(FFT)变换， b=1.019ERB(f)=25.17 14.37f +1 (6) 1000 使其变换到频域：在频域内将信号经过26个非线性的Mel滤波器组，而且Mel滤波器组从低频到其中高频的分布由密变疏；然后对滤波后的信号取对 ERB(f)=24.7+0.108f (7) 数，便于对信号进行倒谱分析；最后经过离散余弦 ERs()为Gammatone滤波器的等价矩形带宽变换得到关于声音的13维特征参数0 Gammatone滤波器如图4所示梅尔频率倒谱系数是在Mel频率域中得到的，相比于线性频率域可以更好的描述声音特征 0 Mel频率和Hz频率的关系如式(4) -20 Me=2595×es+7) (4) 式中，∫为频率，单位为Hz 60 Mel频率和Hz频率的转换曲线如图3. 虽然MFCC特征在声音识别领域中得到广泛 -80 使用，但是由于其受到环境噪声的干扰很大，在部分情况下无法达到人们的期望值.所以本文使 105 0.5 16 Frequency/kHz 用MFCC与GFCC2-I1融合的特征来对无人机声图4 Gammatone滤波器幅频特性图音进行识别 Fig.4 Amplitude frequency characteristics of a gammatone filter GFCC与MFCC相比使用的是Gammatone滤波器，Gammatone滤波器a被广泛用于模拟人类本文使用MFCC+GFCC的特征参数来识别无听觉系统对信号的处理方式，而且对噪声有较好人机声音，MFCC特征参数为13维，GFCC特征参的抗干扰性，可以增大识别系统的鲁棒性町，有效数为13维，经过线性叠加后特征参数为26维.既弥补MFCC特征的不足.使用MFCC与GFCC融有Mel滤波器的特征参数，又包含经过Gammatone

在预加重图像的基础上进行加汉明窗操作，结果如图 2 所示，绿色曲线表示声音经过预加重后的图像，黄色曲线是在预加重图像基础上经过加窗的图像. 2 无人机声音样本特征值的提取梅尔频率倒谱系数（MFCC）广泛应用于声音识别领域，是在梅尔频率域得到的一种参数，可以准确地还原原始声音信息[9] . 先对录取的声音进行预处理，得到关于声音的帧信号；由于在时域内难以判别声音信号的特性，所以接着再进行快速傅立叶变换（FFT）变换，使其变换到频域；在频域内将信号经过 26 个非线性的 Mel 滤波器组，而且 Mel 滤波器组从低频到高频的分布由密变疏；然后对滤波后的信号取对数，便于对信号进行倒谱分析；最后经过离散余弦变换得到关于声音的 13 维特征参数[10] . 梅尔频率倒谱系数是在 Mel 频率域中得到的，相比于线性频率域可以更好的描述声音特征. Mel 频率和 Hz 频率的关系如式（4） Mel(f) = 2595×log( 1+ f 700) （4）式中，f 为频率，单位为 Hz. Mel 频率和 Hz 频率的转换曲线如图 3. 虽然 MFCC 特征在声音识别领域中得到广泛使用，但是由于其受到环境噪声的干扰很大，在部分情况下无法达到人们的期望值[11] . 所以本文使用 MFCC 与 GFCC[12−13] 融合的特征来对无人机声音进行识别. GFCC 与 MFCC 相比使用的是 Gammatone 滤波器，Gammatone 滤波器[14] 被广泛用于模拟人类听觉系统对信号的处理方式，而且对噪声有较好的抗干扰性，可以增大识别系统的鲁棒性[15] ，有效弥补 MFCC 特征的不足. 使用 MFCC 与 GFCC 融合的特征，既可有效提取声音特征，又可克服随机噪音带来的干扰. Gammatone 滤波器的时域表达式如式（5）： g(fc,t) = ktp−1 e −2πbt cos(2π fct+φ) （5）式中，t 为时间，φ 为相位，fc 为中心频率，k 是常数， p 为滤波器阶数，b 是滤波器的带宽. b 的公式如式（6）： b = 1.019ERB (fc) = 25.17( 4.37 fc 1000 +1 ) （6）其中: ERB (fc) = 24.7+0.108 fc （7） ERB(fc ) 为 Gammatone 滤波器的等价矩形带宽. Gammatone 滤波器如图 4 所示. 本文使用 MFCC+GFCC 的特征参数来识别无人机声音，MFCC 特征参数为 13 维，GFCC 特征参数为 13 维，经过线性叠加后特征参数为 26 维. 既有 Mel 滤波器的特征参数，又包含经过 Gammatone Green: pre emphasis sound image Yellow: add hamming window sound image 0.006 0.002 0 0.004 0.005 0.010 Time/s 0 0.015 0.020 0.025 Amplitude −0.002 −0.008 −0.006 −0.004 图 2 无人机声音样本加汉明窗函数图 Fig.2 Function diagram of an UAV sound sample plus a Hamming window 5000 2000 2500 3000 3500 4000 4500 Frequency/Hz 0 500 1000 1500 2000 2500 3000 3500 4000 4500 Mel frequency 1500 0 500 1000 图 3 线性频率与梅尔频率转换曲线图 Fig.3 Conversion curve of linear frequency and Mel frequency 0 −80 −60 −40 −20 Frequency/kHz 0.25 0.5 1 2 4 8 16 Amplitude −100 图 4 Gammatone 滤波器幅频特性图 Fig.4 Amplitude frequency characteristics of a gammatone filter · 1518 · 工程科学学报，第 42 卷，第 11 期

薛珊等：基于卷积神经网络的反无人机系统声音识别方法 .1519 滤波器的特征参数，对周围环境噪声具有较强的隔最大鲁棒性本文使用支持向量机时，选取的样本是无人截取一段1s的无人机声音片段，对其分别提机声音数据和环境声音数据.首先提取声音数据取MFCC、GFCC和MFCC+GFCC特征参数，特征特征，然后将两类声音数据合并到同一维度空间频谱图如图5所示.其中，X轴表示特征参数的维如图6所示，红色标志代表无人机的声音数据，蓝度，Y坐标表示1s分帧的数量，Z坐标表示幅值，色标志代表环境声音数据.目的是寻找紫色平面，两种特征为纵向结合.右侧图例体现图形的表面将两种数据集正确划分.对某些数据集，这样的超颜色，数值表示幅值平面有无穷多个，超平面需要满足两侧的点到超平面的最小距离是最大的 3支持向量机和卷积神经网络的设计由于有时样本在原空间不是线性可分的，所 3.1支持向量机的设计以需要将它映射到高维空间中，在高维空间中样针对本文样本数量集少的问题，使用了支持本是线性可分的.推导可得到式(8)20：向量机(SVM)和CNN进行对比试验.支持向量机 R=∑4-∑∑aaw,GwG() 在小样本数据集和非线性分析上的实验结果十分 (8) 优秀，具有很强的适应性、很好的分类能力和泛化其中：i,户1,2，，m,m为样本个数；样本为(c1,, 能力6，是目前使用最广泛、效果最好的分类器 (2,y2),,(xm ym);a,和a为拉格朗日乘子，且a, 之一. a≥0：G(c)'Gc)是在空间中的内积，但是在高维支持向量机？-19是一种典型的分类模型，其空间中计算它会很难.所以提出一种核函数K(x,x) 主要目的就是寻找一个超平面，超平面可以正使其在低维空间计算，但其效果等价于高维空间确地把训练数据集分割开来，并且保证几何间中的内积.显然，核函数的选择至关重要，本文选 (a) 600 400 Amplitude 200 0 200 -200 0 -400 -200 600 100 05101520 Characteristic dimension 25 0 Number of frames (b) (c) 40 600 Amplitude 20 400 Amplitude 0 200 0 0 0 -20 -20 -200 -100 40 % -400 -200 60 0 0 6 81012 03000% 0 Number of frames 024 Characteristic dimension 681012 Number of frames 3%0 0 图5特征频谱图.(a)MFCC+GFCC特征额谱图：(b)MFCC特征频谱图：(c)GFCC特征频谱图 Fig.5 Characteristic spectra:(a)characteristic spectrum of mel frequency cepstral coefficient(MFCC)+gammatone frequency cepstral coefficient (GFCC);(b)characteristic spectrum of MFCC;(c)characteristic spectrum of GFCC

滤波器的特征参数，对周围环境噪声具有较强的鲁棒性. 截取一段 1 s 的无人机声音片段，对其分别提取 MFCC、GFCC 和 MFCC+GFCC 特征参数，特征频谱图如图 5 所示. 其中，X 轴表示特征参数的维度，Y 坐标表示 1 s 分帧的数量，Z 坐标表示幅值，两种特征为纵向结合. 右侧图例体现图形的表面颜色，数值表示幅值 3 支持向量机和卷积神经网络的设计 3.1 支持向量机的设计针对本文样本数量集少的问题，使用了支持向量机（SVM）和 CNN 进行对比试验. 支持向量机在小样本数据集和非线性分析上的实验结果十分优秀，具有很强的适应性、很好的分类能力和泛化能力[16] ，是目前使用最广泛、效果最好的分类器之一. 支持向量机[17−19] 是一种典型的分类模型，其主要目的就是寻找一个超平面，超平面可以正确地把训练数据集分割开来，并且保证几何间隔最大. 本文使用支持向量机时，选取的样本是无人机声音数据和环境声音数据. 首先提取声音数据特征，然后将两类声音数据合并到同一维度空间. 如图 6 所示，红色标志代表无人机的声音数据，蓝色标志代表环境声音数据. 目的是寻找紫色平面，将两种数据集正确划分. 对某些数据集，这样的超平面有无穷多个，超平面需要满足两侧的点到超平面的最小距离是最大的. 由于有时样本在原空间不是线性可分的，所以需要将它映射到高维空间中，在高维空间中样本是线性可分的. 推导可得到式（8） [20] ： R = ∑m i=1 αi − 1 2 ∑m i=1 ∑m j=1 αiαjyiy jG(xi) TG ( xj ) （8） 2, ··· (x2, y2), ··· 其中：i，j=1，，m，m 为样本个数；样本为 (x1 , y1 )，，(xm, ym)；αi 和 αj 为拉格朗日乘子，且 αi， αj≥0；G (xi ) TG(xj ) 是在空间中的内积，但是在高维空间中计算它会很难. 所以提出一种核函数 K(xi , xj ) 使其在低维空间计算，但其效果等价于高维空间中的内积. 显然，核函数的选择至关重要，本文选 (a) 600 100 400 80 200 60 200 0 Amplitude Amplitude 40Number of frames 0 Amplitude −200 20 −200 −400 0 100 80 60 40 Number of frames 20 0 −600 600 100 400 80 200 60 0 Amplitude 40 Number of frames 0 Amplitude −200 20 −200 −100 −400 0 −600 0 5 10 15 20 25 Characteristic dimension (b) (c) 40 20 0 0 −20 Amplitude −20 −40 −40 −60 0 2 4 6 8 10 12 Characteristic dimension 0 2 4 6 8 10 12 Characteristic dimension 图 5 特征频谱图. （a）MFCC+GFCC 特征频谱图；（b）MFCC 特征频谱图；（c）GFCC 特征频谱图 Fig.5 Characteristic spectra: (a) characteristic spectrum of mel frequency cepstral coefficient (MFCC) + gammatone frequency cepstral coefficient (GFCC); (b) characteristic spectrum of MFCC; (c) characteristic spectrum of GFCC 薛珊等：基于卷积神经网络的反无人机系统声音识别方法 · 1519 ·

择的是线性核函数[21] ，公式如式（9）： K ( xi , xj ) = xi T xj （9） 3.2 卷积神经网络的设计设计的卷积神经网络结构如图 7 所示. 卷积神经网络各层参数设置如表 1 所示. 3.2.1 输入层将代表无人机样本的 MFCC+GFCC 特征的特征矩阵作为输入，输入矩阵的特征维度是 26. 3.2.2 卷积层卷积层初步提取无人机 MFCC+GFCC 矩阵的特征. 本文使用两个卷积层，卷积核大小都为 5×5，步长均为 1，padding 设置为 SAME，必要时进行数据扩长. 卷积核的个数分别为 32 个和 64 个. 3.2.3 激励层卷积和池化的过程都是一种线性运算，而激励层的作用是在其中加入非线性成分，来增加训练模型的表达能力. 本文使用的是经典 Relu[22] 函数. 3.2.4 池化层池化层[23] 的目的就是为了简化卷积层的输出，降低特征矩阵的维数. 池化方式分为最大池化和均值池化，本文运用最大池化，设计两个池化层，池化窗口大小均为 2×2，水平垂直步长均为 2. 表 1 CNN 参数设置 Table 1 CNN parameter setting Layer Input dimension Output dimension Sampling window Function selection Input layer [99,26] Convolution layer 1 [99,26] [99,26,32] 5×5, striding=1, padding=same, convolution kernel=32 Activation function Relu Pool layer 1 [99,26,32] [50,13,32] 2×2, striding=2 Convolution layer 2 [50,13,32] [50,13,64] 5×5, striding=1, padding=same, convolution kernel=32 Activation function Relu Pool layer 2 [50,13,64] [25,7,64] 2×2, striding=2 Full connection layer 1 [25,7,64] [1,10] Full connection layer 2 [1,10] [1,10] Output layer [1,10] [1,3] Softmax Drone voice Environmental sound y x 图 6 SVM 分类示意图 Fig.6 Schematic of support vector machine classification Input layer MFCC GFCC Convolution layer Poollayer Convolution layer Pool layer Full connection layer Full connection layer Output layer 图 7 设计的卷积神经网络结构图 Fig.7 Structure of a CNN · 1520 · 工程科学学报，第 42 卷，第 11 期

薛珊等：基于卷积神经网络的反无人机系统声音识别方法 .1521· 3.2.5全连接层 4实验与分析全连接层是将卷积和池化操作后的特征进行重新拟合，由于用到了全部的局部特征，故叫做 4.1实验数据采集全连接.本文设置2层全连接层，增强特征表达本实验在长春理工大学东校区停车场和操场进能力. 行，使用远距离声音采集器对100m范围内的无人 3.2.6输出层机、鸟叫声和人说话的声音进行声音采集，采集频率使用的是softmax分类器，它把一些输入映射为32000Hz,实验照片如图8所示.经过分割后每个为0~1之间的实数，并且归一化保证和为1，因此声音样本时间长1s,数量如表2所示，训练和测试的多分类的概率之和也刚好为14-2 数据集数量（段数）分别为4500和900，比例为5：1. (a) (b) 图8采集样本实验图.(a)白天停车场采集样本图：(b)晚间操场采集样本图 Fig.8 Sample collection experiment map:(a)sample collection map of parking lot during day,(b)sample collection map of playground at night 表2各类音频样本数量表 (a) Table 2 Number of audio samples trfo Sample Training set(piece) Test set(piece) UAV 1500 300 Bird 1500 300 port scipy People 1500 300 check_path path_fila/.1/ 将无人机声音作为目标声音事件，其余声音为干扰声音 4.2实验环境实验所用计算机是Windows10系统，Intel(R) Core(TMi7-9750UCPU@2.60GHz,8G内存，基于开源深度学习框架tensorflow6和开源科学计算库 scipy,采用Python3.7编写预处理和识别程序，文本 L(b) 编辑器为Sublime..其中，tensorflow为1.13.1版本， 0.8 0.7 scipy为1.4.1版本.实验设备为深圳市科视达电子有 06 05 限公司的远距离声音采集器，采样频率为32kHz 0.4 4.3实验过程和结果 0200400600800100012001400 Training times 4.3.1不同神经网络的实验结果及对比图9卷积神经网络结果显示图.(a)python显示图：(b)测试集识别使用设计的卷积神经网络和支持向量机在Python 准确率变化曲线图中对相同样本进行实验，训练次数均为1500次， Fig CNN results display:(a)python display,(b)change curve of test 实验结果如图9和图10.对比结果如表3 set recognition accuracy

3.2.5 全连接层全连接层是将卷积和池化操作后的特征进行重新拟合，由于用到了全部的局部特征，故叫做全连接. 本文设置 2 层全连接层，增强特征表达能力. 3.2.6 输出层使用的是 softmax 分类器，它把一些输入映射为 0～1 之间的实数，并且归一化保证和为 1，因此多分类的概率之和也刚好为 1 [24−25] . 4 实验与分析 4.1 实验数据采集本实验在长春理工大学东校区停车场和操场进行，使用远距离声音采集器对 100 m 范围内的无人机、鸟叫声和人说话的声音进行声音采集，采集频率为 32000 Hz，实验照片如图 8 所示. 经过分割后每个声音样本时间长 1 s，数量如表 2 所示，训练和测试的数据集数量（段数）分别为 4500 和 900，比例为 5∶1. (a) (b) 图 8 采集样本实验图. （a）白天停车场采集样本图；（b）晚间操场采集样本图 Fig.8 Sample collection experiment map: (a) sample collection map of parking lot during day; (b) sample collection map of playground at night 将无人机声音作为目标声音事件，其余声音为干扰声音. 4.2 实验环境实验所用计算机是 Windows10 系统， Intel(R) Core(TM) i7-9750U CPU@2.60 GHz，8 G 内存，基于开源深度学习框架 tensorflow[26] 和开源科学计算库 scipy，采用 Python3.7 编写预处理和识别程序，文本编辑器为 Sublime. 其中，tensorflow 为 1.13.1 版本， scipy 为 1.4.1 版本. 实验设备为深圳市科视达电子有限公司的远距离声音采集器，采样频率为 32 kHz. 4.3 实验过程和结果 4.3.1 不同神经网络的实验结果及对比使用设计的卷积神经网络和支持向量机在 Python 中对相同样本进行实验，训练次数均为 1500 次，实验结果如图 9 和图 10. 对比结果如表 3. 表 2 各类音频样本数量表 Table 2 Number of audio samples Sample Training set (piece) Test set (piece) UAV 1500 300 Bird 1500 300 People 1500 300 0.9 1.0 0.7 0.8 200 400 600 Training times 0 800 1000 1200 1400 0.6 Training accuracy/ % 0.4 0.5 0.3 (b) (a) 图 9 卷积神经网络结果显示图. （a）python 显示图；（b）测试集识别准确率变化曲线图 Fig.9 CNN results display: (a) python display; (b) change curve of test set recognition accuracy 薛珊等：基于卷积神经网络的反无人机系统声音识别方法 · 1521 ·

1522 工程科学学报，第42卷，第11期 Training model... Done clustering.Using clustering model to generate Bow histograms for each image. Done generating Bow histograms. Done generating Bow histograms. Done generating Bow histograms. Training SVM model. Accuracy of SVM(正确率)= 91.8888888888889 图10支持向量机结果显示图 Fig.10 SVM results display 表3不同模型实验结果 (a) wtin fre Mee Bua Touh hriit Hamin mep Table 3 Experimental results of different models Model Accuracy/% mort scipy.io.wavfile wav roe python ⊙5 CNN 96.5 SVM 91.9 import scipy 对比分析表明，设计的CNN网络模型识别无 ath_fi1ns,Pathab5path(,)件的 path path_film 人机的性能优于SVM est_path path_fi1m7满18/t 4.32改变卷积层个数进行试验 1489 卷积层可以初步提取音频特征，其层数对实验结果具有重要的影响，本文对四种不同情况下 149 的卷积神经网络进行试验，测试集准确率结果如表4 [F1 nished1n38542,15】表4不同卷积层测试集准确率实验结果 0.9{b) Table 4 Experimental results on accuracy of test sets of different convolution layers 0.7 Number of layers Accuracy/%Training time/s Number of iterations 里0.4 三0.3 96.52225 26580.6 1500 0 3 96.53334 41907.1 1700 200400600800100012001400 Training times 96.53334 76055.3 2000 图11部分Urbansound8K数据集实验结果显示图.(a)python显示 5 96.56667 126223.5 2500 图：(b)识别准确率变化曲线图 Fig.11 Experimental results display of some Urbansound8K datasets: 如表4所示，网络迭代次数随卷积层层数的增 (a)python display;(b)recognition accuracy change curve 加而增加，在网络达到收敛的前提下，测试集准确 5结论率随卷积层层数的增加有小幅度上升，但准确率增加幅度有限，而网络训练时间却急剧上升.在此 (1)针对“黑飞”无人机的检测问题，提出一种条件下，神经网络结构设计了两层卷积层，测试集反无人机系统中运用卷积神经网络识别无人机声准确率达到了要求，并且训练时间较短音进而检测无人机的方法 (2)采集无人机声音样本，滤波和预处理后输 4.3.3部分Urbansound8K数据集验证入到设计的支持向量机和卷积神经网络进行识为验证所设计的卷积神经网络对声音识别的别，实验结果表明卷积神经网络能够识别，准确率可行性，除在自行建立的数据集上进行测试外，还达到要求，并且准确率高于支持向量机. 在典型的数据集Urbansound8K上进行测试.本文 (3)将经典声音数据集输入所设计的卷积神经选取Urbansounds8K数据集中的冷气机、发动机空网络，测试所设计的卷积神经网络的性能.实验结果转和警笛三种声音进行验证，每个种类数据集表明，设计的卷积神经网络识别性能良好，达到要求 600个，总计1800个，训练与测试数量之比为5：1 实验结果如图11所示，训练1500次时达到收敛状参考文献态，测试集准确率为90% [1]Chen W S,Liu J,Chen X L,et al.Non-cooperative UAV target

对比分析表明，设计的 CNN 网络模型识别无人机的性能优于 SVM. 4.3.2 改变卷积层个数进行试验卷积层可以初步提取音频特征，其层数对实验结果具有重要的影响，本文对四种不同情况下的卷积神经网络进行试验，测试集准确率结果如表 4. 如表 4 所示，网络迭代次数随卷积层层数的增加而增加，在网络达到收敛的前提下，测试集准确率随卷积层层数的增加有小幅度上升，但准确率增加幅度有限，而网络训练时间却急剧上升. 在此条件下，神经网络结构设计了两层卷积层，测试集准确率达到了要求，并且训练时间较短. 4.3.3 部分 Urbansound8K 数据集验证为验证所设计的卷积神经网络对声音识别的可行性，除在自行建立的数据集上进行测试外，还在典型的数据集 Urbansound8K 上进行测试. 本文选取 Urbansound8K 数据集中的冷气机、发动机空转和警笛三种声音进行验证，每个种类数据集 600 个，总计 1800 个，训练与测试数量之比为 5∶1. 实验结果如图 11 所示，训练 1500 次时达到收敛状态，测试集准确率为 90%. 5 结论（1）针对“黑飞”无人机的检测问题，提出一种反无人机系统中运用卷积神经网络识别无人机声音进而检测无人机的方法. （2）采集无人机声音样本，滤波和预处理后输入到设计的支持向量机和卷积神经网络进行识别，实验结果表明卷积神经网络能够识别，准确率达到要求，并且准确率高于支持向量机. （3）将经典声音数据集输入所设计的卷积神经网络，测试所设计的卷积神经网络的性能. 实验结果表明，设计的卷积神经网络识别性能良好，达到要求. 参考文献 [1] Chen W S, Liu J, Chen X L, et al. Non-cooperative UAV target 表 3 不同模型实验结果 Table 3 Experimental results of different models Model Accuracy /% CNN 96.5 SVM 91.9 表 4 不同卷积层测试集准确率实验结果 Table 4 Experimental results on accuracy of test sets of different convolution layers Number of layers Accuracy /% Training time/s Number of iterations 2 96.52225 26580.6 1500 3 96.53334 41907.1 1700 4 96.53334 76055.3 2000 5 96.56667 126223.5 2500 图 10 支持向量机结果显示图 Fig.10 SVM results display 0.9 0.7 0.8 200 400 600 Training times 0 800 1000 1200 1400 0.6 Training accuracy/ % 0.4 0.5 0.2 0.3 (b) (a) 图 11 部分 Urbansound8K 数据集实验结果显示图. （a）python 显示图；（b）识别准确率变化曲线图 Fig.11 Experimental results display of some Urbansound8K datasets: (a) python display; (b) recognition accuracy change curve · 1522 · 工程科学学报，第 42 卷，第 11 期

薛珊等：基于卷积神经网络的反无人机系统声音识别方法 ·1523 recognition in low-altitude airspace based on motion model.J [12]Dua M,Aggarwal R K,Biswas M.GFCC based discriminatively Beijing Univ Aeron Astron,2019,45(4):687 trained noise robust continuous ASR system for Hindi language. (陈唯实，刘佳，陈小龙，等.基于运动模型的低空非合作无人机 Ambient Intell Human Comput,2019,10(6):2301 目标识别.北京航空航天大学学报，2019,45(4)：687) [13]Ali H,Tran S N,Benetos E,et al.Speaker recognition with hybrid [2]Bisio I,Garibotto C,Lavagetto F,et al.Blind detection:Advanced features from a deep belief network.Neural Computing Appl, techniques for WiFi-based drone surveillance.IEEE Trans Veh 2018.29(6):13 Technol.2018.68(1):938 [14]Geng Q S,Wang F H,Jin X.Mechanical fault sound diagnosis [3]Quan H D,Tang Z Q,Sun H X,et al.Binary-sequence frequency based on GFCC and random forest optimized by whale algorithm hopping communication method based on pseudo-random linear for dry type transformer.Electr Power Autom Equip,2020,40(8): frequency modulation.J Huazhong Univ Sci Technol Nat Sci Ed, 191 2019,47(11:30 (耿琪深，王丰华，金霄.基于Gammatone滤波器倒谱系数与鲸鱼 (全厚德，唐志强，孙慧贤，等.基于伪随机线性调频的双序列跳算法优化随机森林的干式变压器机械故障声音诊断.电力自动颜通信方法.华中科技大学学报：自然科学版，2019,47(11)：化设备，2020,40(8)：191) 30) [15]Hou G Y,Xu Z D,Liu X,et al.Optimization method improvement [4] Huang F Z.Zeng J F.Zhang Y,et al.Convolutional recurrent for nonlinear constrained single objective system without neural networks with multi-sized convolution filters for sound- mathematic models.Chin J Eng,2018,40(11):1402 event recognition.Mod Phys Lett B,2020,34(23):2050235 (侯公羽，许哲东，刘欣，等.无数学模型的非线性约束单目标系 [5]Kim J,Min K,Jung M,et al.Occupant behavior monitoring and 统优化方法改进.工程科学学报，2018,40(11)：1402) emergency event detection in single-person households using deep [16]Yu X Y,Wu J H,Gao Y H.Research on refrigerant leakage learning-based sound recognition.Build Environ,2020,181: identification for heat pump system based on PCA-SVM models. 107092 C1ESCJ,2020,71(7):3151 [6]Lan H,Fang Z Y.Recent advances in zero-shot learning.J (于仙毅，巫江虹，高云辉.基于主成分分析与支持向量机的热 Electron Inf Technol,2020,42(5):1188 泵系统制冷剂泄漏识别研究.化工学报，2020,71(7)：3151) (兰红，方治屿.零样本图像识别.电子与信息学报，2020,42(5)： [17]Kari T.Gao W S,Zhang Z W,et al.Power transformer fault 1188) diagnosis based on a support vector machine and a genetic [7]Rai A K,Senthilkumar R,Aswin K R.Combining pixel selection algorithm.J Tsinghua Univ Sci Technol,2018,58(7):623 with covariance similarity approach in hyperspectral face (吐松江卡日，高文胜，张紫薇，等.基于支持向量机和遗传算法 recognition based on convolution neural network.Microprocessors 的变压器故障诊断.清华大学学报：自然科学版，2018,58(7)： Microsystems,2020,76:103096 623) [8]Sainath T N,Mohamed A R,Kingsbury B,et al.Deep [18]Shu C,Jin X,Li Z P,et al.Noise diagnosis method of distribution convolutional neural networks for LVCSR /2013 IEEE transformer discharge fault based on CEEMDAN.High Voltage International Conference on Acoustics,Speech and Signal Eng,2018,448):2603 Processing.Vancouver,2013:8614 (舒畅，金潇，李自品，等.基于CEEMDAN的配电变压器放电故 [9]Xie Y,Liang R Y,Bao Y Q.et al.Deception detection with 障噪声诊断方法.高电压技术，2018,44(8)：2603) spectral features based on deep belief network.Acta Acustica, [19]Tuttle J F,Blackburn L D,Powell K M.On-line classification of 2019,44(2):214 coal combustion quality using nonlinear SVM for improved neural (谢跃，梁瑞宇，包永强，等.融合改进梅尔谱特征和深信念网络 network NOx emission rate prediction.Comput Chem Eng,2020, 的语音测谎算法.声学学报，2019,44(2)：214) 141:106990 [10]Meng C,Li Y G,Zhang G Q,et al.Signal recognition of loose [20]Wang X Y,He L S,Wang P J,et al.Milling cutter breakage particles inside aerobat based on support vector machine.Beijing detection based on VMD.J Vib Shock,2020,39(16):135 Univ Aeron Astron,2020,46(3):488 (王向阳，何岭松，王平江，等.基于VMD的铣刀破损检测.振动 (孟偲，李阳刚，张国强，等.基于支持向量机的飞行器多余物信与冲击，2020,39(16)：135) 号识别.北京航空航天大学学报，2020,46(3)：488) [21]Gong W F,Chen H,Zhang Z H,et al.A novel deep learning [11]Zhang K,Su Y,Wang J Y,et al.Environment sound classification method for intelligent fault diagnosis of rotating machinery based system based on hybrid feature and convolutional neural network. on improved CNN-SVM and multichannel data fusion.Sensors, J Northwestern Polytech Univ,2020,38(1):162 2019,19(7):1693 (张科，苏雨，王靖宇，等.基于融合特征以及卷积神经网络的环 [22]Wang HX,Zhou J Q,Gu C H,et al.Design of activation function 境声音分类系统研究.西北工业大学学报，2020,38(1)：162) in CNN for image classification.J Zhejiang Univ Eng Sci,2019

recognition in low-altitude airspace based on motion model. J Beijing Univ Aeron Astron, 2019, 45（4）: 687 （陈唯实, 刘佳, 陈小龙, 等. 基于运动模型的低空非合作无人机目标识别. 北京航空航天大学学报, 2019, 45（4）：687） Bisio I, Garibotto C, Lavagetto F, et al. Blind detection: Advanced techniques for WiFi-based drone surveillance. IEEE Trans Veh Technol, 2018, 68（1）: 938 [2] Quan H D, Tang Z Q, Sun H X, et al. Binary-sequence frequency hopping communication method based on pseudo-random linear frequency modulation. J Huazhong Univ Sci Technol Nat Sci Ed, 2019, 47（11）: 30 （全厚德, 唐志强, 孙慧贤, 等. 基于伪随机线性调频的双序列跳频通信方法. 华中科技大学学报: 自然科学版, 2019, 47（11）： 30） [3] Huang F Z, Zeng J F, Zhang Y, et al. Convolutional recurrent neural networks with multi-sized convolution filters for soundevent recognition. Mod Phys Lett B, 2020, 34（23）: 2050235 [4] Kim J, Min K, Jung M, et al. Occupant behavior monitoring and emergency event detection in single-person households using deep learning-based sound recognition. Build Environ, 2020, 181: 107092 [5] Lan H, Fang Z Y. Recent advances in zero-shot learning. J Electron Inf Technol, 2020, 42（5）: 1188 （兰红, 方治屿. 零样本图像识别. 电子与信息学报, 2020, 42（5）： 1188） [6] Rai A K, Senthilkumar R, Aswin K R. Combining pixel selection with covariance similarity approach in hyperspectral face recognition based on convolution neural network. Microprocessors Microsystems, 2020, 76: 103096 [7] Sainath T N, Mohamed A R, Kingsbury B, et al. Deep convolutional neural networks for LVCSR // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, 2013: 8614 [8] Xie Y, Liang R Y, Bao Y Q, et al. Deception detection with spectral features based on deep belief network. Acta Acustica, 2019, 44（2）: 214 （谢跃, 梁瑞宇, 包永强, 等. 融合改进梅尔谱特征和深信念网络的语音测谎算法. 声学学报, 2019, 44（2）：214） [9] Meng C, Li Y G, Zhang G Q, et al. Signal recognition of loose particles inside aerobat based on support vector machine. J Beijing Univ Aeron Astron, 2020, 46（3）: 488 （孟偲, 李阳刚, 张国强, 等. 基于支持向量机的飞行器多余物信号识别. 北京航空航天大学学报, 2020, 46（3）：488） [10] Zhang K, Su Y, Wang J Y, et al. Environment sound classification system based on hybrid feature and convolutional neural network. J Northwestern Polytech Univ, 2020, 38（1）: 162 （张科, 苏雨, 王靖宇, 等. 基于融合特征以及卷积神经网络的环境声音分类系统研究. 西北工业大学学报, 2020, 38（1）：162） [11] Dua M, Aggarwal R K, Biswas M. GFCC based discriminatively trained noise robust continuous ASR system for Hindi language. J Ambient Intell Human Comput, 2019, 10（6）: 2301 [12] Ali H, Tran S N, Benetos E, et al. Speaker recognition with hybrid features from a deep belief network. Neural Computing Appl, 2018, 29（6）: 13 [13] Geng Q S, Wang F H, Jin X. Mechanical fault sound diagnosis based on GFCC and random forest optimized by whale algorithm for dry type transformer. Electr Power Autom Equip, 2020, 40（8）: 191 （耿琪深, 王丰华, 金霄. 基于Gammatone滤波器倒谱系数与鲸鱼算法优化随机森林的干式变压器机械故障声音诊断. 电力自动化设备, 2020, 40（8）：191） [14] Hou G Y, Xu Z D, Liu X, et al. Optimization method improvement for nonlinear constrained single objective system without mathematic models. Chin J Eng, 2018, 40（11）: 1402 （侯公羽, 许哲东, 刘欣, 等. 无数学模型的非线性约束单目标系统优化方法改进. 工程科学学报, 2018, 40（11）：1402） [15] Yu X Y, Wu J H, Gao Y H. Research on refrigerant leakage identification for heat pump system based on PCA-SVM models. CIESC J, 2020, 71（7）: 3151 （于仙毅, 巫江虹, 高云辉. 基于主成分分析与支持向量机的热泵系统制冷剂泄漏识别研究. 化工学报, 2020, 71（7）：3151） [16] Kari T, Gao W S, Zhang Z W, et al. Power transformer fault diagnosis based on a support vector machine and a genetic algorithm. J Tsinghua Univ Sci Technol, 2018, 58（7）: 623 （吐松江·卡日, 高文胜, 张紫薇, 等. 基于支持向量机和遗传算法的变压器故障诊断. 清华大学学报:自然科学版, 2018, 58（7）： 623） [17] Shu C, Jin X, Li Z P, et al. Noise diagnosis method of distribution transformer discharge fault based on CEEMDAN. High Voltage Eng, 2018, 44（8）: 2603 （舒畅, 金潇, 李自品, 等. 基于CEEMDAN的配电变压器放电故障噪声诊断方法. 高电压技术, 2018, 44（8）：2603） [18] Tuttle J F, Blackburn L D, Powell K M. On-line classification of coal combustion quality using nonlinear SVM for improved neural network NOx emission rate prediction. Comput Chem Eng, 2020, 141: 106990 [19] Wang X Y, He L S, Wang P J, et al. Milling cutter breakage detection based on VMD. J Vib Shock, 2020, 39（16）: 135 （王向阳, 何岭松, 王平江, 等. 基于VMD的铣刀破损检测. 振动与冲击, 2020, 39（16）：135） [20] Gong W F, Chen H, Zhang Z H, et al. A novel deep learning method for intelligent fault diagnosis of rotating machinery based on improved CNN-SVM and multichannel data fusion. Sensors, 2019, 19（7）: 1693 [21] Wang H X, Zhou J Q, Gu C H, et al. Design of activation function in CNN for image classification. J Zhejiang Univ Eng Sci, 2019, [22] 薛珊等：基于卷积神经网络的反无人机系统声音识别方法 · 1523 ·