工程科学学报 Chinese Journal of Engineering 基于卷积神经网络的反无人机系统声音识别方法 薛珊李广青吕琼莹毛逸维 Sound recognition method of an anti-UAV system based on a convolutional neural network XUE Shan,LI Guang-qing,L Qiong-ying.MAO Yi-wei 引用本文: 薛珊,李广青,吕琼莹,毛逸维.基于卷积神经网络的反无人机系统声音识别方法.工程科学学报,2020,42(11):1516- 1524.doi:10.13374j.issn2095-9389.2020.06.30.008 XUE Shan,LI Guang-qing,L Qiong-ying.MAO Yi-wei.Sound recognition method of an anti-UAV system based on a convolutional neural network[J].Chinese Journal of Engineering,2020,42(11):1516-1524.doi:10.13374/j.issn2095-9389.2020.06.30.008 在线阅读View online::htps:/ldoi.org/10.13374.issn2095-9389.2020.06.30.008 您可能感兴趣的其他文章 Articles you may be interested in 基于深度卷积神经网络的地磁导航方向适配性分析 Direction-matching-suitability analysis for geomagnetic navigation based on convolutional neural networks 工程科学学报.2017,3910:1584htps:1doi.org/10.13374.issn2095-9389.2017.10.018 仿鸿雁编队的无人机集群飞行验证 Verification of unmanned aerial vehicle swarm behavioral mechanism underlying the formation of Anser cygnoides 工程科学学报.2019.41(12:1599htps:doi.org10.13374.issn2095-9389.2018.12.18.001 基于BP神经网络的机器人波动摩擦力矩修正方法 Wave friction correction method for a robot based on BP neural network 工程科学学报.2019,41(8:1085htps:1doi.org/10.13374j.issn2095-9389.2019.08.014 基于集成神经网络的剩余寿命预测 Remaining useful life prediction based on an integrated neural network 工程科学学报.2020,42(10:1372htps:oi.org10.13374.issn2095-9389.2019.10.10.005 基于YOLOv3的无人机识别与定位追踪 Drone identification and location tracking based on YOLOv3 工程科学学报.2020,42(4:463 https:/doi.org10.13374.issn2095-9389.2019.09.10.002 无人机遥感在矿业领域应用现状及发展态势 Current status and development trend of UAV remote sensing applications in the mining industry 工程科学学报.2020.42(9):1085 https:/doi.org/10.13374.issn2095-9389.2019.12.18.003
基于卷积神经网络的反无人机系统声音识别方法 薛珊 李广青 吕琼莹 毛逸维 Sound recognition method of an anti-UAV system based on a convolutional neural network XUE Shan, LI Guang-qing, L Qiong-ying, MAO Yi-wei 引用本文: 薛珊, 李广青, 吕琼莹, 毛逸维. 基于卷积神经网络的反无人机系统声音识别方法[J]. 工程科学学报, 2020, 42(11): 1516- 1524. doi: 10.13374/j.issn2095-9389.2020.06.30.008 XUE Shan, LI Guang-qing, L Qiong-ying, MAO Yi-wei. Sound recognition method of an anti-UAV system based on a convolutional neural network[J]. Chinese Journal of Engineering, 2020, 42(11): 1516-1524. doi: 10.13374/j.issn2095-9389.2020.06.30.008 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.06.30.008 您可能感兴趣的其他文章 Articles you may be interested in 基于深度卷积神经网络的地磁导航方向适配性分析 Direction-matching-suitability analysis for geomagnetic navigation based on convolutional neural networks 工程科学学报. 2017, 39(10): 1584 https://doi.org/10.13374/j.issn2095-9389.2017.10.018 仿鸿雁编队的无人机集群飞行验证 Verification of unmanned aerial vehicle swarm behavioral mechanism underlying the formation of Anser cygnoides 工程科学学报. 2019, 41(12): 1599 https://doi.org/10.13374/j.issn2095-9389.2018.12.18.001 基于BP神经网络的机器人波动摩擦力矩修正方法 Wave friction correction method for a robot based on BP neural network 工程科学学报. 2019, 41(8): 1085 https://doi.org/10.13374/j.issn2095-9389.2019.08.014 基于集成神经网络的剩余寿命预测 Remaining useful life prediction based on an integrated neural network 工程科学学报. 2020, 42(10): 1372 https://doi.org/10.13374/j.issn2095-9389.2019.10.10.005 基于YOLOv3的无人机识别与定位追踪 Drone identification and location tracking based on YOLOv3 工程科学学报. 2020, 42(4): 463 https://doi.org/10.13374/j.issn2095-9389.2019.09.10.002 无人机遥感在矿业领域应用现状及发展态势 Current status and development trend of UAV remote sensing applications in the mining industry 工程科学学报. 2020, 42(9): 1085 https://doi.org/10.13374/j.issn2095-9389.2019.12.18.003
工程科学学报.第42卷.第11期:1516-1524.2020年11月 Chinese Journal of Engineering,Vol.42,No.11:1516-1524,November 2020 https://doi.org/10.13374/j.issn2095-9389.2020.06.30.008;http://cje.ustb.edu.cn 基于卷积神经网络的反无人机系统声音识别方法 薛 珊,2)四,李广青),吕琼莹),毛逸维 1)长春理工大学机电工程学院,长春1300222)长春理工大学重庆研究院,重庆400000 ☒通信作者,E-mail:1660348815@qq.com 摘要针对如何识别无人机的问题,提出了一种基于卷积神经网络的声音识别无人机的方法.首先,对100范围内的无 人机、鸟和人的声音进行采集、预处理和提取MFCC+GFCC特征值,将其特征参数作为卷积神经网络学习和识别的数据集: 然后分别设计了支持向量机和卷积神经网络两种模型对无人机等声音进行识别实验.实验结果表明,运用支持向量机识别 无人机的准确率为91.9%,卷积神经网络识别无人机的准确率为96.5%.为了进一步验证设计的卷积神经网络的识别能力,在 部分UrbanSound8K数据集上进行测试,准确率达到90%.实验结果表明运用卷积神经网络识别无人机具有可行性,且识别 性能优于支持向量机. 关键词无人机:声音检测:公共安全:MFCC特征值:GFCC特征值:卷积神经网络 分类号TP391 Sound recognition method of an anti-UAV system based on a convolutional neural network XUE Shan LI Guang-qing,LU Qiong-ying,MAO Yi-wei 1)School of Mechanical and Electrical Engineering,Changchun University of Science and Technology,Changchun 130022,China 2)Chongqing Research Institute,Changchun University of Science and Technology,Chongqing 400000,China Corresponding author,E-mail:1660348815@qq.com ABSTRACT With the rapid growth of the UAV market,UAVs have been widely used in aerial photography,agricultural plant protection,power inspection,forest fire prevention,high-altitude fire fighting,emergency communication,and UAV logistics.However, "black flight"incidents of unlicensed flights and random flights frequently occur,which results in severe security risks to civil aviation airports,sensitive targets,and major activities.Moreover,owing to their characteristics of maneuverability,intelligent control,and low cost,UAVs can be easily used for criminal activities,which threatens public and national security.How to effectively detect UAVs and implement effective measures for UAVs,especially "black-flying"UAVs,is an active and difficult problem that needs to be urgently solved,and it is also an important research area in the field of anti-UAV systems.The research and development of anti-UAV systems is an important focus in national public security,and UAV identification is one of the key technologies in anti-UAV systems.Aiming at the problem of how to recognize UAVs,a sound-recognition method based on a convolutional neural network(CNN)was proposed.The UAV anti-jamming technology based on acoustic signals is not easily affected by an UAV size,shelter,ambient light,and ground clutter, and sound is an inherent attribute of UAVs,which is also applicable to UAVs in a radio-silence state.In this study,UAV sounds,bird sounds,and human voice within 100 m were collected and preprocessed;then the mel frequency cepstral coefficient and gammatone frequency cepstral coefficient eigenvalues were extracted.Support vector machine(SVM)and CNN models were designed to recognize UAV sounds and other sounds.The experimental results show that the SVM and CNN accuracies are 93.3%and 96.7%,respectively.To 收稿日期:2020-06-30 基金项目:吉林省重点科技研发资助项目(20180201058SF)
基于卷积神经网络的反无人机系统声音识别方法 薛 珊1,2) 苣,李广青1),吕琼莹1),毛逸维1) 1) 长春理工大学机电工程学院,长春 130022 2) 长春理工大学重庆研究院,重庆 400000 苣通信作者,E-mail: 1660348815@qq.com 摘 要 针对如何识别无人机的问题,提出了一种基于卷积神经网络的声音识别无人机的方法. 首先,对 100 m 范围内的无 人机、鸟和人的声音进行采集、预处理和提取 MFCC+GFCC 特征值,将其特征参数作为卷积神经网络学习和识别的数据集; 然后分别设计了支持向量机和卷积神经网络两种模型对无人机等声音进行识别实验. 实验结果表明,运用支持向量机识别 无人机的准确率为 91.9%,卷积神经网络识别无人机的准确率为 96.5%. 为了进一步验证设计的卷积神经网络的识别能力,在 部分 UrbanSound8K 数据集上进行测试,准确率达到 90%. 实验结果表明运用卷积神经网络识别无人机具有可行性,且识别 性能优于支持向量机. 关键词 无人机;声音检测;公共安全;MFCC 特征值;GFCC 特征值;卷积神经网络 分类号 TP391 Sound recognition method of an anti-UAV system based on a convolutional neural network XUE Shan1,2) 苣 ,LI Guang-qing1) ,LÜ Qiong-ying1) ,MAO Yi-wei1) 1) School of Mechanical and Electrical Engineering, Changchun University of Science and Technology, Changchun 130022, China 2) Chongqing Research Institute, Changchun University of Science and Technology, Chongqing 400000, China 苣 Corresponding author, E-mail: 1660348815@qq.com ABSTRACT With the rapid growth of the UAV market, UAVs have been widely used in aerial photography, agricultural plant protection, power inspection, forest fire prevention, high-altitude fire fighting, emergency communication, and UAV logistics. However, “black flight” incidents of unlicensed flights and random flights frequently occur, which results in severe security risks to civil aviation airports, sensitive targets, and major activities. Moreover, owing to their characteristics of maneuverability, intelligent control, and low cost, UAVs can be easily used for criminal activities, which threatens public and national security. How to effectively detect UAVs and implement effective measures for UAVs, especially “black-flying” UAVs, is an active and difficult problem that needs to be urgently solved, and it is also an important research area in the field of anti-UAV systems. The research and development of anti-UAV systems is an important focus in national public security, and UAV identification is one of the key technologies in anti-UAV systems. Aiming at the problem of how to recognize UAVs, a sound-recognition method based on a convolutional neural network (CNN) was proposed. The UAV anti-jamming technology based on acoustic signals is not easily affected by an UAV size, shelter, ambient light, and ground clutter, and sound is an inherent attribute of UAVs, which is also applicable to UAVs in a radio-silence state. In this study, UAV sounds, bird sounds, and human voice within 100 m were collected and preprocessed; then the mel frequency cepstral coefficient and gammatone frequency cepstral coefficient eigenvalues were extracted. Support vector machine (SVM) and CNN models were designed to recognize UAV sounds and other sounds. The experimental results show that the SVM and CNN accuracies are 93.3% and 96.7%, respectively. To 收稿日期: 2020−06−30 基金项目: 吉林省重点科技研发资助项目(20180201058SF) 工程科学学报,第 42 卷,第 11 期:1516−1524,2020 年 11 月 Chinese Journal of Engineering, Vol. 42, No. 11: 1516−1524, November 2020 https://doi.org/10.13374/j.issn2095-9389.2020.06.30.008; http://cje.ustb.edu.cn
薛珊等:基于卷积神经网络的反无人机系统声音识别方法 1517 further verify the recognition ability of the designed CNN,it was tested on some Urbansound8K datasets,and its accuracy reached 90%. The experimental results show that a CNN is feasible for UAV recognition,and it has a better recognition performance than a SVM. KEY WORDS UAV:voice detection:public security;MFCC eigenvalue;GFCC eigenvalue;convolution neural network 近年来,无人机市场需求量不断攀升,但是由 式中,表示信号抽样频率,五表示无人机声音的 于人们缺乏公共安全意识且无人机易被不法分子 最高频率.无人机主要声音频段小于16kHz,本文 利用,“黑飞”无人机给国家公共安全造成了严重 选取抽样频率为32kHz. 危害.2015年4月22日,日本首相人身安全受到 1.2无人机声音样本的预加重 无人机威胁:2015年5月14日,无人机人侵白宫 由于噪声的干扰,无人机的声音信息在空气 事件:2017年4月,成都双流机场多次受到来历不 中传播时会受到不同程度的衰减,并且高频部分 明的小型无人机的干扰,客机起飞、降落受到不同 受到衰减的程度会大于低频部分.所以为了弥补 程度的影响,甚至航班取消.无人机带来的安全 高频声音信息的损失,防止声音信息部分的丢失, 问题多种多样,给社会安全问题造成了极大的隐 要对其进行预加重.公式如式(2): 患.如何识别和治理无人机迫在眉睫,而如何检测 z(n)=d(n)-a×d(n-1) (2) 无人机更是重中之重,是当前必须要解决的难点 本文选取预加重系数0.97,dn)表示第n个 问题 采样点的幅值,无人机声音样本预加重后图像如 到目前为止检测无人机的方法有多种,陈唯 图1所示,绿色曲线表示声音时域原始图像,黄色 实等四使用低空监视雷达检测无人机是否存在; 曲线表示预加重后的声音图像 但是雷达检测无人机设备价格昂贵,存在强人体 Green:original sound image 辐射,并且存在检测盲区.Bis0等提出了一种基 Yellow:pre emphasis sound image 于WIFI统计指纹的无人机检测方法,该方法能够 0.02 识别附近的无人机威胁:但是无人机信号为跳频 0.01 输出,WIFI检测技术难度较高,工艺繁琐,并且 0 -0.01 无人机“静默”时无法进行检测.基于此,本文提出 -0.02 了声音检测4-1无人机的方法.声音作为无人机的 0 02 0.40.60.8 1.0 固有属性,区别于周围的其它声音,而且声音检测 Time/s 不受光线、电子的干扰,具有可以穿透遮挡物,价 图1无人机声音样本预加重图 格低,使用方便等优点.首先对无人机声音进行预 Fig.1 Pre-weighting diagram of an UAV sound sample 处理,然后提取梅尔频率倒谱系数(MFCC)和 13无人机声音样本的分帧 Gammatone频率倒谱系数(GFCC)特征,最后使用 由于无人机声音样本很长无法直接提取特 多层卷积神经网络(CNN)对无人机进行声音识别. 征,所以为了方便进行分析和提取特征,并进入到 卷积神经网络首先应用于图像识别领域,在 卷积神经网络,所以要对声音样本进行分帧,使其 该领域得到了广泛应用6刀,在2012年之后,开始 变为一个个的小片段.每个小片段之间会有重叠 应用于声音识别领域中.2013年,Sainath等s使用 部分,约占整个片段的1/5~1/2.本次实验选择分 卷积神经网络在Broadca st News和Switchboard task 帧长度25ms,帧移10ms. 任务上进行实验.本文将卷积神经网络运用在无 1.4无人机声音样本的加窗 人机的声音检测中,用来识别“黑飞”无人机 为了防止声音样本进行分帧后两端的不连续 1无人机声音样本的采集与预处理 性,所以要进行加窗.本文选用的是汉明窗,公式 如式(3): 1.1无人机声音样本的采集 0.54-0.46cos 2元 ,0≤n<L-1 根据奈奎斯特抽样定理,要想抽样后能够不 w(n)= L-1 (3) 失真地还原出原始信号,则采样频率必须大于等 0,other 于两倍信号谱的最高频率,如式(1): 式中:=0,1,,L-1;L为采样窗口长度;w(n)是窗 f5≥26 (1) 函数
further verify the recognition ability of the designed CNN, it was tested on some Urbansound8K datasets, and its accuracy reached 90%. The experimental results show that a CNN is feasible for UAV recognition, and it has a better recognition performance than a SVM. KEY WORDS UAV;voice detection;public security;MFCC eigenvalue;GFCC eigenvalue;convolution neural network 近年来,无人机市场需求量不断攀升,但是由 于人们缺乏公共安全意识且无人机易被不法分子 利用,“黑飞”无人机给国家公共安全造成了严重 危害. 2015 年 4 月 22 日,日本首相人身安全受到 无人机威胁;2015 年 5 月 14 日,无人机入侵白宫 事件;2017 年 4 月,成都双流机场多次受到来历不 明的小型无人机的干扰,客机起飞、降落受到不同 程度的影响,甚至航班取消. 无人机带来的安全 问题多种多样,给社会安全问题造成了极大的隐 患. 如何识别和治理无人机迫在眉睫,而如何检测 无人机更是重中之重,是当前必须要解决的难点 问题. 到目前为止检测无人机的方法有多种,陈唯 实等[1] 使用低空监视雷达检测无人机是否存在; 但是雷达检测无人机设备价格昂贵,存在强人体 辐射,并且存在检测盲区. Bisio 等[2] 提出了一种基 于 WIFI 统计指纹的无人机检测方法,该方法能够 识别附近的无人机威胁;但是无人机信号为跳频 输出[3] ,WIFI 检测技术难度较高,工艺繁琐,并且 无人机“静默”时无法进行检测. 基于此,本文提出 了声音检测[4−5] 无人机的方法. 声音作为无人机的 固有属性,区别于周围的其它声音,而且声音检测 不受光线、电子的干扰,具有可以穿透遮挡物,价 格低,使用方便等优点. 首先对无人机声音进行预 处理 ,然后提取梅尔频率倒谱系数 ( MFCC) 和 Gammatone 频率倒谱系数(GFCC)特征,最后使用 多层卷积神经网络(CNN)对无人机进行声音识别. 卷积神经网络首先应用于图像识别领域,在 该领域得到了广泛应用[6−7] ,在 2012 年之后,开始 应用于声音识别领域中. 2013 年,Sainath 等[8] 使用 卷积神经网络在 Broadca st News 和 Switchboard task 任务上进行实验. 本文将卷积神经网络运用在无 人机的声音检测中,用来识别“黑飞”无人机. 1 无人机声音样本的采集与预处理 1.1 无人机声音样本的采集 根据奈奎斯特抽样定理,要想抽样后能够不 失真地还原出原始信号,则采样频率必须大于等 于两倍信号谱的最高频率,如式(1): fs ⩾ 2 fh (1) 式中,f s 表示信号抽样频率,fh 表示无人机声音的 最高频率. 无人机主要声音频段小于 16 kHz,本文 选取抽样频率为 32 kHz. 1.2 无人机声音样本的预加重 由于噪声的干扰,无人机的声音信息在空气 中传播时会受到不同程度的衰减,并且高频部分 受到衰减的程度会大于低频部分. 所以为了弥补 高频声音信息的损失,防止声音信息部分的丢失, 要对其进行预加重. 公式如式(2): z(n) = d (n)−a×d(n−1) (2) 本文选取预加重系数 a=0.97,d(n) 表示第 n 个 采样点的幅值,无人机声音样本预加重后图像如 图 1 所示,绿色曲线表示声音时域原始图像,黄色 曲线表示预加重后的声音图像. 1.3 无人机声音样本的分帧 由于无人机声音样本很长无法直接提取特 征,所以为了方便进行分析和提取特征,并进入到 卷积神经网络,所以要对声音样本进行分帧,使其 变为一个个的小片段. 每个小片段之间会有重叠 部分,约占整个片段的 1/5~1/2. 本次实验选择分 帧长度 25 ms,帧移 10 ms. 1.4 无人机声音样本的加窗 为了防止声音样本进行分帧后两端的不连续 性,所以要进行加窗. 本文选用的是汉明窗,公式 如式(3): w(n) = 0.54−0.46 cos( 2πn L−1 ) ,0 ⩽ n < L−1 0,other (3) 式中:n=0,1, ···,L−1;L 为采样窗口长度;w(n) 是窗 函数. Green: original sound image Yellow: pre emphasis sound image 0.02 0.01 0.2 0.4 Time/s 0 0.6 0.8 1.0 0 Amplitude −0.01 −0.02 图 1 无人机声音样本预加重图 Fig.1 Pre-weighting diagram of an UAV sound sample 薛 珊等: 基于卷积神经网络的反无人机系统声音识别方法 · 1517 ·
·1518 工程科学学报,第42卷,第11期 在预加重图像的基础上进行加汉明窗操作, 5000 结果如图2所示,绿色曲线表示声音经过预加重 4500 4000 后的图像,黄色曲线是在预加重图像基础上经过 3500 加窗的图像 至3000 Green:pre emphasis sound image Yellow:add hamming window sound image 是2350 是2000 0.006 1500 0.004 0.002 1000 0 -02 500 -0.004 0 -0006 0 50010001500200025003000350040004500 -0.008 Frequency/Hz 0 0.005 0.0100.0150.0200.025 Time/s 图3线性额率与梅尔频率转换曲线图 图2无人机声音样本加汉明窗函数图 Fig.3 Conversion curve of linear frequency and Mel frequency Fig.2 Function diagram of an UAV sound sample plus a Hamming window 合的特征,既可有效提取声音特征,又可克服随机 噪音带来的千扰. 2无人机声音样本特征值的提取 Gammatone滤波器的时域表达式如式(5): 梅尔频率倒谱系数(MFCC)广泛应用于声音 g(fe.t)=kiP-le-2b cos(2nfet+) (5) 识别领域,是在梅尔频率域得到的一种参数,可以 准确地还原原始声音信息 式中,1为时间,p为相位,6为中心频率,k是常数, 先对录取的声音进行预处理,得到关于声音 p为滤波器阶数,b是滤波器的带宽.b的公式如式 的帧信号;由于在时域内难以判别声音信号的特 (6): 性,所以接着再进行快速傅立叶变换(FFT)变换, b=1.019ERB(f)=25.17 14.37f +1 (6) 1000 使其变换到频域:在频域内将信号经过26个非线 性的Mel滤波器组,而且Mel滤波器组从低频到 其中 高频的分布由密变疏;然后对滤波后的信号取对 ERB(f)=24.7+0.108f (7) 数,便于对信号进行倒谱分析;最后经过离散余弦 ERs()为Gammatone滤波器的等价矩形带宽 变换得到关于声音的13维特征参数0 Gammatone滤波器如图4所示 梅尔频率倒谱系数是在Mel频率域中得到 的,相比于线性频率域可以更好的描述声音特征 0 Mel频率和Hz频率的关系如式(4) -20 Me=2595×es+7) (4) 式中,∫为频率,单位为Hz 60 Mel频率和Hz频率的转换曲线如图3. 虽然MFCC特征在声音识别领域中得到广泛 -80 使用,但是由于其受到环境噪声的干扰很大,在部 分情况下无法达到人们的期望值.所以本文使 105 0.5 16 Frequency/kHz 用MFCC与GFCC2-I1融合的特征来对无人机声 图4 Gammatone滤波器幅频特性图 音进行识别 Fig.4 Amplitude frequency characteristics of a gammatone filter GFCC与MFCC相比使用的是Gammatone滤 波器,Gammatone滤波器a被广泛用于模拟人类 本文使用MFCC+GFCC的特征参数来识别无 听觉系统对信号的处理方式,而且对噪声有较好 人机声音,MFCC特征参数为13维,GFCC特征参 的抗干扰性,可以增大识别系统的鲁棒性町,有效 数为13维,经过线性叠加后特征参数为26维.既 弥补MFCC特征的不足.使用MFCC与GFCC融 有Mel滤波器的特征参数,又包含经过Gammatone
在预加重图像的基础上进行加汉明窗操作, 结果如图 2 所示,绿色曲线表示声音经过预加重 后的图像,黄色曲线是在预加重图像基础上经过 加窗的图像. 2 无人机声音样本特征值的提取 梅尔频率倒谱系数(MFCC)广泛应用于声音 识别领域,是在梅尔频率域得到的一种参数,可以 准确地还原原始声音信息[9] . 先对录取的声音进行预处理,得到关于声音 的帧信号;由于在时域内难以判别声音信号的特 性,所以接着再进行快速傅立叶变换(FFT)变换, 使其变换到频域;在频域内将信号经过 26 个非线 性的 Mel 滤波器组,而且 Mel 滤波器组从低频到 高频的分布由密变疏;然后对滤波后的信号取对 数,便于对信号进行倒谱分析;最后经过离散余弦 变换得到关于声音的 13 维特征参数[10] . 梅尔频率倒谱系数是在 Mel 频率域中得到 的,相比于线性频率域可以更好的描述声音特征. Mel 频率和 Hz 频率的关系如式(4) Mel(f) = 2595×log( 1+ f 700) (4) 式中,f 为频率,单位为 Hz. Mel 频率和 Hz 频率的转换曲线如图 3. 虽然 MFCC 特征在声音识别领域中得到广泛 使用,但是由于其受到环境噪声的干扰很大,在部 分情况下无法达到人们的期望值[11] . 所以本文使 用 MFCC 与 GFCC[12−13] 融合的特征来对无人机声 音进行识别. GFCC 与 MFCC 相比使用的是 Gammatone 滤 波器,Gammatone 滤波器[14] 被广泛用于模拟人类 听觉系统对信号的处理方式,而且对噪声有较好 的抗干扰性,可以增大识别系统的鲁棒性[15] ,有效 弥补 MFCC 特征的不足. 使用 MFCC 与 GFCC 融 合的特征,既可有效提取声音特征,又可克服随机 噪音带来的干扰. Gammatone 滤波器的时域表达式如式(5): g(fc,t) = ktp−1 e −2πbt cos(2π fct+φ) (5) 式中,t 为时间,φ 为相位,fc 为中心频率,k 是常数, p 为滤波器阶数,b 是滤波器的带宽. b 的公式如式 (6): b = 1.019ERB (fc) = 25.17( 4.37 fc 1000 +1 ) (6) 其中: ERB (fc) = 24.7+0.108 fc (7) ERB(fc ) 为 Gammatone 滤波器的等价矩形带宽. Gammatone 滤波器如图 4 所示. 本文使用 MFCC+GFCC 的特征参数来识别无 人机声音,MFCC 特征参数为 13 维,GFCC 特征参 数为 13 维,经过线性叠加后特征参数为 26 维. 既 有 Mel 滤波器的特征参数,又包含经过 Gammatone Green: pre emphasis sound image Yellow: add hamming window sound image 0.006 0.002 0 0.004 0.005 0.010 Time/s 0 0.015 0.020 0.025 Amplitude −0.002 −0.008 −0.006 −0.004 图 2 无人机声音样本加汉明窗函数图 Fig.2 Function diagram of an UAV sound sample plus a Hamming window 5000 2000 2500 3000 3500 4000 4500 Frequency/Hz 0 500 1000 1500 2000 2500 3000 3500 4000 4500 Mel frequency 1500 0 500 1000 图 3 线性频率与梅尔频率转换曲线图 Fig.3 Conversion curve of linear frequency and Mel frequency 0 −80 −60 −40 −20 Frequency/kHz 0.25 0.5 1 2 4 8 16 Amplitude −100 图 4 Gammatone 滤波器幅频特性图 Fig.4 Amplitude frequency characteristics of a gammatone filter · 1518 · 工程科学学报,第 42 卷,第 11 期
薛珊等:基于卷积神经网络的反无人机系统声音识别方法 .1519 滤波器的特征参数,对周围环境噪声具有较强的 隔最大 鲁棒性 本文使用支持向量机时,选取的样本是无人 截取一段1s的无人机声音片段,对其分别提 机声音数据和环境声音数据.首先提取声音数据 取MFCC、GFCC和MFCC+GFCC特征参数,特征 特征,然后将两类声音数据合并到同一维度空间 频谱图如图5所示.其中,X轴表示特征参数的维 如图6所示,红色标志代表无人机的声音数据,蓝 度,Y坐标表示1s分帧的数量,Z坐标表示幅值, 色标志代表环境声音数据.目的是寻找紫色平面, 两种特征为纵向结合.右侧图例体现图形的表面 将两种数据集正确划分.对某些数据集,这样的超 颜色,数值表示幅值 平面有无穷多个,超平面需要满足两侧的点到超 平面的最小距离是最大的 3支持向量机和卷积神经网络的设计 由于有时样本在原空间不是线性可分的,所 3.1支持向量机的设计 以需要将它映射到高维空间中,在高维空间中样 针对本文样本数量集少的问题,使用了支持 本是线性可分的.推导可得到式(8)20: 向量机(SVM)和CNN进行对比试验.支持向量机 R=∑4-∑∑aaw,GwG() 在小样本数据集和非线性分析上的实验结果十分 (8) 优秀,具有很强的适应性、很好的分类能力和泛化 其中:i,户1,2,,m,m为样本个数;样本为(c1,, 能力6,是目前使用最广泛、效果最好的分类器 (2,y2),,(xm ym);a,和a为拉格朗日乘子,且a, 之一. a≥0:G(c)'Gc)是在空间中的内积,但是在高维 支持向量机?-19是一种典型的分类模型,其 空间中计算它会很难.所以提出一种核函数K(x,x) 主要目的就是寻找一个超平面,超平面可以正 使其在低维空间计算,但其效果等价于高维空间 确地把训练数据集分割开来,并且保证几何间 中的内积.显然,核函数的选择至关重要,本文选 (a) 600 400 Amplitude 200 0 200 -200 0 -400 -200 600 100 05101520 Characteristic dimension 25 0 Number of frames (b) (c) 40 600 Amplitude 20 400 Amplitude 0 200 0 0 0 -20 -20 -200 -100 40 % -400 -200 60 0 0 6 81012 03000% 0 Number of frames 024 Characteristic dimension 681012 Number of frames 3%0 0 图5特征频谱图.(a)MFCC+GFCC特征额谱图:(b)MFCC特征频谱图:(c)GFCC特征频谱图 Fig.5 Characteristic spectra:(a)characteristic spectrum of mel frequency cepstral coefficient(MFCC)+gammatone frequency cepstral coefficient (GFCC);(b)characteristic spectrum of MFCC;(c)characteristic spectrum of GFCC
滤波器的特征参数,对周围环境噪声具有较强的 鲁棒性. 截取一段 1 s 的无人机声音片段,对其分别提 取 MFCC、GFCC 和 MFCC+GFCC 特征参数,特征 频谱图如图 5 所示. 其中,X 轴表示特征参数的维 度,Y 坐标表示 1 s 分帧的数量,Z 坐标表示幅值, 两种特征为纵向结合. 右侧图例体现图形的表面 颜色,数值表示幅值 3 支持向量机和卷积神经网络的设计 3.1 支持向量机的设计 针对本文样本数量集少的问题,使用了支持 向量机(SVM)和 CNN 进行对比试验. 支持向量机 在小样本数据集和非线性分析上的实验结果十分 优秀,具有很强的适应性、很好的分类能力和泛化 能力[16] ,是目前使用最广泛、效果最好的分类器 之一. 支持向量机[17−19] 是一种典型的分类模型,其 主要目的就是寻找一个超平面,超平面可以正 确地把训练数据集分割开来,并且保证几何间 隔最大. 本文使用支持向量机时,选取的样本是无人 机声音数据和环境声音数据. 首先提取声音数据 特征,然后将两类声音数据合并到同一维度空间. 如图 6 所示,红色标志代表无人机的声音数据,蓝 色标志代表环境声音数据. 目的是寻找紫色平面, 将两种数据集正确划分. 对某些数据集,这样的超 平面有无穷多个,超平面需要满足两侧的点到超 平面的最小距离是最大的. 由于有时样本在原空间不是线性可分的,所 以需要将它映射到高维空间中,在高维空间中样 本是线性可分的. 推导可得到式(8) [20] : R = ∑m i=1 αi − 1 2 ∑m i=1 ∑m j=1 αiαjyiy jG(xi) TG ( xj ) (8) 2, ··· (x2, y2), ··· 其中:i,j=1, ,m,m 为样本个数;样本为 (x1 , y1 ), ,(xm, ym);αi 和 αj 为拉格朗日乘子,且 αi, αj≥0;G (xi ) TG(xj ) 是在空间中的内积,但是在高维 空间中计算它会很难. 所以提出一种核函数 K(xi , xj ) 使其在低维空间计算,但其效果等价于高维空间 中的内积. 显然,核函数的选择至关重要,本文选 (a) 600 100 400 80 200 60 200 0 Amplitude Amplitude 40Number of frames 0 Amplitude −200 20 −200 −400 0 100 80 60 40 Number of frames 20 0 −600 600 100 400 80 200 60 0 Amplitude 40 Number of frames 0 Amplitude −200 20 −200 −100 −400 0 −600 0 5 10 15 20 25 Characteristic dimension (b) (c) 40 20 0 0 −20 Amplitude −20 −40 −40 −60 0 2 4 6 8 10 12 Characteristic dimension 0 2 4 6 8 10 12 Characteristic dimension 图 5 特征频谱图. (a)MFCC+GFCC 特征频谱图;(b)MFCC 特征频谱图;(c)GFCC 特征频谱图 Fig.5 Characteristic spectra: (a) characteristic spectrum of mel frequency cepstral coefficient (MFCC) + gammatone frequency cepstral coefficient (GFCC); (b) characteristic spectrum of MFCC; (c) characteristic spectrum of GFCC 薛 珊等: 基于卷积神经网络的反无人机系统声音识别方法 · 1519 ·
·1520 工程科学学报,第42卷,第11期 3.2.1输入层 Drone voice 将代表无人机样本的MFCC+GFCC特征的特 征矩阵作为输人,输入矩阵的特征维度是26. 3.2.2卷积层 卷积层初步提取无人机MFCC+GFCC矩阵的 特征.本文使用两个卷积层,卷积核大小都为 5×5,步长均为l,padding设置为SAME,必要时进 ● 行数据扩长.卷积核的个数分别为32个和64个 Environmental sound 3.2.3激励层 卷积和池化的过程都是一种线性运算,而激 图6SVM分类示意图 Fig.6 Schematic of support vector machine classification 励层的作用是在其中加入非线性成分,来增加训 练模型的表达能力.本文使用的是经典Relu四 择的是线性核函数,公式如式(9): 函数 K(xi.xj)=xixj (9) 3.2.4池化层 池化层的目的就是为了简化卷积层的输 3.2卷积神经网络的设计 出,降低特征矩阵的维数.池化方式分为最大池化 设计的卷积神经网络结构如图7所示 和均值池化,本文运用最大池化,设计两个池化 卷积神经网络各层参数设置如表1所示 层,池化窗口大小均为2×2,水平垂直步长均为2 Input layer Convolution Poollayer Convolution Pool layer Full connection Full connection Output layer layer layer layer layer 图7设计的卷积神经网络结构图 Fig.7 Structure of a CNN 表1CNN参数设置 Table 1 CNN parameter setting Layer Input dimension Output dimension Sampling window Function selection Input layer [99,26 5×5,striding=l, Convolution layer 1 [99,26 [99,26,32 padding-same, convolution kernel=32 Activation function Relu Pool layer 1 [99,26,32] [50,13,32] 2x2,striding=2 5x5,striding=1, Convolution layer 2 [50,13,32] [50,13,64 padding=same, convolution kernel=32 Activation function Relu Pool layer 2 [50,13,64] [257,64 2×2,striding-2 Full connection layer 1 [25,7.64 [1,10] Full connection layer 2 [1,10] [1,101 Output layer [1,10] [1,3 Softmax
择的是线性核函数[21] ,公式如式(9): K ( xi , xj ) = xi T xj (9) 3.2 卷积神经网络的设计 设计的卷积神经网络结构如图 7 所示. 卷积神经网络各层参数设置如表 1 所示. 3.2.1 输入层 将代表无人机样本的 MFCC+GFCC 特征的特 征矩阵作为输入,输入矩阵的特征维度是 26. 3.2.2 卷积层 卷积层初步提取无人机 MFCC+GFCC 矩阵的 特征. 本文使用两个卷积层 ,卷积核大小都为 5×5,步长均为 1,padding 设置为 SAME,必要时进 行数据扩长. 卷积核的个数分别为 32 个和 64 个. 3.2.3 激励层 卷积和池化的过程都是一种线性运算,而激 励层的作用是在其中加入非线性成分,来增加训 练模型的表达能力. 本文使用的是经典 Relu[22] 函数. 3.2.4 池化层 池化层[23] 的目的就是为了简化卷积层的输 出,降低特征矩阵的维数. 池化方式分为最大池化 和均值池化,本文运用最大池化,设计两个池化 层,池化窗口大小均为 2×2,水平垂直步长均为 2. 表 1 CNN 参数设置 Table 1 CNN parameter setting Layer Input dimension Output dimension Sampling window Function selection Input layer [99,26] Convolution layer 1 [99,26] [99,26,32] 5×5, striding=1, padding=same, convolution kernel=32 Activation function Relu Pool layer 1 [99,26,32] [50,13,32] 2×2, striding=2 Convolution layer 2 [50,13,32] [50,13,64] 5×5, striding=1, padding=same, convolution kernel=32 Activation function Relu Pool layer 2 [50,13,64] [25,7,64] 2×2, striding=2 Full connection layer 1 [25,7,64] [1,10] Full connection layer 2 [1,10] [1,10] Output layer [1,10] [1,3] Softmax Drone voice Environmental sound y x 图 6 SVM 分类示意图 Fig.6 Schematic of support vector machine classification Input layer MFCC GFCC Convolution layer Poollayer Convolution layer Pool layer Full connection layer Full connection layer Output layer 图 7 设计的卷积神经网络结构图 Fig.7 Structure of a CNN · 1520 · 工程科学学报,第 42 卷,第 11 期
薛珊等:基于卷积神经网络的反无人机系统声音识别方法 .1521· 3.2.5全连接层 4实验与分析 全连接层是将卷积和池化操作后的特征进行 重新拟合,由于用到了全部的局部特征,故叫做 4.1实验数据采集 全连接.本文设置2层全连接层,增强特征表达 本实验在长春理工大学东校区停车场和操场进 能力. 行,使用远距离声音采集器对100m范围内的无人 3.2.6输出层 机、鸟叫声和人说话的声音进行声音采集,采集频率 使用的是softmax分类器,它把一些输入映射 为32000Hz,实验照片如图8所示.经过分割后每个 为0~1之间的实数,并且归一化保证和为1,因此 声音样本时间长1s,数量如表2所示,训练和测试的 多分类的概率之和也刚好为14-2 数据集数量(段数)分别为4500和900,比例为5:1. (a) (b) 图8采集样本实验图.(a)白天停车场采集样本图:(b)晚间操场采集样本图 Fig.8 Sample collection experiment map:(a)sample collection map of parking lot during day,(b)sample collection map of playground at night 表2各类音频样本数量表 (a) Table 2 Number of audio samples trfo Sample Training set(piece) Test set(piece) UAV 1500 300 Bird 1500 300 port scipy People 1500 300 check_path path_fila/.1/ 将无人机声音作为目标声音事件,其余声音为 干扰声音 4.2实验环境 实验所用计算机是Windows10系统,Intel(R) Core(TMi7-9750UCPU@2.60GHz,8G内存,基于 开源深度学习框架tensorflow6和开源科学计算库 scipy,采用Python3.7编写预处理和识别程序,文本 L(b) 编辑器为Sublime..其中,tensorflow为1.13.1版本, 0.8 0.7 scipy为1.4.1版本.实验设备为深圳市科视达电子有 06 05 限公司的远距离声音采集器,采样频率为32kHz 0.4 4.3实验过程和结果 0200400600800100012001400 Training times 4.3.1不同神经网络的实验结果及对比 图9卷积神经网络结果显示图.(a)python显示图:(b)测试集识别 使用设计的卷积神经网络和支持向量机在Python 准确率变化曲线图 中对相同样本进行实验,训练次数均为1500次, Fig CNN results display:(a)python display,(b)change curve of test 实验结果如图9和图10.对比结果如表3 set recognition accuracy
3.2.5 全连接层 全连接层是将卷积和池化操作后的特征进行 重新拟合,由于用到了全部的局部特征,故叫做 全连接. 本文设置 2 层全连接层,增强特征表达 能力. 3.2.6 输出层 使用的是 softmax 分类器,它把一些输入映射 为 0~1 之间的实数,并且归一化保证和为 1,因此 多分类的概率之和也刚好为 1 [24−25] . 4 实验与分析 4.1 实验数据采集 本实验在长春理工大学东校区停车场和操场进 行,使用远距离声音采集器对 100 m 范围内的无人 机、鸟叫声和人说话的声音进行声音采集,采集频率 为 32000 Hz,实验照片如图 8 所示. 经过分割后每个 声音样本时间长 1 s,数量如表 2 所示,训练和测试的 数据集数量(段数)分别为 4500 和 900,比例为 5∶1. (a) (b) 图 8 采集样本实验图. (a)白天停车场采集样本图;(b)晚间操场采集样本图 Fig.8 Sample collection experiment map: (a) sample collection map of parking lot during day; (b) sample collection map of playground at night 将无人机声音作为目标声音事件,其余声音为 干扰声音. 4.2 实验环境 实验所用计算机是 Windows10 系统, Intel(R) Core(TM) i7-9750U CPU@2.60 GHz,8 G 内存,基于 开源深度学习框架 tensorflow[26] 和开源科学计算库 scipy,采用 Python3.7 编写预处理和识别程序,文本 编辑器为 Sublime. 其中,tensorflow 为 1.13.1 版本, scipy 为 1.4.1 版本. 实验设备为深圳市科视达电子有 限公司的远距离声音采集器,采样频率为 32 kHz. 4.3 实验过程和结果 4.3.1 不同神经网络的实验结果及对比 使用设计的卷积神经网络和支持向量机在 Python 中对相同样本进行实验,训练次数均为 1500 次 , 实验结果如图 9 和图 10. 对比结果如表 3. 表 2 各类音频样本数量表 Table 2 Number of audio samples Sample Training set (piece) Test set (piece) UAV 1500 300 Bird 1500 300 People 1500 300 0.9 1.0 0.7 0.8 200 400 600 Training times 0 800 1000 1200 1400 0.6 Training accuracy/ % 0.4 0.5 0.3 (b) (a) 图 9 卷积神经网络结果显示图. (a)python 显示图;(b)测试集识别 准确率变化曲线图 Fig.9 CNN results display: (a) python display; (b) change curve of test set recognition accuracy 薛 珊等: 基于卷积神经网络的反无人机系统声音识别方法 · 1521 ·
1522 工程科学学报,第42卷,第11期 Training model... Done clustering.Using clustering model to generate Bow histograms for each image. Done generating Bow histograms. Done generating Bow histograms. Done generating Bow histograms. Training SVM model. Accuracy of SVM(正确率)= 91.8888888888889 图10支持向量机结果显示图 Fig.10 SVM results display 表3不同模型实验结果 (a) wtin fre Mee Bua Touh hriit Hamin mep Table 3 Experimental results of different models Model Accuracy/% mort scipy.io.wavfile wav roe python ⊙5 CNN 96.5 SVM 91.9 import scipy 对比分析表明,设计的CNN网络模型识别无 ath_fi1ns,Pathab5path(,)件的 path path_film 人机的性能优于SVM est_path path_fi1m7满18/t 4.32改变卷积层个数进行试验 1489 卷积层可以初步提取音频特征,其层数对实 验结果具有重要的影响,本文对四种不同情况下 149 的卷积神经网络进行试验,测试集准确率结果如 表4 [F1 nished1n38542,15】 表4不同卷积层测试集准确率实验结果 0.9{b) Table 4 Experimental results on accuracy of test sets of different convolution layers 0.7 Number of layers Accuracy/%Training time/s Number of iterations 里0.4 三0.3 96.52225 26580.6 1500 0 3 96.53334 41907.1 1700 200400600800100012001400 Training times 96.53334 76055.3 2000 图11部分Urbansound8K数据集实验结果显示图.(a)python显示 5 96.56667 126223.5 2500 图:(b)识别准确率变化曲线图 Fig.11 Experimental results display of some Urbansound8K datasets: 如表4所示,网络迭代次数随卷积层层数的增 (a)python display;(b)recognition accuracy change curve 加而增加,在网络达到收敛的前提下,测试集准确 5结论 率随卷积层层数的增加有小幅度上升,但准确率 增加幅度有限,而网络训练时间却急剧上升.在此 (1)针对“黑飞”无人机的检测问题,提出一种 条件下,神经网络结构设计了两层卷积层,测试集 反无人机系统中运用卷积神经网络识别无人机声 准确率达到了要求,并且训练时间较短 音进而检测无人机的方法 (2)采集无人机声音样本,滤波和预处理后输 4.3.3部分Urbansound8K数据集验证 入到设计的支持向量机和卷积神经网络进行识 为验证所设计的卷积神经网络对声音识别的 别,实验结果表明卷积神经网络能够识别,准确率 可行性,除在自行建立的数据集上进行测试外,还 达到要求,并且准确率高于支持向量机. 在典型的数据集Urbansound8K上进行测试.本文 (3)将经典声音数据集输入所设计的卷积神经 选取Urbansounds8K数据集中的冷气机、发动机空 网络,测试所设计的卷积神经网络的性能.实验结果 转和警笛三种声音进行验证,每个种类数据集 表明,设计的卷积神经网络识别性能良好,达到要求 600个,总计1800个,训练与测试数量之比为5:1 实验结果如图11所示,训练1500次时达到收敛状 参考文献 态,测试集准确率为90% [1]Chen W S,Liu J,Chen X L,et al.Non-cooperative UAV target
对比分析表明,设计的 CNN 网络模型识别无 人机的性能优于 SVM. 4.3.2 改变卷积层个数进行试验 卷积层可以初步提取音频特征,其层数对实 验结果具有重要的影响,本文对四种不同情况下 的卷积神经网络进行试验,测试集准确率结果如 表 4. 如表 4 所示,网络迭代次数随卷积层层数的增 加而增加,在网络达到收敛的前提下,测试集准确 率随卷积层层数的增加有小幅度上升,但准确率 增加幅度有限,而网络训练时间却急剧上升. 在此 条件下,神经网络结构设计了两层卷积层,测试集 准确率达到了要求,并且训练时间较短. 4.3.3 部分 Urbansound8K 数据集验证 为验证所设计的卷积神经网络对声音识别的 可行性,除在自行建立的数据集上进行测试外,还 在典型的数据集 Urbansound8K 上进行测试. 本文 选取 Urbansound8K 数据集中的冷气机、发动机空 转和警笛三种声音进行验证 ,每个种类数据集 600 个,总计 1800 个,训练与测试数量之比为 5∶1. 实验结果如图 11 所示,训练 1500 次时达到收敛状 态,测试集准确率为 90%. 5 结论 (1)针对“黑飞”无人机的检测问题,提出一种 反无人机系统中运用卷积神经网络识别无人机声 音进而检测无人机的方法. (2)采集无人机声音样本,滤波和预处理后输 入到设计的支持向量机和卷积神经网络进行识 别,实验结果表明卷积神经网络能够识别,准确率 达到要求,并且准确率高于支持向量机. (3)将经典声音数据集输入所设计的卷积神经 网络,测试所设计的卷积神经网络的性能. 实验结果 表明,设计的卷积神经网络识别性能良好,达到要求. 参 考 文 献 [1] Chen W S, Liu J, Chen X L, et al. Non-cooperative UAV target 表 3 不同模型实验结果 Table 3 Experimental results of different models Model Accuracy /% CNN 96.5 SVM 91.9 表 4 不同卷积层测试集准确率实验结果 Table 4 Experimental results on accuracy of test sets of different convolution layers Number of layers Accuracy /% Training time/s Number of iterations 2 96.52225 26580.6 1500 3 96.53334 41907.1 1700 4 96.53334 76055.3 2000 5 96.56667 126223.5 2500 图 10 支持向量机结果显示图 Fig.10 SVM results display 0.9 0.7 0.8 200 400 600 Training times 0 800 1000 1200 1400 0.6 Training accuracy/ % 0.4 0.5 0.2 0.3 (b) (a) 图 11 部分 Urbansound8K 数据集实验结果显示图. (a)python 显示 图;(b)识别准确率变化曲线图 Fig.11 Experimental results display of some Urbansound8K datasets: (a) python display; (b) recognition accuracy change curve · 1522 · 工程科学学报,第 42 卷,第 11 期
薛珊等:基于卷积神经网络的反无人机系统声音识别方法 ·1523 recognition in low-altitude airspace based on motion model.J [12]Dua M,Aggarwal R K,Biswas M.GFCC based discriminatively Beijing Univ Aeron Astron,2019,45(4):687 trained noise robust continuous ASR system for Hindi language. (陈唯实,刘佳,陈小龙,等.基于运动模型的低空非合作无人机 Ambient Intell Human Comput,2019,10(6):2301 目标识别.北京航空航天大学学报,2019,45(4):687) [13]Ali H,Tran S N,Benetos E,et al.Speaker recognition with hybrid [2]Bisio I,Garibotto C,Lavagetto F,et al.Blind detection:Advanced features from a deep belief network.Neural Computing Appl, techniques for WiFi-based drone surveillance.IEEE Trans Veh 2018.29(6):13 Technol.2018.68(1):938 [14]Geng Q S,Wang F H,Jin X.Mechanical fault sound diagnosis [3]Quan H D,Tang Z Q,Sun H X,et al.Binary-sequence frequency based on GFCC and random forest optimized by whale algorithm hopping communication method based on pseudo-random linear for dry type transformer.Electr Power Autom Equip,2020,40(8): frequency modulation.J Huazhong Univ Sci Technol Nat Sci Ed, 191 2019,47(11:30 (耿琪深,王丰华,金霄.基于Gammatone滤波器倒谱系数与鲸鱼 (全厚德,唐志强,孙慧贤,等.基于伪随机线性调频的双序列跳 算法优化随机森林的干式变压器机械故障声音诊断.电力自动 颜通信方法.华中科技大学学报:自然科学版,2019,47(11): 化设备,2020,40(8):191) 30) [15]Hou G Y,Xu Z D,Liu X,et al.Optimization method improvement [4] Huang F Z.Zeng J F.Zhang Y,et al.Convolutional recurrent for nonlinear constrained single objective system without neural networks with multi-sized convolution filters for sound- mathematic models.Chin J Eng,2018,40(11):1402 event recognition.Mod Phys Lett B,2020,34(23):2050235 (侯公羽,许哲东,刘欣,等.无数学模型的非线性约束单目标系 [5]Kim J,Min K,Jung M,et al.Occupant behavior monitoring and 统优化方法改进.工程科学学报,2018,40(11):1402) emergency event detection in single-person households using deep [16]Yu X Y,Wu J H,Gao Y H.Research on refrigerant leakage learning-based sound recognition.Build Environ,2020,181: identification for heat pump system based on PCA-SVM models. 107092 C1ESCJ,2020,71(7):3151 [6]Lan H,Fang Z Y.Recent advances in zero-shot learning.J (于仙毅,巫江虹,高云辉.基于主成分分析与支持向量机的热 Electron Inf Technol,2020,42(5):1188 泵系统制冷剂泄漏识别研究.化工学报,2020,71(7):3151) (兰红,方治屿.零样本图像识别.电子与信息学报,2020,42(5): [17]Kari T.Gao W S,Zhang Z W,et al.Power transformer fault 1188) diagnosis based on a support vector machine and a genetic [7]Rai A K,Senthilkumar R,Aswin K R.Combining pixel selection algorithm.J Tsinghua Univ Sci Technol,2018,58(7):623 with covariance similarity approach in hyperspectral face (吐松江卡日,高文胜,张紫薇,等.基于支持向量机和遗传算法 recognition based on convolution neural network.Microprocessors 的变压器故障诊断.清华大学学报:自然科学版,2018,58(7): Microsystems,2020,76:103096 623) [8]Sainath T N,Mohamed A R,Kingsbury B,et al.Deep [18]Shu C,Jin X,Li Z P,et al.Noise diagnosis method of distribution convolutional neural networks for LVCSR /2013 IEEE transformer discharge fault based on CEEMDAN.High Voltage International Conference on Acoustics,Speech and Signal Eng,2018,448):2603 Processing.Vancouver,2013:8614 (舒畅,金潇,李自品,等.基于CEEMDAN的配电变压器放电故 [9]Xie Y,Liang R Y,Bao Y Q.et al.Deception detection with 障噪声诊断方法.高电压技术,2018,44(8):2603) spectral features based on deep belief network.Acta Acustica, [19]Tuttle J F,Blackburn L D,Powell K M.On-line classification of 2019,44(2):214 coal combustion quality using nonlinear SVM for improved neural (谢跃,梁瑞宇,包永强,等.融合改进梅尔谱特征和深信念网络 network NOx emission rate prediction.Comput Chem Eng,2020, 的语音测谎算法.声学学报,2019,44(2):214) 141:106990 [10]Meng C,Li Y G,Zhang G Q,et al.Signal recognition of loose [20]Wang X Y,He L S,Wang P J,et al.Milling cutter breakage particles inside aerobat based on support vector machine.Beijing detection based on VMD.J Vib Shock,2020,39(16):135 Univ Aeron Astron,2020,46(3):488 (王向阳,何岭松,王平江,等.基于VMD的铣刀破损检测.振动 (孟偲,李阳刚,张国强,等.基于支持向量机的飞行器多余物信 与冲击,2020,39(16):135) 号识别.北京航空航天大学学报,2020,46(3):488) [21]Gong W F,Chen H,Zhang Z H,et al.A novel deep learning [11]Zhang K,Su Y,Wang J Y,et al.Environment sound classification method for intelligent fault diagnosis of rotating machinery based system based on hybrid feature and convolutional neural network. on improved CNN-SVM and multichannel data fusion.Sensors, J Northwestern Polytech Univ,2020,38(1):162 2019,19(7):1693 (张科,苏雨,王靖宇,等.基于融合特征以及卷积神经网络的环 [22]Wang HX,Zhou J Q,Gu C H,et al.Design of activation function 境声音分类系统研究.西北工业大学学报,2020,38(1):162) in CNN for image classification.J Zhejiang Univ Eng Sci,2019
recognition in low-altitude airspace based on motion model. J Beijing Univ Aeron Astron, 2019, 45(4): 687 (陈唯实, 刘佳, 陈小龙, 等. 基于运动模型的低空非合作无人机 目标识别. 北京航空航天大学学报, 2019, 45(4):687) Bisio I, Garibotto C, Lavagetto F, et al. Blind detection: Advanced techniques for WiFi-based drone surveillance. IEEE Trans Veh Technol, 2018, 68(1): 938 [2] Quan H D, Tang Z Q, Sun H X, et al. Binary-sequence frequency hopping communication method based on pseudo-random linear frequency modulation. J Huazhong Univ Sci Technol Nat Sci Ed, 2019, 47(11): 30 (全厚德, 唐志强, 孙慧贤, 等. 基于伪随机线性调频的双序列跳 频通信方法. 华中科技大学学报: 自然科学版, 2019, 47(11): 30) [3] Huang F Z, Zeng J F, Zhang Y, et al. Convolutional recurrent neural networks with multi-sized convolution filters for soundevent recognition. Mod Phys Lett B, 2020, 34(23): 2050235 [4] Kim J, Min K, Jung M, et al. Occupant behavior monitoring and emergency event detection in single-person households using deep learning-based sound recognition. Build Environ, 2020, 181: 107092 [5] Lan H, Fang Z Y. Recent advances in zero-shot learning. J Electron Inf Technol, 2020, 42(5): 1188 (兰红, 方治屿. 零样本图像识别. 电子与信息学报, 2020, 42(5): 1188) [6] Rai A K, Senthilkumar R, Aswin K R. Combining pixel selection with covariance similarity approach in hyperspectral face recognition based on convolution neural network. Microprocessors Microsystems, 2020, 76: 103096 [7] Sainath T N, Mohamed A R, Kingsbury B, et al. Deep convolutional neural networks for LVCSR // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, 2013: 8614 [8] Xie Y, Liang R Y, Bao Y Q, et al. Deception detection with spectral features based on deep belief network. Acta Acustica, 2019, 44(2): 214 (谢跃, 梁瑞宇, 包永强, 等. 融合改进梅尔谱特征和深信念网络 的语音测谎算法. 声学学报, 2019, 44(2):214) [9] Meng C, Li Y G, Zhang G Q, et al. Signal recognition of loose particles inside aerobat based on support vector machine. J Beijing Univ Aeron Astron, 2020, 46(3): 488 (孟偲, 李阳刚, 张国强, 等. 基于支持向量机的飞行器多余物信 号识别. 北京航空航天大学学报, 2020, 46(3):488) [10] Zhang K, Su Y, Wang J Y, et al. Environment sound classification system based on hybrid feature and convolutional neural network. J Northwestern Polytech Univ, 2020, 38(1): 162 (张科, 苏雨, 王靖宇, 等. 基于融合特征以及卷积神经网络的环 境声音分类系统研究. 西北工业大学学报, 2020, 38(1):162) [11] Dua M, Aggarwal R K, Biswas M. GFCC based discriminatively trained noise robust continuous ASR system for Hindi language. J Ambient Intell Human Comput, 2019, 10(6): 2301 [12] Ali H, Tran S N, Benetos E, et al. Speaker recognition with hybrid features from a deep belief network. Neural Computing Appl, 2018, 29(6): 13 [13] Geng Q S, Wang F H, Jin X. Mechanical fault sound diagnosis based on GFCC and random forest optimized by whale algorithm for dry type transformer. Electr Power Autom Equip, 2020, 40(8): 191 (耿琪深, 王丰华, 金霄. 基于Gammatone滤波器倒谱系数与鲸鱼 算法优化随机森林的干式变压器机械故障声音诊断. 电力自动 化设备, 2020, 40(8):191) [14] Hou G Y, Xu Z D, Liu X, et al. Optimization method improvement for nonlinear constrained single objective system without mathematic models. Chin J Eng, 2018, 40(11): 1402 (侯公羽, 许哲东, 刘欣, 等. 无数学模型的非线性约束单目标系 统优化方法改进. 工程科学学报, 2018, 40(11):1402) [15] Yu X Y, Wu J H, Gao Y H. Research on refrigerant leakage identification for heat pump system based on PCA-SVM models. CIESC J, 2020, 71(7): 3151 (于仙毅, 巫江虹, 高云辉. 基于主成分分析与支持向量机的热 泵系统制冷剂泄漏识别研究. 化工学报, 2020, 71(7):3151) [16] Kari T, Gao W S, Zhang Z W, et al. Power transformer fault diagnosis based on a support vector machine and a genetic algorithm. J Tsinghua Univ Sci Technol, 2018, 58(7): 623 (吐松江·卡日, 高文胜, 张紫薇, 等. 基于支持向量机和遗传算法 的变压器故障诊断. 清华大学学报:自然科学版, 2018, 58(7): 623) [17] Shu C, Jin X, Li Z P, et al. Noise diagnosis method of distribution transformer discharge fault based on CEEMDAN. High Voltage Eng, 2018, 44(8): 2603 (舒畅, 金潇, 李自品, 等. 基于CEEMDAN的配电变压器放电故 障噪声诊断方法. 高电压技术, 2018, 44(8):2603) [18] Tuttle J F, Blackburn L D, Powell K M. On-line classification of coal combustion quality using nonlinear SVM for improved neural network NOx emission rate prediction. Comput Chem Eng, 2020, 141: 106990 [19] Wang X Y, He L S, Wang P J, et al. Milling cutter breakage detection based on VMD. J Vib Shock, 2020, 39(16): 135 (王向阳, 何岭松, 王平江, 等. 基于VMD的铣刀破损检测. 振动 与冲击, 2020, 39(16):135) [20] Gong W F, Chen H, Zhang Z H, et al. A novel deep learning method for intelligent fault diagnosis of rotating machinery based on improved CNN-SVM and multichannel data fusion. Sensors, 2019, 19(7): 1693 [21] Wang H X, Zhou J Q, Gu C H, et al. Design of activation function in CNN for image classification. J Zhejiang Univ Eng Sci, 2019, [22] 薛 珊等: 基于卷积神经网络的反无人机系统声音识别方法 · 1523 ·
.1524 工程科学学报.第42卷.第11期 53(7):1363 Softmax分类器的交通标志识别方法.交通运输工程学报,2017, (王红霞,周家奇,辜承吴,等.用于图像分类的卷积神经网络中 17(3):151) 激活函数的设计.浙江大学学报:工学版,2019,53(7):1363) [25]Wang Y H,Wu J W,Ma S L,et al.Mechanical fault diagnosis [23]Zeng Y,Chen YL,Cai X D.Face recognition algorithm for the research of high voltage circuit breaker based on Kernel principal deep hash combined with global and local pooling.J Xidian Unn component analysis and SoftMax.Trans China Electrotech Soc Nat Sci,.2018,45(5):163 2020,35(Suppl1):267 (曾燕,陈岳林,蔡晓东.结合全局与局部池化的深度哈希人脸 (王显皓,武建文,马速良,等.基于核主成分分析-SoftMax的高 识别算法.西安电子科技大学学报:自然科学版,2018,45(5): 压断路器机械故障诊断技术研究.电工技术学报,2020,35(增刊 163) 1:267) [24]Liang M J,Cui X Y,Song Q S,et al.Traffic sign recognition [26]Li S F.TensorFlow Lite:On-device machine learning framework. method based on HOG-Gabor feature fusion and Softmax JComput Res Dev,2020,57(9):1839 classifier.JTraffic Transportation Eng,2017,17(3):151 (李双峰.TensorFlow Lite:端侧机器学习框架.计算机研究与发 (梁敏健,崔啸宇,宋青松,等.基于HOG-Gabor特征融合与 展,2020,57(9)片:1839)
53(7): 1363 (王红霞, 周家奇, 辜承昊, 等. 用于图像分类的卷积神经网络中 激活函数的设计. 浙江大学学报:工学版, 2019, 53(7):1363) Zeng Y, Chen Y L, Cai X D. Face recognition algorithm for the deep hash combined with global and local pooling. J Xidian Univ Nat Sci, 2018, 45(5): 163 (曾燕, 陈岳林, 蔡晓东. 结合全局与局部池化的深度哈希人脸 识别算法. 西安电子科技大学学报: 自然科学版, 2018, 45(5): 163) [23] Liang M J, Cui X Y, Song Q S, et al. Traffic sign recognition method based on HOG-Gabor feature fusion and Softmax classifier. J Traffic Transportation Eng, 2017, 17(3): 151 (梁敏健, 崔啸宇, 宋青松, 等. 基于HOG-Gabor特征融合与 [24] Softmax分类器的交通标志识别方法. 交通运输工程学报, 2017, 17(3):151) Wang Y H, Wu J W, Ma S L, et al. Mechanical fault diagnosis research of high voltage circuit breaker based on Kernel principal component analysis and SoftMax. Trans China Electrotech Soc, 2020, 35(Suppl 1): 267 (王昱皓, 武建文, 马速良, 等. 基于核主成分分析-SoftMax的高 压断路器机械故障诊断技术研究. 电工技术学报, 2020, 35(增刊 1): 267) [25] Li S F. TensorFlow Lite: On-device machine learning framework. J Comput Res Dev, 2020, 57(9): 1839 (李双峰. TensorFlow Lite: 端侧机器学习框架. 计算机研究与发 展, 2020, 57(9):1839) [26] · 1524 · 工程科学学报,第 42 卷,第 11 期