第13卷第4期 智能系统学报 Vol.13 No.4 2018年8月 CAAI Transactions on Intelligent Systems Aug.2018 D0:10.11992/tis.201703008 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20170704.1702.010html 用Bark频谱投影识别低信噪比动物声音 黄鸿铿,李应 (福州大学数学与计算机科学学院,福建福州350116) 摘要:复杂环境声影响低信噪比动物声音的自动识别。为解决这一问题,本文提出一种不同声场景下低信噪 比动物声音识别的方法。该方法把声音信号进行Bk尺度的小波包分解,再使用分解系数生成重构信号的频 谱,并对频谱进行投影生成Bak频谱投影特征,通过随机森林分类器实现低信噪比动物声音的识别。该文分 别在流水声环境、公路环境、风声环境和嘈杂说话声环境下,以不同的信噪比,对40种动物声音进行识别实 验。结果表明,结合短时谱估计法、Bk频谱投影特征和随机森林的方法对不同信噪比的各种环境声音中动 物声音的平均识别率可以达到80.5%,且在-10dB的情况下依然保持平均60%以上的识别率。 关键词:声音信号;自动识别;小波包变换:随机森林;环境声音 中图分类号:TP391文献标志码:A 文章编号:1673-4785(2018)04-0610-09 中文引用格式:黄鸿铿,李应.用Bark频谱投影识别低信噪比动物声音J八.智能系统学报,2018,13(4):610-618 英文引用格式:HUANG Hongkeng,LI Ying.Identifying low-SNR animal sounds based on Bark spectral projectionJ.CAAI transactions on intelligent systems,2018,13(4):610-618. Identifying low-SNR animal sounds based on Bark spectral projection HUANG Hongkeng,LI Ying (College of Mathematics and Computer Science,Fuzhou University,Fuzhou 350116,China) Abstract:In this paper,we consider the influence of complex background environments on the automatic recognition of animal sounds with low signal-to-noise ratios(SNRs).We propose a method for identifying low-SNR animal sounds in various background environments.In this method,the sound signal is decomposed by a Bark scale wavelet packet,and the decomposition coefficient is used to generate a spectrogram of the reconstructed signal,which is projected onto a spectrogram to generate a Bark spectral projection(BSP)feature.Random forests(RF)are then used to identify animal sounds with low SNRs.We classified 40 common animal sounds with different SNRs in noise environments such as flowing water,highway,wind,and loud speech.The experimental results show that by combining the proposed meth- ods of short-time spectrum estimation,BSP,and RF in various background environments with different SNRs,the mean identification rate for animal noises can reach 80.5%.In addition,a recognition rate above 60%can be maintained even at-10 dB Keywords:sound signal;automatic recognition;wavelet packet transform;random forests;environment sound 动物声音自动识别,对于动物物种、种群及类。此外,还有借助于经典的基于文本数据库 数量研究,生态环境分析具有重要意义。目前,查询方法,采用基于索引的动物声音检索以及 对动物声音识别方法的研究有基于时间序列特征 在连续和真实的现场录音中,识别特定的鸟类声 的动物声音识别川,通过各个音节延续的隐马尔 音。我们也在近年的工作6中,通过自适应能 可夫模型的鸟类识别四,通过声音模式对鸟类分 量检测进行鸟类声音检测;对声谱图提取灰度共 收稿日期:2017-03-08.网络出版日期:2017-07-04. 生矩阵特征,并结合随机森林(random forests,. 基金项目:国家自然科学基金项目(61075022):福建省自然科 学基金项日(2018J01793). RF)识别鸟类声音。然而,对于自然环境下的各 通信作者:李应.E-mail:fj liying@fzu.edu.cn. 种低信噪比动物声音的识别,还缺乏有效的方法
DOI: 10.11992/tis.201703008 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20170704.1702.010.html 用 Bark 频谱投影识别低信噪比动物声音 黄鸿铿,李应 (福州大学 数学与计算机科学学院,福建 福州 350116) 摘 要:复杂环境声影响低信噪比动物声音的自动识别。为解决这一问题,本文提出一种不同声场景下低信噪 比动物声音识别的方法。该方法把声音信号进行 Bark 尺度的小波包分解,再使用分解系数生成重构信号的频 谱,并对频谱进行投影生成 Bark 频谱投影特征,通过随机森林分类器实现低信噪比动物声音的识别。该文分 别在流水声环境、公路环境、风声环境和嘈杂说话声环境下,以不同的信噪比,对 40 种动物声音进行识别实 验。结果表明,结合短时谱估计法、Bark 频谱投影特征和随机森林的方法对不同信噪比的各种环境声音中动 物声音的平均识别率可以达到 80.5%,且在–10 dB 的情况下依然保持平均 60% 以上的识别率。 关键词:声音信号;自动识别;小波包变换;随机森林;环境声音 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2018)04−0610−09 中文引用格式:黄鸿铿, 李应. 用 Bark 频谱投影识别低信噪比动物声音[J]. 智能系统学报, 2018, 13(4): 610–618. 英文引用格式:HUANG Hongkeng, LI Ying. Identifying low-SNR animal sounds based on Bark spectral projection[J]. CAAI transactions on intelligent systems, 2018, 13(4): 610–618. Identifying low-SNR animal sounds based on Bark spectral projection HUANG Hongkeng,LI Ying (College of Mathematics and Computer Science, Fuzhou University, Fuzhou 350116, China) Abstract: In this paper, we consider the influence of complex background environments on the automatic recognition of animal sounds with low signal-to-noise ratios (SNRs). We propose a method for identifying low-SNR animal sounds in various background environments. In this method, the sound signal is decomposed by a Bark scale wavelet packet, and the decomposition coefficient is used to generate a spectrogram of the reconstructed signal, which is projected onto a spectrogram to generate a Bark spectral projection (BSP) feature. Random forests (RF) are then used to identify animal sounds with low SNRs. We classified 40 common animal sounds with different SNRs in noise environments such as flowing water, highway, wind, and loud speech. The experimental results show that by combining the proposed methods of short-time spectrum estimation, BSP, and RF in various background environments with different SNRs, the mean identification rate for animal noises can reach 80.5%. In addition, a recognition rate above 60% can be maintained even at –10 dB. Keywords: sound signal; automatic recognition; wavelet packet transform; random forests; environment sound 动物声音自动识别,对于动物物种、种群及 数量研究,生态环境分析具有重要意义。目前, 对动物声音识别方法的研究有基于时间序列特征 的动物声音识别[1] ,通过各个音节延续的隐马尔 可夫模型的鸟类识别[2] ,通过声音模式对鸟类分 类 [3]。此外,还有借助于经典的基于文本数据库 查询方法,采用基于索引的动物声音检索[4]以及 在连续和真实的现场录音中,识别特定的鸟类声 音 [5]。我们也在近年的工作[6-7]中,通过自适应能 量检测进行鸟类声音检测;对声谱图提取灰度共 生矩阵特征,并结合随机森林 (random forests, RF)[8]识别鸟类声音。然而,对于自然环境下的各 种低信噪比动物声音的识别,还缺乏有效的方法。 收稿日期:2017−03−08. 网络出版日期:2017−07−04. 基金项目:国家自然科学基金项目 (61075022);福建省自然科 学基金项目 (2018J01793). 通信作者:李应. E-mail:fj_liying@fzu.edu.cn. 第 13 卷第 4 期 智 能 系 统 学 报 Vol.13 No.4 2018 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2018
第4期 黄鸿铿,等:用Bak频谱投影识别低信噪比动物声音 ·611· 关于低信噪比声音信号的分析、分类和识别, 以声谱图投影特征结合RF的动物声音识别方法 近期的研究包括小波包过滤的低信噪比声音事件 为基础,该文提出一种Bark尺度的小波包分解系 识别;利用匹配追踪(matching pursuit,.MP)算法 数重构的频谱投影(Bark scale Wavelet packet de-. 从Gabor字典中选择重要的原子,用主成分分析 composition coefficient reconstructed spectral projec- 和线性判别分析确定声音事件的特征,最后采用 tion,BSP)特征。并通过结合短时谱估计、BSP特 支持向量机(supported vector machine,SVM)分类 征和RF的方法识别各种声音场景下的动物声音。 器进行分类识别。以声谱图及其相关的特征为 基础,Dennis等提出基于声谱图进行伪着色并 1基于BSP的动物声音识别方法 提取相关图像特征的声音事件识别方法。尤其, Dennis等2l提出的子带功率分布(subband power 1.1动物声音识别架构 distribution.SPD)特征,在谱图中将可靠的声音事 基于BSP特征结合随机森林(RF)的动物声 件与噪声分开并去除不可靠区域,最后用最近邻 音识别的整体架构,如图1所示。具体流程包括: 居分类器(k-nearest neighbor,.kNN)对特征进行识 首先,对动物声音进行声音增强;然后将增强后 别。这种方法能在信噪比低至0时,可以识别相 声音信号进行Bark尺度的小波包分解并重构分 关的声音事件。然而,由于环境声的多变性,对 解系数,把这些重构通过短时傅里叶变换生成重 于自然环境中0以下各种低信噪比动物声音及声 构信号频谱:并对频谱进行主成分分析,提取投 音事件,目前却没有更为有效的识别方法。 影特征,即各个Bark频率群的BSP:最后使用RF 针对低信噪比动物声音及声音事件的识别, 识别各个Bark频率群的BSP。 第1个 训练 BSP 训练RF L测试 样本 Bark尺度 声音样本集 声音 小波包分 测试 增强 解、重构 第个训练 测试。 RF, BSP 样本 及频谱 别结果 第1门个测试 训练 RF BSP 图1动物声音识别的流程 Fig.1 The process of animal sound recognition 1.2Bark尺度小波包分解 动物声音识别的第一步,将按这个分解结构,对 Bak是一种模拟人耳听觉感知特性的非线性 声音信号进行小波包分解。并把这个小波包分解 频率尺度。小波包分析对信号的低频和高频部分 的17组系数用于下一步的投影特征提取。 同时进行分解,具有更强的频带划分能力。Bark 1.3BSP特征 尺度小波包分解是基于人耳Bark域频率感知特 声音信号经过小波包分解后,再对其相应的 性的小波包分解结构。 小波包分解系数重构的频谱进行主成分分析,得 人耳的Bark域在20Hz~16kHz的频率范围 到BSP特征。对分解系数重构的频谱投影,即提 内分为24个Bark频率群I1。Bark域频率z和赫 取BSP特征的过程如下。 兹(Herz)域频率f的转换关系为 1)计算规范化的频谱矩阵X。对小波包分解 (0.01f.0<f<500 2= 0.007f+1.5,500≤f<1220 (1) 系数进行重构,并把重构的信号进行短时傅里叶 6lnf-32.6,f≥1220 变换,得到重构信号的频谱S(亿,f)。其中,t代表帧 式中:Bark频率群的带宽在500Hz以下时增加速 索引,f=0,1,…,M-1,f代表频率索引,f=0,1,…, 度恒定,约100Hz增加一个带宽;在500~1220Hz N-1。将S第t帧5,=[S(t,0)S(t,1)…S(t,N-1], 带宽呈线性增加;1220Hz以上,带宽呈对数增 转化为规范化的帧: 加。根据小波包分析的特性,可以用小波包分析 来逼近人耳的Bark谱。对于8kHz采样、频率在 高 (2) 4kHz以下的大部分的动物声音事件,用常规方 X=[S,…S,…SwJr,X∈Rww (3) 法模拟1~17号Bark,可以得到图2,每个子带的 2)对频谱矩阵X进行特征值分解。C=XX, 中心频率相差约为1Bark的小波包分解结构。对 C=UAUT,即
关于低信噪比声音信号的分析、分类和识别, 近期的研究包括小波包过滤的低信噪比声音事件 识别[9] ;利用匹配追踪 (matching pursuit,MP) 算法 从 Gabor 字典中选择重要的原子,用主成分分析 和线性判别分析确定声音事件的特征,最后采用 支持向量机 (supported vector machine, SVM) 分类 器进行分类识别[10]。以声谱图及其相关的特征为 基础,Dennis 等 [11]提出基于声谱图进行伪着色并 提取相关图像特征的声音事件识别方法。尤其, Dennis 等 [12]提出的子带功率分布 (subband power distribution, SPD) 特征,在谱图中将可靠的声音事 件与噪声分开并去除不可靠区域,最后用最近邻 居分类器 (k-nearest neighbor, kNN) 对特征进行识 别。这种方法能在信噪比低至 0 时,可以识别相 关的声音事件。然而,由于环境声的多变性,对 于自然环境中 0 以下各种低信噪比动物声音及声 音事件,目前却没有更为有效的识别方法。 针对低信噪比动物声音及声音事件的识别, 以声谱图投影特征结合 RF 的动物声音识别方法[13] 为基础,该文提出一种 Bark 尺度的小波包分解系 数重构的频谱投影 (Bark scale Wavelet packet decomposition coefficient reconstructed spectral projection, BSP) 特征。并通过结合短时谱估计、BSP 特 征和 RF 的方法识别各种声音场景下的动物声音。 1 基于 BSP 的动物声音识别方法 1.1 动物声音识别架构 基于 BSP 特征结合随机森林 (RF) 的动物声 音识别的整体架构,如图 1 所示。具体流程包括: 首先,对动物声音进行声音增强;然后将增强后 声音信号进行 Bark 尺度的小波包分解并重构分 解系数,把这些重构通过短时傅里叶变换生成重 构信号频谱;并对频谱进行主成分分析,提取投 影特征,即各个 Bark 频率群的 BSP;最后使用 RF 识别各个 Bark 频率群的 BSP。 1.2 Bark 尺度小波包分解 Bark 是一种模拟人耳听觉感知特性的非线性 频率尺度。小波包分析对信号的低频和高频部分 同时进行分解,具有更强的频带划分能力[14]。Bark 尺度小波包分解是基于人耳 Bark 域频率感知特 性的小波包分解结构。 人耳的 Bark 域在 20 Hz~16 kHz 的频率范围 内分为 24 个 Bark 频率群[15]。Bark 域频率 z 和赫 兹 (Herz) 域频率 f 的转换关系为 z = 0.01 f, 0 < f < 500 0.007 f +1.5, 500 ⩽ f < 1 220 6ln f −32.6, f ⩾ 1 220 (1) 式中:Bark 频率群的带宽在 500 Hz 以下时增加速 度恒定,约 100 Hz 增加一个带宽;在 500~1 220 Hz 带宽呈线性增加;1 220 Hz 以上,带宽呈对数增 加。根据小波包分析的特性,可以用小波包分析 来逼近人耳的 Bark 谱。对于 8 kHz 采样、频率在 4 kHz 以下的大部分的动物声音事件,用常规方 法模拟 1~17 号 Bark,可以得到图 2,每个子带的 中心频率相差约为 1 Bark 的小波包分解结构。对 动物声音识别的第一步,将按这个分解结构,对 声音信号进行小波包分解。并把这个小波包分解 的 17 组系数用于下一步的投影特征提取。 1.3 BSP 特征 声音信号经过小波包分解后,再对其相应的 小波包分解系数重构的频谱进行主成分分析,得 到 BSP 特征。对分解系数重构的频谱投影,即提 取 BSP 特征的过程如下。 S (t, f) t t = 0,1,··· , M −1 f f = 0,1,··· , N −1 S t S¯ t = [S (t,0) S (t,1) ··· S (t,N −1)]T 1) 计算规范化的频谱矩阵 X。对小波包分解 系数进行重构,并把重构的信号进行短时傅里叶 变换,得到重构信号的频谱 。其中, 代表帧 索引, , 代表频率索引, 。 将 第 帧 , 转化为规范化的帧: St = S¯ t ||S|| (2) X = [S1 ··· St ··· SM] T ,X ∈ R M×N (3) C = X TX C = UΛU T 2) 对频谱矩阵 X 进行特征值分解。 , ,即 声音样本集 训练 样本 测试 样本 声音 增强 Bark尺度 小波包分 解、重构 及频谱 第1个 BSP 第i个 BSP 第17个 BSP 训练 测试 训练 测试 训练 测试 RF1 RFi RF17 … 识别结果 … … … 图 1 动物声音识别的流程 Fig. 1 The process of animal sound recognition 第 4 期 黄鸿铿,等:用 Bark 频谱投影识别低信噪比动物声音 ·611·
·612· 智能系统学报 第13卷 0.0 ,0 ,可 2.0 2.回 2,2 2可 3.0 3, 32 333,46,可6,可6,7刀 (4,0) 4.可 4,2可 4可44勾44,可4,可 6,0⑤,)⑤,2习⑤3⑤4勾⑤5可,6可,可 ⑤,12☑⑤,13 图2声音信号的Bark尺度小波包分解结构 Fig.2 Wavelet packet decomposition of sound signal based on Bark scale 入1 0 X即为当前小波包分解系数重构的频谱投影特征。 C=u1,2,…,uw] (4) 我们对样本声音进行如图2所示的Bark尺 0 1u1d+d2u2+…+wuww 度的小波包分解,并得到为17个分解系数重构的 式中特征值从大到小递减入1≥2≥…≥w 频谱投影,即BSP特征,将作为RF训练与识别的 3)前K个特征值的确定。特征值,i=1, 特征。 2,·,N,代表了特征向量所携带的信息量,特征值 1.4随机森林(RF)识别 越大说明对应的特征向量所携带的信息量越大。 RF是一种利用多棵决策树分类器来对数据 取前K个特征值对应的特征向量可以近似地构 进行判别的集成分类器算法⑧,其输出结果是由 造出C,即 决策树输出的类标签的数量而定。这里,将各个 C≈1u1叫+2u22+…+KtKug,K≤N (5) 小波包结点分解生成的BSP特征结合RF分类 式中K值可以通过式(6)确定: 器,对动物声音样本进行训练和识别。其过程如 图3所示,通过自助重采样技术,从训练样本第 (6) i=l ii=1,2,…,17)个结点的BSP特征集W={X,X,…, 计算前K个特征值之和占全部特征值之和的 X}中自助重采样,生成新的s个训练样本集。然 比重来衡量。 后这s个训练样本集,按照决策树的构建方法生长 4)计算频谱投影。选取矩阵U中前K个成 成s颗决策树,并组合在一起形成第个森林。由 分,组成特征向量Ux=(1,2,…,x),Ux∈Rx。 这s棵决策树构造出第i个RF与第i个结点的 计算频谱投影,即投影矩阵 BSP特征集相对应。每个BSP特征集都要生成 XK=XUK (7) 个RF,因此一共生成17个RF。 自助重 训练样 块策树1 树1投票结果4 采样1 本集1 自助重 训练样 第个 决策树 本集 RF 树投票结果 采样 汇总结果 自助重 训练样 决策树 测试样本 采样s 本集s 树投票结果/ X 训练阶段 测试阶段 图3随机森林(R)训练与识别过程 Fig.3 The train and recognition process of random forests RF对测试样本的识别过程如下。首先,把测 节点对应的类标签就是这棵决策树对特征X所属 试样本各个Bark频率群生成的BSP特征X分别 类别所做的投票。根据17个子频带生成的RF中 放在相应RF的s棵决策树的根节点。根据决策树 每棵决策树的投票结果,统计17个RF中所有投 判别规则向下传递直到决策树的叶子节点。叶子 票总和,其中获得投票数最多的类标签就是测试
C = [u1,u2,··· ,uN] λ1 ··· 0 . . . . . . 0 ··· λN u ′ 1 . . . u ′ N = λ1u1u ′ 1+λ2u2u ′ 2+···+λNuNu ′ N (4) 式中特征值从大到小递减 λ1 ⩾ λ2 ⩾ ··· ⩾ λN。 λi i = 1, 2,··· ,N 3 ) 前 K 个特征值的确定。特征值 , ,代表了特征向量所携带的信息量,特征值 越大说明对应的特征向量所携带的信息量越大。 取前 K 个特征值对应的特征向量可以近似地构 造出 C,即 C ≈ λ1u1u ′ 1 +λ2u2u ′ 2 +···+λKuKu ′ K ,K ≪ N (5) 式中 K 值可以通过式 (6) 确定: ηK = ∑K i=1 λi/ ∑N j=1 λj (6) 计算前 K 个特征值之和占全部特征值之和的 比重来衡量。 U UK = (µ1,µ2,··· ,µK) UK ∈ R N×K 4) 计算频谱投影。选取矩阵 中前 K 个成 分,组成特征向量 , 。 计算频谱投影,即投影矩阵 XK = XUK (7) XK即为当前小波包分解系数重构的频谱投影特征。 我们对样本声音进行如图 2 所示的 Bark 尺 度的小波包分解,并得到为 17 个分解系数重构的 频谱投影,即 BSP 特征,将作为 RF 训练与识别的 特征。 1.4 随机森林 (RF) 识别 i(i=1,2,··· ,17) Wi = { X 1 k ,X 2 k ,··· , X Q k s s s i s i i RF 是一种利用多棵决策树分类器来对数据 进行判别的集成分类器算法[8] ,其输出结果是由 决策树输出的类标签的数量而定。这里,将各个 小波包结点分解生成的 BSP 特征结合 RF 分类 器,对动物声音样本进行训练和识别。其过程如 图 3 所示,通过自助重采样技术,从训练样本第 个结点的 BSP 特征集 }中自助重采样,生成新的 个训练样本集。然 后这 个训练样本集,按照决策树的构建方法生长 成 颗决策树,并组合在一起形成第 个森林。由 这 棵决策树构造出第 个 RF 与 第 个结点 的 BSP 特征集相对应。每个 BSP 特征集都要生成 一个 RF,因此一共生成 17 个 RF。 Xk s RF 对测试样本的识别过程如下。首先,把测 试样本各个 Bark 频率群生成的 BSP 特征 分别 放在相应 RF 的 棵决策树的根节点。根据决策树 判别规则向下传递直到决策树的叶子节点。叶子 节点对应的类标签就是这棵决策树对特征 Xk所属 类别所做的投票。根据 17 个子频带生成的 RF 中 每棵决策树的投票结果,统计 17 个 RF 中所有投 票总和,其中获得投票数最多的类标签就是测试 (0,0) (1,0) (2,0) (2,1) (2,2) (2,3) (3,0) (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (3,7) (4,0) (5,0) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (5,7) (5,12) (5,13) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) (4,7) (1,1) 图 2 声音信号的 Bark 尺度小波包分解结构 Fig. 2 Wavelet packet decomposition of sound signal based on Bark scale 自助重 采样1 自助重 采样j 自助重 采样s 训练阶段 训练样 本集s 训练样 本集j 训练样 本集1 决策树1 决策树j 决策树s 第i个 RF 测试样本 Xk 树1投票结果 树j投票结果 树s投票结果 测试阶段 第i个子频带BSP 特征集Wi … 汇总结果 … 图 3 随机森林 (RF) 训练与识别过程 Fig. 3 The train and recognition process of random forests ·612· 智 能 系 统 学 报 第 13 卷
第4期 黄鸿铿,等:用Bak频谱投影识别低信噪比动物声音 ·613· 样本对应类标签1。 类;4种环境声音,为录音棒录制的环境背景声 音。每种声音有30个样本,实验中随机选取20个 2声音样本与参数设置 样本作为训练样本,其余10个样本作为测试样 本。对声音文件统一处理,将其都转换成:采样 2.1声音样本集 率为8kHz,量化精度为16bits,单声道,且长度为2s 如表1所示,实验使用的40种纯净动物叫声 左右wav格式的声音片段。实验对所有的声音样 来自Freesound!6l声音数据库,分成鸟类和哺乳 本归一化处理并采用Hamming窗进行分帧。 表1声音样本集 Table 1 Sound sample set 声音种类 声音构成 1)翠鸟;2)董鸡;3)鹤;4)黑水鸡:5)黄腰太阳鸟:6)蓝知更鸟:7)公画眉:8)水秧鸡:9唐纳雀:10)鹣鹕:11)燕 鸟类 子;12)雨燕;13)贼鸣:14)绣眼:15)小水鸟;16)田云雀;17)天鹅;18)冠纹柳莺:19)黄喉地莺:20)金丝雀;21)海 鸥;22)八哥;23)白面鸡:24)斑鸠:25)北美夜莺:26北森营:27)捕蝇鸟:28)布谷鸟;29)苍鹭:30)母鹧鸪 哺乳动物 31)巴塞特猎犬:32)草原土拨鼠:33)大猩猩:34)编蝠:35)狗:36)狐狸:37)猎豹:38)绵羊:39)牛:40)山羊 环境声音 流水声;风声;公路噪声;说话噪声 2.2实验参数设置 1)帧 在短时傅里叶变换过程中,每帧帧长为32s, 帧移为帧长一半。 2)特征 92 小波包分解采用db2基函数,频谱投影参数 4 6810121416 K通过实验确定。在对比实验中,声谱图投影特 K值 征m-1的投影参数K取5;梅尔频率倒谱系数(mel 图4参数K与识别率 frequency cepstrum coefficient,MFCC),采用24阶 Fig.4 Parameter K and its recognition rate 三角滤波器组,提取12维离散余弦变换系数:幂 3.2声音信号增强 归一化倒谱系数(power normalized cepstrum coeffi- 使用维纳滤波1)、多频带谱减法20和短时谱 cients,.PNCC),采用32阶的Gammatone滤波器, 估计法对声音进行增强处理,然后提取BSP特 提取12维离散余弦变换系数。 征,分别进行RF的识别率测试,并选出最有效的 3)随机森林(RF)分类器 声音增强算法。 其主要参数有两个,一个是决策树中非叶节 为了减少同一声音事件在不同信噪比及不同 点分裂时预选特征成分的数量m,另一个是RF中 噪声环境下,因增强处理带来信号失真的差异, 决策树的个数k。综合考虑该文实验样本数量和 实验结果,设定k=500,m=5。利用RF进行3次 实验中我们对纯净的训练声音样本也都分别进行 识别,然后取均值作为最终结果。 维纳滤波、多频带谱减法和短时谱估计法的增强 处理。对测试样本,在分别添加信噪比为-10dB、 3实验及结果 -5dB、0dB、5dB和10dB的4种环境声后.再进 行相应3种增强方法处理。在随后的实验中也采 3.1BSP中K的选取 取这种方法。 通过纯净声音的BSP结合随机森林(RF)训 练和测试,确定BSP参数K。在实验中,我们在 实验结果如图5所示。结果表明,在信噪比 没有背景声音的条件下确定BSP特征中K的选 为10dB时,BSP结合RF具有8O%以上的平均识 取,K代表投影矩阵Xx中选取的前K个特征向 别率。但在不同环境不同信噪比下,不做声音增 量。如图4所示,当K≤5时,随着K的增加,测试 强处理的识别率,整体上低于3种声音增强处理 样本的识别率迅速增加,当K≥5时,随着K的增加, 的识别率。说明3种声音增强算法一定程度上都 测试样本的识别率并无明显提升。出于计算代价 能消除背景声音的影响。尤其,在低于0dB的情 和性能表现的权衡,在下面实验中,K取5。 况下,特别是低于-5dB,3种声音增强算法消除
样本对应类标签 l。 2 声音样本与参数设置 2.1 声音样本集 如表 1 所示,实验使用的 40 种纯净动物叫声 来自 Freesound[16]声音数据库,分成鸟类和哺乳 类;4 种环境声音,为录音棒录制的环境背景声 音。每种声音有 30 个样本,实验中随机选取 20 个 样本作为训练样本,其余 10 个样本作为测试样 本。对声音文件统一处理,将其都转换成:采样 率为 8 kHz,量化精度为 16 bits,单声道,且长度为 2 s 左右 wav 格式的声音片段。实验对所有的声音样 本归一化处理并采用 Hamming 窗进行分帧。 2.2 实验参数设置 1) 帧 在短时傅里叶变换过程中,每帧帧长为 32 ms, 帧移为帧长一半。 2) 特征 小波包分解采用 db2 基函数,频谱投影参数 K 通过实验确定。在对比实验中,声谱图投影特 征 [17-18]的投影参数 K 取 5;梅尔频率倒谱系数 (mel frequency cepstrum coefficient, MFCC),采用 24 阶 三角滤波器组,提取 12 维离散余弦变换系数;幂 归一化倒谱系数 (power normalized cepstrum coefficients, PNCC),采用 32 阶的 Gammatone 滤波器, 提取 12 维离散余弦变换系数。 3) 随机森林 (RF) 分类器 m k k = 500,m = 5 其主要参数有两个,一个是决策树中非叶节 点分裂时预选特征成分的数量 ,另一个是 RF 中 决策树的个数 。综合考虑该文实验样本数量和 实验结果,设定 。利用 RF 进行 3 次 识别,然后取均值作为最终结果。 3 实验及结果 3.1 BSP 中 K 的选取 XK K ⩽ 5 K ⩾ 5 通过纯净声音的 BSP 结合随机森林 (RF) 训 练和测试,确定 BSP 参数 K。在实验中,我们在 没有背景声音的条件下确定 BSP 特征中 K 的选 取 ,K 代表投影矩阵 中选取的前 K 个特征向 量。如图 4 所示,当 时,随着 K 的增加,测试 样本的识别率迅速增加,当 时,随着 K 的增加, 测试样本的识别率并无明显提升。出于计算代价 和性能表现的权衡,在下面实验中,K 取 5。 3.2 声音信号增强 使用维纳滤波[19] 、多频带谱减法[20]和短时谱 估计法[21]对声音进行增强处理,然后提取 BSP 特 征,分别进行 RF 的识别率测试,并选出最有效的 声音增强算法。 为了减少同一声音事件在不同信噪比及不同 噪声环境下,因增强处理带来信号失真的差异, 实验中我们对纯净的训练声音样本也都分别进行 维纳滤波、多频带谱减法和短时谱估计法的增强 处理。对测试样本,在分别添加信噪比为–10 dB、 –5 dB、0 dB、5 dB 和 10 dB 的 4 种环境声后,再进 行相应 3 种增强方法处理。在随后的实验中也采 取这种方法。 实验结果如图 5 所示。结果表明,在信噪比 为 10 dB 时,BSP 结合 RF 具有 80% 以上的平均识 别率。但在不同环境不同信噪比下,不做声音增 强处理的识别率,整体上低于 3 种声音增强处理 的识别率。说明 3 种声音增强算法一定程度上都 能消除背景声音的影响。尤其,在低于 0 dB 的情 况下,特别是低于–5 dB,3 种声音增强算法消除 表 1 声音样本集 Table 1 Sound sample set 声音种类 声音构成 鸟类 1) 翠鸟;2) 董鸡;3) 鹤;4) 黑水鸡;5) 黄腰太阳鸟;6) 蓝知更鸟;7) 公画眉;8) 水秧鸡;9) 唐纳雀;10) 鹈鹕;11) 燕 子;12) 雨燕;13) 贼鸥;14) 绣眼;15) 小水鸟;16) 田云雀;17) 天鹅;18) 冠纹柳莺;19) 黄喉地莺;20) 金丝雀;21) 海 鸥;22) 八哥;23) 白面鸡;24) 斑鸠;25) 北美夜莺;26) 北森莺;27) 捕蝇鸟;28) 布谷鸟;29) 苍鹭;30) 母鹧鸪 哺乳动物 31) 巴塞特猎犬;32) 草原土拨鼠;33) 大猩猩;34) 蝙蝠;35) 狗;36) 狐狸;37) 猎豹;38) 绵羊;39) 牛;40) 山羊 环境声音 流水声;风声;公路噪声;说话噪声 2 4 6 8 10 12 14 16 K 值 92 94 96 识别率/% 图 4 参数 K 与识别率 Fig. 4 Parameter K and its recognition rate 第 4 期 黄鸿铿,等:用 Bark 频谱投影识别低信噪比动物声音 ·613·
·614· 智能系统学报 第13卷 噪声的作用最为明显。从图5可以看出,嘈杂说 3.3 BSP与常用特征比较 话声环境和流水声环境在-5dB以上信噪比时、 把BSP特征与SPD☒、声谱图投影.1、PNCC 风声环境在5dB及以上信噪比时,维纳滤波的识 和MFCC等4种常用特征进行RF的训练与识别 别率逐渐低于不增强处理时的识别率。多频带谱 实验比较。 减法和短时谱估计法,对4种环境各种信噪比下, 首先,无噪声条件下的实验,结果如表2所 则都保持较高的识别率。在不同环境声不同信噪 示。BSP、SPD、声谱图投影、PNCC和MFCC等 比的条件下,短时谱估计法有最佳的识别性能, 5种特征对动物声音的识别率都达到90%以上 因此在之后的实验中采用短时谱估计增强方法对 其中,目前对声音事件识别最有效的SPD,识别 效果略好于该文的BSP。 声音信号进行加强。 100 表2无噪声条件下不同方法的比较 Table 2 Comparing different method in non-noise condi- tion % 方法 识别率 ◆一不增强处理 BSP 94.5 SPD 96.3 食一短时谱估计法 0 声谱图投影特征 94.3 0 0 5 信噪比/dB PNCC 93.5 (a)流水噪声环境 MFCC 91.6 100 其次,在不同噪声环境不同信噪比条件下的 5种特征的平均识别率实验结果如表3所示。利 3 60 用流水声、风声、公路声和嘈杂说话声,模拟真实 不增强处理 复杂环境噪声。取信噪比-10dB、-5dB、0dB 0 多频带谱减法 玲一维纳滤波 5dB、10dB和15dB,分别与4种噪声环境进行混 一意一短时谱估计法 合,用于RF训练并测试5种不同特征提取的平 10 -5 0 5 10 信噪比dB 均识别率。不同噪声环境下的平均识别率如表3 (b)风声噪声环境 所示。从表3中可以看到,在不同环境不同信噪 100 比条件下,BSP的平均识别率达到80.5%,比 80 SPD、声谱图投影、PNCC和MFCC等4种特征分 别高出11.4%、9.6%、17.1%和50.5%。 40 不增强处理 表3在不同噪声环境下的平均识别率 30 多频带谱诚法 Table 3 维纳滤波 Average accuracy in different noisy environments 短时谱估计法 不同特征提取方法的平均识别率 5 10 噪声类型 信噪比dB BSP SPD ,声谱图投影特征PNCC MFCC (c)公路噪声环境 流水 85.8 74.4 77.8 73.3 28.1 100 风声 77.7 66.2 64.0 57.0 33.3 公路 76.7 62.6 65.1 48.8 24.9 说话 81.9 73.3 76.5 74.4 33.6 60 平均 80.569.1 70.9 63.430.0 不增强处理 多频带谐减法 由于MFCC在低信噪比的识别率明显低于其 一维纳滤波 一短时谱估计法 他4种特征,随后,我们只比较其他4种特征的识 -10 -5 0 10 别效果。图6表示BSP、SPD、声谱图投影和 信噪比/dB (d)说话噪声环境 PNCC等4种特征,在4种噪声环境下,信噪比为 图54种不同噪声环境下不同增强处理方法的识别效果 -10dB、-5dB、0dB和5dB时的识别率。从图 Fig.5 Results of different enhancement process in four 中可以看出,在信噪比小于0dB时,B$P特征的 kinds of noisy environments 识别率明显高于其他3种特征
噪声的作用最为明显。从图 5 可以看出,嘈杂说 话声环境和流水声环境在–5 dB 以上信噪比时、 风声环境在 5 dB 及以上信噪比时,维纳滤波的识 别率逐渐低于不增强处理时的识别率。多频带谱 减法和短时谱估计法,对 4 种环境各种信噪比下, 则都保持较高的识别率。在不同环境声不同信噪 比的条件下,短时谱估计法有最佳的识别性能, 因此在之后的实验中采用短时谱估计增强方法对 声音信号进行加强。 3.3 BSP 与常用特征比较 把 BSP 特征与 SPD[12] 、声谱图投影[17-18] 、PNCC 和 MFCC 等 4 种常用特征进行 RF 的训练与识别 实验比较。 首先,无噪声条件下的实验,结果如表 2 所 示。BSP、SPD、声谱图投影、PNCC 和 MFCC 等 5 种特征对动物声音的识别率都达到 90% 以上, 其中,目前对声音事件识别最有效的 SPD,识别 效果略好于该文的 BSP。 其次,在不同噪声环境不同信噪比条件下的 5 种特征的平均识别率实验结果如表 3 所示。利 用流水声、风声、公路声和嘈杂说话声,模拟真实 复杂环境噪声。取信噪比–10 dB、–5 dB、0 dB、 5 dB、10 dB 和 15 dB,分别与 4 种噪声环境进行混 合,用于 RF 训练并测试 5 种不同特征提取的平 均识别率。不同噪声环境下的平均识别率如表 3 所示。从表 3 中可以看到,在不同环境不同信噪 比条件下,BSP 的平均识别率达到 80.5%,比 SPD、声谱图投影、PNCC 和 MFCC 等 4 种特征分 别高出 11.4%、9.6%、17.1% 和 50.5%。 由于 MFCC 在低信噪比的识别率明显低于其 他 4 种特征,随后,我们只比较其他 4 种特征的识 别效果。图 6 表示 BSP、SPD、声谱图投影和 PNCC 等 4 种特征,在 4 种噪声环境下,信噪比为 –10 dB、–5 dB、0 dB 和 5 dB 时的识别率。从图 中可以看出,在信噪比小于 0 dB 时,BSP 特征的 识别率明显高于其他 3 种特征。 表 2 无噪声条件下不同方法的比较 Table 2 Comparing different method in non-noise condition % 方法 识别率 BSP 94.5 SPD 96.3 声谱图投影特征 94.3 PNCC 93.5 MFCC 91.6 表 3 在不同噪声环境下的平均识别率 Table 3 Average accuracy in different noisy environments % 噪声类型 不同特征提取方法的平均识别率 BSP SPD 声谱图投影特征 PNCC MFCC 流水 85.8 74.4 77.8 73.3 28.1 风声 77.7 66.2 64.0 57.0 33.3 公路 76.7 62.6 65.1 48.8 24.9 说话 81.9 73.3 76.5 74.4 33.6 平均 80.5 69.1 70.9 63.4 30.0 不增强处理 维纳滤波 多频带谱减法 短时谱估计法 不增强处理 维纳滤波 多频带谱减法 短时谱估计法 不增强处理 维纳滤波 多频带谱减法 短时谱估计法 不增强处理 维纳滤波 多频带谱减法 短时谱估计法 −10 −5 0 5 10 0 20 40 60 80 100 识别率/% 信噪比/dB (a) 流水噪声环境 0 20 40 60 80 100 识别率/% −10 −5 0 5 10 信噪比/dB (b) 风声噪声环境 −10 −5 0 5 10 信噪比/dB (d) 说话噪声环境 0 20 40 60 80 100 识别率/% −10 −5 0 5 10 0 20 40 60 80 100 信噪比/dB 识别率/% (c) 公路噪声环境 图 5 4 种不同噪声环境下不同增强处理方法的识别效果 Fig. 5 Results of different enhancement process in four kinds of noisy environments ·614· 智 能 系 统 学 报 第 13 卷
第4期 黄鸿铿,等:用Bak频谱投影识别低信噪比动物声音 ·615· ☐PNCC☐投影特征☐SPD■BSP 3.4与现有方法及分类器的比较 100 把该文提出BSP-RF与MP-SVMO、PC-SVM 80 和SPD-KNNU214等声音事件检测识别的3种方法 进行比较,结果如表4所示。从表4中可以看出, 60 度 本文方法BSP-RF在低信噪比情况下的识别率, 40 与文献Io121中的方法相比有较大提高。BSP-RF 20 在-10dB的情况下,依然能够保持平均60%以 上的识别率,效果尤为明显。其次,我们进行BSP -10 -5 0 10 结合SVM,BSP结合KNN的实验。结果表明,对 信噪比dB 于BSP特征而言,采用RF对各种环境下不同信 (a)流水噪声环境 噪比动物声音的识别效果优于SVM与KNN。 ☐PNCC☐投影特征☐SPD■BSP 100- 表46种方法的平均识别率 Table 4 Average recognition rate of six kinds of methods 80 方法 纯净20dB10dB0dB-10dB平均 60 BSP-RF 94.591.489.581.861.883.8 MP-SVMI1OI 86380.7 56.529.514.6 53.5 PC-SVMIn 91.488.887.578.6 42.2 77.7 20 SPD-KNNI☒ 97.394.694.378.245.381.9 BSP-SVM 87.385.181.871.651.5 75.5 10 -5 0 5 BSP-KNN 86.884.277.264.040.970.6 信噪比/dB (b)风声噪声环境 4讨论 ☐PNCC☐投影特征☐SPD■BSP 100 4.1RF、SVM与KNN对BSP识别性能的分析 80 从表4可以看出,RF的平均识别率高于KNN 和SVM。特别是在-10dB的情况下,分别比KNN 60 和SVM高出20.9%、10.3%,说明RF比KNN 40 SVM更适用于BSP特征的分类识别。由于BSP 特征把声音信号分解成17个频带,每个频带只包 含部分的声音信息,用这些不完整的信息进行 KNN分类会造成识别率的下降。KNN是基于距 -10 0 10 信噪比dB 离的分类方法,某个特征维度之间的差异值过大 (c)公路噪声环境 可能很大程度上影响其他特征维度,同时KNN ☐PNCC☐投影特征☐SPD■BSP 不能给出决策树那样的分类规则,所以BSP特征 在KNN的分类效果低于RF。SVM适用于高维 80 度、分类数目少、小样本的分类识别,BSP的特征 维度相对较小且实验中包含40类动物声音,所以 60 文中方法不适合采用SVM进行分类。RF是基于 40 决策树的分类规则挖掘不同特征维度之间的关 系,同时结合不同频带之间投票结果,可以提高 20 BSP特征的分类精度,所以RF比KNN以及SVM -10 -5 0 10 更适用于BSP特征的分类。 信噪比/dB 4.2环境声音对动物声音的影响 (d)说话噪声环境 为了分析环境声音对动物声音在各个Bark 图64种噪声环境下不同信噪比的识别率 频率群的影响,我们给出纯净的翠鸟声音和加入 Fig.6 Recognition rate of four kinds of features in four 信噪比为-10dB背景声音后各个Bark频率群的 kinds of noisy environments 能量分布。从图7中可以看出各个Bark频率群
3.4 与现有方法及分类器的比较 把该文提出 BSP-RF 与 MP-SVM[10] 、PC-SVM[11] 和 SPD-KNN[12]等声音事件检测识别的 3 种方法 进行比较,结果如表 4 所示。从表 4 中可以看出, 本文方法 BSP-RF 在低信噪比情况下的识别率, 与文献[10-12]中的方法相比有较大提高。BSP-RF 在–10 dB 的情况下,依然能够保持平均 60% 以 上的识别率,效果尤为明显。其次,我们进行 BSP 结合 SVM,BSP 结合 KNN 的实验。结果表明,对 于 BSP 特征而言,采用 RF 对各种环境下不同信 噪比动物声音的识别效果优于 SVM 与 KNN。 4 讨论 4.1 RF、SVM 与 KNN 对 BSP 识别性能的分析 从表 4 可以看出,RF 的平均识别率高于 KNN 和 SVM。特别是在–10 dB 的情况下,分别比 KNN 和 SVM 高出 20.9%、10.3%,说明 RF 比 KNN、 SVM 更适用于 BSP 特征的分类识别。由于 BSP 特征把声音信号分解成 17 个频带,每个频带只包 含部分的声音信息,用这些不完整的信息进行 KNN 分类会造成识别率的下降。KNN 是基于距 离的分类方法,某个特征维度之间的差异值过大 可能很大程度上影响其他特征维度,同时 KNN 不能给出决策树那样的分类规则,所以 BSP 特征 在 KNN 的分类效果低于 RF。SVM 适用于高维 度、分类数目少、小样本的分类识别,BSP 的特征 维度相对较小且实验中包含 40 类动物声音,所以 文中方法不适合采用 SVM 进行分类。RF 是基于 决策树的分类规则挖掘不同特征维度之间的关 系,同时结合不同频带之间投票结果,可以提高 BSP 特征的分类精度,所以 RF 比 KNN 以及 SVM 更适用于 BSP 特征的分类。 4.2 环境声音对动物声音的影响 为了分析环境声音对动物声音在各个 Bark 频率群的影响,我们给出纯净的翠鸟声音和加入 信噪比为–10 dB 背景声音后各个 Bark 频率群的 能量分布。从图 7 中可以看出各个 Bark 频率群 表 4 6 种方法的平均识别率 Table 4 Average recognition rate of six kinds of methods % 方法 纯净 20 dB 10 dB 0 dB –10 dB 平均 BSP-RF 94.5 91.4 89.5 81.8 61.8 83.8 MP-SVM[10] 86.3 80.7 56.5 29.5 14.6 53.5 PC-SVM[11] 91.4 88.8 87.5 78.6 42.2 77.7 SPD-KNN[12] 97.3 94.6 94.3 78.2 45.3 81.9 BSP-SVM 87.3 85.1 81.8 71.6 51.5 75.5 BSP-KNN 86.8 84.2 77.2 64.0 40.9 70.6 PNCC 投影特征 SPD BSP PNCC 投影特征 SPD BSP PNCC 投影特征 SPD BSP PNCC 投影特征 SPD BSP −10 −5 0 5 0 20 40 60 80 100 识别率/% (a) 流水噪声环境 信噪比/dB 0 20 40 60 80 100 识别率/% −10 −5 0 5 (b) 风声噪声环境 信噪比/dB −10 −5 0 5 0 20 40 60 80 识别率/% (c) 公路噪声环境 信噪比/dB 100 −10 −5 0 5 (d) 说话噪声环境 信噪比/dB 0 20 40 60 80 识别率/% 100 10 10 10 10 图 6 4 种噪声环境下不同信噪比的识别率 Fig. 6 Recognition rate of four kinds of features in four kinds of noisy environments 第 4 期 黄鸿铿,等:用 Bark 频谱投影识别低信噪比动物声音 ·615·
·616. 智能系统学报 第13卷 的能量的变化以及背景声音对翠鸟声音在各个 率群的成分,虽然在投票中难获高分,但多个频 Bark频率群的影响。 率群共同投票后,仍然能保持较高的得分优势。 200 一纯净声音 2)错误检测的分析 ---…-10dB噪声 表5给出加入-5dB风声后,16类容易出现 错误检测的情况(另外24类基本上能够正确识 100 别,限于空间,表5中未列出)。从表5可以看出, 在-5dB风声下,第10类的测试样本全部被错误 50 检测,其中有9个测试样本错分到第19类中;第 24、28、38、39这4类测试样本也都全部被错误检 6810121416 18 测成第19类。同时,发现大部分被错误检测的样 Bark频率群 本,都被检测成第19类。 (a)未声音增强 表5加入-5dB风声噪声测试样本错分情况 200 一纯净声音 Table 5 Wrong test samples'condition in-5 dB wind --…-10dB噪声 noise 150 错分类 451019202324282930343537383940 100 标签 451 50 6 10 09 681012141618 19 10 Bark频率群 20 4 (b)声音增强 23 6 图7:翠鸟的各个Bak频率群的能量分布 24 10 0 Fig.7 The energy distribution of kingfisher in each Bark- 28 10 0 frequency group 29 6 图7(a)和(b)是翠鸟声音经过声音增强前后 30 6 的各个Bark频率群的能量分布。从图中可以看 34 6 4 出背景声音对Bark频率群1~4,即低频部分的影 35 8 1 响比较大,对于高频部分的影响相对比较小。经 37 9 过短时谱估计法声音增强后,可以消除大部分背 38 10 0 景声音的影响,但影响依然存在。该文结合经过 39 10 Bark尺度小波包结构,把声音信号分解成17个投 40 4 12 1 影特征。这样,可以有效地平衡背景声音对部分 观察图8(a)10类(鹅鹕)、(b)19类(黄喉地莺) Bark频率群的影响,有利于识别率的提高。 和(c)38类(绵羊)声音分别在-5dB风声下的声 4.3动物及环境声音与重构频谱投影 谱图,可以发现它们的相似之处。其中,低频部分, l)Bark尺度的小波包分解的本质 Bark尺度的小波包分解的本质,就是把声音 即0~800Hz部分相似度较高:3张声谱图在0.5s 信号按人类听觉敏感程度,对声音信号进行频带 之后,高低频部分都很相近。也就是说,这3张频 划分,再进行不同尺度的小波分析。动物声音, 谱图,高低频部分有80%左右是相近的。这就可 即便在各种环境中,受到不同信噪比的环境声音 能造成大部分Bark频率群频谱投影的相近或相 的干扰,只要人类听觉能感知到,就意味着它存 等,从而造成了测试样本的错误检测。 在不同于环境声音的Bak频率群。而本文提出的 从实验结果进一步观察到,在加入风声噪声 Bark尺度的小波包分解系数重构频谱投影,就是 的情况下,大部分错分的样本被错分到第19类: 分离出这些相关频率群频谱的关键成分。这些 在加入嘈杂说话声时则大部分的样本被错分到 Bark频率群的频谱,必然为每一种动物声音的特 第2类:在加入公路噪声时则大部分的样本被错 色或独有。用这些频谱的投影,进行随机森林(RF) 分到第39类。这说明测试样本错分的原因和加 的投票,必定是高分。而与那些与背影声音同频 入噪声的类型有关
的能量的变化以及背景声音对翠鸟声音在各个 Bark 频率群的影响。 图 7(a) 和 (b) 是翠鸟声音经过声音增强前后 的各个 Bark 频率群的能量分布。从图中可以看 出背景声音对 Bark 频率群 1~4,即低频部分的影 响比较大,对于高频部分的影响相对比较小。经 过短时谱估计法声音增强后,可以消除大部分背 景声音的影响,但影响依然存在。该文结合经过 Bark 尺度小波包结构,把声音信号分解成 17 个投 影特征。这样,可以有效地平衡背景声音对部分 Bark 频率群的影响,有利于识别率的提高。 4.3 动物及环境声音与重构频谱投影 1) Bark 尺度的小波包分解的本质 Bark 尺度的小波包分解的本质,就是把声音 信号按人类听觉敏感程度,对声音信号进行频带 划分,再进行不同尺度的小波分析。动物声音, 即便在各种环境中,受到不同信噪比的环境声音 的干扰,只要人类听觉能感知到,就意味着它存 在不同于环境声音的 Bark 频率群。而本文提出的 Bark 尺度的小波包分解系数重构频谱投影,就是 分离出这些相关频率群频谱的关键成分。这些 Bark 频率群的频谱,必然为每一种动物声音的特 色或独有。用这些频谱的投影,进行随机森林 (RF) 的投票,必定是高分。而与那些与背影声音同频 率群的成分,虽然在投票中难获高分,但多个频 率群共同投票后,仍然能保持较高的得分优势。 2) 错误检测的分析 表 5 给出加入–5 dB 风声后,16 类容易出现 错误检测的情况 (另外 24 类基本上能够正确识 别,限于空间,表 5 中未列出)。从表 5 可以看出, 在–5 dB 风声下,第 10 类的测试样本全部被错误 检测,其中有 9 个测试样本错分到第 19 类中;第 24、28、38、39 这 4 类测试样本也都全部被错误检 测成第 19 类。同时,发现大部分被错误检测的样 本,都被检测成第 19 类。 观察图 8(a) 10 类 (鹈鹕)、(b) 19 类 (黄喉地莺) 和 (c) 38 类 (绵羊) 声音分别在–5dB 风声下的声 谱图,可以发现它们的相似之处。其中,低频部分, 即 0~800 Hz 部分相似度较高;3 张声谱图在 0.5 s 之后,高低频部分都很相近。也就是说,这 3 张频 谱图,高低频部分有 80% 左右是相近的。这就可 能造成大部分 Bark 频率群频谱投影的相近或相 等,从而造成了测试样本的错误检测。 从实验结果进一步观察到,在加入风声噪声 的情况下,大部分错分的样本被错分到第 19 类; 在加入嘈杂说话声时则大部分的样本被错分到 第 2 类;在加入公路噪声时则大部分的样本被错 分到第 39 类。这说明测试样本错分的原因和加 入噪声的类型有关。 表 5 加入–5 dB 风声噪声测试样本错分情况 Table 5 Wrong test samples’ condition in –5 dB wind noise 错分类 标签 4 5 10 19 20 23 24 28 29 30 34 35 37 38 39 40 4 5 1 5 6 10 0 9 19 10 20 4 1 23 4 6 24 10 0 28 10 0 29 6 1 1 1 30 6 1 34 6 4 35 8 1 37 9 1 38 10 0 39 10 0 40 4 1 2 1 1 0 50 100 150 200 声音信号功率谱 2 4 6 8 10 12 14 16 18 Bark频率群 (b) 声音增强 纯净声音 −10 dB噪声 0 2 4 6 8 10 12 14 16 18 50 100 150 200 Bark频率群 声音信号功率谱 (a) 未声音增强 纯净声音 −10 dB噪声 图 7 翠鸟的各个 Bark 频率群的能量分布 Fig. 7 The energy distribution of kingfisher in each Barkfrequency group ·616· 智 能 系 统 学 报 第 13 卷
第4期 黄鸿铿,等:用Brk频谱投影识别低信噪比动物声音 ·617· 4.0 种情况,我们可以考虑帧一级的RF投票。如,声 32 音信号按32ms分帧,只要动物声音不是在32ms 内同时发生,我们依然可以通过RF投票确定每 帧可能的动物声音,并进一步来判断出可能的 多种的动物声。这种情况下,这种方法甚至可以 1.6 识别出人类很难识别的非平稳及混合的各种动物 0.8 声音。 0.5 1.0 1.5 20 5结论 tis (a)鹅鹕声 实验表明,在-10dB以上信噪比环境下,在 4.0 未对声音信号进行增强处理的情况下,该文提出 33 的方法对于动物声音识别有较好的效果。而短时 谱估计声音增强结合BSP特征与随机森林的方 法,不论是低信噪比还是高信噪比声音环境,对 各种环境中的动物声音检测都有较好的效果。 提出的方法能胜任于自然环境下各种低信噪 0.8 比动物声音识别的原因如下:1)采用短时谱估计 吃2 声音增强算法,一定程度上抑制了环境声音的影 0.5 1.0 1.5 2.0 响。2)Bark尺度的小波包分解是基于人耳基底 (b)黄喉地莺声 膜的工作原理,环境声音对于不同Bark频率群的 4.0 影响是不一样的,因此结合各个Bark频率群的特 征信息作为决策依据,一定程度上能够提高识别 32 率。3)采用多随机森林决策的方法有效地消除了 ¥2.4 环境声音对部分Bark频率群特征的影响。 在后续的工作中,将结合深度学习相关方法, 1.6 围绕如何在多个声音重叠的情况下实现各个声音 0.8 事件的检测与识别做进一步的研究。 421 参考文献: 0 0.5 1.0 1.5 20 (c)绵羊声 [1]MITROVIC D,ZEPPELZAUER M,BREITENEDER C. Discrimination and retrieval of animal sounds[Cl/Proceed- 图83种不同动物在5dB风声下的频谱 ings of the 12th International Multi-Media Modelling Con- Fig.8 Spectrums of three kinds of animal in-5 dB wind ference Proceedings.Beijing,China:IEEE,2006:339-343 noise [2]JANCOVIC P.KOKUER M,ZAKERI M,et al.Bird spe- 但是,它们作为不同的动物的声音,自然环境 cies recognition using HMM-based unsupervised model- 下,能被人类听觉感知到,必然有区别于环境声 ling of individual syllables with incorporated duration 音的成分存在,即有不同于背景声音的Bark频率 modelling[C]//Proceedings of 2016 IEEE International 群存在。因此,根据该文方法的原理,这种差别 Conference on Acoustics,Speech and Signal Processing 可以通过小波包分解结构及随机森林投票策略的 Shanghai,China:IEEE,2016:559-563 适当调整来识别。进而,本文提出的方法可以在 [3]RAGHURAM M A,CHAVAN N R,BELUR R,et al.Bird 各种背景声音中,识别各种不同信噪比的动物声 classification based on their sound patterns[J].Internation- al journal of speech technology,2016,19(4):791-804. 音。 [4]BARDELI R.Similarity search in animal sound databases 3)更深层次的识别 [J].IEEE transactions on multimedia,2009,11(1):68-76. 对于非平稳的环境及动物声音,如在特定的 [5]POTAMITIS I,NTALAMPIRAS S,JAHN O,et al.Auto- 背景声音环境下,各种动物声音混在一起,时强 matic bird sound detection in long real-field recordings: 时弱等情况,有可能影响RF投票结果。对于这 applications and tools[J].Applied acoustics,2014,80:1-9
但是,它们作为不同的动物的声音,自然环境 下,能被人类听觉感知到,必然有区别于环境声 音的成分存在,即有不同于背景声音的 Bark 频率 群存在。因此,根据该文方法的原理,这种差别 可以通过小波包分解结构及随机森林投票策略的 适当调整来识别。进而,本文提出的方法可以在 各种背景声音中,识别各种不同信噪比的动物声 音。 3) 更深层次的识别 对于非平稳的环境及动物声音,如在特定的 背景声音环境下,各种动物声音混在一起,时强 时弱等情况,有可能影响 RF 投票结果。对于这 种情况,我们可以考虑帧一级的 RF 投票。如,声 音信号按 32 ms 分帧,只要动物声音不是在 32 ms 内同时发生,我们依然可以通过 RF 投票确定每 一帧可能的动物声音,并进一步来判断出可能的 多种的动物声。这种情况下,这种方法甚至可以 识别出人类很难识别的非平稳及混合的各种动物 声音。 5 结论 实验表明,在–10 dB 以上信噪比环境下,在 未对声音信号进行增强处理的情况下,该文提出 的方法对于动物声音识别有较好的效果。而短时 谱估计声音增强结合 BSP 特征与随机森林的方 法,不论是低信噪比还是高信噪比声音环境,对 各种环境中的动物声音检测都有较好的效果。 提出的方法能胜任于自然环境下各种低信噪 比动物声音识别的原因如下:1) 采用短时谱估计 声音增强算法,一定程度上抑制了环境声音的影 响。2) Bark 尺度的小波包分解是基于人耳基底 膜的工作原理,环境声音对于不同 Bark 频率群的 影响是不一样的,因此结合各个 Bark 频率群的特 征信息作为决策依据,一定程度上能够提高识别 率。3) 采用多随机森林决策的方法有效地消除了 环境声音对部分 Bark 频率群特征的影响。 在后续的工作中,将结合深度学习相关方法, 围绕如何在多个声音重叠的情况下实现各个声音 事件的检测与识别做进一步的研究。 参考文献: MITROVIC D, ZEPPELZAUER M, BREITENEDER C. Discrimination and retrieval of animal sounds[C]//Proceedings of the 12th International Multi-Media Modelling Conference Proceedings. Beijing, China: IEEE, 2006: 339–343 [1] JANČOVIC P, KÖKÜER M, ZAKERI M, et al. Bird species recognition using HMM-based unsupervised modelling of individual syllables with incorporated duration modelling[C]//Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China: IEEE, 2016: 559–563. [2] RAGHURAM M A, CHAVAN N R, BELUR R, et al. Bird classification based on their sound patterns[J]. International journal of speech technology, 2016, 19(4): 791–804. [3] BARDELI R. Similarity search in animal sound databases [J]. IEEE transactions on multimedia, 2009, 11(1): 68–76. [4] POTAMITIS I, NTALAMPIRAS S, JAHN O, et al. Automatic bird sound detection in long real-field recordings: applications and tools[J]. Applied acoustics, 2014, 80: 1–9. [5] t/s 频率/kHz 0 0.5 1.0 1.5 2.0 0.8 1.6 2.4 3.2 4.0 频率/kHz 0.8 1.6 2.4 3.2 4.0 频率/kHz 0.8 1.6 2.4 3.2 4.0 (a) 鹈鹕声 t/s 0 0.5 1.0 1.5 2.0 (b) 黄喉地莺声 t/s 0 0.5 1.0 1.5 2.0 (c) 绵羊声 图 8 3 种不同动物在-5 dB 风声下的频谱 Fig. 8 Spectrums of three kinds of animal in -5 dB wind noise 第 4 期 黄鸿铿,等:用 Bark 频谱投影识别低信噪比动物声音 ·617·
·618… 智能系统学报 第13卷 [6]ZHANG Xiaoxia,LI Ying.Adaptive energy detection for [16]Universitat Pompeu Fabra.Repository of sound under the bird sound detection in complex environments[J].Neuro- creative commons license,Freesound.org[DB/OL].[2018- computing,2015,155:108-116. 03-13].http://www.freesound.org. [7]魏静明,李应.利用抗噪纹理特征的快速鸟鸣声识别[), [17]KIM H G,MOREAU N,SIKORA T.Audio classifica- 电子学报,2015,43(1):185-190. tion based on mpeg-7 spectral basis representations[J]. WEI Jingming,LI Ying.Rapid bird sound recognition us- IEEE transactions on circuits and systems for video tech- ing anti-noise texture features[J].Acta electronica sinica, nology,2004,14(5:716-725. 2015,43(1):185-190. [18]DENG Shiwen,HAN Jiqing,ZHANG Chaozhu,et al.Ro- [8]BREIMAN L.Random forests[J].Machine learning,2001, bust minimum statistics project coefficients feature for 45(1):5-32 acoustic environment recognition[C]//Proceedings of [9]FENG Zuren,ZHOU Qing,ZHANG Jun,et al.A target 2014 IEEE International Conference on Acoustics, guided subband filter for acoustic event detection in noisy Speech and Signal Processing.Florence,Italy:IEEE, environments using wavelet packets[J].IEEE/ACM trans- 2015:8232-8236. actions on audio,speech,and language processing,2015, [19]CHANG Kangming,LIU S H.Gaussian noise filtering 23(2):361-372 from ECG by Wiener filter and ensemble empirical mode [10]WANG Jiacheng,LIN Changhong,CHEN Bowei,et al. decomposition[J].Journal of signal processing systems, Gabor-based nonuniform scale-frequency map for envir- 2011,642):249-264 onmental sound classification in home automation[J]. [20]PALIWAL K,WOJCICKI K,SCHWERIN B.Single- IEEE transactions on automation science and engineering, channel speech enhancement using spectral subtraction in 2014,11(2):607-613 the short-time modulation domain[J.Speech communica- [11]DENNIS J,TRAN H D,LI Haizhou.Spectrogram image tion2010,52(5):450-475. [21]刘翔,高勇.一种引入延迟的语音增强算法[】.现代电 feature for sound event classification in mismatched con- 子技术,2011.34(5):85-88 ditions[J].IEEE signal processing letters,2011,18(2): 130-133. LIU Xiang,GAO Yong.Speech enhancement algorithm [12]DENNIS J,TRAN H D,CHNG E S.Image feature rep- with leading-in delay[J].Modern electronics technique, 2011.34(5:85-88 resentation of the subband power distribution for robust sound event classification[J].IEEE transactions on audio, 作者简介: speech,and language processing,2013,21(2):367-377. 黄鸿悭,男,1993年生,硕士研究 [13]LI Ying,WU Zhibin.Animal sound recognition based on 生,主要研究方向为声音事件检测、信 double feature of spectrogram in real environment[C]// 息安全。 Proceedings of 2015 IEEE International Conference on Wireless Communications and Signal Processing.Nanjing, China:IEEE,2015:1-5. [14]LAINE A,FAN J.Texture classification by wavelet pack- et signatures[J].IEEE Transactions on pattern analysis 李应,男,1964年生,教授,博士 主要研究方向为多媒体数据检索、声 and machine intelligence,1993,15(11):1186-1191. 音事件检测、信息安全。获授权发明 [15]KARMAKAR A.KUMAR A.PATNEY R K.Design of 专利10项。发表学术论文20余篇。 optimal wavelet packet trees based on auditory percep- tion criterion[J].IEEE signal processing letters,2007, 14(4):240-243
ZHANG Xiaoxia, LI Ying. Adaptive energy detection for bird sound detection in complex environments[J]. Neurocomputing, 2015, 155: 108–116. [6] 魏静明, 李应. 利用抗噪纹理特征的快速鸟鸣声识别[J]. 电子学报, 2015, 43(1): 185–190. WEI Jingming, LI Ying. Rapid bird sound recognition using anti-noise texture features[J]. Acta electronica sinica, 2015, 43(1): 185–190. [7] BREIMAN L. Random forests[J]. Machine learning, 2001, 45(1): 5–32. [8] FENG Zuren, ZHOU Qing, ZHANG Jun, et al. A target guided subband filter for acoustic event detection in noisy environments using wavelet packets[J]. IEEE/ACM transactions on audio, speech, and language processing, 2015, 23(2): 361–372. [9] WANG Jiacheng, LIN Changhong, CHEN Bowei, et al. Gabor-based nonuniform scale-frequency map for environmental sound classification in home automation[J]. IEEE transactions on automation science and engineering, 2014, 11(2): 607–613. [10] DENNIS J, TRAN H D, LI Haizhou. Spectrogram image feature for sound event classification in mismatched conditions[J]. IEEE signal processing letters, 2011, 18(2): 130–133. [11] DENNIS J, TRAN H D, CHNG E S. Image feature representation of the subband power distribution for robust sound event classification[J]. IEEE transactions on audio, speech, and language processing, 2013, 21(2): 367–377. [12] LI Ying, WU Zhibin. Animal sound recognition based on double feature of spectrogram in real environment[C]// Proceedings of 2015 IEEE International Conference on Wireless Communications and Signal Processing. Nanjing, China: IEEE, 2015: 1–5. [13] LAINE A, FAN J. Texture classification by wavelet packet signatures[J]. IEEE Transactions on pattern analysis and machine intelligence, 1993, 15(11): 1186–1191. [14] KARMAKAR A, KUMAR A, PATNEY R K. Design of optimal wavelet packet trees based on auditory perception criterion[J]. IEEE signal processing letters, 2007, 14(4): 240–243. [15] Universitat Pompeu Fabra. Repository of sound under the creative commons license, Freesound.org[DB/OL]. [2018- 03-13]. http://www.freesound.org. [16] KIM H G, MOREAU N, SIKORA T. Audio classification based on mpeg-7 spectral basis representations[J]. IEEE transactions on circuits and systems for video technology, 2004, 14(5): 716–725. [17] DENG Shiwen, HAN Jiqing, ZHANG Chaozhu, et al. Robust minimum statistics project coefficients feature for acoustic environment recognition[C]//Proceedings of 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Florence, Italy: IEEE, 2015: 8232–8236. [18] CHANG Kangming, LIU S H. Gaussian noise filtering from ECG by Wiener filter and ensemble empirical mode decomposition[J]. Journal of signal processing systems, 2011, 64(2): 249–264. [19] PALIWAL K, WÓJCICKI K, SCHWERIN B. Singlechannel speech enhancement using spectral subtraction in the short-time modulation domain[J]. Speech communication, 2010, 52(5): 450–475. [20] 刘翔, 高勇. 一种引入延迟的语音增强算法[J]. 现代电 子技术, 2011, 34(5): 85–88. LIU Xiang, GAO Yong. Speech enhancement algorithm with leading-in delay[J]. Modern electronics technique, 2011, 34(5): 85–88. [21] 作者简介: 黄鸿铿,男,1993 年生,硕士研究 生,主要研究方向为声音事件检测、信 息安全。 李应,男,1964 年生,教授,博士, 主要研究方向为多媒体数据检索、声 音事件检测、信息安全。获授权发明 专利 10 项。发表学术论文 20 余篇。 ·618· 智 能 系 统 学 报 第 13 卷