·126 智能系统学报 第7卷 第1幅图是原始的女生“中国向前进”,第2幅 统的模型对于多声源环境下的语音分离具有很高的 图是原始的男生“人民齐发展”,第3幅图是混叠后 鲁棒性 的信号,第4幅图是分离后的声源信号男生“人民 接下来,本文对比Voutsas等构建的构建结合 齐发展”,第5幅图是分离后的声源信号女生“中国 实际尖峰神经网络的多滞后线模型3),该模型也利 向前进” 用生物学听觉中枢的相关原理,但是在提取多声源 对于A、B、C3类测试,做了大量实验之后,从 语音信号的特征时只利用了TD信息,也就是说,该 每类测试中分别随机抽取了50组,结果对分离后的 模型没有利用重合神经元融合LD的信息.本文随 语音信号和原始的语音信号波形利用Matlab进行 机从国家“863”多语言基础资源库的口语语音库中 相似性对比.图9给出了相似度比较结果, 挑选了25个小于1.5kHz的词语和25个大于1.5 kHz的词语,利用该模型进行语音分离实验,并且将 0.995 分离后的语音信号和原始的语音信号进行相似度比 0.985 较,结果如图10所示. 0.975 1.2 1.0 口系列1 0.965 +系列1 g0.8 0.955 7 13192531374349 0.6 测试次数 0.4 (a)A类 0.2 5913172125293337414549 0.995 试验次数 0.985 图10 Voutsas和Adamy的模型的语音信号分离前后相 0.975 0 似度曲线 0.965 Fig.10 Similarity curve table of Voutsas and Adamy's 0.955 +系列1 model 0.915 5913172125293337414549 由图10可得,对小于1.5kz频率的低频语音信 测试次数 号,采用Voutsas等构建的构建结合实际尖峰神经网络 (b)B类 的多滞后线模型,其结果相似度可以达到0.975以上, 但是对于大于1.5kH的语音信号却越来越弱.这一点 0.995 正好符合生物学原理,TD对低于1.5k的语音信号 985 的特征提取起作用,而对高于1.5kHz的语音信号则会 失去效果;LD则正好相反. 0.975 由以上分析可得,相对于Voutsas和Adamy构 0.965 一+系列1 建的构建结合实际尖峰神经网络的多滞后线模型, +系列2 0.955 本文所提出的模型更好地模拟了人类听觉中枢对语 7 13192531374349 测试次数 音信号的特征提取和分离,能够在更广、更全的频率 (c)C类 范围内有效地对多声源环境下的语音信号进行分 图93类语音信号分离前后相似度 离,并且具有较高的鲁棒性.对于第1类和第2类的 Fig.9 Three similarity curve table of the third group 测试实验,采用本文的方法还可以提高语音信号的 图9分别对应于A、B、C3类测试的相似度对 信噪比.利用重合神经元融合的TD和LD的信息, 比结果,横坐标代表试验次数,纵坐标代表分离后语 选取了5组的方位角数据,按照信噪比计算公式: 音信号和原始语音信号的相似度.由曲线可得,分离 SNR 后的语音信号与原始的平均相似度可以达到0.97 10lg(∑s())1∑[s(t)-s()]2, 以上,由此可得,本文提出的完整的利用听觉中枢系 计算的对比结果如表2所示