第2期 罗元,等:多个声源下基于人耳听觉特性的语音分离 ·127· 表22组语音分离前后信噪比对比 ISAST Transactions on Electronic and Signal Processing Table 2 The contrast of signal to noise ratio 2010,4(1):62-73 第1组 第2组 [4]赵鹤鸣,葛良,陈雪勤,等.基于声音定位和听觉掩蔽效 角度/() 应的语音分离研究[J].半导体学报,2005,33(1): 分离前分离后 分离前分离后 158-160. 0,25 17.2 50.2 12.4 49.2 16.7 12.1 ZHAO Heming,GE Liang,CHEN Xueqin,et al.Research 0,45 49.5 48.2 45,75 16.8 50.1 12.9 48.6 based on sound localization and auditory masking effect of 100,130 15.3 49.4 12.8 46.8 voice separation[J].Journal of Semiconductors,2005,33 140,145 11.8 21.1 11.5 20.7 (1):158-160. 由表2可得,当2个声源的入射具有一定空间 [5]LIU Jindong,ERWIN H,WERMTER S.Mobile robot broadband sound localisation using a biologically inspired 方位差别时,分离后的信噪比有了大幅度的提高,当 spiking neural network[C]//Proceedings of IEEE/RSJ Int 2个声源的入射的空间方位差别较小时,分离后的 Conf on Intelligent Robots and Systems in Nice.[S.I.] 语音信号的信噪比与分离前的差别不大.例如表2 2008:2191-2196 中,当方位角(01,02)选取为(135°,140)时,重合神 [6]DURRIEU JL,RICHARD G,DAVID B.An iterative ap- 经元在计算TD和LD的信息时容易造成偏差,也 proach to monaural musical mixture desoloing[C]//Proc of 就造成了掩蔽系数的计算错误.这种现象也可以利 IEEE International Conference on Acoustics,Speech,and 用人的听觉现象来解释,当2个声源来自2个很相 Signal Processing.Paris,France,2009:105-108. 近方位角时,人的听觉系统难以分辨出其中的一个 [7]KONIARIS C,CHATTERJEE S,KLEIJN W B.Towards 声音 effective singing voice extraction from stereophonic record- ings[C]//2010 IEEE Intemational Conference on Acoustics 3结论与展望 Speech and Signal Processing(ICASSP).Hatfield,UK, 2010:233-236. 提出了一种在多声源环境中语音分离方法,建 [8]BROWN G J,FERRY R T,MEDDIS R.A computer model 立了一个完整的人脑听觉中枢系统模型.与现有的 of auditory efferent suppression:implications for the recog- 语音识别方法相比,本文模型很好地解决了绝大多 nition of speech in noise[J].Acoustical Society of Ameri- 数的语音识别方法都只能在单声源和低噪声的环境 ca,2010,127(2):943-954. 下使用的问题. [9]DUONG N,VINCENT E,GRIBONVAL R.Spatial covari- 随着研究的深入,基于听觉中枢系统的语音分 ance models for under-determined reverberant audio source 离模型将具有广泛的应用前景:1)智能机器人,可 separation[C]//Applications of Signal Processing to Audio 以提高语音系统识别率;2)助听设备,用于有听力 and Acoustics 2009 WASPAA'09).Rennes.France. 障碍的残疾人;3)多媒体检索,辅助目前的文字检 2009:129-132. 索;4)语音增强,去除音频文件中掺杂的一些干扰 [10]DONG Yi,MIHALAS S,NIEBUR E.Improved integral e- quation solution for the first passage time of leaky integrate- 噪声。 and-fire neurons[J].Neural Computation,2011,23(2): 参考文献: 421-434. [11]VOUTSAS K,ADAMY J.A biologically inspired spiking [1]OZEROV A,VINCENT E,BIMBOT F.A general modular neural network for sound source lateralization[J].IEEE framework for audio source separation[C]//9th Internation- Trans Neural Networks,2007,18(6):1785-1799. al Conference on Latent Variable Analysis and Signal Sepa- 作者简介: ration (LVA/ICA10).Saint-Malo,France,2010:33-40. 罗元,女,1972年生,教授,博士.近 [2]VINCENT E,BERTIN N,BADEAU R.Harmonic and in- 年来参与和负责了包括科技部国际合 harmonic on negative matrix factorization for polyphonic 作项目、教育部留学回国人员项目、重 pitch transcription[C]//Proc of IEEE Intemational Confer- 庆市科研项目等多项国家级、省部级项 ence on Acoustics,Speech,and Signal Processing.Rennes 目.主要研究方向为机器视觉、人机交 Cedex,France,2008:109-112. 互、基于图像视频处理的测试.近年来 [3]FITZGERALD D,GAINZA M.Single channel vocal separa- 发表学术论文60余篇,其中20余篇被SC1、EI检索,获得国 tion using median filtering and factorization techniques[J]. 家发明专利3项