正在加载图片...
第7卷第2期 智能系统学报 Vol.7 No.2 2012年4月 CAAI Transactions on Intelligent Systems Apr.2012 D0I:10.3969/j.i8sn.1673-4785.201109007 多个声源下基于人耳听觉特性的语音分离 罗元,童开国,张毅,邢武超,陈凯,陈红松,何春江,陈君 (重庆邮电大学智能系统及机器人研究所,重庆400065) 摘要:受声学研究启发,结合人脑人耳听觉特性对语音的处理方式,建立了一个完整的模拟听觉中枢系统的语音 分离模型.首先利用外周听觉模型对语音信号进行多频谱分析,然后建立重合神经元模型提取语音信号的特征,最 后在脑下丘的神经细胞模型中完成对语音的分离.基于现有的语音识别方法,该模型能够很好地解决绝大多数的语 音识别方法都只能在单声源和低噪声的环境下使用的问题.实验结果表明,该模型能够实现多声源环境下语音的分 离并且具有较高的鲁棒性.随着研究的深入,基于人耳听觉特性的语音分离模型将有很广泛的应用前景, 关键词:多声源;人耳听觉特性;双耳时间差:双耳水平差:语音分离 中图分类号:TP311文献标志码:A文章编号:16734785(2012)02-0121-08 Sound source separation of a multi-voice environment based on human ear listening properties LUO Yuan,TONG Kaiguo,ZHANG Yi,XING Wuchao,CHEN Kai, CHEN Hongsong,HE Chunjiang,CHEN Jun (Research Center of Intelligent System and Robot,Chongqing University of Posts and Telecommunications,Chongqing 400065,China) Abstract:Inspired by acoustics,an integrated voice separation model simulating the central auditory system was established to process a voice by imitating the listening properties of human ears.First,multi-spectral analysis of voice signals was carried out by a peripheral auditory model.Next,a coincidence neuron model was established to extract the features of voice signals.Last,the voices were separated in the cell model of the brain inferior collicu- lus.Compared to the majority of speech recognition models that can only be used in a single sound source and low- noise environment,this model is a good choice.Experimental results show that the model can separate voices in a multi-sound source environment,thus having a high robustness.With further research,speech separation models based on human ear listening properties will have a wide range of applications. Keywords:multi-voice source environment;human ear listening properties;interaural time difference;interaural level difference;sound source separation 在多声源下,利用听觉中枢系统对语音分离已 物电信号神经网络来模拟现实的神经元对语音的分 有20多年的研究历史,总体来说有3个阶段的模 离2].第3个模型是Voutsas等提出的,构建尖峰神 型.第1个模型是Bhadkamkar提出的,方法是构建 经网络多滞后线模型,利用TD,对低频语音信号分 COMS电路来处理双耳时间差(interaural time differ- 离有良好的效果,但是由于只考虑TD,对高于 ence,TD),这种方法简单、容易实现,适用于工程, 1.5kHz的语音信号没有效果31. 但是精度不够高1.第2个模型是Willert等提出 在过去的25年里,对于听觉中枢系统的结构和 的,方法是构建概率模型来估计声源的方位,结合了 功能的研究已经有了长足的进步4],脑下丘在听觉 内侧上橄榄(medial superior olive,MSO)、外侧上橄 信息的获取过程中起到了非常关键的作用), 榄(lateral superior olive,LSO)和脑下丘,并且利用 脑下丘是提取声音特征的一个枢纽和处理中 贝叶斯理论来计算他们之间的联系,但是没利用生 心6].在这里,声音中双耳时间差和水平差都被提 收稿日期:2011-09-28. 取出来.听觉学研究表明,双耳的辨别功能比单耳 基金项目:科技部国际合作资助项目(2010DF12160):重庆市攻关计 好).根据从声源到两耳距离的不同及传声途径中 划资助项目(GST℃:2010AA2055). 通信作者:童开国.E-mail:359018647@q4.com 屏蔽条件的不同,从某一方位发出的声音到达双耳
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有