第2期 罗元,等:多个声源下基于人耳听觉特性的语音分离 ·125· 时间帧的左、右耳的信号发放率 h(t)即为求得的半波整流后的信号表示.h(t) 对多声源的语音信号在各频率通道和各时间帧 再次经过迭代就可以得出原始语音信号. 上求掩蔽系数,然后再获得掩蔽矩阵,矩阵中所有相 2实验结果及分析 同的元素1和所有相同的元素0为同一归属, 所有相同的元素1的矩阵中,信号的自相关函 2.1实验配置 数的傅里叶变换等于该信号傅里叶变换幅度的平 本文选择具有代表性的国家“863”多语言基础 方.如果用R(r)表示x(t)的自相关,则x(t)的功 资源库,通过与当前语音分离最为权威的尖峰神经 率谱1X(w)12为 网络的多滞后线模型比,来验证本文的模型, 1X(w)R.()exp(-jer)dz. 国家“863”多语言基础资源库口语语音库中,包 括1500人的El语语音库,主要有电话语音、会议语音 由此可得到听觉模型中神经发放率的短时幅度 各750人和广播语音,每人发音长度至少为30min, 谱,接下来进行一种迭代算法,该算法在每次迭代 随意口语.本文选择的实验测试集是“863”多语言基 中,重构信号的相位信息,以减少重建信号的短时傅 础资源库的广播语音库(包括访谈类和新闻类),总共 里叶变换幅度与原已知信号的短时傅里叶变换幅度 有300h的较大规模资料库,从中随机挑选了20个人 之间的平方误差,从而得到信号的估计值,然后将估 (10男10女)的50个汉语单词和句子. 计信号的傅里叶变换幅度值与原已知的傅里叶变换 选择上述构建好的Oneset Cell模型在ntel 幅度值的平方误差最小化.第次迭代重构的信号 Pentium2.5GHz、内存1GB的微机上,利用Matlab x(n)由式(5)表示: 对上述模型用以上的方案进行试验.把这些测试数 x9(n)= 据总结为3类(分别用A、B、C表示),每个测试类 ∑u(ms-n),r-(m,nc(Gr)d 分别包括2种语音信号和一个噪声(本文选择交通 (5) 噪声)信号,采样率为44.1kHz,选择16位的采样精 ∑w2(ms-n) 度,A类:声源1为男生汉语单词,声源2为女生汉 式中:0(mS-n)为分析窗,S为窗移.可以根据 语单词;B类:声源1为男生汉语单词,声源2为女 x)()求出第i次迭代重构信号的短时傅里叶变化 生汉语短句:C类:声源1为女声汉语短句,声源2 X0(m,n),并由式(6)可以求出它与原来给定的短 为男声短句单词 时幅度X(m,n)之间的误差 2.2实验结果 N-1 图6就是选取本文所用模型中C类的一个语 Error ‖X(m,n)I-lX(m,n)I2. 音分离仿真结果 (6) 0.2 如果误差小于给定的值,迭代结束;否则计算出 (m,n),按照式(5)进行下一次迭代. 510 采样点 0(m,n)=1x(m,n)1X9(m,) 0.2 0- 1X(m,n)1 要0.2 10 经过以上的运算,可以求出听觉模型中每个通 果样点3 0.2 道的神经发放率p(t).下一步要从听神经发放率卫 0.2 0南 (t)恢复出半波整流后的信号h(t): 3 *10 采样点 c(t)=( 型 0.2 0 0w hdt 1 4 10 求得c(t)后,经过推导可以依次求出q()和h(t): 采样点 g(t)=y[1-q(t-1)]dt-lc(t-1)dt-c(t)- 026 3 510 c(t-1)+q(6-1), 采样点 [c(t)-c(t-1)1 h(t)= Ldt +lc(t)+r(t) 图8双语音信号源语音分离结果 q() Fig.8 Dual voice signal source separation results