D0I:10.13374j.issl001-03x.1998.04.016 第20卷第4期 北京科技大学学报 Vol.20 No, 1998年8月 Journal of University of Science and Technology Beijing Aug.19 神经网络在汉语语音识别中的应用 吴谨 王绍纯 北京科技大学信息工程学院,北京100083 摘要论述了基于神经网络模型的特定人汉语语音识别,并建立了一基于3层BP神经网络的汉 语语音识别系统.对汉语10个数字(1~10)进行识别实验,获得了较满意的识别结果. 关键词语音识别;神经网络:特定人;汉语 分类号TP18 由于语音信号是受说话人物理特性、环境特性等各种因素影响的,不同人之间以及一个 人在不同时间搜集的语音数据都有很大的变化,这给语音信号识别带来了困难 神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模 仿能力等使得它适宜于解决语音识别这类问题. 本文试图建立了一个基于3层BP神经网络(NN)的汉语语音识别系统, 1系统工作原理 所建立的语音识别系统工作基本原理图如图1所示. 语音 预放大 带通滤波 A/D变换 输人 端点检测 预加重 加窗 LPC分析 BP网络的训练 BP网络的识别 结果输出 图1语音识别系统工作基本原理框图 它的工作原理为:由拾音器(话筒)得到的语音信号经过放大和100~4000Hz带通抗混 叠滤波后,进行12kH2、12位A/D转换,由采样管理程序完成采样,并对采样后的信号进行端 点检测及预加重(a=0.94)处理.本系统语音顿长取为21.2ms,帧移取为10.6ms,每帧信号由 汉明窗加以平滑,并用杜宾高效递归算法进行语音信号线性预测分析,求出10阶最佳前向预 测系数,完成语音信号的特征提取.将得到的特征参数序列,即最佳前向预测系数序列送人神 经网络进行训练学习,以得到权值,并用训练好的神经网络对语音进行识别,得到识别结果. 2系统构成 语音识别系统是由TMS320C25D型开发板和微机构成的主从式开发系统及外围电路组 1997-06-20收稿吴谨女,29岁,工程师,项上
DOI: 10. 13374 /j . issn1001 -053x. 1998. 04. 016
Vol.20 No.4 吴谨等:神经网络在汉语语音识别中的应用 373· 成.开发系统作为一个数字信号处理系统可独立运行,PC机则进行数据选配、数据处理、屏幕 显示.文件管理等操作,开发系统与主机(PC机)构成主从式并行处理结构.系统框图如图2, TM5320C25D型开爱板 前置 带通 A/D 话简 TMS320C25 A/D 放大器 滤波器 转换器 处理器 转换器 命令 高速数 输出口 据传输 PC机(486型) 图2语音识别系统组成框图 3语音信号的数据采集 数据采集系统由抗混叠滤波器,A/D板及C语言、TMS320C25汇编语言、PC机汇编语言 编写的数据采集程序组成.通过数据采集把模拟信号转换为数字信号,并送到处理器中,可以 实时处理,也可形成一数据文件保存在磁盘中,以便进一步分析处理. 我们采用集中成批传输的方法,把采集到的数据直接写入硬盘(二进制文件形式),以实 现长信号的数据采集,供后面分析处理用, 4数据处理 对采集到的语音信号进行端点检测,对于提高识别率,尤其是对汉语孤立字的识别是很 重要的,端点定得准确,不仅可减少数据处理的计算量,且对环境干扰噪声有抑制作用. 根据对汉语语音特点的分析,我们认为孤立字的端点判别要靠短时能量,并结合短时过 零率来实现川 语音短时能量为: M="芝's, (1) 短时过零率为: sent5.(m]-Sngt-Srels.( (2) 其中.S,(m)=)·(m),为加窗语音,而式中(n)为汉明窗; [0.54-0.64cos[2πn/(N-1)],n=0~(N-1) 1,当x≥0 (n= ;Sgn[x]- 0,n为其他值 -1,当x<0 端点判别原理图如图3所示.其判别原理为:首先,建立环境背景噪声统计特性,算得其 平均幅度noiceM和平均过零率noiceZ.其次,确定一高阀值M,对应区间N,~N肯定为语音 段:再设置一低阀值M,对应N~N,区间仍为语音段,完成能量粗判.然后由N向前,N向后 继续用过零率细判,设置一门限参数乙、,若由N向前搜索时Z始终大于3Z,直至Z突然降至低 于3Z,可确定语齐精确起点,同样可确定N,终点,这样即完成了语音的端点检测
·374· 北京科技大学学报 1998年第4期 端点检测后要进行预加重处理,并完成对语音信号的特征提取与分析.我们采用线性预 测分析法(LPC)进行特征提取,并用杜宾高效递归算法求出10阶LPC最佳前向预测系数a (位=1,2,·,10),形成一描绘语音特征的矢量2 LPC分析结果之一如图4所示. M. M M IN N M I N MN N 图4数字“7”的最佳前向预测系数波形 图3语音信号端点判别原理图 经过LP℃分析后数据量大大压缩了,每帧信号由原来的200多点压缩为10点.最后,将 得到的L℃最佳前向预测系数序列归正为一定长度,送人神经网络进行训练和学习, 所采用神经网络模型如图5所示).该神经网络为1个3层BP网,各层处理单元间根据 需要可有足够多的连接,每层计算特性如下: y. ymym 权值 阈值 F心(输出层) T 4 F(隐层) hi FA(输人层) 图53层BP神经网络模型 A,=X,0=1,2,…,M (3) B=fg4+h)=12,…月 (4) y=f(8:+刀G=12.…,M (5) 其中,f()为S形函数 网络训练采用BP算法,它是一递归梯度算法,每个权值和偏值的修正从输出层开始,逐 步向低层递归.我们采用具有动量项的EBP法: ",(1+1)=v:()+òx+a△v,(0 (6
Vol.20 No.4 吴谨等:神经网络在汉语语音识别中的应用 ·375· w,.(+1)=w,(0+7ò,y+a△w,(0(7) 式中:n为学习率;α为平滑因子.当节点j 初始化 为输出节点时, d,=I-yd-y)(d为希望值) 给定输人向量和目标输出 (8) 当节点)为隐层节点时, 求稳层和输出层各单元输出 δ,=(I-)∑⊙,w(区为隐层节点 求目标值与实际输出偏差e 输出,k为输出层神经元编号) (9) Y BP算法框图如图6所示. e满足要求否)><全部c满足否? 结束 N 5实验结果及结论 N 计算稳层单元误差 BP网训练完后,即可用之对语音 进行识别.本实验为特定人(成年女性) 求误差梯度 语音识别,隐层节点取为10,实验结 果(发音为汉语普通话)为:对词汇数字 权值学习 1~5的识别率为100%;对词汇数字1~ 10的识别率为80%.通过实验可得出以 图6BP算法框图 下结论: (1)特定人的语音识别率较高,且神经网络法比一般DTW法识别速度快、存贮量小, (2)它不需建模,只需通过学习来修改网络权值,而传统识别方法需建立大量模板. (3)它的计算采用并行处理打分,内部参数的取得是由内部的自适应训练来完成的;采用 误差修正的方法提高网络的性能,有良好的自组织、自适应学习功能及较强的容错性, 参考文献 1拉宾纳LR,谢弗RW.语音信号数字处理.朱雪龙译.北京:科学出版社,1983 2杨行峻,迟惠生.语音信号数字处理.北京:电子工业出版社,1995 3程相君,王春宁,神经网络原理及其应用.北京:国防工业出版社,1995 Application of Neural Network for Chinese Speech Recognition Wu Jin Wang Chaochun Information Engineering School,UST Beijing.Beijing 100083.China ABSTRACT Speaker-dependent recognition of Chinese isolated words using neural network model is expended.Speech recognition system based on 3-layers BP neural network is established.The voice data of 10 Chinese numbers were tested.The result of recognition is satisfied. KEY WORDS speech recognition;neural networds;speaker-dependent