神经网络在汉语语音识别中的应用

论述了基于神经网络模型的特定人汉语语音识别,并建立了一基于3层BP神经网络的汉语语音识别系统.对汉语10个数字(1~10)进行识别实验,获得了较满意的识别结果.

团购合买资源类别：文库，文档格式：PDF，文档页数：4，文件大小：210.07KB

D0I:10.13374j.issl001-03x.1998.04.016 第20卷第4期北京科技大学学报 Vol.20 No, 1998年8月 Journal of University of Science and Technology Beijing Aug.19 神经网络在汉语语音识别中的应用吴谨王绍纯北京科技大学信息工程学院，北京100083 摘要论述了基于神经网络模型的特定人汉语语音识别，并建立了一基于3层BP神经网络的汉语语音识别系统.对汉语10个数字(1~10)进行识别实验，获得了较满意的识别结果. 关键词语音识别；神经网络：特定人；汉语分类号TP18 由于语音信号是受说话人物理特性、环境特性等各种因素影响的，不同人之间以及一个人在不同时间搜集的语音数据都有很大的变化，这给语音信号识别带来了困难神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力等使得它适宜于解决语音识别这类问题. 本文试图建立了一个基于3层BP神经网络(NN)的汉语语音识别系统， 1系统工作原理所建立的语音识别系统工作基本原理图如图1所示. 语音预放大带通滤波 A/D变换输人端点检测预加重加窗 LPC分析 BP网络的训练 BP网络的识别结果输出图1语音识别系统工作基本原理框图它的工作原理为：由拾音器（话筒）得到的语音信号经过放大和100~4000Hz带通抗混叠滤波后，进行12kH2、12位A/D转换，由采样管理程序完成采样，并对采样后的信号进行端点检测及预加重(a=0.94)处理.本系统语音顿长取为21.2ms,帧移取为10.6ms,每帧信号由汉明窗加以平滑，并用杜宾高效递归算法进行语音信号线性预测分析，求出10阶最佳前向预测系数，完成语音信号的特征提取.将得到的特征参数序列，即最佳前向预测系数序列送人神经网络进行训练学习，以得到权值，并用训练好的神经网络对语音进行识别，得到识别结果. 2系统构成语音识别系统是由TMS320C25D型开发板和微机构成的主从式开发系统及外围电路组 1997-06-20收稿吴谨女，29岁，工程师，项上

Vol.20 No.4 吴谨等：神经网络在汉语语音识别中的应用 373· 成.开发系统作为一个数字信号处理系统可独立运行，PC机则进行数据选配、数据处理、屏幕显示.文件管理等操作，开发系统与主机(PC机)构成主从式并行处理结构.系统框图如图2， TM5320C25D型开爱板前置带通 A/D 话简 TMS320C25 A/D 放大器滤波器转换器处理器转换器命令高速数输出口据传输 PC机(486型) 图2语音识别系统组成框图 3语音信号的数据采集数据采集系统由抗混叠滤波器，A/D板及C语言、TMS320C25汇编语言、PC机汇编语言编写的数据采集程序组成.通过数据采集把模拟信号转换为数字信号，并送到处理器中，可以实时处理，也可形成一数据文件保存在磁盘中，以便进一步分析处理. 我们采用集中成批传输的方法，把采集到的数据直接写入硬盘（二进制文件形式），以实现长信号的数据采集，供后面分析处理用， 4数据处理对采集到的语音信号进行端点检测，对于提高识别率，尤其是对汉语孤立字的识别是很重要的，端点定得准确，不仅可减少数据处理的计算量，且对环境干扰噪声有抑制作用. 根据对汉语语音特点的分析，我们认为孤立字的端点判别要靠短时能量，并结合短时过零率来实现川语音短时能量为： M="芝's, (1) 短时过零率为： sent5.(m]-Sngt-Srels.( (2) 其中.S,(m)=)·(m),为加窗语音，而式中(n)为汉明窗； [0.54-0.64cos[2πn/(N-1)],n=0~(N-1) 1,当x≥0 (n= ；Sgn[x]- 0,n为其他值 -1,当x<0 端点判别原理图如图3所示.其判别原理为：首先，建立环境背景噪声统计特性，算得其平均幅度noiceM和平均过零率noiceZ.其次，确定一高阀值M,对应区间N,~N肯定为语音段：再设置一低阀值M,对应N~N,区间仍为语音段，完成能量粗判.然后由N向前，N向后继续用过零率细判，设置一门限参数乙、，若由N向前搜索时Z始终大于3Z,直至Z突然降至低于3Z,可确定语齐精确起点，同样可确定N,终点，这样即完成了语音的端点检测

Vol.20 No.4 吴谨等：神经网络在汉语语音识别中的应用 ·375· w,.(+1)=w,(0+7ò，y+a△w,(0(7) 式中：n为学习率；α为平滑因子.当节点j 初始化为输出节点时， d,=I-yd-y)(d为希望值) 给定输人向量和目标输出 (8) 当节点)为隐层节点时，求稳层和输出层各单元输出 δ，=(I-)∑⊙，w(区为隐层节点求目标值与实际输出偏差e 输出，k为输出层神经元编号) (9) Y BP算法框图如图6所示. e满足要求否)><全部c满足否？结束 N 5实验结果及结论 N 计算稳层单元误差 BP网训练完后，即可用之对语音进行识别.本实验为特定人（成年女性）求误差梯度语音识别，隐层节点取为10，实验结果（发音为汉语普通话）为：对词汇数字权值学习 1~5的识别率为100%；对词汇数字1~ 10的识别率为80%.通过实验可得出以图6BP算法框图下结论： (1)特定人的语音识别率较高，且神经网络法比一般DTW法识别速度快、存贮量小， (2)它不需建模，只需通过学习来修改网络权值，而传统识别方法需建立大量模板. (3)它的计算采用并行处理打分，内部参数的取得是由内部的自适应训练来完成的；采用误差修正的方法提高网络的性能，有良好的自组织、自适应学习功能及较强的容错性，参考文献 1拉宾纳LR,谢弗RW.语音信号数字处理.朱雪龙译.北京：科学出版社，1983 2杨行峻，迟惠生.语音信号数字处理.北京：电子工业出版社，1995 3程相君，王春宁，神经网络原理及其应用.北京：国防工业出版社，1995 Application of Neural Network for Chinese Speech Recognition Wu Jin Wang Chaochun Information Engineering School,UST Beijing.Beijing 100083.China ABSTRACT Speaker-dependent recognition of Chinese isolated words using neural network model is expended.Speech recognition system based on 3-layers BP neural network is established.The voice data of 10 Chinese numbers were tested.The result of recognition is satisfied. KEY WORDS speech recognition;neural networds;speaker-dependent

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

神经网络在汉语语音识别中的应用