第5卷第5期 智能系统学报 Vol.5 No.5 2010年10月 CAAI Transactions on Intelligent Systems 0ct.2010 doi:10.3969/j.issn.16734785.2010.05.009 结合关键词混淆网络的关键词检出系统 张磊,陈晶,项学智,贾梅梅 (哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001) 摘要:为了高效地从大词汇量连续语音识别(LVCSR)的多候选中得到关键词结果,保证最小词错误率,提出了将 混淆网络的思想应用到关键问检出系统中.在传统混淆网络生成方法基础上,提出一种改进的更加适合于关键词检 出的关键词混淆网络作为关键词检出的中间结构,该方法只对所有关键词竞争候选生成带有得分标记的关键词混 淆网络,突出候选之间竞争关系,并根据得分标记确定关键词.与传统的N-et作为中间结构的关键词检出系统比 较,基于混淆网络的关键词检出系统的召回率为87.11%,提高了21.65%.实验表明,在提高召回率的同时,所提方 法具有关键词直接定位的特点,因此具有较低的时间开销. 关键词:关键词检出;混淆网络;语音识别 中图分类号:1P391;TN912文献标识码:A文章编号:16734785(2010)050432-04 Research of keyword spotting based on a keyword spotting confusion network ZHANG Lei,CHEN Jing,XIANG Xue-zhi,JIA Mei-mei (College of Information and Communication Engineering,Harbin Engineering University,Harbin 150001,China) Abstract:In order to achieve a higher keyword recall rate from large vocabulary continuous speech recognition (LVCSR)and minimize the word error rate,a confusion network was used in a keyword spotting system.Moreo- ver,an improved method of generating a keyword confusion network which was more suitable for keyword spotting was proposed based on the traditional algorithm.This method only focused on keyword competitions,and was capa- ble of transforming all the keyword competitions into a confusion network with a marked score,and highlighted com- petitions to all the candidates.Compared with the traditional keyword spotting system which uses N-best as the me- dium structure,the proposed method increased the recall rate of confusion network to 87.11%;compared with the keyword spotting system based on N-best,there is a 21.65%improvement in the recall rate.Experiments show the proposed method could locate keywords directly,besides increasing the recall rate,so the system costs less time. Keywords:keyword spotting;confusion network;speech recognition 目前,大词汇量连续语音识别技术已经取得了处理后检出关键词.N-best和Lattice是连续语音识 巨大的进展.然而,这并不能满足使用的需要.如何别2种最常用的结果组织形式.N-bst是将语音识 高效地管理、分类、查找这些大容量的音频文件成为 别结果按后验概率由大到小排列,并选取出前N个 语音识别研究领域的又一挑战31.关键词检出 识别结果.目前,传统的关键词检出系统多是基于 (keyword spotting)的目的是从连续无限制的语音流 N-best结构设计.Lattice可以提供足够的候选以保 中识别出给定的若干关键词,按其检出方式可分为 证检出正确,但需要高效的解码算法,难以实现. 基于连续语音识别和基于补白()模型2种方 2000年Mangu5]提出用混淆网络(confusion net- 式4.目前,应用较多的是基于连续语音识别的关 work)优化Lattice,.随后,Xun等人[6]提出了一种快 键词检出系统,主要是指对连续语音经过声学解码 速的混淆网络生成算法,并取得良好效果.2007年 Zhang等人T6]提出将混淆网络优化Lattice的方法应 收稿日期:2009-1203, 基金项目:国家自然科学基金资助项目(60702053):黑龙江省青年骨 用在关键词检出中,但这种新的尝试是基于对整个 干数师支持计划资助项目(1155G17). Lattice进行混淆网络的转换,而后进行关键词检出, 通信作者:张磊,E-mail:zhanglei(@hrbeu..edu.cm. 并没有将混淆网络与关键词结合,消耗时间巨大.本