第5卷第5期 智能系统学报 Vol.5 No.5 2010年10月 CAAI Transactions on Intelligent Systems 0ct.2010 doi:10.3969/j.issn.16734785.2010.05.009 结合关键词混淆网络的关键词检出系统 张磊,陈晶,项学智,贾梅梅 (哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001) 摘要:为了高效地从大词汇量连续语音识别(LVCSR)的多候选中得到关键词结果,保证最小词错误率,提出了将 混淆网络的思想应用到关键问检出系统中.在传统混淆网络生成方法基础上,提出一种改进的更加适合于关键词检 出的关键词混淆网络作为关键词检出的中间结构,该方法只对所有关键词竞争候选生成带有得分标记的关键词混 淆网络,突出候选之间竞争关系,并根据得分标记确定关键词.与传统的N-et作为中间结构的关键词检出系统比 较,基于混淆网络的关键词检出系统的召回率为87.11%,提高了21.65%.实验表明,在提高召回率的同时,所提方 法具有关键词直接定位的特点,因此具有较低的时间开销. 关键词:关键词检出;混淆网络;语音识别 中图分类号:1P391;TN912文献标识码:A文章编号:16734785(2010)050432-04 Research of keyword spotting based on a keyword spotting confusion network ZHANG Lei,CHEN Jing,XIANG Xue-zhi,JIA Mei-mei (College of Information and Communication Engineering,Harbin Engineering University,Harbin 150001,China) Abstract:In order to achieve a higher keyword recall rate from large vocabulary continuous speech recognition (LVCSR)and minimize the word error rate,a confusion network was used in a keyword spotting system.Moreo- ver,an improved method of generating a keyword confusion network which was more suitable for keyword spotting was proposed based on the traditional algorithm.This method only focused on keyword competitions,and was capa- ble of transforming all the keyword competitions into a confusion network with a marked score,and highlighted com- petitions to all the candidates.Compared with the traditional keyword spotting system which uses N-best as the me- dium structure,the proposed method increased the recall rate of confusion network to 87.11%;compared with the keyword spotting system based on N-best,there is a 21.65%improvement in the recall rate.Experiments show the proposed method could locate keywords directly,besides increasing the recall rate,so the system costs less time. Keywords:keyword spotting;confusion network;speech recognition 目前,大词汇量连续语音识别技术已经取得了处理后检出关键词.N-best和Lattice是连续语音识 巨大的进展.然而,这并不能满足使用的需要.如何别2种最常用的结果组织形式.N-bst是将语音识 高效地管理、分类、查找这些大容量的音频文件成为 别结果按后验概率由大到小排列,并选取出前N个 语音识别研究领域的又一挑战31.关键词检出 识别结果.目前,传统的关键词检出系统多是基于 (keyword spotting)的目的是从连续无限制的语音流 N-best结构设计.Lattice可以提供足够的候选以保 中识别出给定的若干关键词,按其检出方式可分为 证检出正确,但需要高效的解码算法,难以实现. 基于连续语音识别和基于补白()模型2种方 2000年Mangu5]提出用混淆网络(confusion net- 式4.目前,应用较多的是基于连续语音识别的关 work)优化Lattice,.随后,Xun等人[6]提出了一种快 键词检出系统,主要是指对连续语音经过声学解码 速的混淆网络生成算法,并取得良好效果.2007年 Zhang等人T6]提出将混淆网络优化Lattice的方法应 收稿日期:2009-1203, 基金项目:国家自然科学基金资助项目(60702053):黑龙江省青年骨 用在关键词检出中,但这种新的尝试是基于对整个 干数师支持计划资助项目(1155G17). Lattice进行混淆网络的转换,而后进行关键词检出, 通信作者:张磊,E-mail:zhanglei(@hrbeu..edu.cm. 并没有将混淆网络与关键词结合,消耗时间巨大.本
第5期 张磊,等:结合关键词混淆网络的关键词检出系统 ·433 文将关键词检出融合到混淆网络生成算法中,在简 中通过一定的约束条件找出最佳识别结果,连接即可. 化混淆网络生成算法的同时,突出关键词候选之间 它突出了识别结果之间的竞争关系,这也正为关键词 的竞争关系,实验表明,该方法提高了关键词检出效 检出提供了有利条件.在对Lattice的解码过程中,人们 率,且该算法时间复杂度低,易于实现, 常常采用基于句子的最大后验概率(MAP)准则的解码 方法.这种方法更加关注最小化句子错误率,不能保证 1系统框架 最小化词错误率.但在混淆网络的解码过程中,通过在 基于关键词混淆网络的关键词检出系统框架如 每个候选集合中选择后验概率最大的词,可以对它进 图1所示. 行高效的最小化词错误率解码操作,这样就保证了关 键词部分的正确率. 前瑞处理 后端检出 jingl ○i4 jianL she3 sil jian4 i2 she4 sil jingl 语 声学模型 解 ji4 缺词 关键司 sil jian3 Oshis4○y 码 Lattice 混游 输 输 jiand O shes 器 出 模块 语言学模型 (a)Lattice结构 she5 jiang l ji2 jian l she3 图1关键词检出系统框图 jing l ji4 /jian4 sil Fig.1 Diagram of keyword spotting system jiu4 jian3 shi4 前端处理部分采用HTK工具箱进行模型的训 (b)混淆网络结构 练和识别8].系统声学模型为上下文相关的三因素 图2 Lattice和混淆网络对比示意图 ti-phone模型,拓扑结构为带跳转的自左向右结构, Fig.2 Diagram of Lattice and confusion network 每个模型取5个状态,按照字典拼接成音节模型进 2.2关键词混淆网络的生成 行识别;语言学模型为基于音节的bi-am语言模 关键词混淆网络是根据Lattice生成,为了区别 型,并应用Katz算法9进行平滑. 表示Lattice和混淆网络中的节点和弧,Lattice中的 后端检出是本文研究的重点.首先,把解码后的 节点和弧用小写字母表示,其中节点为{n,n1,…}, Lattice结构作为关键词混淆网络生成的输入,通过 每个节点n:含有一个时间标记t(n),弧e表示节 匹配关键词,在Lattice中生成带有得分标记的关键 点“连接到节点和的一个弧.混淆网络中的节点用 词混淆网络.其次,要在生成的关键词混淆网络中对 大写字母表示,如{No,N,…{,其中N:如图2(b) 关键词进行确认.对于Lattice中的每个弧都有标记 所示的白色节点,对应Lattice中的节点集合,Ew一w 的声学得分和语言学得分,生成混淆网络后,相应地 表示混淆网络中节点N连接到节点N的一组弧. 转化为混淆网络中弧的得分,代表了识别结果与待 对于混淆网络和Lattice节点之间的关系,有以 识别语音的匹配程度.最后,根据弧的得分可判断出 下几点约束: 最有可能的候选 1)对于Lattice中节点n:和n,如果在混淆网络 2关键词混淆网络 中属于一个集合N,则时序关系决定序号关系,即 t(n:)<t(n)可得i<j;t(n:)=t(n)可得i=j 2.1混淆网络的概念 2)Veww∈E,如果对于u∈N和v∈N,en相 混淆网络是L,attice中弧和节点通过动态对齐 当于一组Ew。w,则可以将e的2个端点对应到 后生成的结构.在这种结构中,所有竞争同一个发音 混淆网络中相邻的2个节点上,分别属于Nm和N., 位置的词形成一个集合,然后把这些集合按照时间 其中n=m+1,i≤m≤n≤j. 顺序依次连接起来,在每个集合中挑选最可能的词 在上述约束条件的基础上,可以进一步构建关 形成最佳词串.图2给出了Lattice和混淆网络对比 键词混淆网络.和传统的混淆网络相比,关键词混淆 的例子.以“经济建设”为例,其Lattice结构如图2 网络直接在Lattice中定位关键词,以关键词的第1 (a)所示;其混淆网络结构如图2(b)所示.其中,节 个音节为切入点,通过判断相邻节点的连接情况,计 点的横向排列严格按照时间先后顺序。 算得到包含关键词的混淆网络,并且标注关键词竞 在图2中,混淆网络结构很好地解决了Lattice中 争候选生成的得分标记.具体算法改进如下: 的识别结果在时间上相互交叠的现象.在混淆网络中, 1)把关键词转化为对应的音节串:KK2…K则 同一语音单元的不同识别结果及其对应的得分体现地 (M为关键词音节数,这里以M=2,关键词为“经 非常明显.句子的识别结果只要在每个音节混淆网络 济”为例,则对应音节串K为jingl,K2为j4)
·434 智能系统学报 第5卷 2)遍历Lattice中的所有节点,找到与K,相匹 的集合;min()和mar(v)分别为集合中的最小和最 配的节点,对应的混淆网络节点设为N,: 大值;x为待归一化得分;y为归一化后的得分.得分 3)关键词混淆网络节点生成。 归一化后,再对声学及语言学概率得分赋以不同的 a)若节点nk-1与集合N,中包含的所有节点都 权重,最后计算得分的和值,把它标记为关键词混淆 没有弧连接,则称该节点与集合N,之间无弧连接, 网络中弧的得分.以关键词“经济”为例,得分归一 否则为有弧连接. 化并求和的结果如图4所示. b)将n,前面的节点并与Nk,中无弧连接的节点 jianglji2/0.00 合并到混淆网络节点N,中.直到找到与N,之间有 jianglji4/0.504 3 弧连接的节点时,停止搜索。 jinglji4/0.736 6 c)将n4后面的节点并与Nk,无弧连接的节点合 jiu4ji2/0.3720 并到混淆网络节点N,中.直到找到与Nk,之间有弧 图4关键词确认示意图 连接的节点时,停止搜索。 Fig.4 Diagram of keyword verification d)找ne后面的节点与N,有弧连接的第1个节 计算得分的和之后,在每一个混淆网络中选出 点,作为N,按照上述原则c)形成N,集合.如多字 得分最高的弧候选,判断是否为关键词.如果是,输 词,按照相同原则形成多个混淆网络集合: 出关键词及时间标记;如不是,跳过并进入下一关键 4)关键词混淆网络的弧的生成, 词混淆网络。 对Lattice中每个弧ez,n:属于N,n:属于 N当t=k时,en属于Ew否则,当为多字词 3实验结果 时,按下述原则判断该弧是否属于集合Ew-一w, 3.1实验环境和评价标准 k,+1≤n≤k2.其中n为 实验利用HTK工具箱作为前期训练和识别.训 n=arg maxi sim(E,e), 练语料为国家“863”语料库,测试语料选择500句 1 话,在测试语料中随机选择中国、世界等20个二字 im(Ewn,o)=1EwnX 词作为关键词,其中关键词,出现194次.测试的性 >sim(w(1),(e))overlap(Exwe). 能评价标准包括召回率和误识率,召回率等于正确 检出关键词数比关键词总数,误识率等于错误检出 式中:w(l)和o(e)为弧l和e对应的词;sim(·, 关键词数比检出关键词总数, ·)是指2个词的语音相似度,这里采用编辑距离; 3.2实验结果及分析 overlap(E-1-w,e)是指孤Ew-1w和e的归一化时 为了对比关键词混淆网络的关键词检出性能, 间交叠. 实验基线系统将采用常用的N-best结果作为中间 以关键词“经济”为例,混淆网络如图3所示. 结构,并在其中查找关键词.N-best中的N值取不同 在图3中,关键词混淆网络的每一条弧上都标记了 时,对检出结果也会有不同的影响.如表1所示,给 其对应的结果和对应的得分.其中,a为声学概率似 出了不同的N值对应的关键词召回率和误识率 然得分,1为语音学概率似然得分.基于生成的关键 表1 N-best实验结果比较 词混淆网络,进行关键词的确认 Table 1 The comparison of different N in N-best N 召回率/% 误识率/% jianglj2/1-8.02843.52 jianglji4//--6.17 a--719.28 2 56.19 2.68 10 61.34 4.03 jingliji4/F-1.68a-828.38 20 65.46 3.79 jiu4i2/=-5.86aP-788.23/ 如表1所示,当N取20时,关键词召回率及误 图3关键词混淆网络示意图 识率明显优于N=1和V=10.这是由于当候选增多 Fig.3 Diagram of keyword confusion network 时,原来未被检出的关键词有可能在增多的候选中 被检出.而3.79%的误识率也说明,当N-best中W 2.3关键词的确认 取20时,可达到相对理想的检出性能. 对于生成的关键词混淆网络,首先对每个候选 对比实验在基线系统的基础上,将Lattice转化 的声学及语言学概率似然得分利用公式归一化. 为关键词混淆网络后,在其中查找关键词.其中,语言 y=--min(v) 学得分权重设为0.7,声学得分0.3.图5所示是基于 max(v)-min(v) 式中:v为关键词混淆网络中声学或语言学得分值 关键词混淆网络系统的ROC曲线
第5期 张磊,等:结合关键词混淆网络的关键词检出系统 ·435· 90 [3]陈立伟,宋宪晨,章东华,等.一种基于优化神经网络的 85 语音识别[J].应用科技,2008,35(2):17-20 CHEN Liwei,SONG Xianchen,ZHANG Dongsheng,et al. 多 Speech recognition using an optimized wavelet neural net- work[J].Applied Science and Technology,2008,35(2): 70 17-20. 65 [4]郑铁然,韩纪庆.汉语语音检索中基于音节的素引方法 60 研究[C]/第八届全国人机语音通讯学术会议论文集. 550 北京,中国,2005:419-424. 1 2 34 ZHENG Tieran,HAN Jiqing.Study on syllable based inde- 每个关键词每小时的虚警次数 xing methods in mandarin speech retrieval[C]//Proceed- 图5基于CN的关键词检出系统的ROC ings of National Conference on Man-Machine Speech Com- Fig.5 ROC of keyword spotting based on CN munication.Beijing,China,2005:419-424. 对于2种不同的方法,实验结果对比如表2所 [5]MANGU L,BRILL E,STOLCKE A.Finding consensus in 示.相对于20-best的65.46%的结果,在关键词混 speech recognition:word error minimization and other appli- cations of confusion networks[J].Computer Speech and 淆网络中检出关键词的召回率提高了21.65%,这 Langu8ge,2000,14(4):373400. 是由于关键词混淆网络方法同时考虑了声学得分和 [6]XUE Jian,ZHAO Yunxin.Improved confusion network al- 语言学得分,突出关键词部分的竞争,并且最小化词 gorithm and shortest path search from word Lattice[C]// 错误率,所以在混淆网络结构中检出关键词比直接 Proceedings of IEEE International Conference on Acoustics, 在N-best结果中检出关键词的能力明显提高;但是 Speech,and Signal Processing.Philadelphia,USA,2005: 误识率却上升5.35%,这是因为随着检出关键词数 853-856. 的增加,误识的关键词数也会上升 [7]ZHANG Pengyuan,SHAO Jian,ZHAO Qingwei,et al. 表2实验结果比较 Keyword spotting based on syllable confusion network Table 2 The comparison of different methods % [C]//The Third Interational Conference on Natural Com- puting.Haikou,China,2007:656-659. 实验方法 召回率 误识率 [8]YONG S,EVERMANN G,GALES M.The HTK book for 20-best 65.46 3.79 HTK3.3)[EB/0L].[2009-11-25].Hp:/htk.eng 关键词混淆网络 87.11 9.14 cam.ac.uk. [9]GOODMAN JT.A bit of progress in language modeling[J]. 4 结束语 Computer Speech and Language,2001,15(4):403-434. 本文将关键词检出技术融合到混淆网络生成 作者简介: 中,从关键词的首音节开始只生成和关键词相关的 张磊,女,1973年生,副教授,主 部分混淆网络,因此和传统的混淆网络生成算法相 要研究方向为语音信号处理,承担或参 比,具有速度快、定位准的优点.同时利用归一化后 与4项国家自然科学基金项目,发表学 术论文30余篇, 验概率进行确认,和N-best结构的关键词检出系统 相比,具有较高的检出率.下一步工作将考虑词表进 一步扩大到包含三字词和四字词,并在关键词混淆 网络生成中,考虑加重语言学模型的概率信息.在实 验过程中,发现误识率增加是由于音调的误识造成, 陈晶,女,1984年生,硕士研究 因此下一步工作将在关键词混淆网络中,将具有相 生,主要研究方向为语音信号处理。 同音节不同音调的各竞争候选整合,来弥补音调误 识带来的影响。 参考文献: [1]叶靓,王智斌,邵谦明.基于相关反馈的语音检索引擎 [J].计算机工程,2007,33(17):228-230. 项学智,男,1979年生,讲师、博士, YE Liang,WANG Zhibin,SHAO Qianming.Speech re- 主要研究方向为信号处理,参与多项国 trieval engine based on relevance feedback[].Computer 家自然科学基金项目,发表学术论文20 Eng9 ineering,2007,33(17):228-230. [2]王让定,袁旭海,徐霁.一种新颗的混合语音检索算法 余篇。 [J].计算机应用研究,2008,25(5):1349-1351. WANG Rangding,YUAN Xuhai,XU Ji.Novel mixing speech retrieval algorithm [J].Application Research of Computers,2008,25(5):1349-1351