·434 智能系统学报第5卷 2)遍历Lattice中的所有节

正在加载图片...

·434 智能系统学报第5卷 2)遍历Lattice中的所有节点，找到与K,相匹的集合；min()和mar(v)分别为集合中的最小和最配的节点，对应的混淆网络节点设为N,: 大值；x为待归一化得分；y为归一化后的得分.得分 3)关键词混淆网络节点生成。归一化后，再对声学及语言学概率得分赋以不同的 a)若节点nk-1与集合N,中包含的所有节点都权重，最后计算得分的和值，把它标记为关键词混淆没有弧连接，则称该节点与集合N,之间无弧连接，网络中弧的得分.以关键词“经济”为例，得分归一否则为有弧连接. 化并求和的结果如图4所示. b)将n,前面的节点并与Nk,中无弧连接的节点 jianglji2/0.00 合并到混淆网络节点N,中.直到找到与N,之间有 jianglji4/0.504 3 弧连接的节点时，停止搜索。 jinglji4/0.736 6 c)将n4后面的节点并与Nk,无弧连接的节点合 jiu4ji2/0.3720 并到混淆网络节点N,中.直到找到与Nk,之间有弧图4关键词确认示意图连接的节点时，停止搜索。 Fig.4 Diagram of keyword verification d)找ne后面的节点与N,有弧连接的第1个节计算得分的和之后，在每一个混淆网络中选出点，作为N,按照上述原则c)形成N,集合.如多字得分最高的弧候选，判断是否为关键词.如果是，输词，按照相同原则形成多个混淆网络集合：出关键词及时间标记；如不是，跳过并进入下一关键 4)关键词混淆网络的弧的生成，词混淆网络。对Lattice中每个弧ez,n:属于N,n:属于 N当t=k时，en属于Ew否则，当为多字词 3实验结果时，按下述原则判断该弧是否属于集合Ew-一w, 3.1实验环境和评价标准 k,+1≤n≤k2.其中n为实验利用HTK工具箱作为前期训练和识别.训 n=arg maxi sim(E,e), 练语料为国家“863”语料库，测试语料选择500句 1 话，在测试语料中随机选择中国、世界等20个二字 im(Ewn,o）=1EwnX 词作为关键词，其中关键词，出现194次.测试的性 >sim(w(1),(e))overlap(Exwe). 能评价标准包括召回率和误识率，召回率等于正确检出关键词数比关键词总数，误识率等于错误检出式中：w(l)和o(e)为弧l和e对应的词；sim(·, 关键词数比检出关键词总数， ·)是指2个词的语音相似度，这里采用编辑距离； 3.2实验结果及分析 overlap(E-1-w,e)是指孤Ew-1w和e的归一化时为了对比关键词混淆网络的关键词检出性能，间交叠. 实验基线系统将采用常用的N-best结果作为中间以关键词“经济”为例，混淆网络如图3所示. 结构，并在其中查找关键词.N-best中的N值取不同在图3中，关键词混淆网络的每一条弧上都标记了时，对检出结果也会有不同的影响.如表1所示，给其对应的结果和对应的得分.其中，a为声学概率似出了不同的N值对应的关键词召回率和误识率然得分，1为语音学概率似然得分.基于生成的关键表1 N-best实验结果比较词混淆网络，进行关键词的确认 Table 1 The comparison of different N in N-best N 召回率/% 误识率/% jianglj2/1-8.02843.52 jianglji4//--6.17 a--719.28 2 56.19 2.68 10 61.34 4.03 jingliji4/F-1.68a-828.38 20 65.46 3.79 jiu4i2/=-5.86aP-788.23/ 如表1所示，当N取20时，关键词召回率及误图3关键词混淆网络示意图识率明显优于N=1和V=10.这是由于当候选增多 Fig.3 Diagram of keyword confusion network 时，原来未被检出的关键词有可能在增多的候选中被检出.而3.79%的误识率也说明，当N-best中W 2.3关键词的确认取20时，可达到相对理想的检出性能. 对于生成的关键词混淆网络，首先对每个候选对比实验在基线系统的基础上，将Lattice转化的声学及语言学概率似然得分利用公式归一化. 为关键词混淆网络后，在其中查找关键词.其中，语言 y=--min(v) 学得分权重设为0.7，声学得分0.3.图5所示是基于 max(v）-min(v) 式中：v为关键词混淆网络中声学或语言学得分值关键词混淆网络系统的ROC曲线

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】结合关键词混淆网络的关键词检出系统