正在加载图片...
张威等:基于DL-T及迁移学习的语音识别研究 435 设给定序列X=(x1,x2,,x,,x)表示输人 式(9)~(10)中,fg分别表示编码向量与解码向 T1≤≤T)帧声学特征序列,对应标签序列=01, 量,并将上述二者组合成联合向量"进而通过 y2,,ymu),其中U(1≤u≤U表示标签长度.如 Softmax函数计算其后验概率.式(Il)表示 图1所示,编码网络将输入声学特征映射为声学 RNN-T损失函数,其值可通过前向-后向算法计 特征向量f。编码结果如下式所示: 算.其中,y表示给定序列的标签,由于式(10)结 f;=fEnc(x (1) 果均可微.因此,可通过随时间反向传播(Back- 其中,fc()表示深度神经网络构建的函数,该 propagation through time,BPTT)算法l进行参数 文编码层均采用BLSTM网络,其具体计算如式 训练 (2)~(7)所示: 1.2密集连接网络转换器DL-T in=(Wixx:+Wibht-1 Wiss:-1+bi) (2) DenseNet是由Huang等ug提出的一种深度学 z=(Wzrxt Wzhh-1 Wzss-1+bz) (3) 习算法,其采用密集连接方式加强特征的信息重 用,从而提升网络的性能,其模型结构如图2所 st=ziS1-1+ir (Wsxxt +Wshht-1+bs) (4) 示.曹毅等2ol结合DenseNet和N阶马尔可夫模型 o=(Woxx:Wohh:-1 Wosst-1+bo) (5) 提出了N阶DenseNet,,该模型在避免梯度消失的 hr=ou中(sr) (6) 前提下有针对性地减少了特征图层之间的连接, f=hrihr (7) 极大地减少了特征冗余,使得模型的收敛速度更 快.式(I2)可用于表示DenseNet计算结果: 式(2)~(7)中,n、s、0h,和f分别代表1时刻 x1=H([x0,x1,",x1-1]) (12) 输入门、遗忘门、中间状态、输出门、隐藏值向量 和输出向量;Wx、W、Ws分别表示输入到输入 Input 门、输入门到隐藏值向量权值以及输入门到中间 状态的权值;Wx、Wh、Ws分别表示输入到遗忘 门、遗忘门到隐藏值向量权值以及遗忘门到中间 状态的权值;Wx、Woh、Ws分别表示输入到输出 门、输出门到隐藏值向量权值以及输出门到中间 状态的权值;Wx、W如分别表示中间状态到输入门 BN+Relu 与隐藏值向量的权值:b、b、bs、b。分别代表输入 门、遗忘门、中间状态和输出门偏置矩阵;) )分别表示sigmoid及Tanh激活函数:hr;h,表 BN+Relu 示拼接前向隐藏向量h,与后向隐藏向量,得到编 码网络结果f 如图I所示,RNN-T引入解码网络对CTC输 BN+Relu 出独立性假设进行优化,该网络对上一时刻非空 预测结果进行再编码,其结果如式(8)所示: gu=fDec (y-i) (8) 同理,fD()表示深度神经网络构建的函数, BN+Relu 且该文解码层均采用LSTM网络,具体计算与式 图2 DenseNet模型结构图 (2)~(6)一致,解码网络最终结果gu与h,相等. Fig.2 Model structure of DenseNet 联合网络将编码网络与解码网络组合(图1), 得到组合序列,再通过Softmax函数得到下一时刻 其中,1表示当前层数,[xo,x1,,-]表示拼接前 概率分布,其计算如式(9)~(10)所示: -1层的特征图,H表示拼接前-1层特征图,x表 wiu=floint(fr gu) 示第1层特征图 (9) 受上述算法启发,首先使用DenseNet提取原 p(klt,u)=Softmax (wiu) (10) 始特征的高维信息,其不仅提升特征的信息重用四, LRNN-T=-In P(y'X) (11) 而且可以减轻梯度问题2:然后利用LSTM网络,··· ,··· ,··· ,··· 设给定序 列 X=(x1 , x2 , xt , xT ) 表示输 入 T(1≤t≤T) 帧声学特征序列,对应标签序列 y=(y1 , y2 , yu ,yU),其中 U(1≤u≤U) 表示标签长度. 如 图 1 所示,编码网络将输入声学特征映射为声学 特征向量 ft,编码结果如下式所示: ft = f Enc (xt) (1) 其中, f Enc(·) 表示深度神经网络构建的函数,该 文编码层均采用 BLSTM 网络,其具体计算如式 (2)~(7)所示: it = σ(Wixxt +Wihht−1 +Wisst−1 + bi) (2) zt = σ(Wzxxt +Wzhht−1 +Wzsst−1 + bz) (3) st = ztst−1 + itϕ(Wsxxt +Wshht−1 + bs) (4) ot = σ(Woxxt +Wohht−1 +Wosst−1 + bo) (5) ht = otϕ(st) (6) ft = [→ ht ; ← ht ] (7) [→ ht ; ← ht ] → ht ← ht 式(2)~(7)中,i t、zt、st、ot、ht 和 ft 分别代表 t 时刻 输入门、遗忘门、中间状态、输出门、隐藏值向量 和输出向量;Wix、Wih、Wis 分别表示输入到输入 门、输入门到隐藏值向量权值以及输入门到中间 状态的权值;Wzx、Wzh、Wzs 分别表示输入到遗忘 门、遗忘门到隐藏值向量权值以及遗忘门到中间 状态的权值;Wox、Woh、Wos 分别表示输入到输出 门、输出门到隐藏值向量权值以及输出门到中间 状态的权值;Wsx、Wsh 分别表示中间状态到输入门 与隐藏值向量的权值;bi、bz、bs、bo 分别代表输入 门、遗忘门、中间状态和输出门偏置矩阵; σ(·)、 ϕ(·) 分别表示 sigmoid 及 Tanh 激活函数; 表 示拼接前向隐藏向量 与后向隐藏向量 得到编 码网络结果 ft . 如图 1 所示,RNN–T 引入解码网络对 CTC 输 出独立性假设进行优化,该网络对上一时刻非空 预测结果进行再编码,其结果如式 (8) 所示: gu = f Dec (yu−1) (8) 同理,f Dec(·) 表示深度神经网络构建的函数, 且该文解码层均采用 LSTM 网络,具体计算与式 (2)~(6)一致,解码网络最终结果 gu 与 ht 相等. 联合网络将编码网络与解码网络组合(图 1), 得到组合序列,再通过 Softmax 函数得到下一时刻 概率分布,其计算如式(9)~(10)所示: wt,u = f Joint(ft , gu) (9) p(k|t,u) = Softmax( wt,u ) (10) LRNN−T = −lnP ( y ∗ |X ) (11) 式(9)~(10)中,ft、gu 分别表示编码向量与解码向 量,并将上述二者组合成联合向量 wt,u,进而通过 Softmax 函 数 计 算 其 后 验 概 率 . 式 ( 11) 表 示 RNN–T 损失函数,其值可通过前向–后向算法计 算. 其中,y *表示给定序列的标签,由于式(10)结 果均可微. 因此,可通过随时间反向传播(Back￾propagation through time, BPTT)算法 [18] 进行参数 训练. 1.2    密集连接网络转换器 DL–T DenseNet 是由 Huang 等[19] 提出的一种深度学 习算法,其采用密集连接方式加强特征的信息重 用,从而提升网络的性能,其模型结构如图 2 所 示. 曹毅等[20] 结合 DenseNet 和 N 阶马尔可夫模型 提出了 N 阶 DenseNet,该模型在避免梯度消失的 前提下有针对性地减少了特征图层之间的连接, 极大地减少了特征冗余,使得模型的收敛速度更 快. 式(12)可用于表示 DenseNet 计算结果: xl = Hl([x0, x1,· · ·, xl−1]) (12) Input BN+Relu BN+Relu BN+Relu BN+Relu BN+Relu x0 x1 x2 x3 x4 图 2    DenseNet 模型结构图 Fig.2    Model structure of DenseNet 其中,l 表示当前层数,[x ,··· 0 , x1 , xl−1] 表示拼接前 l–1 层的特征图,Hl 表示拼接前 l−1 层特征图,xl 表 示第 l 层特征图. 受上述算法启发,首先使用 DenseNet 提取原 始特征的高维信息,其不仅提升特征的信息重用[21] , 而且可以减轻梯度问题[22] ;然后利用 LSTM 网络 张    威等: 基于 DL-T 及迁移学习的语音识别研究 · 435 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有