正在加载图片...
张威等:基于DL-T及迁移学习的语音识别研究 439 至0.15以下,证明了DL-T相较于RNN-T训练收 相较于前者单轮训练时间只增加约5s,说明 敛速度更快 DL-T对RNN-T训练时间影响较小;(2)“E4D2” 从图5(c)与5(d)可看出:(1)随着迭代次数的 与“DE4D2”单句解码耗时分别约为910ms与 增加,声学模型预测错误率逐渐降低,最终降至 915ms,“DE4D2”相较于前者单句解码耗时仅相 12.0%~15.0%范围内;(2)初始训练阶段,RNN-T与 对增加0.55%,实验结果进一步验证了DL-T对于 DL-T预测错误率曲线均呈下降趋势,但DL-T错 识别复杂度的影响较小 误率相较于RNN-T低;重训练阶段,RNN-T预测 为进一步验证不同语言模型权重对于声学模 错误率降至13.5%~15.0%范围内,DL-T预测错 型结果的影响,表3给出了不同语言模型权重对 误率最低降至13.0%以下,该结果进一步验证了 于模型“DE4D2”的影响,语言模型的权重分别设 DL-T可显著降低声学模型预测错误率.其具体 置为02、0.3和0.4.从表3实验结果可得出,当权 实验结果如表2所示 重值为0.3时,声学模型的错误率最低,达到10.34%, 声学模型结果为最优 表2DL-T实验结果 Table 2 Experimental results of DL-T % 表3不同语言模型对声学模型的影响 Initial model TL TL+LM Acoustic Table 3 Effects of different language model weights on the model Dev Test Dev Test Dev Test acoustic model % CER CER CER CER CER CER Value of LM Dev CER Test CER SA-Ttis] 9.2110.46 0.2 8.91 10.47 LASI2周 10.56 0.3 8.80 10.34 DE3D1 15.17 17.31 13.78 15.92 11.85 13.52 0.4 8.89 10.45 DE4D1 13.70 15.84 12.78 14.80 11.21 12.95 DE5D1 15.92 18.38 1346 15.30 11.57 13.90 值得指出的是:综合表1、表2与表3实验结 DE4D2 11.2313.4510.6912.55 8.8010.34 果可得出,DL-T相较于本文RNN-T基线模型, 表2为实验具体结果,本文为得到最优DL-T 在验证集、测试集错误率分别相对降低3.61%和 声学模型,首先,DenseNet与解码网络层数不变, 2.94%,进一步验证了DL-T相较于RNN-T可显 分析编码网络中不同BLSTM层数对于DL-T的 著降低其预测错误率,其最优模型的具体训练过 影响,从表2可得出,“DE4D2”为最优的DL-T声 程曲线图如图6所示 学模型.然后固定编码网络不变,探索不同解码网 为进一步展示最优声学模型实验过程,图6(a)~ 络层数对模型的影响,从表2可得,当其层数为 6(d)展示了“E4D1”、“E4D2”、“DE4D2”三种不同 2时,模型达到最优,即为“DE4D2”模型,最终在 声学模型的不同实验结果,其中模型“DE4D2”为 测试集错误率可达13.45%.从表2可得以下结论: 本文最佳结果,模型的最终错误率降至10.34% (1)迁移学习对于DL-T效果显著,使得模型的错 图6(a)、6(c)表示初始训练结果,图6(b)、6(d)表 误率降低0.90%~3.08%,再次验证了其对于模型 示迁移学习结果.由图6(a)与图6(b)可以得出: 训练的优越性;(2)语言模型的线性插入可进一步 (1)随着迭代次数增加,模型趋于收敛,最终损失 降低声学模型的错误率,最优声学模型错误率降 值收敛在0.05~0.40范围内;(2)“DE4D2”模型在 低至10.34%;(3)必须指出的是:本文提出最优的 初始训练时相较于其他模型收敛速度最快,再次 DL-T声学模型相较于SA-T声学模型,在验证 验证了DL-T可有效解决RNN-T收敛速度较慢 集和测试集上的预测错误率分别降低4.45%、1.15%, 的问题 其相较于LAS声学模型P1在测试集上,错误率相 从图6(c)与图6(d)可以得出:(1)三种声学模 对降低2.08%,证明了DL-T擅长声学建模 型错误率总体呈下降趋势,其错误率最终降到 为分析RNN-T与DL-T的训练与识别复杂 10.0%~14.0%区间:(2)结合表1与表2结果可 度,分别选用“E4D2”与“DE4D2”两种代表性声学 知,“DE4D2”相较于“E4D1”、“E4D2”在测试集上 模型对其单轮训练时间与单句解码耗时进行实 错误率降低2.73%和0.31%,再次证明本文提出的 验分析.实验结果表明:(1)“E4D2”与“DE4D2” DL-T模型可显著降低模型错误率 单轮训练时间分别约为150s和155s,“DE4D2” 综合表1~表2、图5图6可得以下结论:至 0.15 以下,证明了 DL–T 相较于 RNN–T 训练收 敛速度更快. 从图 5(c)与 5(d)可看出:(1)随着迭代次数的 增加,声学模型预测错误率逐渐降低,最终降至 12.0% ~ 15.0% 范围内;(2)初始训练阶段,RNN–T 与 DL–T 预测错误率曲线均呈下降趋势,但 DL–T 错 误率相较于 RNN–T 低;重训练阶段,RNN–T 预测 错误率降至 13.5% ~ 15.0% 范围内,DL–T 预测错 误率最低降至 13.0% 以下,该结果进一步验证了 DL–T 可显著降低声学模型预测错误率. 其具体 实验结果如表 2 所示. 表 2  DL-T 实验结果 Table 2   Experimental results of DL–T % Acoustic model Initial model TL TL+LM Dev CER Test CER Dev CER Test CER Dev CER Test CER SA–T[15] 9.21 10.46 LAS[28] 10.56 DE3D1 15.17 17.31 13.78 15.92 11.85 13.52 DE4D1 13.70 15.84 12.78 14.80 11.21 12.95 DE5D1 15.92 18.38 13.46 15.30 11.57 13.90 DE4D2 11.23 13.45 10.69 12.55 8.80 10.34 表 2 为实验具体结果,本文为得到最优 DL–T 声学模型. 首先,DenseNet 与解码网络层数不变, 分析编码网络中不同 BLSTM 层数对于 DL–T 的 影响,从表 2 可得出,“DE4D2”为最优的 DL–T 声 学模型. 然后固定编码网络不变,探索不同解码网 络层数对模型的影响,从表 2 可得,当其层数为 2 时,模型达到最优,即为“DE4D2”模型,最终在 测试集错误率可达 13.45%. 从表 2 可得以下结论: (1)迁移学习对于 DL–T 效果显著,使得模型的错 误率降低 0.90%~3.08%,再次验证了其对于模型 训练的优越性;(2)语言模型的线性插入可进一步 降低声学模型的错误率,最优声学模型错误率降 低至 10.34%;(3)必须指出的是:本文提出最优的 DL–T 声学模型相较于 SA–T 声学模型[15] ,在验证 集和测试集上的预测错误率分别降低 4.45%、1.15%, 其相较于 LAS 声学模型[28] 在测试集上,错误率相 对降低 2.08%,证明了 DL–T 擅长声学建模. 为分析 RNN–T 与 DL–T 的训练与识别复杂 度,分别选用“E4D2”与“DE4D2”两种代表性声学 模型对其单轮训练时间与单句解码耗时进行实 验分析. 实验结果表明:( 1)“E4D2”与“DE4D2” 单轮训练时间分别约为 150 s 和 155 s,“DE4D2” 相较于前者单轮训练时间只增加 约 5  s,说明 DL–T 对 RNN–T 训练时间影响较小;(2)“E4D2” 与 “ DE4D2” 单句解码耗时分别约 为 910  ms 与 915 ms,“DE4D2”相较于前者单句解码耗时仅相 对增加 0.55%,实验结果进一步验证了 DL–T 对于 识别复杂度的影响较小. 为进一步验证不同语言模型权重对于声学模 型结果的影响,表 3 给出了不同语言模型权重对 于模型“DE4D2”的影响,语言模型的权重分别设 置为 0.2、0.3 和 0.4. 从表 3 实验结果可得出,当权 重值为 0.3 时,声学模型的错误率最低,达到 10.34%, 声学模型结果为最优. 表 3 不同语言模型对声学模型的影响 Table 3   Effects of different language model weights on the acoustic model % Value of LM Dev CER Test CER 0.2 8.91 10.47 0.3 8.80 10.34 0.4 8.89 10.45 值得指出的是:综合表 1、表 2 与表 3 实验结 果可得出,DL–T 相较于本文 RNN–T 基线模型, 在验证集、测试集错误率分别相对降低 3.61% 和 2.94%,进一步验证了 DL–T 相较于 RNN–T 可显 著降低其预测错误率,其最优模型的具体训练过 程曲线图如图 6 所示. 为进一步展示最优声学模型实验过程,图 6(a)~ 6(d)展示了“E4D1”、“E4D2”、“DE4D2”三种不同 声学模型的不同实验结果,其中模型“DE4D2”为 本文最佳结果,模型的最终错误率降至 10.34%. 图 6(a)、6(c)表示初始训练结果,图 6(b)、6(d)表 示迁移学习结果. 由图 6(a)与图 6(b)可以得出: (1)随着迭代次数增加,模型趋于收敛,最终损失 值收敛在 0.05~0.40 范围内;(2)“DE4D2”模型在 初始训练时相较于其他模型收敛速度最快,再次 验证了 DL–T 可有效解决 RNN–T 收敛速度较慢 的问题. 从图 6(c)与图 6(d)可以得出:(1)三种声学模 型错误率总体呈下降趋势 ,其错误率最终降到 10.0%~14.0% 区间 ;( 2)结合表 1 与表 2 结果可 知,“DE4D2”相较于“E4D1”、“E4D2”在测试集上 错误率降低 2.73% 和 0.31%,再次证明本文提出的 DL–T 模型可显著降低模型错误率. 综合表 1~表 2、图 5~图 6 可得以下结论: 张    威等: 基于 DL-T 及迁移学习的语音识别研究 · 439 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有