正在加载图片...
张威等:基于DL-T及迁移学习的语音识别研究 437 间均无交叠 表1RNN-T基线模型实验结果 3.2实验设置 Table 1 Experimental results of RNN-T's baseline 为验证DL-T兼具预测错误率低与收敛速度 Initial model TL TL+LM 快的优点,基于Aishell--1数据集,论文将开展声 Acoustic model Dev Test Dev Test Dev Test 学模型研究,其具体参数配置如下: CER CER CERCER CERCER (1)特征提取:基于kaldi2语音识别开发包提 RNN-TU5I 10.1311.82 取80维FBank特征,其中窗长25ms,帧移为10ms, E3D1 17.6918.9214.4216.31 12.0713.57 然后左拼接3帧阿,共320维,用其作为声学模型 E4D1 15.03 17.39 13.66 15.58 11.25 13.07 输入.训练阶段,对所有语料按帧由短到长进行排 E5D1 19.6222.35 14.1416.2211.89 13.53 序,共4335个字作为建模单元. E4D2 12.12 14.54 10.7412.74 9.13 10.65 (2)声学模型参数:本文基于Pytorch27构建声 学模型.初始训练阶段,优化准则采用随机梯度下 误率和测试集错误率.其中,“E3D1”表示编码网 降,学习率初始设置为0.001:迁移学习阶段,优化 络中BLSTM层数为3,解码网络中LSTM网络层 数为1;“E3DI(TL)”表示“E3D1”声学模型经过迁 准则不变,但学习率降为0.00001.且所有训练阶 段,Linear和DenseNet网络均采用反向传播算法 移学习(TL)训练得到的模型;迁移学习与语言模 进行训练,LSTM模型采用BPTT算法进行优化参 型共同优化下,得到“E3DI(TL+LM)”声学模型 数.RNN-T基线模型中,编码网络设置DenseNet 从表1不难看出: 为4层,特征图增长率20为4,初始输入为单通 (1)编码网络初始设为3层,随其层数增加,模 道的语音特征;采用3层BLSTM模型进行序列建 型预测错误率出现先增后减趋势,当模型编码层 模,隐藏神经元个数为320:解码网络设置为1层 数为4,且解码层数为2时,声学结果达到最优,其 单向LSTM网,神经元数目为320:联合网络采 测试集错误率降至14.54%; 用2层全连接网络,其神经元数目依次为512和 (2)RNN-T经过重训练可使得声学模型错误 4335 率降低1.80%~6.13%,验证了迁移学习可进一步 提高RNN-T声学模型准确率的结论: (3)解码:本文采用束搜索对最后概率分布进 行解码),解码宽度为10.并且,采用训练集数据 (3)语言模型和声学模型联合解码使得RNN-T 构建5-元语言模型对声学模型结果进行修正,初 的效果得到极大提升,相较于文献[15],“E4D2(TL+ 始设置语言模型权重为0.3,式(14)表示RNN-T LM)”声学模型在验证集与测试集的预测错误率分 声学模型与语言模型联合解码定义: 别相对降低9.87%和9.90%,模型的错误率降至 10.65% Ymal=Argmax(PrNN-rylX)+ar·PLMy)(l4) 综上可得:(1)“E4D2(TL+LM”为本文构建的 其中,PRNN-Ty)与PLM)分别表示RNN-T声 RNN-T声学模型,其错误率最低,选其作为基线 学模型以及LM生成y的概率,a代表语言模型权 模型具有合理性;(2)迁移学习可进一步降低初始 重,最终通过Argmax()函数将上述计算结果映射 模型错误率,通过插入语言模型可使得模型达到 为对应的序列Yfinal 最优 3.3实验结果 3.3.2DL-T实验结果 3.3.1基线模型 为验证DL-T声学模型相较于RNN-T训练收 RNN-T基线模型可为DL-T提供对比模型并 敛速度快、预测错误率低.基于32节设置DL-T 能验证其声学模型的有效性.为得到RNN-T基线 初始参数训练声学模型,并与3.3.1节中RNN-T 模型,基于32中设置的初始实验参数,对基线模 的实验结果进行对比,其实验损失函数曲线与错 型中不同参数进行对比研究.首先对编码网络中 误率曲线如图5、图6所示 BLSTM网络的层数进行实验,得到编码阶段最优 图5中,“DE3D1”表示编码网络为DenseNet.- 模型;其次,再增加解码网络中单向LSTM层数; LSTM结构(DenseNet结构与3.2节参数一致),其 最终采用最低的错误率(CER)模型作为基线 LSTM层数为3,解码网络中LSTM网络层数为1 (Baseline)模型,具体实验结果如表1所示 的DL-T声学模型.RNN-T以及DL-T实验结果 表I中Dev CER、Test CER分别表示验证集错 分别用虚线、实线表示.图5(a)和5(c)分别表示间均无交叠. 3.2    实验设置 为验证 DL–T 兼具预测错误率低与收敛速度 快的优点,基于 Aishell–1 数据集,论文将开展声 学模型研究,其具体参数配置如下: (1)特征提取:基于 kaldi[26] 语音识别开发包提 取 80 维 FBank 特征,其中窗长 25 ms,帧移为 10 ms, 然后左拼接 3 帧[15] ,共 320 维,用其作为声学模型 输入. 训练阶段,对所有语料按帧由短到长进行排 序,共 4335 个字作为建模单元. (2)声学模型参数:本文基于 Pytorch[27] 构建声 学模型. 初始训练阶段,优化准则采用随机梯度下 降,学习率初始设置为 0.001;迁移学习阶段,优化 准则不变,但学习率降为 0.00001. 且所有训练阶 段 ,Linear 和 DenseNet 网络均采用反向传播算法 进行训练,LSTM 模型采用 BPTT 算法进行优化参 数. RNN–T 基线模型中,编码网络设置 DenseNet 为 4 层,特征图增长率[19−20] 为 4,初始输入为单通 道的语音特征;采用 3 层 BLSTM 模型进行序列建 模,隐藏神经元个数为 320;解码网络设置为 1 层 单向 LSTM 网络,神经元数目为 320;联合网络采 用 2 层全连接网络,其神经元数目依次为 512 和 4335. (3)解码:本文采用束搜索对最后概率分布进 行解码[13] ,解码宽度为 10. 并且,采用训练集数据 构建 5–元语言模型对声学模型结果进行修正,初 始设置语言模型权重为 0.3,式(14)表示 RNN–T 声学模型与语言模型联合解码定义: Yfinal = Argmax y ∗ ( PRNN−T ( y ∗ |X ) +α· PLM ( y ∗ )) (14) 其中,PRNN–T(y * |X) 与 PLM(y * ) 分别表示 RNN–T 声 学模型以及 LM 生成 y *的概率,α 代表语言模型权 重,最终通过 Argmax(·) 函数将上述计算结果映射 为对应的序列 Yfinal. 3.3    实验结果 3.3.1    基线模型 RNN–T 基线模型可为 DL–T 提供对比模型并 能验证其声学模型的有效性. 为得到 RNN–T 基线 模型,基于 3.2 中设置的初始实验参数,对基线模 型中不同参数进行对比研究. 首先对编码网络中 BLSTM 网络的层数进行实验,得到编码阶段最优 模型;其次,再增加解码网络中单向 LSTM 层数; 最终采用最低的错误率 ( CER)模型作为基线 (Baseline)模型,具体实验结果如表 1 所示. 表 1 中 Dev CER、Test CER 分别表示验证集错 误率和测试集错误率. 其中,“E3D1”表示编码网 络中 BLSTM 层数为 3,解码网络中 LSTM 网络层 数为 1;“E3D1(TL)”表示“E3D1”声学模型经过迁 移学习 (TL) 训练得到的模型;迁移学习与语言模 型共同优化下,得到“E3D1(TL+LM)”声学模型. 从表 1 不难看出: (1)编码网络初始设为 3 层,随其层数增加,模 型预测错误率出现先增后减趋势,当模型编码层 数为 4,且解码层数为 2 时,声学结果达到最优,其 测试集错误率降至 14.54%; (2)RNN–T 经过重训练可使得声学模型错误 率降低 1.80%~6.13%,验证了迁移学习可进一步 提高 RNN–T 声学模型准确率的结论; (3)语言模型和声学模型联合解码使得 RNN–T 的效果得到极大提升,相较于文献 [15],“E4D2(TL+ LM)”声学模型在验证集与测试集的预测错误率分 别相对降低 9.87% 和 9.90%,模型的错误率降至 10.65%. 综上可得:(1)“E4D2(TL+LM)”为本文构建的 RNN–T 声学模型,其错误率最低,选其作为基线 模型具有合理性;(2)迁移学习可进一步降低初始 模型错误率,通过插入语言模型可使得模型达到 最优. 3.3.2    DL–T 实验结果 为验证 DL–T 声学模型相较于 RNN–T 训练收 敛速度快、预测错误率低. 基于 3.2 节设置 DL–T 初始参数训练声学模型,并与 3.3.1 节中 RNN–T 的实验结果进行对比,其实验损失函数曲线与错 误率曲线如图 5、图 6 所示. 图 5 中,“DE3D1”表示编码网络为 DenseNet– LSTM 结构(DenseNet 结构与 3.2 节参数一致),其 LSTM 层数为 3,解码网络中 LSTM 网络层数为 1 的 DL–T 声学模型. RNN–T 以及 DL–T 实验结果 分别用虚线、实线表示. 图 5(a)和 5(c)分别表示 表 1    RNN–T 基线模型实验结果 Table 1    Experimental results of RNN–T’s baseline % Acoustic model Initial model TL TL+LM Dev CER Test CER Dev CER Test CER Dev CER Test CER RNN-T[15] 10.13 11.82 E3D1 17.69 18.92 14.42 16.31 12.07 13.57 E4D1 15.03 17.39 13.66 15.58 11.25 13.07 E5D1 19.62 22.35 14.14 16.22 11.89 13.53 E4D2 12.12 14.54 10.74 12.74 9.13 10.65 张    威等: 基于 DL-T 及迁移学习的语音识别研究 · 437 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有