正在加载图片...
436 工程科学学报,第43卷,第3期 序列建模时的优势,对提取的高维信息进行序列 化算法中的研究热点,其旨在基于源域在解决任 建模;最终构建DL-T声学模型,其具体编码网络 务中获得知识进而改善目标任务的算法.近年来, 模型结构如图3所示. 国内外已有不少学者在此领域进行深入研究52-2刈 Tian等将预训练模型作为RNN-T的初始模 型,在此基础上进行再训练,使得RNN-T训练难 BLSTM 度降低;易江燕等1用迁移学习方法对带噪语音 进行声学建模,该方法利用老师模型指导学生模 DenseNe 型进行训练,提高带噪语音的鲁棒性;Xue等2基 于多任务学习理论,对声学模型进行再训练,从而 图3DL-T编码网络结构图 降低模型的错误率 Fig.3 Encoder network structure of a DL-T 有鉴于此,为进一步提高声学模型准确率,本 2基于迁移学习的声学模型 文拟用迁移学习方法对声学模型进行优化.该方 法在初始模型的基础上融合优化算法重训练得到 迁移学习(Transfer learning,TL)是深度学习优 最终模型,其训练方法如图4所示. ,XXn,x) Encoder network Joint network Acoustic feature LSTM LSTM LSTM LSTM Linear iRNN-T training Acoustic feature LSTMLSTM LSTM LSTM Vi2.u) Linear RNN-T word Input word Embedding LSTM Decodernetwork ,,J, Input word Embedding LSTM 图4迁移学习方法结构图 Fig.4 Method of transfer learning 图4中,虚线部分表示初始训练模型,其包含 的参数,其中P=Pk,),P=P(k:D()为本 编码网络、解码网络及联合网络3部分,其具体工 文迁移学习的优化目标,其用P:通过参数优化得 作原理如下: 到P。旨在最小化D()目标函数 (1)首先以声学特征序列X为编码网络输入; 3 (2)其次,用字序列y通过词嵌入1变换作为 实验 解码网络输入,该输入序列将高维稀疏字序列映 为验证DL-T声学模型相较于RNN-T训练 射低维密集的特征空间,从而减少输人参数量便 时收敛速度更快且具有良好的准确率,本节基于 于模型训练; Aishell-l数据集在实验平台上开展语音识别的 (3)最后,联合网络将编码网络与解码网络相 研究 结合,通过softmax函数输出结果 3.1实验数据集 实线为迁移学习部分,该部分RNN-T结构与 实验采用Aishell-1I6数据集进行实验,该 初始模型一致,将初始模型参数重训练得到迁移 数据集是中文语音标准数据集,其采样率为 学习之后的模型,其计算结果如式(13)所示: 16000Hz.其中训练集、验证集以及测试集分别包 D(PrlP:)≡-lnP(yX) (13) 含120098、14326以及7176条标准语料,数据总时 其中,P、P分别表示初始模型以及迁移学习模型 长约为178h,并且训练集、验证集和测试集语料序列建模时的优势,对提取的高维信息进行序列 建模;最终构建 DL–T 声学模型,其具体编码网络 模型结构如图 3 所示. BLSTM DenseNet xt ft 图 3    DL–T 编码网络结构图 Fig.3    Encoder network structure of a DL–T 2    基于迁移学习的声学模型 迁移学习(Transfer learning, TL)是深度学习优 化算法中的研究热点,其旨在基于源域在解决任 务中获得知识进而改善目标任务的算法. 近年来, 国内外已有不少学者在此领域进行深入研究[15, 23−24] . Tian 等[15] 将预训练模型作为 RNN – T 的初始模 型,在此基础上进行再训练,使得 RNN–T 训练难 度降低;易江燕等[23] 用迁移学习方法对带噪语音 进行声学建模,该方法利用老师模型指导学生模 型进行训练,提高带噪语音的鲁棒性;Xue 等[24] 基 于多任务学习理论,对声学模型进行再训练,从而 降低模型的错误率. 有鉴于此,为进一步提高声学模型准确率,本 文拟用迁移学习方法对声学模型进行优化. 该方 法在初始模型的基础上融合优化算法重训练得到 最终模型,其训练方法如图 4 所示. (x1, x2, ..., xt , ..., xT) (x1, x2, ..., xt , ..., xT) (y1, y2, ..., yu, ..., yU) (y1, y2, ..., yu, ..., yU) Acoustic feature Acoustic feature LSTM LSTM LSTM LSTM LSTM Input word Embedding LSTM LSTM LSTM LSTM Input word Embedding LSTM Joint network Linear Linear RNN-T word Encoder network Decoder network RNN-T training 图 4    迁移学习方法结构图 Fig.4    Method of transfer learning 图 4 中,虚线部分表示初始训练模型,其包含 编码网络、解码网络及联合网络 3 部分,其具体工 作原理如下: (1)首先以声学特征序列 X 为编码网络输入; (2)其次,用字序列 y 通过词嵌入[25] 变换作为 解码网络输入,该输入序列将高维稀疏字序列映 射低维密集的特征空间,从而减少输入参数量便 于模型训练; (3)最后,联合网络将编码网络与解码网络相 结合,通过 softmax 函数输出结果. 实线为迁移学习部分,该部分 RNN–T 结构与 初始模型一致,将初始模型参数重训练得到迁移 学习之后的模型,其计算结果如式(13)所示: Dfi (Pf ∥ Pi) ≡ −lnP ( y ∗ |X ) (13) 其中,Pi、Pf 分别表示初始模型以及迁移学习模型 的参数,其中 Pi=P(ki |t i , ui ), Pf=P(kf |t f , uf );Dfi(·) 为本 文迁移学习的优化目标,其用 Pi 通过参数优化得 到 Pf,旨在最小化 Dfi(·) 目标函数. 3    实验 为验证 DL–T 声学模型相较于 RNN–T 训练 时收敛速度更快且具有良好的准确率,本节基于 Aishell–1 数据集在实验平台上开展语音识别的 研究. 3.1    实验数据集 实验采用 Aishell –1[16] 数据集进行实验 ,该 数据集是中文语音标准数据集 ,其采样率为 16000 Hz,其中训练集、验证集以及测试集分别包 含 120098、14326 以及 7176 条标准语料,数据总时 长约为 178 h,并且训练集、验证集和测试集语料 · 436 · 工程科学学报,第 43 卷,第 3 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有