正在加载图片...
·1214· 工程科学学报,第37卷,第9期 由此得到的输出为该种卷积器对局部特征的观察 阶差分系数.在送入卷积神经网络训练前,将多帧串 结果.由于使用的是相同的卷积器,其卷积参数完全 联构成长时特征.所有特征都进行了逐句的均值方差 相同,存储时只需保留一组卷积参数(权值共享).另 规整.实验中采用各5帧,总11帧的串联长时特征. 一方面,由于一种卷积器所能观察的信息有限,所以一 卷积神经网络的训练采用一层卷积层+聚合层和 般会使用多种不同的卷积器从不同视角上进行观察, 一层全网络层的结构.为了与之对比,训练了深层神 从而得到更多的信息量.最终的存储量仅为各种卷积 经网络模型,采用的是两个隐含层结构,保证和卷积神 器的自由参数量之和,相比深层神经网络全网络连接 经网络的网络层数一致.卷积神经网络和深层神经网 结构,大大减少了模型的存储规模.同时,卷积运算的 络的目标分类都为183个音素状态(61个音素,每个 一个重要特点就是,通过卷积运算,可以使原信号特征 音素三个状态),其输出层为该帧属于某个音素的后 增强,并且降低噪音,这也使得基于卷积运算的卷积神 验概率,通过贝叶斯公式将其转化成似然概率应用于 经网络模型有着更好的抗噪性能. 解码阶段.在实验中,为了直接观察卷积神经网络在 在卷积层之后,紧跟着的是聚合层.在语音识别 声学建模上的性能,采用了不带语言模型的音素解码 中,采用最大聚合算法(聚合).以图1为例,从C,和 2.2实验结果 C,这两个卷积层输出结点中选择最大值作为聚合层的 2.2.1卷积神经网络和深层神经网络对比 输出P.这样做的好处:一是可以减少输出结点数,控 表1给出了卷积神经网络和深层神经网络在不同 制模型的计算量;二是通过对几个结点选最大值进行 条件下的性能对比结果.在特征方面,尝试了不使用 输出,增加模型对语音特征的鲁棒性. 和使用一阶和二阶差分特征两种方式,分别对应表中 到目前为止,卷积神经网络的信息都还是停留在 的“40维特征”和“120维特征”.卷积神经网络的结 局部观察的结果.要得到最终的分类结果,需要将这 构为两个隐层:第一个隐层为卷积层+聚合层,卷积器 些信息综合起来.所以在卷积层之后,通过一个全网 种类为100种,对应两种不同特征时卷积器参数分别 络层,将聚合层的各个输出综合起来,最后通过输出层 为11×8和33×8,聚合层为3个结点选择一个最大输 得到各个状态的分类后验概率. 出的方式:之后紧接一个1024结点的全网络隐层. 基于120维特征输入的结构,卷积神经网络的总模 2实验结果和分析 型大小为2.6×10°,总计算量为1.6×10次(矩阵乘 2.1实验条件 法).深层神经网络也为两个隐层,每层都为1024结 核心对比实验在英文标准连续语音识别库TIMT 点的全网络连接.同样基于120维特征输入的结构, 上进行,性能指标有神经网络的验证集分类帧正确率 深层神经网络的总模型大小为10.1×10,总计算量 (frame correct rate)和最终的音素识别正确率(phone 为2.6×10次(矩阵乘法).对比看到,无论是模型 correct rate),使用462个说话人的语音作为训练集, 规模还是实际计算量,卷积神经网络都比深层神经 另外144个说话人的语音作为神经网络的验证集. 网络更小.在这样的条件下,表1结果显示无论是选 TIMT提供的24人的core测试集作为测试集.各个集 择不使用或使用一阶和二阶差分特征,卷积神经网 之间无说话人重叠.在特征提取部分,使用传统的 络的帧正确率和音素正确率都稳定优于深层神经网 25ms帧长、10ms帧移的方式提取特征.40维的梅尔 络:并且,使用一阶和二阶差分特征会进一步提高模 域滤波带系数作为特征输入,同时也包含其一阶和二 型性能 表1TMT测试集上卷积神经网络和深层神经网络的参数和性能对比 Table 1 Performance comparisons between CNN and DNN on TIMIT corpus 模型 输入维数 卷积器个数 卷积器形状 聚合层 全连接隐层 帧正确率/%音素正确率/% 卷积神经网络 40 100 11×8 1×3 1024 47.6 61.7 卷积神经网络 120 100 33×8 1×3 1024 53.6 66.3 深层神经网络 40 1024×1024 46.3 60.1 深层神经网络 120 1024×1024 51.8 64.6 在接下来的实验中,基于120维特征(含一阶和二 络表征语音的最优方式 阶差分特征)输入,对卷积神经网络的卷积层和聚合 2.2.2卷积层 层进行了不同参数条件下的性能对比.不同参数所对 卷积神经网络通过卷积器对局部特征进行分析, 应的物理意义不相同,通过实验寻找到用卷积神经网 通过聚合层加强抽取出来的特征鲁棒性,最后通过全工程科学学报,第 37 卷,第 9 期 由此得到的输出为该种卷积器对局部特征的观察 结果. 由于使用的是相同的卷积器,其卷积参数完全 相同,存储时只需保留一组卷积参数( 权值共享) . 另 一方面,由于一种卷积器所能观察的信息有限,所以一 般会使用多种不同的卷积器从不同视角上进行观察, 从而得到更多的信息量. 最终的存储量仅为各种卷积 器的自由参数量之和,相比深层神经网络全网络连接 结构,大大减少了模型的存储规模. 同时,卷积运算的 一个重要特点就是,通过卷积运算,可以使原信号特征 增强,并且降低噪音,这也使得基于卷积运算的卷积神 经网络模型有着更好的抗噪性能. 在卷积层之后,紧跟着的是聚合层. 在语音识别 中,采用最大聚合算法( 聚合) . 以图 1 为例,从 C1 和 C2这两个卷积层输出结点中选择最大值作为聚合层的 输出 P1 . 这样做的好处: 一是可以减少输出结点数,控 制模型的计算量; 二是通过对几个结点选最大值进行 输出,增加模型对语音特征的鲁棒性. 到目前为止,卷积神经网络的信息都还是停留在 局部观察的结果. 要得到最终的分类结果,需要将这 些信息综合起来. 所以在卷积层之后,通过一个全网 络层,将聚合层的各个输出综合起来,最后通过输出层 得到各个状态的分类后验概率. 2 实验结果和分析 2. 1 实验条件 核心对比实验在英文标准连续语音识别库 TIMIT 上进行,性能指标有神经网络的验证集分类帧正确率 ( frame correct rate) 和最终的音素识别正确率( phone correct rate) . 使用 462 个说话人的语音作为训练集, 另外 144 个说话人的语音作为神经网络的验证集. TIMIT 提供的 24 人的 core 测试集作为测试集. 各个集 之间无说话人重叠. 在特征提取部分,使用传 统 的 25 ms帧长、10 ms 帧移的方式提取特征. 40 维的梅尔 域滤波带系数作为特征输入,同时也包含其一阶和二 阶差分系数. 在送入卷积神经网络训练前,将多帧串 联构成长时特征. 所有特征都进行了逐句的均值方差 规整. 实验中采用各 5 帧,总 11 帧的串联长时特征. 卷积神经网络的训练采用一层卷积层 + 聚合层和 一层全网络层的结构. 为了与之对比,训练了深层神 经网络模型,采用的是两个隐含层结构,保证和卷积神 经网络的网络层数一致. 卷积神经网络和深层神经网 络的目标分类都为 183 个音素状态( 61 个音素,每个 音素三个状态) ,其输出层为该帧属于某个音素的后 验概率,通过贝叶斯公式将其转化成似然概率应用于 解码阶段. 在实验中,为了直接观察卷积神经网络在 声学建模上的性能,采用了不带语言模型的音素解码. 2. 2 实验结果 2. 2. 1 卷积神经网络和深层神经网络对比 表 1 给出了卷积神经网络和深层神经网络在不同 条件下的性能对比结果. 在特征方面,尝试了不使用 和使用一阶和二阶差分特征两种方式,分别对应表中 的“40 维特征”和“120 维特征”. 卷积神经网络的结 构为两个隐层: 第一个隐层为卷积层 + 聚合层,卷积器 种类为 100 种,对应两种不同特征时卷积器参数分别 为 11 × 8 和 33 × 8,聚合层为 3 个结点选择一个最大输 出的方式; 之后紧接一个 1024 结点的全网络隐 层. 基于 120 维特征输入的结构,卷积神经网络的总模 型大小为 2. 6 × 106 ,总计算量为 1. 6 × 106 次( 矩阵乘 法) . 深层神经网络也为两个隐层,每层都为 1024 结 点的全网络连接. 同样基于 120 维特征输入的结构, 深层神经网络的总模型大小为 10. 1 × 106 ,总计算量 为 2. 6 × 106 次( 矩阵乘法) . 对比看到,无论是模型 规模还是实际计算量,卷积神经网络都比深层神经 网络更小. 在这样的条件下,表 1 结果显示无论是选 择不使用或使用一阶和二阶差分特征,卷积神经网 络的帧正确率和音素正确率都稳定优于深层神经网 络; 并且,使用一阶和二阶差分特征会进一步提高模 型性能. 表 1 TIMIT 测试集上卷积神经网络和深层神经网络的参数和性能对比 Table 1 Performance comparisons between CNN and DNN on TIMIT corpus 模型 输入维数 卷积器个数 卷积器形状 聚合层 全连接隐层 帧正确率/% 音素正确率/% 卷积神经网络 40 100 11 × 8 1 × 3 1024 47. 6 61. 7 卷积神经网络 120 100 33 × 8 1 × 3 1024 53. 6 66. 3 深层神经网络 40 — — — 1024 × 1024 46. 3 60. 1 深层神经网络 120 — — — 1024 × 1024 51. 8 64. 6 在接下来的实验中,基于 120 维特征( 含一阶和二 阶差分特征) 输入,对卷积神经网络的卷积层和聚合 层进行了不同参数条件下的性能对比. 不同参数所对 应的物理意义不相同,通过实验寻找到用卷积神经网 络表征语音的最优方式. 2. 2. 2 卷积层 卷积神经网络通过卷积器对局部特征进行分析, 通过聚合层加强抽取出来的特征鲁棒性,最后通过全 ·1214·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有