正在加载图片...
张晴晴等:基于卷积神经网络的连续语音识别 *1215* 网络层建立模型得到最后的分类结果.在这个过程 从结果中看到,虽然随着卷积器形状的逐步细化,音素 中,由于卷积器肩负了直接对输入原始特征的分析、抽 正确率有所提高,但是幅度微弱.这说明卷积器的形 取过程,使得卷积器的设计成为卷积神经网络的重点. 状对性能的影响相对不明显,同时为了得到更好的泛 卷积器的参数有两个:卷积器个数和卷积器形状.下 化性,一般选择比较适中的卷积器形状, 面分别从这两个方面分析不同参数对分类性能的最终 表3TMT测试集上不同卷积器参数的卷积神经网络性能对比 影响。 Table 3 Performance comparisons between CNNs with different convo- 表2为在TMT测试集上不同卷积器个数的卷积 lution filter sizes on TIMIT corpus 神经网络性能对比,分别给出了各个模型的验证集帧 卷积器形状 帧正确率/% 音素正确率/% 正确率和测试集的音素正确率.在这组实验中,除了 33×8 53.6 66.3 卷积器个数不同以外,所有卷积神经网络的其他参数 33×5 53.8 66.7 都保持一致:卷积器形状33×5,聚合层1×4,全连接 33×2 53.8 66.9 单隐层1024,输出分类183类.随着卷积器个数从50 个逐步上升到200个,帧正确率和音素正确率都有稳 2.2.3聚合层 步的提升,特别是当卷积器从50个上升到100个时, 除卷积层以外,聚合层也是卷积神经网络结构的 性能有超过1%的提高,再继续增加卷积器个数到200 特点之一,聚合是为了加强模型的鲁棒性.通常语音 个时,性能基本没有变化.实验现象表明:不同卷积器 识别系统的性能会在不同环境、不同说话人等情况下 可以从不同的角度提取出不同的信息,如果个数太少, 受到影响,主要是由于不同的环境或说话人会使得频 则会导致提取的信息量受限,卷积神经网络的建模性 谱特征发生偏移.由于聚合本身是对相邻几个观察窗 能也就受到影响,所以在卷积神经网络中,要想更好地 的输出做最大值选择,相当于模糊语音特征,即使发生 表征语音特性,卷积器的个数不能太少(同时也不宜 偏移,也不影响最大值的选择,从而加强模型的鲁 太多.太多会增加计算量,并且性能已经基本饱和). 棒性。 表2TMT测试集上不同卷积器个数的卷积神经网络性能对比 表4给出了卷积器形状为33×5时不同聚合参数 Table2 Performance comparisons between CNNs with different numbers 下卷积神经网络性能.聚合层为1×1,表示不进行聚 of convolution filters on TIMIT corpus 合,每个观察窗的输出都将作为下层的输入送入训练 卷积器个数 帧正确率/% 音素正确率/% 相比表中的1×M(M>1)的聚合结构,不聚合的最终 50 53.1 65.7 识别性能明显变差(>2%),这个结果充分说明聚合 100 53.9 66.8 对性能保证的必要性.在使用聚合的结构中,M的选 150 54.1 67.1 择对最终的音素识别率影响非常微弱.考虑到M越 200 54.3 67.1 大,聚合层输出结点数就越少,全网络层的计算量和规 模也越小.为了有效控制模型的规模,实际中一般M 表3为在TMT测试集上不同卷积器形状的卷积 不会选的太小 神经网络性能对比.卷积器的形状主要是指对局部多 表4TMT测试集上不同聚合参数的卷积神经网络性能对比 大范围的特征进行观察,理论上观察得越细越有可能 Table 4 Performance comparisons between CNNs with different max- 发现局部的有用信息,但同时也可能会牺牲模型的泛 pooling structures on TIMIT corpus 化能力,使得在识别非匹配语音时效果变差.在这组 聚合层 帧正确率/% 音素正确率/% 实验中,除了卷积器形状不同以外,所有卷积神经网络 1×1 52.3 64.1 的其他参数都保持一致:卷积器个数100,聚合层1× 1×3 53.8 66.7 3,全连接单隐层1024,输出分类183类.表中对比了 1×4 53.9 66.8 33×A的卷积器形状对性能的最终影响.之所以固定 1×6 53.7 66.6 卷积器第一维参数为33,是考虑到输入的特征是11 帧串联,包含有0、1和2共三阶差分信息,这样构成了 2.2.4泛化性 33维参数.真正需要卷积器细节观察的应该是不同频 之前的实验都是基于单(卷积层+聚合层)+单 带上的特征分布.实验中选择40个频带的特征输入, (全网络隐层)的结构.由于神经网络的性能一般与训 当卷积器的第二维参数为A时,则表示这40个频带上 练数据量和模型规模成正比,所以试加大卷积神经网 每连续A个频带作为一个观察窗,送入卷积器抽取出 络的网络层数,并与同等层数的深层神经网络模型性 相应信息(频带窗移为1个频带的长度,也就是相邻两 能进行对比.选择两种典型的卷积神经网络结构:两 个观察窗有A-1的长度的频带交叠(overlapping)). 个(卷积层+聚合层)+单(全网络隐层)的结构:单张晴晴等: 基于卷积神经网络的连续语音识别 网络层建立模型得到最后的分类结果. 在这个过程 中,由于卷积器肩负了直接对输入原始特征的分析、抽 取过程,使得卷积器的设计成为卷积神经网络的重点. 卷积器的参数有两个: 卷积器个数和卷积器形状. 下 面分别从这两个方面分析不同参数对分类性能的最终 影响. 表 2 为在 TIMIT 测试集上不同卷积器个数的卷积 神经网络性能对比,分别给出了各个模型的验证集帧 正确率和测试集的音素正确率. 在这组实验中,除了 卷积器个数不同以外,所有卷积神经网络的其他参数 都保持一致: 卷积器形状 33 × 5,聚合层 1 × 4,全连接 单隐层 1024,输出分类 183 类. 随着卷积器个数从 50 个逐步上升到 200 个,帧正确率和音素正确率都有稳 步的提升,特别是当卷积器从 50 个上升到 100 个时, 性能有超过 1% 的提高,再继续增加卷积器个数到 200 个时,性能基本没有变化. 实验现象表明: 不同卷积器 可以从不同的角度提取出不同的信息,如果个数太少, 则会导致提取的信息量受限,卷积神经网络的建模性 能也就受到影响,所以在卷积神经网络中,要想更好地 表征语音特性,卷积器的个数不能太少( 同时也不宜 太多. 太多会增加计算量,并且性能已经基本饱和) . 表 2 TIMIT 测试集上不同卷积器个数的卷积神经网络性能对比 Table 2 Performance comparisons between CNNs with different numbers of convolution filters on TIMIT corpus 卷积器个数 帧正确率/% 音素正确率/% 50 53. 1 65. 7 100 53. 9 66. 8 150 54. 1 67. 1 200 54. 3 67. 1 表 3 为在 TIMIT 测试集上不同卷积器形状的卷积 神经网络性能对比. 卷积器的形状主要是指对局部多 大范围的特征进行观察,理论上观察得越细越有可能 发现局部的有用信息,但同时也可能会牺牲模型的泛 化能力,使得在识别非匹配语音时效果变差. 在这组 实验中,除了卷积器形状不同以外,所有卷积神经网络 的其他参数都保持一致: 卷积器个数 100,聚合层 1 × 3,全连接单隐层 1024,输出分类 183 类. 表中对比了 33 × A 的卷积器形状对性能的最终影响. 之所以固定 卷积器第一维参数为 33,是考虑到输入的特征是 11 帧串联,包含有 0、1 和 2 共三阶差分信息,这样构成了 33 维参数. 真正需要卷积器细节观察的应该是不同频 带上的特征分布. 实验中选择 40 个频带的特征输入, 当卷积器的第二维参数为 A 时,则表示这 40 个频带上 每连续 A 个频带作为一个观察窗,送入卷积器抽取出 相应信息( 频带窗移为1 个频带的长度,也就是相邻两 个观察窗有 A - 1 的长度的频带交叠( overlapping) ) . 从结果中看到,虽然随着卷积器形状的逐步细化,音素 正确率有所提高,但是幅度微弱. 这说明卷积器的形 状对性能的影响相对不明显,同时为了得到更好的泛 化性,一般选择比较适中的卷积器形状. 表 3 TIMIT 测试集上不同卷积器参数的卷积神经网络性能对比 Table 3 Performance comparisons between CNNs with different convo￾lution filter sizes on TIMIT corpus 卷积器形状 帧正确率/% 音素正确率/% 33 × 8 53. 6 66. 3 33 × 5 53. 8 66. 7 33 × 2 53. 8 66. 9 2. 2. 3 聚合层 除卷积层以外,聚合层也是卷积神经网络结构的 特点之一,聚合是为了加强模型的鲁棒性. 通常语音 识别系统的性能会在不同环境、不同说话人等情况下 受到影响,主要是由于不同的环境或说话人会使得频 谱特征发生偏移. 由于聚合本身是对相邻几个观察窗 的输出做最大值选择,相当于模糊语音特征,即使发生 偏移,也 不 影 响 最 大 值 的 选 择,从 而 加 强 模 型 的 鲁 棒性. 表 4 给出了卷积器形状为 33 × 5 时不同聚合参数 下卷积神经网络性能. 聚合层为 1 × 1,表示不进行聚 合,每个观察窗的输出都将作为下层的输入送入训练. 相比表中的 1 × M ( M > 1) 的聚合结构,不聚合的最终 识别性能明显变差( > 2% ) ,这个结果充分说明聚合 对性能保证的必要性. 在使用聚合的结构中,M 的选 择对最终的音素识别率影响非常微弱. 考虑到 M 越 大,聚合层输出结点数就越少,全网络层的计算量和规 模也越小. 为了有效控制模型的规模,实际中一般 M 不会选的太小. 表 4 TIMIT 测试集上不同聚合参数的卷积神经网络性能对比 Table 4 Performance comparisons between CNNs with different max￾pooling structures on TIMIT corpus 聚合层 帧正确率/% 音素正确率/% 1 × 1 52. 3 64. 1 1 × 3 53. 8 66. 7 1 × 4 53. 9 66. 8 1 × 6 53. 7 66. 6 2. 2. 4 泛化性 之前的实验都是基于单( 卷积层 + 聚合层) + 单 ( 全网络隐层) 的结构. 由于神经网络的性能一般与训 练数据量和模型规模成正比,所以试加大卷积神经网 络的网络层数,并与同等层数的深层神经网络模型性 能进行对比. 选择两种典型的卷积神经网络结构: 两 个( 卷积层 + 聚合层) + 单( 全网络隐层) 的结构; 单 ·1215·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有