正在加载图片...
张晴晴等:基于卷积神经网络的连续语音识别 1213· al neural networks,CNNs).卷积神经网络来源于20 的输入结点数,从而控制模型的复杂度.一般聚合层 世纪60年代对于猫脑皮层神经元的研究,它是一种多 采用最大聚合算法(max pooling),即对固定窗长内的 阶段全局可训练的人工神经网络模型,可以从经过少 结点选取最大值进行输出.最后,通过全网络层将聚 量预处理,甚至原始数据中学习到抽象的、本质的和高 合层输出值综合起来,得到最终的分类判决结果.这 阶的特征,在车牌检测、人脸检测、手体字识别、目标跟 种结构在图像处理中获得了较优的性能☒.卷积神 踪等领域得到了广泛的应用,是机器学习、计算机视觉 经网络相比深层神经网络等神经网络结构,引入三个 等领域研究的热点.最近的研究表明,卷积神经网络 重要的概念一局部卷积、聚合和权值共享可 在一些计算机视觉任务上取得了很好的结果,比如在 图1给出了卷积神经网络用于语音识别声学建模 手体字数据集和德国交通信号数据集上,甚至超过人 时,典型的卷积层和聚合层的结构.当二维图像作为 类识别准确率的两个数量级,引起了科研工作者的广 卷积神经网络的输入时,两个维度上特征的物理意义 泛关注可。同时,卷积神经网络的权值共享网络结构 是完全一样的.将语音看作二维特征输入时,第一维 使之更类似于生物神经网络面,降低了网络模型的复 是时域维度,第二维是频域维度,这两维的物理意义完 杂度,减少了权值的数量.由于这种网络结构对平移、 全不同.由于深层神经网络上实验证明,多帧串联的 比例缩放、倾斜或者共他形式的变形具有高度不变性, 长时特征对模型性能的提高非常重要,在卷积神经网 近年来在图像处理中得到了广泛的使用:2012年, 络的输入特征上,也保留了该方法,将当前帧的前后几 Krizhevsky等a使用卷积神经网络搭建的系统,在Ima- 帧串联起来构成长时特征.考虑到差分特征对静态特 geNet图像数据集中将分类错误率从25%下降到 征的补充关系,实验中将差分特征一起串联在长时特 17%;2014年,Facebook搭建的卷积神经网络系统在 征中,这样构成的特征作为卷积神经网络的第一维特 人脸验证上将正确率提高到97.25%(人眼辨识的正 征.在卷积神经网络的另一维一频域维度上,一般 确率是97.53%)仞.由于卷积神经网络卷积神经网络 采用梅尔域的滤波带系数(filterbank)作为参数(如 在计算机视觉、图像处理中成功应用,近两年来研究者 图1中选择N个滤波频带).卷积神经网络中卷积层 们开始将其应用到语音识别领域.2012年多伦多大学 的物理意义可以看做,通过卷积器对局部频域的特征 初步建立了卷积神经网络用于语音识别的模型结构, 观察,抽取出局部的有用信息(局部卷积).这里,将同 并同深层神经网络相比取得相对10%的性能提升网 一种卷积器作用在不同的滤波带上,每个滤波带包含 随后IBM和Microsoft也都与多伦多大学合作在2013 有当前帧该滤波带的系数,以及该滤波带上的长时特 年发表了相关文章,验证了卷积神经网络相对深层神 征,通过下式计算得到卷积器的输出: 经网络建模的有效性9o. c=( w以+a) (1) 与深层神经网络相比,卷积神经网络的关键在于 式中,,:为第i组输入特征矢量,w为第k个卷积器 引入了卷积和聚合(又作采样)的概念.卷积神经网络 的权值参数,s为卷积器的宽度,a,为网络偏置.通过 通过卷积实现对语音特征局部信息的抽取,再通过聚 将第i组输入和第k个卷积器做加权平均后,通过非 合加强模型对特征的鲁棒性.本文深入分析了卷积神 线性函数0得到卷积层的一个输出结点值,日一般选 经网络中卷积层和聚合层的不同结构对识别性能的影 择反正切函数或sigmoid函数 响情况,并与目前广泛使用的深层神经网络模型进行 采样层输出结点 P 了对比.相比深层神经网络,卷积神经网络能够在保 最大采样 证识别性能的同时,大幅度降低模型的复杂度(规 模).同时,卷积神经网络也具有更合理的物理意义, 卷积层输出结点 CC.C 由此降低对前段语音特征提取的依赖.本研究在标准 英文连续语音识别库TIMT)以及汉语电话自然口语 第组卷积器 对话数据集上面进行了实验,对卷积神经网络的输入 特征、卷积器尺寸和个数、计算量和模型规模等做了详 细的对比实验 频 频 长时特征 带 2 3 4 1 卷积神经网络 多 卷积神经网络由一组或多组卷积层+聚合层构 多 必 多顿串 成四.一个卷积层中包含若干个不同的卷积器,这些 联 联 联 联 卷积器对语音的各个局部特征进行观察.聚合层通过 图1 卷积神经网络中卷积层和最大聚合(采样)层的示例图 对卷积层的输出结点做固定窗长的聚合,减少下一层 Fig.I Diagram of the CNN convolution layer and max-pooling layers张晴晴等: 基于卷积神经网络的连续语音识别 al neural networks,CNNs) [4]. 卷积神经网络来源于 20 世纪 60 年代对于猫脑皮层神经元的研究,它是一种多 阶段全局可训练的人工神经网络模型,可以从经过少 量预处理,甚至原始数据中学习到抽象的、本质的和高 阶的特征,在车牌检测、人脸检测、手体字识别、目标跟 踪等领域得到了广泛的应用,是机器学习、计算机视觉 等领域研究的热点. 最近的研究表明,卷积神经网络 在一些计算机视觉任务上取得了很好的结果,比如在 手体字数据集和德国交通信号数据集上,甚至超过人 类识别准确率的两个数量级,引起了科研工作者的广 泛关注[5]. 同时,卷积神经网络的权值共享网络结构 使之更类似于生物神经网络[4],降低了网络模型的复 杂度,减少了权值的数量. 由于这种网络结构对平移、 比例缩放、倾斜或者共他形式的变形具有高度不变性, 近年来在图像处理中得到了广泛的使用: 2012 年, Krizhevsky 等[6]使用卷积神经网络搭建的系统,在 Ima￾geNet 图像数据集中将分类错 误率从 25% 下 降 到 17% ; 2014 年,Facebook 搭建的卷积神经网络系统在 人脸验证上将正确率提高到 97. 25% ( 人眼辨识的正 确率是 97. 53% ) [7]. 由于卷积神经网络卷积神经网络 在计算机视觉、图像处理中成功应用,近两年来研究者 们开始将其应用到语音识别领域. 2012 年多伦多大学 初步建立了卷积神经网络用于语音识别的模型结构, 并同深层神经网络相比取得相对 10% 的性能提升[8]. 随后 IBM 和 Microsoft 也都与多伦多大学合作在 2013 年发表了相关文章,验证了卷积神经网络相对深层神 经网络建模的有效性[9 - 10]. 与深层神经网络相比,卷积神经网络的关键在于 引入了卷积和聚合( 又作采样) 的概念. 卷积神经网络 通过卷积实现对语音特征局部信息的抽取,再通过聚 合加强模型对特征的鲁棒性. 本文深入分析了卷积神 经网络中卷积层和聚合层的不同结构对识别性能的影 响情况,并与目前广泛使用的深层神经网络模型进行 了对比. 相比深层神经网络,卷积神经网络能够在保 证识别 性 能 的 同 时,大 幅 度 降 低 模 型 的 复 杂 度 ( 规 模) . 同时,卷积神经网络也具有更合理的物理意义, 由此降低对前段语音特征提取的依赖. 本研究在标准 英文连续语音识别库 TIMIT [11]以及汉语电话自然口语 对话数据集上面进行了实验,对卷积神经网络的输入 特征、卷积器尺寸和个数、计算量和模型规模等做了详 细的对比实验. 1 卷积神经网络 卷积神经网络由一组或多组卷积层 + 聚合层构 成[4]. 一个卷积层中包含若干个不同的卷积器,这些 卷积器对语音的各个局部特征进行观察. 聚合层通过 对卷积层的输出结点做固定窗长的聚合,减少下一层 的输入结点数,从而控制模型的复杂度. 一般聚合层 采用最大聚合算法( max pooling) ,即对固定窗长内的 结点选取最大值进行输出. 最后,通过全网络层将聚 合层输出值综合起来,得到最终的分类判决结果. 这 种结构在图像处理中获得了较优的性能[12]. 卷积神 经网络相比深层神经网络等神经网络结构,引入三个 重要的概念———局部卷积、聚合和权值共享[5]. 图 1 给出了卷积神经网络用于语音识别声学建模 时,典型的卷积层和聚合层的结构. 当二维图像作为 卷积神经网络的输入时,两个维度上特征的物理意义 是完全一样的. 将语音看作二维特征输入时,第一维 是时域维度,第二维是频域维度,这两维的物理意义完 全不同. 由于深层神经网络上实验证明,多帧串联的 长时特征对模型性能的提高非常重要,在卷积神经网 络的输入特征上,也保留了该方法,将当前帧的前后几 帧串联起来构成长时特征. 考虑到差分特征对静态特 图 1 卷积神经网络中卷积层和最大聚合( 采样) 层的示例图 Fig. 1 Diagram of the CNN convolution layer and max-pooling layers 征的补充关系,实验中将差分特征一起串联在长时特 征中,这样构成的特征作为卷积神经网络的第一维特 征. 在卷积神经网络的另一维———频域维度上,一般 采用梅尔域的滤波带系数( filterbank) 作为参数( 如 图 1中选择 N 个滤波频带) . 卷积神经网络中卷积层 的物理意义可以看做,通过卷积器对局部频域的特征 观察,抽取出局部的有用信息( 局部卷积) . 这里,将同 一种卷积器作用在不同的滤波带上,每个滤波带包含 有当前帧该滤波带的系数,以及该滤波带上的长时特 征,通过下式计算得到卷积器的输出: Ci,k = θ ( ∑ s-1 b = 1 wb,k vT b + i + ak ) . ( 1) 式中,vT b + i为第 i 组输入特征矢量,wb,k为第 k 个卷积器 的权值参数,s 为卷积器的宽度,ak 为网络偏置. 通过 将第 i 组输入和第 k 个卷积器做加权平均后,通过非 线性函数 θ 得到卷积层的一个输出结点值,θ 一般选 择反正切函数或 sigmoid 函数. ·1213·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有