正在加载图片...
·424· 智能系统学报 第14卷 确判断家具所用木材质量的好坏或西瓜是否熟 目前,应用在跨模态检索中的方法有典型相关分 透,常常通过敲击其表面产生的声音来辅助判定。 析法-、偏最小二乘法0、耦合字典学习法川等。 引入声音模态在某些方面可以解决文本和图 对比其他方法,典型相关分析(canonical correla- 像信息量不足的问题。目前关于声音的检索 tion analysis,.CCA)因其简单高效的特点在跨模 技术大多涉及的是与语音和音乐相关的检索技 态检索领域应用十分广泛,文献[7]提出多标签 术,其中声音特征采用梅尔频率倒谱系数(Mel- 典型相关分析,可以处理多标签信息量大的数据 frequency cepstral coefficients,.MFCC)。梅尔频率 集的情况。文献[8]提出多视图典型相关分析方 倒谱系数模仿人耳的感知特性,该方法具有很 法,利用不同视图的互补和相关信息可以处理多 好的识别性和可靠性,是应用最广泛的声音特征 视图数据。文献「9]提出核典型相关分析,解决 之一。另一方面,图像特征采取卷积神经网络 了非线性情况下不同模态间相关性的问题。 然而,传统的典型相关分析在应用时要求两 (convolutional neural network,CNN)提取。卷积神 组变量间符合一一配对关系。当两组变量间出现 经网络的出现使得图像识别领域发展迅速,国外 多个对应关系或配对形式为组配对时,上述方法 已有研究将卷积神经网络应用于跨模态检索的图 将不再适用。针对上述情况,本文引入聚类典型 像特征提取向。 相关分析方法。首先使用梅尔频率倒谱系数声音 1跨模态检索 特征和卷积神经网络提取的图像特征,然后利用 聚类典型相关分析将两种特征映射到子空间并用 不同于相同模态之间的检索,在跨模态检索 欧氏距离进行检索,最后在慕尼黑工业大学触觉 中,检索结果和查询的模态是不同的。如何在不 纹理数据集上进行验证,实验结果表明所述方法 同模态之间建立相关性成为跨模态检索的关键。 适用于材质检索,具体流程如图1所示。 声音训练样本 图像训练样本 MFCC CNN 声音特征 图像特征 CCA 声音测试样本MFCS 声音特征 子空间投影向量 声音典型变量 +检索结果 图像检索样本 CNN 图像特征 图像典型变量 图1检索流程 Fig.1 The retrieval process 1.0 15 2声音和图像特征提取 0.5 10 本文的声音特征使用梅尔频率倒谱系数特 -0.5 征,图像特征使用卷积神经网络提取得到。 -1.0 10 00.040.080.120.160.20 10 20 30 40 2.1梅尔频率倒谱系数 ts 维度 (a)竹木声音信号 (©)竹木声音特征 梅尔频率倒谱系数是语音处理中最常用的特 1.0 15 征之一。文献[12]对敲击物体产生的声音提取梅 0.5 10 尔频率倒谱系数特征,并应用于声音的分类。本 0 文求得梅尔频率倒谱系数的一阶和二阶差分特征 0.5 -5 系数,结合标准梅尔频率倒谱系数),最终得到 -10 -10 00.040.080.120.160.20 0 10203040 39维梅尔频率倒谱系数特征。图2(a)、(b)所示 Us ,推度 (b)红色羊毛毡声音信号(d)红色羊毛毡声音特征 为训练集中敲击竹木和红色羊毛毡的声音时域信 号,图2(c)、(d)所示为经过上述过程得到的声音 图2竹木和红色羊毛毡声音信号和声音特征 特征。 Fig.2 Sound signals and features of bamboo and red fleece确判断家具所用木材质量的好坏或西瓜是否熟 透,常常通过敲击其表面产生的声音来辅助判定。 引入声音模态在某些方面可以解决文本和图 像信息量不足的问题。目前关于声音的检索 技术大多涉及的是与语音和音乐相关的检索技 术,其中声音特征采用梅尔频率倒谱系数 (Mel￾frequency cepstral coefficients,MFCC)。梅尔频率 倒谱系数模仿人耳的感知特性[5] ,该方法具有很 好的识别性和可靠性,是应用最广泛的声音特征 之一。另一方面,图像特征采取卷积神经网络 (convolutional neural network,CNN) 提取。卷积神 经网络的出现使得图像识别领域发展迅速,国外 已有研究将卷积神经网络应用于跨模态检索的图 像特征提取[6]。 1 跨模态检索 不同于相同模态之间的检索,在跨模态检索 中,检索结果和查询的模态是不同的。如何在不 同模态之间建立相关性成为跨模态检索的关键。 目前,应用在跨模态检索中的方法有典型相关分 析法[7-9] 、偏最小二乘法[10] 、耦合字典学习法[11] 等。 对比其他方法,典型相关分析 (canonical correla￾tion analysis,CCA ) 因其简单高效的特点在跨模 态检索领域应用十分广泛,文献 [7] 提出多标签 典型相关分析,可以处理多标签信息量大的数据 集的情况。文献 [8] 提出多视图典型相关分析方 法,利用不同视图的互补和相关信息可以处理多 视图数据。文献 [9] 提出核典型相关分析,解决 了非线性情况下不同模态间相关性的问题。 然而,传统的典型相关分析在应用时要求两 组变量间符合一一配对关系。当两组变量间出现 多个对应关系或配对形式为组配对时,上述方法 将不再适用。针对上述情况,本文引入聚类典型 相关分析方法。首先使用梅尔频率倒谱系数声音 特征和卷积神经网络提取的图像特征,然后利用 聚类典型相关分析将两种特征映射到子空间并用 欧氏距离进行检索,最后在慕尼黑工业大学触觉 纹理数据集上进行验证,实验结果表明所述方法 适用于材质检索,具体流程如图 1 所示。 声音训练样本 声音测试样本 图像训练样本 图像检索样本 声音特征 声音特征 图像特征 图像特征 子空间投影向量 MFCC MFCC CNN CNN CCA 声音典型变量 图像典型变量 检索结果 图 1 检索流程 Fig. 1 The retrieval process 2 声音和图像特征提取 本文的声音特征使用梅尔频率倒谱系数特 征,图像特征使用卷积神经网络提取得到。 2.1 梅尔频率倒谱系数 梅尔频率倒谱系数是语音处理中最常用的特 征之一。文献 [12] 对敲击物体产生的声音提取梅 尔频率倒谱系数特征,并应用于声音的分类。本 文求得梅尔频率倒谱系数的一阶和二阶差分特征 系数,结合标准梅尔频率倒谱系数[13] ,最终得到 39 维梅尔频率倒谱系数特征。图 2(a) 、(b) 所示 为训练集中敲击竹木和红色羊毛毡的声音时域信 号,图 2(c)、 (d) 所示为经过上述过程得到的声音 特征。 (a) 竹木声音信号 t/s 幅值 (b) 红色羊毛毡声音信号 1.0 −1.0 0.5 −0.5 0 0 0.04 0.08 0.12 0.16 维度 特征值 (c) 竹木声音特征 15 10 5 0 −5 −10 0 20 30 40 10 (d) 红色羊毛毡声音特征 维度 特征值 15 10 5 0 −5 −10 0 20 30 40 10 0.20 t/s 幅值 1.0 −1.0 0.5 −0.5 0 0 0.04 0.08 0.12 0.16 0.20 图 2 竹木和红色羊毛毡声音信号和声音特征 Fig. 2 Sound signals and features of bamboo and red fleece ·424· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有