确判断家具所用木材质量的好坏或西瓜是否熟透，常常通过敲击其表面产生的声音

正在加载图片...

·424· 智能系统学报第14卷确判断家具所用木材质量的好坏或西瓜是否熟目前，应用在跨模态检索中的方法有典型相关分透，常常通过敲击其表面产生的声音来辅助判定。析法-、偏最小二乘法0、耦合字典学习法川等。引入声音模态在某些方面可以解决文本和图对比其他方法，典型相关分析(canonical correla- 像信息量不足的问题。目前关于声音的检索 tion analysis,.CCA)因其简单高效的特点在跨模技术大多涉及的是与语音和音乐相关的检索技态检索领域应用十分广泛，文献[7]提出多标签术，其中声音特征采用梅尔频率倒谱系数(Mel- 典型相关分析，可以处理多标签信息量大的数据 frequency cepstral coefficients,.MFCC)。梅尔频率集的情况。文献[8]提出多视图典型相关分析方倒谱系数模仿人耳的感知特性，该方法具有很法，利用不同视图的互补和相关信息可以处理多好的识别性和可靠性，是应用最广泛的声音特征视图数据。文献「9]提出核典型相关分析，解决之一。另一方面，图像特征采取卷积神经网络了非线性情况下不同模态间相关性的问题。然而，传统的典型相关分析在应用时要求两 (convolutional neural network,CNN)提取。卷积神组变量间符合一一配对关系。当两组变量间出现经网络的出现使得图像识别领域发展迅速，国外多个对应关系或配对形式为组配对时，上述方法已有研究将卷积神经网络应用于跨模态检索的图将不再适用。针对上述情况，本文引入聚类典型像特征提取向。相关分析方法。首先使用梅尔频率倒谱系数声音 1跨模态检索特征和卷积神经网络提取的图像特征，然后利用聚类典型相关分析将两种特征映射到子空间并用不同于相同模态之间的检索，在跨模态检索欧氏距离进行检索，最后在慕尼黑工业大学触觉中，检索结果和查询的模态是不同的。如何在不纹理数据集上进行验证，实验结果表明所述方法同模态之间建立相关性成为跨模态检索的关键。适用于材质检索，具体流程如图1所示。声音训练样本图像训练样本 MFCC CNN 声音特征图像特征 CCA 声音测试样本MFCS 声音特征子空间投影向量声音典型变量 +检索结果图像检索样本 CNN 图像特征图像典型变量图1检索流程 Fig.1 The retrieval process 1.0 15 2声音和图像特征提取 0.5 10 本文的声音特征使用梅尔频率倒谱系数特 -0.5 征，图像特征使用卷积神经网络提取得到。 -1.0 10 00.040.080.120.160.20 10 20 30 40 2.1梅尔频率倒谱系数 ts 维度 (a)竹木声音信号 (©)竹木声音特征梅尔频率倒谱系数是语音处理中最常用的特 1.0 15 征之一。文献[12]对敲击物体产生的声音提取梅 0.5 10 尔频率倒谱系数特征，并应用于声音的分类。本 0 文求得梅尔频率倒谱系数的一阶和二阶差分特征 0.5 -5 系数，结合标准梅尔频率倒谱系数)，最终得到 -10 -10 00.040.080.120.160.20 0 10203040 39维梅尔频率倒谱系数特征。图2(a)、(b)所示 Us ,推度 (b)红色羊毛毡声音信号(d)红色羊毛毡声音特征为训练集中敲击竹木和红色羊毛毡的声音时域信号，图2(c)、(d)所示为经过上述过程得到的声音图2竹木和红色羊毛毡声音信号和声音特征特征。 Fig.2 Sound signals and features of bamboo and red fleece确判断家具所用木材质量的好坏或西瓜是否熟透，常常通过敲击其表面产生的声音来辅助判定。引入声音模态在某些方面可以解决文本和图像信息量不足的问题。目前关于声音的检索技术大多涉及的是与语音和音乐相关的检索技术，其中声音特征采用梅尔频率倒谱系数 (Melfrequency cepstral coefficients，MFCC)。梅尔频率倒谱系数模仿人耳的感知特性[5] ，该方法具有很好的识别性和可靠性，是应用最广泛的声音特征之一。另一方面，图像特征采取卷积神经网络 (convolutional neural network，CNN) 提取。卷积神经网络的出现使得图像识别领域发展迅速，国外已有研究将卷积神经网络应用于跨模态检索的图像特征提取[6]。 1 跨模态检索不同于相同模态之间的检索，在跨模态检索中，检索结果和查询的模态是不同的。如何在不同模态之间建立相关性成为跨模态检索的关键。目前，应用在跨模态检索中的方法有典型相关分析法[7-9] 、偏最小二乘法[10] 、耦合字典学习法[11] 等。对比其他方法，典型相关分析 (canonical correlation analysis，CCA ) 因其简单高效的特点在跨模态检索领域应用十分广泛，文献 [7] 提出多标签典型相关分析，可以处理多标签信息量大的数据集的情况。文献 [8] 提出多视图典型相关分析方法，利用不同视图的互补和相关信息可以处理多视图数据。文献 [9] 提出核典型相关分析，解决了非线性情况下不同模态间相关性的问题。然而，传统的典型相关分析在应用时要求两组变量间符合一一配对关系。当两组变量间出现多个对应关系或配对形式为组配对时，上述方法将不再适用。针对上述情况，本文引入聚类典型相关分析方法。首先使用梅尔频率倒谱系数声音特征和卷积神经网络提取的图像特征，然后利用聚类典型相关分析将两种特征映射到子空间并用欧氏距离进行检索，最后在慕尼黑工业大学触觉纹理数据集上进行验证，实验结果表明所述方法适用于材质检索，具体流程如图 1 所示。声音训练样本声音测试样本图像训练样本图像检索样本声音特征声音特征图像特征图像特征子空间投影向量 MFCC MFCC CNN CNN CCA 声音典型变量图像典型变量检索结果图 1 检索流程 Fig. 1 The retrieval process 2 声音和图像特征提取本文的声音特征使用梅尔频率倒谱系数特征，图像特征使用卷积神经网络提取得到。 2.1 梅尔频率倒谱系数梅尔频率倒谱系数是语音处理中最常用的特征之一。文献 [12] 对敲击物体产生的声音提取梅尔频率倒谱系数特征，并应用于声音的分类。本文求得梅尔频率倒谱系数的一阶和二阶差分特征系数，结合标准梅尔频率倒谱系数[13] ，最终得到 39 维梅尔频率倒谱系数特征。图 2(a) 、(b) 所示为训练集中敲击竹木和红色羊毛毡的声音时域信号，图 2(c)、 (d) 所示为经过上述过程得到的声音特征。 (a) 竹木声音信号 t/s 幅值 (b) 红色羊毛毡声音信号 1.0 −1.0 0.5 −0.5 0 0 0.04 0.08 0.12 0.16 维度特征值 (c) 竹木声音特征 15 10 5 0 −5 −10 0 20 30 40 10 (d) 红色羊毛毡声音特征维度特征值 15 10 5 0 −5 −10 0 20 30 40 10 0.20 t/s 幅值 1.0 −1.0 0.5 −0.5 0 0 0.04 0.08 0.12 0.16 0.20 图 2 竹木和红色羊毛毡声音信号和声音特征 Fig. 2 Sound signals and features of bamboo and red fleece ·424· 智能系统学报第 14 卷

<<向上翻页向下翻页>>

点击下载：【智能系统】视听觉跨模态表面材质检索