当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

【智能系统】视听觉跨模态表面材质检索

资源类别:文库,文档格式:PDF,文档页数:7,文件大小:4.53MB,团购合买
点击下载完整版文档(PDF)

第14卷第3期 智能系统学报 Vol.14 No.3 2019年5月 CAAI Transactions on Intelligent Systems May 2019 D0:10.11992/tis.201804030 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180928.2216.008.html 视听觉跨模态表面材质检索 刘卓锟,刘华平2,黄文美',王博文',孙富春2 (1.河北工业大学省部共建电工装备可靠性与智能化国家重点实验室,天津300130,2.清华大学智能技术与 系统国家重点实验室,北京100084) 摘要:针对文本图像特征有时无法满足对物体材质进行真实准确分析的情况,本文在视听领域使用跨模态检 索方法进行表面材质检索。首先提取声音的梅尔频率倒谱系数(MFCC)特征,使用卷积神经网络(CNN)提取 图像特征,然后利用典型相关分析将两种特征映射到子空间并用欧氏距离进行检索,并在慕尼黑工业大学触觉 纹理数据集上进行实验验证,实现了使用声音检索图像的跨模态检索过程。实验结果表明,所提出的方法在材 质检索方面有较好应用效果。 关键词:跨模态检索:特征提取;典型相关分析;子空间映射;材质分析:卷积神经网络;梅尔频率倒谱系数:欧 式距离 中图分类号:TP391文献标志码:A文章编号:1673-4785(2019)03-0423-07 中文引用格式:刘卓锟,刘华平,黄文美,等.视听觉跨模态表面材质检索.智能系统学报,2019,14(3):423-429. 英文引用格式:LIU Zhuokun,LIU Huaping,HUANG Wenmei,etal.Audiovisual cross-modal retrieval for surface materialJ. CAAI transactions on intelligent systems,2019,14(3):423-429. Audiovisual cross-modal retrieval for surface material LIU Zhuokun',LIU Huaping,HUANG Wenmei',WANG Bowen',SUN Fuchun' (1.State Key Laboratory of Reliability and Intelligence of Electrical Equipment,Hebei University of Technology,Tianjin 300130, China:2.State Key Lab of Intelligent Technology and Systems,Tsinghua University,Beijing 100084,China) Abstract:Text and image features sometimes do not allow for true and accurate analysis of the material.To solve this problem,a cross-modal method for surface material retrieval in an audiovisual field is proposed.First,the sound feature is extracted using mel frequency cepstral coefficients(MFCCs),and the image feature is extracted using convolutional neural network(CNN).Then,these two features are mapped to the subspace using canonical correlation analysis and are further retrieved via Euclidean distance.Experimental validation performed using the tactile texture dataset of the Tech- nical University of Munich showed that the proposed method has a good application effect on material retrieval. Keywords:cross-modal retrieval;feature extraction;canonical correlation analysis;subspace mapping;material analys- is;convolutional neural network;Mel-frequency cepstral coefficients;Euclidean distance 面对多媒体信息数据量的激增和模态复杂多的颜色、纹理等信息和文本对物体的描述有时不 样化的挑战,跨模态检索因其可以处理不同模态能带给我们足够的信息量,比如在网购过程中, 的数据成为国内外学者研究的重要课题。跨模态 消费者仅通过浏览购买商品的文字和图片信息, 检索应用得比较成熟的领域主要为计算机视觉、 有时不能在大脑完整地构建商品的特征信息,因 模式识别、文本图像检索等,其研究的重点依 而会购买到与需求不符的商品;在深海和太空探 然放在图像和文本两种模态之间。但是图像反映 索领域,由于视频和图像受环境因素影响较大, 收稿日期:2018-04-18.网络出版日期:2018-09-30 仅凭摄像机反馈回来的视频和图像不足以让人们 基金项目:国家自然科学基金重点项日(U1613212):河北省自 确定未知物体的材质信息;在日常生活中,当我 然科学基金项目(E2017202035). 通信作者:刘华平.E-mail:hpliu(@tsinghua.edu.cn 们购买家具或西瓜时,仅通过视觉信息并不能准

DOI: 10.11992/tis.201804030 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180928.2216.008.html 视听觉跨模态表面材质检索 刘卓锟1,刘华平2,黄文美1,王博文1,孙富春2 (1. 河北工业大学 省部共建电工装备可靠性与智能化国家重点实验室,天津 300130; 2. 清华大学 智能技术与 系统国家重点实验室,北京 100084) 摘 要:针对文本图像特征有时无法满足对物体材质进行真实准确分析的情况,本文在视听领域使用跨模态检 索方法进行表面材质检索。首先提取声音的梅尔频率倒谱系数 (MFCC) 特征,使用卷积神经网络 (CNN) 提取 图像特征,然后利用典型相关分析将两种特征映射到子空间并用欧氏距离进行检索,并在慕尼黑工业大学触觉 纹理数据集上进行实验验证,实现了使用声音检索图像的跨模态检索过程。实验结果表明,所提出的方法在材 质检索方面有较好应用效果。 关键词:跨模态检索;特征提取;典型相关分析;子空间映射;材质分析;卷积神经网络;梅尔频率倒谱系数;欧 式距离 中图分类号:TP 391 文献标志码:A 文章编号:1673−4785(2019)03−0423−07 中文引用格式:刘卓锟, 刘华平, 黄文美, 等. 视听觉跨模态表面材质检索 [J]. 智能系统学报, 2019, 14(3): 423–429. 英文引用格式:LIU Zhuokun, LIU Huaping, HUANG Wenmei, et al. Audiovisual cross-modal retrieval for surface material[J]. CAAI transactions on intelligent systems, 2019, 14(3): 423–429. Audiovisual cross-modal retrieval for surface material LIU Zhuokun1 ,LIU Huaping2 ,HUANG Wenmei1 ,WANG Bowen1 ,SUN Fuchun2 (1. State Key Laboratory of Reliability and Intelligence of Electrical Equipment, Hebei University of Technology, Tianjin 300130, China; 2. State Key Lab of Intelligent Technology and Systems, Tsinghua University, Beijing 100084, China) Abstract: Text and image features sometimes do not allow for true and accurate analysis of the material. To solve this problem, a cross-modal method for surface material retrieval in an audiovisual field is proposed. First, the sound feature is extracted using mel frequency cepstral coefficients (MFCCs), and the image feature is extracted using convolutional neural network (CNN). Then, these two features are mapped to the subspace using canonical correlation analysis and are further retrieved via Euclidean distance. Experimental validation performed using the tactile texture dataset of the Tech￾nical University of Munich showed that the proposed method has a good application effect on material retrieval. Keywords: cross-modal retrieval; feature extraction; canonical correlation analysis; subspace mapping; material analys￾is; convolutional neural network; Mel-frequency cepstral coefficients; Euclidean distance 面对多媒体信息数据量的激增和模态复杂多 样化的挑战,跨模态检索因其可以处理不同模态 的数据成为国内外学者研究的重要课题。跨模态 检索应用得比较成熟的领域主要为计算机视觉、 模式识别、文本图像检索等[1-4] ,其研究的重点依 然放在图像和文本两种模态之间。但是图像反映 的颜色、纹理等信息和文本对物体的描述有时不 能带给我们足够的信息量,比如在网购过程中, 消费者仅通过浏览购买商品的文字和图片信息, 有时不能在大脑完整地构建商品的特征信息,因 而会购买到与需求不符的商品;在深海和太空探 索领域,由于视频和图像受环境因素影响较大, 仅凭摄像机反馈回来的视频和图像不足以让人们 确定未知物体的材质信息;在日常生活中,当我 们购买家具或西瓜时,仅通过视觉信息并不能准 收稿日期:2018−04−18. 网络出版日期:2018−09−30. 基金项目:国家自然科学基金重点项目 (U1613212);河北省自 然科学基金项目 (E2017202035). 通信作者:刘华平. E-mail:hpliu@tsinghua.edu.cn. 第 14 卷第 3 期 智 能 系 统 学 报 Vol.14 No.3 2019 年 5 月 CAAI Transactions on Intelligent Systems May 2019

·424· 智能系统学报 第14卷 确判断家具所用木材质量的好坏或西瓜是否熟 目前,应用在跨模态检索中的方法有典型相关分 透,常常通过敲击其表面产生的声音来辅助判定。 析法-、偏最小二乘法0、耦合字典学习法川等。 引入声音模态在某些方面可以解决文本和图 对比其他方法,典型相关分析(canonical correla- 像信息量不足的问题。目前关于声音的检索 tion analysis,.CCA)因其简单高效的特点在跨模 技术大多涉及的是与语音和音乐相关的检索技 态检索领域应用十分广泛,文献[7]提出多标签 术,其中声音特征采用梅尔频率倒谱系数(Mel- 典型相关分析,可以处理多标签信息量大的数据 frequency cepstral coefficients,.MFCC)。梅尔频率 集的情况。文献[8]提出多视图典型相关分析方 倒谱系数模仿人耳的感知特性,该方法具有很 法,利用不同视图的互补和相关信息可以处理多 好的识别性和可靠性,是应用最广泛的声音特征 视图数据。文献「9]提出核典型相关分析,解决 之一。另一方面,图像特征采取卷积神经网络 了非线性情况下不同模态间相关性的问题。 然而,传统的典型相关分析在应用时要求两 (convolutional neural network,CNN)提取。卷积神 组变量间符合一一配对关系。当两组变量间出现 经网络的出现使得图像识别领域发展迅速,国外 多个对应关系或配对形式为组配对时,上述方法 已有研究将卷积神经网络应用于跨模态检索的图 将不再适用。针对上述情况,本文引入聚类典型 像特征提取向。 相关分析方法。首先使用梅尔频率倒谱系数声音 1跨模态检索 特征和卷积神经网络提取的图像特征,然后利用 聚类典型相关分析将两种特征映射到子空间并用 不同于相同模态之间的检索,在跨模态检索 欧氏距离进行检索,最后在慕尼黑工业大学触觉 中,检索结果和查询的模态是不同的。如何在不 纹理数据集上进行验证,实验结果表明所述方法 同模态之间建立相关性成为跨模态检索的关键。 适用于材质检索,具体流程如图1所示。 声音训练样本 图像训练样本 MFCC CNN 声音特征 图像特征 CCA 声音测试样本MFCS 声音特征 子空间投影向量 声音典型变量 +检索结果 图像检索样本 CNN 图像特征 图像典型变量 图1检索流程 Fig.1 The retrieval process 1.0 15 2声音和图像特征提取 0.5 10 本文的声音特征使用梅尔频率倒谱系数特 -0.5 征,图像特征使用卷积神经网络提取得到。 -1.0 10 00.040.080.120.160.20 10 20 30 40 2.1梅尔频率倒谱系数 ts 维度 (a)竹木声音信号 (©)竹木声音特征 梅尔频率倒谱系数是语音处理中最常用的特 1.0 15 征之一。文献[12]对敲击物体产生的声音提取梅 0.5 10 尔频率倒谱系数特征,并应用于声音的分类。本 0 文求得梅尔频率倒谱系数的一阶和二阶差分特征 0.5 -5 系数,结合标准梅尔频率倒谱系数),最终得到 -10 -10 00.040.080.120.160.20 0 10203040 39维梅尔频率倒谱系数特征。图2(a)、(b)所示 Us ,推度 (b)红色羊毛毡声音信号(d)红色羊毛毡声音特征 为训练集中敲击竹木和红色羊毛毡的声音时域信 号,图2(c)、(d)所示为经过上述过程得到的声音 图2竹木和红色羊毛毡声音信号和声音特征 特征。 Fig.2 Sound signals and features of bamboo and red fleece

确判断家具所用木材质量的好坏或西瓜是否熟 透,常常通过敲击其表面产生的声音来辅助判定。 引入声音模态在某些方面可以解决文本和图 像信息量不足的问题。目前关于声音的检索 技术大多涉及的是与语音和音乐相关的检索技 术,其中声音特征采用梅尔频率倒谱系数 (Mel￾frequency cepstral coefficients,MFCC)。梅尔频率 倒谱系数模仿人耳的感知特性[5] ,该方法具有很 好的识别性和可靠性,是应用最广泛的声音特征 之一。另一方面,图像特征采取卷积神经网络 (convolutional neural network,CNN) 提取。卷积神 经网络的出现使得图像识别领域发展迅速,国外 已有研究将卷积神经网络应用于跨模态检索的图 像特征提取[6]。 1 跨模态检索 不同于相同模态之间的检索,在跨模态检索 中,检索结果和查询的模态是不同的。如何在不 同模态之间建立相关性成为跨模态检索的关键。 目前,应用在跨模态检索中的方法有典型相关分 析法[7-9] 、偏最小二乘法[10] 、耦合字典学习法[11] 等。 对比其他方法,典型相关分析 (canonical correla￾tion analysis,CCA ) 因其简单高效的特点在跨模 态检索领域应用十分广泛,文献 [7] 提出多标签 典型相关分析,可以处理多标签信息量大的数据 集的情况。文献 [8] 提出多视图典型相关分析方 法,利用不同视图的互补和相关信息可以处理多 视图数据。文献 [9] 提出核典型相关分析,解决 了非线性情况下不同模态间相关性的问题。 然而,传统的典型相关分析在应用时要求两 组变量间符合一一配对关系。当两组变量间出现 多个对应关系或配对形式为组配对时,上述方法 将不再适用。针对上述情况,本文引入聚类典型 相关分析方法。首先使用梅尔频率倒谱系数声音 特征和卷积神经网络提取的图像特征,然后利用 聚类典型相关分析将两种特征映射到子空间并用 欧氏距离进行检索,最后在慕尼黑工业大学触觉 纹理数据集上进行验证,实验结果表明所述方法 适用于材质检索,具体流程如图 1 所示。 声音训练样本 声音测试样本 图像训练样本 图像检索样本 声音特征 声音特征 图像特征 图像特征 子空间投影向量 MFCC MFCC CNN CNN CCA 声音典型变量 图像典型变量 检索结果 图 1 检索流程 Fig. 1 The retrieval process 2 声音和图像特征提取 本文的声音特征使用梅尔频率倒谱系数特 征,图像特征使用卷积神经网络提取得到。 2.1 梅尔频率倒谱系数 梅尔频率倒谱系数是语音处理中最常用的特 征之一。文献 [12] 对敲击物体产生的声音提取梅 尔频率倒谱系数特征,并应用于声音的分类。本 文求得梅尔频率倒谱系数的一阶和二阶差分特征 系数,结合标准梅尔频率倒谱系数[13] ,最终得到 39 维梅尔频率倒谱系数特征。图 2(a) 、(b) 所示 为训练集中敲击竹木和红色羊毛毡的声音时域信 号,图 2(c)、 (d) 所示为经过上述过程得到的声音 特征。 (a) 竹木声音信号 t/s 幅值 (b) 红色羊毛毡声音信号 1.0 −1.0 0.5 −0.5 0 0 0.04 0.08 0.12 0.16 维度 特征值 (c) 竹木声音特征 15 10 5 0 −5 −10 0 20 30 40 10 (d) 红色羊毛毡声音特征 维度 特征值 15 10 5 0 −5 −10 0 20 30 40 10 0.20 t/s 幅值 1.0 −1.0 0.5 −0.5 0 0 0.04 0.08 0.12 0.16 0.20 图 2 竹木和红色羊毛毡声音信号和声音特征 Fig. 2 Sound signals and features of bamboo and red fleece ·424· 智 能 系 统 学 报 第 14 卷

第3期 刘卓锟,等:视听觉跨模态表面材质检索 ·425· 2.2卷积神经网络 (3) 近年来,卷积神经网铬已经被广泛地应用于 图像的识别检测领域。本文选用的网络为预先训 sn-y (4) 练好的AlexNet网络向,包含5个卷积层和3个完 全连接层。将图片分辨率调整为256×256输入到 通过构造拉格朗日等式,在约束条件 文献[6]所述模型之中,最终得到4096维图像特 ω,TExxω,=1和ω,TEwω,=1下,找到合适的投影向 征。图3(a)、(b)所示为训练集中敲击竹木和红色 量w.和w,使U和V的相关性达到最大化: 羊毛毡的图片,图3(c)、()所示为经过上述过程 得到的图像特征。 L=w.2n4,-2w.'xw-l)-2o,n4,-l0(5 式中:L为构造的拉格朗日函数;1和0为引入的系 数变量。 将求解转化为常规的特征值问题,ω,和ω,可 以通过其对应最大特征值的特征向量找到: ExExEEYx=R@ (6) 3.2改进的典型相关分析 (a)竹木图片 (b)红色羊毛毡图片 o 10 当样本变量不再是一一对应关系时,雅虎和 微软研究院的Rasiwasia等改进典型相关分析, -5 -10 提出均值典型相关分析(mean canonical correla- -20 -2 tion analysis,MCCA)和聚类典型相关分析 -25 25.h4送 01000200030004000 01000200030004000 (cluster canonical correlation analysis,CCCA), 维度 维度 (©)竹木图像特征 (d)红色羊毛毡图像特征 的子空间对应关系如图4所示,不同的形状代 图3竹木和红色羊毛毡图片和图像特征 表不同的种类,相同形状代表同一种类中的不同 Fig.3 Image features of bamboo and red fleece 物体。 3典型相关分析 典型相关分析作为一种灵活有效、可扩展能 △ G-- ● 力强的数据分析方法,在跨模态检索领域占据着 (a)CCA 重要地位。典型相关分析不仅可以最大化两组变 量在投影空间的相关性,还能对复杂特征进行降 ■● ● 维处理。本文使用这种方法对声音特征和图像特 征进行相关性分析处理。 (b)MCCA 3.1典型相关分析基本原理 使用典型相关分析对声音特征矩阵X=[x A x2xJ和图像特征矩阵Y=y1y2yJ进行处理。 将X和Y表示为各自特征的线性组合,U=ωTX 88a 和V=w,TY,通过研究U和V的关系来代替X和 (c)CCCA Y的关系,U和V的相关系数p表达式为 图43种方法的子空间对应关系 ωExY@,T Fig.4 The subspace correspondences of the three methods P= (1) Vw.2xxw)V(ω,TEww, 对于本文使用的声音数据集X=[X,X2 式中:ω,和ω,为两组变量对应的投影向量;∑xx和 X和图像数据集Y=Y,Y2Yc],其中C表示数据 w分别表示特征集X和Y的协方差矩阵;xw表 集的总类别数,X和Y是属于类别c对应的数据 示X和Y的互协方差矩阵: X、Y的子集。 X=[5…] (7) Ex=- (2) Y.=b听5… (8) 式中:X和Y份别为相应第c类数据个数

2.2 卷积神经网络 近年来,卷积神经网络已经被广泛地应用于 图像的识别检测领域。本文选用的网络为预先训 练好的 AlexNet 网络[6] ,包含 5 个卷积层和 3 个完 全连接层。将图片分辨率调整为 256×256 输入到 文献 [6] 所述模型之中,最终得到 4 096 维图像特 征。 图 3(a)、 (b) 所示为训练集中敲击竹木和红色 羊毛毡的图片,图 3(c)、 (d) 所示为经过上述过程 得到的图像特征。 (a) 竹木图片 (b) 红色羊毛毡图片 (c) 竹木图像特征 10 5 0 −5 −10 −15 −20 −25 1 000 2 000 维度 特征值 0 3 000 4 000 (d) 红色羊毛毡图像特征 10 5 0 −5 −10 −15 −20 −25 1 000 2 000 维度 特征值 0 3 000 4 000 图 3 竹木和红色羊毛毡图片和图像特征 Fig. 3 Image features of bamboo and red fleece 3 典型相关分析 典型相关分析作为一种灵活有效、可扩展能 力强的数据分析方法,在跨模态检索领域占据着 重要地位。典型相关分析不仅可以最大化两组变 量在投影空间的相关性,还能对复杂特征进行降 维处理。本文使用这种方法对声音特征和图像特 征进行相关性分析处理。 3.1 典型相关分析基本原理 ··· ··· U = ωx TX V = ωy TY ρ 使用典型相关分析对声音特征矩阵 X=[x 1 x2 xn ] 和图像特征矩阵 Y=[y1 y2 yn ] 进行处理。 将 X 和 Y 表示为各自特征的线性组合, 和 ,通过研究 U 和 V 的关系来代替 X 和 Y 的关系,U 和 V 的相关系数 表达式为 ρ = ωx TΣXYωy T √ (ωx TΣXXωx) √ (ωy TΣYYωy) (1) ωx ωy ΣXX ΣYY ΣXY 式中: 和 为两组变量对应的投影向量; 和 分别表示特征集 X 和 Y 的协方差矩阵; 表 示 X 和 Y 的互协方差矩阵: ΣXY= 1 n ∑n p=1 xp y T p (2) ΣXX= 1 n ∑n p=1 xp x T p (3) ΣYY= 1 n ∑n p=1 yp y T p (4) ωx TΣXXωx= 1 ωy TΣYYωy= 1 ωx ωy 通过构造拉格朗日等式,在约束条件 和 下,找到合适的投影向 量 和 ,使 U 和 V 的相关性达到最大化: L = ωx TΣXYωy− λ 2 (ωx TΣXXωx−1)− θ 2 (ωy TΣYYωy−1) (5) 式中:L 为构造的拉格朗日函数; λ 和 θ 为引入的系 数变量。 将求解转化为常规的特征值问题, ωx和 ωy可 以通过其对应最大特征值的特征向量找到: Σ −1 XXΣXYΣ −1 YYΣYX = λ 2ω (6) 3.2 改进的典型相关分析 当样本变量不再是一一对应关系时,雅虎和 微软研究院的 Rasiwasia 等 [14] 改进典型相关分析, 提出均值典型相关分析 (mean canonical correla￾tion analysis, MCCA ) 和聚类典型相关分析 (cluster canonical correlation analysis,CCCA ),相应 的子空间对应关系如图 4 所示,不同的形状代 表不同的种类,相同形状代表同一种类中的不同 物体。 (a) CCA (b) MCCA (c) CCCA 图 4 3 种方法的子空间对应关系 Fig. 4 The subspace correspondences of the three methods ··· ··· Xc Yc 对于本文使用的声音数据 集 X= [X1 X2 XC] 和图像数据集 Y=[Y1 Y2 YC],其中 C 表示数据 集的总类别数, 和 是属于类别 c 对应的数据 X、Y 的子集。 Xc = [x c 1 x c 2 ··· x c |Xc | ] (7) Yc = [y c 1 y c 2 ··· y c |Yc | ] (8) |Xc | |Yc 式中: 和 | 分别为相应第 c 类数据个数。 第 3 期 刘卓锟,等:视听觉跨模态表面材质检索 ·425·

·426· 智能系统学报 第14卷 3.2.1均值典型相关分析 均值典型相关分析较为简单,首先求得每个 22 (15) 子集的平均值,然后求得投影向量来建立子集均 值之间的相关关系,最后寻找相关系数最大时的 R产号23xr (16) 投影向量,即 @sTMxyω,T :T为建立对应关系的总对数,T=∑X p= (9) Vω.Mxxw,)Vω,Mw, 其中,M、Ma和Mw定义分别为 4实验结果及分析 Mn-22u0r (10) 本实验所用的数据集为慕尼黑工业大学建立 c=1 的触觉纹理数据集。数据集中包含108种不同 的物体,按照材质和表面特征分为固体网状物、 (11) 石头、玻璃陶瓷、木材、橡胶、纤维、泡沫、塑料纸 =1 片、纺织面料等九大类,具体每类物体的图像如 Mn=e24ggr (12) 图5所示,图5中数字表示该类材质第一个物体 的起始位置。训练集包括声音集和图片集,声音 式中:、4为相应的第c类子集的平均值,= 集中每个声音样本由一个人敲击待测物体表面 1 1次所得,其长度为0.2s。将108种待测物体每 3.2.2聚类典型相关分析 种重复敲击10次,共得到1080个声音样本。图片 聚类典型相关分析不再建立子集间均值的关 集每张图片分辨率为320×480,在不打开闪光灯 系,而是建立子集中每一个数据点和对应子集所 情况下,同样由一个人重复拍摄待测物体10次所 有数据点的关系,此时相关系数表达式为 得,共得到1080张图片样本。测试集数据数量和 样本大小与训练集相同,不同之处在于采集数据 @:RxY@y =Vo.Rxxw@,Rr0,) (13) 的过程有所差别,测试集中声音和图片样本不是 由同一个人重复10次完成,而是由10个不同的 其中,Rx、Rx和Rw定义如下: 人每人采集1次所得。整个数据集的特点是采集 15兴 Rw=72之220明 (14) 数据的过程均为人工完成,没有施加约束条件, c=1=1=1 例如敲击物体表面时,没有限制施加力的大小。 图5数据集中包含的所有材料 Fig.5 Materials included in the data set 根据第2章得到的39维声音特征和4096维 模态信息检索。常用的信息检索的评价指标有查 图像特征,应用于第3节所述典型相关分析方法, 准率P、查全率R和平均准确率(mean average pre- 找到训练集中声音特征和图像特征典型相关分析 cision,MAP)等。PR曲线比较直观地显示出检索 子空间,然后将测试集中的声音特征和图像特征 效果的好坏,MAP则考虑到检索结果的排名情 映射到典型相关分析的子空间,即可使用子空间 况。PR曲线与坐标轴围成的面积越大,MAP值 的声音特征去检索图像特征,通过计算欧氏距离 越高,则检索效果越好。本文使用MAP和PR曲 度量样本特征的相似性。 线对RCCA(同种物体声音图像随机匹配)、MCCA 实验最终在测试集上执行从声音到图像的跨 和CCCA3种方法的实验结果进行评价。图6所

3.2.1 均值典型相关分析 均值典型相关分析较为简单,首先求得每个 子集的平均值,然后求得投影向量来建立子集均 值之间的相关关系,最后寻找相关系数最大时的 投影向量,即 ρ = ωx TMXYωy T √ (ωx TMXXωx) √ (ωy TMYYωy) (9) 其中,MXY、MXX 和 MYY 定义分别为 MXY= 1 C ∑C c=1 µ c x (µ c y ) T (10) MXX= 1 C ∑C c=1 µ c x (µ c x ) T (11) MYY= 1 C ∑C c=1 µ c y (µ c y ) T (12) µ c x µ c y µ c x= 1 |Xc | ∑ |Xc | i=1 x c i µ c y= 1 |Yc | ∑ |Yc | j=1 y c j 式中: 、 为相应的第 c 类子集的平均值, , 。 3.2.2 聚类典型相关分析 聚类典型相关分析不再建立子集间均值的关 系,而是建立子集中每一个数据点和对应子集所 有数据点的关系,此时相关系数表达式为 ρ = ωx TRXYωy T √ (ωx TRXXωx) √ (ωy TRYYωy) (13) 其中,RXY、RXX 和 RYY 定义如下: RXY= 1 T ∑C c=1 ∑ |Xc | i=1 ∑ |Yc | j=1 x c i (y c j ) T (14) RXX= 1 T ∑C c=1 ∑ |Xc | i=1 |Yc | x c i (x c i ) T (15) RYY= 1 T ∑C c=1 ∑ |Yc | j=1 |Xc | y c j (y c j ) T (16) T= ∑C c=1 |Xc | |Yc 式中:T 为建立对应关系的总对数, |。 4 实验结果及分析 本实验所用的数据集为慕尼黑工业大学建立 的触觉纹理数据集[15]。数据集中包含 108 种不同 的物体,按照材质和表面特征分为固体网状物、 石头、玻璃陶瓷、木材、橡胶、纤维、泡沫、塑料纸 片、纺织面料等九大类,具体每类物体的图像如 图 5 所示,图 5 中数字表示该类材质第一个物体 的起始位置。训练集包括声音集和图片集,声音 集中每个声音样本由一个人敲击待测物体表面 1 次所得,其长度为 0.2 s。将 108 种待测物体每 种重复敲击 10 次,共得到 1 080 个声音样本。图片 集每张图片分辨率为 320×480,在不打开闪光灯 情况下,同样由一个人重复拍摄待测物体 10 次所 得,共得到 1 080 张图片样本。测试集数据数量和 样本大小与训练集相同,不同之处在于采集数据 的过程有所差别,测试集中声音和图片样本不是 由同一个人重复 10 次完成,而是由 10 个不同的 人每人采集 1 次所得。整个数据集的特点是采集 数据的过程均为人工完成,没有施加约束条件, 例如敲击物体表面时,没有限制施加力的大小。 1 14 23 32 45 50 65 77 92 图 5 数据集中包含的所有材料 Fig. 5 Materials included in the data set 根据第 2 章得到的 39 维声音特征和 4 096 维 图像特征,应用于第 3 节所述典型相关分析方法, 找到训练集中声音特征和图像特征典型相关分析 子空间,然后将测试集中的声音特征和图像特征 映射到典型相关分析的子空间,即可使用子空间 的声音特征去检索图像特征,通过计算欧氏距离 度量样本特征的相似性。 实验最终在测试集上执行从声音到图像的跨 模态信息检索。常用的信息检索的评价指标有查 准率 P、查全率 R 和平均准确率 (mean average pre￾cision,MAP) 等。PR 曲线比较直观地显示出检索 效果的好坏,MAP 则考虑到检索结果的排名情 况。PR 曲线与坐标轴围成的面积越大,MAP 值 越高,则检索效果越好。本文使用 MAP 和 PR 曲 线对 RCCA (同种物体声音图像随机匹配)、MCCA 和 CCCA 3 种方法的实验结果进行评价。图 6 所 ·426· 智 能 系 统 学 报 第 14 卷

第3期 刘卓锟,等:视听觉跨模态表面材质检索 ·427· 示为3种不同方法的MAP值的大小随子空间维 的数据集中的数据不符合传统意义上的一一配对 度的变化,从图6可以得到,子空间维度为5时, 关系,RCCA和MCCA的检索效果不如CCCA。 3种方法效果最好,且CCCA的MAP值明显优于 其他2种方法。 0.6 -CCCA 0.5 0.25 ·-RCCA MCCA 0.4 0.20 。◆ =0.3 0.15 0.2 0.1 0.05 -CCCA -RCCA ▲-MCCA 0 0.10.20.30.40.50.60.70.80.91.0 02345678910 查全率 维度 图7PR曲线 图6不同方法的MAP值随子空间维度的变化 Fig.7 PR curve Fig.6 Variation of the MAP of different methods with 图8所示为数据集中纤维、泡沫和塑料3种 subspace dimensions 材料图像和声音数据的低维映射,其中蓝色代表 图7所示为子空间维度为5时,3种方法的 纤维,黄色代表泡沫,红色代表塑料。从图8中可 PR曲线,从中可以看出,CCCA的PR曲线与坐标 以看出,CCCA对这3类材料的区分度要强于 轴围成的面积最大,检索效果最好。由于所使用 RCCA的效果。 2.0 2.0 1.5 1.5 1.0 1.0 0.5 0.5 0 0 -0.5 -0.5 -1.0 -1.0 -1.5 -1.5 -2 -2. -2.0-1.5-1.0-0.500.51.01.52.0 2.0-1.5-1.0-0.500.51.01.52.0 (a)RCCA图像 (b)RCCA声音 2.0 2.0 1.5 1.0 1.0 0.5 =0 0 -0.5 -0.5 -1.0 -1.0 -1.5 -1.5 -2.0L -2.0 -2.0-1.5-1.0-0.500.51.01.52.0 -2.0-1.5-1.0-0.500.51.01.52.0 (C)CCCA图像 (d)CCCA声音 图83种材料的低维映射图 Fig.8 Low-dimensional mapping of three materials 表1为3种方法下不同材质类别的MAP大 沫等)好,这主要由于本文所使用的声音数据是 小,图9为对应的柱形图。整体结果显示,本文引由敲击物体表面所得,而实验过程中待测物体放 入的CCCA在硬质材质(固体网状物、石头、玻璃 置在实验台上,采集数据时容易受到实验台影 陶瓷等)的检索效果比软质材料(橡胶、纤维、泡 响。特别是,CCCA在石头这类材料测试中的表

示为 3 种不同方法的 MAP 值的大小随子空间维 度的变化,从图 6 可以得到,子空间维度为 5 时, 3 种方法效果最好,且 CCCA 的 MAP 值明显优于 其他 2 种方法。 1 2 3 4 5 6 7 8 9 10 0 0.05 0.10 0.15 0.20 0.25 平均准确率 维度 CCCA RCCA MCCA 图 6 不同方法的 MAP 值随子空间维度的变化 Fig. 6 Variation of the MAP of different methods with subspace dimensions 图 7 所示为子空间维度为 5 时,3 种方法的 PR 曲线,从中可以看出,CCCA 的 PR 曲线与坐标 轴围成的面积最大,检索效果最好。由于所使用 的数据集中的数据不符合传统意义上的一一配对 关系,RCCA 和 MCCA 的检索效果不如 CCCA。 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.1 0.2 0.3 0.4 0.5 0.6 查准率 查全率 CCCA RCCA MCCA 图 7 PR 曲线 Fig. 7 PR curve 图 8 所示为数据集中纤维、泡沫和塑料 3 种 材料图像和声音数据的低维映射,其中蓝色代表 纤维,黄色代表泡沫,红色代表塑料。从图 8 中可 以看出,CCCA 对这 3 类材料的区分度要强于 RCCA 的效果。 −2.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 2.0 −2.0 −1.5 −1.0 −0.5 0 0.5 y x y y y x x x 1.0 1.5 2.0 (a) RCCA 图像 −2.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 2.0 −2.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 2.0 (b) RCCA 声音 −2.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 2.0 −2.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 2.0 (c) CCCA 图像 −2.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 2.0 −2.0 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 2.0 (d) CCCA 声音 图 8 3 种材料的低维映射图 Fig. 8 Low-dimensional mapping of three materials 表 1 为 3 种方法下不同材质类别的 MAP 大 小,图 9 为对应的柱形图。整体结果显示,本文引 入的 CCCA 在硬质材质 (固体网状物、石头、玻璃 陶瓷等) 的检索效果比软质材料 (橡胶、纤维、泡 沫等) 好,这主要由于本文所使用的声音数据是 由敲击物体表面所得,而实验过程中待测物体放 置在实验台上,采集数据时容易受到实验台影 响。特别是,CCCA 在石头这类材料测试中的表 第 3 期 刘卓锟,等:视听觉跨模态表面材质检索 ·427·

·428· 智能系统学报 第14卷 现尤为出色,MAP值达到0.32,比RCCA和MCCA 到右依次为落叶松木、纺织网、石瓦片、铝板、樱 高50%。 桃树木、压缩木板、落叶松木、山毛榉木、压缩木 表1不同材质类别的MAP 材、银橡木。从实验结果可以看出,与测试集竹 Table 1 MAP of different categories of material 木样本最相似的10个结果有7个和测试样本属 材质类别 CCCA RCCA MCCA 于同一类别,检索正确率达到70%,可见CCCA 固体网状物 0.30 0.21 0.19 在木材类材质识别效果较好。 石头 0.26 0.13 0.13 0.35 CCCA 玻璃陶瓷 0.26 0.24 0.13 0.30 ☐RCCA MCCA 木材 0.32 0.23 0.19 0.25 橡胶 020 0.09 0.09 0.09 0.15 纤维 0.24 0.18 0.20 0.10 泡沫 0.15 0.13 0.13 0.05 塑料纸片 0.19 0.16 0.17 0 纺织面料 0.26 0.19 0.19 黄 图10(a)所示为测试集一个竹木图片,图 材质 10(b)为敲击这种竹木的声音样本,使用CCCA进 图9不同材质类别的MAP 行检索,检索得到图10(c)所示的10张图片,从左 Fig.9 MAP of different categories of material 1.0 0.5 0 -0.5 -1.0 0 0.040.080.120.160.20 (a)竹木图片 (b)声音样本 (c)检索结果 图10使用竹木声音样本的检索结果 Fig.10 Retrieval result of bamboo sound sample 像特征与典型相关分析方法,将跨模态检索方法 5结束语 应用于材质检索领域,在慕尼黑工业大学触觉纹 理数据集上取得较好效果。虽然通过实验验证该 本文跨越不同模态之间的限制,结合声音图 方法目前的效果存在一定的局限性,但随着不同

现尤为出色, MAP 值达到 0.32,比 RCCA 和 MCCA 高 50%。 表 1 不同材质类别的 MAP Table 1 MAP of different categories of material 材质类别 CCCA RCCA MCCA 固体网状物 0.30 0.21 0.19 石头 0.26 0.13 0.13 玻璃陶瓷 0.26 0.24 0.13 木材 0.32 0.23 0.19 橡胶 0.09 0.09 0.09 纤维 0.24 0.18 0.20 泡沫 0.15 0.13 0.13 塑料纸片 0.19 0.16 0.17 纺织面料 0.26 0.19 0.19 图 10(a ) 所示为测试集一个竹木图片,图 10(b) 为敲击这种竹木的声音样本,使用 CCCA 进 行检索,检索得到图 10(c) 所示的 10 张图片,从左 到右依次为落叶松木、纺织网、石瓦片、铝板、樱 桃树木、压缩木板、落叶松木、山毛榉木、压缩木 材、银橡木。从实验结果可以看出,与测试集竹 木样本最相似的 10 个结果有 7 个和测试样本属 于同一类别,检索正确率达到 70%,可见 CCCA 在木材类材质识别效果较好。 0 0.05 0.10 0.15 0.20 0.25 0.30 0.35 平均准确率 材质 CCCA RCCA MCCA 固体网状物 石头 玻璃陶瓷 木材 橡胶 纤维 泡沫 塑料纸片 纺织面料 图 9 不同材质类别的 MAP Fig. 9 MAP of different categories of material 0 0.04 0.08 0.12 0.16 0.20 −1.0 −0.5 0 0.5 1.0 (a) 竹木图片 (b) 声音样本 t/s 幅值 (c) 检索结果 图 10 使用竹木声音样本的检索结果 Fig. 10 Retrieval result of bamboo sound sample 5 结束语 本文跨越不同模态之间的限制,结合声音图 像特征与典型相关分析方法,将跨模态检索方法 应用于材质检索领域,在慕尼黑工业大学触觉纹 理数据集上取得较好效果。虽然通过实验验证该 方法目前的效果存在一定的局限性,但随着不同 ·428· 智 能 系 统 学 报 第 14 卷

第3期 刘卓锟,等:视听觉跨模态表面材质检索 ·429· 模态信息的不断加入和特征提取的方法不断改 al[C]//Proceedings of the 19th IEEE International Confer- 进,未来该方法的应用前景必定更加广阔。 ence on Image Processing.Orlando,USA,2013:1949. 1952. 参考文献: [11]MANDAL D.BISWAS S.Generalized coupled diction- [1]MANDAL D,BISWAS S.Query specific re-ranking for ary learning approach with applications to cross-modal improved cross-modal retrieval[J].Pattern Recognition matching[J].IEEE transactions on image processing, Letters,2017,98:110-116. 2016,25(8):3826-3837. [2]WANG Kaiye,HE Ran,WANG Liang,et al.Joint feature [12]STRESE M,SCHUWERK C,IEPURE A,et al.Mul- selection and subspace learning for cross-modal retrieval timodal feature-based surface material classification[J]. [J].IEEE transactions on pattern analysis and machine in- IEEE transactions on haptics,2017,10(2):226-239. telligence,2016,38(10):2010-2023 [13]CAO Jiuwen,ZHAO Tuo,WANG Jianzhong,et al.Ex- [3]DENG Cheng,TANG Xu,YAN Junchi,et al.Discriminat- cavation equipment classification based on improved ive dictionary learning with common label alignment for MFCC features and ELM[J].Neurocomputing,2017,261: cross-modal retrieval[J].IEEE transactions on multimedia, 231-241 2016,18(2):208-218. [14]RASIWASIA N.MAHAJAN D,MAHADEVAN V,et al. [4]ZHANG Liang,MA Bingpeng,LI Guorong,et al.Metric Cluster canonical correlation analysis[Cl//Proceedings of based on multi-order spaces for cross-modal retrieval[C]// the Seventeenth International Conference on Artificial In- Proceedings of 2017 IEEE International Conference on telligence and Statistics.Reykjavik,Iceland,2014:823-831. Multimedia and Expo.Hong Kong,China,2017:1374- [15]STRESE M,BOECK Y,STEINBACH E.Content-based 1379 surface material retrieval[C]//Proceedings of 2017 IEEE [s]张毅,谢延义,罗元,等.一种语音特征提取中Ml倒谱 World Haptics Conference.Munich,Germany,2017:352-357 系数的后处理算法[J).智能系统学报,2016,11(2): 208-215. 作者简介: ZHANG Yi,XIE Yanyi,LUO Yuan,et al.Postprocessing 刘卓锟,男,1994年生,硕士研究 method of MFCC in speech feature extraction[J].CAAI 生,主要研究方向为新型磁性材料与 transactions on intelligent systems,2016,11(2):208-215. 器件、触觉感知与模式识别。 [6]WEI Yunchao,ZHAO Yao,LU Canyi,et al.Cross-modal retrieval with CNN visual features:a new baseline[J]. IEEE transactions on cybernetics,2017.47(2):449-460. [7]RANJAN V.RASIWASIA N.JAWAHAR C V.Multi-la- bel cross-modal retrieval[C]//Proceedings of 2015 IEEE 刘华平,男.1976年生,副教授 International Conference on Computer Vision.Santiago, 博士生导师,IEEE Senior Member、中 国人工智能学会理事,中国人工智能 Chile,.2015:4094-4102 学会认知系统与信息处理专业委员会 [8]SHARMA A.KUMAR A.DAUME H.et al.Generalized 秘书长,主要研究方向为机器人感知」 multiview analysis:a discriminative latent space[C]//Pro- 学习与控制、多模态信息融合。主持 ceedings of 2012 IEEE Conference on Computer Vision 国家自然科学基金5项。发表学术论 and Pattern Recognition.Providence,USA,2012:2160- 文200余篇,被SCI检索100余篇。 2167 [9]HARDOON D R,SZEDMAK S.SHAWE-TAYLOR J. 黄文美,女,1969年生,教授,主要研 究方向为磁性材料与器件、电机及其 Canonical correlation analysis:an overview with applica- 控制技术。完成国家自然科学基金项 tion to learning methods[J].Neural Computation,2004, 目4项、河北省自然科学基金项目 16(12:2639-2664 2项。发表学术论文40余篇,被SC1、 [10]CHEN Yongming,WANG Liang,WANG Wei,et al. EI、ISTP检索20余篇。 Continuum regression for cross-modal multimedia retriev-

模态信息的不断加入和特征提取的方法不断改 进,未来该方法的应用前景必定更加广阔。 参考文献: MANDAL D, BISWAS S. Query specific re-ranking for improved cross-modal retrieval[J]. Pattern Recognition Letters, 2017, 98: 110–116. [1] WANG Kaiye, HE Ran, WANG Liang, et al. Joint feature selection and subspace learning for cross-modal retrieval [J]. IEEE transactions on pattern analysis and machine in￾telligence, 2016, 38(10): 2010–2023. [2] DENG Cheng, TANG Xu, YAN Junchi, et al. Discriminat￾ive dictionary learning with common label alignment for cross-modal retrieval[J]. IEEE transactions on multimedia, 2016, 18(2): 208–218. [3] ZHANG Liang, MA Bingpeng, LI Guorong, et al. Metric based on multi-order spaces for cross-modal retrieval[C]// Proceedings of 2017 IEEE International Conference on Multimedia and Expo. Hong Kong, China, 2017: 1374- 1379. [4] 张毅, 谢延义, 罗元, 等. 一种语音特征提取中 Mel 倒谱 系数的后处理算法 [J]. 智能系统学报, 2016, 11(2): 208–215. ZHANG Yi, XIE Yanyi, LUO Yuan, et al. Postprocessing method of MFCC in speech feature extraction[J]. CAAI transactions on intelligent systems, 2016, 11(2): 208–215. [5] WEI Yunchao, ZHAO Yao, LU Canyi, et al. Cross-modal retrieval with CNN visual features: a new baseline[J]. IEEE transactions on cybernetics, 2017, 47(2): 449–460. [6] RANJAN V, RASIWASIA N, JAWAHAR C V. Multi-la￾bel cross-modal retrieval[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 4094-4102. [7] SHARMA A, KUMAR A, DAUME H, et al. Generalized multiview analysis: a discriminative latent space[C]//Pro￾ceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA, 2012: 2160- 2167. [8] HARDOON D R, SZEDMAK S, SHAWE-TAYLOR J. Canonical correlation analysis: an overview with applica￾tion to learning methods[J]. Neural Computation, 2004, 16(12): 2639–2664. [9] CHEN Yongming, WANG Liang, WANG Wei, et al. Continuum regression for cross-modal multimedia retriev- [10] al[C]//Proceedings of the 19th IEEE International Confer￾ence on Image Processing. Orlando, USA, 2013: 1949- 1952. MANDAL D, BISWAS S. Generalized coupled diction￾ary learning approach with applications to cross-modal matching[J]. IEEE transactions on image processing, 2016, 25(8): 3826–3837. [11] STRESE M, SCHUWERK C, IEPURE A, et al. Mul￾timodal feature-based surface material classification[J]. IEEE transactions on haptics, 2017, 10(2): 226–239. [12] CAO Jiuwen, ZHAO Tuo, WANG Jianzhong, et al. Ex￾cavation equipment classification based on improved MFCC features and ELM[J]. Neurocomputing, 2017, 261: 231–241. [13] RASIWASIA N, MAHAJAN D, MAHADEVAN V, et al. Cluster canonical correlation analysis[C]//Proceedings of the Seventeenth International Conference on Artificial In￾telligence and Statistics. Reykjavik, Iceland, 2014: 823-831. [14] STRESE M, BOECK Y, STEINBACH E. Content-based surface material retrieval[C]//Proceedings of 2017 IEEE World Haptics Conference. Munich, Germany, 2017: 352-357. [15] 作者简介: 刘卓锟,男,1994 年生,硕士研究 生,主要研究方向为新型磁性材料与 器件、触觉感知与模式识别。 刘华平,男,1976 年生,副教授, 博士生导师,IEEE Senior Member、中 国人工智能学会理事,中国人工智能 学会认知系统与信息处理专业委员会 秘书长,主要研究方向为机器人感知、 学习与控制、多模态信息融合。主持 国家自然科学基金 5 项。发表学术论 文 200 余篇,被 SCI 检索 100 余篇。 黄文美,女,1969 年生,教授,主要研 究方向为磁性材料与器件、电机及其 控制技术。完成国家自然科学基金项 目 4 项、河北省自然科学基金项目 2 项。发表学术论文 40 余篇,被 SCI、 EI、ISTP 检索 20 余篇。 第 3 期 刘卓锟,等:视听觉跨模态表面材质检索 ·429·

点击下载完整版文档(PDF)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
已到末页,全文结束
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有