第11卷第4期 智能系统学报 Vol.11 No.4 2016年8月 CAAI Transactions on Intelligent Systems Aug.2016 D0I:10.11992/6is.201606004 网络出版地址:http:/www.cnki.net/kcms/detail/23.1538.TP.20160808.0831.024.html 基于视觉注意机制和条件随机场的图像标注 孙庆美,金聪 (华中师范大学计算机学院,湖北武汉430079) 摘要:传统的图像标注方法对图像各个区域同等标注,忽视了人们对图像的理解方式。为此提出了基于视觉注意 机制和条件随机场的图像标注方法。首先,由于人们在对图像认识的过程中,对显著区域会有较多的关注,因此通过 视觉注意机制来取得图像的显著区域,用支持向量机对显著区域赋予语义标签;再利用NN聚类算法对非显著区 域进行标注:最后,又由于显著区域的标注词与非显著区域的标注词在逻辑上存在一定的关联性,因此条件随机场 模型可以根据标注词的关联性校正并确定图像的最终标注向量。在Corels5k,IAPR TC-l2和ESP Game图像库上进 行实验并且和其他方法进行比较,从平均查准率、平均查全率和F,的实验结果验证了本文方法的有效性。 关键词:自动图像标注:视觉注意:词相关性:条件随机场 中图分类号:TP391文献标志码:A文章编号:1673-4785(2016)04-0442-07 中文引用格式:孙庆美,金聪.基于视觉注意机制和条件随机场的图像标注[J].智能系统学报,2016,11(4):442-448. 英文引用格式:SUN Qingmei,JIN Cong.mage annotation method based on visual attention mechanism and conditional random field[J].CAAI Transactions on Intelligent Systems,2016,11(4):442-448. Image annotation method based on visual attention mechanism and conditional random field SUN Qingmei,JIN Cong (School of Computer,Central China Normal University,Wuhan 430079,China) Abstract:Traditional image annotation methods interpret all image regions equally,neglecting any understanding of the image.Therefore,an image annotation method based on the visual attention mechanism and conditional random field,called VAMCRF,is proposed.Firstly,people pay more attention to image salient regions during the process of image recognition;this can be achieved through the visual attention mechanism and the support vector machine is then used to assign semantic labels.It then labels the non-salient regions using a k-NN clustering algorithm.Final- ly,as the annotations of salient and non-salient regions are logically related,the ultimate label vector of the image can be corrected and determined by a conditional random field (CRF)model and inter-word correlation.From the values of average precision,average recall,and F1,the experimental results on Corel5k,IAPR TC-12,and ESP Game confirm that the proposed method is efficient compared with traditional annotation methods. Keywords:automatic image annotation:visual attention mechanism;inter-word correlation;conditional random fields 随着互联网的不断发展以及移动终端的迅速发 像库中快速有效地找到想要的图像,已经成为了一 展,图像数据不断扩大。图像数据大规模的增长对 个亟待解决且具有很大挑战性的任务。而图像标注 图像理解技术提出了更高的要求。如何从巨大的图 技术是数字图像语义文本信息的关键技术,在数字 图像处理的各个方面有着广泛的应用四。 收稿日期:2016-06-02.网络出版日期:2016-08-08. 基金项目:国家社会科学基金项目(13BTQ050). 图像标注技术就是为给定的图像分配相对应的 通信作者:金聪.E-mail:inc26@aliyun.com. 语义关键词以反映其内容)。早些年的图像标注
第 11 卷第 4 期 智 能 系 统 学 报 Vol.11 №.4 2016 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2016 DOI:10.11992 / tis.201606004 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160808.0831.024.html 基于视觉注意机制和条件随机场的图像标注 孙庆美,金聪 (华中师范大学 计算机学院,湖北 武汉 430079) 摘 要:传统的图像标注方法对图像各个区域同等标注,忽视了人们对图像的理解方式。 为此提出了基于视觉注意 机制和条件随机场的图像标注方法。 首先,由于人们在对图像认识的过程中,对显著区域会有较多的关注,因此通过 视觉注意机制来取得图像的显著区域,用支持向量机对显著区域赋予语义标签;再利用 k⁃NN 聚类算法对非显著区 域进行标注;最后,又由于显著区域的标注词与非显著区域的标注词在逻辑上存在一定的关联性,因此条件随机场 模型可以根据标注词的关联性校正并确定图像的最终标注向量。 在 Corel5k、IAPR TC⁃12 和 ESP Game 图像库上进 行实验并且和其他方法进行比较,从平均查准率、平均查全率和 F1的实验结果验证了本文方法的有效性。 关键词:自动图像标注;视觉注意;词相关性;条件随机场 中图分类号: TP391 文献标志码:A 文章编号:1673-4785(2016)04-0442-07 中文引用格式:孙庆美,金聪. 基于视觉注意机制和条件随机场的图像标注[J]. 智能系统学报, 2016, 11(4): 442-448. 英文引用格式:SUN Qingmei, JIN Cong. Image annotation method based on visual attention mechanism and conditional random field[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 442-448. Image annotation method based on visual attention mechanism and conditional random field SUN Qingmei, JIN Cong (School of Computer, Central China Normal University, Wuhan 430079, China) Abstract:Traditional image annotation methods interpret all image regions equally, neglecting any understanding of the image. Therefore, an image annotation method based on the visual attention mechanism and conditional random field, called VAMCRF, is proposed. Firstly, people pay more attention to image salient regions during the process of image recognition; this can be achieved through the visual attention mechanism and the support vector machine is then used to assign semantic labels. It then labels the non⁃salient regions using a k⁃NN clustering algorithm. Final⁃ ly, as the annotations of salient and non⁃salient regions are logically related, the ultimate label vector of the image can be corrected and determined by a conditional random field (CRF) model and inter⁃word correlation. From the values of average precision, average recall, and F1, the experimental results on Corel5k, IAPR TC⁃12, and ESP Game confirm that the proposed method is efficient compared with traditional annotation methods. Keywords: automatic image annotation; visual attention mechanism; inter⁃word correlation; conditional random fields 收稿日期:2016-06-02. 网络出版日期:2016-08-08. 基金项目:国家社会科学基金项目(13BTQ050). 通信作者:金聪. E⁃mail: jinc26@ aliyun.com. 随着互联网的不断发展以及移动终端的迅速发 展,图像数据不断扩大。 图像数据大规模的增长对 图像理解技术提出了更高的要求。 如何从巨大的图 像库中快速有效地找到想要的图像,已经成为了一 个亟待解决且具有很大挑战性的任务。 而图像标注 技术是数字图像语义文本信息的关键技术,在数字 图像处理的各个方面有着广泛的应用[1] 。 图像标注技术就是为给定的图像分配相对应的 语义关键词以反映其内容[2] 。 早些年的图像标注
第4期 孙庆美,等:基于视觉注意机制和条件随机场的图像标注 .443. 技术需要专业人员根据每幅图像的语义给出关键 在使用本文所提算法之前要先对图像进行预处 词,但那样的方法会消耗大量时间并且带有一定的 理,然后使用基于视觉注意机制和条件随机场算法 主观性。因此近几年来,有不少的研究者将注意力 对图像进行标注。算法主要流程如下: 转移到图像的自动标注技术上来。就当下的自动标 输入训练图像和测试图像的混合图像集; 注方法而言大致可以分为两类:1)基于生成式的图 输出所有图像对应的标签集。 像自动标注方法3);2)基于判别式的图像自动标 1)使用支持向量机对显著区域进行识别并标注: 注方法[s。前者主要是先对后验概率建模,然后 2)对于非显著区域,结合训练图像库的图像与 依据统计的角度表示数据的分布情况,以此来反映 标签关系进行标注: 同类数据本身的相似度。文献[3]就属于该模型, 3)使用条件随机场模型对每幅图像的标签进 它将标注问题转化成一个将视觉语言翻译为文本的 行优化。 过程,再收集图像与概念之间的关系以此来计算图 1.1显著区域的提取 像各个区域的翻译概率。文献[4]提出的跨媒体相 当人们看一幅图像时,注意力更多地放在显著 关模型,将分割得到的团块进行聚类,得到可视化词 区域而不是非显著区域。图像的显著区域指的是在 汇,然后建立图像和语义关键词之间的概率相关模 一幅图像中最能引起人们视觉兴趣的部分,图像的 型,估计图像区域集合与关键词集合总体的联合分 显著区域和图像要表达的含义往往一致。充分利用 布。与此类似的方法还包括基于连续图像特征的相 这一点能提高图像标注的准确率。基于此,本文选 关模型,该类方法也存在一定的问题,如当遇到图像 择先对显著区域进行标注,然后标注非显著区域。 过分割和欠分割的时候标注性能大大降低,虽然可 这种方法可以消除非显著区域对显著区域的影响, 以通过改进算法来提高标注结果,但这样增加了计 由此获得更好的标注效果。 算的复杂性,不具备在真实环境应用的条件。另外, 在图像处理方面,很多获取图像显著区域的模 可以构建图像特征与标注词之间的关系模型,然而 型已被提出。例如,文献[7]提出了一种显著区域 该模型一般情况下复杂度较高,而且无法确定主题 的获取方法,它主要结合像素特征和贝叶斯算法。 的个数。而后者则是通过寻找不同类别之间的最优 文献[8]提出了一种视觉显著性检测算法,它将生 分类超平面,从而反映异构数据之间的不同。也就 成性和区分性两种模型结合在一个统一的框架中。 是说,该模型为每个类训练一个分类器,以此来判断 这些区域通常具有较大的共同特征,面积相对较大 测试图像是否属于这个类。文献[2]提出了MRES- 且亮度更高。因此本文提出一个新的方法来提取显 VM算法,即一个基于映射化简的可扩展的分布式 著区域,也就是视觉注意机制。定义如下: 集成支持向量机算法的图像标注。为了克服单一支 在利用N-cut算法对图像分割后,根据视觉注 持向量机的局限性,利用重采样对训练集进行训练, 意机制求得图像的每个区域的权重。视觉注意机制 建立了一种支持向量机集成方法。在文献[5-6]中 模型为 提到的方法也属于判别模型。这两者既有优点又有 W=w·Area+(1-w)·Brightness(1) 缺点。相比之下,判别式模型可以实现更好的性能。 式中:W表示图像中每个区域的显著度;ω表示权 已有的图像标注方法没有得到较好的标注准确率, 重。为获得图像的显著区域,本文通过大量实验来 主要是由于它们使用的图像内容描述方法和人们对 得到ω。计算并比较各个区域的显著度W的大小, 图像的理解方式相距甚远。实际上,当人们看一幅 W值最大的区域就是该图像的显著区域。模型(1) 图像的时候,不会把注意力平均分配到图像的各个 中各参数的意义如下: 区域,而是会有选择地把注意力集中到显著区域。 a)面积参数Area。在该模型中,Area是参数之 由此本文提出了一种基于视觉注意机制和条件随机 一,一般情况下,面积越大的区域越能引起人们的注 场的图像自动标注方法。 意,但是不能过大,过大面积的区域会使得显著度降 低。具体计算式为 1显著区域的标注过程 Area S./S (2) 本文使用的图像标注算法,主要是将传统依据 式中:S表示每幅图像中第i个区域的像素个数;S 底层特征的标注方法和人们认识图像的方式结合在 表示整幅图像的像素个数。 一起,然后又利用标签之间的共生关系对标注词进 b)亮度参数Brightness。亮度参数是获得显著 行校正,得到最终标注词。 区域最重要的参数。HSV颜色模型比较直观,在图
技术需要专业人员根据每幅图像的语义给出关键 词,但那样的方法会消耗大量时间并且带有一定的 主观性。 因此近几年来,有不少的研究者将注意力 转移到图像的自动标注技术上来。 就当下的自动标 注方法而言大致可以分为两类:1)基于生成式的图 像自动标注方法[3-4] ;2) 基于判别式的图像自动标 注方法[5-6] 。 前者主要是先对后验概率建模,然后 依据统计的角度表示数据的分布情况,以此来反映 同类数据本身的相似度。 文献[3] 就属于该模型, 它将标注问题转化成一个将视觉语言翻译为文本的 过程,再收集图像与概念之间的关系以此来计算图 像各个区域的翻译概率。 文献[4]提出的跨媒体相 关模型,将分割得到的团块进行聚类,得到可视化词 汇,然后建立图像和语义关键词之间的概率相关模 型,估计图像区域集合与关键词集合总体的联合分 布。 与此类似的方法还包括基于连续图像特征的相 关模型,该类方法也存在一定的问题,如当遇到图像 过分割和欠分割的时候标注性能大大降低,虽然可 以通过改进算法来提高标注结果,但这样增加了计 算的复杂性,不具备在真实环境应用的条件。 另外, 可以构建图像特征与标注词之间的关系模型,然而 该模型一般情况下复杂度较高,而且无法确定主题 的个数。 而后者则是通过寻找不同类别之间的最优 分类超平面,从而反映异构数据之间的不同。 也就 是说,该模型为每个类训练一个分类器,以此来判断 测试图像是否属于这个类。 文献[2]提出了 MRES⁃ VM 算法,即一个基于映射化简的可扩展的分布式 集成支持向量机算法的图像标注。 为了克服单一支 持向量机的局限性,利用重采样对训练集进行训练, 建立了一种支持向量机集成方法。 在文献[5-6]中 提到的方法也属于判别模型。 这两者既有优点又有 缺点。 相比之下,判别式模型可以实现更好的性能。 已有的图像标注方法没有得到较好的标注准确率, 主要是由于它们使用的图像内容描述方法和人们对 图像的理解方式相距甚远。 实际上,当人们看一幅 图像的时候,不会把注意力平均分配到图像的各个 区域,而是会有选择地把注意力集中到显著区域。 由此本文提出了一种基于视觉注意机制和条件随机 场的图像自动标注方法。 1 显著区域的标注过程 本文使用的图像标注算法,主要是将传统依据 底层特征的标注方法和人们认识图像的方式结合在 一起,然后又利用标签之间的共生关系对标注词进 行校正,得到最终标注词。 在使用本文所提算法之前要先对图像进行预处 理,然后使用基于视觉注意机制和条件随机场算法 对图像进行标注。 算法主要流程如下: 输入 训练图像和测试图像的混合图像集; 输出 所有图像对应的标签集。 1)使用支持向量机对显著区域进行识别并标注; 2)对于非显著区域,结合训练图像库的图像与 标签关系进行标注; 3)使用条件随机场模型对每幅图像的标签进 行优化。 1.1 显著区域的提取 当人们看一幅图像时,注意力更多地放在显著 区域而不是非显著区域。 图像的显著区域指的是在 一幅图像中最能引起人们视觉兴趣的部分,图像的 显著区域和图像要表达的含义往往一致。 充分利用 这一点能提高图像标注的准确率。 基于此,本文选 择先对显著区域进行标注,然后标注非显著区域。 这种方法可以消除非显著区域对显著区域的影响, 由此获得更好的标注效果。 在图像处理方面,很多获取图像显著区域的模 型已被提出。 例如,文献[7]提出了一种显著区域 的获取方法,它主要结合像素特征和贝叶斯算法。 文献[8]提出了一种视觉显著性检测算法,它将生 成性和区分性两种模型结合在一个统一的框架中。 这些区域通常具有较大的共同特征,面积相对较大 且亮度更高。 因此本文提出一个新的方法来提取显 著区域,也就是视觉注意机制。 定义如下: 在利用 N⁃cut 算法对图像分割后,根据视觉注 意机制求得图像的每个区域的权重。 视觉注意机制 模型为 W = ω·Area + (1 - ω)·Brightness (1) 式中:W 表示图像中每个区域的显著度; ω 表示权 重。 为获得图像的显著区域,本文通过大量实验来 得到 ω 。 计算并比较各个区域的显著度 W 的大小, W 值最大的区域就是该图像的显著区域。 模型(1) 中各参数的意义如下: a)面积参数 Area。 在该模型中,Area 是参数之 一,一般情况下,面积越大的区域越能引起人们的注 意,但是不能过大,过大面积的区域会使得显著度降 低。 具体计算式为 Area = Si / S (2) 式中:Si表示每幅图像中第 i 个区域的像素个数;S 表示整幅图像的像素个数。 b)亮度参数 Brightness。 亮度参数是获得显著 区域最重要的参数。 HSV 颜色模型比较直观,在图 第 4 期 孙庆美,等:基于视觉注意机制和条件随机场的图像标注 ·443·
.444 智能系统学报 第11卷 像处理方面是一种比较常见的模型。定义一个区域 的亮度为该区域和图像其他区域HSV值的方差,用 以,b.a)=IwI2- ∑a(y.(wx,+b)-1) 式(3)计算。也就是说,先计算图像中所有区域 (5) HSV的平均值,然后计算每个区域HSV的值,最后 通过对w和b求解,计算出拉格朗日函数的极 取得各个区域的亮度值。具体公式为 小值。再利用KKT条件对分类决策函数求出最优 Brightness =(m:-m)2 (3) 解,最终结果为 式中:m是图像的各个区域亮度的平均值,m:是第i f代x)=sgm(∑ay.(x,·x)+b) (6) 个区域的亮度值。 1.2显著区域的标注 式中:α·为最优解,b·为分类的阈值。 每一幅图像中都包含不等个数的区域,这些区 分类时先提取测试图像的显著区域,然后提取 域或简单或复杂、或大或小,而它们都有不一样的语 图像显著区域的特征值,构成特征向量输入到训练 义。传统的标注方法中,对图像的各个区域同等对 好的支持向量机分类器中,得到每个显著区域的标 待,而事实上人们往往把更多的注意力集中在显著 注词。 区域。所以可以利用式(1)求出每幅图像的显著区 2非显著区域的标注过程 域进行单独标注,对非显著区域的区域在后续的步 骤中进行标注。 对图像的非显著区域进行标注时,本文将带有 标签的图像区域引入对其进行标注。本文将未被标 在对显著区域进行标注时,用一组训练图像训 练N个支持向量机分类器C={c1,c2,…,cn}。 注的非显著区域和带有标注词的图像区域混合在一 具体来说,对一组训练图像利用视觉注意机制提取 起,使用k近邻法(k-nearest neighbor,.k-NN)聚类算 法进行聚类,最终求得非显著区域的标注词。k-NN 显著区域,再对每个显著区域提取它们的底层特征 算法的思路:假设给定一个训练数据集,里面的实例 构成特征向量,并作为输入训练支持向量机。 都有确定的类别,对测试实例,根据其k个最近邻的 近年来支持向量机已经被广泛地应用于图像标 训练实例的类别,通过多数表决方式进行预测。具 注中,像文献[2]和[9]。在最简单的情况下,支持 体的流程如下: 向量机是线性可分的支持向量机,这时必须满足数 输入待标注的非显著区域和带标签的图像 据是线性可分的。但是在实际应用中,线性可分的 区域; 情况很少,绝大多数问题都是线性不可分的。在遇 输出非显著区域的标注词。 到线性不可分的问题时,可以通过非线性变换将它 1)在带有标签的图像区域中找出与每个待标 映射到高维空间中,从而转化为线性可分问题。 注的非显著区域相似的K个样本,计算公式为 SVM的学习策略就是最大间隔法,可以表示为一个 求解凸二次规划的问题。设线性可分样本集为 Sim(di,d,)=( W×W) (x,y),i=1,2,…,n,,i=1,2,…,n,x∈R", (7) y:∈{+1,-1}是类别标号。通过间隔最大化或等 2)在每个非显著区域的k个近邻中,分别计算 价地求解相应的凸二次规划问题学习得到的分离超 出每个类的权重,计算公式为 平面为w·x+b=0,线性判别函数为g(x)= w'·x+b。然后将判别函数进行归一化,使两类中 p(x.C)=Sim(x.d.)y(d,C) (8) diekNN 的所有样本都必须满足条件|g(x)|≥1,即让距离 式中:x为待标注区域的特征向量,Sim(x,d)为相 分类面最近的样本的1g(x)I值等于1,这样分类间 似性度量计算公式,与上一步骤的计算公式相同,而 隔就等于2/‖w‖,因此使间隔最大等价于使 y(d,C)为类别属性函数,即如果d属于类C,那 ⅡwⅡ最小:分类线若要对所有样本都能正确分 么函数值为1,否则为0。 类,那么它必须满足以下条件: 3)比较类的权重,将待标注区域划分到权重最 y:(w·x+b)≥1,i=1,2,…,n(4) 大的那个类别中。这样非显著区域就得到了相应的 因此,要求得最优分类面,可以将问题转化成约束 标注词,同时也得到了获得该标注词的概率。 化问题,也就是在式(4)的约束下,使目标函数 3标注词校正 1 max 的值达到最小。为此定义拉格朗日函数: 设每一幅待标注图像分割为n个子区域D:
像处理方面是一种比较常见的模型。 定义一个区域 的亮度为该区域和图像其他区域 HSV 值的方差,用 式(3) 计算。 也就是说,先计算图像中所有区域 HSV 的平均值,然后计算每个区域 HSV 的值,最后 取得各个区域的亮度值。 具体公式为 Brightness = (mi - m - ) 2 (3) 式中: m - 是图像的各个区域亮度的平均值, mi 是第 i 个区域的亮度值。 1.2 显著区域的标注 每一幅图像中都包含不等个数的区域,这些区 域或简单或复杂、或大或小,而它们都有不一样的语 义。 传统的标注方法中,对图像的各个区域同等对 待,而事实上人们往往把更多的注意力集中在显著 区域。 所以可以利用式(1)求出每幅图像的显著区 域进行单独标注,对非显著区域的区域在后续的步 骤中进行标注。 在对显著区域进行标注时,用一组训练图像训 练 N 个支持向量机分类器 C = { c1 , c2 , …, cn }。 具体来说,对一组训练图像利用视觉注意机制提取 显著区域,再对每个显著区域提取它们的底层特征 构成特征向量,并作为输入训练支持向量机。 近年来支持向量机已经被广泛地应用于图像标 注中,像文献[2]和[9]。 在最简单的情况下,支持 向量机是线性可分的支持向量机,这时必须满足数 据是线性可分的。 但是在实际应用中,线性可分的 情况很少,绝大多数问题都是线性不可分的。 在遇 到线性不可分的问题时,可以通过非线性变换将它 映射到高维空间中, 从而转化为线性可分问题。 SVM 的学习策略就是最大间隔法,可以表示为一个 求解凸二次规划的问题。 设线性可分样本集为 (xi,yi),i = 1,2,…,n, ,i = 1,2,…, n, xi ∈ R n , yi ∈ {+1, -1}是类别标号。 通过间隔最大化或等 价地求解相应的凸二次规划问题学习得到的分离超 平面为 w T ·x + b = 0,线性判别函数为 g(x) = w T·x +b 。 然后将判别函数进行归一化,使两类中 的所有样本都必须满足条件 | g(x) | ≥1,即让距离 分类面最近的样本的| g(x) |值等于 1,这样分类间 隔就等于 2 / ‖w T‖ ,因此使间隔最大等价于使 ‖w T‖ 最小;分类线若要对所有样本都能正确分 类,那么它必须满足以下条件: yi(w T·xi + b) ≥ 1,i = 1,2,…,n (4) 因此,要求得最优分类面,可以将问题转化成约束 化问 题,也 就 是 在 式 (4) 的 约 束 下,使 目 标 函 数 max 1 ‖w T‖ 的值达到最小。 为此定义拉格朗日函数: L(w,b,α) = 1 2 ‖w T‖2 - ∑ n i = 1 αi(yi(w T xi + b) - 1) (5) 通过对 w 和 b 求解,计算出拉格朗日函数的极 小值。 再利用 KKT 条件对分类决策函数求出最优 解,最终结果为 f(x) = sgn(∑ n i = 1 α ∗ i yi(xi·x) + b ∗ ) (6) 式中: α ∗ 为最优解, b ∗ 为分类的阈值。 分类时先提取测试图像的显著区域,然后提取 图像显著区域的特征值,构成特征向量输入到训练 好的支持向量机分类器中,得到每个显著区域的标 注词。 2 非显著区域的标注过程 对图像的非显著区域进行标注时,本文将带有 标签的图像区域引入对其进行标注。 本文将未被标 注的非显著区域和带有标注词的图像区域混合在一 起,使用 k 近邻法(k⁃nearest neighbor, k⁃NN)聚类算 法进行聚类,最终求得非显著区域的标注词。 k⁃NN 算法的思路:假设给定一个训练数据集,里面的实例 都有确定的类别,对测试实例,根据其 k 个最近邻的 训练实例的类别,通过多数表决方式进行预测。 具 体的流程如下: 输入 待标注的非显著区域和带标签的图像 区域; 输出 非显著区域的标注词。 1)在带有标签的图像区域中找出与每个待标 注的非显著区域相似的 K 个样本,计算公式为 Sim(di,dj) = (∑ M k = 1 Wik × Wjk) / (∑ M k = 1 W 2 ik)(∑ M k = 1 W 2 jk) (7) 2)在每个非显著区域的 k 个近邻中,分别计算 出每个类的权重,计算公式为 p(x,Cj) = d∑i∈kNN Sim(x,di)y(di,Cj) (8) 式中: x 为待标注区域的特征向量, Sim(x,di) 为相 似性度量计算公式,与上一步骤的计算公式相同,而 y(di,Cj) 为类别属性函数,即如果 di 属于类 Cj ,那 么函数值为 1,否则为 0。 3)比较类的权重,将待标注区域划分到权重最 大的那个类别中。 这样非显著区域就得到了相应的 标注词,同时也得到了获得该标注词的概率。 3 标注词校正 设每一幅待标注图像分割为 n 个子区域 Di ·444· 智 能 系 统 学 报 第 11 卷
第4期 孙庆美,等:基于视觉注意机制和条件随机场的图像标注 ·445. (i=1,2,…,n)。在得到一幅图像的显著区域标 Corela5k数据集有5000幅图像,其中包括4500个 签和非显著区域标签集合后,将这些标签整合成图 训练样本和500测试样本。每一幅图像平均有3.5 像的标签向量: 个关键词。在训练数据集中有371个标签,在测试 r=[p(aos)p(a,)…p(a.-1)] 数据集中有263个标签。另一个数据集是IAPR 式中:p(an)表示该图像的第n个区域获得标注词 TC-12。删除一部分图像后,留有100类的10000幅 αn的概率。本文使用条件随机场对图像已获取的标 图像。在实验过程中,使用80%幅图像用于训练, 注向量进行校正,最终获得图像的标注词。自从条 20%幅图像用于测试。所使用的第3个数据集是 件随机场被提出以来,已有很多研究者把它引入图 ESP Game。总共包含21844幅图像。其中,19659 像标注问题的研究中[o,为了提高图像标注性能, 张图像用作训练集,2185张图像用作测试集。 本文根据标注词之间的关系构建合适的条件随机场 4.2实验设置 模型。条件随机场可以用在很多不同的预测问题 为了验证图像标注性能,采取3种评估方法:召 上。图像标注问题属于线性链条件随机场。本文条 回率、查准率和F-measure值。假设一个给定的标 件随机场模型是一个无向图模型,图中的每一个点 签的图像数量是!W,I,IW2I为有正确标注词的 代表一个标注词,而两个点之间的边则代表两个标 图像数量,!W,|是由图像标注方法得到标签的图像 注词之间的关系。 的数量。召回率和查准率可计算如下: 条件随机场算法对标注词的校正除了涉及到标 I W I I W2 I 注词之间的共生关系之外,还将标注词的概率向量 recallprecision= 作为标注词的先验知识,然后建立标注词关系图并 平均查准率(AP)和查全率(AR)可以反映整体 重新计算图像的标注词概率向量。该算法构建所有 标注性能。F-measure可以定义为 标注词的关系无向图,在该无向图中除了包含有边 2·AP·AP F-measure 势函数(即式(9))之外还包含有点势函数(即式 AR+AP (10)),其中标注词概率向量确定图中点的势函数, 在本文实验中选择了3种视底层觉特征进行测 而边的势函数则由学习训练集中标注词的关系所得 试,它们分别为颜色直方图、纹理特征和ST。这3 到。例如标注词“马”出现了k,次,标注词“草地” 种底层特征从不同的角度描述图像的底层信息,同 出现了k,次,两者同时出现在同一幅图像的次数为 时使用会使标注性能更好。然后在3个数据库 k次。那么两个标注词的联合概率为 Corel5k、IAPR TC-I2和ESP Game上,将VAMCRF (a;,a;)=-log(P(ai,aj)) (9) 算法和其他著名算法进行比较。这些算法已表现出 1 了良好的性能,并且取得了很好的标注结果。因此 ⊙(a:)= (10) 1 ep(ai) 与它们的比较将能证明VAMCRF算法的性能。表 k3 1列出了这些算法和相应的标引。 P(a,a2)=min(k,k2) (11) 表1实验中用到的算法 式中p(a:)是前面得到的图像被标注为a,的概率。 Table 1 Algorithms used in the comparison experiments 获得无向图中所有点势和边势之后,求取最优 算法 描述 文献 的图结构就能得到最终的图像标注集{aacs,a1, 2PKNN+ML 2-pass K-nearest neighbor+ML 11] …,a1。当图势函数值达到最小时,就得到了最 CCD (SVRMKL+KPCA)Canonical contextual distance [12] 优图结构,即式(12)中M的值最小的图结构: MBRM Multiple-Bernoulli relevance [13] M=∑(a:)+A∑(a,4,) (12) JEC Joint equal contribution [14] ajes (a,gy〉cE 式中:入表示点势函数和边势函数的权重关系,本 TagProp+ML Nearest neighbor models+ML [15] 文通过交叉验证的方法确定入=0.3。 TagProp+o ML Nearest neighbor models+o ML[15] 4.3 实验结果和比较 4 实验结果 4.3.1参数影响 4.1图像库 在视觉注意机制中有一个参数ω。该参数对 为了验证本文算法的图像标注性能,使用3个 显著区域的提取有着重要的影响,需要通过实验来 图像库。第1个图像库是Corel5K,该库被许多图像 确定它的值。 处理研究人员使用。它在许多文献中都有提及。 首先从图像库中选取100幅有代表性图像,根
(i = 1, 2,…, n)。 在得到一幅图像的显著区域标 签和非显著区域标签集合后,将这些标签整合成图 像的标签向量: r = [p(afocus) p(a1 ) … p(an-1 ) ] 式中:p(an )表示该图像的第 n 个区域获得标注词 an的概率。 本文使用条件随机场对图像已获取的标 注向量进行校正,最终获得图像的标注词。 自从条 件随机场被提出以来,已有很多研究者把它引入图 像标注问题的研究中[10] ,为了提高图像标注性能, 本文根据标注词之间的关系构建合适的条件随机场 模型。 条件随机场可以用在很多不同的预测问题 上。 图像标注问题属于线性链条件随机场。 本文条 件随机场模型是一个无向图模型,图中的每一个点 代表一个标注词,而两个点之间的边则代表两个标 注词之间的关系。 条件随机场算法对标注词的校正除了涉及到标 注词之间的共生关系之外,还将标注词的概率向量 作为标注词的先验知识,然后建立标注词关系图并 重新计算图像的标注词概率向量。 该算法构建所有 标注词的关系无向图,在该无向图中除了包含有边 势函数(即式( 9)) 之外还包含有点势函数(即式 (10)),其中标注词概率向量确定图中点的势函数, 而边的势函数则由学习训练集中标注词的关系所得 到。 例如标注词“马”出现了 k1 次,标注词“草地” 出现了 k2 次,两者同时出现在同一幅图像的次数为 k3 次。 那么两个标注词的联合概率为 Φ(ai,aj) = - log(P(ai,aj)) (9) Θ(ai) = 1 1 + e p(ai ) (10) P(a1 ,a2 ) = k3 min(k1 ,k2 ) (11) 式中 p(ai)是前面得到的图像被标注为 ai的概率。 获得无向图中所有点势和边势之后,求取最优 的图结构就能得到最终的图像标注集{ afocus,a1 , …,an-1 }。 当图势函数值达到最小时,就得到了最 优图结构,即式(12)中 M 的值最小的图结构: M = ∑ai∈S Ψ(ai) + λ (a∑i ,aj )∈E Φ(ai,aj) (12) 式中: λ 表示点势函数和边势函数的权重关系,本 文通过交叉验证的方法确定 λ = 0.3。 4 实验结果 4.1 图像库 为了验证本文算法的图像标注性能,使用 3 个 图像库。 第 1 个图像库是 Corel5K,该库被许多图像 处理研究人员使用。 它在许多文献中都有提及。 Corel5k 数据集有 5 000 幅图像,其中包括 4 500 个 训练样本和 500 测试样本。 每一幅图像平均有 3.5 个关键词。 在训练数据集中有 371 个标签,在测试 数据集中有 263 个标签。 另一个数据集是 IAPR TC⁃12。 删除一部分图像后,留有 100 类的 10 000 幅 图像。 在实验过程中,使用 80%幅图像用于训练, 20%幅图像用于测试。 所使用的第 3 个数据集是 ESP Game。 总共包含 21 844 幅图像。 其中,19 659 张图像用作训练集,2 185 张图像用作测试集。 4.2 实验设置 为了验证图像标注性能,采取 3 种评估方法:召 回率、查准率和 F⁃measure 值。 假设一个给定的标 签的图像数量是 | W1 | , | W2 | 为有正确标注词 w 的 图像数量, | W3 |是由图像标注方法得到标签的图像 的数量。 召回率和查准率可计算如下: recall = | W2 | | W1 | ,precision = | W2 | | W3 | 平均查准率(AP)和查全率(AR)可以反映整体 标注性能。 F⁃measure 可以定义为 F⁃measure = 2·AP·AP AR + AP 在本文实验中选择了 3 种视底层觉特征进行测 试,它们分别为颜色直方图、纹理特征和 SIFT。 这 3 种底层特征从不同的角度描述图像的底层信息,同 时使用会使标注性能更好。 然后在 3 个数据库 Corel5k、IAPR TC⁃12 和 ESP Game 上,将 VAMCRF 算法和其他著名算法进行比较。 这些算法已表现出 了良好的性能,并且取得了很好的标注结果。 因此 与它们的比较将能证明 VAMCRF 算法的性能。 表 1 列出了这些算法和相应的标引。 表 1 实验中用到的算法 Table 1 Algorithms used in the comparison experiments 算法 描述 文献 2PKNN+ML 2⁃pass K⁃nearest neighbor+ML [11] CCD (SVRMKL+KPCA) Canonical contextual distance [12] MBRM Multiple⁃Bernoulli relevance [13] JEC Joint equal contribution [14] TagProp+ML Nearest neighbor models+ML [15] TagProp+ σ ML Nearest neighbor models+ σ ML[15] 4.3 实验结果和比较 4.3.1 参数影响 在视觉注意机制中有一个参数 ω 。 该参数对 显著区域的提取有着重要的影响,需要通过实验来 确定它的值。 首先从图像库中选取 100 幅有代表性图像,根 第 4 期 孙庆美,等:基于视觉注意机制和条件随机场的图像标注 ·445·
.446 智能系统学报 第11卷 据经验人眼对亮度的敏感度比面积大一些,所以对 4.3.2标签数目对标注的影响 w取这样不同的一组值{0.30,0.32,0.34,0.36, 标注性能的好坏有很多影响因素,标签数目就 0.38,0.40,0.42,0.44,0.46,0.48,0.50}。通过实 是其中一种因素,为了验证标签数目对标注性能的 验发现当ω=0.42时,提取图像显著区域效果最 影响,选取了不同的标签数进行实验。图3分别显 好。图1说明了当ω=0.42时一些类的显著区域 示了在3个数据库上不同的标签数目对标注的影 提取的实例。从表中可以看到,VAM算法能够预测 响。横坐标表示所取标签的个数从1~8,纵坐标代 并很好地提取图像的显著区域。 表对应标签数时F,的变化。这是在两种方法下所 做的实验,方法1是使用视觉注意机制和SVM求得 显著区域的标注词,然后利用k-NN求得非显著区 域的标注词:方法2是在方法1的基础上利用条件 随机场对所获得的标注词进行校正。 0.50 0.45 0.40 (a)人 (b)船 0.35 0.30 0.20 0.15 0.10 +方法1 0.05 日方法2 02 2 345 6 78 标签数 (c)太阳 (d)建筑 (a)Corels5k数据库 图1用VAM算法提取显著区域的例子 0.50 0.45 Fig.1 Some examples using our proposed VAM 0.40 在对图像的非显著区域进行标注时,采用了k 0.35 NN聚类算法。k-NN聚类算法是最简单的机器学习 算法之一,其中k值的选择对结果至关重要。实验 0.20 0.15 测试了参数k取不同值时对标注结果的影响。图2 0.10 +方法1 展示的是用k-NN聚类算法在3个图像库上对非显 0.05 日-方法2 著区域标注的性能。横坐标表示参数k取值的范 2 3 45 678 标签数 围,纵坐标代表对应k值时F,的变化。可以看到, (b)IAPR TC-12数据库 当k=100时F达到最大值,也就是此时标注效果最 0.50r 好。所以,在下面的实验当中k取100。 0.45 0.25 图像库1 0.40 0.35 0.20 图像库3 0.25 0.15 0.20 0.15 0.10 0.10 0.05 +方法】 0.05 0 0-方法2 1 2 3 45 678 0 标签数 110204080100200400500 (c)ESP Games数据库 图3不同标签数对标注的影响 图2在3个图像库上k取不同值的标注结果 Fig.3 The effect of different tag numbers on annotation Fig.2 The results of k-NN with different k in the image datasets 1-3 从图3可以看出,当只给图像一个标签时
据经验人眼对亮度的敏感度比面积大一些,所以对 ω 取这样不同的一组值{0. 30, 0. 32, 0. 34, 0. 36, 0.38,0.40, 0.42, 0.44, 0.46, 0.48, 0.50}。 通过实 验发现当 ω = 0.42 时,提取图像显著区域效果最 好。 图 1 说明了当 ω = 0.42 时一些类的显著区域 提取的实例。 从表中可以看到,VAM 算法能够预测 并很好地提取图像的显著区域。 图 1 用 VAM 算法提取显著区域的例子 Fig.1 Some examples using our proposed VAM 在对图像的非显著区域进行标注时,采用了 k⁃ NN 聚类算法。 k⁃NN 聚类算法是最简单的机器学习 算法之一,其中 k 值的选择对结果至关重要。 实验 测试了参数 k 取不同值时对标注结果的影响。 图 2 展示的是用 k⁃NN 聚类算法在 3 个图像库上对非显 著区域标注的性能。 横坐标表示参数 k 取值的范 围,纵坐标代表对应 k 值时 F1的变化。 可以看到, 当 k = 100 时 F1达到最大值,也就是此时标注效果最 好。 所以,在下面的实验当中 k 取 100。 图 2 在 3 个图像库上 k 取不同值的标注结果 Fig.2 The results of k⁃NN with different k in the image datasets 1~ 3 4.3.2 标签数目对标注的影响 标注性能的好坏有很多影响因素,标签数目就 是其中一种因素,为了验证标签数目对标注性能的 影响,选取了不同的标签数进行实验。 图 3 分别显 示了在 3 个数据库上不同的标签数目对标注的影 响。 横坐标表示所取标签的个数从 1 ~ 8,纵坐标代 表对应标签数时 F1的变化。 这是在两种方法下所 做的实验,方法 1 是使用视觉注意机制和 SVM 求得 显著区域的标注词,然后利用 k⁃NN 求得非显著区 域的标注词;方法 2 是在方法 1 的基础上利用条件 随机场对所获得的标注词进行校正。 (a) Corel5k 数据库 (b) IAPR TC⁃12 数据库 (c)ESP Games 数据库 图 3 不同标签数对标注的影响 Fig.3 The effect of different tag numbers on annotation 从图 3 可以看出,当只给图像一个标签时, ·446· 智 能 系 统 学 报 第 11 卷
第4期 孙庆美,等:基于视觉注意机制和条件随机场的图像标注 .447. 标注结果够不好,随着使用标签数目的增加,标 表4在ESP Game数据库上和其他算法标注性能的比较 注的准确度都在增加。但是使用的标签数不易 Table 4 Performance comparison with other algo- 过多,如果过多反而会使标注准确度下降。方法 rithms on the ESP Game 2比方法1的效果更好些,说明标注词之间的共 算法 AR AP F 生关系对标注效果也是十分重要的。标签相关 2PKNN+ML 0.27 0.53 0.357 性的引入使得标注结果更符合实际的标签集,由 CCD(SVRMKL+KPCA) 0.24 0.36 0.284 此证明了本文算法的优势。 MBRM 0.19 0.18 0.185 4.3.3比较和结果分析 JEC 0.25 0.22 0.234 为了验证本文所提出算法的标注性能,在 TagProp+ML 0.20 0.49 0.284 Corel5k、IAPR TC-l2和ESP Game3个图像库中的 TagProp+o ML 0.27 0.39 0.319 测试图像集进行了实验,并对AR、AP和F,的值进 VAMCRF 0.28 0.50 0.358 行对比。在表2~4给出了比较结果。 表3在IAPR TC-I2数据库上与其他算法标注性能的比较 表2显示了VAMCRF算法在Corel5k上得到 Table 3 Performance comparison with other algo- 的AR、AP和F,的值。从表中数据可见,VAM- rithms on the IAPR TC-12 CRF算法取得了最高AR值0.48,AP最高值为 算法 AR AP F 0.45,F1最大值为0.464。与其他6种算法F,最 2PKNN+ML 0.37 0.54 0.439 高值0.439比较,VAMCRF的最大值0.464至少 CCD(SVRMKL+KPCA) 0.29 0.44 0.350 高出了0.014。 MBRM 0.23 0.24 0.235 表2在Coel5k数据库上和其他算法标注性能的比较 JEC 0.29 0.28 0.285 Table 2 Performance comparison with other algo- TagProp+ML 0.25 0.48 0.329 rithms on the Corel5k TagProp+o ML 0.35 0.46 0.398 算法 AR AP F VAMCRF 0.37 0.56 0.445 2PKNN+ML 0.46 0.440.450 5 CCD(SVRMKL+KPCA) 0.41 0.36 0.383 结论 MBRM 0.25 0.24 0.245 本文提出了一种基于视觉注意机制和条件随机 JEC 0.32 0.27 0.293 场的算法进行图像的标注,并在Corel5k,IAPR TC TagProp+ML 0.37 0.31 0.337 12和ESP Game图像库上进行实验。首先,用视觉 TagProp+o ML 0.42 0.33 0.370 注意机制提取图像的显著区域,然后利用SVM进行 VAMCRF 0.48 0.45 0.464 标注,之后使用k-NN聚类算法对图像的非显著区 表3显示了VAMCRF算法在IAPR TC-I2上得 域进行标注,最后利用条件随机场对图像的标注词 向量进行校正。实验结果表明,与传统方法相比,本 到的AR、AP和F,的值。从表中数据可见,2PKNN+ 文所提出的算法在标注性能上取得了很好的效果, ML算法和VAMCRF算法取得了最高AR值O.37, 但是从时间复杂度方面来看还需要很多的改进工 AP最高值0.56,F,最大值0.445。与其他6种算法 作,在未来的研究中可以对算法进行进一步改进以 F最高值0.450比较,VAMCRF的最大值0.445至 期降低时间复杂度。 少高出了0.006。 表4显示了VAMCRF算法在ESP Game上得到 参考文献: 的AR、AP和F,的值。从表中数据可见,VAMCRF [1]WANG Meng,NI Bingbing,HUA Xiansheng,et al.Assis- 算法取得了最高AR值O.28,2PKNN+ML最高AP tive tagging:a survey of multimedia tagging with human- computer joint exploration[J].ACM computing surveys, 值0.53,F,最大值0.358。与其他6种算法F,最高 2012,44(4):25. 值0.357比较,VAMCRF的最大值0.358至少高出 [2]JIN Cong,JIN Shuwei.Image distance metric learning based 了0.001。 on neighborhood sets for automatic image annotation[J]
标注结果够不好,随着使用标签数目的增加,标 注的准确度都在增加。 但是使用的标签数不易 过多,如果过多反而会使标注准确度下降。 方法 2 比方法 1 的效果更好些,说明标注词之间的共 生关系对标注效果也是十分重要的。 标签相关 性的引入使得标注结果更符合实际的标签集,由 此证明了本文算法的优势。 4.3.3 比较和结果分析 为了验 证 本 文 所 提 出 算 法 的 标 注 性 能, 在 Corel5k、IAPR TC⁃12 和 ESP Game 3 个图像库中的 测试图像集进行了实验,并对 AR、AP 和 F1的值进 行对比。 在表 2~4 给出了比较结果。 表 2 显示了 VAMCRF 算法在 Corel5k 上得到 的 AR、AP 和 F1 的值。 从表 中 数 据 可 见,VAM⁃ CRF 算法取得了最高 AR 值 0. 48,AP 最高值为 0.45,F1最大值为 0. 464。 与其他 6 种算法 F1最 高值 0.439 比较,VAMCRF 的最大值 0. 464 至少 高出了 0.014。 表 2 在 Corel5k 数据库上和其他算法标注性能的比较 Table 2 Performance comparison with other algo⁃ rithms on the Corel5k 算法 AR AP F1 2PKNN+ML 0.46 0.44 0.450 CCD(SVRMKL+KPCA) 0.41 0.36 0.383 MBRM 0.25 0.24 0.245 JEC 0.32 0.27 0.293 TagProp+ML 0.37 0.31 0.337 TagProp+ σ ML 0.42 0.33 0.370 VAMCRF 0.48 0.45 0.464 表 3 显示了 VAMCRF 算法在 IAPR TC⁃12 上得 到的 AR、AP 和 F1的值。 从表中数据可见,2PKNN+ ML 算法和 VAMCRF 算法取得了最高 AR 值 0.37, AP 最高值 0.56,F1最大值 0.445。 与其他 6 种算法 F1最高值 0.450 比较,VAMCRF 的最大值 0.445 至 少高出了 0.006。 表 4 显示了 VAMCRF 算法在 ESP Game 上得到 的 AR、AP 和 F1 的值。 从表中数据可见,VAMCRF 算法取得了最高 AR 值 0.28,2PKNN+ML 最高 AP 值 0.53,F1最大值 0.358。 与其他 6 种算法 F1最高 值 0.357 比较,VAMCRF 的最大值 0.358 至少高出 了 0.001。 表 4 在 ESP Game 数据库上和其他算法标注性能的比较 Table 4 Performance comparison with other algo⁃ rithms on the ESP Game 算法 AR AP F1 2PKNN+ML 0.27 0.53 0.357 CCD(SVRMKL+KPCA) 0.24 0.36 0.284 MBRM 0.19 0.18 0.185 JEC 0.25 0.22 0.234 TagProp+ML 0.20 0.49 0.284 TagProp+ σ ML 0.27 0.39 0.319 VAMCRF 0.28 0.50 0.358 表 3 在 IAPR TC⁃12 数据库上与其他算法标注性能的比较 Table 3 Performance comparison with other algo⁃ rithms on the IAPR TC⁃12 算法 AR AP F1 2PKNN+ML 0.37 0.54 0.439 CCD(SVRMKL+KPCA) 0.29 0.44 0.350 MBRM 0.23 0.24 0.235 JEC 0.29 0.28 0.285 TagProp+ML 0.25 0.48 0.329 TagProp+ σ ML 0.35 0.46 0.398 VAMCRF 0.37 0.56 0.445 5 结论 本文提出了一种基于视觉注意机制和条件随机 场的算法进行图像的标注,并在 Corel5k, IAPR TC⁃ 12 和 ESP Game 图像库上进行实验。 首先,用视觉 注意机制提取图像的显著区域,然后利用 SVM 进行 标注,之后使用 k⁃NN 聚类算法对图像的非显著区 域进行标注,最后利用条件随机场对图像的标注词 向量进行校正。 实验结果表明,与传统方法相比,本 文所提出的算法在标注性能上取得了很好的效果, 但是从时间复杂度方面来看还需要很多的改进工 作,在未来的研究中可以对算法进行进一步改进以 期降低时间复杂度。 参考文献: [1]WANG Meng, NI Bingbing, HUA Xiansheng, et al. Assis⁃ tive tagging: a survey of multimedia tagging with human - computer joint exploration [ J ]. ACM computing surveys, 2012, 44(4): 25. [2]JIN Cong, JIN Shuwei. Image distance metric learning based on neighborhood sets for automatic image annotation [ J]. 第 4 期 孙庆美,等:基于视觉注意机制和条件随机场的图像标注 ·447·
.448. 智能系统学报 第11卷 Journal of visual communication and image representation, [11]VERMA Y,JAWAHAR C V.Image annotation using met- 2016,34:167-175 ric learning in semantic neighbourhoods[C]//Proceedings [3]DUYGULU P,BARNARD K,DE FREITAS J F G,et al. of the 12th European Conference on Computer Vision.Ber- Object recognition as machine translation:learning a lexicon lin Heidelberg:Springer,2012:836-849. for a fixed image vocabulary [C]//Proceedings of the 7th [12]NAKAYAMA H.Linear distance metric learning for large- European Conference on Computer Vision.Berlin Heidel- scale generic image recognition[D].Tokyo,Japan:The berg:Springer-Verlag,2002:97-112. University of Tokyo,2011. [4]JEON J,LAVRENKO V,MANMATHA R.Automatic image [13]FENG S L,MANMATHA R,LAVRENKO V.Multiple annotation and retrieval using cross-media relevance models Bernoulli relevance models for image and video annotation [C]//Proceedings of the 26th annual Interational ACM SI- [C]//Proceedings of the 2004 IEEE Computer Society GIR Conference on Research and Development in Informa- Conference on Computer Vision and Pattern Recognition. tion Retrieval.New York,NY,USA:ACM,2003:119- Washington,DC,USA:IEEE,2004,2:II-1002-II- 126. 1009. [5]LOOG M.Semi-supervised linear discriminant analysis [14]MAKADIA A,PAVLOVIC V,KUMAR S.A new baseline through moment-constraint parameter estimation[J].Pat- for image annotation C]//Proceedings of the European tern recognition letters,2014,37:24-31. Conference on Computer Vision.Berlin Heidelberg: [6]FU Hong,CHI Zheru,FENG Dagan.Recognition of atten- Springer-Verlag,2008:316-329. tive objects with a concept association network for image an- [15]GUILLAUMIN M,MENSINK T,VERBEEK J,et al.Tag- notation[J].Pattern recognition,2010,43(10):3539- Prop:discriminative metric learning in nearest neighbor 3547. models for image auto-annotation[C]//Proceedings of the [7]FAREED MM S,AHMED G,CHUN Qi.Salient region de- 2009 IEEE 12th International Conference on Computer Vi- tection through sparse reconstruction and graph-based rank- sion.Kyoto:IEEE,2009:309-316. ing[J].Journal of visual communication and image repre- 作者简介: sentation.2015,32:144-155. 孙庆美,女,1989年生,硕士研究生,主要研究方向为 [8]JA Cong,QI Jinqing,LI Xiaohui,et al.Saliency detection 数字图像处理 via a unified generative and discriminative model[.Neu- ocomputing,2016,173:406-417. [9]KHANDOKER A H,PALANISWAMI M,KARMAKAR C K.Support vector machines for automated recognition of ob- structive sleep apnea syndrome from ECG recordings[J]. 金聪,女,1960年生,教授,博士。主要研究方向为数字 IEEE transactions on information technology in biomedicine, 图像处理 2009,13(1):37-48. [10]PRUTEANU-MALINICI I,MAJOROS W H,OHLER U. Automated annotation of gene expression image sequences via non-parametric factor analysis and conditional random fields[].Bioinformatics,2013,29(13):i27-i35
Journal of visual communication and image representation, 2016, 34: 167-175. [3]DUYGULU P, BARNARD K, DE FREITAS J F G, et al. Object recognition as machine translation: learning a lexicon for a fixed image vocabulary [ C] / / Proceedings of the 7th European Conference on Computer Vision. Berlin Heidel⁃ berg: Springer⁃Verlag, 2002: 97-112. [4]JEON J, LAVRENKO V, MANMATHA R. Automatic image annotation and retrieval using cross⁃media relevance models [C] / / Proceedings of the 26th annual International ACM SI⁃ GIR Conference on Research and Development in Informa⁃ tion Retrieval. New York, NY, USA: ACM, 2003: 119 - 126. [ 5 ] LOOG M. Semi⁃supervised linear discriminant analysis through moment⁃constraint parameter estimation [ J]. Pat⁃ tern recognition letters, 2014, 37: 24-31. [6]FU Hong, CHI Zheru, FENG Dagan. Recognition of atten⁃ tive objects with a concept association network for image an⁃ notation[ J]. Pattern recognition, 2010, 43 ( 10): 3539 - 3547. [7]FAREED M M S, AHMED G, CHUN Qi. Salient region de⁃ tection through sparse reconstruction and graph⁃based rank⁃ ing[J]. Journal of visual communication and image repre⁃ sentation, 2015, 32: 144-155. [8]JIA Cong, QI Jinqing, LI Xiaohui, et al. Saliency detection via a unified generative and discriminative model[ J]. Neu⁃ rocomputing, 2016, 173: 406-417. [9] KHANDOKER A H, PALANISWAMI M, KARMAKAR C K. Support vector machines for automated recognition of ob⁃ structive sleep apnea syndrome from ECG recordings [ J]. IEEE transactions on information technology in biomedicine, 2009, 13(1): 37-48. [10] PRUTEANU⁃MALINICI I, MAJOROS W H, OHLER U. Automated annotation of gene expression image sequences via non⁃parametric factor analysis and conditional random fields[J]. Bioinformatics, 2013, 29(13): i27-i35. [11]VERMA Y, JAWAHAR C V. Image annotation using met⁃ ric learning in semantic neighbourhoods[C] / / Proceedings of the 12th European Conference on Computer Vision. Ber⁃ lin Heidelberg: Springer, 2012: 836-849. [12]NAKAYAMA H. Linear distance metric learning for large⁃ scale generic image recognition [D]. Tokyo, Japan: The University of Tokyo, 2011. [13] FENG S L, MANMATHA R, LAVRENKO V. Multiple Bernoulli relevance models for image and video annotation [C] / / Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC, USA: IEEE, 2004, 2: II⁃1002⁃II⁃ 1009. [14]MAKADIA A, PAVLOVIC V, KUMAR S. A new baseline for image annotation [ C] / / Proceedings of the European Conference on Computer Vision. Berlin Heidelberg: Springer⁃Verlag, 2008: 316-329. [15]GUILLAUMIN M, MENSINK T, VERBEEK J, et al. Tag⁃ Prop: discriminative metric learning in nearest neighbor models for image auto⁃annotation[C] / / Proceedings of the 2009 IEEE 12th International Conference on Computer Vi⁃ sion. Kyoto: IEEE, 2009: 309-316. 作者简介: 孙庆美 ,女,1989 年生,硕士研究生,主要研究方向为 数字图像处理 金聪,女,1960 年生,教授,博士。 主要研究方向为数字 图像处理 ·448· 智 能 系 统 学 报 第 11 卷