【机器学习】基于视觉注意机制和条件随机场的图像标注

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：1.26MB

第11卷第4期智能系统学报 Vol.11 No.4 2016年8月 CAAI Transactions on Intelligent Systems Aug.2016 D0I:10.11992/6is.201606004 网络出版地址：http:/www.cnki.net/kcms/detail/23.1538.TP.20160808.0831.024.html 基于视觉注意机制和条件随机场的图像标注孙庆美，金聪 (华中师范大学计算机学院，湖北武汉430079) 摘要：传统的图像标注方法对图像各个区域同等标注，忽视了人们对图像的理解方式。为此提出了基于视觉注意机制和条件随机场的图像标注方法。首先，由于人们在对图像认识的过程中，对显著区域会有较多的关注，因此通过视觉注意机制来取得图像的显著区域，用支持向量机对显著区域赋予语义标签；再利用NN聚类算法对非显著区域进行标注：最后，又由于显著区域的标注词与非显著区域的标注词在逻辑上存在一定的关联性，因此条件随机场模型可以根据标注词的关联性校正并确定图像的最终标注向量。在Corels5k,IAPR TC-l2和ESP Game图像库上进行实验并且和其他方法进行比较，从平均查准率、平均查全率和F,的实验结果验证了本文方法的有效性。关键词：自动图像标注：视觉注意：词相关性：条件随机场中图分类号：TP391文献标志码：A文章编号：1673-4785(2016)04-0442-07 中文引用格式：孙庆美，金聪.基于视觉注意机制和条件随机场的图像标注[J].智能系统学报，2016,11(4)：442-448. 英文引用格式：SUN Qingmei,JIN Cong.mage annotation method based on visual attention mechanism and conditional random field[J].CAAI Transactions on Intelligent Systems,2016,11(4):442-448. Image annotation method based on visual attention mechanism and conditional random field SUN Qingmei,JIN Cong (School of Computer,Central China Normal University,Wuhan 430079,China) Abstract:Traditional image annotation methods interpret all image regions equally,neglecting any understanding of the image.Therefore,an image annotation method based on the visual attention mechanism and conditional random field,called VAMCRF,is proposed.Firstly,people pay more attention to image salient regions during the process of image recognition;this can be achieved through the visual attention mechanism and the support vector machine is then used to assign semantic labels.It then labels the non-salient regions using a k-NN clustering algorithm.Final- ly,as the annotations of salient and non-salient regions are logically related,the ultimate label vector of the image can be corrected and determined by a conditional random field (CRF)model and inter-word correlation.From the values of average precision,average recall,and F1,the experimental results on Corel5k,IAPR TC-12,and ESP Game confirm that the proposed method is efficient compared with traditional annotation methods. Keywords:automatic image annotation:visual attention mechanism;inter-word correlation;conditional random fields 随着互联网的不断发展以及移动终端的迅速发像库中快速有效地找到想要的图像，已经成为了一展，图像数据不断扩大。图像数据大规模的增长对个亟待解决且具有很大挑战性的任务。而图像标注图像理解技术提出了更高的要求。如何从巨大的图技术是数字图像语义文本信息的关键技术，在数字图像处理的各个方面有着广泛的应用四。收稿日期：2016-06-02.网络出版日期：2016-08-08. 基金项目：国家社会科学基金项目(13BTQ050). 图像标注技术就是为给定的图像分配相对应的通信作者：金聪.E-mail:inc26@aliyun.com. 语义关键词以反映其内容)。早些年的图像标注

第１１卷第４期智能系统学报Ｖｏｌ．１１ №．４２０１６年８月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｕｇ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０６００４网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０８０８．０８３１．０２４．ｈｔｍｌ基于视觉注意机制和条件随机场的图像标注孙庆美，金聪（华中师范大学计算机学院，湖北武汉４３００７９）摘要：传统的图像标注方法对图像各个区域同等标注，忽视了人们对图像的理解方式。为此提出了基于视觉注意机制和条件随机场的图像标注方法。首先，由于人们在对图像认识的过程中，对显著区域会有较多的关注，因此通过视觉注意机制来取得图像的显著区域，用支持向量机对显著区域赋予语义标签；再利用ｋ⁃ＮＮ聚类算法对非显著区域进行标注；最后，又由于显著区域的标注词与非显著区域的标注词在逻辑上存在一定的关联性，因此条件随机场模型可以根据标注词的关联性校正并确定图像的最终标注向量。在Ｃｏｒｅｌ５ｋ、ＩＡＰＲＴＣ⁃１２和ＥＳＰＧａｍｅ图像库上进行实验并且和其他方法进行比较，从平均查准率、平均查全率和Ｆ１的实验结果验证了本文方法的有效性。关键词：自动图像标注；视觉注意；词相关性；条件随机场中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３－４７８５（２０１６）０４－０４４２－０７中文引用格式：孙庆美，金聪．基于视觉注意机制和条件随机场的图像标注［Ｊ］．智能系统学报，２０１６，１１（４）：４４２－４４８．英文引用格式：ＳＵＮＱｉｎｇｍｅｉ，ＪＩＮＣｏｎｇ．Ｉｍａｇｅａｎｎｏｔａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｖｉｓｕａｌａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍａｎｄｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１６，１１（４）：４４２－４４８．ＩｍａｇｅａｎｎｏｔａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｖｉｓｕａｌａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍａｎｄｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄＳＵＮＱｉｎｇｍｅｉ，ＪＩＮＣｏｎｇ（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒ，ＣｅｎｔｒａｌＣｈｉｎａＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｗｕｈａｎ４３００７９，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｒａｄｉｔｉｏｎａｌｉｍａｇｅａｎｎｏｔａｔｉｏｎｍｅｔｈｏｄｓｉｎｔｅｒｐｒｅｔａｌｌｉｍａｇｅｒｅｇｉｏｎｓｅｑｕａｌｌｙ，ｎｅｇｌｅｃｔｉｎｇａｎｙｕｎｄｅｒｓｔａｎｄｉｎｇｏｆｔｈｅｉｍａｇｅ．Ｔｈｅｒｅｆｏｒｅ，ａｎｉｍａｇｅａｎｎｏｔａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｔｈｅｖｉｓｕａｌａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍａｎｄｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄ，ｃａｌｌｅｄＶＡＭＣＲＦ，ｉｓｐｒｏｐｏｓｅｄ．Ｆｉｒｓｔｌｙ，ｐｅｏｐｌｅｐａｙｍｏｒｅａｔｔｅｎｔｉｏｎｔｏｉｍａｇｅｓａｌｉｅｎｔｒｅｇｉｏｎｓｄｕｒｉｎｇｔｈｅｐｒｏｃｅｓｓｏｆｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ；ｔｈｉｓｃａｎｂｅａｃｈｉｅｖｅｄｔｈｒｏｕｇｈｔｈｅｖｉｓｕａｌａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍａｎｄｔｈｅｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｉｓｔｈｅｎｕｓｅｄｔｏａｓｓｉｇｎｓｅｍａｎｔｉｃｌａｂｅｌｓ．Ｉｔｔｈｅｎｌａｂｅｌｓｔｈｅｎｏｎ⁃ｓａｌｉｅｎｔｒｅｇｉｏｎｓｕｓｉｎｇａｋ⁃ＮＮｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ．Ｆｉｎａｌ⁃ ｌｙ，ａｓｔｈｅａｎｎｏｔａｔｉｏｎｓｏｆｓａｌｉｅｎｔａｎｄｎｏｎ⁃ｓａｌｉｅｎｔｒｅｇｉｏｎｓａｒｅｌｏｇｉｃａｌｌｙｒｅｌａｔｅｄ，ｔｈｅｕｌｔｉｍａｔｅｌａｂｅｌｖｅｃｔｏｒｏｆｔｈｅｉｍａｇｅｃａｎｂｅｃｏｒｒｅｃｔｅｄａｎｄｄｅｔｅｒｍｉｎｅｄｂｙａｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄ（ＣＲＦ）ｍｏｄｅｌａｎｄｉｎｔｅｒ⁃ｗｏｒｄｃｏｒｒｅｌａｔｉｏｎ．Ｆｒｏｍｔｈｅｖａｌｕｅｓｏｆａｖｅｒａｇｅｐｒｅｃｉｓｉｏｎ，ａｖｅｒａｇｅｒｅｃａｌｌ，ａｎｄＦ１，ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｎＣｏｒｅｌ５ｋ，ＩＡＰＲＴＣ⁃１２，ａｎｄＥＳＰＧａｍｅｃｏｎｆｉｒｍｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｉｓｅｆｆｉｃｉｅｎｔｃｏｍｐａｒｅｄｗｉｔｈｔｒａｄｉｔｉｏｎａｌａｎｎｏｔａｔｉｏｎｍｅｔｈｏｄｓ．Ｋｅｙｗｏｒｄｓ：ａｕｔｏｍａｔｉｃｉｍａｇｅａｎｎｏｔａｔｉｏｎ；ｖｉｓｕａｌａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ；ｉｎｔｅｒ⁃ｗｏｒｄｃｏｒｒｅｌａｔｉｏｎ；ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓ收稿日期：２０１６－０６－０２．网络出版日期：２０１６－０８－０８．基金项目：国家社会科学基金项目（１３ＢＴＱ０５０）．通信作者：金聪．Ｅ⁃ｍａｉｌ：ｊｉｎｃ２６＠ａｌｉｙｕｎ．ｃｏｍ．随着互联网的不断发展以及移动终端的迅速发展，图像数据不断扩大。图像数据大规模的增长对图像理解技术提出了更高的要求。如何从巨大的图像库中快速有效地找到想要的图像，已经成为了一个亟待解决且具有很大挑战性的任务。而图像标注技术是数字图像语义文本信息的关键技术，在数字图像处理的各个方面有着广泛的应用［１］。图像标注技术就是为给定的图像分配相对应的语义关键词以反映其内容［２］。早些年的图像标注

第4期孙庆美，等：基于视觉注意机制和条件随机场的图像标注 .443. 技术需要专业人员根据每幅图像的语义给出关键在使用本文所提算法之前要先对图像进行预处词，但那样的方法会消耗大量时间并且带有一定的理，然后使用基于视觉注意机制和条件随机场算法主观性。因此近几年来，有不少的研究者将注意力对图像进行标注。算法主要流程如下：转移到图像的自动标注技术上来。就当下的自动标输入训练图像和测试图像的混合图像集；注方法而言大致可以分为两类：1)基于生成式的图输出所有图像对应的标签集。像自动标注方法3)；2)基于判别式的图像自动标 1)使用支持向量机对显著区域进行识别并标注：注方法[s。前者主要是先对后验概率建模，然后 2)对于非显著区域，结合训练图像库的图像与依据统计的角度表示数据的分布情况，以此来反映标签关系进行标注：同类数据本身的相似度。文献[3]就属于该模型， 3)使用条件随机场模型对每幅图像的标签进它将标注问题转化成一个将视觉语言翻译为文本的行优化。过程，再收集图像与概念之间的关系以此来计算图 1.1显著区域的提取像各个区域的翻译概率。文献[4]提出的跨媒体相当人们看一幅图像时，注意力更多地放在显著关模型，将分割得到的团块进行聚类，得到可视化词区域而不是非显著区域。图像的显著区域指的是在汇，然后建立图像和语义关键词之间的概率相关模一幅图像中最能引起人们视觉兴趣的部分，图像的型，估计图像区域集合与关键词集合总体的联合分显著区域和图像要表达的含义往往一致。充分利用布。与此类似的方法还包括基于连续图像特征的相这一点能提高图像标注的准确率。基于此，本文选关模型，该类方法也存在一定的问题，如当遇到图像择先对显著区域进行标注，然后标注非显著区域。过分割和欠分割的时候标注性能大大降低，虽然可这种方法可以消除非显著区域对显著区域的影响，以通过改进算法来提高标注结果，但这样增加了计由此获得更好的标注效果。算的复杂性，不具备在真实环境应用的条件。另外，在图像处理方面，很多获取图像显著区域的模可以构建图像特征与标注词之间的关系模型，然而型已被提出。例如，文献[7]提出了一种显著区域该模型一般情况下复杂度较高，而且无法确定主题的获取方法，它主要结合像素特征和贝叶斯算法。的个数。而后者则是通过寻找不同类别之间的最优文献[8]提出了一种视觉显著性检测算法，它将生分类超平面，从而反映异构数据之间的不同。也就成性和区分性两种模型结合在一个统一的框架中。是说，该模型为每个类训练一个分类器，以此来判断这些区域通常具有较大的共同特征，面积相对较大测试图像是否属于这个类。文献[2]提出了MRES- 且亮度更高。因此本文提出一个新的方法来提取显 VM算法，即一个基于映射化简的可扩展的分布式著区域，也就是视觉注意机制。定义如下：集成支持向量机算法的图像标注。为了克服单一支在利用N-cut算法对图像分割后，根据视觉注持向量机的局限性，利用重采样对训练集进行训练，意机制求得图像的每个区域的权重。视觉注意机制建立了一种支持向量机集成方法。在文献[5-6]中模型为提到的方法也属于判别模型。这两者既有优点又有 W=w·Area+(1-w)·Brightness(1) 缺点。相比之下，判别式模型可以实现更好的性能。式中：W表示图像中每个区域的显著度；ω表示权已有的图像标注方法没有得到较好的标注准确率，重。为获得图像的显著区域，本文通过大量实验来主要是由于它们使用的图像内容描述方法和人们对得到ω。计算并比较各个区域的显著度W的大小，图像的理解方式相距甚远。实际上，当人们看一幅 W值最大的区域就是该图像的显著区域。模型(1) 图像的时候，不会把注意力平均分配到图像的各个中各参数的意义如下：区域，而是会有选择地把注意力集中到显著区域。 a)面积参数Area。在该模型中，Area是参数之由此本文提出了一种基于视觉注意机制和条件随机一，一般情况下，面积越大的区域越能引起人们的注场的图像自动标注方法。意，但是不能过大，过大面积的区域会使得显著度降低。具体计算式为 1显著区域的标注过程 Area S./S (2) 本文使用的图像标注算法，主要是将传统依据式中：S表示每幅图像中第i个区域的像素个数；S 底层特征的标注方法和人们认识图像的方式结合在表示整幅图像的像素个数。一起，然后又利用标签之间的共生关系对标注词进 b)亮度参数Brightness。亮度参数是获得显著行校正，得到最终标注词。区域最重要的参数。HSV颜色模型比较直观，在图

技术需要专业人员根据每幅图像的语义给出关键词，但那样的方法会消耗大量时间并且带有一定的主观性。因此近几年来，有不少的研究者将注意力转移到图像的自动标注技术上来。就当下的自动标注方法而言大致可以分为两类：１）基于生成式的图像自动标注方法［３－４］；２）基于判别式的图像自动标注方法［５－６］。前者主要是先对后验概率建模，然后依据统计的角度表示数据的分布情况，以此来反映同类数据本身的相似度。文献［３］就属于该模型，它将标注问题转化成一个将视觉语言翻译为文本的过程，再收集图像与概念之间的关系以此来计算图像各个区域的翻译概率。文献［４］提出的跨媒体相关模型，将分割得到的团块进行聚类，得到可视化词汇，然后建立图像和语义关键词之间的概率相关模型，估计图像区域集合与关键词集合总体的联合分布。与此类似的方法还包括基于连续图像特征的相关模型，该类方法也存在一定的问题，如当遇到图像过分割和欠分割的时候标注性能大大降低，虽然可以通过改进算法来提高标注结果，但这样增加了计算的复杂性，不具备在真实环境应用的条件。另外，可以构建图像特征与标注词之间的关系模型，然而该模型一般情况下复杂度较高，而且无法确定主题的个数。而后者则是通过寻找不同类别之间的最优分类超平面，从而反映异构数据之间的不同。也就是说，该模型为每个类训练一个分类器，以此来判断测试图像是否属于这个类。文献［２］提出了ＭＲＥＳ⁃ ＶＭ算法，即一个基于映射化简的可扩展的分布式集成支持向量机算法的图像标注。为了克服单一支持向量机的局限性，利用重采样对训练集进行训练，建立了一种支持向量机集成方法。在文献［５－６］中提到的方法也属于判别模型。这两者既有优点又有缺点。相比之下，判别式模型可以实现更好的性能。已有的图像标注方法没有得到较好的标注准确率，主要是由于它们使用的图像内容描述方法和人们对图像的理解方式相距甚远。实际上，当人们看一幅图像的时候，不会把注意力平均分配到图像的各个区域，而是会有选择地把注意力集中到显著区域。由此本文提出了一种基于视觉注意机制和条件随机场的图像自动标注方法。１显著区域的标注过程本文使用的图像标注算法，主要是将传统依据底层特征的标注方法和人们认识图像的方式结合在一起，然后又利用标签之间的共生关系对标注词进行校正，得到最终标注词。在使用本文所提算法之前要先对图像进行预处理，然后使用基于视觉注意机制和条件随机场算法对图像进行标注。算法主要流程如下：输入训练图像和测试图像的混合图像集；输出所有图像对应的标签集。１）使用支持向量机对显著区域进行识别并标注；２）对于非显著区域，结合训练图像库的图像与标签关系进行标注；３）使用条件随机场模型对每幅图像的标签进行优化。１．１显著区域的提取当人们看一幅图像时，注意力更多地放在显著区域而不是非显著区域。图像的显著区域指的是在一幅图像中最能引起人们视觉兴趣的部分，图像的显著区域和图像要表达的含义往往一致。充分利用这一点能提高图像标注的准确率。基于此，本文选择先对显著区域进行标注，然后标注非显著区域。这种方法可以消除非显著区域对显著区域的影响，由此获得更好的标注效果。在图像处理方面，很多获取图像显著区域的模型已被提出。例如，文献［７］提出了一种显著区域的获取方法，它主要结合像素特征和贝叶斯算法。文献［８］提出了一种视觉显著性检测算法，它将生成性和区分性两种模型结合在一个统一的框架中。这些区域通常具有较大的共同特征，面积相对较大且亮度更高。因此本文提出一个新的方法来提取显著区域，也就是视觉注意机制。定义如下：在利用Ｎ⁃ｃｕｔ算法对图像分割后，根据视觉注意机制求得图像的每个区域的权重。视觉注意机制模型为Ｗ＝ ω·Ａｒｅａ＋（１－ ω）·Ｂｒｉｇｈｔｎｅｓｓ（１）式中：Ｗ表示图像中每个区域的显著度； ω 表示权重。为获得图像的显著区域，本文通过大量实验来得到 ω 。计算并比较各个区域的显著度Ｗ的大小，Ｗ值最大的区域就是该图像的显著区域。模型（１）中各参数的意义如下：ａ）面积参数Ａｒｅａ。在该模型中，Ａｒｅａ是参数之一，一般情况下，面积越大的区域越能引起人们的注意，但是不能过大，过大面积的区域会使得显著度降低。具体计算式为Ａｒｅａ＝Ｓｉ／Ｓ（２）式中：Ｓｉ表示每幅图像中第ｉ个区域的像素个数；Ｓ表示整幅图像的像素个数。ｂ）亮度参数Ｂｒｉｇｈｔｎｅｓｓ。亮度参数是获得显著区域最重要的参数。ＨＳＶ颜色模型比较直观，在图第４期孙庆美，等：基于视觉注意机制和条件随机场的图像标注 ·４４３·

.444 智能系统学报第11卷像处理方面是一种比较常见的模型。定义一个区域的亮度为该区域和图像其他区域HSV值的方差，用以，b.a）=IwI2- ∑a(y.(wx,+b)-1）式(3)计算。也就是说，先计算图像中所有区域 (5) HSV的平均值，然后计算每个区域HSV的值，最后通过对w和b求解，计算出拉格朗日函数的极取得各个区域的亮度值。具体公式为小值。再利用KKT条件对分类决策函数求出最优 Brightness =(m:-m)2 (3) 解，最终结果为式中：m是图像的各个区域亮度的平均值，m:是第i f代x)=sgm(∑ay.(x,·x)+b) (6) 个区域的亮度值。 1.2显著区域的标注式中：α·为最优解，b·为分类的阈值。每一幅图像中都包含不等个数的区域，这些区分类时先提取测试图像的显著区域，然后提取域或简单或复杂、或大或小，而它们都有不一样的语图像显著区域的特征值，构成特征向量输入到训练义。传统的标注方法中，对图像的各个区域同等对好的支持向量机分类器中，得到每个显著区域的标待，而事实上人们往往把更多的注意力集中在显著注词。区域。所以可以利用式(1)求出每幅图像的显著区 2非显著区域的标注过程域进行单独标注，对非显著区域的区域在后续的步骤中进行标注。对图像的非显著区域进行标注时，本文将带有标签的图像区域引入对其进行标注。本文将未被标在对显著区域进行标注时，用一组训练图像训练N个支持向量机分类器C={c1,c2,…,cn}。注的非显著区域和带有标注词的图像区域混合在一具体来说，对一组训练图像利用视觉注意机制提取起，使用k近邻法(k-nearest neighbor,.k-NN)聚类算法进行聚类，最终求得非显著区域的标注词。k-NN 显著区域，再对每个显著区域提取它们的底层特征算法的思路：假设给定一个训练数据集，里面的实例构成特征向量，并作为输入训练支持向量机。都有确定的类别，对测试实例，根据其k个最近邻的近年来支持向量机已经被广泛地应用于图像标训练实例的类别，通过多数表决方式进行预测。具注中，像文献[2]和[9]。在最简单的情况下，支持体的流程如下：向量机是线性可分的支持向量机，这时必须满足数输入待标注的非显著区域和带标签的图像据是线性可分的。但是在实际应用中，线性可分的区域；情况很少，绝大多数问题都是线性不可分的。在遇输出非显著区域的标注词。到线性不可分的问题时，可以通过非线性变换将它 1)在带有标签的图像区域中找出与每个待标映射到高维空间中，从而转化为线性可分问题。注的非显著区域相似的K个样本，计算公式为 SVM的学习策略就是最大间隔法，可以表示为一个求解凸二次规划的问题。设线性可分样本集为 Sim(di,d,)=( W×W) (x,y),i=1,2,…,n,,i=1,2,…,n,x∈R", (7) y:∈{+1，-1}是类别标号。通过间隔最大化或等 2)在每个非显著区域的k个近邻中，分别计算价地求解相应的凸二次规划问题学习得到的分离超出每个类的权重，计算公式为平面为w·x+b=0,线性判别函数为g(x)= w'·x+b。然后将判别函数进行归一化，使两类中 p(x.C)=Sim(x.d.)y(d,C) (8) diekNN 的所有样本都必须满足条件|g(x)|≥1，即让距离式中：x为待标注区域的特征向量，Sim(x,d)为相分类面最近的样本的1g(x)I值等于1，这样分类间似性度量计算公式，与上一步骤的计算公式相同，而隔就等于2/‖w‖，因此使间隔最大等价于使 y(d,C)为类别属性函数，即如果d属于类C,那 ⅡwⅡ最小：分类线若要对所有样本都能正确分么函数值为1，否则为0。类，那么它必须满足以下条件： 3)比较类的权重，将待标注区域划分到权重最 y:(w·x+b)≥1，i=1,2,…,n(4) 大的那个类别中。这样非显著区域就得到了相应的因此，要求得最优分类面，可以将问题转化成约束标注词，同时也得到了获得该标注词的概率。化问题，也就是在式(4)的约束下，使目标函数 3标注词校正 1 max 的值达到最小。为此定义拉格朗日函数：设每一幅待标注图像分割为n个子区域D:

像处理方面是一种比较常见的模型。定义一个区域的亮度为该区域和图像其他区域ＨＳＶ值的方差，用式（３）计算。也就是说，先计算图像中所有区域ＨＳＶ的平均值，然后计算每个区域ＨＳＶ的值，最后取得各个区域的亮度值。具体公式为Ｂｒｉｇｈｔｎｅｓｓ＝（ｍｉ－ｍ－）２（３）式中：ｍ－是图像的各个区域亮度的平均值，ｍｉ是第ｉ个区域的亮度值。１．２显著区域的标注每一幅图像中都包含不等个数的区域，这些区域或简单或复杂、或大或小，而它们都有不一样的语义。传统的标注方法中，对图像的各个区域同等对待，而事实上人们往往把更多的注意力集中在显著区域。所以可以利用式（１）求出每幅图像的显著区域进行单独标注，对非显著区域的区域在后续的步骤中进行标注。在对显著区域进行标注时，用一组训练图像训练Ｎ个支持向量机分类器Ｃ＝｛ｃ１，ｃ２， …，ｃｎ｝。具体来说，对一组训练图像利用视觉注意机制提取显著区域，再对每个显著区域提取它们的底层特征构成特征向量，并作为输入训练支持向量机。近年来支持向量机已经被广泛地应用于图像标注中，像文献［２］和［９］。在最简单的情况下，支持向量机是线性可分的支持向量机，这时必须满足数据是线性可分的。但是在实际应用中，线性可分的情况很少，绝大多数问题都是线性不可分的。在遇到线性不可分的问题时，可以通过非线性变换将它映射到高维空间中，从而转化为线性可分问题。ＳＶＭ的学习策略就是最大间隔法，可以表示为一个求解凸二次规划的问题。设线性可分样本集为（ｘｉ，ｙｉ），ｉ＝１，２，…，ｎ，，ｉ＝１，２，…，ｎ，ｘｉ ∈ Ｒｎ，ｙｉ ∈ ｛＋１，－１｝是类别标号。通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为ｗＴ ·ｘ＋ｂ＝０，线性判别函数为ｇ（ｘ）＝ｗＴ·ｘ＋ｂ。然后将判别函数进行归一化，使两类中的所有样本都必须满足条件｜ｇ（ｘ）｜ ≥１，即让距离分类面最近的样本的｜ｇ（ｘ）｜值等于１，这样分类间隔就等于２／ ‖ｗＴ‖ ，因此使间隔最大等价于使 ‖ｗＴ‖ 最小；分类线若要对所有样本都能正确分类，那么它必须满足以下条件：ｙｉ（ｗＴ·ｘｉ＋ｂ） ≥ １，ｉ＝１，２，…，ｎ（４）因此，要求得最优分类面，可以将问题转化成约束化问题，也就是在式（４）的约束下，使目标函数ｍａｘ１ ‖ｗＴ‖ 的值达到最小。为此定义拉格朗日函数：Ｌ（ｗ，ｂ，α）＝１２ ‖ｗＴ‖２－ ∑ ｎｉ＝１ αｉ（ｙｉ（ｗＴｘｉ＋ｂ）－１）（５）通过对ｗ和ｂ求解，计算出拉格朗日函数的极小值。再利用ＫＫＴ条件对分类决策函数求出最优解，最终结果为ｆ（ｘ）＝ｓｇｎ（∑ ｎｉ＝１ α ∗ ｉｙｉ（ｘｉ·ｘ）＋ｂ ∗ ）（６）式中： α ∗ 为最优解，ｂ ∗ 为分类的阈值。分类时先提取测试图像的显著区域，然后提取图像显著区域的特征值，构成特征向量输入到训练好的支持向量机分类器中，得到每个显著区域的标注词。２非显著区域的标注过程对图像的非显著区域进行标注时，本文将带有标签的图像区域引入对其进行标注。本文将未被标注的非显著区域和带有标注词的图像区域混合在一起，使用ｋ近邻法（ｋ⁃ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒ，ｋ⁃ＮＮ）聚类算法进行聚类，最终求得非显著区域的标注词。ｋ⁃ＮＮ算法的思路：假设给定一个训练数据集，里面的实例都有确定的类别，对测试实例，根据其ｋ个最近邻的训练实例的类别，通过多数表决方式进行预测。具体的流程如下：输入待标注的非显著区域和带标签的图像区域；输出非显著区域的标注词。１）在带有标签的图像区域中找出与每个待标注的非显著区域相似的Ｋ个样本，计算公式为Ｓｉｍ（ｄｉ，ｄｊ）＝（∑ Ｍｋ＝１Ｗｉｋ × Ｗｊｋ）／（∑ Ｍｋ＝１Ｗ２ｉｋ）（∑ Ｍｋ＝１Ｗ２ｊｋ）（７）２）在每个非显著区域的ｋ个近邻中，分别计算出每个类的权重，计算公式为ｐ（ｘ，Ｃｊ）＝ｄ∑ｉ∈ｋＮＮＳｉｍ（ｘ，ｄｉ）ｙ（ｄｉ，Ｃｊ）（８）式中：ｘ为待标注区域的特征向量，Ｓｉｍ（ｘ，ｄｉ）为相似性度量计算公式，与上一步骤的计算公式相同，而ｙ（ｄｉ，Ｃｊ）为类别属性函数，即如果ｄｉ属于类Ｃｊ，那么函数值为１，否则为０。３）比较类的权重，将待标注区域划分到权重最大的那个类别中。这样非显著区域就得到了相应的标注词，同时也得到了获得该标注词的概率。３标注词校正设每一幅待标注图像分割为ｎ个子区域Ｄｉ ·４４４· 智能系统学报第１１卷

第4期孙庆美，等：基于视觉注意机制和条件随机场的图像标注 ·445. (i=1,2,…,n)。在得到一幅图像的显著区域标 Corela5k数据集有5000幅图像，其中包括4500个签和非显著区域标签集合后，将这些标签整合成图训练样本和500测试样本。每一幅图像平均有3.5 像的标签向量：个关键词。在训练数据集中有371个标签，在测试 r=[p(aos)p(a,)…p(a.-1)] 数据集中有263个标签。另一个数据集是IAPR 式中：p(an)表示该图像的第n个区域获得标注词 TC-12。删除一部分图像后，留有100类的10000幅 αn的概率。本文使用条件随机场对图像已获取的标图像。在实验过程中，使用80%幅图像用于训练，注向量进行校正，最终获得图像的标注词。自从条 20%幅图像用于测试。所使用的第3个数据集是件随机场被提出以来，已有很多研究者把它引入图 ESP Game。总共包含21844幅图像。其中，19659 像标注问题的研究中[o,为了提高图像标注性能，张图像用作训练集，2185张图像用作测试集。本文根据标注词之间的关系构建合适的条件随机场 4.2实验设置模型。条件随机场可以用在很多不同的预测问题为了验证图像标注性能，采取3种评估方法：召上。图像标注问题属于线性链条件随机场。本文条回率、查准率和F-measure值。假设一个给定的标件随机场模型是一个无向图模型，图中的每一个点签的图像数量是！W,I,IW2I为有正确标注词的代表一个标注词，而两个点之间的边则代表两个标图像数量，！W,|是由图像标注方法得到标签的图像注词之间的关系。的数量。召回率和查准率可计算如下：条件随机场算法对标注词的校正除了涉及到标 I W I I W2 I 注词之间的共生关系之外，还将标注词的概率向量 recallprecision= 作为标注词的先验知识，然后建立标注词关系图并平均查准率(AP)和查全率(AR)可以反映整体重新计算图像的标注词概率向量。该算法构建所有标注性能。F-measure可以定义为标注词的关系无向图，在该无向图中除了包含有边 2·AP·AP F-measure 势函数（即式(9）)之外还包含有点势函数（即式 AR+AP (10)),其中标注词概率向量确定图中点的势函数，在本文实验中选择了3种视底层觉特征进行测而边的势函数则由学习训练集中标注词的关系所得试，它们分别为颜色直方图、纹理特征和ST。这3 到。例如标注词“马”出现了k,次，标注词“草地” 种底层特征从不同的角度描述图像的底层信息，同出现了k,次，两者同时出现在同一幅图像的次数为时使用会使标注性能更好。然后在3个数据库 k次。那么两个标注词的联合概率为 Corel5k、IAPR TC-I2和ESP Game上，将VAMCRF (a;,a;)=-log(P(ai,aj)) (9) 算法和其他著名算法进行比较。这些算法已表现出 1 了良好的性能，并且取得了很好的标注结果。因此 ⊙(a:)= (10) 1 ep(ai) 与它们的比较将能证明VAMCRF算法的性能。表 k3 1列出了这些算法和相应的标引。 P(a,a2)=min(k,k2) (11) 表1实验中用到的算法式中p(a:)是前面得到的图像被标注为a,的概率。 Table 1 Algorithms used in the comparison experiments 获得无向图中所有点势和边势之后，求取最优算法描述文献的图结构就能得到最终的图像标注集{aacs,a1, 2PKNN+ML 2-pass K-nearest neighbor+ML 11] …,a1。当图势函数值达到最小时，就得到了最 CCD (SVRMKL+KPCA)Canonical contextual distance [12] 优图结构，即式(12)中M的值最小的图结构： MBRM Multiple-Bernoulli relevance [13] M=∑(a:)+A∑(a,4,) (12) JEC Joint equal contribution [14] ajes (a,gy〉cE 式中：入表示点势函数和边势函数的权重关系，本 TagProp+ML Nearest neighbor models+ML [15] 文通过交叉验证的方法确定入=0.3。 TagProp+o ML Nearest neighbor models+o ML[15] 4.3 实验结果和比较 4 实验结果 4.3.1参数影响 4.1图像库在视觉注意机制中有一个参数ω。该参数对为了验证本文算法的图像标注性能，使用3个显著区域的提取有着重要的影响，需要通过实验来图像库。第1个图像库是Corel5K,该库被许多图像确定它的值。处理研究人员使用。它在许多文献中都有提及。首先从图像库中选取100幅有代表性图像，根

（ｉ＝１，２，…，ｎ）。在得到一幅图像的显著区域标签和非显著区域标签集合后，将这些标签整合成图像的标签向量：ｒ＝ [ｐ（ａｆｏｃｕｓ）ｐ（ａ１） … ｐ（ａｎ－１） ] 式中：ｐ（ａｎ）表示该图像的第ｎ个区域获得标注词ａｎ的概率。本文使用条件随机场对图像已获取的标注向量进行校正，最终获得图像的标注词。自从条件随机场被提出以来，已有很多研究者把它引入图像标注问题的研究中［１０］，为了提高图像标注性能，本文根据标注词之间的关系构建合适的条件随机场模型。条件随机场可以用在很多不同的预测问题上。图像标注问题属于线性链条件随机场。本文条件随机场模型是一个无向图模型，图中的每一个点代表一个标注词，而两个点之间的边则代表两个标注词之间的关系。条件随机场算法对标注词的校正除了涉及到标注词之间的共生关系之外，还将标注词的概率向量作为标注词的先验知识，然后建立标注词关系图并重新计算图像的标注词概率向量。该算法构建所有标注词的关系无向图，在该无向图中除了包含有边势函数（即式（９））之外还包含有点势函数（即式（１０）），其中标注词概率向量确定图中点的势函数，而边的势函数则由学习训练集中标注词的关系所得到。例如标注词“马”出现了ｋ１次，标注词“草地” 出现了ｋ２次，两者同时出现在同一幅图像的次数为ｋ３次。那么两个标注词的联合概率为 Φ（ａｉ，ａｊ）＝－ｌｏｇ（Ｐ（ａｉ，ａｊ））（９） Θ（ａｉ）＝１１＋ｅｐ（ａｉ）（１０）Ｐ（ａ１，ａ２）＝ｋ３ｍｉｎ（ｋ１，ｋ２）（１１）式中ｐ（ａｉ）是前面得到的图像被标注为ａｉ的概率。获得无向图中所有点势和边势之后，求取最优的图结构就能得到最终的图像标注集｛ａｆｏｃｕｓ，ａ１， …，ａｎ－１｝。当图势函数值达到最小时，就得到了最优图结构，即式（１２）中Ｍ的值最小的图结构：Ｍ＝ ∑ａｉ∈Ｓ Ψ（ａｉ）＋ λ （ａ∑ｉ，ａｊ）∈Ｅ Φ（ａｉ，ａｊ）（１２）式中： λ 表示点势函数和边势函数的权重关系，本文通过交叉验证的方法确定 λ ＝０．３。４实验结果４．１图像库为了验证本文算法的图像标注性能，使用３个图像库。第１个图像库是Ｃｏｒｅｌ５Ｋ，该库被许多图像处理研究人员使用。它在许多文献中都有提及。Ｃｏｒｅｌ５ｋ数据集有５０００幅图像，其中包括４５００个训练样本和５００测试样本。每一幅图像平均有３．５个关键词。在训练数据集中有３７１个标签，在测试数据集中有２６３个标签。另一个数据集是ＩＡＰＲＴＣ⁃１２。删除一部分图像后，留有１００类的１００００幅图像。在实验过程中，使用８０％幅图像用于训练，２０％幅图像用于测试。所使用的第３个数据集是ＥＳＰＧａｍｅ。总共包含２１８４４幅图像。其中，１９６５９张图像用作训练集，２１８５张图像用作测试集。４．２实验设置为了验证图像标注性能，采取３种评估方法：召回率、查准率和Ｆ⁃ｍｅａｓｕｒｅ值。假设一个给定的标签的图像数量是｜Ｗ１｜，｜Ｗ２｜为有正确标注词ｗ的图像数量，｜Ｗ３｜是由图像标注方法得到标签的图像的数量。召回率和查准率可计算如下：ｒｅｃａｌｌ＝｜Ｗ２｜｜Ｗ１｜，ｐｒｅｃｉｓｉｏｎ＝｜Ｗ２｜｜Ｗ３｜平均查准率（ＡＰ）和查全率（ＡＲ）可以反映整体标注性能。Ｆ⁃ｍｅａｓｕｒｅ可以定义为Ｆ⁃ｍｅａｓｕｒｅ＝２·ＡＰ·ＡＰＡＲ＋ＡＰ在本文实验中选择了３种视底层觉特征进行测试，它们分别为颜色直方图、纹理特征和ＳＩＦＴ。这３种底层特征从不同的角度描述图像的底层信息，同时使用会使标注性能更好。然后在３个数据库Ｃｏｒｅｌ５ｋ、ＩＡＰＲＴＣ⁃１２和ＥＳＰＧａｍｅ上，将ＶＡＭＣＲＦ算法和其他著名算法进行比较。这些算法已表现出了良好的性能，并且取得了很好的标注结果。因此与它们的比较将能证明ＶＡＭＣＲＦ算法的性能。表１列出了这些算法和相应的标引。表１实验中用到的算法Ｔａｂｌｅ１Ａｌｇｏｒｉｔｈｍｓｕｓｅｄｉｎｔｈｅｃｏｍｐａｒｉｓｏｎｅｘｐｅｒｉｍｅｎｔｓ算法描述文献２ＰＫＮＮ＋ＭＬ２⁃ｐａｓｓＫ⁃ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒ＋ＭＬ［１１］ＣＣＤ（ＳＶＲＭＫＬ＋ＫＰＣＡ）Ｃａｎｏｎｉｃａｌｃｏｎｔｅｘｔｕａｌｄｉｓｔａｎｃｅ［１２］ＭＢＲＭＭｕｌｔｉｐｌｅ⁃Ｂｅｒｎｏｕｌｌｉｒｅｌｅｖａｎｃｅ［１３］ＪＥＣＪｏｉｎｔｅｑｕａｌｃｏｎｔｒｉｂｕｔｉｏｎ［１４］ＴａｇＰｒｏｐ＋ＭＬＮｅａｒｅｓｔｎｅｉｇｈｂｏｒｍｏｄｅｌｓ＋ＭＬ［１５］ＴａｇＰｒｏｐ＋ σ ＭＬＮｅａｒｅｓｔｎｅｉｇｈｂｏｒｍｏｄｅｌｓ＋ σ ＭＬ［１５］４．３实验结果和比较４．３．１参数影响在视觉注意机制中有一个参数 ω 。该参数对显著区域的提取有着重要的影响，需要通过实验来确定它的值。首先从图像库中选取１００幅有代表性图像，根第４期孙庆美，等：基于视觉注意机制和条件随机场的图像标注 ·４４５·

.446 智能系统学报第11卷据经验人眼对亮度的敏感度比面积大一些，所以对 4.3.2标签数目对标注的影响 w取这样不同的一组值{0.30,0.32,0.34,0.36，标注性能的好坏有很多影响因素，标签数目就 0.38,0.40,0.42,0.44,0.46,0.48,0.50}。通过实是其中一种因素，为了验证标签数目对标注性能的验发现当ω=0.42时，提取图像显著区域效果最影响，选取了不同的标签数进行实验。图3分别显好。图1说明了当ω=0.42时一些类的显著区域示了在3个数据库上不同的标签数目对标注的影提取的实例。从表中可以看到，VAM算法能够预测响。横坐标表示所取标签的个数从1~8，纵坐标代并很好地提取图像的显著区域。表对应标签数时F,的变化。这是在两种方法下所做的实验，方法1是使用视觉注意机制和SVM求得显著区域的标注词，然后利用k-NN求得非显著区域的标注词：方法2是在方法1的基础上利用条件随机场对所获得的标注词进行校正。 0.50 0.45 0.40 (a)人 (b)船 0.35 0.30 0.20 0.15 0.10 +方法1 0.05 日方法2 02 2 345 6 78 标签数 (c)太阳 (d)建筑 (a)Corels5k数据库图1用VAM算法提取显著区域的例子 0.50 0.45 Fig.1 Some examples using our proposed VAM 0.40 在对图像的非显著区域进行标注时，采用了k 0.35 NN聚类算法。k-NN聚类算法是最简单的机器学习算法之一，其中k值的选择对结果至关重要。实验 0.20 0.15 测试了参数k取不同值时对标注结果的影响。图2 0.10 +方法1 展示的是用k-NN聚类算法在3个图像库上对非显 0.05 日-方法2 著区域标注的性能。横坐标表示参数k取值的范 2 3 45 678 标签数围，纵坐标代表对应k值时F,的变化。可以看到， (b)IAPR TC-12数据库当k=100时F达到最大值，也就是此时标注效果最 0.50r 好。所以，在下面的实验当中k取100。 0.45 0.25 图像库1 0.40 0.35 0.20 图像库3 0.25 0.15 0.20 0.15 0.10 0.10 0.05 +方法】 0.05 0 0-方法2 1 2 3 45 678 0 标签数 110204080100200400500 (c)ESP Games数据库图3不同标签数对标注的影响图2在3个图像库上k取不同值的标注结果 Fig.3 The effect of different tag numbers on annotation Fig.2 The results of k-NN with different k in the image datasets 1-3 从图3可以看出，当只给图像一个标签时

据经验人眼对亮度的敏感度比面积大一些，所以对 ω 取这样不同的一组值｛０．３０，０．３２，０．３４，０．３６，０．３８，０．４０，０．４２，０．４４，０．４６，０．４８，０．５０｝。通过实验发现当 ω ＝０．４２时，提取图像显著区域效果最好。图１说明了当 ω ＝０．４２时一些类的显著区域提取的实例。从表中可以看到，ＶＡＭ算法能够预测并很好地提取图像的显著区域。图１用ＶＡＭ算法提取显著区域的例子Ｆｉｇ．１ＳｏｍｅｅｘａｍｐｌｅｓｕｓｉｎｇｏｕｒｐｒｏｐｏｓｅｄＶＡＭ在对图像的非显著区域进行标注时，采用了ｋ⁃ ＮＮ聚类算法。ｋ⁃ＮＮ聚类算法是最简单的机器学习算法之一，其中ｋ值的选择对结果至关重要。实验测试了参数ｋ取不同值时对标注结果的影响。图２展示的是用ｋ⁃ＮＮ聚类算法在３个图像库上对非显著区域标注的性能。横坐标表示参数ｋ取值的范围，纵坐标代表对应ｋ值时Ｆ１的变化。可以看到，当ｋ＝１００时Ｆ１达到最大值，也就是此时标注效果最好。所以，在下面的实验当中ｋ取１００。图２在３个图像库上ｋ取不同值的标注结果Ｆｉｇ．２Ｔｈｅｒｅｓｕｌｔｓｏｆｋ⁃ＮＮｗｉｔｈｄｉｆｆｅｒｅｎｔｋｉｎｔｈｅｉｍａｇｅｄａｔａｓｅｔｓ１～３４．３．２标签数目对标注的影响标注性能的好坏有很多影响因素，标签数目就是其中一种因素，为了验证标签数目对标注性能的影响，选取了不同的标签数进行实验。图３分别显示了在３个数据库上不同的标签数目对标注的影响。横坐标表示所取标签的个数从１～８，纵坐标代表对应标签数时Ｆ１的变化。这是在两种方法下所做的实验，方法１是使用视觉注意机制和ＳＶＭ求得显著区域的标注词，然后利用ｋ⁃ＮＮ求得非显著区域的标注词；方法２是在方法１的基础上利用条件随机场对所获得的标注词进行校正。（ａ）Ｃｏｒｅｌ５ｋ数据库（ｂ）ＩＡＰＲＴＣ⁃１２数据库（ｃ）ＥＳＰＧａｍｅｓ数据库图３不同标签数对标注的影响Ｆｉｇ．３Ｔｈｅｅｆｆｅｃｔｏｆｄｉｆｆｅｒｅｎｔｔａｇｎｕｍｂｅｒｓｏｎａｎｎｏｔａｔｉｏｎ从图３可以看出，当只给图像一个标签时， ·４４６· 智能系统学报第１１卷

第4期孙庆美，等：基于视觉注意机制和条件随机场的图像标注 .447. 标注结果够不好，随着使用标签数目的增加，标表4在ESP Game数据库上和其他算法标注性能的比较注的准确度都在增加。但是使用的标签数不易 Table 4 Performance comparison with other algo- 过多，如果过多反而会使标注准确度下降。方法 rithms on the ESP Game 2比方法1的效果更好些，说明标注词之间的共算法 AR AP F 生关系对标注效果也是十分重要的。标签相关 2PKNN+ML 0.27 0.53 0.357 性的引入使得标注结果更符合实际的标签集，由 CCD(SVRMKL+KPCA) 0.24 0.36 0.284 此证明了本文算法的优势。 MBRM 0.19 0.18 0.185 4.3.3比较和结果分析 JEC 0.25 0.22 0.234 为了验证本文所提出算法的标注性能，在 TagProp+ML 0.20 0.49 0.284 Corel5k、IAPR TC-l2和ESP Game3个图像库中的 TagProp+o ML 0.27 0.39 0.319 测试图像集进行了实验，并对AR、AP和F,的值进 VAMCRF 0.28 0.50 0.358 行对比。在表2~4给出了比较结果。表3在IAPR TC-I2数据库上与其他算法标注性能的比较表2显示了VAMCRF算法在Corel5k上得到 Table 3 Performance comparison with other algo- 的AR、AP和F,的值。从表中数据可见，VAM- rithms on the IAPR TC-12 CRF算法取得了最高AR值0.48，AP最高值为算法 AR AP F 0.45,F1最大值为0.464。与其他6种算法F,最 2PKNN+ML 0.37 0.54 0.439 高值0.439比较，VAMCRF的最大值0.464至少 CCD(SVRMKL+KPCA) 0.29 0.44 0.350 高出了0.014。 MBRM 0.23 0.24 0.235 表2在Coel5k数据库上和其他算法标注性能的比较 JEC 0.29 0.28 0.285 Table 2 Performance comparison with other algo- TagProp+ML 0.25 0.48 0.329 rithms on the Corel5k TagProp+o ML 0.35 0.46 0.398 算法 AR AP F VAMCRF 0.37 0.56 0.445 2PKNN+ML 0.46 0.440.450 5 CCD(SVRMKL+KPCA) 0.41 0.36 0.383 结论 MBRM 0.25 0.24 0.245 本文提出了一种基于视觉注意机制和条件随机 JEC 0.32 0.27 0.293 场的算法进行图像的标注，并在Corel5k,IAPR TC TagProp+ML 0.37 0.31 0.337 12和ESP Game图像库上进行实验。首先，用视觉 TagProp+o ML 0.42 0.33 0.370 注意机制提取图像的显著区域，然后利用SVM进行 VAMCRF 0.48 0.45 0.464 标注，之后使用k-NN聚类算法对图像的非显著区表3显示了VAMCRF算法在IAPR TC-I2上得域进行标注，最后利用条件随机场对图像的标注词向量进行校正。实验结果表明，与传统方法相比，本到的AR、AP和F,的值。从表中数据可见，2PKNN+ 文所提出的算法在标注性能上取得了很好的效果， ML算法和VAMCRF算法取得了最高AR值O.37, 但是从时间复杂度方面来看还需要很多的改进工 AP最高值0.56，F,最大值0.445。与其他6种算法作，在未来的研究中可以对算法进行进一步改进以 F最高值0.450比较，VAMCRF的最大值0.445至期降低时间复杂度。少高出了0.006。表4显示了VAMCRF算法在ESP Game上得到参考文献：的AR、AP和F,的值。从表中数据可见，VAMCRF [1]WANG Meng,NI Bingbing,HUA Xiansheng,et al.Assis- 算法取得了最高AR值O.28,2PKNN+ML最高AP tive tagging:a survey of multimedia tagging with human- computer joint exploration[J].ACM computing surveys, 值0.53，F,最大值0.358。与其他6种算法F,最高 2012,44(4):25. 值0.357比较，VAMCRF的最大值0.358至少高出 [2]JIN Cong,JIN Shuwei.Image distance metric learning based 了0.001。 on neighborhood sets for automatic image annotation[J]

标注结果够不好，随着使用标签数目的增加，标注的准确度都在增加。但是使用的标签数不易过多，如果过多反而会使标注准确度下降。方法２比方法１的效果更好些，说明标注词之间的共生关系对标注效果也是十分重要的。标签相关性的引入使得标注结果更符合实际的标签集，由此证明了本文算法的优势。４．３．３比较和结果分析为了验证本文所提出算法的标注性能，在Ｃｏｒｅｌ５ｋ、ＩＡＰＲＴＣ⁃１２和ＥＳＰＧａｍｅ３个图像库中的测试图像集进行了实验，并对ＡＲ、ＡＰ和Ｆ１的值进行对比。在表２～４给出了比较结果。表２显示了ＶＡＭＣＲＦ算法在Ｃｏｒｅｌ５ｋ上得到的ＡＲ、ＡＰ和Ｆ１的值。从表中数据可见，ＶＡＭ⁃ ＣＲＦ算法取得了最高ＡＲ值０．４８，ＡＰ最高值为０．４５，Ｆ１最大值为０．４６４。与其他６种算法Ｆ１最高值０．４３９比较，ＶＡＭＣＲＦ的最大值０．４６４至少高出了０．０１４。表２在Ｃｏｒｅｌ５ｋ数据库上和其他算法标注性能的比较Ｔａｂｌｅ２Ｐｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎｗｉｔｈｏｔｈｅｒａｌｇｏ⁃ ｒｉｔｈｍｓｏｎｔｈｅＣｏｒｅｌ５ｋ算法ＡＲＡＰＦ１２ＰＫＮＮ＋ＭＬ０．４６０．４４０．４５０ＣＣＤ（ＳＶＲＭＫＬ＋ＫＰＣＡ）０．４１０．３６０．３８３ＭＢＲＭ０．２５０．２４０．２４５ＪＥＣ０．３２０．２７０．２９３ＴａｇＰｒｏｐ＋ＭＬ０．３７０．３１０．３３７ＴａｇＰｒｏｐ＋ σ ＭＬ０．４２０．３３０．３７０ＶＡＭＣＲＦ０．４８０．４５０．４６４表３显示了ＶＡＭＣＲＦ算法在ＩＡＰＲＴＣ⁃１２上得到的ＡＲ、ＡＰ和Ｆ１的值。从表中数据可见，２ＰＫＮＮ＋ＭＬ算法和ＶＡＭＣＲＦ算法取得了最高ＡＲ值０．３７，ＡＰ最高值０．５６，Ｆ１最大值０．４４５。与其他６种算法Ｆ１最高值０．４５０比较，ＶＡＭＣＲＦ的最大值０．４４５至少高出了０．００６。表４显示了ＶＡＭＣＲＦ算法在ＥＳＰＧａｍｅ上得到的ＡＲ、ＡＰ和Ｆ１的值。从表中数据可见，ＶＡＭＣＲＦ算法取得了最高ＡＲ值０．２８，２ＰＫＮＮ＋ＭＬ最高ＡＰ值０．５３，Ｆ１最大值０．３５８。与其他６种算法Ｆ１最高值０．３５７比较，ＶＡＭＣＲＦ的最大值０．３５８至少高出了０．００１。表４在ＥＳＰＧａｍｅ数据库上和其他算法标注性能的比较Ｔａｂｌｅ４Ｐｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎｗｉｔｈｏｔｈｅｒａｌｇｏ⁃ ｒｉｔｈｍｓｏｎｔｈｅＥＳＰＧａｍｅ算法ＡＲＡＰＦ１２ＰＫＮＮ＋ＭＬ０．２７０．５３０．３５７ＣＣＤ（ＳＶＲＭＫＬ＋ＫＰＣＡ）０．２４０．３６０．２８４ＭＢＲＭ０．１９０．１８０．１８５ＪＥＣ０．２５０．２２０．２３４ＴａｇＰｒｏｐ＋ＭＬ０．２００．４９０．２８４ＴａｇＰｒｏｐ＋ σ ＭＬ０．２７０．３９０．３１９ＶＡＭＣＲＦ０．２８０．５００．３５８表３在ＩＡＰＲＴＣ⁃１２数据库上与其他算法标注性能的比较Ｔａｂｌｅ３Ｐｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎｗｉｔｈｏｔｈｅｒａｌｇｏ⁃ ｒｉｔｈｍｓｏｎｔｈｅＩＡＰＲＴＣ⁃１２算法ＡＲＡＰＦ１２ＰＫＮＮ＋ＭＬ０．３７０．５４０．４３９ＣＣＤ（ＳＶＲＭＫＬ＋ＫＰＣＡ）０．２９０．４４０．３５０ＭＢＲＭ０．２３０．２４０．２３５ＪＥＣ０．２９０．２８０．２８５ＴａｇＰｒｏｐ＋ＭＬ０．２５０．４８０．３２９ＴａｇＰｒｏｐ＋ σ ＭＬ０．３５０．４６０．３９８ＶＡＭＣＲＦ０．３７０．５６０．４４５５结论本文提出了一种基于视觉注意机制和条件随机场的算法进行图像的标注，并在Ｃｏｒｅｌ５ｋ，ＩＡＰＲＴＣ⁃ １２和ＥＳＰＧａｍｅ图像库上进行实验。首先，用视觉注意机制提取图像的显著区域，然后利用ＳＶＭ进行标注，之后使用ｋ⁃ＮＮ聚类算法对图像的非显著区域进行标注，最后利用条件随机场对图像的标注词向量进行校正。实验结果表明，与传统方法相比，本文所提出的算法在标注性能上取得了很好的效果，但是从时间复杂度方面来看还需要很多的改进工作，在未来的研究中可以对算法进行进一步改进以期降低时间复杂度。参考文献：［１］ＷＡＮＧＭｅｎｇ，ＮＩＢｉｎｇｂｉｎｇ，ＨＵＡＸｉａｎｓｈｅｎｇ，ｅｔａｌ．Ａｓｓｉｓ⁃ ｔｉｖｅｔａｇｇｉｎｇ：ａｓｕｒｖｅｙｏｆｍｕｌｔｉｍｅｄｉａｔａｇｇｉｎｇｗｉｔｈｈｕｍａｎ－ｃｏｍｐｕｔｅｒｊｏｉｎｔｅｘｐｌｏｒａｔｉｏｎ［Ｊ］．ＡＣＭｃｏｍｐｕｔｉｎｇｓｕｒｖｅｙｓ，２０１２，４４（４）：２５．［２］ＪＩＮＣｏｎｇ，ＪＩＮＳｈｕｗｅｉ．Ｉｍａｇｅｄｉｓｔａｎｃｅｍｅｔｒｉｃｌｅａｒｎｉｎｇｂａｓｅｄｏｎｎｅｉｇｈｂｏｒｈｏｏｄｓｅｔｓｆｏｒａｕｔｏｍａｔｉｃｉｍａｇｅａｎｎｏｔａｔｉｏｎ［Ｊ］．第４期孙庆美，等：基于视觉注意机制和条件随机场的图像标注 ·４４７·

.448. 智能系统学报第11卷 Journal of visual communication and image representation, [11]VERMA Y,JAWAHAR C V.Image annotation using met- 2016,34:167-175 ric learning in semantic neighbourhoods[C]//Proceedings [3]DUYGULU P,BARNARD K,DE FREITAS J F G,et al. of the 12th European Conference on Computer Vision.Ber- Object recognition as machine translation:learning a lexicon lin Heidelberg:Springer,2012:836-849. for a fixed image vocabulary [C]//Proceedings of the 7th [12]NAKAYAMA H.Linear distance metric learning for large- European Conference on Computer Vision.Berlin Heidel- scale generic image recognition[D].Tokyo,Japan:The berg:Springer-Verlag,2002:97-112. University of Tokyo,2011. [4]JEON J,LAVRENKO V,MANMATHA R.Automatic image [13]FENG S L,MANMATHA R,LAVRENKO V.Multiple annotation and retrieval using cross-media relevance models Bernoulli relevance models for image and video annotation [C]//Proceedings of the 26th annual Interational ACM SI- [C]//Proceedings of the 2004 IEEE Computer Society GIR Conference on Research and Development in Informa- Conference on Computer Vision and Pattern Recognition. tion Retrieval.New York,NY,USA:ACM,2003:119- Washington,DC,USA:IEEE,2004,2:II-1002-II- 126. 1009. [5]LOOG M.Semi-supervised linear discriminant analysis [14]MAKADIA A,PAVLOVIC V,KUMAR S.A new baseline through moment-constraint parameter estimation[J].Pat- for image annotation C]//Proceedings of the European tern recognition letters,2014,37:24-31. Conference on Computer Vision.Berlin Heidelberg: [6]FU Hong,CHI Zheru,FENG Dagan.Recognition of atten- Springer-Verlag,2008:316-329. tive objects with a concept association network for image an- [15]GUILLAUMIN M,MENSINK T,VERBEEK J,et al.Tag- notation[J].Pattern recognition,2010,43(10):3539- Prop:discriminative metric learning in nearest neighbor 3547. models for image auto-annotation[C]//Proceedings of the [7]FAREED MM S,AHMED G,CHUN Qi.Salient region de- 2009 IEEE 12th International Conference on Computer Vi- tection through sparse reconstruction and graph-based rank- sion.Kyoto:IEEE,2009:309-316. ing[J].Journal of visual communication and image repre- 作者简介： sentation.2015,32:144-155. 孙庆美，女，1989年生，硕士研究生，主要研究方向为 [8]JA Cong,QI Jinqing,LI Xiaohui,et al.Saliency detection 数字图像处理 via a unified generative and discriminative model[.Neu- ocomputing,2016,173:406-417. [9]KHANDOKER A H,PALANISWAMI M,KARMAKAR C K.Support vector machines for automated recognition of ob- structive sleep apnea syndrome from ECG recordings[J]. 金聪，女，1960年生，教授，博士。主要研究方向为数字 IEEE transactions on information technology in biomedicine, 图像处理 2009,13(1):37-48. [10]PRUTEANU-MALINICI I,MAJOROS W H,OHLER U. Automated annotation of gene expression image sequences via non-parametric factor analysis and conditional random fields[].Bioinformatics,2013,29(13):i27-i35

Ｊｏｕｒｎａｌｏｆｖｉｓｕａｌｃｏｍｍｕｎｉｃａｔｉｏｎａｎｄｉｍａｇｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ，２０１６，３４：１６７－１７５．［３］ＤＵＹＧＵＬＵＰ，ＢＡＲＮＡＲＤＫ，ＤＥＦＲＥＩＴＡＳＪＦＧ，ｅｔａｌ．Ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎａｓｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ：ｌｅａｒｎｉｎｇａｌｅｘｉｃｏｎｆｏｒａｆｉｘｅｄｉｍａｇｅｖｏｃａｂｕｌａｒｙ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ７ｔｈＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．ＢｅｒｌｉｎＨｅｉｄｅｌ⁃ ｂｅｒｇ：Ｓｐｒｉｎｇｅｒ⁃Ｖｅｒｌａｇ，２００２：９７－１１２．［４］ＪＥＯＮＪ，ＬＡＶＲＥＮＫＯＶ，ＭＡＮＭＡＴＨＡＲ．Ａｕｔｏｍａｔｉｃｉｍａｇｅａｎｎｏｔａｔｉｏｎａｎｄｒｅｔｒｉｅｖａｌｕｓｉｎｇｃｒｏｓｓ⁃ｍｅｄｉａｒｅｌｅｖａｎｃｅｍｏｄｅｌｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２６ｔｈａｎｎｕａｌＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩ⁃ ＧＩＲＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａ⁃ ｔｉｏｎＲｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＡＣＭ，２００３：１１９－１２６．［５］ＬＯＯＧＭ．Ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｌｉｎｅａｒｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓｔｈｒｏｕｇｈｍｏｍｅｎｔ⁃ｃｏｎｓｔｒａｉｎｔｐａｒａｍｅｔｅｒｅｓｔｉｍａｔｉｏｎ［Ｊ］．Ｐａｔ⁃ ｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｌｅｔｔｅｒｓ，２０１４，３７：２４－３１．［６］ＦＵＨｏｎｇ，ＣＨＩＺｈｅｒｕ，ＦＥＮＧＤａｇａｎ．Ｒｅｃｏｇｎｉｔｉｏｎｏｆａｔｔｅｎ⁃ ｔｉｖｅｏｂｊｅｃｔｓｗｉｔｈａｃｏｎｃｅｐｔａｓｓｏｃｉａｔｉｏｎｎｅｔｗｏｒｋｆｏｒｉｍａｇｅａｎ⁃ ｎｏｔａｔｉｏｎ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，２０１０，４３（１０）：３５３９－３５４７．［７］ＦＡＲＥＥＤＭＭＳ，ＡＨＭＥＤＧ，ＣＨＵＮＱｉ．Ｓａｌｉｅｎｔｒｅｇｉｏｎｄｅ⁃ ｔｅｃｔｉｏｎｔｈｒｏｕｇｈｓｐａｒｓｅｒｅｃｏｎｓｔｒｕｃｔｉｏｎａｎｄｇｒａｐｈ⁃ｂａｓｅｄｒａｎｋ⁃ ｉｎｇ［Ｊ］．Ｊｏｕｒｎａｌｏｆｖｉｓｕａｌｃｏｍｍｕｎｉｃａｔｉｏｎａｎｄｉｍａｇｅｒｅｐｒｅ⁃ ｓｅｎｔａｔｉｏｎ，２０１５，３２：１４４－１５５．［８］ＪＩＡＣｏｎｇ，ＱＩＪｉｎｑｉｎｇ，ＬＩＸｉａｏｈｕｉ，ｅｔａｌ．Ｓａｌｉｅｎｃｙｄｅｔｅｃｔｉｏｎｖｉａａｕｎｉｆｉｅｄｇｅｎｅｒａｔｉｖｅａｎｄｄｉｓｃｒｉｍｉｎａｔｉｖｅｍｏｄｅｌ［Ｊ］．Ｎｅｕ⁃ ｒｏｃｏｍｐｕｔｉｎｇ，２０１６，１７３：４０６－４１７．［９］ＫＨＡＮＤＯＫＥＲＡＨ，ＰＡＬＡＮＩＳＷＡＭＩＭ，ＫＡＲＭＡＫＡＲＣＫ．Ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓｆｏｒａｕｔｏｍａｔｅｄｒｅｃｏｇｎｉｔｉｏｎｏｆｏｂ⁃ ｓｔｒｕｃｔｉｖｅｓｌｅｅｐａｐｎｅａｓｙｎｄｒｏｍｅｆｒｏｍＥＣＧｒｅｃｏｒｄｉｎｇｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙｉｎｂｉｏｍｅｄｉｃｉｎｅ，２００９，１３（１）：３７－４８．［１０］ＰＲＵＴＥＡＮＵ⁃ＭＡＬＩＮＩＣＩＩ，ＭＡＪＯＲＯＳＷＨ，ＯＨＬＥＲＵ．Ａｕｔｏｍａｔｅｄａｎｎｏｔａｔｉｏｎｏｆｇｅｎｅｅｘｐｒｅｓｓｉｏｎｉｍａｇｅｓｅｑｕｅｎｃｅｓｖｉａｎｏｎ⁃ｐａｒａｍｅｔｒｉｃｆａｃｔｏｒａｎａｌｙｓｉｓａｎｄｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓ［Ｊ］．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２０１３，２９（１３）：ｉ２７－ｉ３５．［１１］ＶＥＲＭＡＹ，ＪＡＷＡＨＡＲＣＶ．Ｉｍａｇｅａｎｎｏｔａｔｉｏｎｕｓｉｎｇｍｅｔ⁃ ｒｉｃｌｅａｒｎｉｎｇｉｎｓｅｍａｎｔｉｃｎｅｉｇｈｂｏｕｒｈｏｏｄｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２ｔｈＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｂｅｒ⁃ ｌｉｎＨｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２０１２：８３６－８４９．［１２］ＮＡＫＡＹＡＭＡＨ．Ｌｉｎｅａｒｄｉｓｔａｎｃｅｍｅｔｒｉｃｌｅａｒｎｉｎｇｆｏｒｌａｒｇｅ⁃ ｓｃａｌｅｇｅｎｅｒｉｃｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ［Ｄ］．Ｔｏｋｙｏ，Ｊａｐａｎ：ＴｈｅＵｎｉｖｅｒｓｉｔｙｏｆＴｏｋｙｏ，２０１１．［１３］ＦＥＮＧＳＬ，ＭＡＮＭＡＴＨＡＲ，ＬＡＶＲＥＮＫＯＶ．ＭｕｌｔｉｐｌｅＢｅｒｎｏｕｌｌｉｒｅｌｅｖａｎｃｅｍｏｄｅｌｓｆｏｒｉｍａｇｅａｎｄｖｉｄｅｏａｎｎｏｔａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００４ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｗａｓｈｉｎｇｔｏｎ，ＤＣ，ＵＳＡ：ＩＥＥＥ，２００４，２：ＩＩ⁃１００２⁃ＩＩ⁃ １００９．［１４］ＭＡＫＡＤＩＡＡ，ＰＡＶＬＯＶＩＣＶ，ＫＵＭＡＲＳ．Ａｎｅｗｂａｓｅｌｉｎｅｆｏｒｉｍａｇｅａｎｎｏｔａｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．ＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ⁃Ｖｅｒｌａｇ，２００８：３１６－３２９．［１５］ＧＵＩＬＬＡＵＭＩＮＭ，ＭＥＮＳＩＮＫＴ，ＶＥＲＢＥＥＫＪ，ｅｔａｌ．Ｔａｇ⁃ Ｐｒｏｐ：ｄｉｓｃｒｉｍｉｎａｔｉｖｅｍｅｔｒｉｃｌｅａｒｎｉｎｇｉｎｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｍｏｄｅｌｓｆｏｒｉｍａｇｅａｕｔｏ⁃ａｎｎｏｔａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００９ＩＥＥＥ１２ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉ⁃ ｓｉｏｎ．Ｋｙｏｔｏ：ＩＥＥＥ，２００９：３０９－３１６．作者简介：孙庆美，女，１９８９年生，硕士研究生，主要研究方向为数字图像处理金聪，女，１９６０年生，教授，博士。主要研究方向为数字图像处理 ·４４８· 智能系统学报第１１卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录