第6卷第4期 智能系统学报 Vol.6 No.4 2011年8月 CAAI Transactions on Intelligent Systems Aug.2011 doi:10.3969/i.issn.1673-4785.2011.04.012 词间相关性的CMRM图像标注方法 刘咏梅,代丽洁 (哈尔滨工程大学计算机科学与技术学院,黑龙江哈尔滨150001) 摘要:自动图像标注因其对图像理解和网络图像检素的重要意义,近年来已成为新的热点研究课题.在图像标注 的CMRM模型基础上,提出了一种基于词间相关性的CMRM标注方法.该方法提取了标注字之间的词间相关关系, 并利用图学习算法,通过将词间相关性矩阵叠加到初始标注矩阵的方法对标注结果进行了改善.利用Coel5k标注 图像库中的自然场景图像进行实验.实验结果表明,该方法很好地完成了对测试集图像的自动标注,在查全率与查 准率上较CMRM模型有所提高. 关键词:图像标注;CMRM模型;相关关系;词间相关性矩阵 中图分类号:TP391文献标识码:A文章编号:16734785(2011)04035005 A method of CMRM image annotation based on inter-word correlation LIU Yongmei,DAI Lijie (School of Computer Science and Technology,Harbin Engineering University,Harbin 150001,China) Abstract:Automatic image annotation is significant for image understanding and retrieval of web images.As a re- sult,it has become a hot research topic in recent years.On the basis of a CMRM image annotation model,an effi- cient image annotation method was proposed based on inter-word correlations.The correlations between the annota- ted words were picked up,and the inter-word correlation matrix was added to the initial labeling matrix by a graph learning algorithm.The proposed annotation approach was tested by a Corel5k database with natural scene images. The experimental result shows that the method can automatically label the images in the test set very well.The re- call and precision are increased compared to CMRM. Keywords:image annotation;CMRM;correlation;word-correlation matrix 有效的图像描述方法]是图像数据管理的基CMRM模型对图像进行标注,然后从训练集中提出 础.目前图像描述方法主要采用人工标注的方式进 关键字之间的相关关系,并利用图学习算法,将这种 行,但是由于人工方式耗时费力而且缺乏客观性,因 相关关系在各个关键字之间进行传播,从而得到新 此需要对图像进行自动标注. 的图像标注关键字。 此外,对图像进行自动的语义标注是图像检索 中重要且非常具有挑战性的工作2)].对于提高检索 1 CMRM图像标注方法 系统的效率有着重要的意义.因此如何快速有效地 联合媒体相关模型(cross-media relevance mod- 进行自动的图像标注就变得异常重要。 els,CMRM)将相关语言模型(relevance-.based lan-- 通过对CMRM算法的研究发现,该模型只考虑 guage model)B4应用到图像标注中,通过对训练图 了视觉特征与标注关键字之间的对应关系,却忽略 像集的学习获取图像的视觉词元与关键字的联合概 了关键字本身所具有的相关性,因此,提出了一种基 率分布.利用概率统计方法,获得每个关键字作为图 于词间相关性的CMRM图像标注方法.首先利用 像标注的概率,并以此作为选择标注的依据.该模型 在图像标注领域取得了较好的成绩,现在已经成为 收稿日期:2010-03-15 基金项目:中央高校基本科研业务费专项资金资助项目(H正UCF00604), 各种新图像标注方法进行性能对比的标准方法. 通信作者:刘咏梅.E-mail:liuyongmei@hrbeu.edu.cm. 在利用CMRM算法对图像进行标注过程中常
第4期 刘咏梅,等:词间相关性的CMRM图像标注方法 ·351· 用的图像描述方法如下: 所以该值一般取为0或1;#(w,T)表示0出现在训 1)关键字记为w:,i=1,2,…,n. 练集T中的总次数,它等于用该关键字标注的训练 2)视觉词元记为b,i=1,2,…,m.并用它对图 图像的总数;同理,#(b,J)和#(b,T)也表示相应的 像进行表示. 次数.利用式(1)~(5)4估计出概率P(01I)后, 3)训练图像记为J={b1,b2,…,bm,01,02,…, 就可以直接利用这个概率对图像进行标注.本文中 wn,其中i为图像的编号, 将a,和B,这2个参数经评估后分别取为a,=0.1, 4)测试图像记为I={b,b2,…,bm}. B=0.9. 1.1CMRM标注的基本原理 1.2CMRM的图像标注算法 CMRM模型采用一种生成式的语言建模方 利用联合媒体相关模型对图像进行标注的主要 法45],该方法认为每幅图像的视觉特征与标注关键 步骤总结如下: 字之间都有一种潜在概率分布P(·1),并且将这个 1)从数据集的文件中统计出的基本信息, 分布看作是1的相关模型46.可以将图像的视觉词 #(W,J):每个关键字出现在每幅图像的标注中 元表示{b1,b2,…,bm}看作是从P(·II)中进行m次 的次数,一般为0或1. 随机采样得到的.同理,很自然地想到对图像I进行 #(w,T):关键字出现在数据集中的总次数 标注可以看作是从它的相关模型P(·)中随机抽 #料b,J):视觉词元b出现在每幅图像中的次数 样n次得到了n个关键字,为了能对相关模型进行抽 #(b,T):视觉词元b出现在全部训练图像中的 样需要对标注集中每个关键字都估计概率 次数 由于P(·I)本身是未知的,因此可以考虑利 2)利用统计信息计算关键字和视觉词元的条 用条件概率P(wb,b2,…,bn)近似P(olI)[61,即 件概率P(wIJ)和P(b1J). p(olI)≈P(wlb1,b2,…,bm). (1) 3)利用条件概率对关键字和视觉词元的联合 对于式(1)等号右边的概率,可以首先利用已标注 概率进行估计. 的训练图像集来估计在一幅图像中同时观察到关键 4)利用p(0,b1,b2,…,bm)来近似p(wlb1,b2, 字0和视觉词元b,b2,…,bn的联合分布,然后对 …,bm) 该分布按0进行边缘化得到.而联合分布可以利用 2基于词间相关性的CMRM图像标注 训练集中的图像J的期望得到 P(0,b1,b2,…,bm)= CMRM算法是根据图像的底层特征等对图像 ∑P(J)P(w,b1,b2,…,bmIJ). (2) 进行标注的,由于“语义鸿沟”的存在,使得该算法 的标注性能受到影响.在利用CMRM对图像进行初 假设某一幅训练图像J被选定后,关键字和和 视觉词b1,b2,…,bm是否出现是相互独立的46.因 始的标注之后,利用图学习方法,将从训练集中得到 的词间相关关系矩阵作用到初始标注矩阵上,使得 此可以将式(2)重写为 关键字之间的相关性在图的各个顶点之间进行传 P(w,b1,…,bm)= 播,从而实现了对标注结果的改善 ∑P(J)P(wIJ)ΠP(b:IJ). (3) 2.1词间相关性描述 式中:P(J)可以对训练集中的所有图像保持一致. 词间相关性是指2个关键字同时标注一幅图像 由于J中同时包含了全部视觉词元与关键字,因此 的特性.相关程度用词间相关性矩阵表示.为了获得 可以利用平滑的期望最大化算法对式(3)中的概率 关键字之间的相关性矩阵,可以对训练集中关键字 进行估计,当给定一幅训练图像J时,可以同时观察 出现的次数进行统计,文中将2个关键字作为同一 到关键字0和视觉词元b的概率由式(4)、(5)给 幅图像的标注出现的次数称为它们的共生次数. 出. 由于关键字的共生次数不能全面地反映词间的 相关性,因此可以采用文本检索领域中的T℉-DF Pa1D=1-)+a2 ,(4) 1J1 (term frequency--inverse document frequency)思想对 P61》=1-)+B,平(5) 关键字的相关性进行度量,得到词间相关性矩阵.其 定义为 式中:#(0,J)表示0出现在图像J的标注中的次 (6) 数,因为同一个词很少会多次出现在同一个标题中, k)=K()x log(N) n
·352 智能系统学报 第6卷 式中:K(01,02)代表关键字01、02在训练集中共同 重要的矩阵,相似矩阵S和初始标注矩阵Y,前者对 作为一幅图像的标注而出现的次数,可以将它作为 应着上一节中得到的共生矩阵,而后者由CMRM算 一个矩阵存储记为K,不难看出,K是一个对称矩 法对测试图像进行标注而得到, 阵:N为训练集的大小,它代表了训练图像集中所 2.3基于词间相关性标注算法 包含的全部图像的数目;1则表示标注中出现了关 下面给出算法的具体步骤如下, 键字0,的全部图像的数量,它就决定了K(01, 1)从数据集的文件中读入训练数据信息,进而 w2)与K(Ww2,01)并不相等,因为常见的关键字,在 完成对基本信息#(0,J)、#(0,T)、#(b,J)、#(b,T) 图像集的标注中出现的次数相对于一般的关键字要 的统计,并转2). 多,也就是它的值大,相应的1g()就小 2)估计关键字和和视觉词元b的条件概率,并 n 计算关键字与视觉词元之间的联合概率, 要准确地获取关键字之间的词间相关性矩阵, 3)提取词间相关性矩阵S. 需要对训练集数据进行统计和整理,并进行相应的 4)将2)中得到标注矩阵与式(7)中的初始状 计算.下面将详细说明计算该矩阵的算法,算法的主 态矩阵Y对应,进行迭代计算,直到收敛,得到的新 要步骤如下: 矩阵就是最终标注结果。 1)读入训练图像集中的标注信息,即训练图像 5)对矩阵每行的元素按概率值排序,取概率最大 本身自带的标注关键字; 的N个作为最终的标注关键字,在本文方法中W=5. 2)从训练集的标注信息中,统计出任意2个关 键字的共生次数,即K(01,w2); 3实验结果与分析 3)统计每个关键字在训练图像集中作为标注 3.1实验数据 出现的次数n1; 本文采用带有标注字的Corel5k图像集[9]实 4)按照式(6)计算出词间相关性矩阵; 验.整个图像集中共包含50个文件夹,每个文件夹 5)对矩阵进行归一化处理 100张图像,共5000张图像.从每个文件夹中选取 2.2相关关系传播算法 80张图像作为训练图像,再先取10张作为评估图 本文利用图学习算法来实现词间相关性在各个 像集,用于对参数进行评估,其余10张图像作为测 关键字之间的传播.文献[8]将图学习算法应用于 试图像4. 图像标注中,所提出的基于图学习的标注框架首先 对所有图像均先利用NCut算法进行图像分割, 进行初始标注,即以图像为节点,以图间相似性为边 取前10个面积较大的区域作为有效区域,进行特征 建立图,通过图学习算法将标注信息从已标注图像 提取.区域的视觉特征为36维特征向量,包括18种 传递到未标注图像,然后对标注结果进行改善.这 颜色特征、12种纹理特征和6种形状特征.对训练 时,利用词间相关性建立以词为节点的图,以初始标 图像,利用-均值聚类算法(K=500)对所有有效区 注结果设置初始状态向量,通过学习算法得到图像 域进行聚类,由聚类结果得到500个视觉词元 的最终标注结果.本文方法借鉴了这一框架, 3.2实验结果 设G=(V,E)表示图,其中V={x1,2,…,x} 对500幅测试图像进行了自动的标注,计算了 是图的顶点,对应标注的关键字;E代表图的边,边 每个关键字(标注字)的平均查全率和平均查准率 上的权值对应它所连接的2个关键字之间的相关强 查全率(recall)度量出对单个词查询的完整性,查准 度.同时,设CMRM标注结果用矩阵Y表示,它的元 率(precision)反映出查询的精度.对于给定的标注 素y:表示第i幅图像被标注为第j个关键字的概率. 字w,若在测试图像集的手工标注结果中包含w的 结果矩阵R的元素表示每幅图像被标注为每个关 图像个数为Nm,使用自动标注模型的标注结果中包 键字的最终概率结果,由下面的迭代过程产生81: 含该词的图像个数为N,,其中参照手工标注结果有 R(t+1)=B·S·R(t)+(1-B)Y,(7) N,个是正确的,则单个标注字的查全率和查准率为 R*=(1-B)(1-BS)Y. (8) 式中:t表示迭代次数,其初值为0,R(0)=YB是传 recall =N 播系数,它决定了相关矩阵对标注结果的影响程度, N, 本文中t的终值取500,B取0.25. precision= N. 从上面的描述可以看出,迭代过程中有2个最 采用标注字的平均查准率和平均查全率来考察
第4期 刘咏梅,等:词间相关性的CMRM图像标注方法 ·353· 本文方法的标注性能.与CMRM算法相比,部分关 占的比重,各种特征直接影响聚类的效果;2)对于 键字的查全率与查准率有明显的提高,如图1及图 词间关系的提取不够全面;3)所有图像的标注长度 2所示, 相同,影响了最终的查全率与查准率, 1.0T⑧CMRM 表2标注结果举例 0.8圆本文方法 Table 2 Examples of annotation results 赞0.6 CMRM 术文方法 如0.4 测试图像 标注结果 标注结果 人工标注结果 0.2 sun sun cloud 0 water sky sea cloud cloud 81n tree water tree (a) lake tree 关键字 grass grass gorest cars 图1本文方法与CMRM模型的部分关键字的 grass cars tracks cars 查全率对比 hear bear tracks Fig.1 Recall contrast results of partial words with (b) water people CMRM model sky sky plane clouds jet jet plane plane 1.2 CMRM clouds jet sky 1.0F 08⑧本文方法 (c】 water eagle 0.6 0.4 4 结论 本文在CMRM模型基础上,利用标注字之间的 关键字 词间相关性对CMRM标注方法进行了改进,取得了 更好的标注效果.下一步的研究工作可以从以下几 图2本文方法与CMRM模型的部分关键字的 查准率对比 个方面进行. Fig.2 Precision contrast results of partial words with 1)优化图像的特征提取方法,在不影响算法性 CMRM model 能的前提下,尽量全面地采用各种特征,以消除某些 对测试图像集中500幅图像的标注结果进行统 特征对聚类的影响 计,对标注性能最好的前49个标注字的平均查全率 2)对于共生关系矩阵的提取,可以借助一些结 为0.375,平均查准率为0.38.本文方法与CMRM 构化的词典来进行,普林斯顿大学开发的WorldNet 模型的标注性能进行了对比,见表1. 就是一个不错的选择,该词典收录了大量的单词,且 表1与CMRM模型的性能对比 按语义对单词进行组织,能够更加全面地衡量关键 Table 1 Efficiency contrast results with CMRM model 字之间的相关性。 方法名称 平均查全率 平均查准率 3)可以对图像进行长度不固定的标注,例如对 CMRM模型 0.370 0.33 图像中每个区域进行单独的标注,然后对于标注相 同的区域进行融合,这样可以更好地消除噪声关键 本文方法 0.375 0.38 字对查全率和查准率的影响、 本文方法充分考虑了标注关键字之间的相关 性,这种相关性反映了各个关键字之间的语义联系, 参考文献: 通过相关性将2个紧密联系的关键字的标注概率进 [1]陈世亮,李战怀,袁柳.一种基于区域特征关联的图像语 行调整,并对CMRM的标注结果进行调整,使得标 义标注方法[J].计算机工程与应用,2007,43(2):53- 注结果在查准率和查全率上较CMRM有所提高,表 57. 2给出了部分图像的标注结果 CHEN Shiliang,LI Zhanhuai,YUAN Liu.Image semantic 本方法无论在查全率还是查准率方面,都较 annotating method based on region features relevancy[J]. CMRM模型有所提高.但是由于图像的视觉词元对 Computer Engineering and Applciations,2007,43(2):53- 最终标注结果的影响是非常大的,不可避免地出现 57. 了一些标注效果不理想的情况.标注性能受以下几 [2]YU Feiyang,HORACE H S.Semantic content analysis and 方面因素影响:1)颜色、形状特征在全部特征中所 annotation of histological images[J].Computers in Biology
.354, 智能系统学报 第6卷 and Medicine,2008,38:635-649. LU Hanging,LIU Jing.Image annotation based on graph [3 LAVRENKO V,CROFT W.Relevance-based language learning[J].Chinese Journal of Computers,2008,31(9): models[C]//Proceedings of the 24th Annual International 1629-1639. ACM SIGIR Conference.New Orleans,USA,2001:120- [9 http://www.cs.arizona.edu/people/kobus/research/data/ 127. ecev_2002 [4]LAVRENKO V,CHOQUETTE M,CROFT W.Cross-lin- [10]纪颖.一种基于实例的图像自动语义标注方法[J].哈 gual relevance models[C]//Proceedings of the 25th Annual 尔滨理工大学学报,2009,14(1):3842。 International ACM SIGIR Conference.Tampere,Finland, JI Ying.An instance-based method for automatic image se- 2002:175-182. mantics annotation[J].Joural of Harbin University of [5]王斌.图像检索中自动标注与快速相似搜索技术研究 Science and Technology,2009,14(1):38-42. [D].长沙:中国科学技术大学,2007:545. 作者简介: WANG Bin.Researches on automatic image annotation and 刘咏梅,女,1973年生,副教授,硕 fast similarity searching technology in CBIR[D].Chang- 士生导师,博士.主要研究方向为模式 sha:University of Science and Technology of China,2007: 识别、图像理解和生物信息学。 545. [6]袁曾任.人工神经元网络及其应用[M].北京:清华大学 出版社,1999:40-50. [7]JEON J,LAVRENKO V,MANMATHA R.Automatie im- age annotation and retrieval using cross-media relevance 代丽洁,女,1983年生,硕士,主要 models[C]//Proceedings of the 26th International ACM SI- 研究方向为图像处理与模式识别、图像 GIR Conference.Toronto,Canada,2003:119-126. 标注. [8]卢汉清,刘静.基于图学习的自动图像标注[J].计算机 学报,2008,31(9):1629-1639. 第九届全球智能控制与自动化大会(WCICA2012) The 9th World Congress on Intelligent Control and Automation The 9th World Congress on Intelligent Control and Automation (WCICA 2012)will be held in Beijing,China,from July 6to8,2012. WCICA 2012 is technically sponsored by Academy of Mathematics and Systems Science,Chinese Academy of Sciences, IEEE Robotics and Automation Society,IEEE Control System Society,National Natural Science Foundation of China,the Chinese Association of Automation,the Chinese Association of Artificial Intelligence,IEEE Hong Kong Robotics and Con- trol Chapter,IEEE Beijing Control System Chapter,and IEEE Singapore Control System Chapter. WCICA 2012 features plenary keynotes and plenary panel discussion sessions by world renowned researchers as well as a- wards to honor outstanding papers presented at this Congress.The awards include Best Paper on Theory,Best Paper on Applications,Best Student Paper,Best Paper on Biomedical Biosystem Related Areas,Best Poster Paper,SUPCON Best Paper on Industrial Automation,and AIAG Best Paper on Supply Chain Related Topics Awards. All accepted papers in the Proceedings of WCICA 2012 will be published by IEEE and indexed by EI. Web site:http://wcical2.amss.ac.cn