正在加载图片...
第4期 李志欣,等:基于模糊关联规则和决策树的图像自动标注 ·641· 引别] 3.2参数设置 (8) 方法中最小模糊支持度(mS)、最小模糊置信 综上所述,新属性的近似信息增益为 度(mF℃)和分区大小K3个参数都将影响图像标注 Gain(AN,)=G-G,-G2,其中,若Gain(AN)> 性能。为了获得最优参数,在Corel5k和IAPR TC 0,表示属性AN有效,应该保留,否则,删除该条规 12数据集下,分别设置不同mFS和mFC的参数值, 则。详细描述如算法3所示。 如图4所示,当mFS=0.05,mFC=0.85时,标注的精 算法3根据新规则删减FARs 度最高,为92.5%。从结果可以看到mFS越大,对 Input:FARs 于标注的性能更敏感。因此实验中选择更小的 Output:决策树 mFS。另一方面,mFS越高,标注的性能更加健壮。 Process: 从表中可以看到最好的标注准确率92.5%满足的条 1)Generate new candidate attribute in the fuzzy 件是(mFS,mFC)=(0.05,0.85)。同样,把这2个 association rules F 最优参数用于后续分区最佳大小K的确定实验中。 2)for every candidate attribute AN,do 图5给出了当分区数分别为3、4、5、6、7、8时,标注 3)if Gain(AN,)>0 then 的性能比较。从结果看出,K为6满足最佳效果。 4)Keep AN;in use; 综上,实验将每个低维图像特征属性划分为6个模 5)else abandon AN, 糊分区。由原来的22维低维图像特征,模糊分割 6)Delete the FARs which including the AN,o 后,得到22×6维的模糊特征向量。 3 实验结果分析 .-mFS=0.05 100 nF=0.10 95 3.1数据集 .20 90 实验采用Corel5k[)和IAPR TC-1222个数据 85 集来进行图像标注测试,这2个数据集在近年的图 80 像标注研究中被广泛应用于标注算法性能的比较。 70 自从被提出用于图像标注实验后,已经成为图像实 0.50 0.600.70 0.800.90 mFC 验的标准数据集。 图4不同mFC和mFS下的图像标注精度 Corel5k图像集涵盖多个主题的5000幅图 Fig.4 Precisions of image annotation with different 片,Corel5k由50张CD组成,包含50个语义主 mFC and mFS 题。每个CD包含100张大小相等的图像,每张 CD代表一个语义主题,例如天空、非洲、海滩、建 100i 筑、城市等。Corl5k图像库通常分成3个部分: 90 4000张图像作为训练集,500张图像作为验证 集用来估计模型参数,其余500张作为测试集评 70 价算法性能。 使用验证集寻找到最优模型参数后4000张 60 3 4 5678 训练集和500张验证集混合起来组成新的训练 集。该图像库中的每张图片被标注1~5个标注 图5不同K值下的图像标注精度(mFS=0.05,mFC=0.85) 词,训练集中总共有374个标注词,在测试集中 Fig.5 Precisions of image annotation with different K 总共使用了263个标注词。 (mFS=0.05,mFC=0.85) IAPR TC-12数据集应用在自动图像标注并扩 3.3评价标准 展到多媒体信息检索影响的评估上,该数据集包括 实验在机器系统Windows7,软件Visual Studio 20000幅分割图像,包括不同的动物,城市和许多其 2012下测试运行,使用ntel2.66 GHz Pentium4 他类别的图像。在特征提取阶段,每个区域的特征 CPU。实验给出了标注的评价标准、精确率、召回率 向量具有99535个属性,所述特征由已提取的颜色 以及综合评价指标F-measure,公式如下: 空间LAB、纹理和空间位置表示。 precision =a/b (9) recall a/c (10)G2 = T3 T - ∑ n k = 1 T3k T3 lb T3k T3 é ë ê ê ù û ú ú (8) 综 上 所 述, 新 属 性 的 近 似 信 息 增 益 为 Gain(ANj) = Groot –G1 –G2 ,其中,若 Gain(ANj) > 0 ,表示属性 ANj 有效,应该保留,否则,删除该条规 则。 详细描述如算法 3 所示。 算法 3 根据新规则删减 FARs Input: FARs Output: 决策树 Process: 1) Generate new candidate attribute in the fuzzy association rules F ; 2) for every candidate attribute ANj do 3)if Gain( ANj) > 0 then 4)Keep ANj in use; 5)else abandon ANj ; 6)Delete the FARs which including the ANj 。 3 实验结果分析 3.1 数据集 实验采用 Corel 5k [5]和 IAPR TC⁃12 [12] 2 个数据 集来进行图像标注测试,这 2 个数据集在近年的图 像标注研究中被广泛应用于标注算法性能的比较。 自从被提出用于图像标注实验后,已经成为图像实 验的标准数据集。 Corel 5k 图像集涵盖多个主题的 5 000 幅图 片,Corel 5k 由 50 张 CD 组成,包含 50 个语义主 题。 每个 CD 包含 100 张大小相等的图像,每张 CD 代表一个语义主题,例如天空、非洲、海滩、建 筑、城市等。 Corel 5k 图像库通常分成 3 个部分: 4 000 张图像作为训练集,500 张图像作为验证 集用来估计模型参数,其余 500 张作为测试集评 价算法性能。 使用验证集寻找到最优模型参数后 4 000 张 训练集和 500 张验证集混合起来组成新的训练 集。 该图像库中的每张图片被标注 1 ~ 5 个标注 词,训练集中总共有 374 个标注词,在测试集中 总共使用了 263 个标注词。 IAPR TC⁃12 数据集应用在自动图像标注并扩 展到多媒体信息检索影响的评估上,该数据集包括 20 000 幅分割图像,包括不同的动物,城市和许多其 他类别的图像。 在特征提取阶段,每个区域的特征 向量具有 99 535 个属性,所述特征由已提取的颜色 空间 LAB、纹理和空间位置表示。 3.2 参数设置 方法中最小模糊支持度(mFS)、最小模糊置信 度(mFC)和分区大小 K 3 个参数都将影响图像标注 性能。 为了获得最优参数,在 Corel 5k 和 IAPR TC⁃ 12 数据集下,分别设置不同 mFS 和 mFC 的参数值, 如图 4 所示,当 mFS = 0.05,mFC = 0.85 时,标注的精 度最高,为 92.5%。 从结果可以看到 mFS 越大,对 于标注的性能更敏感。 因此实验中选择更小的 mFS。 另一方面,mFS 越高,标注的性能更加健壮。 从表中可以看到最好的标注准确率 92.5%满足的条 件是(mFS, mFC)= (0.05, 0.85)。 同样,把这 2 个 最优参数用于后续分区最佳大小 K 的确定实验中。 图 5 给出了当分区数分别为 3、4、5、6、7、8 时,标注 的性能比较。 从结果看出, K 为 6 满足最佳效果。 综上,实验将每个低维图像特征属性划分为 6 个模 糊分区。 由原来的 22 维低维图像特征,模糊分割 后,得到 22×6 维的模糊特征向量。 图 4 不同 mFC 和 mFS 下的图像标注精度 Fig.4 Precisions of image annotation with different mFC and mFS 图 5 不同 K 值下的图像标注精度(mFS= 0.05, mFC= 0.85) Fig.5 Precisions of image annotation with different K (mFS= 0.05, mFC= 0.85) 3.3 评价标准 实验在机器系统 Windows 7,软件 Visual Studio 2012 下测试运行, 使用 Intel 2. 66 GHz Pentium4 CPU。 实验给出了标注的评价标准、精确率、召回率 以及综合评价指标 F⁃measure,公式如下: precision = a / b (9) recall = a / c (10) 第 4 期 李志欣,等:基于模糊关联规则和决策树的图像自动标注 ·641·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有