上述热点事件的镜头。两个视频的相关度被置为１（即标注为相关视频）当且

正在加载图片...

·364. 智能系统学报第11卷上述热点事件的镜头。两个视频的相关度被置为1 表3中的第1列D表示11个相关话题，后面 (即标注为相关视频)当且仅当它们都被标注为与的每1列值表征的是AP的检索结果：最后1列反同一个话题相关，其余情况下，两个视频的相关度被映了实验结果。我们的方法将特有的社会特征与文置为0，即不相关。对任意一个输入视频，依据2.2.2 本、视觉进行融合，相比于单一的文本视觉，以及文小节给出的不同方法，计算它与数据集中其他视频本和视觉相融合的方法取得到了较好的效果。的相关度，为每个方法得到一个按相关度得分从高综上所述，将视觉、文本和社会特征进行多模态融到低排序的结果列表。然后，我们用多媒体检索中合的方案取得了上述最好的结果，相对单一视觉，单一广泛采用的AP作为衡量结果相关性度量准确性的文本方法5%~25%的性能上的提升，相对于文本和视指标，其中AP的计算公式为觉融合的方法，我们的方法也取得了更好的结果。 AP n'j=i 3结束语其中n是测试集中相关视频的总数，n=100表示仅本文提出一种新颖的网络视频相似性度量方考虑列表的前100个结果。若第j个视频是相关视法。从文本、视觉和社会特征3个角度同时挖掘视频，则1=1，否则1=0。R表示前j个结果中相关频的相关关系并进行融合。在社会特征方面，我们视频的数量。实验中，所有被标注为与某个话题相选择了视频的上传时间、作者、类别信息，给出了相关的视频组成了输入视频集合。它们被一一作为输关性在这3种特征上的形式化度量方法；文本特征入视频，通过2.2.2小节的各种方法得到相应的相方面，在向量空间模型中分别计算了两个视频在标关视频结果列表并计算AP。为便于结果展示和分题和标签上的相似度：视觉特征方面，采用主流基于析，我们将每个话题所有相关视频的AP进行平均，视觉拷贝视频检测的方法度量两个视频的相似性。得到该话题的AP。然后，再对多个话题AP再次求通过在宏观上对上述相似度进一步融合，实现了对平均，得到刻画各个方法整体性能的MAP值。 2.2多模态融合相关性度量实验视频相关性的准确鲁棒度量。真实YouTube数据依据第1节给出计算公式，可以得到任意两个上的视频检索实验表明，相比于仅考虑视觉、文本、视频的相关度。我们将计算得到的相关度应用到对或是视觉和文本相结合的方法，本文方法可取得上述话题的网络视频检索上，依据相关度大小从高 5%~25%的性能提升。到低对视频进行排序。表3给出了用本文多模态融以上工作初步证明了在相关性度量方面融合多合的网络视频相关度度量方法的检索结果。作为比模态信息的合理性和有效性。我们的下一步工作将较，仅用视觉相似性、文本相似性以及视觉与文本相在以下3个方面进行。1)研究更加有效的视频视结合相似性进行检索的实验结果也在表3中给出。觉相似性度量方法。在度量细粒度的单纯视频视觉表3各类方法试验结果对照表相似性的研究，已经有两种主流方法1)，基于这些 Table 3 The results of all kinds of methods 方法的改进和融合也是一个研究点：2)探索更加有 D Visual Text Visual+Text Fusion 效的多模态信息融合方法。融入更多社会特征，研 0.814 0.742 0.813 0.831 究多模态特征融合权重的自适应确定方法：3)将本 2 0.305 0.180 0.312 0.330 文方法计算得到的相关度应用到除检索外的更多应 3 0.406 0.495 0.410 0.396 用场景上，例如网络视频分类、标注等。 4 0.654 0.840 0.702 0.740 参考文献： 5 0.304 0.204 0.400 0.503 6 0.973 0.905 0.970 0.972 [1]ZHU Weiyu,TOKLU C.LIOU S P.Automatic news video 7 0.110 0.030 0.210 0.230 segmentation and categorization based on closed-captioned text[C]//Proceedings of IEEE International Conference on 8 0.603 0.306 0.650 0.704 9 Multimedia and Expo.Tokyo,Japan,2001:829-832. 0.400 0.200 0.440 0.514 [2]BREZEALE D,COOK D J.Using closed captions and visu- 10 0.021 0.053 0.301 0.043 al features to classify movies by genre[C]//Poster Session 11 0.598 0.418 0.605 0.714 of the Seventh International Workshop on Multimedia Data MAP 0.471 0.397 0.528 0.543 Mining.Philadelphia,Pennsylvania,USA,2006.上述热点事件的镜头。两个视频的相关度被置为１（即标注为相关视频）当且仅当它们都被标注为与同一个话题相关，其余情况下，两个视频的相关度被置为０，即不相关。对任意一个输入视频，依据２．２．２小节给出的不同方法，计算它与数据集中其他视频的相关度，为每个方法得到一个按相关度得分从高到低排序的结果列表。然后，我们用多媒体检索中广泛采用的ＡＰ作为衡量结果相关性度量准确性的指标，其中ＡＰ的计算公式为ＡＰ＝１ｎ＋∑ ｎｊ＝１Ｉｊ × Ｒｊｊ其中ｎ＋是测试集中相关视频的总数，ｎ＝１００表示仅考虑列表的前１００个结果。若第ｊ个视频是相关视频，则Ｉｊ＝１，否则Ｉｊ＝０。Ｒｊ表示前ｊ个结果中相关视频的数量。实验中，所有被标注为与某个话题相关的视频组成了输入视频集合。它们被一一作为输入视频，通过２．２．２小节的各种方法得到相应的相关视频结果列表并计算ＡＰ。为便于结果展示和分析，我们将每个话题所有相关视频的ＡＰ进行平均，得到该话题的ＡＰ。然后，再对多个话题ＡＰ再次求平均，得到刻画各个方法整体性能的ＭＡＰ值。２．２多模态融合相关性度量实验依据第１节给出计算公式，可以得到任意两个视频的相关度。我们将计算得到的相关度应用到对上述话题的网络视频检索上，依据相关度大小从高到低对视频进行排序。表３给出了用本文多模态融合的网络视频相关度度量方法的检索结果。作为比较，仅用视觉相似性、文本相似性以及视觉与文本相结合相似性进行检索的实验结果也在表３中给出。表３各类方法试验结果对照表Ｔａｂｌｅ３ＴｈｅｒｅｓｕｌｔｓｏｆａｌｌｋｉｎｄｓｏｆｍｅｔｈｏｄｓＩＤＶｉｓｕａｌＴｅｘｔＶｉｓｕａｌ＋ＴｅｘｔＦｕｓｉｏｎ１０．８１４０．７４２０．８１３０．８３１２０．３０５０．１８００．３１２０．３３０３０．４０６０．４９５０．４１００．３９６４０．６５４０．８４００．７０２０．７４０５０．３０４０．２０４０．４０００．５０３６０．９７３０．９０５０．９７００．９７２７０．１１００．０３００．２１００．２３０８０．６０３０．３０６０．６５００．７０４９０．４０００．２０００．４４００．５１４１００．０２１０．０５３０．３０１０．０４３１１０．５９８０．４１８０．６０５０．７１４ＭＡＰ０．４７１０．３９７０．５２８０．５４３表３中的第１列ＩＤ表示１１个相关话题，后面的每１列值表征的是ＡＰ的检索结果；最后１列反映了实验结果。我们的方法将特有的社会特征与文本、视觉进行融合，相比于单一的文本视觉，以及文本和视觉相融合的方法取得到了较好的效果。综上所述，将视觉、文本和社会特征进行多模态融合的方案取得了上述最好的结果，相对单一视觉，单一文本方法５％～２５％的性能上的提升，相对于文本和视觉融合的方法，我们的方法也取得了更好的结果。３结束语本文提出一种新颖的网络视频相似性度量方法。从文本、视觉和社会特征３个角度同时挖掘视频的相关关系并进行融合。在社会特征方面，我们选择了视频的上传时间、作者、类别信息，给出了相关性在这３种特征上的形式化度量方法；文本特征方面，在向量空间模型中分别计算了两个视频在标题和标签上的相似度；视觉特征方面，采用主流基于视觉拷贝视频检测的方法度量两个视频的相似性。通过在宏观上对上述相似度进一步融合，实现了对视频相关性的准确鲁棒度量。真实ＹｏｕＴｕｂｅ数据上的视频检索实验表明，相比于仅考虑视觉、文本、或是视觉和文本相结合的方法，本文方法可取得５％～２５％的性能提升。以上工作初步证明了在相关性度量方面融合多模态信息的合理性和有效性。我们的下一步工作将在以下３个方面进行。１）研究更加有效的视频视觉相似性度量方法。在度量细粒度的单纯视频视觉相似性的研究，已经有两种主流方法［１８］，基于这些方法的改进和融合也是一个研究点；２）探索更加有效的多模态信息融合方法。融入更多社会特征，研究多模态特征融合权重的自适应确定方法；３）将本文方法计算得到的相关度应用到除检索外的更多应用场景上，例如网络视频分类、标注等。参考文献：［１］ＺＨＵＷｅｉｙｕ，ＴＯＫＬＵＣ，ＬＩＯＵＳＰ．Ａｕｔｏｍａｔｉｃｎｅｗｓｖｉｄｅｏｓｅｇｍｅｎｔａｔｉｏｎａｎｄｃａｔｅｇｏｒｉｚａｔｉｏｎｂａｓｅｄｏｎｃｌｏｓｅｄ⁃ｃａｐｔｉｏｎｅｄｔｅｘｔ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａａｎｄＥｘｐｏ．Ｔｏｋｙｏ，Ｊａｐａｎ，２００１：８２９⁃８３２．［２］ＢＲＥＺＥＡＬＥＤ，ＣＯＯＫＤＪ．Ｕｓｉｎｇｃｌｏｓｅｄｃａｐｔｉｏｎｓａｎｄｖｉｓｕ⁃ ａｌｆｅａｔｕｒｅｓｔｏｃｌａｓｓｉｆｙｍｏｖｉｅｓｂｙｇｅｎｒｅ［Ｃ］／／ＰｏｓｔｅｒＳｅｓｓｉｏｎｏｆｔｈｅＳｅｖｅｎｔｈＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＭｕｌｔｉｍｅｄｉａＤａｔａＭｉｎｉｎｇ．Ｐｈｉｌａｄｅｌｐｈｉａ，Ｐｅｎｎｓｙｌｖａｎｉａ，ＵＳＡ，２００６． ·３６４· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】一种多模态融合的网络视频相关性度量方法编辑部