正在加载图片...
·364. 智能系统学报 第11卷 上述热点事件的镜头。两个视频的相关度被置为1 表3中的第1列D表示11个相关话题,后面 (即标注为相关视频)当且仅当它们都被标注为与 的每1列值表征的是AP的检索结果:最后1列反 同一个话题相关,其余情况下,两个视频的相关度被 映了实验结果。我们的方法将特有的社会特征与文 置为0,即不相关。对任意一个输入视频,依据2.2.2 本、视觉进行融合,相比于单一的文本视觉,以及文 小节给出的不同方法,计算它与数据集中其他视频 本和视觉相融合的方法取得到了较好的效果。 的相关度,为每个方法得到一个按相关度得分从高 综上所述,将视觉、文本和社会特征进行多模态融 到低排序的结果列表。然后,我们用多媒体检索中 合的方案取得了上述最好的结果,相对单一视觉,单一 广泛采用的AP作为衡量结果相关性度量准确性的 文本方法5%~25%的性能上的提升,相对于文本和视 指标,其中AP的计算公式为 觉融合的方法,我们的方法也取得了更好的结果。 AP n'j=i 3结束语 其中n是测试集中相关视频的总数,n=100表示仅 本文提出一种新颖的网络视频相似性度量方 考虑列表的前100个结果。若第j个视频是相关视 法。从文本、视觉和社会特征3个角度同时挖掘视 频,则1=1,否则1=0。R表示前j个结果中相关 频的相关关系并进行融合。在社会特征方面,我们 视频的数量。实验中,所有被标注为与某个话题相 选择了视频的上传时间、作者、类别信息,给出了相 关的视频组成了输入视频集合。它们被一一作为输 关性在这3种特征上的形式化度量方法;文本特征 入视频,通过2.2.2小节的各种方法得到相应的相 方面,在向量空间模型中分别计算了两个视频在标 关视频结果列表并计算AP。为便于结果展示和分 题和标签上的相似度:视觉特征方面,采用主流基于 析,我们将每个话题所有相关视频的AP进行平均, 视觉拷贝视频检测的方法度量两个视频的相似性。 得到该话题的AP。然后,再对多个话题AP再次求 通过在宏观上对上述相似度进一步融合,实现了对 平均,得到刻画各个方法整体性能的MAP值。 2.2多模态融合相关性度量实验 视频相关性的准确鲁棒度量。真实YouTube数据 依据第1节给出计算公式,可以得到任意两个 上的视频检索实验表明,相比于仅考虑视觉、文本、 视频的相关度。我们将计算得到的相关度应用到对 或是视觉和文本相结合的方法,本文方法可取得 上述话题的网络视频检索上,依据相关度大小从高 5%~25%的性能提升。 到低对视频进行排序。表3给出了用本文多模态融 以上工作初步证明了在相关性度量方面融合多 合的网络视频相关度度量方法的检索结果。作为比 模态信息的合理性和有效性。我们的下一步工作将 较,仅用视觉相似性、文本相似性以及视觉与文本相 在以下3个方面进行。1)研究更加有效的视频视 结合相似性进行检索的实验结果也在表3中给出。 觉相似性度量方法。在度量细粒度的单纯视频视觉 表3各类方法试验结果对照表 相似性的研究,已经有两种主流方法1),基于这些 Table 3 The results of all kinds of methods 方法的改进和融合也是一个研究点:2)探索更加有 D Visual Text Visual+Text Fusion 效的多模态信息融合方法。融入更多社会特征,研 0.814 0.742 0.813 0.831 究多模态特征融合权重的自适应确定方法:3)将本 2 0.305 0.180 0.312 0.330 文方法计算得到的相关度应用到除检索外的更多应 3 0.406 0.495 0.410 0.396 用场景上,例如网络视频分类、标注等。 4 0.654 0.840 0.702 0.740 参考文献: 5 0.304 0.204 0.400 0.503 6 0.973 0.905 0.970 0.972 [1]ZHU Weiyu,TOKLU C.LIOU S P.Automatic news video 7 0.110 0.030 0.210 0.230 segmentation and categorization based on closed-captioned text[C]//Proceedings of IEEE International Conference on 8 0.603 0.306 0.650 0.704 9 Multimedia and Expo.Tokyo,Japan,2001:829-832. 0.400 0.200 0.440 0.514 [2]BREZEALE D,COOK D J.Using closed captions and visu- 10 0.021 0.053 0.301 0.043 al features to classify movies by genre[C]//Poster Session 11 0.598 0.418 0.605 0.714 of the Seventh International Workshop on Multimedia Data MAP 0.471 0.397 0.528 0.543 Mining.Philadelphia,Pennsylvania,USA,2006.上述热点事件的镜头。 两个视频的相关度被置为 1 (即标注为相关视频)当且仅当它们都被标注为与 同一个话题相关,其余情况下,两个视频的相关度被 置为 0,即不相关。 对任意一个输入视频,依据 2.2.2 小节给出的不同方法,计算它与数据集中其他视频 的相关度,为每个方法得到一个按相关度得分从高 到低排序的结果列表。 然后,我们用多媒体检索中 广泛采用的 AP 作为衡量结果相关性度量准确性的 指标,其中 AP 的计算公式为 AP = 1 n +∑ n j = 1 Ij × Rj j 其中 n +是测试集中相关视频的总数,n = 100 表示仅 考虑列表的前 100 个结果。 若第 j 个视频是相关视 频,则 Ij = 1,否则 Ij = 0。 Rj 表示前 j 个结果中相关 视频的数量。 实验中,所有被标注为与某个话题相 关的视频组成了输入视频集合。 它们被一一作为输 入视频,通过 2.2.2 小节的各种方法得到相应的相 关视频结果列表并计算 AP。 为便于结果展示和分 析,我们将每个话题所有相关视频的 AP 进行平均, 得到该话题的 AP。 然后,再对多个话题 AP 再次求 平均,得到刻画各个方法整体性能的 MAP 值。 2.2 多模态融合相关性度量实验 依据第 1 节给出计算公式,可以得到任意两个 视频的相关度。 我们将计算得到的相关度应用到对 上述话题的网络视频检索上,依据相关度大小从高 到低对视频进行排序。 表 3 给出了用本文多模态融 合的网络视频相关度度量方法的检索结果。 作为比 较,仅用视觉相似性、文本相似性以及视觉与文本相 结合相似性进行检索的实验结果也在表 3 中给出。 表 3 各类方法试验结果对照表 Table 3 The results of all kinds of methods ID Visual Text Visual+Text Fusion 1 0.814 0.742 0.813 0.831 2 0.305 0.180 0.312 0.330 3 0.406 0.495 0.410 0.396 4 0.654 0.840 0.702 0.740 5 0.304 0.204 0.400 0.503 6 0.973 0.905 0.970 0.972 7 0.110 0.030 0.210 0.230 8 0.603 0.306 0.650 0.704 9 0.400 0.200 0.440 0.514 10 0.021 0.053 0.301 0.043 11 0.598 0.418 0.605 0.714 MAP 0.471 0.397 0.528 0.543 表 3 中的第 1 列 ID 表示 11 个相关话题,后面 的每 1 列值表征的是 AP 的检索结果;最后 1 列反 映了实验结果。 我们的方法将特有的社会特征与文 本、视觉进行融合,相比于单一的文本视觉,以及文 本和视觉相融合的方法取得到了较好的效果。 综上所述,将视觉、文本和社会特征进行多模态融 合的方案取得了上述最好的结果,相对单一视觉,单一 文本方法 5%~25%的性能上的提升,相对于文本和视 觉融合的方法,我们的方法也取得了更好的结果。 3 结束语 本文提出一种新颖的网络视频相似性度量方 法。 从文本、视觉和社会特征 3 个角度同时挖掘视 频的相关关系并进行融合。 在社会特征方面,我们 选择了视频的上传时间、作者、类别信息,给出了相 关性在这 3 种特征上的形式化度量方法;文本特征 方面,在向量空间模型中分别计算了两个视频在标 题和标签上的相似度;视觉特征方面,采用主流基于 视觉拷贝视频检测的方法度量两个视频的相似性。 通过在宏观上对上述相似度进一步融合,实现了对 视频相关性的准确鲁棒度量。 真实 YouTube 数据 上的视频检索实验表明,相比于仅考虑视觉、文本、 或是视觉和文本相结合的方法,本文方法可取得 5% ~25%的性能提升。 以上工作初步证明了在相关性度量方面融合多 模态信息的合理性和有效性。 我们的下一步工作将 在以下 3 个方面进行。 1) 研究更加有效的视频视 觉相似性度量方法。 在度量细粒度的单纯视频视觉 相似性的研究,已经有两种主流方法[18] ,基于这些 方法的改进和融合也是一个研究点;2)探索更加有 效的多模态信息融合方法。 融入更多社会特征,研 究多模态特征融合权重的自适应确定方法;3)将本 文方法计算得到的相关度应用到除检索外的更多应 用场景上,例如网络视频分类、标注等。 参考文献: [1]ZHU Weiyu, TOKLU C, LIOU S P. Automatic news video segmentation and categorization based on closed⁃captioned text[C] / / Proceedings of IEEE International Conference on Multimedia and Expo. Tokyo, Japan, 2001: 829⁃832. [2]BREZEALE D, COOK D J. Using closed captions and visu⁃ al features to classify movies by genre[C] / / Poster Session of the Seventh International Workshop on Multimedia Data Mining. Philadelphia, Pennsylvania, USA, 2006. ·364· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有