正在加载图片...
第3期 温有福,等:一种多模态融合的网络视频相关性度量方法 ·363. 像帧相似度的计算。 表1热点话题的基本情况 为实现从图像帧相似度到视频相似度的计算, Table 1 The hot topics Zhao等使用了Hough变换投票方法。其描述为:1) D 话题描述 日期 以等时间截进行时间对准:2)进行等时间间隔霍夫 Bush was attacked by shoes in Iraq 200811 投票,即如果两个视频某个相同时间差片段间的视 2 Obama's inauguration speech 200901 觉相似性高于某一个阈值,则予以投票:3)以时间 3 Susan Boyle in Britain's Got Talent 200904 Amanda Holden in Britain's Got Talent 200904 差为横轴形成的直方图,直方图越高,则两个视频连 5 The death of Michael Jackson 200906 续片段越相似,亦即视频越相似。 6 Cenk Uygur's news show 200908 除Hough变换投票外,从图像帧相似度到视频 个 Lady Gaga Poker Face 200902 相似度计算方面的典型方法还有基于网络流约束的 8 Silvio Berlusconi was attacked in Milan 200911 线性规划的方法[6等。考虑更多方法并将它们的 9 Brad Pitt's movies 200902 优势结合起来,实现更加准确的视频视觉相似度计 10 Lauren Luke's makeup 200904 算也是我们的下一步工作之一。 11 Miley Cyrus's show 200812 1.5多模态相关性计算 表2给出了实验中依照特定关键词筛选条件进 通过上述介绍的方法,可以分别计算得到两个 行文本过滤后,每个话题剩余的满足条件的视频数 视频在社会特征、文本和视觉模态的相似度,通过式 量。第1列(D)表示的是视频的11个话题的集 (8)对这3方面的相似度进行融合: 合,表的第2列反映了每一个主题下的关键词,最后 F fusion=wFin+TFtext+(1-ω-T)Fvisual(8) 1列反映了依照筛选条件,时间间隔为依照时间 式中ω、T、1-w-r∈[0,1]分别为社会、文本、视觉3 (Date)参照点前后4个月的条件下,所得到的视频 种异构多模态特征的融合权重。在进行融合之前, 数量结果。相对于整个视频库中总的视频数量,本 我们将各个模态信息进行相应的归一化操作,每个 文提出的文本过滤策略平均滤掉了99.82%的视频 模态信息均取相应均等权重。 数据。从而使得视觉等较为耗费计算资源的运算可 以上对本文方法的各个模块进行了详细介绍。 以在一个相对较小的集合上进行。 本文初步探讨多种在不同层次、从不同角度反映视 首先,我们使用类似文献[18]的方法,对 频相关性的信息的融合方法。在社会特征方面融合 表1中的每一个话题给定文本筛选条件,利用1.2 了视频上传日期、类别和作者信息,文本方面则融合 节中描述的文本筛选方法筛选出与这几个话题相关 了视频标题和标签的相似性:在整体层面,则将社 的视频集合,见表2。 会、文本和视觉三大模态的异构信息进行了融合。 表2特定筛选条件及筛选结果 目前,对于各模态内部以及各模态之间权重的分配 Table 2 The results of specific conditions 方面暂时没有展开过多细节讨论。 D 关键词 数量 1 bush shoe 210 2实验结果及分析 2 obama inauguration 436 2.1实验数据准备 3 Susan Boyle 683 为验证本文方法的有效性,我们在MCG-WEBV 4 Amanda Holden 294 2.011数据集上进行了实验。该数据集按月收集了 5 Michael Jackson 1923 6 276 2008年12月-2009年11月间YouTube给定的19 cenk uygur 7 Lady Gaga poker 196 个视频类别上的“每月观看最多”视频,以及它们的 8 Silvio Berlusconi 413 相关视频和同作者视频,共计248887个。 9 brad pitt 150 上述数据收集方法使得这一年内网络空间的热 10 lauren luke 149 点事件在该数据集上都有所体现。基于此,选择发 11 Miley Cyrus 467 生在这段时间内关于11个热点话题的视频进行实 然后,对候选集合中的视频进行人工标注,一个 验,表1列出了这些话题的基本情况。 视频被标注为与该话题相关当且仅当它包含了描述像帧相似度的计算。 为实现从图像帧相似度到视频相似度的计算, Zhao 等使用了 Hough 变换投票方法。 其描述为:1) 以等时间戳进行时间对准;2)进行等时间间隔霍夫 投票,即如果两个视频某个相同时间差片段间的视 觉相似性高于某一个阈值,则予以投票;3) 以时间 差为横轴形成的直方图,直方图越高,则两个视频连 续片段越相似,亦即视频越相似。 除 Hough 变换投票外,从图像帧相似度到视频 相似度计算方面的典型方法还有基于网络流约束的 线性规划的方法[16] 等。 考虑更多方法并将它们的 优势结合起来,实现更加准确的视频视觉相似度计 算也是我们的下一步工作之一。 1.5 多模态相关性计算 通过上述介绍的方法,可以分别计算得到两个 视频在社会特征、文本和视觉模态的相似度,通过式 (8)对这 3 方面的相似度进行融合: Ffusion = ωFsocial + τFtext + (1 - ω - τ)Fvisual (8) 式中 ω、τ、1-ω-τ∈[0,1]分别为社会、文本、视觉 3 种异构多模态特征的融合权重。 在进行融合之前, 我们将各个模态信息进行相应的归一化操作,每个 模态信息均取相应均等权重。 以上对本文方法的各个模块进行了详细介绍。 本文初步探讨多种在不同层次、从不同角度反映视 频相关性的信息的融合方法。 在社会特征方面融合 了视频上传日期、类别和作者信息,文本方面则融合 了视频标题和标签的相似性;在整体层面,则将社 会、文本和视觉三大模态的异构信息进行了融合。 目前,对于各模态内部以及各模态之间权重的分配 方面暂时没有展开过多细节讨论。 2 实验结果及分析 2.1 实验数据准备 为验证本文方法的有效性,我们在 MCG⁃WEBV 2.0 [17]数据集上进行了实验。 该数据集按月收集了 2008 年 12 月-2009 年 11 月间 YouTube 给定的 19 个视频类别上的“每月观看最多”视频,以及它们的 相关视频和同作者视频,共计 248 887 个。 上述数据收集方法使得这一年内网络空间的热 点事件在该数据集上都有所体现。 基于此,选择发 生在这段时间内关于 11 个热点话题的视频进行实 验,表 1 列出了这些话题的基本情况。 表 1 热点话题的基本情况 Table 1 The hot topics ID 话题描述 日期 1 Bush was attacked by shoes in Iraq 200811 2 Obama’s inauguration speech 200901 3 Susan Boyle in Britain’s Got Talent 200904 4 Amanda Holden in Britain’s Got Talent 200904 5 The death of Michael Jackson 200906 6 Cenk Uygur’s news show 200908 7 Lady Gaga Poker Face 200902 8 Silvio Berlusconi was attacked in Milan 200911 9 Brad Pitt’s movies 200902 10 Lauren Luke’s makeup 200904 11 Miley Cyrus’s show 200812 表 2 给出了实验中依照特定关键词筛选条件进 行文本过滤后,每个话题剩余的满足条件的视频数 量。 第 1 列( ID) 表示的是视频的 11 个话题的集 合,表的第 2 列反映了每一个主题下的关键词,最后 1 列反映了依照筛选条件,时间间隔为依照时间 (Date)参照点前后 4 个月的条件下,所得到的视频 数量结果。 相对于整个视频库中总的视频数量,本 文提出的文本过滤策略平均滤掉了 99.82%的视频 数据。 从而使得视觉等较为耗费计算资源的运算可 以在一个相对较小的集合上进行。 首先,我们使用类似文献[18] 的方法,对 表 1 中的每一个话题给定文本筛选条件,利用 1.2 节中描述的文本筛选方法筛选出与这几个话题相关 的视频集合,见表 2。 表 2 特定筛选条件及筛选结果 Table 2 The results of specific conditions ID 关键词 数量 1 bush shoe 210 2 obama inauguration 436 3 Susan Boyle 683 4 Amanda Holden 294 5 Michael Jackson 1923 6 cenk uygur 276 7 Lady Gaga poker 196 8 Silvio Berlusconi 413 9 brad pitt 150 10 lauren luke 149 11 Miley Cyrus 467 然后,对候选集合中的视频进行人工标注,一个 视频被标注为与该话题相关当且仅当它包含了描述 第 3 期 温有福,等:一种多模态融合的网络视频相关性度量方法 ·363·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有