像帧相似度的计算。为实现从图像帧相似度到视频相似度的计算，Ｚｈａｏ等

正在加载图片...

第3期温有福，等：一种多模态融合的网络视频相关性度量方法 ·363. 像帧相似度的计算。表1热点话题的基本情况为实现从图像帧相似度到视频相似度的计算， Table 1 The hot topics Zhao等使用了Hough变换投票方法。其描述为：1) D 话题描述日期以等时间截进行时间对准：2)进行等时间间隔霍夫 Bush was attacked by shoes in Iraq 200811 投票，即如果两个视频某个相同时间差片段间的视 2 Obama's inauguration speech 200901 觉相似性高于某一个阈值，则予以投票：3)以时间 3 Susan Boyle in Britain's Got Talent 200904 Amanda Holden in Britain's Got Talent 200904 差为横轴形成的直方图，直方图越高，则两个视频连 5 The death of Michael Jackson 200906 续片段越相似，亦即视频越相似。 6 Cenk Uygur's news show 200908 除Hough变换投票外，从图像帧相似度到视频个 Lady Gaga Poker Face 200902 相似度计算方面的典型方法还有基于网络流约束的 8 Silvio Berlusconi was attacked in Milan 200911 线性规划的方法[6等。考虑更多方法并将它们的 9 Brad Pitt's movies 200902 优势结合起来，实现更加准确的视频视觉相似度计 10 Lauren Luke's makeup 200904 算也是我们的下一步工作之一。 11 Miley Cyrus's show 200812 1.5多模态相关性计算表2给出了实验中依照特定关键词筛选条件进通过上述介绍的方法，可以分别计算得到两个行文本过滤后，每个话题剩余的满足条件的视频数视频在社会特征、文本和视觉模态的相似度，通过式量。第1列(D)表示的是视频的11个话题的集 (8)对这3方面的相似度进行融合：合，表的第2列反映了每一个主题下的关键词，最后 F fusion=wFin+TFtext+(1-ω-T)Fvisual（8) 1列反映了依照筛选条件，时间间隔为依照时间式中ω、T、1-w-r∈[0,1]分别为社会、文本、视觉3 (Date)参照点前后4个月的条件下，所得到的视频种异构多模态特征的融合权重。在进行融合之前，数量结果。相对于整个视频库中总的视频数量，本我们将各个模态信息进行相应的归一化操作，每个文提出的文本过滤策略平均滤掉了99.82%的视频模态信息均取相应均等权重。数据。从而使得视觉等较为耗费计算资源的运算可以上对本文方法的各个模块进行了详细介绍。以在一个相对较小的集合上进行。本文初步探讨多种在不同层次、从不同角度反映视首先，我们使用类似文献[18]的方法，对频相关性的信息的融合方法。在社会特征方面融合表1中的每一个话题给定文本筛选条件，利用1.2 了视频上传日期、类别和作者信息，文本方面则融合节中描述的文本筛选方法筛选出与这几个话题相关了视频标题和标签的相似性：在整体层面，则将社的视频集合，见表2。会、文本和视觉三大模态的异构信息进行了融合。表2特定筛选条件及筛选结果目前，对于各模态内部以及各模态之间权重的分配 Table 2 The results of specific conditions 方面暂时没有展开过多细节讨论。 D 关键词数量 1 bush shoe 210 2实验结果及分析 2 obama inauguration 436 2.1实验数据准备 3 Susan Boyle 683 为验证本文方法的有效性，我们在MCG-WEBV 4 Amanda Holden 294 2.011数据集上进行了实验。该数据集按月收集了 5 Michael Jackson 1923 6 276 2008年12月-2009年11月间YouTube给定的19 cenk uygur 7 Lady Gaga poker 196 个视频类别上的“每月观看最多”视频，以及它们的 8 Silvio Berlusconi 413 相关视频和同作者视频，共计248887个。 9 brad pitt 150 上述数据收集方法使得这一年内网络空间的热 10 lauren luke 149 点事件在该数据集上都有所体现。基于此，选择发 11 Miley Cyrus 467 生在这段时间内关于11个热点话题的视频进行实然后，对候选集合中的视频进行人工标注，一个验，表1列出了这些话题的基本情况。视频被标注为与该话题相关当且仅当它包含了描述像帧相似度的计算。为实现从图像帧相似度到视频相似度的计算，Ｚｈａｏ等使用了Ｈｏｕｇｈ变换投票方法。其描述为：１）以等时间戳进行时间对准；２）进行等时间间隔霍夫投票，即如果两个视频某个相同时间差片段间的视觉相似性高于某一个阈值，则予以投票；３）以时间差为横轴形成的直方图，直方图越高，则两个视频连续片段越相似，亦即视频越相似。除Ｈｏｕｇｈ变换投票外，从图像帧相似度到视频相似度计算方面的典型方法还有基于网络流约束的线性规划的方法［１６］等。考虑更多方法并将它们的优势结合起来，实现更加准确的视频视觉相似度计算也是我们的下一步工作之一。１．５多模态相关性计算通过上述介绍的方法，可以分别计算得到两个视频在社会特征、文本和视觉模态的相似度，通过式（８）对这３方面的相似度进行融合：Ｆｆｕｓｉｏｎ＝ ωＦｓｏｃｉａｌ＋ τＦｔｅｘｔ＋（１－ ω － τ）Ｆｖｉｓｕａｌ（８）式中 ω、τ、１－ω－τ∈［０，１］分别为社会、文本、视觉３种异构多模态特征的融合权重。在进行融合之前，我们将各个模态信息进行相应的归一化操作，每个模态信息均取相应均等权重。以上对本文方法的各个模块进行了详细介绍。本文初步探讨多种在不同层次、从不同角度反映视频相关性的信息的融合方法。在社会特征方面融合了视频上传日期、类别和作者信息，文本方面则融合了视频标题和标签的相似性；在整体层面，则将社会、文本和视觉三大模态的异构信息进行了融合。目前，对于各模态内部以及各模态之间权重的分配方面暂时没有展开过多细节讨论。２实验结果及分析２．１实验数据准备为验证本文方法的有效性，我们在ＭＣＧ⁃ＷＥＢＶ２．０［１７］数据集上进行了实验。该数据集按月收集了２００８年１２月－２００９年１１月间ＹｏｕＴｕｂｅ给定的１９个视频类别上的“每月观看最多”视频，以及它们的相关视频和同作者视频，共计２４８８８７个。上述数据收集方法使得这一年内网络空间的热点事件在该数据集上都有所体现。基于此，选择发生在这段时间内关于１１个热点话题的视频进行实验，表１列出了这些话题的基本情况。表１热点话题的基本情况Ｔａｂｌｅ１ＴｈｅｈｏｔｔｏｐｉｃｓＩＤ话题描述日期１ＢｕｓｈｗａｓａｔｔａｃｋｅｄｂｙｓｈｏｅｓｉｎＩｒａｑ２００８１１２Ｏｂａｍａ’ｓｉｎａｕｇｕｒａｔｉｏｎｓｐｅｅｃｈ２００９０１３ＳｕｓａｎＢｏｙｌｅｉｎＢｒｉｔａｉｎ’ｓＧｏｔＴａｌｅｎｔ２００９０４４ＡｍａｎｄａＨｏｌｄｅｎｉｎＢｒｉｔａｉｎ’ｓＧｏｔＴａｌｅｎｔ２００９０４５ＴｈｅｄｅａｔｈｏｆＭｉｃｈａｅｌＪａｃｋｓｏｎ２００９０６６ＣｅｎｋＵｙｇｕｒ’ｓｎｅｗｓｓｈｏｗ２００９０８７ＬａｄｙＧａｇａＰｏｋｅｒＦａｃｅ２００９０２８ＳｉｌｖｉｏＢｅｒｌｕｓｃｏｎｉｗａｓａｔｔａｃｋｅｄｉｎＭｉｌａｎ２００９１１９ＢｒａｄＰｉｔｔ’ｓｍｏｖｉｅｓ２００９０２１０ＬａｕｒｅｎＬｕｋｅ’ｓｍａｋｅｕｐ２００９０４１１ＭｉｌｅｙＣｙｒｕｓ’ｓｓｈｏｗ２００８１２表２给出了实验中依照特定关键词筛选条件进行文本过滤后，每个话题剩余的满足条件的视频数量。第１列（ＩＤ）表示的是视频的１１个话题的集合，表的第２列反映了每一个主题下的关键词，最后１列反映了依照筛选条件，时间间隔为依照时间（Ｄａｔｅ）参照点前后４个月的条件下，所得到的视频数量结果。相对于整个视频库中总的视频数量，本文提出的文本过滤策略平均滤掉了９９．８２％的视频数据。从而使得视觉等较为耗费计算资源的运算可以在一个相对较小的集合上进行。首先，我们使用类似文献［１８］的方法，对表１中的每一个话题给定文本筛选条件，利用１．２节中描述的文本筛选方法筛选出与这几个话题相关的视频集合，见表２。表２特定筛选条件及筛选结果Ｔａｂｌｅ２ＴｈｅｒｅｓｕｌｔｓｏｆｓｐｅｃｉｆｉｃｃｏｎｄｉｔｉｏｎｓＩＤ关键词数量１ｂｕｓｈｓｈｏｅ２１０２ｏｂａｍａｉｎａｕｇｕｒａｔｉｏｎ４３６３ＳｕｓａｎＢｏｙｌｅ６８３４ＡｍａｎｄａＨｏｌｄｅｎ２９４５ＭｉｃｈａｅｌＪａｃｋｓｏｎ１９２３６ｃｅｎｋｕｙｇｕｒ２７６７ＬａｄｙＧａｇａｐｏｋｅｒ１９６８ＳｉｌｖｉｏＢｅｒｌｕｓｃｏｎｉ４１３９ｂｒａｄｐｉｔｔ１５０１０ｌａｕｒｅｎｌｕｋｅ１４９１１ＭｉｌｅｙＣｙｒｕｓ４６７然后，对候选集合中的视频进行人工标注，一个视频被标注为与该话题相关当且仅当它包含了描述第３期温有福，等：一种多模态融合的网络视频相关性度量方法 ·３６３·

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】一种多模态融合的网络视频相关性度量方法编辑部