索引擎。在国内，主流视频分享网站优酷网目前拥有超过１亿网络视频，日

正在加载图片...

·360 智能系统学报第11卷索引擎。在国内，主流视频分享网站优酷网目前拥各种信息，例如视频类别、视频上传时间、视频作者有超过1亿网络视频，日均观看次数超过4亿次。等，我们将这些特征称为社会特征。显然，这些信息网络视频已成为社会生活中知识传播、信息获取和从特定角度体现了视频内容，可以用来更好地度量休闲娱乐的重要载体之一。视频之间的相关性。已有研究表明：仅仅使用视频网络视频数量的持续快速增长使得海量网络视的视听觉内容很难将视频归到某一种类。而网频库中视频相关性的快速准确度量成为一个至关重络视频网页周边的相关信息提供了很多的资源，这要的课题。对视频分享网站而言，若能更好更快地些资源可以更加准确地评判视频之间的相似性，从度量网络视频之间的相关性，视频推荐、视频检索、而有利于检索实现。目前也已经有学者开始利用这视频主题发现等典型视频服务则可以得到更好的开些信息去研究网络视频的分类和检索问题。例如展。对视频网站上网络视频的检索而言，最为核心 Wu等1]结合用户兴趣和文本解决视频分类问题；的是相关性度量问题，即对给定的查询视频，挖掘它 Davidson等[4提出利用视频的“共同观看”关系进与库中其他视频在文本或视觉上的相似性，进而得行视频推荐。上述成果表明，网络视频网页上蕴含到相关度打分，通过相关度分数的高低来得到检索了丰富的信息，可以被用来更好地计算两个视频之结果。关于相关性度量，有使用视频文本相似度的间的相关度，从而为更多模态的融合提供更好的思方法，如Zhu等)应用关键词投票的相似性度量方路。上述多模态的融合方法，或者增加音频、或者增法进行视频文本标题的分类。有文本相似性和视频加文本、或者使用视频共现关系，但是没有全面考虑相似性相结合的方法，如Brezeale等t2]结合文本相社会特征对相关度度量的影响。似度和视觉特征相似度进行的视频匹对与分类：本文将文本（视频标题、视频标签）、视觉（视频 Schmiedeke等)融合视频的文本标签和视觉相似度内容)、社会特征（视频的上传时间、视频的作者、视进行视频的分类。但主流研究集中在基于视频内容频的类别)进行全面的多模态的融合。真实网络视的相似性计算上，包括各类特征的提取、检索结果的频数据上的实验表明：相比于仅考虑视觉、文本、社求精和加速等[4 会或者是视觉+文本的方法，本文方法可以取得近年来，人们开始引入更多的模态和信息来加 5%~25%的性能提升，充分说明了本文方法的有强视频相似性度量的准确性。Feng等o融合视频效性。标注、视觉、视频间关系来提升视频检索质量： Brezeale等山面向视频分类，分析比较了文本、视 1 多模态融合的网络视频相关性度量频、音频三模态融合的方法。上述方法虽然在实践图1给出了本文多模态融合的网络视频相关性中取得了很好的效果，但忽视了网络视频网页上的度量方法的整体框架。相关性计算相关性融合输入视频视频作者社会相关性融合相关性度量上传时间 (作者喜好网络子视频集视觉相关性融合相关性度量视频库视频标签文本相关性度量相关性融合视频标题相关性度量结果图1检索融合流程图 Fig.1 The flow chart of image retrieval 多模态融合网络视频相关性度量方法分为3个模块：1)文本过滤：2)相关性度量；3)相关性融合。索引擎。在国内，主流视频分享网站优酷网目前拥有超过１亿网络视频，日均观看次数超过４亿次。网络视频已成为社会生活中知识传播、信息获取和休闲娱乐的重要载体之一。网络视频数量的持续快速增长使得海量网络视频库中视频相关性的快速准确度量成为一个至关重要的课题。对视频分享网站而言，若能更好更快地度量网络视频之间的相关性，视频推荐、视频检索、视频主题发现等典型视频服务则可以得到更好的开展。对视频网站上网络视频的检索而言，最为核心的是相关性度量问题，即对给定的查询视频，挖掘它与库中其他视频在文本或视觉上的相似性，进而得到相关度打分，通过相关度分数的高低来得到检索结果。关于相关性度量，有使用视频文本相似度的方法，如Ｚｈｕ等［１］应用关键词投票的相似性度量方法进行视频文本标题的分类。有文本相似性和视频相似性相结合的方法，如Ｂｒｅｚｅａｌｅ等［２］结合文本相似度和视觉特征相似度进行的视频匹对与分类；Ｓｃｈｍｉｅｄｅｋｅ等［３］融合视频的文本标签和视觉相似度进行视频的分类。但主流研究集中在基于视频内容的相似性计算上，包括各类特征的提取、检索结果的求精和加速等［４⁃９］。近年来，人们开始引入更多的模态和信息来加强视频相似性度量的准确性。Ｆｅｎｇ等［１０］融合视频标注、视觉、视频间关系来提升视频检索质量；Ｂｒｅｚｅａｌｅ等［１１］面向视频分类，分析比较了文本、视频、音频三模态融合的方法。上述方法虽然在实践中取得了很好的效果，但忽视了网络视频网页上的各种信息，例如视频类别、视频上传时间、视频作者等，我们将这些特征称为社会特征。显然，这些信息从特定角度体现了视频内容，可以用来更好地度量视频之间的相关性。已有研究表明：仅仅使用视频的视听觉内容很难将视频归到某一种类［１２］。而网络视频网页周边的相关信息提供了很多的资源，这些资源可以更加准确地评判视频之间的相似性，从而有利于检索实现。目前也已经有学者开始利用这些信息去研究网络视频的分类和检索问题。例如Ｗｕ等［１３］结合用户兴趣和文本解决视频分类问题；Ｄａｖｉｄｓｏｎ等［１４］提出利用视频的“共同观看”关系进行视频推荐。上述成果表明，网络视频网页上蕴含了丰富的信息，可以被用来更好地计算两个视频之间的相关度，从而为更多模态的融合提供更好的思路。上述多模态的融合方法，或者增加音频、或者增加文本、或者使用视频共现关系，但是没有全面考虑社会特征对相关度度量的影响。本文将文本（视频标题、视频标签）、视觉（视频内容）、社会特征（视频的上传时间、视频的作者、视频的类别）进行全面的多模态的融合。真实网络视频数据上的实验表明：相比于仅考虑视觉、文本、社会或者是视觉＋文本的方法，本文方法可以取得５％～２５％的性能提升，充分说明了本文方法的有效性。１多模态融合的网络视频相关性度量图１给出了本文多模态融合的网络视频相关性度量方法的整体框架。图１检索融合流程图Ｆｉｇ．１Ｔｈｅｆｌｏｗｃｈａｒｔｏｆｉｍａｇｅｒｅｔｒｉｅｖａｌ多模态融合网络视频相关性度量方法分为３个模块：１）文本过滤；２）相关性度量；３）相关性融合。 ·３６０· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】一种多模态融合的网络视频相关性度量方法编辑部