【机器感知与模式识别】一种多模态融合的网络视频相关性度量方法编辑部

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：927.48KB

第11卷第3期智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992/is.201603040 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0957.032.html 一种多模态融合的网络视频相关性度量方法温有福2，贾彩燕，陈智能2 (1.北京交通大学交通数据分析与数据挖掘北京市重点实验室，北京100044：2.中国科学院自动化研究所数字内容技术与服务研究中心，北京100190) 摘要：随着网络和多媒体技术的发展，视频分享网站中的网络视频数量呈爆炸式增长。海量视频库中的高精度视频检索、分类、标注等任务成为亟待解决的研究问题。视频间的相关性度量是这些问题所面临的一个共性基础技术。本文从视频视觉内容，视频标题和标签文本，以及视频上传时间、类别、作者3种人与视频交互产生的社会特征等多源异构信息出发，提出一种新颖的多模态融合的网络视频相关性度量方法，并将所获相关性应用到大规模视频检索任务中。YouTube数据上的实验结果显示：相对于传统单一文本特征、单一视觉特征的检索方案，以及文本和视觉特征相融合的检索方案，文本视觉和用户社会特征多模态融合方法表现出更好的性能。关键词：网络视频；海量视频；社会特征；交互；多源异构信息；多模态信息融合；相关性度量；视频检索中图分类号：TP393文献标志码：A文章编号：1673-4785(2016)03-0359-07 中文引用格式：温有福，贾彩燕，陈智能.一种多模态融合的网络视频相关性度量方法[J].智能系统学报，2016,11(3)：359-365. 英文引用格式：WEN Youfu,JIA Caiyan,.CHEN Zhineng..A multi-modal fusion approach for measuring web video relatedness[J]. CAAI transactions on intelligent systems,2016,11(3):359-365. A multi-modal fusion approach for measuring web video relatedness WEN Youfu'2,JIA Caiyan',CHEN Zhineng? (1.Beijing Key Lab of Traffic Data Analysis and Mining,Beijing Jiaotong University,Beijing 100044,China;2.Interactive Media Re- search and Services Center,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China) Abstract:With the advances in internet and multimedia technologies,the number of web videos on social video platforms rapidly grows.Therefore,tasks such as large-scale video retrieval,classification,and annotation become issues that need to be urgently addressed.Web video relatedness serves as a basic and common infrastructure for these issues.This paper investigates the measurement of web video relatedness from a multi-modal fusion perspec- tive.It proposes to measure web video relatedness based on multi-source heterogeneous information.The multi-mo- dal fusion simultaneously leverages videos'visual content,title,and tag text as well as social features contributed by human-video interactions (i.e.,the upload time,channel,and author of a video).Consequently,a novel multi- modal fusion approach is proposed for computing web video relatedness,which serves to give a ranking criterion and is applied to the task of large-scale video retrieval.Experimental results using YouTube videos show that the pro- posed text,visual,and users'social feature multi-modal fusion approach performs best in comparison tests with three alternate approaches;i.e.,those approaches that compute web video relatedness based just on text features, just on visual features,or jointly on text and visual features. Keywords:web video;large-scale video;social feature;human-video interactions;multi-source heterogeneous in- formation;social features;multi-modal fusion;relatedness measurement;video retrieval 视频是集图像、声音和文字信息于一体的多源信息载体，其丰富直观的表达形式非常契合人类接受信息的方式。随着网络和多媒体技术的快速发收稿日期：2016-03-19.网络出版日期：2016-05-13. 基金项目：国家自然科学基金项目(61473030,61303175)：重点大学研展，在线视频服务正在以不可阻挡之势在互联网平究基金项目(2014JBM031):重点实验室数字媒体技术开放台上蓬勃发展。成立于2005年的视频分享网站课题通信作者：贾彩燕.E-mail:cyjia(@bjtu.edu.cm. YouTube,目前已成为世界第三大网站和第二大搜

第１１卷第３期智能系统学报Ｖｏｌ．１１ №．３２０１６年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０３０４０网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０５１３．０９５７．０３２．ｈｔｍｌ一种多模态融合的网络视频相关性度量方法温有福１，２，贾彩燕１，陈智能２（１．北京交通大学交通数据分析与数据挖掘北京市重点实验室，北京１０００４４；２．中国科学院自动化研究所数字内容技术与服务研究中心，北京１００１９０）摘要：随着网络和多媒体技术的发展，视频分享网站中的网络视频数量呈爆炸式增长。海量视频库中的高精度视频检索、分类、标注等任务成为亟待解决的研究问题。视频间的相关性度量是这些问题所面临的一个共性基础技术。本文从视频视觉内容，视频标题和标签文本，以及视频上传时间、类别、作者３种人与视频交互产生的社会特征等多源异构信息出发，提出一种新颖的多模态融合的网络视频相关性度量方法，并将所获相关性应用到大规模视频检索任务中。ＹｏｕＴｕｂｅ数据上的实验结果显示：相对于传统单一文本特征、单一视觉特征的检索方案，以及文本和视觉特征相融合的检索方案，文本视觉和用户社会特征多模态融合方法表现出更好的性能。关键词：网络视频；海量视频；社会特征；交互；多源异构信息；多模态信息融合；相关性度量；视频检索中图分类号：ＴＰ３９３文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０３⁃０３５９⁃０７中文引用格式：温有福，贾彩燕，陈智能．一种多模态融合的网络视频相关性度量方法［Ｊ］．智能系统学报，２０１６，１１（３）：３５９⁃３６５．英文引用格式：ＷＥＮＹｏｕｆｕ，ＪＩＡＣａｉｙａｎ，ＣＨＥＮＺｈｉｎｅｎｇ．Ａｍｕｌｔｉ⁃ｍｏｄａｌｆｕｓｉｏｎａｐｐｒｏａｃｈｆｏｒｍｅａｓｕｒｉｎｇｗｅｂｖｉｄｅｏｒｅｌａｔｅｄｎｅｓｓ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（３）：３５９⁃３６５．Ａｍｕｌｔｉ⁃ｍｏｄａｌｆｕｓｉｏｎａｐｐｒｏａｃｈｆｏｒｍｅａｓｕｒｉｎｇｗｅｂｖｉｄｅｏｒｅｌａｔｅｄｎｅｓｓＷＥＮＹｏｕｆｕ１，２，ＪＩＡＣａｉｙａｎ１，ＣＨＥＮＺｈｉｎｅｎｇ２（１．ＢｅｉｊｉｎｇＫｅｙＬａｂｏｆＴｒａｆｆｉｃＤａｔａＡｎａｌｙｓｉｓａｎｄＭｉｎｉｎｇ，ＢｅｉｊｉｎｇＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００４４，Ｃｈｉｎａ；２．ＩｎｔｅｒａｃｔｉｖｅＭｅｄｉａＲｅ⁃ ｓｅａｒｃｈａｎｄＳｅｒｖｉｃｅｓＣｅｎｔｅｒ，ＩｎｓｔｉｔｕｔｅｏｆＡｕｔｏｍａｔｉｏｎ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１００１９０，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｗｉｔｈｔｈｅａｄｖａｎｃｅｓｉｎｉｎｔｅｒｎｅｔａｎｄｍｕｌｔｉｍｅｄｉａｔｅｃｈｎｏｌｏｇｉｅｓ，ｔｈｅｎｕｍｂｅｒｏｆｗｅｂｖｉｄｅｏｓｏｎｓｏｃｉａｌｖｉｄｅｏｐｌａｔｆｏｒｍｓｒａｐｉｄｌｙｇｒｏｗｓ．Ｔｈｅｒｅｆｏｒｅ，ｔａｓｋｓｓｕｃｈａｓｌａｒｇｅ⁃ｓｃａｌｅｖｉｄｅｏｒｅｔｒｉｅｖａｌ，ｃｌａｓｓｉｆｉｃａｔｉｏｎ，ａｎｄａｎｎｏｔａｔｉｏｎｂｅｃｏｍｅｉｓｓｕｅｓｔｈａｔｎｅｅｄｔｏｂｅｕｒｇｅｎｔｌｙａｄｄｒｅｓｓｅｄ．Ｗｅｂｖｉｄｅｏｒｅｌａｔｅｄｎｅｓｓｓｅｒｖｅｓａｓａｂａｓｉｃａｎｄｃｏｍｍｏｎｉｎｆｒａｓｔｒｕｃｔｕｒｅｆｏｒｔｈｅｓｅｉｓｓｕｅｓ．Ｔｈｉｓｐａｐｅｒｉｎｖｅｓｔｉｇａｔｅｓｔｈｅｍｅａｓｕｒｅｍｅｎｔｏｆｗｅｂｖｉｄｅｏｒｅｌａｔｅｄｎｅｓｓｆｒｏｍａｍｕｌｔｉ⁃ｍｏｄａｌｆｕｓｉｏｎｐｅｒｓｐｅｃ⁃ ｔｉｖｅ．Ｉｔｐｒｏｐｏｓｅｓｔｏｍｅａｓｕｒｅｗｅｂｖｉｄｅｏｒｅｌａｔｅｄｎｅｓｓｂａｓｅｄｏｎｍｕｌｔｉ⁃ｓｏｕｒｃｅｈｅｔｅｒｏｇｅｎｅｏｕｓｉｎｆｏｒｍａｔｉｏｎ．Ｔｈｅｍｕｌｔｉ⁃ｍｏ⁃ ｄａｌｆｕｓｉｏｎｓｉｍｕｌｔａｎｅｏｕｓｌｙｌｅｖｅｒａｇｅｓｖｉｄｅｏｓ＇ｖｉｓｕａｌｃｏｎｔｅｎｔ，ｔｉｔｌｅ，ａｎｄｔａｇｔｅｘｔａｓｗｅｌｌａｓｓｏｃｉａｌｆｅａｔｕｒｅｓｃｏｎｔｒｉｂｕｔｅｄｂｙｈｕｍａｎ⁃ｖｉｄｅｏｉｎｔｅｒａｃｔｉｏｎｓ（ｉ．ｅ．，ｔｈｅｕｐｌｏａｄｔｉｍｅ，ｃｈａｎｎｅｌ，ａｎｄａｕｔｈｏｒｏｆａｖｉｄｅｏ）．Ｃｏｎｓｅｑｕｅｎｔｌｙ，ａｎｏｖｅｌｍｕｌｔｉ⁃ ｍｏｄａｌｆｕｓｉｏｎａｐｐｒｏａｃｈｉｓｐｒｏｐｏｓｅｄｆｏｒｃｏｍｐｕｔｉｎｇｗｅｂｖｉｄｅｏｒｅｌａｔｅｄｎｅｓｓ，ｗｈｉｃｈｓｅｒｖｅｓｔｏｇｉｖｅａｒａｎｋｉｎｇｃｒｉｔｅｒｉｏｎａｎｄｉｓａｐｐｌｉｅｄｔｏｔｈｅｔａｓｋｏｆｌａｒｇｅ⁃ｓｃａｌｅｖｉｄｅｏｒｅｔｒｉｅｖａｌ．ＥｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｕｓｉｎｇＹｏｕＴｕｂｅｖｉｄｅｏｓｓｈｏｗｔｈａｔｔｈｅｐｒｏ⁃ ｐｏｓｅｄｔｅｘｔ，ｖｉｓｕａｌ，ａｎｄｕｓｅｒｓ＇ｓｏｃｉａｌｆｅａｔｕｒｅｍｕｌｔｉ⁃ｍｏｄａｌｆｕｓｉｏｎａｐｐｒｏａｃｈｐｅｒｆｏｒｍｓｂｅｓｔｉｎｃｏｍｐａｒｉｓｏｎｔｅｓｔｓｗｉｔｈｔｈｒｅｅａｌｔｅｒｎａｔｅａｐｐｒｏａｃｈｅｓ；ｉ．ｅ．，ｔｈｏｓｅａｐｐｒｏａｃｈｅｓｔｈａｔｃｏｍｐｕｔｅｗｅｂｖｉｄｅｏｒｅｌａｔｅｄｎｅｓｓｂａｓｅｄｊｕｓｔｏｎｔｅｘｔｆｅａｔｕｒｅｓ，ｊｕｓｔｏｎｖｉｓｕａｌｆｅａｔｕｒｅｓ，ｏｒｊｏｉｎｔｌｙｏｎｔｅｘｔａｎｄｖｉｓｕａｌｆｅａｔｕｒｅｓ．Ｋｅｙｗｏｒｄｓ：ｗｅｂｖｉｄｅｏ；ｌａｒｇｅ⁃ｓｃａｌｅｖｉｄｅｏ；ｓｏｃｉａｌｆｅａｔｕｒｅ；ｈｕｍａｎ⁃ｖｉｄｅｏｉｎｔｅｒａｃｔｉｏｎｓ；ｍｕｌｔｉ⁃ｓｏｕｒｃｅｈｅｔｅｒｏｇｅｎｅｏｕｓｉｎ⁃ ｆｏｒｍａｔｉｏｎ；ｓｏｃｉａｌｆｅａｔｕｒｅｓ；ｍｕｌｔｉ⁃ｍｏｄａｌｆｕｓｉｏｎ；ｒｅｌａｔｅｄｎｅｓｓｍｅａｓｕｒｅｍｅｎｔ；ｖｉｄｅｏｒｅｔｒｉｅｖａｌ收稿日期：２０１６⁃０３⁃１９．网络出版日期：２０１６⁃０５⁃１３．基金项目：国家自然科学基金项目（６１４７３０３０，６１３０３１７５）；重点大学研究基金项目（２０１４ＪＢＭ０３１）；重点实验室数字媒体技术开放课题通信作者：贾彩燕．Ｅ⁃ｍａｉｌ：ｃｙｊｉａ＠ｂｊｔｕ．ｅｄｕ．ｃｎ．视频是集图像、声音和文字信息于一体的多源信息载体，其丰富直观的表达形式非常契合人类接受信息的方式。随着网络和多媒体技术的快速发展，在线视频服务正在以不可阻挡之势在互联网平台上蓬勃发展。成立于２００５年的视频分享网站ＹｏｕＴｕｂｅ，目前已成为世界第三大网站和第二大搜

·360 智能系统学报第11卷索引擎。在国内，主流视频分享网站优酷网目前拥各种信息，例如视频类别、视频上传时间、视频作者有超过1亿网络视频，日均观看次数超过4亿次。等，我们将这些特征称为社会特征。显然，这些信息网络视频已成为社会生活中知识传播、信息获取和从特定角度体现了视频内容，可以用来更好地度量休闲娱乐的重要载体之一。视频之间的相关性。已有研究表明：仅仅使用视频网络视频数量的持续快速增长使得海量网络视的视听觉内容很难将视频归到某一种类。而网频库中视频相关性的快速准确度量成为一个至关重络视频网页周边的相关信息提供了很多的资源，这要的课题。对视频分享网站而言，若能更好更快地些资源可以更加准确地评判视频之间的相似性，从度量网络视频之间的相关性，视频推荐、视频检索、而有利于检索实现。目前也已经有学者开始利用这视频主题发现等典型视频服务则可以得到更好的开些信息去研究网络视频的分类和检索问题。例如展。对视频网站上网络视频的检索而言，最为核心 Wu等1]结合用户兴趣和文本解决视频分类问题；的是相关性度量问题，即对给定的查询视频，挖掘它 Davidson等[4提出利用视频的“共同观看”关系进与库中其他视频在文本或视觉上的相似性，进而得行视频推荐。上述成果表明，网络视频网页上蕴含到相关度打分，通过相关度分数的高低来得到检索了丰富的信息，可以被用来更好地计算两个视频之结果。关于相关性度量，有使用视频文本相似度的间的相关度，从而为更多模态的融合提供更好的思方法，如Zhu等)应用关键词投票的相似性度量方路。上述多模态的融合方法，或者增加音频、或者增法进行视频文本标题的分类。有文本相似性和视频加文本、或者使用视频共现关系，但是没有全面考虑相似性相结合的方法，如Brezeale等t2]结合文本相社会特征对相关度度量的影响。似度和视觉特征相似度进行的视频匹对与分类：本文将文本（视频标题、视频标签）、视觉（视频 Schmiedeke等)融合视频的文本标签和视觉相似度内容)、社会特征（视频的上传时间、视频的作者、视进行视频的分类。但主流研究集中在基于视频内容频的类别)进行全面的多模态的融合。真实网络视的相似性计算上，包括各类特征的提取、检索结果的频数据上的实验表明：相比于仅考虑视觉、文本、社求精和加速等[4 会或者是视觉+文本的方法，本文方法可以取得近年来，人们开始引入更多的模态和信息来加 5%~25%的性能提升，充分说明了本文方法的有强视频相似性度量的准确性。Feng等o融合视频效性。标注、视觉、视频间关系来提升视频检索质量： Brezeale等山面向视频分类，分析比较了文本、视 1 多模态融合的网络视频相关性度量频、音频三模态融合的方法。上述方法虽然在实践图1给出了本文多模态融合的网络视频相关性中取得了很好的效果，但忽视了网络视频网页上的度量方法的整体框架。相关性计算相关性融合输入视频视频作者社会相关性融合相关性度量上传时间 (作者喜好网络子视频集视觉相关性融合相关性度量视频库视频标签文本相关性度量相关性融合视频标题相关性度量结果图1检索融合流程图 Fig.1 The flow chart of image retrieval 多模态融合网络视频相关性度量方法分为3个模块：1)文本过滤：2)相关性度量；3)相关性融合

索引擎。在国内，主流视频分享网站优酷网目前拥有超过１亿网络视频，日均观看次数超过４亿次。网络视频已成为社会生活中知识传播、信息获取和休闲娱乐的重要载体之一。网络视频数量的持续快速增长使得海量网络视频库中视频相关性的快速准确度量成为一个至关重要的课题。对视频分享网站而言，若能更好更快地度量网络视频之间的相关性，视频推荐、视频检索、视频主题发现等典型视频服务则可以得到更好的开展。对视频网站上网络视频的检索而言，最为核心的是相关性度量问题，即对给定的查询视频，挖掘它与库中其他视频在文本或视觉上的相似性，进而得到相关度打分，通过相关度分数的高低来得到检索结果。关于相关性度量，有使用视频文本相似度的方法，如Ｚｈｕ等［１］应用关键词投票的相似性度量方法进行视频文本标题的分类。有文本相似性和视频相似性相结合的方法，如Ｂｒｅｚｅａｌｅ等［２］结合文本相似度和视觉特征相似度进行的视频匹对与分类；Ｓｃｈｍｉｅｄｅｋｅ等［３］融合视频的文本标签和视觉相似度进行视频的分类。但主流研究集中在基于视频内容的相似性计算上，包括各类特征的提取、检索结果的求精和加速等［４⁃９］。近年来，人们开始引入更多的模态和信息来加强视频相似性度量的准确性。Ｆｅｎｇ等［１０］融合视频标注、视觉、视频间关系来提升视频检索质量；Ｂｒｅｚｅａｌｅ等［１１］面向视频分类，分析比较了文本、视频、音频三模态融合的方法。上述方法虽然在实践中取得了很好的效果，但忽视了网络视频网页上的各种信息，例如视频类别、视频上传时间、视频作者等，我们将这些特征称为社会特征。显然，这些信息从特定角度体现了视频内容，可以用来更好地度量视频之间的相关性。已有研究表明：仅仅使用视频的视听觉内容很难将视频归到某一种类［１２］。而网络视频网页周边的相关信息提供了很多的资源，这些资源可以更加准确地评判视频之间的相似性，从而有利于检索实现。目前也已经有学者开始利用这些信息去研究网络视频的分类和检索问题。例如Ｗｕ等［１３］结合用户兴趣和文本解决视频分类问题；Ｄａｖｉｄｓｏｎ等［１４］提出利用视频的“共同观看”关系进行视频推荐。上述成果表明，网络视频网页上蕴含了丰富的信息，可以被用来更好地计算两个视频之间的相关度，从而为更多模态的融合提供更好的思路。上述多模态的融合方法，或者增加音频、或者增加文本、或者使用视频共现关系，但是没有全面考虑社会特征对相关度度量的影响。本文将文本（视频标题、视频标签）、视觉（视频内容）、社会特征（视频的上传时间、视频的作者、视频的类别）进行全面的多模态的融合。真实网络视频数据上的实验表明：相比于仅考虑视觉、文本、社会或者是视觉＋文本的方法，本文方法可以取得５％～２５％的性能提升，充分说明了本文方法的有效性。１多模态融合的网络视频相关性度量图１给出了本文多模态融合的网络视频相关性度量方法的整体框架。图１检索融合流程图Ｆｉｇ．１Ｔｈｅｆｌｏｗｃｈａｒｔｏｆｉｍａｇｅｒｅｔｒｉｅｖａｌ多模态融合网络视频相关性度量方法分为３个模块：１）文本过滤；２）相关性度量；３）相关性融合。 ·３６０· 智能系统学报第１１卷

第3期温有福，等：一种多模态融合的网络视频相关性度量方法 ·361· 对给定的网络视频，首先利用文本过滤模块，滤 1.2.1上传时间除掉大量不相关的网络视频。然后，分别通过社会视频的上传时间是反映用户对于当前所关注视相关性度量、文本相关性度量和视觉相关性度量3 频的时间在特定时间段上的描述。例如：存在3个个子模块，计算3个模态上的相关度。最后，通过相视频巴，：和，如果，与：和号之间的时间间隔关性融合模块，进行融合，从而实现更准确相关性分别为3个月和3年，那么，与：之间的相似度会度量。更高一些。 1.1基于文本的过滤为度量视频的这种相关性，我们首先计算视频真实网络视频库都拥有大量视频，且对任意给巴，与：的时间差值t: 定的输入视频，库中通常仅有一小部分视频与其相 tg=abs(t,-t,）关。为避免大量相关性计算耗费在无意义的视频然后，令时间间隔△1为0.5个月，将v,经过文上，提出如下所述的一种基于文本的过滤策略。令本过滤后生成的视频集合？等间隔划分为n个不 T,={,,…,}为输入视频v。所在网页上标题和相交的子集合：标签中的关键字集合，则整个视频库Ω中所有满足 2=U42 (2) 式(1)的视频都将被滤除。 =0 △2g={:1tm∈0×△t,G+1)×△)] {u:∈21T,∩T=☑} (1) 则△2为与v,时间差落在U×41,(j+1)×4t)区上述步骤假设：两个网络视频的周边文本中应间的视频集合，式(2)中令n=7。考虑到与v,的时有至少一个共同的关键字才值得进行相关度计算。间差越近的视频应有更高的相关度权值，将△：的实际情况中，这一假设对绝大部分的相关视频而言权值指派为n-j,则视频在上传时间方面的相关度都是成立的。通过这一操作，大量无关的网络视频可通过式(3)计算：得到了有效滤除。令文本过滤后生成的视频集合为P,P中视 f(e,)=-D4g) 频虽然与输入视频有至少一个相同的关键字，但其刘中仍有大量无关或相关性不高的视频。接下来，我 U:∈A2 们将从社会特征、文本和视觉3个模态上进行相关 M(△2)= (3) 其他度挖掘和分析。首先介绍社会特征方面的度量式(3)实质上是依照特定的时间间隔对视频进方法。行划分，距离给定视频。上传时间越近则f值越 1.2社会特征的选择与相关性计算高。社会特征是网络视频区别于其他视频的特色之 1.2.2视频类别一，它泛指人与视频各种交互行为产生的数据集合。常见的视频类别包括财经类、政治类、综艺类典型的社会特征包括视频上传时间、上传作者、视频等。一般地，属于同一个类别的视频的相关度通常类别、视频观看次数、视频评论等。更高。例如：有3个视频中有两个是属于综艺类的，从社交网络和多媒体的角度讲，社会特征是用而另一个是属于政治类的。从视频类别的层面分户与视频网页进行的交互以及多媒体服务人员为相析，两个综艺类视频的相似性程度应该更高一些。应的视频或者图像所做的对于视频或者图像内容的对此，我们应用式(4)反映：文字反映。社会特征包含的内容很多，例如用户上 (1, (channel,=channel,) 传视频的时间、视频的分类类别、视频的观看次数、 fhnm(U,:）= 0. 其他视频的作者等。这些社会特征反映了用户个人的具 (4) 体信息，用户与用户的关联信息等。通过用户个人式中channel,是视频u,所属的类别。式(4)反映了内部的关联信息以及用户与用户之间的关联性社交依照视频的类别对视频进行划分，落人到同一个类网络，可以更容易发现相关性视频，进而更好地进行别的视频则其fhm值为1。视频的相似性度量。本文选用视频的上传时间（反 1.2.3上传作者映视频的新颖性)、视频的分类类别、视频上传作者每位用户都有自己的兴趣爱好，这一特点通常 3种特征进行社会特征融合的尝试。在他/她上传的视频集合上可以得到一定体现。例

对给定的网络视频，首先利用文本过滤模块，滤除掉大量不相关的网络视频。然后，分别通过社会相关性度量、文本相关性度量和视觉相关性度量３个子模块，计算３个模态上的相关度。最后，通过相关性融合模块，进行融合，从而实现更准确相关性度量。１．１基于文本的过滤真实网络视频库都拥有大量视频，且对任意给定的输入视频，库中通常仅有一小部分视频与其相关。为避免大量相关性计算耗费在无意义的视频上，提出如下所述的一种基于文本的过滤策略。令Ｔｑ＝ｔｑ１，ｔｑ２，…，ｔｑｋ { }为输入视频ｖｑ所在网页上标题和标签中的关键字集合，则整个视频库 Ω 中所有满足式（１）的视频都将被滤除。ｖｉ ∈ Ω ｜Ｔｑ ∩ Ｔｉ { ＝ ∅} （１）上述步骤假设：两个网络视频的周边文本中应有至少一个共同的关键字才值得进行相关度计算。实际情况中，这一假设对绝大部分的相关视频而言都是成立的。通过这一操作，大量无关的网络视频得到了有效滤除。令文本过滤后生成的视频集合为 Ω ｑ，Ω ｑ中视频虽然与输入视频有至少一个相同的关键字，但其中仍有大量无关或相关性不高的视频。接下来，我们将从社会特征、文本和视觉３个模态上进行相关度挖掘和分析。首先介绍社会特征方面的度量方法。１．２社会特征的选择与相关性计算社会特征是网络视频区别于其他视频的特色之一，它泛指人与视频各种交互行为产生的数据集合。典型的社会特征包括视频上传时间、上传作者、视频类别、视频观看次数、视频评论等。从社交网络和多媒体的角度讲，社会特征是用户与视频网页进行的交互以及多媒体服务人员为相应的视频或者图像所做的对于视频或者图像内容的文字反映。社会特征包含的内容很多，例如用户上传视频的时间、视频的分类类别、视频的观看次数、视频的作者等。这些社会特征反映了用户个人的具体信息，用户与用户的关联信息等。通过用户个人内部的关联信息以及用户与用户之间的关联性社交网络，可以更容易发现相关性视频，进而更好地进行视频的相似性度量。本文选用视频的上传时间（反映视频的新颖性）、视频的分类类别、视频上传作者３种特征进行社会特征融合的尝试。１．２．１上传时间视频的上传时间是反映用户对于当前所关注视频的时间在特定时间段上的描述。例如：存在３个视频ｖｑ、ｖｉ和ｖｊ，如果ｖｑ与ｖｉ和ｖｊ之间的时间间隔分别为３个月和３年，那么ｖｑ与ｖｉ之间的相似度会更高一些。为度量视频的这种相关性，我们首先计算视频ｖｑ与ｖｉ的时间差值ｔｉｑ：ｔｉｑ＝ａｂｓ（ｔｖｑ－ｔｖｉ）然后，令时间间隔 Δｔ为０．５个月，将ｖｑ经过文本过滤后生成的视频集合 Ω ｑ等间隔划分为ｎ个不相交的子集合： Ω ｑ＝ ∪ ｎｊ＝０ ΔΩ ｑｊ（２） ΔΩ ｑｊ＝ｖｉ｜ｔ { ｉｑ ∈ [ｊ × Δｔ，（ｊ＋１） × Δｔ) ] 则 ΔΩ ｑｊ为与ｖｑ时间差落在 [ｊ×Δｔ，（ｊ＋１）×Δｔ) 区间的视频集合，式（２）中令ｎ＝７。考虑到与ｖｑ的时间差越近的视频应有更高的相关度权值，将 ΔΩ ｑｊ的权值指派为ｎ－ｊ，则视频在上传时间方面的相关度可通过式（３）计算：ｆｔｉｍｅ（ｖｑ，ｖｉ）＝（ｎ－ｊ） ∑ ｎｊ＝０ｊＭ（ΔΩｊ）Ｍ（ΔΩｊ）＝１，ｖｉ ∈ ΔΩｊ０，其他 { （３）式（３）实质上是依照特定的时间间隔对视频进行划分，距离给定视频ｖｑ上传时间越近则ｆｔｉｍｅ值越高。１．２．２视频类别常见的视频类别包括财经类、政治类、综艺类等。一般地，属于同一个类别的视频的相关度通常更高。例如：有３个视频中有两个是属于综艺类的，而另一个是属于政治类的。从视频类别的层面分析，两个综艺类视频的相似性程度应该更高一些。对此，我们应用式（４）反映：ｆｃｈａｎｎｅｌ（ｖｑ，ｖｉ）＝１，（ｃｈａｎｎｅｌｑ＝ｃｈａｎｎｅｌｉ）０，其他 { （４）式中ｃｈａｎｎｅｌｑ是视频ｖｑ所属的类别。式（４）反映了依照视频的类别对视频进行划分，落入到同一个类别的视频则其ｆｃｈａｎｎｅｌ值为１。１．２．３上传作者每位用户都有自己的兴趣爱好，这一特点通常在他／她上传的视频集合上可以得到一定体现。例第３期温有福，等：一种多模态融合的网络视频相关性度量方法 ·３６１·

·362· 智能系统学报第11卷如，用户a。和a:上传的视频主要是体育类的，而用通过式(6)，如果视频v。与视频：对应的标题户a:上传的视频主要是财经类的，在不考虑其他因向量和越相似，则它们的余弦相似度越大，素的情况下，a。上传的视频与a:上传的视频的相关亦即在标题方面的相关性f越大。度通常比他/她与α：上传的视频的相关度更高。因 1.3.2标签此，本小节我们首先建立视频作者的视频喜好模型，相对于标题，标签通常则更加具体地反映了视然后通过喜好模型的相似度度量不同视频在上传用频的内容，例如涉及的人物、地点和其他专有名词户这一因素上的相关性。等。与标题类似，两个强相关视频的标签关键词集设视频网站有K个视频类别，则用户a。上传的合存在一定交集的情况也很常见。因此，我们通过所有视频可表示为一个K维喜好向量：与标题类似的公式反映这种性质： A,=(ag,ag,…,a) fe(Dg,:）=cos(f,f) 式中a,为用户a,上传的所有视频中，标记为类别i 式中∫为视频v。的标签特征向量。同理，两个视的视频的数量。基于此，两个视频在上传用户层面频的标签向量∫和越相似，则它们在标签方面上的相关度可定义为的相关性∫越大。 author（tg,:）=fhor（A,A:） (5) 1.3.3文本信息融合式中A,A:为归一化后的作者喜好向量。以上标题和标签的信息从不同角度体现了视频式(5)反映了若作者A。与作者A:有着类似的的内容，将它们通过式(7)融合起来，可以更为准确喜好向量，则他们上传视频的相关性在上传作者这地描述了两个视频在文本模态上的相似度：一维度应被赋予更大的值。这一思想与著名的协同 F=yfitle +(1-y)fu (7) 推荐方法有着类似之处。式中y、1-y∈[0,1]分别为标题和标签。在实验中 1.3.4多社会特征融合 y被经验性的设置为0.5。以上3个社会特征对于视频的相似性度量都起 1.4视觉相关性计算到有益效果，我们将每个社会特征做相应归一化后视频的视觉内容是用户认知的根本性来源，它进行融合，公式为从本质上反映视频的相似性程度。由此，视觉相似 Fsocial=ay时ie+βfhar+（1-a-B)fchannel 性计算对于视频的相关性度量是不可或缺的一个方式中a,B,1--B∈[0,1]分别为上述3种社会特征面。在视觉的相关性度量方面，我们采用了Zhao 的权重。本文在实验中为三者赋予同等的权重。等5]提出大规模拷贝视频检测方法计算两个给定 1.3文本相关性计算视频之间的视觉相似度。在文本相关性计算的过程中，我们采用了传统该方法首先计算任意两个视频帧之间的视觉相基于文本关键词匹配的方法。该方法首先基于整个似度，再根据Hough变换原理，对相似度大且在时视频库2中所有视频的标题和标签构建一个N维序上有较高一致性的视频赋予更大的相似度，该相向量空间模型。然后，基于该模型并结合文档处理似度基本反映了两个视频之间的程度。在计算视频中常用的T℉-DF加权方法，将每个视频的标题和标帧之间的两两相似度方面，采用的是经典基于视觉签关键字集合分别表示为一个N维标题特征向量词袋模型的方法。其基本流程如图2所示。和标签特征向量，通过计算不同视频间标题和标签特征词特征向量的相似性，实现对它们文本相关性的评判。见频切帧特征提取典建立量化索引实现检索 1.3.1标题标题是对视频主要内容的高度概括，通常简要图2视觉词典方法描述了视频事件的主要内容。基于相关视频在内容 Fig.2 The method of visual vocabulary 上也存在较强相关性的假设，两个强相关的视频标具体地，我们首先以5s为时间间隔，对视频进题关键词通常也会有一定交集。这种性质则可以反行等间隔采样，提取相应图像帧。其次，在图像帧上映为提取s近特征，并利用预先训练好的视觉特征词典 fame()=cos() (6) 将每个图像帧的sf特征集合量化为一个高维的稀式中为视频：，的标题特征向量。疏向量，进而通过比较两个向量的相似性实现对图

如，用户ａｑ和ａｉ上传的视频主要是体育类的，而用户ａｊ上传的视频主要是财经类的，在不考虑其他因素的情况下，ａｑ上传的视频与ａｉ上传的视频的相关度通常比他／她与ａｊ上传的视频的相关度更高。因此，本小节我们首先建立视频作者的视频喜好模型，然后通过喜好模型的相似度度量不同视频在上传用户这一因素上的相关性。设视频网站有Ｋ个视频类别，则用户ａｑ上传的所有视频可表示为一个Ｋ维喜好向量：Ａｑ＝ａ１ｑ，ａ２ｑ，…，ａＫｑ ( ) 式中ａｉｑ为用户ａｑ上传的所有视频中，标记为类别ｉ的视频的数量。基于此，两个视频在上传用户层面上的相关度可定义为ｆａｕｔｈｏｒ（ｖｑ，ｖｉ）＝ｆａｕｔｈｏｒ（Ａｑ，Ａｉ）（５）式中Ａｑ、Ａｉ为归一化后的作者喜好向量。式（５）反映了若作者Ａｑ与作者Ａｉ有着类似的喜好向量，则他们上传视频的相关性在上传作者这一维度应被赋予更大的值。这一思想与著名的协同推荐方法有着类似之处。１．３．４多社会特征融合以上３个社会特征对于视频的相似性度量都起到有益效果，我们将每个社会特征做相应归一化后进行融合，公式为Ｆｓｏｃｉａｌ＝ αｆｔｉｍｅ＋ βｆａｕｔｈｏｒ＋（１－ α － β）ｆｃｈａｎｎｅｌ式中 α，β，１－α－β∈［０，１］分别为上述３种社会特征的权重。本文在实验中为三者赋予同等的权重。１．３文本相关性计算在文本相关性计算的过程中，我们采用了传统基于文本关键词匹配的方法。该方法首先基于整个视频库 Ω 中所有视频的标题和标签构建一个Ｎ维向量空间模型。然后，基于该模型并结合文档处理中常用的ＴＦ⁃ＩＤＦ加权方法，将每个视频的标题和标签关键字集合分别表示为一个Ｎ维标题特征向量和标签特征向量，通过计算不同视频间标题和标签特征向量的相似性，实现对它们文本相关性的评判。１．３．１标题标题是对视频主要内容的高度概括，通常简要描述了视频事件的主要内容。基于相关视频在内容上也存在较强相关性的假设，两个强相关的视频标题关键词通常也会有一定交集。这种性质则可以反映为ｆｔｉｔｌｅ（ｖｑ，ｖｉ）＝ｃｏｓ（ｆｔｉｔｌｅｑ，ｆｔｉｔｌｅｉ）（６）式中ｆｔｉｔｌｅｑ为视频ｖｑ的标题特征向量。通过式（６），如果视频ｖｑ与视频ｖｉ对应的标题向量ｆｔｉｔｌｅｑ和ｆｔｉｔｌｅｉ越相似，则它们的余弦相似度越大，亦即在标题方面的相关性ｆｔｉｔｌｅ越大。１．３．２标签相对于标题，标签通常则更加具体地反映了视频的内容，例如涉及的人物、地点和其他专有名词等。与标题类似，两个强相关视频的标签关键词集合存在一定交集的情况也很常见。因此，我们通过与标题类似的公式反映这种性质：ｆｔａｇ（ｖｑ，ｖｉ）＝ｃｏｓ（ｆｔａｇｑ，ｆｔａｇｉ）式中ｆｔａｇｑ为视频ｖｑ的标签特征向量。同理，两个视频的标签向量ｆｔａｇｑ和ｆｔａｇｉ越相似，则它们在标签方面的相关性ｆｔａｇ越大。１．３．３文本信息融合以上标题和标签的信息从不同角度体现了视频的内容，将它们通过式（７）融合起来，可以更为准确地描述了两个视频在文本模态上的相似度：Ｆｔｅｘｔ＝ γｆｔｉｔｌｅ＋（１－ γ）ｆｔａｇ（７）式中 γ、１－γ∈［０，１］分别为标题和标签。在实验中 γ 被经验性的设置为０．５。１．４视觉相关性计算视频的视觉内容是用户认知的根本性来源，它从本质上反映视频的相似性程度。由此，视觉相似性计算对于视频的相关性度量是不可或缺的一个方面。在视觉的相关性度量方面，我们采用了Ｚｈａｏ等［１５］提出大规模拷贝视频检测方法计算两个给定视频之间的视觉相似度。该方法首先计算任意两个视频帧之间的视觉相似度，再根据Ｈｏｕｇｈ变换原理，对相似度大且在时序上有较高一致性的视频赋予更大的相似度，该相似度基本反映了两个视频之间的程度。在计算视频帧之间的两两相似度方面，采用的是经典基于视觉词袋模型的方法。其基本流程如图２所示。图２视觉词典方法Ｆｉｇ．２Ｔｈｅｍｅｔｈｏｄｏｆｖｉｓｕａｌｖｏｃａｂｕｌａｒｙ具体地，我们首先以５ｓ为时间间隔，对视频进行等间隔采样，提取相应图像帧。其次，在图像帧上提取ｓｉｆｔ特征，并利用预先训练好的视觉特征词典将每个图像帧的ｓｉｆｔ特征集合量化为一个高维的稀疏向量，进而通过比较两个向量的相似性实现对图 ·３６２· 智能系统学报第１１卷

第3期温有福，等：一种多模态融合的网络视频相关性度量方法 ·363. 像帧相似度的计算。表1热点话题的基本情况为实现从图像帧相似度到视频相似度的计算， Table 1 The hot topics Zhao等使用了Hough变换投票方法。其描述为：1) D 话题描述日期以等时间截进行时间对准：2)进行等时间间隔霍夫 Bush was attacked by shoes in Iraq 200811 投票，即如果两个视频某个相同时间差片段间的视 2 Obama's inauguration speech 200901 觉相似性高于某一个阈值，则予以投票：3)以时间 3 Susan Boyle in Britain's Got Talent 200904 Amanda Holden in Britain's Got Talent 200904 差为横轴形成的直方图，直方图越高，则两个视频连 5 The death of Michael Jackson 200906 续片段越相似，亦即视频越相似。 6 Cenk Uygur's news show 200908 除Hough变换投票外，从图像帧相似度到视频个 Lady Gaga Poker Face 200902 相似度计算方面的典型方法还有基于网络流约束的 8 Silvio Berlusconi was attacked in Milan 200911 线性规划的方法[6等。考虑更多方法并将它们的 9 Brad Pitt's movies 200902 优势结合起来，实现更加准确的视频视觉相似度计 10 Lauren Luke's makeup 200904 算也是我们的下一步工作之一。 11 Miley Cyrus's show 200812 1.5多模态相关性计算表2给出了实验中依照特定关键词筛选条件进通过上述介绍的方法，可以分别计算得到两个行文本过滤后，每个话题剩余的满足条件的视频数视频在社会特征、文本和视觉模态的相似度，通过式量。第1列(D)表示的是视频的11个话题的集 (8)对这3方面的相似度进行融合：合，表的第2列反映了每一个主题下的关键词，最后 F fusion=wFin+TFtext+(1-ω-T)Fvisual（8) 1列反映了依照筛选条件，时间间隔为依照时间式中ω、T、1-w-r∈[0,1]分别为社会、文本、视觉3 (Date)参照点前后4个月的条件下，所得到的视频种异构多模态特征的融合权重。在进行融合之前，数量结果。相对于整个视频库中总的视频数量，本我们将各个模态信息进行相应的归一化操作，每个文提出的文本过滤策略平均滤掉了99.82%的视频模态信息均取相应均等权重。数据。从而使得视觉等较为耗费计算资源的运算可以上对本文方法的各个模块进行了详细介绍。以在一个相对较小的集合上进行。本文初步探讨多种在不同层次、从不同角度反映视首先，我们使用类似文献[18]的方法，对频相关性的信息的融合方法。在社会特征方面融合表1中的每一个话题给定文本筛选条件，利用1.2 了视频上传日期、类别和作者信息，文本方面则融合节中描述的文本筛选方法筛选出与这几个话题相关了视频标题和标签的相似性：在整体层面，则将社的视频集合，见表2。会、文本和视觉三大模态的异构信息进行了融合。表2特定筛选条件及筛选结果目前，对于各模态内部以及各模态之间权重的分配 Table 2 The results of specific conditions 方面暂时没有展开过多细节讨论。 D 关键词数量 1 bush shoe 210 2实验结果及分析 2 obama inauguration 436 2.1实验数据准备 3 Susan Boyle 683 为验证本文方法的有效性，我们在MCG-WEBV 4 Amanda Holden 294 2.011数据集上进行了实验。该数据集按月收集了 5 Michael Jackson 1923 6 276 2008年12月-2009年11月间YouTube给定的19 cenk uygur 7 Lady Gaga poker 196 个视频类别上的“每月观看最多”视频，以及它们的 8 Silvio Berlusconi 413 相关视频和同作者视频，共计248887个。 9 brad pitt 150 上述数据收集方法使得这一年内网络空间的热 10 lauren luke 149 点事件在该数据集上都有所体现。基于此，选择发 11 Miley Cyrus 467 生在这段时间内关于11个热点话题的视频进行实然后，对候选集合中的视频进行人工标注，一个验，表1列出了这些话题的基本情况。视频被标注为与该话题相关当且仅当它包含了描述

像帧相似度的计算。为实现从图像帧相似度到视频相似度的计算，Ｚｈａｏ等使用了Ｈｏｕｇｈ变换投票方法。其描述为：１）以等时间戳进行时间对准；２）进行等时间间隔霍夫投票，即如果两个视频某个相同时间差片段间的视觉相似性高于某一个阈值，则予以投票；３）以时间差为横轴形成的直方图，直方图越高，则两个视频连续片段越相似，亦即视频越相似。除Ｈｏｕｇｈ变换投票外，从图像帧相似度到视频相似度计算方面的典型方法还有基于网络流约束的线性规划的方法［１６］等。考虑更多方法并将它们的优势结合起来，实现更加准确的视频视觉相似度计算也是我们的下一步工作之一。１．５多模态相关性计算通过上述介绍的方法，可以分别计算得到两个视频在社会特征、文本和视觉模态的相似度，通过式（８）对这３方面的相似度进行融合：Ｆｆｕｓｉｏｎ＝ ωＦｓｏｃｉａｌ＋ τＦｔｅｘｔ＋（１－ ω － τ）Ｆｖｉｓｕａｌ（８）式中 ω、τ、１－ω－τ∈［０，１］分别为社会、文本、视觉３种异构多模态特征的融合权重。在进行融合之前，我们将各个模态信息进行相应的归一化操作，每个模态信息均取相应均等权重。以上对本文方法的各个模块进行了详细介绍。本文初步探讨多种在不同层次、从不同角度反映视频相关性的信息的融合方法。在社会特征方面融合了视频上传日期、类别和作者信息，文本方面则融合了视频标题和标签的相似性；在整体层面，则将社会、文本和视觉三大模态的异构信息进行了融合。目前，对于各模态内部以及各模态之间权重的分配方面暂时没有展开过多细节讨论。２实验结果及分析２．１实验数据准备为验证本文方法的有效性，我们在ＭＣＧ⁃ＷＥＢＶ２．０［１７］数据集上进行了实验。该数据集按月收集了２００８年１２月－２００９年１１月间ＹｏｕＴｕｂｅ给定的１９个视频类别上的“每月观看最多”视频，以及它们的相关视频和同作者视频，共计２４８８８７个。上述数据收集方法使得这一年内网络空间的热点事件在该数据集上都有所体现。基于此，选择发生在这段时间内关于１１个热点话题的视频进行实验，表１列出了这些话题的基本情况。表１热点话题的基本情况Ｔａｂｌｅ１ＴｈｅｈｏｔｔｏｐｉｃｓＩＤ话题描述日期１ＢｕｓｈｗａｓａｔｔａｃｋｅｄｂｙｓｈｏｅｓｉｎＩｒａｑ２００８１１２Ｏｂａｍａ’ｓｉｎａｕｇｕｒａｔｉｏｎｓｐｅｅｃｈ２００９０１３ＳｕｓａｎＢｏｙｌｅｉｎＢｒｉｔａｉｎ’ｓＧｏｔＴａｌｅｎｔ２００９０４４ＡｍａｎｄａＨｏｌｄｅｎｉｎＢｒｉｔａｉｎ’ｓＧｏｔＴａｌｅｎｔ２００９０４５ＴｈｅｄｅａｔｈｏｆＭｉｃｈａｅｌＪａｃｋｓｏｎ２００９０６６ＣｅｎｋＵｙｇｕｒ’ｓｎｅｗｓｓｈｏｗ２００９０８７ＬａｄｙＧａｇａＰｏｋｅｒＦａｃｅ２００９０２８ＳｉｌｖｉｏＢｅｒｌｕｓｃｏｎｉｗａｓａｔｔａｃｋｅｄｉｎＭｉｌａｎ２００９１１９ＢｒａｄＰｉｔｔ’ｓｍｏｖｉｅｓ２００９０２１０ＬａｕｒｅｎＬｕｋｅ’ｓｍａｋｅｕｐ２００９０４１１ＭｉｌｅｙＣｙｒｕｓ’ｓｓｈｏｗ２００８１２表２给出了实验中依照特定关键词筛选条件进行文本过滤后，每个话题剩余的满足条件的视频数量。第１列（ＩＤ）表示的是视频的１１个话题的集合，表的第２列反映了每一个主题下的关键词，最后１列反映了依照筛选条件，时间间隔为依照时间（Ｄａｔｅ）参照点前后４个月的条件下，所得到的视频数量结果。相对于整个视频库中总的视频数量，本文提出的文本过滤策略平均滤掉了９９．８２％的视频数据。从而使得视觉等较为耗费计算资源的运算可以在一个相对较小的集合上进行。首先，我们使用类似文献［１８］的方法，对表１中的每一个话题给定文本筛选条件，利用１．２节中描述的文本筛选方法筛选出与这几个话题相关的视频集合，见表２。表２特定筛选条件及筛选结果Ｔａｂｌｅ２ＴｈｅｒｅｓｕｌｔｓｏｆｓｐｅｃｉｆｉｃｃｏｎｄｉｔｉｏｎｓＩＤ关键词数量１ｂｕｓｈｓｈｏｅ２１０２ｏｂａｍａｉｎａｕｇｕｒａｔｉｏｎ４３６３ＳｕｓａｎＢｏｙｌｅ６８３４ＡｍａｎｄａＨｏｌｄｅｎ２９４５ＭｉｃｈａｅｌＪａｃｋｓｏｎ１９２３６ｃｅｎｋｕｙｇｕｒ２７６７ＬａｄｙＧａｇａｐｏｋｅｒ１９６８ＳｉｌｖｉｏＢｅｒｌｕｓｃｏｎｉ４１３９ｂｒａｄｐｉｔｔ１５０１０ｌａｕｒｅｎｌｕｋｅ１４９１１ＭｉｌｅｙＣｙｒｕｓ４６７然后，对候选集合中的视频进行人工标注，一个视频被标注为与该话题相关当且仅当它包含了描述第３期温有福，等：一种多模态融合的网络视频相关性度量方法 ·３６３·

·364. 智能系统学报第11卷上述热点事件的镜头。两个视频的相关度被置为1 表3中的第1列D表示11个相关话题，后面 (即标注为相关视频)当且仅当它们都被标注为与的每1列值表征的是AP的检索结果：最后1列反同一个话题相关，其余情况下，两个视频的相关度被映了实验结果。我们的方法将特有的社会特征与文置为0，即不相关。对任意一个输入视频，依据2.2.2 本、视觉进行融合，相比于单一的文本视觉，以及文小节给出的不同方法，计算它与数据集中其他视频本和视觉相融合的方法取得到了较好的效果。的相关度，为每个方法得到一个按相关度得分从高综上所述，将视觉、文本和社会特征进行多模态融到低排序的结果列表。然后，我们用多媒体检索中合的方案取得了上述最好的结果，相对单一视觉，单一广泛采用的AP作为衡量结果相关性度量准确性的文本方法5%~25%的性能上的提升，相对于文本和视指标，其中AP的计算公式为觉融合的方法，我们的方法也取得了更好的结果。 AP n'j=i 3结束语其中n是测试集中相关视频的总数，n=100表示仅本文提出一种新颖的网络视频相似性度量方考虑列表的前100个结果。若第j个视频是相关视法。从文本、视觉和社会特征3个角度同时挖掘视频，则1=1，否则1=0。R表示前j个结果中相关频的相关关系并进行融合。在社会特征方面，我们视频的数量。实验中，所有被标注为与某个话题相选择了视频的上传时间、作者、类别信息，给出了相关的视频组成了输入视频集合。它们被一一作为输关性在这3种特征上的形式化度量方法；文本特征入视频，通过2.2.2小节的各种方法得到相应的相方面，在向量空间模型中分别计算了两个视频在标关视频结果列表并计算AP。为便于结果展示和分题和标签上的相似度：视觉特征方面，采用主流基于析，我们将每个话题所有相关视频的AP进行平均，视觉拷贝视频检测的方法度量两个视频的相似性。得到该话题的AP。然后，再对多个话题AP再次求通过在宏观上对上述相似度进一步融合，实现了对平均，得到刻画各个方法整体性能的MAP值。 2.2多模态融合相关性度量实验视频相关性的准确鲁棒度量。真实YouTube数据依据第1节给出计算公式，可以得到任意两个上的视频检索实验表明，相比于仅考虑视觉、文本、视频的相关度。我们将计算得到的相关度应用到对或是视觉和文本相结合的方法，本文方法可取得上述话题的网络视频检索上，依据相关度大小从高 5%~25%的性能提升。到低对视频进行排序。表3给出了用本文多模态融以上工作初步证明了在相关性度量方面融合多合的网络视频相关度度量方法的检索结果。作为比模态信息的合理性和有效性。我们的下一步工作将较，仅用视觉相似性、文本相似性以及视觉与文本相在以下3个方面进行。1)研究更加有效的视频视结合相似性进行检索的实验结果也在表3中给出。觉相似性度量方法。在度量细粒度的单纯视频视觉表3各类方法试验结果对照表相似性的研究，已经有两种主流方法1)，基于这些 Table 3 The results of all kinds of methods 方法的改进和融合也是一个研究点：2)探索更加有 D Visual Text Visual+Text Fusion 效的多模态信息融合方法。融入更多社会特征，研 0.814 0.742 0.813 0.831 究多模态特征融合权重的自适应确定方法：3)将本 2 0.305 0.180 0.312 0.330 文方法计算得到的相关度应用到除检索外的更多应 3 0.406 0.495 0.410 0.396 用场景上，例如网络视频分类、标注等。 4 0.654 0.840 0.702 0.740 参考文献： 5 0.304 0.204 0.400 0.503 6 0.973 0.905 0.970 0.972 [1]ZHU Weiyu,TOKLU C.LIOU S P.Automatic news video 7 0.110 0.030 0.210 0.230 segmentation and categorization based on closed-captioned text[C]//Proceedings of IEEE International Conference on 8 0.603 0.306 0.650 0.704 9 Multimedia and Expo.Tokyo,Japan,2001:829-832. 0.400 0.200 0.440 0.514 [2]BREZEALE D,COOK D J.Using closed captions and visu- 10 0.021 0.053 0.301 0.043 al features to classify movies by genre[C]//Poster Session 11 0.598 0.418 0.605 0.714 of the Seventh International Workshop on Multimedia Data MAP 0.471 0.397 0.528 0.543 Mining.Philadelphia,Pennsylvania,USA,2006

上述热点事件的镜头。两个视频的相关度被置为１（即标注为相关视频）当且仅当它们都被标注为与同一个话题相关，其余情况下，两个视频的相关度被置为０，即不相关。对任意一个输入视频，依据２．２．２小节给出的不同方法，计算它与数据集中其他视频的相关度，为每个方法得到一个按相关度得分从高到低排序的结果列表。然后，我们用多媒体检索中广泛采用的ＡＰ作为衡量结果相关性度量准确性的指标，其中ＡＰ的计算公式为ＡＰ＝１ｎ＋∑ ｎｊ＝１Ｉｊ × Ｒｊｊ其中ｎ＋是测试集中相关视频的总数，ｎ＝１００表示仅考虑列表的前１００个结果。若第ｊ个视频是相关视频，则Ｉｊ＝１，否则Ｉｊ＝０。Ｒｊ表示前ｊ个结果中相关视频的数量。实验中，所有被标注为与某个话题相关的视频组成了输入视频集合。它们被一一作为输入视频，通过２．２．２小节的各种方法得到相应的相关视频结果列表并计算ＡＰ。为便于结果展示和分析，我们将每个话题所有相关视频的ＡＰ进行平均，得到该话题的ＡＰ。然后，再对多个话题ＡＰ再次求平均，得到刻画各个方法整体性能的ＭＡＰ值。２．２多模态融合相关性度量实验依据第１节给出计算公式，可以得到任意两个视频的相关度。我们将计算得到的相关度应用到对上述话题的网络视频检索上，依据相关度大小从高到低对视频进行排序。表３给出了用本文多模态融合的网络视频相关度度量方法的检索结果。作为比较，仅用视觉相似性、文本相似性以及视觉与文本相结合相似性进行检索的实验结果也在表３中给出。表３各类方法试验结果对照表Ｔａｂｌｅ３ＴｈｅｒｅｓｕｌｔｓｏｆａｌｌｋｉｎｄｓｏｆｍｅｔｈｏｄｓＩＤＶｉｓｕａｌＴｅｘｔＶｉｓｕａｌ＋ＴｅｘｔＦｕｓｉｏｎ１０．８１４０．７４２０．８１３０．８３１２０．３０５０．１８００．３１２０．３３０３０．４０６０．４９５０．４１００．３９６４０．６５４０．８４００．７０２０．７４０５０．３０４０．２０４０．４０００．５０３６０．９７３０．９０５０．９７００．９７２７０．１１００．０３００．２１００．２３０８０．６０３０．３０６０．６５００．７０４９０．４０００．２０００．４４００．５１４１００．０２１０．０５３０．３０１０．０４３１１０．５９８０．４１８０．６０５０．７１４ＭＡＰ０．４７１０．３９７０．５２８０．５４３表３中的第１列ＩＤ表示１１个相关话题，后面的每１列值表征的是ＡＰ的检索结果；最后１列反映了实验结果。我们的方法将特有的社会特征与文本、视觉进行融合，相比于单一的文本视觉，以及文本和视觉相融合的方法取得到了较好的效果。综上所述，将视觉、文本和社会特征进行多模态融合的方案取得了上述最好的结果，相对单一视觉，单一文本方法５％～２５％的性能上的提升，相对于文本和视觉融合的方法，我们的方法也取得了更好的结果。３结束语本文提出一种新颖的网络视频相似性度量方法。从文本、视觉和社会特征３个角度同时挖掘视频的相关关系并进行融合。在社会特征方面，我们选择了视频的上传时间、作者、类别信息，给出了相关性在这３种特征上的形式化度量方法；文本特征方面，在向量空间模型中分别计算了两个视频在标题和标签上的相似度；视觉特征方面，采用主流基于视觉拷贝视频检测的方法度量两个视频的相似性。通过在宏观上对上述相似度进一步融合，实现了对视频相关性的准确鲁棒度量。真实ＹｏｕＴｕｂｅ数据上的视频检索实验表明，相比于仅考虑视觉、文本、或是视觉和文本相结合的方法，本文方法可取得５％～２５％的性能提升。以上工作初步证明了在相关性度量方面融合多模态信息的合理性和有效性。我们的下一步工作将在以下３个方面进行。１）研究更加有效的视频视觉相似性度量方法。在度量细粒度的单纯视频视觉相似性的研究，已经有两种主流方法［１８］，基于这些方法的改进和融合也是一个研究点；２）探索更加有效的多模态信息融合方法。融入更多社会特征，研究多模态特征融合权重的自适应确定方法；３）将本文方法计算得到的相关度应用到除检索外的更多应用场景上，例如网络视频分类、标注等。参考文献：［１］ＺＨＵＷｅｉｙｕ，ＴＯＫＬＵＣ，ＬＩＯＵＳＰ．Ａｕｔｏｍａｔｉｃｎｅｗｓｖｉｄｅｏｓｅｇｍｅｎｔａｔｉｏｎａｎｄｃａｔｅｇｏｒｉｚａｔｉｏｎｂａｓｅｄｏｎｃｌｏｓｅｄ⁃ｃａｐｔｉｏｎｅｄｔｅｘｔ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａａｎｄＥｘｐｏ．Ｔｏｋｙｏ，Ｊａｐａｎ，２００１：８２９⁃８３２．［２］ＢＲＥＺＥＡＬＥＤ，ＣＯＯＫＤＪ．Ｕｓｉｎｇｃｌｏｓｅｄｃａｐｔｉｏｎｓａｎｄｖｉｓｕ⁃ ａｌｆｅａｔｕｒｅｓｔｏｃｌａｓｓｉｆｙｍｏｖｉｅｓｂｙｇｅｎｒｅ［Ｃ］／／ＰｏｓｔｅｒＳｅｓｓｉｏｎｏｆｔｈｅＳｅｖｅｎｔｈＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＭｕｌｔｉｍｅｄｉａＤａｔａＭｉｎｉｎｇ．Ｐｈｉｌａｄｅｌｐｈｉａ，Ｐｅｎｎｓｙｌｖａｎｉａ，ＵＳＡ，２００６． ·３６４· 智能系统学报第１１卷

第3期温有福，等：一种多模态融合的网络视频相关性度量方法 ·365. [3]SCHMIEDEKE S,KELM P,SIKORA T.TUB MediaE- web video categorization C//Proceedings of the 17th val 2011 genre tagging task:prediction using bag-of-(visu- ACM International Conference on Multimedia.New York, al)-words approaches [C]//Working Notes Proceedings of NY,USA,2009:1109-1110. the MediaEval 2011 Workshop.Pisa,Italy,2011:1-2. [14]DAVIDSON J.LIEBALD B,LIU J,et al.The YouTube [4]LAW-TO J,CHEN Li,JOLY A,et al.Video copy detec- video recommendation system[C]//Proceedings of the 4th tion:a comparative study[C]//Proceedings of the 6th ACM ACM Conference on Recommender Systems.New York, Intemational Conference on Image and Video Retrieval.New NY,USA,2010:293-296. York,NY,USA,2007:371-378. [15]ZHAO Wanlei,WU Xiao,NGO C W.On the annotation of [5]WU Xiao,HAUPTMANN A G.NGO C W.Practical elimi- web videos by efficient near-duplicate search[J].IEEE nation of near-duplicates from web video search[C]//Pro- Transactions on Multimedia,2010,12(5):448-461. ceedings of the 15th ACM International Conference on Mul- [16]TAN H K,NGO C W,CHUA T S.Efficient mining of timedia.New York,NY,USA,2007:218-227. multiple partial near-duplicate alignments by temporal net- [6]SONG Jingkuan,YANG Yi,HUANG Zi,et al.Multiple work[J].IEEE Transactions on Circuits and Systems for feature hashing for real-time large scale near-duplicate video Video Technology,2010,20(11):1486-1498. retrieval[C]//Proceedings of the 19th ACM International [17]CAO J,ZHANG Y D,SONG Y D,et al.MCG-WEBV:a Conference on Multimedia.New York,NY,USA,2011: benchmark dataset for web video analysis[R].Technical 423-432. Report,Beijing,China:Institute of Computing Technolo- [7]PERRONNIN F,DANCE C.Fisher kernels on visual vocab- y,2009:324-334. ularies for image categorization[C]//Proceedings of IEEE [18]JIANG Yugang,JIANG Yudong,WANG Jiajun.VCDB:a Conference on Computer Vision and Pattern Recognition. large-scale database for partial copy detection in videos Minneapolis,MN,USA,2007:1-8. [M]//FLEET D,PAJDLA T,SCHIELE B,et al.Com- [8]JeGOU H.DOUZE M,SCHMID C,et al.Aggregating local puter Vision-ECCV 2014.Zurich,Switzerland:Springer, descriptors into a compact image representation[C]//Pro- 2014:357-371 ceedings of IEEE Conference on Computer Vision and Pat- 作者简介： tern Recognition (CVPR).San Francisco,CA,USA, 温有福，男，1991年生，硕士研究 2010:3304-3311. 生，主要研究方向为视频/图像检索、 9]TAN H K,NGO C W,HONG R,et al.Scalable detection 社交网络分析。 of partial near-duplicate videos by visual-temporal consisten- cy[C]//Proceedings of the 17th ACM International Confer- ence on Multimedia.New York,NY,USA,2009:145-154. [10]FENG Bailan,CAO Juan,CHEN Zhineng,et al.Multi- 贾彩燕，女，1976年生，副教授， modal query expansion for web video search [C]//Pro- 博士生导师，博士，主要研究方向为数 ceedings of the 33rd International ACM SIGIR Conference 据挖掘、社会计算、文本挖掘及生物信 on Research and Development in Information Retrieval. 息学。近年来主持国家自然科学基金 New York,NY,USA,2010:721-722. 面上项目1项，主持国家自然科学基金 [11]BREZEALE D,COOK D J.Automatic video classification: 青年基金项目和面上项目1项：参加国家自然科学基金重点 a survey of the literature[J].IEEE Transactions on Sys- 项目、国家科技重大专项北京市自然科学基金项目各1项； tems,Man,and Cybernetics,Part C (Applications and 获得湖南省科学技术进步二等奖1项，发表学术论文40 Reviews),2008,38(3):416-430. 余篇。 [12]YANG Linjun,LIU Jiemin,YANG Xiaokang,et al.Multi- 陈智能，男，1982年生，副研究员， modality web video categorization[C]//Proceedings of the 博士，主要研究方向为多媒体内容分 International Workshop on Workshop on Multimedia Infor- 析与检索、机器学习、图像处理。近年 mation Retrieval.New York,NY,USA,2007:265-274. 来主持国家自然科学基金青年基金1 [13]WU Xiao,ZHAO Wanlei,NGO C W.Towards google 项，发表学术论文20余篇。 challenge:combining contextual and social information for

［３］ＳＣＨＭＩＥＤＥＫＥＳ，ＫＥＬＭＰ，ＳＩＫＯＲＡＴ．ＴＵＢ＠ＭｅｄｉａＥ⁃ ｖａｌ２０１１ｇｅｎｒｅｔａｇｇｉｎｇｔａｓｋ：ｐｒｅｄｉｃｔｉｏｎｕｓｉｎｇｂａｇ⁃ｏｆ⁃（ｖｉｓｕ⁃ ａｌ）⁃ｗｏｒｄｓａｐｐｒｏａｃｈｅｓ［Ｃ］／／ＷｏｒｋｉｎｇＮｏｔｅｓＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＭｅｄｉａＥｖａｌ２０１１Ｗｏｒｋｓｈｏｐ．Ｐｉｓａ，Ｉｔａｌｙ，２０１１：１⁃２．［４］ＬＡＷ⁃ＴＯＪ，ＣＨＥＮＬｉ，ＪＯＬＹＡ，ｅｔａｌ．Ｖｉｄｅｏｃｏｐｙｄｅｔｅｃ⁃ ｔｉｏｎ：ａｃｏｍｐａｒａｔｉｖｅｓｔｕｄｙ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ６ｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅａｎｄＶｉｄｅｏＲｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２００７：３７１⁃３７８．［５］ＷＵＸｉａｏ，ＨＡＵＰＴＭＡＮＮＡＧ，ＮＧＯＣＷ．Ｐｒａｃｔｉｃａｌｅｌｉｍｉ⁃ ｎａｔｉｏｎｏｆｎｅａｒ⁃ｄｕｐｌｉｃａｔｅｓｆｒｏｍｗｅｂｖｉｄｅｏｓｅａｒｃｈ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅ１５ｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌ⁃ ｔｉｍｅｄｉａ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２００７：２１８⁃２２７．［６］ＳＯＮＧＪｉｎｇｋｕａｎ，ＹＡＮＧＹｉ，ＨＵＡＮＧＺｉ，ｅｔａｌ．Ｍｕｌｔｉｐｌｅｆｅａｔｕｒｅｈａｓｈｉｎｇｆｏｒｒｅａｌ⁃ｔｉｍｅｌａｒｇｅｓｃａｌｅｎｅａｒ⁃ｄｕｐｌｉｃａｔｅｖｉｄｅｏｒｅｔｒｉｅｖａｌ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９ｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２０１１：４２３⁃４３２．［７］ＰＥＲＲＯＮＮＩＮＦ，ＤＡＮＣＥＣ．Ｆｉｓｈｅｒｋｅｒｎｅｌｓｏｎｖｉｓｕａｌｖｏｃａｂ⁃ ｕｌａｒｉｅｓｆｏｒｉｍａｇｅｃａｔｅｇｏｒｉｚａｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｍｉｎｎｅａｐｏｌｉｓ，ＭＮ，ＵＳＡ，２００７：１⁃８．［８］ＪéＧＯＵＨ，ＤＯＵＺＥＭ，ＳＣＨＭＩＤＣ，ｅｔａｌ．Ａｇｇｒｅｇａｔｉｎｇｌｏｃａｌｄｅｓｃｒｉｐｔｏｒｓｉｎｔｏａｃｏｍｐａｃｔｉｍａｇｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔ⁃ ｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）．ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ，ＵＳＡ，２０１０：３３０４⁃３３１１．［９］ＴＡＮＨＫ，ＮＧＯＣＷ，ＨＯＮＧＲ，ｅｔａｌ．Ｓｃａｌａｂｌｅｄｅｔｅｃｔｉｏｎｏｆｐａｒｔｉａｌｎｅａｒ⁃ｄｕｐｌｉｃａｔｅｖｉｄｅｏｓｂｙｖｉｓｕａｌ⁃ｔｅｍｐｏｒａｌｃｏｎｓｉｓｔｅｎ⁃ ｃｙ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１７ｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒ⁃ ｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２００９：１４５⁃１５４．［１０］ＦＥＮＧＢａｉｌａｎ，ＣＡＯＪｕａｎ，ＣＨＥＮＺｈｉｎｅｎｇ，ｅｔａｌ．Ｍｕｌｔｉ⁃ ｍｏｄａｌｑｕｅｒｙｅｘｐａｎｓｉｏｎｆｏｒｗｅｂｖｉｄｅｏｓｅａｒｃｈ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅ３３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩＲＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２０１０：７２１⁃７２２．［１１］ＢＲＥＺＥＡＬＥＤ，ＣＯＯＫＤＪ．Ａｕｔｏｍａｔｉｃｖｉｄｅｏｃｌａｓｓｉｆｉｃａｔｉｏｎ：ａｓｕｒｖｅｙｏｆｔｈｅｌｉｔｅｒａｔｕｒｅ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｙｓ⁃ ｔｅｍｓ，Ｍａｎ，ａｎｄＣｙｂｅｒｎｅｔｉｃｓ，ＰａｒｔＣ（ＡｐｐｌｉｃａｔｉｏｎｓａｎｄＲｅｖｉｅｗｓ），２００８，３８（３）：４１６⁃４３０．［１２］ＹＡＮＧＬｉｎｊｕｎ，ＬＩＵＪｉｅｍｉｎ，ＹＡＮＧＸｉａｏｋａｎｇ，ｅｔａｌ．Ｍｕｌｔｉ⁃ ｍｏｄａｌｉｔｙｗｅｂｖｉｄｅｏｃａｔｅｇｏｒｉｚａｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＷｏｒｋｓｈｏｐｏｎＭｕｌｔｉｍｅｄｉａＩｎｆｏｒ⁃ ｍａｔｉｏｎＲｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２００７：２６５⁃２７４．［１３］ＷＵＸｉａｏ，ＺＨＡＯＷａｎｌｅｉ，ＮＧＯＣＷ．Ｔｏｗａｒｄｓｇｏｏｇｌｅｃｈａｌｌｅｎｇｅ：ｃｏｍｂｉｎｉｎｇｃｏｎｔｅｘｔｕａｌａｎｄｓｏｃｉａｌｉｎｆｏｒｍａｔｉｏｎｆｏｒｗｅｂｖｉｄｅｏｃａｔｅｇｏｒｉｚａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１７ｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２００９：１１０９⁃１１１０．［１４］ＤＡＶＩＤＳＯＮＪ，ＬＩＥＢＡＬＤＢ，ＬＩＵＪ，ｅｔａｌ．ＴｈｅＹｏｕＴｕｂｅｖｉｄｅｏｒｅｃｏｍｍｅｎｄａｔｉｏｎｓｙｓｔｅｍ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４ｔｈＡＣＭＣｏｎｆｅｒｅｎｃｅｏｎＲｅｃｏｍｍｅｎｄｅｒＳｙｓｔｅｍｓ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２０１０：２９３⁃２９６．［１５］ＺＨＡＯＷａｎｌｅｉ，ＷＵＸｉａｏ，ＮＧＯＣＷ．Ｏｎｔｈｅａｎｎｏｔａｔｉｏｎｏｆｗｅｂｖｉｄｅｏｓｂｙｅｆｆｉｃｉｅｎｔｎｅａｒ⁃ｄｕｐｌｉｃａｔｅｓｅａｒｃｈ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＭｕｌｔｉｍｅｄｉａ，２０１０，１２（５）：４４８⁃４６１．［１６］ＴＡＮＨＫ，ＮＧＯＣＷ，ＣＨＵＡＴＳ．Ｅｆｆｉｃｉｅｎｔｍｉｎｉｎｇｏｆｍｕｌｔｉｐｌｅｐａｒｔｉａｌｎｅａｒ⁃ｄｕｐｌｉｃａｔｅａｌｉｇｎｍｅｎｔｓｂｙｔｅｍｐｏｒａｌｎｅｔ⁃ ｗｏｒｋ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ，２０１０，２０（１１）：１４８６⁃１４９８．［１７］ＣＡＯＪ，ＺＨＡＮＧＹＤ，ＳＯＮＧＹＤ，ｅｔａｌ．ＭＣＧ⁃ＷＥＢＶ：ａｂｅｎｃｈｍａｒｋｄａｔａｓｅｔｆｏｒｗｅｂｖｉｄｅｏａｎａｌｙｓｉｓ［Ｒ］．ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ：ＩｎｓｔｉｔｕｔｅｏｆＣｏｍｐｕｔｉｎｇＴｅｃｈｎｏｌｏ⁃ ｇｙ，２００９：３２４⁃３３４．［１８］ＪＩＡＮＧＹｕｇａｎｇ，ＪＩＡＮＧＹｕｄｏｎｇ，ＷＡＮＧＪｉａｊｕｎ．ＶＣＤＢ：ａｌａｒｇｅ⁃ｓｃａｌｅｄａｔａｂａｓｅｆｏｒｐａｒｔｉａｌｃｏｐｙｄｅｔｅｃｔｉｏｎｉｎｖｉｄｅｏｓ［Ｍ］／／ＦＬＥＥＴＤ，ＰＡＪＤＬＡＴ，ＳＣＨＩＥＬＥＢ，ｅｔａｌ．Ｃｏｍ⁃ ｐｕｔｅｒＶｉｓｉｏｎ⁃ＥＣＣＶ２０１４．Ｚｕｒｉｃｈ，Ｓｗｉｔｚｅｒｌａｎｄ：Ｓｐｒｉｎｇｅｒ，２０１４：３５７⁃３７１．作者简介：温有福，男，１９９１年生，硕士研究生，主要研究方向为视频／图像检索、社交网络分析。贾彩燕，女，１９７６年生，副教授，博士生导师，博士，主要研究方向为数据挖掘、社会计算、文本挖掘及生物信息学。近年来主持国家自然科学基金面上项目１项，主持国家自然科学基金青年基金项目和面上项目１项；参加国家自然科学基金重点项目、国家科技重大专项、北京市自然科学基金项目各１项；获得湖南省科学技术进步二等奖１项，发表学术论文４０余篇。陈智能，男，１９８２年生，副研究员，博士，主要研究方向为多媒体内容分析与检索、机器学习、图像处理。近年来主持国家自然科学基金青年基金１项，发表学术论文２０余篇。第３期温有福，等：一种多模态融合的网络视频相关性度量方法 ·３６５·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录