正在加载图片...
·800· 智能系统学报 第12卷 1)网络视频规模大,上传更新速度快; 主要有基于视觉图像的方法、基于文本特征的方 2)通常以用户制作内容和专业影视内容并存 法、基于视频其他信息(如播放列表)的方法以及多 为主要特色,内容涉及电影、音乐、科技、汽车、亲 模融合的方法。 子、时尚、体育、财经、资讯等多个主题; Lu等使用从视频帧序列提取的全局视频签 3)不同于传统图像或文本,网络视频蕴含丰富 名特征(ViSig)来表征视频,提出了基于视觉图像相 的多模态信息:视频的视觉图像、标题、描述、标签 似度的视频搜索结果聚类算法。Nguyen等从网 等文本信息,观看用户的评论,上传用户信息等: 络视频的文本元数据(视频标题、标签和描述)角度 4)网络视频时长不等,剪辑水平不等。 出发,提出了基于WordNet知识库的文本语义相似 如此规模宏大、类别众多的网络视频在丰富互 度计算方法,可以有效提高视频搜索结果的聚类效 联网信息,满足用户需求的同时,也给视频数据的 果。文献[3,7]是基于视频的多模态特征进行主题 组织和管理带来了严峻的挑战。传统的解决办法是 聚类。HindIe等集成网视频的视觉特征和文本 视频上传者或者网站管理员人工标注视频的类别, 特征,利用有界坐标系统(BCS)模型将视频的视觉 然而这一方法耗时耗力,并且容易受到人为不稳定 特征用紧凑签名来表示,然而在计算文本相似度 的主观影响。有学者提出利用基于监督或半监督的 时,该方法将文本近似视为“词袋”,直接统计两个文 视频自动分类技术,但是大部分分类方法仍旧需 本共有词的个数,忽略了文本信息的高级语义知 要充足的高质量训练样本。因此,研究人员尝试利 识。Huang等针对网络视频包含的丰富信息,分 用无监督的机器学习模型—聚类来进一步组织网 别计算低层视觉图像特征、高层语义特征和文本特 络视频数据,提出了多种基于文本、视觉及多模融 征的相似度,然后将各个模态融合计算网络视频的 合的视频聚类方法。另外,现有的视频搜索引擎 实际相似度,并引入近邻传播的聚类算法进行网络 的搜索结果通常按与搜索词的相关度进行排列,其 视频聚类分析。Zhang等⑧从视频语音转录文本和 中可能包含重复或相似视频,为了给用户提供更可 视觉概念识别两方面提取视频特征,提出二部图聚 观、更易理解的搜索体验,因而提出了基于文本特 类算法,表明在多源数据关联挖掘方面效果要优于 征、视觉特征或多特征融合的视频搜索结果聚类方 法B,便于对视频按主题进行推荐。 常规谱聚类。研究学者还利用网络视频丰富的社会 单纯基于视频文本(如标题)的聚类可以利用 媒体信息展开研究。Kamie等提出PVClustring 已有文本聚类的成熟技术,考虑视频的语义特征, 方法,构建视频-播单关联矩阵,采用重复二分的 具有简单、易用等特点。但视频标题作为短文本, kmeans方法进行视频聚类;Zhang等I利用You- 存在文本特征高维语义极度稀疏等问题。单纯使用 Tube的共观看视频进一步改进网络视频分类系统 视觉相似性的视频聚类方法由于图像语义理解的 的性能。 复杂性,存在维度高、复杂度高、聚类效果欠佳等问 由此可见,研究人员尝试利用不同的理论方法 题。网络视频作为一种社会化媒体数据,形式丰 来解决视频聚类问题。但是当前的研究中,使用低 富、模态多样,包含视频视觉内容、描述单一主题的 层视觉特征仅在识别雷同视频时有较好的效果,同 标题文本、播单信息、上传及观看用户等。利用文 时由于视频图像语义理解的复杂性、以及海量、高 本和视觉等多模态融合的视频聚类方法刀,可以增 维、语义不清晰等特点,现有的利用视频信息的多 强单一方法视频聚类的有效性,但存在时间复杂度 模态融合方法对视频聚类的效果还不能满足实际需 高、最优加权方案不确定等问题。鉴于文本挖掘技 求,缺乏有效的主题聚类方法。 术的成熟性和易用性,本文着眼于利用社会媒体上 1.2短文本聚类 丰富的文本信息,以改善现有短文本方法的高维、 伴随着Web2.0时代,短文本数据在互联网上 语义稀疏问题,实现高效的视频主题聚类,提出了 应用日益增多,短文本聚类的相关工作也取得了很 以视频标题、相关查询词、共点击视频标题等多类 大的进展,研究者们尝试利用很多方法来改进短文 短文本信息融合的视频主题聚类方法,并以优酷视 本语义分析与处理,大体上分为两类。一类是挖掘 频网站(http:www.youku.com)真实数据为例,验证 短文本自身内容构建特征空间,Yin等提出了应 了本文方法的有效性。 用吉布斯抽样的狄利克雷混合模型算法(GSDMM), 1相关工作 在聚类过程中可以自动推断出类别数量并快速收 敛,能很好地适应短文本高维稀疏的状况;Yan等山 1.1网络视频聚类 结合上下文语义相关性来建立词项关联矩阵,避免 目前,网络视频聚类已经取得一些研究成果, 使用了短文本中高维稀疏的词文档矩阵,然后应用1) 网络视频规模大,上传更新速度快; 2) 通常以用户制作内容和专业影视内容并存 为主要特色,内容涉及电影、音乐、科技、汽车、亲 子、时尚、体育、财经、资讯等多个主题; 3) 不同于传统图像或文本,网络视频蕴含丰富 的多模态信息:视频的视觉图像、标题、描述、标签 等文本信息,观看用户的评论,上传用户信息等; 4) 网络视频时长不等,剪辑水平不等。 如此规模宏大、类别众多的网络视频在丰富互 联网信息,满足用户需求的同时,也给视频数据的 组织和管理带来了严峻的挑战。传统的解决办法是 视频上传者或者网站管理员人工标注视频的类别, 然而这一方法耗时耗力,并且容易受到人为不稳定 的主观影响。有学者提出利用基于监督或半监督的 视频自动分类技术[1-2] ,但是大部分分类方法仍旧需 要充足的高质量训练样本。因此,研究人员尝试利 用无监督的机器学习模型——聚类来进一步组织网 络视频数据,提出了多种基于文本、视觉及多模融 合的视频聚类方法[3-8]。另外,现有的视频搜索引擎 的搜索结果通常按与搜索词的相关度进行排列,其 中可能包含重复或相似视频,为了给用户提供更可 观、更易理解的搜索体验,因而提出了基于文本特 征、视觉特征或多特征融合的视频搜索结果聚类方 法 [3-4] ,便于对视频按主题进行推荐。 单纯基于视频文本 (如标题) 的聚类可以利用 已有文本聚类的成熟技术,考虑视频的语义特征[4] , 具有简单、易用等特点。但视频标题作为短文本, 存在文本特征高维语义极度稀疏等问题。单纯使用 视觉相似性的视频聚类方法[5]由于图像语义理解的 复杂性,存在维度高、复杂度高、聚类效果欠佳等问 题。网络视频作为一种社会化媒体数据,形式丰 富、模态多样,包含视频视觉内容、描述单一主题的 标题文本、播单信息[6] 、上传及观看用户等。利用文 本和视觉等多模态融合的视频聚类方法[3, 7] ,可以增 强单一方法视频聚类的有效性,但存在时间复杂度 高、最优加权方案不确定等问题。鉴于文本挖掘技 术的成熟性和易用性,本文着眼于利用社会媒体上 丰富的文本信息,以改善现有短文本方法的高维、 语义稀疏问题,实现高效的视频主题聚类,提出了 以视频标题、相关查询词、共点击视频标题等多类 短文本信息融合的视频主题聚类方法,并以优酷视 频网站 (http://www.youku.com) 真实数据为例,验证 了本文方法的有效性。 1 相关工作 1.1 网络视频聚类 目前,网络视频聚类已经取得一些研究成果, 主要有基于视觉图像的方法、基于文本特征的方 法、基于视频其他信息 (如播放列表) 的方法以及多 模融合的方法。 Liu 等 [5]使用从视频帧序列提取的全局视频签 名特征 (ViSig) 来表征视频,提出了基于视觉图像相 似度的视频搜索结果聚类算法。Nguyen 等 [4]从网 络视频的文本元数据 (视频标题、标签和描述) 角度 出发,提出了基于 WordNet 知识库的文本语义相似 度计算方法,可以有效提高视频搜索结果的聚类效 果。文献[3, 7]是基于视频的多模态特征进行主题 聚类。Hindle等 [3]集成网络视频的视觉特征和文本 特征,利用有界坐标系统 (BCS) 模型将视频的视觉 特征用紧凑签名来表示,然而在计算文本相似度 时,该方法将文本近似视为“词袋”,直接统计两个文 本共有词的个数,忽略了文本信息的高级语义知 识。Huang 等 [7]针对网络视频包含的丰富信息,分 别计算低层视觉图像特征、高层语义特征和文本特 征的相似度,然后将各个模态融合计算网络视频的 实际相似度,并引入近邻传播的聚类算法进行网络 视频聚类分析。Zhang 等 [8]从视频语音转录文本和 视觉概念识别两方面提取视频特征,提出二部图聚 类算法,表明在多源数据关联挖掘方面效果要优于 常规谱聚类。研究学者还利用网络视频丰富的社会 媒体信息展开研究。Kamie 等 [6]提出 PVClustring 方法,构建视频–播单关联矩阵,采用重复二分的 kmeans 方法进行视频聚类;Zhang 等 [9]利用 You￾Tube 的共观看视频进一步改进网络视频分类系统 的性能。 由此可见,研究人员尝试利用不同的理论方法 来解决视频聚类问题。但是当前的研究中,使用低 层视觉特征仅在识别雷同视频时有较好的效果,同 时由于视频图像语义理解的复杂性、以及海量、高 维、语义不清晰等特点,现有的利用视频信息的多 模态融合方法对视频聚类的效果还不能满足实际需 求,缺乏有效的主题聚类方法。 1.2 短文本聚类 伴随着 Web2.0 时代,短文本数据在互联网上 应用日益增多,短文本聚类的相关工作也取得了很 大的进展,研究者们尝试利用很多方法来改进短文 本语义分析与处理,大体上分为两类。一类是挖掘 短文本自身内容构建特征空间,Yin 等 [10]提出了应 用吉布斯抽样的狄利克雷混合模型算法 (GSDMM), 在聚类过程中可以自动推断出类别数量并快速收 敛,能很好地适应短文本高维稀疏的状况;Yan 等 [11] 结合上下文语义相关性来建立词项关联矩阵,避免 使用了短文本中高维稀疏的词文档矩阵,然后应用 ·800· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有