1) 网络视频规模大，上传更新速度快； 2) 通常以用户制作内容和专业影视

点击下载：【机器学习】基于文本扩展模型的网络视频聚类方法（北京交通大学：刘璐、贾彩燕）

正在加载图片...

·800· 智能系统学报第12卷 1)网络视频规模大，上传更新速度快；主要有基于视觉图像的方法、基于文本特征的方 2)通常以用户制作内容和专业影视内容并存法、基于视频其他信息（如播放列表）的方法以及多为主要特色，内容涉及电影、音乐、科技、汽车、亲模融合的方法。子、时尚、体育、财经、资讯等多个主题； Lu等使用从视频帧序列提取的全局视频签 3)不同于传统图像或文本，网络视频蕴含丰富名特征(ViSig)来表征视频，提出了基于视觉图像相的多模态信息：视频的视觉图像、标题、描述、标签似度的视频搜索结果聚类算法。Nguyen等从网等文本信息，观看用户的评论，上传用户信息等：络视频的文本元数据（视频标题、标签和描述）角度 4)网络视频时长不等，剪辑水平不等。出发，提出了基于WordNet知识库的文本语义相似如此规模宏大、类别众多的网络视频在丰富互度计算方法，可以有效提高视频搜索结果的聚类效联网信息，满足用户需求的同时，也给视频数据的果。文献[3,7]是基于视频的多模态特征进行主题组织和管理带来了严峻的挑战。传统的解决办法是聚类。HindIe等集成网视频的视觉特征和文本视频上传者或者网站管理员人工标注视频的类别，特征，利用有界坐标系统(BCS)模型将视频的视觉然而这一方法耗时耗力，并且容易受到人为不稳定特征用紧凑签名来表示，然而在计算文本相似度的主观影响。有学者提出利用基于监督或半监督的时，该方法将文本近似视为“词袋”，直接统计两个文视频自动分类技术，但是大部分分类方法仍旧需本共有词的个数，忽略了文本信息的高级语义知要充足的高质量训练样本。因此，研究人员尝试利识。Huang等针对网络视频包含的丰富信息，分用无监督的机器学习模型—聚类来进一步组织网别计算低层视觉图像特征、高层语义特征和文本特络视频数据，提出了多种基于文本、视觉及多模融征的相似度，然后将各个模态融合计算网络视频的合的视频聚类方法。另外，现有的视频搜索引擎实际相似度，并引入近邻传播的聚类算法进行网络的搜索结果通常按与搜索词的相关度进行排列，其视频聚类分析。Zhang等⑧从视频语音转录文本和中可能包含重复或相似视频，为了给用户提供更可视觉概念识别两方面提取视频特征，提出二部图聚观、更易理解的搜索体验，因而提出了基于文本特类算法，表明在多源数据关联挖掘方面效果要优于征、视觉特征或多特征融合的视频搜索结果聚类方法B,便于对视频按主题进行推荐。常规谱聚类。研究学者还利用网络视频丰富的社会单纯基于视频文本（如标题）的聚类可以利用媒体信息展开研究。Kamie等提出PVClustring 已有文本聚类的成熟技术，考虑视频的语义特征，方法，构建视频-播单关联矩阵，采用重复二分的具有简单、易用等特点。但视频标题作为短文本， kmeans方法进行视频聚类；Zhang等I利用You- 存在文本特征高维语义极度稀疏等问题。单纯使用 Tube的共观看视频进一步改进网络视频分类系统视觉相似性的视频聚类方法由于图像语义理解的的性能。复杂性，存在维度高、复杂度高、聚类效果欠佳等问由此可见，研究人员尝试利用不同的理论方法题。网络视频作为一种社会化媒体数据，形式丰来解决视频聚类问题。但是当前的研究中，使用低富、模态多样，包含视频视觉内容、描述单一主题的层视觉特征仅在识别雷同视频时有较好的效果，同标题文本、播单信息、上传及观看用户等。利用文时由于视频图像语义理解的复杂性、以及海量、高本和视觉等多模态融合的视频聚类方法刀，可以增维、语义不清晰等特点，现有的利用视频信息的多强单一方法视频聚类的有效性，但存在时间复杂度模态融合方法对视频聚类的效果还不能满足实际需高、最优加权方案不确定等问题。鉴于文本挖掘技求，缺乏有效的主题聚类方法。术的成熟性和易用性，本文着眼于利用社会媒体上 1.2短文本聚类丰富的文本信息，以改善现有短文本方法的高维、伴随着Web2.0时代，短文本数据在互联网上语义稀疏问题，实现高效的视频主题聚类，提出了应用日益增多，短文本聚类的相关工作也取得了很以视频标题、相关查询词、共点击视频标题等多类大的进展，研究者们尝试利用很多方法来改进短文短文本信息融合的视频主题聚类方法，并以优酷视本语义分析与处理，大体上分为两类。一类是挖掘频网站(http:www.youku.com)真实数据为例，验证短文本自身内容构建特征空间，Yin等提出了应了本文方法的有效性。用吉布斯抽样的狄利克雷混合模型算法(GSDMM), 1相关工作在聚类过程中可以自动推断出类别数量并快速收敛，能很好地适应短文本高维稀疏的状况；Yan等山 1.1网络视频聚类结合上下文语义相关性来建立词项关联矩阵，避免目前，网络视频聚类已经取得一些研究成果，使用了短文本中高维稀疏的词文档矩阵，然后应用1) 网络视频规模大，上传更新速度快； 2) 通常以用户制作内容和专业影视内容并存为主要特色，内容涉及电影、音乐、科技、汽车、亲子、时尚、体育、财经、资讯等多个主题； 3) 不同于传统图像或文本，网络视频蕴含丰富的多模态信息：视频的视觉图像、标题、描述、标签等文本信息，观看用户的评论，上传用户信息等； 4) 网络视频时长不等，剪辑水平不等。如此规模宏大、类别众多的网络视频在丰富互联网信息，满足用户需求的同时，也给视频数据的组织和管理带来了严峻的挑战。传统的解决办法是视频上传者或者网站管理员人工标注视频的类别，然而这一方法耗时耗力，并且容易受到人为不稳定的主观影响。有学者提出利用基于监督或半监督的视频自动分类技术[1-2] ，但是大部分分类方法仍旧需要充足的高质量训练样本。因此，研究人员尝试利用无监督的机器学习模型——聚类来进一步组织网络视频数据，提出了多种基于文本、视觉及多模融合的视频聚类方法[3-8]。另外，现有的视频搜索引擎的搜索结果通常按与搜索词的相关度进行排列，其中可能包含重复或相似视频，为了给用户提供更可观、更易理解的搜索体验，因而提出了基于文本特征、视觉特征或多特征融合的视频搜索结果聚类方法 [3-4] ，便于对视频按主题进行推荐。单纯基于视频文本 (如标题) 的聚类可以利用已有文本聚类的成熟技术，考虑视频的语义特征[4] ，具有简单、易用等特点。但视频标题作为短文本，存在文本特征高维语义极度稀疏等问题。单纯使用视觉相似性的视频聚类方法[5]由于图像语义理解的复杂性，存在维度高、复杂度高、聚类效果欠佳等问题。网络视频作为一种社会化媒体数据，形式丰富、模态多样，包含视频视觉内容、描述单一主题的标题文本、播单信息[6] 、上传及观看用户等。利用文本和视觉等多模态融合的视频聚类方法[3, 7] ，可以增强单一方法视频聚类的有效性，但存在时间复杂度高、最优加权方案不确定等问题。鉴于文本挖掘技术的成熟性和易用性，本文着眼于利用社会媒体上丰富的文本信息，以改善现有短文本方法的高维、语义稀疏问题，实现高效的视频主题聚类，提出了以视频标题、相关查询词、共点击视频标题等多类短文本信息融合的视频主题聚类方法，并以优酷视频网站 (http://www.youku.com) 真实数据为例，验证了本文方法的有效性。 1 相关工作 1.1 网络视频聚类目前，网络视频聚类已经取得一些研究成果，主要有基于视觉图像的方法、基于文本特征的方法、基于视频其他信息 (如播放列表) 的方法以及多模融合的方法。 Liu 等 [5]使用从视频帧序列提取的全局视频签名特征 (ViSig) 来表征视频，提出了基于视觉图像相似度的视频搜索结果聚类算法。Nguyen 等 [4]从网络视频的文本元数据 (视频标题、标签和描述) 角度出发，提出了基于 WordNet 知识库的文本语义相似度计算方法，可以有效提高视频搜索结果的聚类效果。文献[3, 7]是基于视频的多模态特征进行主题聚类。Hindle等 [3]集成网络视频的视觉特征和文本特征，利用有界坐标系统 (BCS) 模型将视频的视觉特征用紧凑签名来表示，然而在计算文本相似度时，该方法将文本近似视为“词袋”，直接统计两个文本共有词的个数，忽略了文本信息的高级语义知识。Huang 等 [7]针对网络视频包含的丰富信息，分别计算低层视觉图像特征、高层语义特征和文本特征的相似度，然后将各个模态融合计算网络视频的实际相似度，并引入近邻传播的聚类算法进行网络视频聚类分析。Zhang 等 [8]从视频语音转录文本和视觉概念识别两方面提取视频特征，提出二部图聚类算法，表明在多源数据关联挖掘方面效果要优于常规谱聚类。研究学者还利用网络视频丰富的社会媒体信息展开研究。Kamie 等 [6]提出 PVClustring 方法，构建视频–播单关联矩阵，采用重复二分的 kmeans 方法进行视频聚类；Zhang 等 [9]利用 YouTube 的共观看视频进一步改进网络视频分类系统的性能。由此可见，研究人员尝试利用不同的理论方法来解决视频聚类问题。但是当前的研究中，使用低层视觉特征仅在识别雷同视频时有较好的效果，同时由于视频图像语义理解的复杂性、以及海量、高维、语义不清晰等特点，现有的利用视频信息的多模态融合方法对视频聚类的效果还不能满足实际需求，缺乏有效的主题聚类方法。 1.2 短文本聚类伴随着 Web2.0 时代，短文本数据在互联网上应用日益增多，短文本聚类的相关工作也取得了很大的进展，研究者们尝试利用很多方法来改进短文本语义分析与处理，大体上分为两类。一类是挖掘短文本自身内容构建特征空间，Yin 等 [10]提出了应用吉布斯抽样的狄利克雷混合模型算法 (GSDMM)，在聚类过程中可以自动推断出类别数量并快速收敛，能很好地适应短文本高维稀疏的状况；Yan 等 [11] 结合上下文语义相关性来建立词项关联矩阵，避免使用了短文本中高维稀疏的词文档矩阵，然后应用 ·800· 智能系统学报第 12 卷

<<向上翻页向下翻页>>

点击下载：【机器学习】基于文本扩展模型的网络视频聚类方法（北京交通大学：刘璐、贾彩燕）