对称非负矩阵分解算法获取词项–主题矩阵进而推断每个文档的主题。另一类是

点击下载：【机器学习】基于文本扩展模型的网络视频聚类方法（北京交通大学：刘璐、贾彩燕）

正在加载图片...

第6期刘路，等：基于文本扩展模型的网络视频聚类方法 ·801· 对称非负矩阵分解算法获取词项-主题矩阵进而推不同文本间缺乏足够的词共现信息，因而存在高维断每个文档的主题。稀疏、特征模糊、语义不清晰问题，而视频的相关查另一类是利用外部知识库来扩展短文本表示，询词与该视频往往语义相关，共点击视频的视频标 Sahami等通过利用网络搜索结果扩展短文本内题和该视频标题的词汇也语义相似，利用这些信息容，在扩展的基础上计算文本间相似度；Yh在可以进一步扩展文本内容，丰富文本表示。因此， Sahami的基础上通过计算词出现的加权内积而不本文提出一种多源数据下文本扩展模型进行网络视是TFDF,并引人了一个学习过程来提高相似性度频表示，为聚类研究做好准备工作，以改善短文本量的准确性；Banerjee等利用从短文本中提取出高维稀疏的问题，有效实现主题聚类。本文方法的的字符串检索维基百科中最相关的前10个文档，并框架如图1所示。用这些文档的标题扩充每个短文本文档的表示，再共点击视频对短文本进行聚类；Gabrilovich等u提出了一种显相关查询词示语义分析，将每个短文本映射到最相关的维基百科和ODP(开放目录项目)的本体概念，用概念向量网络视频视频文本扩用预处聚类扩充传统的词袋模型表示；Hu等1同时采用内部特数据集标题模型算法征和外部特征（维基百科和WordNet)来对短文本文图1 基于文本扩展模型的网络视频聚类方法框架档进行扩充，提出了一个分层的三级结构来解决原 Fig.1 Framework for web video clustering based on ex- 始短文本的数据稀疏问题；Hotho等1将WordNet tended text model 集成到文本聚类的过程，在Reuters语料库的实验结 2.1多源数据果显示了它的有效性：Song等利用开放的网页构 2.1.1网络视频标题建了一个概率化知识库，进而来推断短文本文档中视频的元信息(meta data)包括标题、描述和标的概念表示，然后再进行聚类。这些方法已经被证签等文本信息，准确的文字描述可以提供最直接有明能有效地提高短文本聚类，然而利用搜索引擎的效的视频语义信息，不同于标签具有很大的噪音、短文本扩展方法时间复杂度高，在利用外部知识库描述只在较少视频中出现，标题作为每个视频都具扩展的方法中，寻找合适的外部源也十分重要，但备的一种短文本信息，可以很好地概括视频的语义是由于互联网的自由开放性，网络视频的标题文本内容，是描述视频的一项重要的文本特征。一般由用户上传视频时自己填写，容易出现新兴词 2.1.2相关查询词汇和网络用语，语言表达方式和其他长文本文档有每个视频会对应一系列相关的查询词，这些查着较大的差异，盲目地扩充可能会影响原短文本的询词和该视频的标题信息通常在语义上有很大的相语义。关性，描述相关的视频内容。 2网络视频表示 2.1.3共点击视频用户在视频网站的一个会话访问过程中，观看随着视频分享网站的不断应用，网络视频不再的视频内容通常与用户当时的兴趣密不可分。因仅仅是单一的视频结构，而是作为一种丰富的多媒此，根据全网用户的点击观看行为可以将每个视频体信息包含了多源数据。网络视频的播放页面，不和一系列共点击视频相关联，从一定程度来讲，这仅包含具体的视频内容，还包含标题、描述、标签等一系列共点击视频和该视频更倾向于内容相关，它用户提供的文本信息，以及用户之间评论、点赞、收们的标题更倾向于语义相关。这类比于文档中的词藏等社交互动行为。在已有的研究工作中，文献汇关系，如果两个词语在很多文档中都频繁共同出「7]的实验表明利用标题等文本特征在视频聚类上现，则这两个词语有很大可能是语义相关的。有较好的效果。同时，在实际工业应用中，利用视 2.2文本扩展模型频的图像特征进行视频表征时，存在图像存储占空针对网络视频的多源数据，本文构建了一个多间、时间复杂度高，只适用于短视频或视频画面内源数据下的文本扩展模型，将短文本扩展成较长的容较集中的视频等多种问题。本文研究使用视频的文本以丰富语义内容，强化词语的共现特征。针对多源文本信息来更准确地表示视频，包括视频标每个网络视频，我们不仅可以获得视频标题(T),还题、视频相关查询词、共点击视频标题，利用这些信可以得到该视频的相关查询词(T2),以及该视频的息进行聚类能够从语义层次上有效识别视频聚簇。共点击视频所对应的视频标题(T,)。利用文本仅使用标题短文本进行特征表示时由于字数较少】 T2和文本T,分别去扩展原视频标题即文本T,构对称非负矩阵分解算法获取词项–主题矩阵进而推断每个文档的主题。另一类是利用外部知识库来扩展短文本表示， Sahami 等 [12]通过利用网络搜索结果扩展短文本内容，在扩展的基础上计算文本间相似度；Yih[13]在 Sahami 的基础上通过计算词出现的加权内积而不是 TFIDF，并引入了一个学习过程来提高相似性度量的准确性；Banerjee 等 [14]利用从短文本中提取出的字符串检索维基百科中最相关的前 10 个文档，并用这些文档的标题扩充每个短文本文档的表示，再对短文本进行聚类；Gabrilovich 等 [15]提出了一种显示语义分析，将每个短文本映射到最相关的维基百科和 ODP(开放目录项目) 的本体概念，用概念向量扩充传统的词袋模型表示；Hu 等 [16]同时采用内部特征和外部特征 (维基百科和 WordNet)来对短文本文档进行扩充，提出了一个分层的三级结构来解决原始短文本的数据稀疏问题；Hotho 等 [17]将 WordNet 集成到文本聚类的过程，在 Reuters语料库的实验结果显示了它的有效性；Song 等 [18]利用开放的网页构建了一个概率化知识库，进而来推断短文本文档中的概念表示，然后再进行聚类。这些方法已经被证明能有效地提高短文本聚类，然而利用搜索引擎的短文本扩展方法时间复杂度高，在利用外部知识库扩展的方法中，寻找合适的外部源也十分重要，但是由于互联网的自由开放性，网络视频的标题文本一般由用户上传视频时自己填写，容易出现新兴词汇和网络用语，语言表达方式和其他长文本文档有着较大的差异，盲目地扩充可能会影响原短文本的语义。 2 网络视频表示随着视频分享网站的不断应用，网络视频不再仅仅是单一的视频结构，而是作为一种丰富的多媒体信息包含了多源数据。网络视频的播放页面，不仅包含具体的视频内容，还包含标题、描述、标签等用户提供的文本信息，以及用户之间评论、点赞、收藏等社交互动行为。在已有的研究工作中，文献 [7]的实验表明利用标题等文本特征在视频聚类上有较好的效果。同时，在实际工业应用中，利用视频的图像特征进行视频表征时，存在图像存储占空间、时间复杂度高，只适用于短视频或视频画面内容较集中的视频等多种问题。本文研究使用视频的多源文本信息来更准确地表示视频，包括视频标题、视频相关查询词、共点击视频标题，利用这些信息进行聚类能够从语义层次上有效识别视频聚簇。仅使用标题短文本进行特征表示时由于字数较少，不同文本间缺乏足够的词共现信息，因而存在高维稀疏、特征模糊、语义不清晰问题，而视频的相关查询词与该视频往往语义相关，共点击视频的视频标题和该视频标题的词汇也语义相似，利用这些信息可以进一步扩展文本内容，丰富文本表示。因此，本文提出一种多源数据下文本扩展模型进行网络视频表示，为聚类研究做好准备工作，以改善短文本高维稀疏的问题，有效实现主题聚类。本文方法的框架如图 1 所示。 2.1 多源数据 2.1.1 网络视频标题视频的元信息 (meta data) 包括标题、描述和标签等文本信息，准确的文字描述可以提供最直接有效的视频语义信息，不同于标签具有很大的噪音、描述只在较少视频中出现，标题作为每个视频都具备的一种短文本信息，可以很好地概括视频的语义内容，是描述视频的一项重要的文本特征。 2.1.2 相关查询词每个视频会对应一系列相关的查询词，这些查询词和该视频的标题信息通常在语义上有很大的相关性，描述相关的视频内容。 2.1.3 共点击视频用户在视频网站的一个会话访问过程中，观看的视频内容通常与用户当时的兴趣密不可分。因此，根据全网用户的点击观看行为可以将每个视频和一系列共点击视频相关联，从一定程度来讲，这一系列共点击视频和该视频更倾向于内容相关，它们的标题更倾向于语义相关。这类比于文档中的词汇关系，如果两个词语在很多文档中都频繁共同出现，则这两个词语有很大可能是语义相关的。 2.2 文本扩展模型针对网络视频的多源数据，本文构建了一个多源数据下的文本扩展模型，将短文本扩展成较长的文本以丰富语义内容，强化词语的共现特征。针对每个网络视频，我们不仅可以获得视频标题 (T1 )，还可以得到该视频的相关查询词 (T2 )，以及该视频的共点击视频所对应的视频标题 (T3 )。利用文本 T2 和文本 T3 分别去扩展原视频标题即文本 T1，构㻲䶽 ᴳ䷄ ᪳᱘ផᆁ Ὅಷ 㖆ㆧ ッ∁ 䶽㻲ܧ◥ڝ + Ⱔڟᴑ䄎䃹䶰ะ ⤲ 㻲䶽㖆ㄳ 㑽㐈㻲䶽 ᪜ᢚ䯲图 1 基于文本扩展模型的网络视频聚类方法框架 Fig. 1 Framework for web video clustering based on extended text model 第 6 期刘璐，等：基于文本扩展模型的网络视频聚类方法 ·801·

<<向上翻页向下翻页>>

点击下载：【机器学习】基于文本扩展模型的网络视频聚类方法（北京交通大学：刘璐、贾彩燕）