对给定的网络视频，首先利用文本过滤模块，滤除掉大量不相关的网络视频。然

正在加载图片...

第3期温有福，等：一种多模态融合的网络视频相关性度量方法 ·361· 对给定的网络视频，首先利用文本过滤模块，滤 1.2.1上传时间除掉大量不相关的网络视频。然后，分别通过社会视频的上传时间是反映用户对于当前所关注视相关性度量、文本相关性度量和视觉相关性度量3 频的时间在特定时间段上的描述。例如：存在3个个子模块，计算3个模态上的相关度。最后，通过相视频巴，：和，如果，与：和号之间的时间间隔关性融合模块，进行融合，从而实现更准确相关性分别为3个月和3年，那么，与：之间的相似度会度量。更高一些。 1.1基于文本的过滤为度量视频的这种相关性，我们首先计算视频真实网络视频库都拥有大量视频，且对任意给巴，与：的时间差值t: 定的输入视频，库中通常仅有一小部分视频与其相 tg=abs(t,-t,）关。为避免大量相关性计算耗费在无意义的视频然后，令时间间隔△1为0.5个月，将v,经过文上，提出如下所述的一种基于文本的过滤策略。令本过滤后生成的视频集合？等间隔划分为n个不 T,={,,…,}为输入视频v。所在网页上标题和相交的子集合：标签中的关键字集合，则整个视频库Ω中所有满足 2=U42 (2) 式(1)的视频都将被滤除。 =0 △2g={:1tm∈0×△t,G+1)×△)] {u:∈21T,∩T=☑} (1) 则△2为与v,时间差落在U×41,(j+1)×4t)区上述步骤假设：两个网络视频的周边文本中应间的视频集合，式(2)中令n=7。考虑到与v,的时有至少一个共同的关键字才值得进行相关度计算。间差越近的视频应有更高的相关度权值，将△：的实际情况中，这一假设对绝大部分的相关视频而言权值指派为n-j,则视频在上传时间方面的相关度都是成立的。通过这一操作，大量无关的网络视频可通过式(3)计算：得到了有效滤除。令文本过滤后生成的视频集合为P,P中视 f(e,)=-D4g) 频虽然与输入视频有至少一个相同的关键字，但其刘中仍有大量无关或相关性不高的视频。接下来，我 U:∈A2 们将从社会特征、文本和视觉3个模态上进行相关 M(△2)= (3) 其他度挖掘和分析。首先介绍社会特征方面的度量式(3)实质上是依照特定的时间间隔对视频进方法。行划分，距离给定视频。上传时间越近则f值越 1.2社会特征的选择与相关性计算高。社会特征是网络视频区别于其他视频的特色之 1.2.2视频类别一，它泛指人与视频各种交互行为产生的数据集合。常见的视频类别包括财经类、政治类、综艺类典型的社会特征包括视频上传时间、上传作者、视频等。一般地，属于同一个类别的视频的相关度通常类别、视频观看次数、视频评论等。更高。例如：有3个视频中有两个是属于综艺类的，从社交网络和多媒体的角度讲，社会特征是用而另一个是属于政治类的。从视频类别的层面分户与视频网页进行的交互以及多媒体服务人员为相析，两个综艺类视频的相似性程度应该更高一些。应的视频或者图像所做的对于视频或者图像内容的对此，我们应用式(4)反映：文字反映。社会特征包含的内容很多，例如用户上 (1, (channel,=channel,) 传视频的时间、视频的分类类别、视频的观看次数、 fhnm(U,:）= 0. 其他视频的作者等。这些社会特征反映了用户个人的具 (4) 体信息，用户与用户的关联信息等。通过用户个人式中channel,是视频u,所属的类别。式(4)反映了内部的关联信息以及用户与用户之间的关联性社交依照视频的类别对视频进行划分，落人到同一个类网络，可以更容易发现相关性视频，进而更好地进行别的视频则其fhm值为1。视频的相似性度量。本文选用视频的上传时间（反 1.2.3上传作者映视频的新颖性)、视频的分类类别、视频上传作者每位用户都有自己的兴趣爱好，这一特点通常 3种特征进行社会特征融合的尝试。在他/她上传的视频集合上可以得到一定体现。例对给定的网络视频，首先利用文本过滤模块，滤除掉大量不相关的网络视频。然后，分别通过社会相关性度量、文本相关性度量和视觉相关性度量３个子模块，计算３个模态上的相关度。最后，通过相关性融合模块，进行融合，从而实现更准确相关性度量。１．１基于文本的过滤真实网络视频库都拥有大量视频，且对任意给定的输入视频，库中通常仅有一小部分视频与其相关。为避免大量相关性计算耗费在无意义的视频上，提出如下所述的一种基于文本的过滤策略。令Ｔｑ＝ｔｑ１，ｔｑ２，…，ｔｑｋ { }为输入视频ｖｑ所在网页上标题和标签中的关键字集合，则整个视频库 Ω 中所有满足式（１）的视频都将被滤除。ｖｉ ∈ Ω ｜Ｔｑ ∩ Ｔｉ { ＝ ∅} （１）上述步骤假设：两个网络视频的周边文本中应有至少一个共同的关键字才值得进行相关度计算。实际情况中，这一假设对绝大部分的相关视频而言都是成立的。通过这一操作，大量无关的网络视频得到了有效滤除。令文本过滤后生成的视频集合为 Ω ｑ，Ω ｑ中视频虽然与输入视频有至少一个相同的关键字，但其中仍有大量无关或相关性不高的视频。接下来，我们将从社会特征、文本和视觉３个模态上进行相关度挖掘和分析。首先介绍社会特征方面的度量方法。１．２社会特征的选择与相关性计算社会特征是网络视频区别于其他视频的特色之一，它泛指人与视频各种交互行为产生的数据集合。典型的社会特征包括视频上传时间、上传作者、视频类别、视频观看次数、视频评论等。从社交网络和多媒体的角度讲，社会特征是用户与视频网页进行的交互以及多媒体服务人员为相应的视频或者图像所做的对于视频或者图像内容的文字反映。社会特征包含的内容很多，例如用户上传视频的时间、视频的分类类别、视频的观看次数、视频的作者等。这些社会特征反映了用户个人的具体信息，用户与用户的关联信息等。通过用户个人内部的关联信息以及用户与用户之间的关联性社交网络，可以更容易发现相关性视频，进而更好地进行视频的相似性度量。本文选用视频的上传时间（反映视频的新颖性）、视频的分类类别、视频上传作者３种特征进行社会特征融合的尝试。１．２．１上传时间视频的上传时间是反映用户对于当前所关注视频的时间在特定时间段上的描述。例如：存在３个视频ｖｑ、ｖｉ和ｖｊ，如果ｖｑ与ｖｉ和ｖｊ之间的时间间隔分别为３个月和３年，那么ｖｑ与ｖｉ之间的相似度会更高一些。为度量视频的这种相关性，我们首先计算视频ｖｑ与ｖｉ的时间差值ｔｉｑ：ｔｉｑ＝ａｂｓ（ｔｖｑ－ｔｖｉ）然后，令时间间隔 Δｔ为０．５个月，将ｖｑ经过文本过滤后生成的视频集合 Ω ｑ等间隔划分为ｎ个不相交的子集合： Ω ｑ＝ ∪ ｎｊ＝０ ΔΩ ｑｊ（２） ΔΩ ｑｊ＝ｖｉ｜ｔ { ｉｑ ∈ [ｊ × Δｔ，（ｊ＋１） × Δｔ) ] 则 ΔΩ ｑｊ为与ｖｑ时间差落在 [ｊ×Δｔ，（ｊ＋１）×Δｔ) 区间的视频集合，式（２）中令ｎ＝７。考虑到与ｖｑ的时间差越近的视频应有更高的相关度权值，将 ΔΩ ｑｊ的权值指派为ｎ－ｊ，则视频在上传时间方面的相关度可通过式（３）计算：ｆｔｉｍｅ（ｖｑ，ｖｉ）＝（ｎ－ｊ） ∑ ｎｊ＝０ｊＭ（ΔΩｊ）Ｍ（ΔΩｊ）＝１，ｖｉ ∈ ΔΩｊ０，其他 { （３）式（３）实质上是依照特定的时间间隔对视频进行划分，距离给定视频ｖｑ上传时间越近则ｆｔｉｍｅ值越高。１．２．２视频类别常见的视频类别包括财经类、政治类、综艺类等。一般地，属于同一个类别的视频的相关度通常更高。例如：有３个视频中有两个是属于综艺类的，而另一个是属于政治类的。从视频类别的层面分析，两个综艺类视频的相似性程度应该更高一些。对此，我们应用式（４）反映：ｆｃｈａｎｎｅｌ（ｖｑ，ｖｉ）＝１，（ｃｈａｎｎｅｌｑ＝ｃｈａｎｎｅｌｉ）０，其他 { （４）式中ｃｈａｎｎｅｌｑ是视频ｖｑ所属的类别。式（４）反映了依照视频的类别对视频进行划分，落入到同一个类别的视频则其ｆｃｈａｎｎｅｌ值为１。１．２．３上传作者每位用户都有自己的兴趣爱好，这一特点通常在他／她上传的视频集合上可以得到一定体现。例第３期温有福，等：一种多模态融合的网络视频相关性度量方法 ·３６１·

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】一种多模态融合的网络视频相关性度量方法编辑部