第2卷第2期 智能系统学报 Vol.2№2 2007年4月 CAAI Transactions on Intelligent Systems Apr.2007 基于镜头的鲁棒视频广告检测 张亮,朱振峰赵耀,卢汉清 (1.北京交通大学信息科学研究所,北京100044:2.中国科学院自动化所模式识别国家重点实验室,北京100080) 摘要:随着多媒体技术的发展,自动检测出数字视频节目里面嵌入的广告是很具挑战性的研究.然而,由于嵌入的 广告的制作方式和表现手法的多样性,很多自动检测模型的实验结果往往不甚理想.为了提高检测系统的鲁棒性, 提出了3阶段广告检测系统.首先,提出了基于区域特征重要性的镜头检测算法(RBFD,regionbased feature im- portance detection),实现视频播放中突变镜头和消隐镜头的检测,同时从每个镜头提取出一些统计特征用来标识镜 头.然后,利用$VM的优异分类特性实现镜头分类.最后为了能得到精确的广告视频段,利用广告视频在内容和时 间上的连续性来消除错分的镜头,然后将广告镜头整合成广告视频段.本系统在30个电视节目的片段上进行验证, 实验结果表明此广告检测系统具有实用性, 关键词:视频广告检测;镜头检测;支持向量机 中图分类号:TP391文献标识码:A文章编号:16734785(2007)02008306 Video commercial detection based on the robustness of shot ZHAN GLiang',ZHU Zhen-feng',ZHAO Yao',LU Hamqing? (1.Institute of Information Science,Beijing Jiaotong Univesity,Beijing 100044,China;2.Key Laboratory of Pattern Identifi- cation,Institute of Automation under the Chinese Academy of Sciences,Beijing 100080,China) Abstract:Automatic detection of commercials embedded in digital video materials is a challenging task with the development of retrieval of multimedia data.However,because of the diversity of production modes and expression methods of commercials,the performances of current detection systems are inadequate.In this paper,a three-phase system for commercial detection is suggested to improve robustness of the detec- tion system.Firstly,two Regionbased Feature Importance Detection schemes are proposed to detect cut shots and dissolved shots respectively and some statistical features are also extracted to mark shots.Sec- ondly,an SVM classifier is applied to classify these shots.Finally,in order to obtain commercial segments more accurately,a statistical comparison of time and content of commercials is used to eliminate falsely cut shots.Finally,these commercial shots are integrated into commercial video segment.Test results on 30 TV video segments show the effectiveness of the suggested system. Keywords:video commercial detection;shot detection;support vector machine 随着多媒体技术的发展,电视广告在日常生活以利用自动检测系统快速获得广告片段,从而可以 中扮演着日益重要的角色.广告自动检测系统以及节省他们分析广告制作技巧的时间.为了实现上述 相关技术的发展带来主要包括2个方面的应用.一 应用,人们提出了很多的广告检测策略.早期的研究 方面,对普通电视节目感兴趣的人可以在视频节目 通常集中在基于台标的检测1,2)和black/silent帧 里快速的定位广告并去除广告,从而可以提高视频 方面的检测).然而,由于现在的电视台在播放广告 节目的存储效率.另一方面,对于广告感兴趣的人可 的时候通常不隐去台标,导致基于台标的检测方法 失败,并且现在的台标也变得越来越复杂,检测起来 收稿日期:20061026. 十分不易.另外,在普通节目片段和广告片段转换时 基金项目:国家自然科学基金资助项目(60373028、90604032、 60602030):教育部博士点专项基金资助项目(20030004016). 并不总是存在black/silent帧,甚至black/silent帧 也可以为了某种剪辑需要随机的插入,这直接导致 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
第 2 卷第 2 期 智 能 系 统 学 报 Vol. 2 №. 2 2007 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2007 基于镜头的鲁棒视频广告检测 张 亮1 ,朱振峰1 ,赵 耀1 ,卢汉清2 (1. 北京交通大学 信息科学研究所 ,北京 100044 ;2. 中国科学院 自动化所模式识别国家重点实验室 ,北京 100080) 摘 要 :随着多媒体技术的发展 ,自动检测出数字视频节目里面嵌入的广告是很具挑战性的研究. 然而 ,由于嵌入的 广告的制作方式和表现手法的多样性 ,很多自动检测模型的实验结果往往不甚理想. 为了提高检测系统的鲁棒性 , 提出了 3 阶段广告检测系统. 首先 ,提出了基于区域特征重要性的镜头检测算法 (RBFID , region2based feature im2 portance detection) ,实现视频播放中突变镜头和消隐镜头的检测 , 同时从每个镜头提取出一些统计特征用来标识镜 头. 然后 ,利用 SVM 的优异分类特性实现镜头分类. 最后为了能得到精确的广告视频段 ,利用广告视频在内容和时 间上的连续性来消除错分的镜头 ,然后将广告镜头整合成广告视频段. 本系统在 30 个电视节目的片段上进行验证 , 实验结果表明此广告检测系统具有实用性. 关键词 :视频广告检测 ;镜头检测 ;支持向量机 中图分类号 : TP391 文献标识码 :A 文章编号 :167324785 (2007) 0220083206 Video commercial detection based on the robustness of shot ZHAN G Liang 1 , ZHU Zhen2feng 1 , ZHAO Yao 1 , L U Han2qing 2 (1. Institute of Information Science , Beijing Jiaotong Univesity , Beijing 100044 ,China ; 2. Key Laboratory of Pattern Identifi2 cation , Institute of Automation under the Chinese Academy of Sciences , Beijing 100080 , China) Abstract :Automatic detection of commercials embedded in digital video materials is a challenging task wit h t he development of retrieval of multimedia data. However , because of the diversity of production modes and expression met hods of commercials , the performances of current detection systems are inadequate. In t his paper , a t hree2p hase system for commercial detection is suggested to improve robust ness of t he detec2 tion system. Firstly , two Region2based Feat ure Importance Detection schemes are proposed to detect cut shots and dissolved shots respectively and some statistical feat ures are also extracted to mark shots. Sec2 ondly , an SVM classifier is applied to classify t hese shots. Finally , in order to obtain commercial segments more accurately , a statistical comparison of time and content of commercials is used to eliminate falsely cut shots. Finally , these commercial shots are integrated into commercial video segment. Test results on 30 TV video segments show t he effectiveness of t he suggested system. Keywords :video commercial detection ; shot detection ; support vector machine 收稿日期 :2006210226. 基金项 目 : 国 家 自 然 科 学 基 金 资 助 项 目 ( 60373028、90604032、 随着多媒体技术的发展 ,电视广告在日常生活 中扮演着日益重要的角色. 广告自动检测系统以及 相关技术的发展带来主要包括 2 个方面的应用. 一 方面 ,对普通电视节目感兴趣的人可以在视频节目 里快速的定位广告并去除广告 ,从而可以提高视频 节目的存储效率. 另一方面 ,对于广告感兴趣的人 60602030) ;教育部博士点专项基金资助项目(20030004016) . 可 以利用自动检测系统快速获得广告片段 ,从而可以 节省他们分析广告制作技巧的时间. 为了实现上述 应用 ,人们提出了很多的广告检测策略. 早期的研究 通常集中在基于台标的检测[ 1 - 2 ] 和 black/ silent 帧 方面的检测[3 ] . 然而 ,由于现在的电视台在播放广告 的时候通常不隐去台标 ,导致基于台标的检测方法 失败 ,并且现在的台标也变得越来越复杂 ,检测起来 十分不易. 另外 ,在普通节目片段和广告片段转换时 并不总是存在 black/ silent 帧 ,甚至 black/ silent 帧 也可以为了某种剪辑需要随机的插入 ,这直接导致
·84 智能系统学报 第2卷 基于black/silent帧检测方法的失败.为了避免上 频通常包含更多的镜头变换以吸引观众.此外广告 述问题,人们又提出了基于镜头的检测方法4).此 视频还显示独特的场景转换特征,通常包括切变镜 方法通过从镜头中提取一些能够表示广告片段的特 头和消隐镜头的转换.因此在广告视频和普通视频 征,然后利用这些特征将电视镜头分成普通节目镜 里面的镜头变化的方式和频率是明显不同的 头和广告镜头但是这些方法通常只是简单的分类, 1.1切变镜头检测 而没有考虑如何消除错分广告镜头的影响,同时也 切变镜头是视频分析中非常有效的特征,它在 没有考虑如何合并广告镜头得到广告片段的问题. 视频序列中产生一个视频内容上的中断.和普通的 而且,现有的很多方法都没有考虑广告内容的一致 节目视频相比,广告视频中出现切变镜头的频率更 性,从而很难改善检测的效果.另外,上述方法即使 高.由于在大部分的场景转换的过程中都是体现切 在检测切变镜头方面取得很好的效果,但当检测消 变镜头的特征,所以一般用检测效果很好的颜色或 隐或者淡入淡出镜头时就会遇到问题,除了上述的 灰度直方图差值检测切变镜头”.但是这些检测方 检测方法,基于数据库的广告检测方法也被采用61, 法通常忽略了广告视频的制作技巧.也就是说,在广 数据库存储预先定义的广告视频段的特征,然后利 告视频段中,比较重要的信息通常都位于视频帧的 用此数据库识别嵌入在电视节目里面的广告段.然 中间部分.因此,如果连续2帧中间区域的内容发生 而,此方法的缺点是必需一个足够大的数据库来存 突然变化而同时背景却保持不变的话,应该认为它 储已知的广告特征,因此不能检测出数据库中预先 很有可能发生了切变.基于这种理论,提出了基于区 没有存储的广告视频段」 域的切变镜头检测方法 为了避免上述问题,提出了一种3阶段的鲁棒 如图2所示,每一帧首先被分成多个区域,用以 性的广告检测系统.首先,本文提出了基于区域的区 描述广告制作中的表现手法,即在广告视频帧中不 域特征重要性的镜头检测算法(regionbased fea- 同的区域在传递信息过程中的重要性不同.H, ture importance detection,RBFD),实现突变和消 R,m表示在第m帧中的第i个区域的B阶的直方 隐镜头的检测,进而实现对电视节目的镜头分割;同 图,j表示相应的阶数.因此,连续2帧间第m帧和 时提取出一些有效的镜头统计特征.然后,利用 第m-1帧)场景切换的帧差FDm的计算如下: SVM实现镜头分类,把它们分成普通节目镜头和广 FD= 告镜头.最后通过引入后处理机制,实现对错分镜头 的纠错,并将广告镜头整合成广告视频段.实验表明 ,nL-HuaDLe max H(j,R:,m)H(j.R,m-1) 本文提出的广告检测系统能够很准确地检测出广告 (1) 视频段.图1是所提出的广告检测系统的工作流程。 式中:w:表示归一化的权值,用来标识相应区域i 的重要性,并且根据区域重要性的不同,权值大小排 视频数据 序如下:wm<wm1<<w:<w1,n表示区域标识. 镜头检测 在系统实际运行中,本文采用3区域的划分,并有 镜头分类 w1=0.5,p2=0.3,w3=0.2 普通节目镜头 广告镜头 结束 精确定位合并 广告序列 结束 图1视频广告检测系统流程图 Fig.I The general diagram of the proposed 图2基于重要区域的切变镜头检测算法示意图 commercial detection system Fig.2 Sketch map of hard cut shots detection based 1广告场景中的镜头检测 on important regions 为在较短时间内传递尽可能多的信息,广告视 假设一段电视节目里面的大部分场景的切换都 是平滑的,也就是说大部分的FDm值(除了发生切 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
基于 black/ silent 帧检测方法的失败. 为了避免上 述问题 ,人们又提出了基于镜头的检测方法[4 - 5 ] . 此 方法通过从镜头中提取一些能够表示广告片段的特 征 ,然后利用这些特征将电视镜头分成普通节目镜 头和广告镜头. 但是这些方法通常只是简单的分类 , 而没有考虑如何消除错分广告镜头的影响 ,同时也 没有考虑如何合并广告镜头得到广告片段的问题. 而且 ,现有的很多方法都没有考虑广告内容的一致 性 ,从而很难改善检测的效果. 另外 ,上述方法即使 在检测切变镜头方面取得很好的效果 ,但当检测消 隐或者淡入淡出镜头时就会遇到问题. 除了上述的 检测方法 ,基于数据库的广告检测方法也被采用[6 ] , 数据库存储预先定义的广告视频段的特征 ,然后利 用此数据库识别嵌入在电视节目里面的广告段. 然 而 ,此方法的缺点是必需一个足够大的数据库来存 储已知的广告特征 ,因此不能检测出数据库中预先 没有存储的广告视频段. 为了避免上述问题 ,提出了一种 3 阶段的鲁棒 性的广告检测系统. 首先 ,本文提出了基于区域的区 域特征重要性的镜头检测算法 (region2based fea2 t ure importance detection ,RBFID) ,实现突变和消 隐镜头的检测 ,进而实现对电视节目的镜头分割 ;同 时提取出一些有效的镜头统计特征. 然后 ,利用 SVM 实现镜头分类 ,把它们分成普通节目镜头和广 告镜头. 最后通过引入后处理机制 ,实现对错分镜头 的纠错 ,并将广告镜头整合成广告视频段. 实验表明 本文提出的广告检测系统能够很准确地检测出广告 视频段. 图 1 是所提出的广告检测系统的工作流程. 图 1 视频广告检测系统流程图 Fig. 1 The general diagram of the proposed commercial detection system 1 广告场景中的镜头检测 为在较短时间内传递尽可能多的信息 ,广告视 频通常包含更多的镜头变换以吸引观众. 此外广告 视频还显示独特的场景转换特征 ,通常包括切变镜 头和消隐镜头的转换. 因此在广告视频和普通视频 里面的镜头变化的方式和频率是明显不同的. 1. 1 切变镜头检测 切变镜头是视频分析中非常有效的特征 ,它在 视频序列中产生一个视频内容上的中断. 和普通的 节目视频相比 ,广告视频中出现切变镜头的频率更 高. 由于在大部分的场景转换的过程中都是体现切 变镜头的特征 ,所以一般用检测效果很好的颜色或 灰度直方图差值检测切变镜头[7 ] . 但是这些检测方 法通常忽略了广告视频的制作技巧. 也就是说 ,在广 告视频段中 ,比较重要的信息通常都位于视频帧的 中间部分. 因此 ,如果连续 2 帧中间区域的内容发生 突然变化而同时背景却保持不变的话 ,应该认为它 很有可能发生了切变. 基于这种理论 ,提出了基于区 域的切变镜头检测方法. 如图 2 所示 ,每一帧首先被分成多个区域 ,用以 描述广告制作中的表现手法 ,即在广告视频帧中不 同的区域在传递信息过程中的重要性不同. H ( j , Ri , m) 表示在第 m 帧中的第 i 个区域的 B 阶的直方 图 , j 表示相应的阶数. 因此 ,连续 2 帧间(第 m 帧和 第 m - 1 帧) 场景切换的帧差 FDm 的计算如下 : FDm = ∑ n i = 1 wi ∑ B j = 0 | H ( j , Ri , m) - H ( j , Ri , m - 1) | 2 max{ H ( j , Ri , m) , H ( j , Ri , m - 1) } . (1) 式中 : wi 表示归一化的权值 ,用来标识相应区域 i 的重要性 ,并且根据区域重要性的不同 ,权值大小排 序如下 :wn < wn - 1 < …< wi < w1 , n 表示区域标识. 在系统实际运行中 ,本文采用 3 区域的划分 ,并有 w1 = 0. 5 , w2 = 0. 3 , w3 = 0. 2. 图 2 基于重要区域的切变镜头检测算法示意图 Fig. 2 Sketch map of hard cut shots detection based on important regions 假设一段电视节目里面的大部分场景的切换都 是平滑的 ,也就是说大部分的 FDm 值 (除了发生切 · 48 · 智 能 系 统 学 报 第 2 卷
第2期 张亮,等:基于镜头的鲁棒视频广告检测 ·85* 变的位置)都是相对集中地落在一个固定的区间内 检测.如图4所示,R.表示第m帧中的第1个区 的.由此依据FDm的统计特性,可以近似地利用 域 Rayleigh分布来描述: RIFD]=ED。 ED2 e2 (2 式中:O表示高斯噪声的方差,而且FDm>0.为了 估计式2)内的0,本文采用了计算复杂度较低的 中值估计算法,即有 2 (3) 2Nn(2) 式中:M是RFDm的中值,并有 J∫RfFD.JdFD.=lV2. 图4基于局部特征时变一致性的消隐镜头检测方法 (4) Fig.4 Sketch map of dissolve shot detection based on 图3表明了电视节目FDm的的实际分布和经估计 local coherent temporal change 得到的Rayleigh分布.从图中可以看出,估计得到 设V"表示第m帧中的第i个区域Rm,的平均 的Rayleigh分布可以较好地拟合实际分布. 灰度值.为了叙述方便,S”表示第m帧中的第i个 区域的灰度变化趋势.”表示在第m帧之前的相 应的第ⅰ个区域具有单调灰度变化模式的连续帧的 数目.N”表示在第m帧的所有区域的统计特性,即 属于区间[m,内的”的数目.基于局部特征时 变一致性的检测算法流程如下: 0.050.150.250.35 1)计算样本区域V的平均灰度值 FDw 2)初始化:T=0,S=+1 FD的实际分布 ---·估计得到的Raleigh分布 3)如式5)、6)更新第n帧中的每一个区域的 S"和T": Vm-Vm1≥0, 图3FDm的实际分布和估计得到的Rayleigh分布 1 V".ym1<0 (5) Fig.3 The real distribution and estimated Rayleigh distribution of FD 7”=11+L+S1S (6) 2 为了确定相邻的2帧是否发生切变,本文利用 4)计算N:: FDm的估计分布的置信区间来计算得到阈值te.因 N贤=#fT四T"∈[m,欣]} (7) 此,如果第i帧的FDm大于阈值tct,就认为在第i 式中:#表示属于区间[m,历了”的数目 帧发生切变 图5给出了在一段测试视频的实验结果.从中 1.2消隐镜头检测 可以看出,此段广告视频包含3段消隐镜头,分别位 除了切变镜头外,在广告制作手法中还往往采 于2950~2980帧,3320~3350帧和3390~ 用另外一种很常见的技巧:消隐镜头.尤其在化妆品 的广告中,消隐镜头更加普遍.消隐镜头是指前一个 3410帧内,并且和实际的广告视频段相吻合.在此 镜头的后几帧在灰度上逐渐变暗同时后一个镜头的 3段镜头内,N:值的变化趋势是先增加然后减小, 前几帧在灰度上逐渐变亮,类似于淡出、淡入,不过 这和普通节目内部的N”的变化趋势有明显的区 在消隐中的淡出与淡入在时间上有一定的重叠.和 别 切变镜头的检测比起来,消隐镜头的检测更加困难. 2基于SVM的镜头分类 为能准确地检测到消隐镜头,本文提出了基于 局部特征时变一致性的检测算法.对于消隐镜头,在 V.Vapnikls提出的支持向量机(support vec- 一定时间内连续的帧中,平均灰度值的变化是连续 tor machine,SVM)方法是建立在统计学习理论的 的,并且这种单调性的变化通常持续一段时间.因 VC维理论和结构风险最小原理基础上的,根据有 此,本文利用这种变化的累积值来实现消隐镜头的 限的样本信息在模型的复杂性和学习能力之间寻求 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
变的位置) 都是相对集中地落在一个固定的区间内 的. 由此依据 FDm 的统计特性 , 可以近似地利用 Rayleigh 分布来描述 : R[FD ] = FD 2 σ2 g exp - FD 2 2σ2 g . (2) 式中 :σg 表示高斯噪声的方差 ,而且 FDm > 0. 为了 估计式(2) 内的σg ,本文采用了计算复杂度较低的 中值估计算法 ,即有 σ^ g = M 2 2 ln (2) . (3) 式中 : M 是 R [FDm ]的中值 ,并有 ∫ M 0 R[FDm ]dFDm = 1/ 2. (4) 图 3 表明了电视节目 FDm 的的实际分布和经估计 得到的 Rayleigh 分布. 从图中可以看出 ,估计得到 的 Rayleigh 分布可以较好地拟合实际分布. 图 3 FDm 的实际分布和估计得到的 Rayleigh 分布 Fig. 3 The real distribution and estimated Rayleigh distribution of FDm 为了确定相邻的 2 帧是否发生切变 ,本文利用 FDm 的估计分布的置信区间来计算得到阈值 t cut . 因 此 ,如果第 i 帧的 FDm 大于阈值 t cut ,就认为在第 i 帧发生切变. 1. 2 消隐镜头检测 除了切变镜头外 ,在广告制作手法中还往往采 用另外一种很常见的技巧 :消隐镜头. 尤其在化妆品 的广告中 ,消隐镜头更加普遍. 消隐镜头是指前一个 镜头的后几帧在灰度上逐渐变暗同时后一个镜头的 前几帧在灰度上逐渐变亮 ,类似于淡出、淡入 ,不过 在消隐中的淡出与淡入在时间上有一定的重叠. 和 切变镜头的检测比起来 ,消隐镜头的检测更加困难. 为能准确地检测到消隐镜头 ,本文提出了基于 局部特征时变一致性的检测算法. 对于消隐镜头 ,在 一定时间内连续的帧中 ,平均灰度值的变化是连续 的 ,并且这种单调性的变化通常持续一段时间. 因 此 ,本文利用这种变化的累积值来实现消隐镜头的 检测. 如图 4 所示 , Rm , i 表示第 m 帧中的第 i 个区 域. 图 4 基于局部特征时变一致性的消隐镜头检测方法 Fig. 4 Sketch map of dissolve shot detection based on local coherent temporal change 设 V m i 表示第 m 帧中的第 i 个区域 R m , i的平均 灰度值. 为了叙述方便 , S m i 表示第 m 帧中的第 i 个 区域的灰度变化趋势. T m i 表示在第 m 帧之前的相 应的第 i 个区域具有单调灰度变化模式的连续帧的 数目. N m h 表示在第 m 帧的所有区域的统计特性 ,即 属于区间[ n1 , n2 ]内的 T m i 的数目. 基于局部特征时 变一致性的检测算法流程如下 : 1) 计算样本区域 V m i 的平均灰度值. 2) 初始化 : T 1 i = 0 , S 1 i = + 1. 3) 如式(5) 、(6) 更新第 n 帧中的每一个区域的 S m i 和 T m i : S m i = 1 V m i - V m- 1 i ≥0 , - 1 V m i - V m- 1 i < 0. (5) T m i = T m- 1 i + 1 + S m- 1 i ·S m i 2 . (6) 4) 计算 N m h : N m h = # { T m i T m i ∈[ n1 , n2 ]} . (7) 式中 : # 表示属于区间[ n1 , n2 ] T m i 的数目. 图 5 给出了在一段测试视频的实验结果. 从中 可以看出 ,此段广告视频包含 3 段消隐镜头 ,分别位 于 2 950~2 980 帧 , 3 320~3 350 帧和 3 390~ 3 410帧内 ,并且和实际的广告视频段相吻合. 在此 3 段镜头内 , N m h 值的变化趋势是先增加然后减小 , 这和普通节目内部的 N m h 的变化趋势有明显的区 别. 2 基于 SVM 的镜头分类 V. Vap nik [ 8 ] 提出的支持向量机 (support vec2 tor machine ,SVM) 方法是建立在统计学习理论的 VC 维理论和结构风险最小原理基础上的 ,根据有 限的样本信息在模型的复杂性和学习能力之间寻求 第 2 期 张 亮 ,等 :基于镜头的鲁棒视频广告检测 · 58 ·
86- 智能系统学报 第2卷 头中间,那么这个镜头极有可能是被错分的,即它很 18 可能是一个广告镜头】 1 假设shot:(1≤≤W代表第i镜头.C代表镜 10 头的当前标识,shot,它用来确定这个镜头是否为广 告镜头.n表示镜头的数目.滑动窗口累积算法如下 所示 2 初始化C: 29 30313233 3435×10 +1如果第i个镜头属于广告镜头, 帧序列n C= ·1其他 (10) 图5消隐镜头的统计图 1)利用包含5个镜头的滑动窗口来更新C.假 Fig.5 Effectiveness of the statistical values N for characterizing the dissolve cuts 设W={ww,=1,f·2到≤+2}表示一个滑动 最佳折衷以期获得最好的推广能力.支持向量机理 窗口.C(i-2对+2)更新算法如下: 2 论因其坚实的理论基础和诸多良好特性在近年获得 C+1 if C+wk≥3, 了广泛的关注.其原理是首先通过非线性变换将输 C= (11) 入空间变换到一个高维空间,然后在这个新空间中 、G.1else. 求取最优线性分类面.经过优化求解,该最优分类超 2)通过判断C来确定是否为广告镜头.如果 平面由式(8)给出 shot,等于+1,镜头shot,就认为是广告镜头.否 则,shot,就是普通节目镜头: S(x划=ya,(x)·r划+b (8) +1ifC,>0 shot,= (12 式中:()是一个非线性的映射函数,X={x,∈ 0 else. R}-1.m和y,={-1,1}分别表示训练集合和相应 3)如果在一次循环中存在多于2个镜头从广告 的类标识,b是偏移量.其中任何一个对应于一个非 镜头转变成普通节目镜头,或者相反的情况出现,则 零值a的样本x,被称为支持向量.一般来说,采用 回到第一步从新开始.如果小于2个,则算法结束 不同的核函数将对最终求得的最优分类超平面产生 为了得到完整的广告视频段,不同的广告镜头 影响,在本文中采用高斯核函数K(x,以=(x)· 应该合并成数个相应的广告视频段.合并算法应该 遵循下列原则: ry以=exp d 因此,对于一个测试样 1)如果多于5个广告镜头是连续的,那么它们应 本,其最终判别输出为 该合并成一个广告视频段.如果小于5个,则定位距 +1ifS(x)>0, 离最近的广告段.如果在它们和这个广告段之间存在 L(x=8(S(x)= (9) -1ifS(x<0. 少于3个镜头,则它们应该并入这个广告视频段 式中:()为一指示函数 2)如果在两段连续的广告视频段之间存在少于 为了实现有效的镜头分类,提取了一些鲁棒性 3个的镜头,那么这2个广告段和它们中间的这些 的包括镜头切换频率、帧差的平均值和方差以及帧 镜头应该合并成一个完整的广告视频段 的主颜色空间占有率等在内的特征来对镜头进行描 3)重复上面的合并步骤,直到没有新的广告视 述.另外,在支持向量机的学习训练中,训练集由 频段出现 800个镜头组成,其中包括380个广告镜头 通过上述过程的后处理,就可以消除偶然的分 类错误并可以得到广告视频」 3广告镜头的重定界及合并 4 通过SVM分类,不可避免地会出现错分的镜 实验结果 头.为此本文还采用包括基于广告时间连续性的滑 在实验中,选取了国内不同电视台的30段普通 动窗口累积算法来精确定位广告边界以及合并不同 电视节目剪辑.首先,在这些电视节目上进行镜头检 的广告视频镜头的后处理方案,而得到广告序列.由 测的实验.实验结果包括本文的RBFD镜头检测算 于广告镜头内容上都是连续的而且它们成组地出 法和文献[7]中的检测算法的结果.图6所示为FD 现,因此如果一个非广告镜头存在于连续的广告镜 的计算分布图.其中图6(a)图所示为文献[7]镜头 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
图 5 消隐镜头的统计图 Fig. 5 Effectiveness of the statistical values N m h for characterizing the dissolve cuts 最佳折衷以期获得最好的推广能力. 支持向量机理 论因其坚实的理论基础和诸多良好特性在近年获得 了广泛的关注. 其原理是首先通过非线性变换将输 入空间变换到一个高维空间 ,然后在这个新空间中 求取最优线性分类面. 经过优化求解 ,该最优分类超 平面由式(8) 给出 : S ( x) = ∑ n i = 1 yαi i 0 , - 1 if S ( x) 0 , 0 else. (12) 3) 如果在一次循环中存在多于 2 个镜头从广告 镜头转变成普通节目镜头 ,或者相反的情况出现 ,则 回到第一步从新开始. 如果小于 2 个 ,则算法结束. 为了得到完整的广告视频段 ,不同的广告镜头 应该合并成数个相应的广告视频段. 合并算法应该 遵循下列原则 : 1)如果多于 5 个广告镜头是连续的 ,那么它们应 该合并成一个广告视频段. 如果小于 5 个 ,则定位距 离最近的广告段. 如果在它们和这个广告段之间存在 少于 3 个镜头 ,则它们应该并入这个广告视频段. 2) 如果在两段连续的广告视频段之间存在少于 3 个的镜头 ,那么这 2 个广告段和它们中间的这些 镜头应该合并成一个完整的广告视频段. 3) 重复上面的合并步骤 ,直到没有新的广告视 频段出现. 通过上述过程的后处理 ,就可以消除偶然的分 类错误并可以得到广告视频. 4 实验结果 在实验中 ,选取了国内不同电视台的 30 段普通 电视节目剪辑. 首先 ,在这些电视节目上进行镜头检 测的实验. 实验结果包括本文的 RBFID 镜头检测算 法和文献[ 7 ]中的检测算法的结果. 图 6 所示为 FD 的计算分布图. 其中图 6 (a) 图所示为文献[ 7 ]镜头 · 68 · 智 能 系 统 学 报 第 2 卷
第2期 张亮,等:基于镜头的鲁棒视频广告检测 ·87· 检测算法计算的结果,图6(b)图所示为RBFD镜 变镜头被准确地检测到.第2段视频包含49个切变 头检测算法的计算结果.图中x轴表示帧序列,y轴 镜头和5个消隐镜头,其中消隐镜头5个和43个切 表示连续2帧之间的差值 变镜头被正确的检测出来 从RBFD算法计算出的分布图6(b)可以看 表1切变镜头的检测结果 出,其FDm的分布结果更符合实际的实验视频.在 Table 1 Results of hard cut detection 广告阶段,RBFD可以检测出更多的切变镜头,其 阀值切变查全率% 准确率/% 中一些是在文献[7]中没有检测出来的.这说明,本 Algorithm[7]0.10 758 84.51 91.42 文的镜头检测算法在广告阶段能检测出更加密集的 RBFID 0.18 800 96.22 97.12 广告视频镜头.因此,根据本文算法得到的普通节目 和广告段的镜头频率差值更加明显,从而能够更好 表2切变和消隐镜头的检测结果 地区分广告视频段和普通节目段 Table 2 Results of shot detection of hard cut and dissolve 广告部分 0.7 消隐 切变 查全率/%准确率/% 0.6 clip 1 2 75 93.90 96.25 clip 2 43 91.84 93.75 04 从表1和表2可以看出,本文算法在切变镜头 0.3 和消隐镜头的查全率和准确率上都达到很好的检测 0.2 效果.表3所示为本文算法在4段电视节目上的广 告镜头的检测结果,其中包括没有经过重定界算法 和经过重定界算法的广告镜头分类结果.从试验中 0 15 20 30X10 帧序列 可以看出,广告镜头重定界算法可以有效地消除广 告边界的错分镜头,提高镜头分类的准确率.从表3 (a)文献「71的计算结果 可以看出,在采用重定界算法前、后的正确率分别为 广告部分 93.77%和97.38% 06 表3广告镜头的分类结果 0.s Table 3 Cassification results of commercial shots 0.4 重定界 镜头数 广告镜头 准确率!% .3 without 305 286 93.77 with 305 297 97.38 图7所示是基于本文算法搭建的视频广告检测 10 15 30×10 原型系统.界面左侧的上半部分是电视节目视频播 放窗口,下半部分是功能键,包括视频文件的打开、 (b)RBFD的计算结果 图6FDm分布图 Fig.6 FD between frames calculated by different algorithms 本系统还对共包括820个切变镜头的10段电 视节目片断进行了切变镜头检测.检测结果如表1 所示,其中RBFD共检测到8O0个切变镜头,其中 正确的是789个.而文献[7]检测出了758个镜头 其中正确的为693个. 表2为本系统在2段包括切变镜头和消隐镜头 的视频段上的实验结果.第1段视频包含80个切变 图7视频广告检测原型系统 镜头和2个消隐镜头,其中2个消隐镜头和75个切 Fig.7 The robust commercial detection prototype system 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved. http://www.cnki.net
检测算法计算的结果 ,图 6 ( b) 图所示为 RBFID 镜 头检测算法的计算结果. 图中 x 轴表示帧序列 , y 轴 表示连续 2 帧之间的差值. 从 RBFID 算法计算出的分布图 6 ( b) 可以看 出 ,其 FDm 的分布结果更符合实际的实验视频. 在 广告阶段 ,RBFID 可以检测出更多的切变镜头 ,其 中一些是在文献[ 7 ]中没有检测出来的. 这说明 ,本 文的镜头检测算法在广告阶段能检测出更加密集的 广告视频镜头. 因此 ,根据本文算法得到的普通节目 和广告段的镜头频率差值更加明显 ,从而能够更好 地区分广告视频段和普通节目段. (a)文献[7 ]的计算结果 (b) RBFID 的计算结果 图 6 FDm 分布图 Fig. 6 FDm between frames calculated by different algorithms 本系统还对共包括 820 个切变镜头的 10 段电 视节目片断进行了切变镜头检测. 检测结果如表 1 所示 ,其中 RBFID 共检测到 800 个切变镜头 ,其中 正确的是 789 个. 而文献[ 7 ]检测出了 758 个镜头 , 其中正确的为 693 个. 表 2 为本系统在 2 段包括切变镜头和消隐镜头 的视频段上的实验结果. 第 1 段视频包含 80 个切变 镜头和 2 个消隐镜头 ,其中 2 个消隐镜头和 75 个切 变镜头被准确地检测到. 第 2 段视频包含 49 个切变 镜头和 5 个消隐镜头 ,其中消隐镜头 5 个和 43 个切 变镜头被正确的检测出来. 表 1 切变镜头的检测结果 Table 1 Results of hard cut detection 阈值 切变 查全率/ % 准确率/ % Algorit hm[ 7 ] 0. 10 758 84. 51 91. 42 RBFID 0. 18 800 96. 22 97. 12 表 2 切变和消隐镜头的检测结果 Table 2 Results of shot detection of hard cut and dissolve 消隐 切变 查全率/ % 准确率/ % clip 1 2 75 93. 90 96. 25 clip 2 5 43 91. 84 93. 75 从表 1 和表 2 可以看出 ,本文算法在切变镜头 和消隐镜头的查全率和准确率上都达到很好的检测 效果. 表 3 所示为本文算法在 4 段电视节目上的广 告镜头的检测结果 ,其中包括没有经过重定界算法 和经过重定界算法的广告镜头分类结果. 从试验中 可以看出 ,广告镜头重定界算法可以有效地消除广 告边界的错分镜头 ,提高镜头分类的准确率. 从表 3 可以看出 ,在采用重定界算法前、后的正确率分别为 93. 77 %和 97. 38 %. 表 3 广告镜头的分类结果 Table 3 Classification results of commercial shots 重定界 镜头数 广告镜头 准确率/ % without 305 286 93. 77 with 305 297 97. 38 图 7 视频广告检测原型系统 Fig. 7 The robust commercial detection prototype system 图 7 所示是基于本文算法搭建的视频广告检测 原型系统. 界面左侧的上半部分是电视节目视频播 放窗口 ,下半部分是功能键 ,包括视频文件的打开、 第 2 期 张 亮 ,等 :基于镜头的鲁棒视频广告检测 · 78 ·
·88 智能系统学报 第2卷 播放、暂停和广告检索等等;右侧是检索到的广告视 [5]PINAR DU YGULU.Comparison and combination of 频段的起始帧,在每一个小窗口下面有一个键可以 two novel commercial detection Methods [A ]Interna- 用来播放此广告视频段, tional Conference on Multimedia and Expo (ICME'04) [C].Taipei,China,2004. 5结束语 [6]RAINER L.On the detection and recognition of televi- sion commercials [A].Proc of IEEE Int'l Conf.On Mul- 本文提出了一个鲁棒的广告检测系统,首先利 timedia Computing and Systems [C].Ottawa,Canada, 用2个基于区域特征的镜头检测算法将视频段分割 1997. 成镜头,同时提取一些基于镜头的鲁棒性特征参数 [7]MIENE A,DAMMEYER A,HERMES T H,et al.Ad- 然后利用SVM分类器将镜头分成广告节目镜头和 vanced and adaptive shot boundary detection [J].Proc. 普通节目镜头.最后,通过后期处理重新定位广告镜 of ECDL,2001(8)39.43. 头的边界以去除一些错分的镜头,并将广告镜头合 [8 ]VAPNIK V.The Nature of Statistical Learning Theory 并成相应的广告视频段.为了进一步提高系统对广 [M].New York Springer,1995. 告视频检测的准确性,可以引入另外一些鲁棒性的 作者简介: 特征,例如音频特征和文本特征.而且在后处理中, 张亮,男,1981年生,硕士研究生 主要研究方向为基于内容的视频检索 还应该尝试采用基于广告内容连续性和一致性的镜 头分割从而能更好的定位广告边界 Email:zhangliangwin hotmail. com. 参考文献: [1]THOMAS HARGROVE url http:/thomashargrove com/logo-detection/,2005-08-28. [2]HAUPTMANN A,WITBROCKM,Story segmentation 朱振峰,男,1974年生,讲师,主要研 and detection of commercials in broadcast news video 究方向为目标检测与识别、图像检索、视 [A ]Advances in Digital Libraries Conference [C]. 频分析以及机器学习。 Santa Barbara,CA,1998. [3]DAVID A.SADL IER.Automatic TV advertisement de- tection from MPEG bitstream [A].International Confer- ence on Enterprise Information Systems [C].Setubal, Portugal,2001. 赵耀,男,1967年生,教授,博士 [4]HUA Xiansheng,LU Lie,ZHAN G Hongjiang.Robust 生导师,北京交通大学特聘教授,北京 learning based TV commercial detection [A].Interna- 交通大学信息科学研究所所长,主持和 tional Conference on Multimedia and Expo (ICME'05) 参加了24项科研课题,发表论文 [C].Amsterdam,Netherlands,2005. 90余篇,目前50余篇被SC1、EI检索,出 版著作2部,申请发明专利3项 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
播放、暂停和广告检索等等 ;右侧是检索到的广告视 频段的起始帧 ,在每一个小窗口下面有一个键可以 用来播放此广告视频段. 5 结束语 本文提出了一个鲁棒的广告检测系统 ,首先利 用 2 个基于区域特征的镜头检测算法将视频段分割 成镜头 ,同时提取一些基于镜头的鲁棒性特征参数. 然后利用 SVM 分类器将镜头分成广告节目镜头和 普通节目镜头. 最后 ,通过后期处理重新定位广告镜 头的边界以去除一些错分的镜头 ,并将广告镜头合 并成相应的广告视频段. 为了进一步提高系统对广 告视频检测的准确性 ,可以引入另外一些鲁棒性的 特征 ,例如音频特征和文本特征. 而且在后处理中 , 还应该尝试采用基于广告内容连续性和一致性的镜 头分割从而能更好的定位广告边界. 参考文献 : [1 ] THOMAS HARGROV E url : http :/ / thomashargrove. com/ logo2 detection/ ,2005 - 08 - 28. [2 ] HAU PTMANN A , WITBROCKM , Story segmentation and detection of commercials in broadcast news video [ A ]. Advances in Digital Libraries Conference [ C ]. Santa Barbara , CA , 1998. [3 ]DAVID A. SADL IER. Automatic TV advertisement de2 tection from MPEG bitstream [ A ]. International Confer2 ence on Enterprise Information Systems [ C ]. Setubal , Portugal ,2001. [4 ] HUA Xiansheng , LU Lie , ZHAN G Hongjiang. Robust learning2based TV commercial detection [ A ]. Interna2 tional Conference on Multimedia and Expo ( ICME’05) [C]. Amsterdam , Netherlands , 2005. [5 ] PINAR DU YGULU. Comparison and combination of two novel commercial detection Methods [ A ]. Interna2 tional Conference on Multimedia and Expo ( ICME’04) [C]. Taipei , China , 2004. [6 ] RAINER L. On the detection and recognition of televi2 sion commercials [ A ]. Proc of IEEE Int’l Conf. On Mul2 timedia Computing and Systems [ C]. Ottawa , Canada , 1997. [7 ]MIENE A ,DAMMEYER A , HERMES T H , et al. Ad2 vanced and adaptive shot boundary detection [J ]. Proc. of ECDL , 2001 (8) 39 - 43. [8 ]VAPNIK V. The Nature of Statistical Learning Theory [ M ]. New York Springer , 1995. 作者简介 : 张 亮 ,男 ,1981 年生 ,硕士研究生 , 主要研究方向为基于内容的视频检索. E2mail : zhangliangwin @ hotmail. com. 朱振峰 ,男 ,1974 年生 ,讲师 ,主要研 究方向为目标检测与识别、图像检索、视 频分析以及机器学习. 赵 耀 ,男 ,1967 年生 ,教授 ,博士 生导师 ,北京交通大学特聘教授 ,北京 交通大学信息科学研究所所长 .主持和 参加了 24 项科研课题 ,发表论文 88 · 90 余篇 ,目前 50 余篇被 SCI、EI 检索 ,出 版著作 2 部 ,申请发明专利 3 项. · 智 能 系 统 学 报 第 2 卷