机器感知与模式识别：基于镜头的鲁棒视频广告检测

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：595.1KB

第2卷第2期智能系统学报 Vol.2№2 2007年4月 CAAI Transactions on Intelligent Systems Apr.2007 基于镜头的鲁棒视频广告检测张亮，朱振峰赵耀，卢汉清 (1.北京交通大学信息科学研究所，北京100044：2.中国科学院自动化所模式识别国家重点实验室，北京100080) 摘要：随着多媒体技术的发展，自动检测出数字视频节目里面嵌入的广告是很具挑战性的研究.然而，由于嵌入的广告的制作方式和表现手法的多样性，很多自动检测模型的实验结果往往不甚理想.为了提高检测系统的鲁棒性，提出了3阶段广告检测系统.首先，提出了基于区域特征重要性的镜头检测算法(RBFD,regionbased feature im- portance detection),实现视频播放中突变镜头和消隐镜头的检测，同时从每个镜头提取出一些统计特征用来标识镜头.然后，利用$VM的优异分类特性实现镜头分类.最后为了能得到精确的广告视频段，利用广告视频在内容和时间上的连续性来消除错分的镜头，然后将广告镜头整合成广告视频段.本系统在30个电视节目的片段上进行验证，实验结果表明此广告检测系统具有实用性，关键词：视频广告检测；镜头检测；支持向量机中图分类号：TP391文献标识码：A文章编号：16734785(2007)02008306 Video commercial detection based on the robustness of shot ZHAN GLiang',ZHU Zhen-feng',ZHAO Yao',LU Hamqing? (1.Institute of Information Science,Beijing Jiaotong Univesity,Beijing 100044,China;2.Key Laboratory of Pattern Identifi- cation,Institute of Automation under the Chinese Academy of Sciences,Beijing 100080,China) Abstract:Automatic detection of commercials embedded in digital video materials is a challenging task with the development of retrieval of multimedia data.However,because of the diversity of production modes and expression methods of commercials,the performances of current detection systems are inadequate.In this paper,a three-phase system for commercial detection is suggested to improve robustness of the detec- tion system.Firstly,two Regionbased Feature Importance Detection schemes are proposed to detect cut shots and dissolved shots respectively and some statistical features are also extracted to mark shots.Sec- ondly,an SVM classifier is applied to classify these shots.Finally,in order to obtain commercial segments more accurately,a statistical comparison of time and content of commercials is used to eliminate falsely cut shots.Finally,these commercial shots are integrated into commercial video segment.Test results on 30 TV video segments show the effectiveness of the suggested system. Keywords:video commercial detection;shot detection;support vector machine 随着多媒体技术的发展，电视广告在日常生活以利用自动检测系统快速获得广告片段，从而可以中扮演着日益重要的角色.广告自动检测系统以及节省他们分析广告制作技巧的时间.为了实现上述相关技术的发展带来主要包括2个方面的应用.一应用，人们提出了很多的广告检测策略.早期的研究方面，对普通电视节目感兴趣的人可以在视频节目通常集中在基于台标的检测1,2)和black/silent帧里快速的定位广告并去除广告，从而可以提高视频方面的检测).然而，由于现在的电视台在播放广告节目的存储效率.另一方面，对于广告感兴趣的人可的时候通常不隐去台标，导致基于台标的检测方法失败，并且现在的台标也变得越来越复杂，检测起来收稿日期：20061026. 十分不易.另外，在普通节目片段和广告片段转换时基金项目：国家自然科学基金资助项目(60373028、90604032、 60602030):教育部博士点专项基金资助项目(20030004016). 并不总是存在black/silent帧，甚至black/silent帧也可以为了某种剪辑需要随机的插入，这直接导致 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

第 2 卷第 2 期智能系统学报 Vol. 2 №. 2 2007 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2007 基于镜头的鲁棒视频广告检测张亮1 ,朱振峰1 ,赵耀1 ,卢汉清2 (1. 北京交通大学信息科学研究所 ,北京 100044 ;2. 中国科学院自动化所模式识别国家重点实验室 ,北京 100080) 摘要 :随着多媒体技术的发展 ,自动检测出数字视频节目里面嵌入的广告是很具挑战性的研究. 然而 ,由于嵌入的广告的制作方式和表现手法的多样性 ,很多自动检测模型的实验结果往往不甚理想. 为了提高检测系统的鲁棒性 , 提出了 3 阶段广告检测系统. 首先 ,提出了基于区域特征重要性的镜头检测算法 (RBFID , region2based feature im2 portance detection) ,实现视频播放中突变镜头和消隐镜头的检测 , 同时从每个镜头提取出一些统计特征用来标识镜头. 然后 ,利用 SVM 的优异分类特性实现镜头分类. 最后为了能得到精确的广告视频段 ,利用广告视频在内容和时间上的连续性来消除错分的镜头 ,然后将广告镜头整合成广告视频段. 本系统在 30 个电视节目的片段上进行验证 , 实验结果表明此广告检测系统具有实用性. 关键词 :视频广告检测 ;镜头检测 ;支持向量机中图分类号 : TP391 文献标识码 :A 文章编号 :167324785 (2007) 0220083206 Video commercial detection based on the robustness of shot ZHAN G Liang 1 , ZHU Zhen2feng 1 , ZHAO Yao 1 , L U Han2qing 2 (1. Institute of Information Science , Beijing Jiaotong Univesity , Beijing 100044 ,China ; 2. Key Laboratory of Pattern Identifi2 cation , Institute of Automation under the Chinese Academy of Sciences , Beijing 100080 , China) Abstract :Automatic detection of commercials embedded in digital video materials is a challenging task wit h t he development of retrieval of multimedia data. However , because of the diversity of production modes and expression met hods of commercials , the performances of current detection systems are inadequate. In t his paper , a t hree2p hase system for commercial detection is suggested to improve robust ness of t he detec2 tion system. Firstly , two Region2based Feat ure Importance Detection schemes are proposed to detect cut shots and dissolved shots respectively and some statistical feat ures are also extracted to mark shots. Sec2 ondly , an SVM classifier is applied to classify t hese shots. Finally , in order to obtain commercial segments more accurately , a statistical comparison of time and content of commercials is used to eliminate falsely cut shots. Finally , these commercial shots are integrated into commercial video segment. Test results on 30 TV video segments show t he effectiveness of t he suggested system. Keywords :video commercial detection ; shot detection ; support vector machine 收稿日期 :2006210226. 基金项目 : 国家自然科学基金资助项目 ( 60373028、90604032、随着多媒体技术的发展 ,电视广告在日常生活中扮演着日益重要的角色. 广告自动检测系统以及相关技术的发展带来主要包括 2 个方面的应用. 一方面 ,对普通电视节目感兴趣的人可以在视频节目里快速的定位广告并去除广告 ,从而可以提高视频节目的存储效率. 另一方面 ,对于广告感兴趣的人 60602030) ;教育部博士点专项基金资助项目(20030004016) . 可以利用自动检测系统快速获得广告片段 ,从而可以节省他们分析广告制作技巧的时间. 为了实现上述应用 ,人们提出了很多的广告检测策略. 早期的研究通常集中在基于台标的检测[ 1 - 2 ] 和 black/ silent 帧方面的检测[3 ] . 然而 ,由于现在的电视台在播放广告的时候通常不隐去台标 ,导致基于台标的检测方法失败 ,并且现在的台标也变得越来越复杂 ,检测起来十分不易. 另外 ,在普通节目片段和广告片段转换时并不总是存在 black/ silent 帧 ,甚至 black/ silent 帧也可以为了某种剪辑需要随机的插入 ,这直接导致

·84 智能系统学报第2卷基于black/silent帧检测方法的失败.为了避免上频通常包含更多的镜头变换以吸引观众.此外广告述问题，人们又提出了基于镜头的检测方法4).此视频还显示独特的场景转换特征，通常包括切变镜方法通过从镜头中提取一些能够表示广告片段的特头和消隐镜头的转换.因此在广告视频和普通视频征，然后利用这些特征将电视镜头分成普通节目镜里面的镜头变化的方式和频率是明显不同的头和广告镜头但是这些方法通常只是简单的分类， 1.1切变镜头检测而没有考虑如何消除错分广告镜头的影响，同时也切变镜头是视频分析中非常有效的特征，它在没有考虑如何合并广告镜头得到广告片段的问题. 视频序列中产生一个视频内容上的中断.和普通的而且，现有的很多方法都没有考虑广告内容的一致节目视频相比，广告视频中出现切变镜头的频率更性，从而很难改善检测的效果.另外，上述方法即使高.由于在大部分的场景转换的过程中都是体现切在检测切变镜头方面取得很好的效果，但当检测消变镜头的特征，所以一般用检测效果很好的颜色或隐或者淡入淡出镜头时就会遇到问题，除了上述的灰度直方图差值检测切变镜头”.但是这些检测方检测方法，基于数据库的广告检测方法也被采用61，法通常忽略了广告视频的制作技巧.也就是说，在广数据库存储预先定义的广告视频段的特征，然后利告视频段中，比较重要的信息通常都位于视频帧的用此数据库识别嵌入在电视节目里面的广告段.然中间部分.因此，如果连续2帧中间区域的内容发生而，此方法的缺点是必需一个足够大的数据库来存突然变化而同时背景却保持不变的话，应该认为它储已知的广告特征，因此不能检测出数据库中预先很有可能发生了切变.基于这种理论，提出了基于区没有存储的广告视频段」域的切变镜头检测方法为了避免上述问题，提出了一种3阶段的鲁棒如图2所示，每一帧首先被分成多个区域，用以性的广告检测系统.首先，本文提出了基于区域的区描述广告制作中的表现手法，即在广告视频帧中不域特征重要性的镜头检测算法(regionbased fea- 同的区域在传递信息过程中的重要性不同.H, ture importance detection,RBFD),实现突变和消 R,m表示在第m帧中的第i个区域的B阶的直方隐镜头的检测，进而实现对电视节目的镜头分割；同图，j表示相应的阶数.因此，连续2帧间第m帧和时提取出一些有效的镜头统计特征.然后，利用第m-1帧)场景切换的帧差FDm的计算如下： SVM实现镜头分类，把它们分成普通节目镜头和广 FD= 告镜头.最后通过引入后处理机制，实现对错分镜头的纠错，并将广告镜头整合成广告视频段.实验表明 ,nL-HuaDLe max H(j,R:,m)H(j.R,m-1) 本文提出的广告检测系统能够很准确地检测出广告 (1) 视频段.图1是所提出的广告检测系统的工作流程。式中：w:表示归一化的权值，用来标识相应区域i 的重要性，并且根据区域重要性的不同，权值大小排视频数据序如下：wm<wm1<<w:<w1,n表示区域标识. 镜头检测在系统实际运行中，本文采用3区域的划分，并有镜头分类 w1=0.5,p2=0.3,w3=0.2 普通节目镜头广告镜头结束精确定位合并广告序列结束图1视频广告检测系统流程图 Fig.I The general diagram of the proposed 图2基于重要区域的切变镜头检测算法示意图 commercial detection system Fig.2 Sketch map of hard cut shots detection based 1广告场景中的镜头检测 on important regions 为在较短时间内传递尽可能多的信息，广告视假设一段电视节目里面的大部分场景的切换都是平滑的，也就是说大部分的FDm值（除了发生切 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

基于 black/ silent 帧检测方法的失败. 为了避免上述问题 ,人们又提出了基于镜头的检测方法[4 - 5 ] . 此方法通过从镜头中提取一些能够表示广告片段的特征 ,然后利用这些特征将电视镜头分成普通节目镜头和广告镜头. 但是这些方法通常只是简单的分类 , 而没有考虑如何消除错分广告镜头的影响 ,同时也没有考虑如何合并广告镜头得到广告片段的问题. 而且 ,现有的很多方法都没有考虑广告内容的一致性 ,从而很难改善检测的效果. 另外 ,上述方法即使在检测切变镜头方面取得很好的效果 ,但当检测消隐或者淡入淡出镜头时就会遇到问题. 除了上述的检测方法 ,基于数据库的广告检测方法也被采用[6 ] , 数据库存储预先定义的广告视频段的特征 ,然后利用此数据库识别嵌入在电视节目里面的广告段. 然而 ,此方法的缺点是必需一个足够大的数据库来存储已知的广告特征 ,因此不能检测出数据库中预先没有存储的广告视频段. 为了避免上述问题 ,提出了一种 3 阶段的鲁棒性的广告检测系统. 首先 ,本文提出了基于区域的区域特征重要性的镜头检测算法 (region2based fea2 t ure importance detection ,RBFID) ,实现突变和消隐镜头的检测 ,进而实现对电视节目的镜头分割 ;同时提取出一些有效的镜头统计特征. 然后 ,利用 SVM 实现镜头分类 ,把它们分成普通节目镜头和广告镜头. 最后通过引入后处理机制 ,实现对错分镜头的纠错 ,并将广告镜头整合成广告视频段. 实验表明本文提出的广告检测系统能够很准确地检测出广告视频段. 图 1 是所提出的广告检测系统的工作流程. 图 1 视频广告检测系统流程图 Fig. 1 The general diagram of the proposed commercial detection system 1 广告场景中的镜头检测为在较短时间内传递尽可能多的信息 ,广告视频通常包含更多的镜头变换以吸引观众. 此外广告视频还显示独特的场景转换特征 ,通常包括切变镜头和消隐镜头的转换. 因此在广告视频和普通视频里面的镜头变化的方式和频率是明显不同的. 1. 1 切变镜头检测切变镜头是视频分析中非常有效的特征 ,它在视频序列中产生一个视频内容上的中断. 和普通的节目视频相比 ,广告视频中出现切变镜头的频率更高. 由于在大部分的场景转换的过程中都是体现切变镜头的特征 ,所以一般用检测效果很好的颜色或灰度直方图差值检测切变镜头[7 ] . 但是这些检测方法通常忽略了广告视频的制作技巧. 也就是说 ,在广告视频段中 ,比较重要的信息通常都位于视频帧的中间部分. 因此 ,如果连续 2 帧中间区域的内容发生突然变化而同时背景却保持不变的话 ,应该认为它很有可能发生了切变. 基于这种理论 ,提出了基于区域的切变镜头检测方法. 如图 2 所示 ,每一帧首先被分成多个区域 ,用以描述广告制作中的表现手法 ,即在广告视频帧中不同的区域在传递信息过程中的重要性不同. H ( j , Ri , m) 表示在第 m 帧中的第 i 个区域的 B 阶的直方图 , j 表示相应的阶数. 因此 ,连续 2 帧间(第 m 帧和第 m - 1 帧) 场景切换的帧差 FDm 的计算如下 : FDm = ∑ n i = 1 wi ∑ B j = 0 | H ( j , Ri , m) - H ( j , Ri , m - 1) | 2 max{ H ( j , Ri , m) , H ( j , Ri , m - 1) } . (1) 式中 : wi 表示归一化的权值 ,用来标识相应区域 i 的重要性 ,并且根据区域重要性的不同 ,权值大小排序如下 :wn < wn - 1 < …< wi < w1 , n 表示区域标识. 在系统实际运行中 ,本文采用 3 区域的划分 ,并有 w1 = 0. 5 , w2 = 0. 3 , w3 = 0. 2. 图 2 基于重要区域的切变镜头检测算法示意图 Fig. 2 Sketch map of hard cut shots detection based on important regions 假设一段电视节目里面的大部分场景的切换都是平滑的 ,也就是说大部分的 FDm 值 (除了发生切 · 48 · 智能系统学报第 2 卷

第2期张亮，等：基于镜头的鲁棒视频广告检测 ·85* 变的位置)都是相对集中地落在一个固定的区间内检测.如图4所示，R.表示第m帧中的第1个区的.由此依据FDm的统计特性，可以近似地利用域 Rayleigh分布来描述： RIFD]=ED。 ED2 e2 (2 式中：O表示高斯噪声的方差，而且FDm>0.为了估计式2)内的0，本文采用了计算复杂度较低的中值估计算法，即有 2 (3) 2Nn(2) 式中：M是RFDm的中值，并有 J∫RfFD.JdFD.=lV2. 图4基于局部特征时变一致性的消隐镜头检测方法 (4) Fig.4 Sketch map of dissolve shot detection based on 图3表明了电视节目FDm的的实际分布和经估计 local coherent temporal change 得到的Rayleigh分布.从图中可以看出，估计得到设V"表示第m帧中的第i个区域Rm,的平均的Rayleigh分布可以较好地拟合实际分布. 灰度值.为了叙述方便，S”表示第m帧中的第i个区域的灰度变化趋势.”表示在第m帧之前的相应的第ⅰ个区域具有单调灰度变化模式的连续帧的数目.N”表示在第m帧的所有区域的统计特性，即属于区间[m,内的”的数目.基于局部特征时变一致性的检测算法流程如下： 0.050.150.250.35 1)计算样本区域V的平均灰度值 FDw 2)初始化：T=0,S=+1 FD的实际分布 ---·估计得到的Raleigh分布 3)如式5)、6)更新第n帧中的每一个区域的 S"和T": Vm-Vm1≥0，图3FDm的实际分布和估计得到的Rayleigh分布 1 V".ym1<0 (5) Fig.3 The real distribution and estimated Rayleigh distribution of FD 7”=11+L+S1S (6) 2 为了确定相邻的2帧是否发生切变，本文利用 4)计算N:: FDm的估计分布的置信区间来计算得到阈值te.因 N贤=#fT四T"∈[m,欣]} (7) 此，如果第i帧的FDm大于阈值tct,就认为在第i 式中：#表示属于区间[m,历了”的数目帧发生切变图5给出了在一段测试视频的实验结果.从中 1.2消隐镜头检测可以看出，此段广告视频包含3段消隐镜头，分别位除了切变镜头外，在广告制作手法中还往往采于2950~2980帧，3320~3350帧和3390~ 用另外一种很常见的技巧：消隐镜头.尤其在化妆品的广告中，消隐镜头更加普遍.消隐镜头是指前一个 3410帧内，并且和实际的广告视频段相吻合.在此镜头的后几帧在灰度上逐渐变暗同时后一个镜头的 3段镜头内，N:值的变化趋势是先增加然后减小，前几帧在灰度上逐渐变亮，类似于淡出、淡入，不过这和普通节目内部的N”的变化趋势有明显的区在消隐中的淡出与淡入在时间上有一定的重叠.和别切变镜头的检测比起来，消隐镜头的检测更加困难. 2基于SVM的镜头分类为能准确地检测到消隐镜头，本文提出了基于局部特征时变一致性的检测算法.对于消隐镜头，在 V.Vapnikls提出的支持向量机(support vec- 一定时间内连续的帧中，平均灰度值的变化是连续 tor machine,SVM)方法是建立在统计学习理论的的，并且这种单调性的变化通常持续一段时间.因 VC维理论和结构风险最小原理基础上的，根据有此，本文利用这种变化的累积值来实现消隐镜头的限的样本信息在模型的复杂性和学习能力之间寻求 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

变的位置) 都是相对集中地落在一个固定的区间内的. 由此依据 FDm 的统计特性 , 可以近似地利用 Rayleigh 分布来描述 : R[FD ] = FD 2 σ2 g exp - FD 2 2σ2 g . (2) 式中 :σg 表示高斯噪声的方差 ,而且 FDm > 0. 为了估计式(2) 内的σg ,本文采用了计算复杂度较低的中值估计算法 ,即有 σ^ g = M 2 2 ln (2) . (3) 式中 : M 是 R [FDm ]的中值 ,并有 ∫ M 0 R[FDm ]dFDm = 1/ 2. (4) 图 3 表明了电视节目 FDm 的的实际分布和经估计得到的 Rayleigh 分布. 从图中可以看出 ,估计得到的 Rayleigh 分布可以较好地拟合实际分布. 图 3 FDm 的实际分布和估计得到的 Rayleigh 分布 Fig. 3 The real distribution and estimated Rayleigh distribution of FDm 为了确定相邻的 2 帧是否发生切变 ,本文利用 FDm 的估计分布的置信区间来计算得到阈值 t cut . 因此 ,如果第 i 帧的 FDm 大于阈值 t cut ,就认为在第 i 帧发生切变. 1. 2 消隐镜头检测除了切变镜头外 ,在广告制作手法中还往往采用另外一种很常见的技巧 :消隐镜头. 尤其在化妆品的广告中 ,消隐镜头更加普遍. 消隐镜头是指前一个镜头的后几帧在灰度上逐渐变暗同时后一个镜头的前几帧在灰度上逐渐变亮 ,类似于淡出、淡入 ,不过在消隐中的淡出与淡入在时间上有一定的重叠. 和切变镜头的检测比起来 ,消隐镜头的检测更加困难. 为能准确地检测到消隐镜头 ,本文提出了基于局部特征时变一致性的检测算法. 对于消隐镜头 ,在一定时间内连续的帧中 ,平均灰度值的变化是连续的 ,并且这种单调性的变化通常持续一段时间. 因此 ,本文利用这种变化的累积值来实现消隐镜头的检测. 如图 4 所示 , Rm , i 表示第 m 帧中的第 i 个区域. 图 4 基于局部特征时变一致性的消隐镜头检测方法 Fig. 4 Sketch map of dissolve shot detection based on local coherent temporal change 设 V m i 表示第 m 帧中的第 i 个区域 R m , i的平均灰度值. 为了叙述方便 , S m i 表示第 m 帧中的第 i 个区域的灰度变化趋势. T m i 表示在第 m 帧之前的相应的第 i 个区域具有单调灰度变化模式的连续帧的数目. N m h 表示在第 m 帧的所有区域的统计特性 ,即属于区间[ n1 , n2 ]内的 T m i 的数目. 基于局部特征时变一致性的检测算法流程如下 : 1) 计算样本区域 V m i 的平均灰度值. 2) 初始化 : T 1 i = 0 , S 1 i = + 1. 3) 如式(5) 、(6) 更新第 n 帧中的每一个区域的 S m i 和 T m i : S m i = 1 V m i - V m- 1 i ≥0 , - 1 V m i - V m- 1 i < 0. (5) T m i = T m- 1 i + 1 + S m- 1 i ·S m i 2 . (6) 4) 计算 N m h : N m h = # { T m i T m i ∈[ n1 , n2 ]} . (7) 式中 : # 表示属于区间[ n1 , n2 ] T m i 的数目. 图 5 给出了在一段测试视频的实验结果. 从中可以看出 ,此段广告视频包含 3 段消隐镜头 ,分别位于 2 950～2 980 帧 , 3 320～3 350 帧和 3 390～ 3 410帧内 ,并且和实际的广告视频段相吻合. 在此 3 段镜头内 , N m h 值的变化趋势是先增加然后减小 , 这和普通节目内部的 N m h 的变化趋势有明显的区别. 2 基于 SVM 的镜头分类 V. Vap nik [ 8 ] 提出的支持向量机 (support vec2 tor machine ,SVM) 方法是建立在统计学习理论的 VC 维理论和结构风险最小原理基础上的 ,根据有限的样本信息在模型的复杂性和学习能力之间寻求第 2 期张亮 ,等 :基于镜头的鲁棒视频广告检测 · 58 ·

86- 智能系统学报第2卷头中间，那么这个镜头极有可能是被错分的，即它很 18 可能是一个广告镜头】 1 假设shot:(1≤≤W代表第i镜头.C代表镜 10 头的当前标识，shot,它用来确定这个镜头是否为广告镜头.n表示镜头的数目.滑动窗口累积算法如下所示 2 初始化C: 29 30313233 3435×10 +1如果第i个镜头属于广告镜头，帧序列n C= ·1其他 (10) 图5消隐镜头的统计图 1)利用包含5个镜头的滑动窗口来更新C.假 Fig.5 Effectiveness of the statistical values N for characterizing the dissolve cuts 设W={ww,=1,f·2到≤+2}表示一个滑动最佳折衷以期获得最好的推广能力.支持向量机理窗口.C(i-2对+2)更新算法如下： 2 论因其坚实的理论基础和诸多良好特性在近年获得 C+1 if C+wk≥3，了广泛的关注.其原理是首先通过非线性变换将输 C= (11) 入空间变换到一个高维空间，然后在这个新空间中、G.1else. 求取最优线性分类面.经过优化求解，该最优分类超 2)通过判断C来确定是否为广告镜头.如果平面由式(8)给出 shot,等于+1，镜头shot,就认为是广告镜头.否则，shot,就是普通节目镜头： S(x划=ya,(x)·r划+b (8) +1ifC,>0 shot,= (12 式中：()是一个非线性的映射函数，X={x,∈ 0 else. R}-1.m和y,={-1,1}分别表示训练集合和相应 3)如果在一次循环中存在多于2个镜头从广告的类标识，b是偏移量.其中任何一个对应于一个非镜头转变成普通节目镜头，或者相反的情况出现，则零值a的样本x,被称为支持向量.一般来说，采用回到第一步从新开始.如果小于2个，则算法结束不同的核函数将对最终求得的最优分类超平面产生为了得到完整的广告视频段，不同的广告镜头影响，在本文中采用高斯核函数K(x,以=(x)· 应该合并成数个相应的广告视频段.合并算法应该遵循下列原则： ry以=exp d 因此，对于一个测试样 1)如果多于5个广告镜头是连续的，那么它们应本，其最终判别输出为该合并成一个广告视频段.如果小于5个，则定位距 +1ifS(x)>0, 离最近的广告段.如果在它们和这个广告段之间存在 L(x=8(S(x)= (9) -1ifS(x<0. 少于3个镜头，则它们应该并入这个广告视频段式中：()为一指示函数 2)如果在两段连续的广告视频段之间存在少于为了实现有效的镜头分类，提取了一些鲁棒性 3个的镜头，那么这2个广告段和它们中间的这些的包括镜头切换频率、帧差的平均值和方差以及帧镜头应该合并成一个完整的广告视频段的主颜色空间占有率等在内的特征来对镜头进行描 3)重复上面的合并步骤，直到没有新的广告视述.另外，在支持向量机的学习训练中，训练集由频段出现 800个镜头组成，其中包括380个广告镜头通过上述过程的后处理，就可以消除偶然的分类错误并可以得到广告视频」 3广告镜头的重定界及合并 4 通过SVM分类，不可避免地会出现错分的镜实验结果头.为此本文还采用包括基于广告时间连续性的滑在实验中，选取了国内不同电视台的30段普通动窗口累积算法来精确定位广告边界以及合并不同电视节目剪辑.首先，在这些电视节目上进行镜头检的广告视频镜头的后处理方案，而得到广告序列.由测的实验.实验结果包括本文的RBFD镜头检测算于广告镜头内容上都是连续的而且它们成组地出法和文献[7]中的检测算法的结果.图6所示为FD 现，因此如果一个非广告镜头存在于连续的广告镜的计算分布图.其中图6(a)图所示为文献[7]镜头 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

第2期张亮，等：基于镜头的鲁棒视频广告检测 ·87· 检测算法计算的结果，图6(b)图所示为RBFD镜变镜头被准确地检测到.第2段视频包含49个切变头检测算法的计算结果.图中x轴表示帧序列，y轴镜头和5个消隐镜头，其中消隐镜头5个和43个切表示连续2帧之间的差值变镜头被正确的检测出来从RBFD算法计算出的分布图6(b)可以看表1切变镜头的检测结果出，其FDm的分布结果更符合实际的实验视频.在 Table 1 Results of hard cut detection 广告阶段，RBFD可以检测出更多的切变镜头，其阀值切变查全率% 准确率/% 中一些是在文献[7]中没有检测出来的.这说明，本 Algorithm[7]0.10 758 84.51 91.42 文的镜头检测算法在广告阶段能检测出更加密集的 RBFID 0.18 800 96.22 97.12 广告视频镜头.因此，根据本文算法得到的普通节目和广告段的镜头频率差值更加明显，从而能够更好表2切变和消隐镜头的检测结果地区分广告视频段和普通节目段 Table 2 Results of shot detection of hard cut and dissolve 广告部分 0.7 消隐切变查全率/%准确率/% 0.6 clip 1 2 75 93.90 96.25 clip 2 43 91.84 93.75 04 从表1和表2可以看出，本文算法在切变镜头 0.3 和消隐镜头的查全率和准确率上都达到很好的检测 0.2 效果.表3所示为本文算法在4段电视节目上的广告镜头的检测结果，其中包括没有经过重定界算法和经过重定界算法的广告镜头分类结果.从试验中 0 15 20 30X10 帧序列可以看出，广告镜头重定界算法可以有效地消除广告边界的错分镜头，提高镜头分类的准确率.从表3 (a)文献「71的计算结果可以看出，在采用重定界算法前、后的正确率分别为广告部分 93.77%和97.38% 06 表3广告镜头的分类结果 0.s Table 3 Cassification results of commercial shots 0.4 重定界镜头数广告镜头准确率！% .3 without 305 286 93.77 with 305 297 97.38 图7所示是基于本文算法搭建的视频广告检测 10 15 30×10 原型系统.界面左侧的上半部分是电视节目视频播放窗口，下半部分是功能键，包括视频文件的打开、 (b)RBFD的计算结果图6FDm分布图 Fig.6 FD between frames calculated by different algorithms 本系统还对共包括820个切变镜头的10段电视节目片断进行了切变镜头检测.检测结果如表1 所示，其中RBFD共检测到8O0个切变镜头，其中正确的是789个.而文献[7]检测出了758个镜头其中正确的为693个. 表2为本系统在2段包括切变镜头和消隐镜头的视频段上的实验结果.第1段视频包含80个切变图7视频广告检测原型系统镜头和2个消隐镜头，其中2个消隐镜头和75个切 Fig.7 The robust commercial detection prototype system 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved. http://www.cnki.net

检测算法计算的结果 ,图 6 ( b) 图所示为 RBFID 镜头检测算法的计算结果. 图中 x 轴表示帧序列 , y 轴表示连续 2 帧之间的差值. 从 RBFID 算法计算出的分布图 6 ( b) 可以看出 ,其 FDm 的分布结果更符合实际的实验视频. 在广告阶段 ,RBFID 可以检测出更多的切变镜头 ,其中一些是在文献[ 7 ]中没有检测出来的. 这说明 ,本文的镜头检测算法在广告阶段能检测出更加密集的广告视频镜头. 因此 ,根据本文算法得到的普通节目和广告段的镜头频率差值更加明显 ,从而能够更好地区分广告视频段和普通节目段. (a)文献[7 ]的计算结果 (b) RBFID 的计算结果图 6 FDm 分布图 Fig. 6 FDm between frames calculated by different algorithms 本系统还对共包括 820 个切变镜头的 10 段电视节目片断进行了切变镜头检测. 检测结果如表 1 所示 ,其中 RBFID 共检测到 800 个切变镜头 ,其中正确的是 789 个. 而文献[ 7 ]检测出了 758 个镜头 , 其中正确的为 693 个. 表 2 为本系统在 2 段包括切变镜头和消隐镜头的视频段上的实验结果. 第 1 段视频包含 80 个切变镜头和 2 个消隐镜头 ,其中 2 个消隐镜头和 75 个切变镜头被准确地检测到. 第 2 段视频包含 49 个切变镜头和 5 个消隐镜头 ,其中消隐镜头 5 个和 43 个切变镜头被正确的检测出来. 表 1 切变镜头的检测结果 Table 1 Results of hard cut detection 阈值切变查全率/ % 准确率/ % Algorit hm[ 7 ] 0. 10 758 84. 51 91. 42 RBFID 0. 18 800 96. 22 97. 12 表 2 切变和消隐镜头的检测结果 Table 2 Results of shot detection of hard cut and dissolve 消隐切变查全率/ % 准确率/ % clip 1 2 75 93. 90 96. 25 clip 2 5 43 91. 84 93. 75 从表 1 和表 2 可以看出 ,本文算法在切变镜头和消隐镜头的查全率和准确率上都达到很好的检测效果. 表 3 所示为本文算法在 4 段电视节目上的广告镜头的检测结果 ,其中包括没有经过重定界算法和经过重定界算法的广告镜头分类结果. 从试验中可以看出 ,广告镜头重定界算法可以有效地消除广告边界的错分镜头 ,提高镜头分类的准确率. 从表 3 可以看出 ,在采用重定界算法前、后的正确率分别为 93. 77 %和 97. 38 %. 表 3 广告镜头的分类结果 Table 3 Classification results of commercial shots 重定界镜头数广告镜头准确率/ % without 305 286 93. 77 with 305 297 97. 38 图 7 视频广告检测原型系统 Fig. 7 The robust commercial detection prototype system 图 7 所示是基于本文算法搭建的视频广告检测原型系统. 界面左侧的上半部分是电视节目视频播放窗口 ,下半部分是功能键 ,包括视频文件的打开、第 2 期张亮 ,等 :基于镜头的鲁棒视频广告检测 · 78 ·

·88 智能系统学报第2卷播放、暂停和广告检索等等；右侧是检索到的广告视 [5]PINAR DU YGULU.Comparison and combination of 频段的起始帧，在每一个小窗口下面有一个键可以 two novel commercial detection Methods [A ]Interna- 用来播放此广告视频段， tional Conference on Multimedia and Expo (ICME'04) [C].Taipei,China,2004. 5结束语 [6]RAINER L.On the detection and recognition of televi- sion commercials [A].Proc of IEEE Int'l Conf.On Mul- 本文提出了一个鲁棒的广告检测系统，首先利 timedia Computing and Systems [C].Ottawa,Canada, 用2个基于区域特征的镜头检测算法将视频段分割 1997. 成镜头，同时提取一些基于镜头的鲁棒性特征参数 [7]MIENE A,DAMMEYER A,HERMES T H,et al.Ad- 然后利用SVM分类器将镜头分成广告节目镜头和 vanced and adaptive shot boundary detection [J].Proc. 普通节目镜头.最后，通过后期处理重新定位广告镜 of ECDL,2001(8)39.43. 头的边界以去除一些错分的镜头，并将广告镜头合 [8 ]VAPNIK V.The Nature of Statistical Learning Theory 并成相应的广告视频段.为了进一步提高系统对广 [M].New York Springer,1995. 告视频检测的准确性，可以引入另外一些鲁棒性的作者简介：特征，例如音频特征和文本特征.而且在后处理中，张亮，男，1981年生，硕士研究生主要研究方向为基于内容的视频检索还应该尝试采用基于广告内容连续性和一致性的镜头分割从而能更好的定位广告边界 Email:zhangliangwin hotmail. com. 参考文献： [1]THOMAS HARGROVE url http:/thomashargrove com/logo-detection/,2005-08-28. [2]HAUPTMANN A,WITBROCKM,Story segmentation 朱振峰，男，1974年生，讲师，主要研 and detection of commercials in broadcast news video 究方向为目标检测与识别、图像检索、视 [A ]Advances in Digital Libraries Conference [C]. 频分析以及机器学习。 Santa Barbara,CA,1998. [3]DAVID A.SADL IER.Automatic TV advertisement de- tection from MPEG bitstream [A].International Confer- ence on Enterprise Information Systems [C].Setubal, Portugal,2001. 赵耀，男，1967年生，教授，博士 [4]HUA Xiansheng,LU Lie,ZHAN G Hongjiang.Robust 生导师，北京交通大学特聘教授，北京 learning based TV commercial detection [A].Interna- 交通大学信息科学研究所所长，主持和 tional Conference on Multimedia and Expo (ICME'05) 参加了24项科研课题，发表论文 [C].Amsterdam,Netherlands,2005. 90余篇，目前50余篇被SC1、EI检索，出版著作2部，申请发明专利3项 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

播放、暂停和广告检索等等 ;右侧是检索到的广告视频段的起始帧 ,在每一个小窗口下面有一个键可以用来播放此广告视频段. 5 结束语本文提出了一个鲁棒的广告检测系统 ,首先利用 2 个基于区域特征的镜头检测算法将视频段分割成镜头 ,同时提取一些基于镜头的鲁棒性特征参数. 然后利用 SVM 分类器将镜头分成广告节目镜头和普通节目镜头. 最后 ,通过后期处理重新定位广告镜头的边界以去除一些错分的镜头 ,并将广告镜头合并成相应的广告视频段. 为了进一步提高系统对广告视频检测的准确性 ,可以引入另外一些鲁棒性的特征 ,例如音频特征和文本特征. 而且在后处理中 , 还应该尝试采用基于广告内容连续性和一致性的镜头分割从而能更好的定位广告边界. 参考文献 : [1 ] THOMAS HARGROV E url : http :/ / thomashargrove. com/ logo2 detection/ ,2005 - 08 - 28. [2 ] HAU PTMANN A , WITBROCKM , Story segmentation and detection of commercials in broadcast news video [ A ]. Advances in Digital Libraries Conference [ C ]. Santa Barbara , CA , 1998. [3 ]DAVID A. SADL IER. Automatic TV advertisement de2 tection from MPEG bitstream [ A ]. International Confer2 ence on Enterprise Information Systems [ C ]. Setubal , Portugal ,2001. [4 ] HUA Xiansheng , LU Lie , ZHAN G Hongjiang. Robust learning2based TV commercial detection [ A ]. Interna2 tional Conference on Multimedia and Expo ( ICME’05) [C]. Amsterdam , Netherlands , 2005. [5 ] PINAR DU YGULU. Comparison and combination of two novel commercial detection Methods [ A ]. Interna2 tional Conference on Multimedia and Expo ( ICME’04) [C]. Taipei , China , 2004. [6 ] RAINER L. On the detection and recognition of televi2 sion commercials [ A ]. Proc of IEEE Int’l Conf. On Mul2 timedia Computing and Systems [ C]. Ottawa , Canada , 1997. [7 ]MIENE A ,DAMMEYER A , HERMES T H , et al. Ad2 vanced and adaptive shot boundary detection [J ]. Proc. of ECDL , 2001 (8) 39 - 43. [8 ]VAPNIK V. The Nature of Statistical Learning Theory [ M ]. New York Springer , 1995. 作者简介 : 张亮 ,男 ,1981 年生 ,硕士研究生 , 主要研究方向为基于内容的视频检索. E2mail : zhangliangwin @ hotmail. com. 朱振峰 ,男 ,1974 年生 ,讲师 ,主要研究方向为目标检测与识别、图像检索、视频分析以及机器学习. 赵耀 ,男 ,1967 年生 ,教授 ,博士生导师 ,北京交通大学特聘教授 ,北京交通大学信息科学研究所所长 .主持和参加了 24 项科研课题 ,发表论文 88 · 90 余篇 ,目前 50 余篇被 SCI、EI 检索 ,出版著作 2 部 ,申请发明专利 3 项. · 智能系统学报第 2 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录