【机器学习】一种鲁棒的Multi-Egocentric视频中的多目标检测及匹配算法

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：15.78MB

第11卷第5期智能系统学报 Vol.11 No.5 2016年10月 CAAI Transactions on Intelligent Systems 0ct.2016 D0I:10.11992/is.201603050 网络出版地址：htp:/www.cnki.net/kcms/detail/23.1538.TP.20160824.0929.016.html 一种鲁棒的Multi-Egocentric视频中的多目标检测及匹配算法李龙，尹辉2，许宏丽，欧伟奇 (1.北京交通大学计算机与信息技术学院，北京100044：2.北京交通大学交通数据分析与挖据北京市重点实验室，北京100044) 摘要：针对视频中的背景变化剧烈、目标尺度差异明显和视角时变性强的特点，提出一种鲁棒的针对muli-egocen- ic视频的多目标检测及匹配算法。首先，构建基于boosting方法的多目标检测模型对各视频序列中的显著目标进行粗检测，并提出一种基于局部相似度的区域优化算法对粗检测显著目标的轮廓进行优化，提高Egocentric视频中显著目标轮廓检测和定位的准确性。在显著目标检测基础上，对不同视角中的显著目标构建基于HOG特征的SVM 分类器，实现多视角的多目标匹配。在Party Scene数据集上的实验验证了本文算法的有效性。关键词：Muli-Egocentric视频：多目标检测：多目标匹配中图分类号：TP391.4文献标志码：A文章编号：1673-4785(2016)05-0619-08 中文引用格式：李龙，尹辉，许宏丽，等.一种鲁棒的Multi-Egocentric视频中的多目标检测及匹配算法[J].智能系统学报，2016,11 (5):619-626. 英文引用格式：LI Long,YIN Hui,XU Hongli,etal.A robust multi-object detection and matching algorithm for multi-egocentric videos[J].CAAI transactions on intelligent systems,2016,11(5):619-626. A robust multi-object detection and matching algorithm for multi-egocentric videos LI Long',Yin Hui.2,XU Hongli',OU Weiqi (1.Department of Computer Science and Technology,Beijing Jiaotong University,Beijing 100044,China;2.Beijing Key Lab of Transportation Data Analysis and Mining,Beijing Jiaotong University,Beijing 100044,China) Abstract:In this paper,a robust multi-object detection and matching algorithm for a multi-egocentric video is pro- posed by considering the characteristics of multi-egocentric videos,for example,sudden changes in background, and variable target scales and viewpoints.First,a multi-target detection model based on a boosting method is con- structed,to roughly detect any salient objects in the video frames.Then an optimization algorithm based on local similarity is proposed for optimizing the salient-object area and improving the accuracy of salient-object detection and localization.Finally,a SVM classifier based on HOG features is trained to realize multi-target matching in multi-egocentric videos.Experiments using Scene Party datasets show the effectiveness of the proposed method. Keywords:multi-egocentric video;multi-object detection;multi-object matching Egocentric视频是通过固定在拍摄者头、肩、手特点，同时存在拍摄视频不平顺、运动模糊、噪声大等部位或由拍摄者手持的穿戴式摄像机，在拍摄者等问题，为基于此的计算机视觉任务带来极大的挑自由运动过程中所拍摄的。Egocentric视频具有背战。Multi-Egocentric视频是由处于同一场景中的多景变化剧烈、目标尺度差异明显和视角时变性强的个个体所拍摄的不同视角、不同运动轨迹的视频，研究基于multi-egocentric视频的目标检测和匹配对于收稿日期：2016-03-20.网络出版日期：2016-08-24. 后续的场景理解等高级视觉任务具有重要的意义。基金项目：国家自然科学基金项目(61472029,61473031). 由于场景的复杂性和运动的多样性，基于视频通信作者：李龙.E-mail:hyin@djpu.cdu.cn

第１１卷第５期智能系统学报Ｖｏｌ．１１ №．５２０１６年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０３０５０网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０８２４．０９２９．０１６．ｈｔｍｌ一种鲁棒的Ｍｕｌｔｉ⁃Ｅｇｏｃｅｎｔｒｉｃ视频中的多目标检测及匹配算法李龙１，尹辉１，２，许宏丽１，欧伟奇１（１．北京交通大学计算机与信息技术学院，北京１０００４４；２．北京交通大学交通数据分析与挖掘北京市重点实验室，北京１０００４４）摘要：针对视频中的背景变化剧烈、目标尺度差异明显和视角时变性强的特点，提出一种鲁棒的针对ｍｕｌｔｉ⁃ｅｇｏｃｅｎ⁃ ｔｒｉｃ视频的多目标检测及匹配算法。首先，构建基于ｂｏｏｓｔｉｎｇ方法的多目标检测模型对各视频序列中的显著目标进行粗检测，并提出一种基于局部相似度的区域优化算法对粗检测显著目标的轮廓进行优化，提高Ｅｇｏｃｅｎｔｒｉｃ视频中显著目标轮廓检测和定位的准确性。在显著目标检测基础上，对不同视角中的显著目标构建基于ＨＯＧ特征的ＳＶＭ分类器，实现多视角的多目标匹配。在ＰａｒｔｙＳｃｅｎｅ数据集上的实验验证了本文算法的有效性。关键词：Ｍｕｌｔｉ⁃Ｅｇｏｃｅｎｔｒｉｃ视频；多目标检测；多目标匹配中图分类号：ＴＰ３９１．４文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０５⁃０６１９⁃０８中文引用格式：李龙，尹辉，许宏丽，等．一种鲁棒的Ｍｕｌｔｉ⁃Ｅｇｏｃｅｎｔｒｉｃ视频中的多目标检测及匹配算法［Ｊ］．智能系统学报，２０１６，１１（５）：６１９⁃６２６．英文引用格式：ＬＩＬｏｎｇ，ＹＩＮＨｕｉ，ＸＵＨｏｎｇｌｉ，ｅｔａｌ．Ａｒｏｂｕｓｔｍｕｌｔｉ⁃ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｍｕｌｔｉ⁃ｅｇｏｃｅｎｔｒｉｃｖｉｄｅｏｓ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（５）：６１９⁃６２６．Ａｒｏｂｕｓｔｍｕｌｔｉ⁃ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｍｕｌｔｉ⁃ｅｇｏｃｅｎｔｒｉｃｖｉｄｅｏｓＬＩＬｏｎｇ１，ＹｉｎＨｕｉ１，２，ＸＵＨｏｎｇｌｉ１，ＯＵＷｅｉｑｉ１（１．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＢｅｉｊｉｎｇＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００４４，Ｃｈｉｎａ；２．ＢｅｉｊｉｎｇＫｅｙＬａｂｏｆＴｒａｎｓｐｏｒｔａｔｉｏｎＤａｔａＡｎａｌｙｓｉｓａｎｄＭｉｎｉｎｇ，ＢｅｉｊｉｎｇＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００４４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｉｎｔｈｉｓｐａｐｅｒ，ａｒｏｂｕｓｔｍｕｌｔｉ⁃ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍｆｏｒａｍｕｌｔｉ⁃ｅｇｏｃｅｎｔｒｉｃｖｉｄｅｏｉｓｐｒｏ⁃ ｐｏｓｅｄｂｙｃｏｎｓｉｄｅｒｉｎｇｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｍｕｌｔｉ⁃ｅｇｏｃｅｎｔｒｉｃｖｉｄｅｏｓ，ｆｏｒｅｘａｍｐｌｅ，ｓｕｄｄｅｎｃｈａｎｇｅｓｉｎｂａｃｋｇｒｏｕｎｄ，ａｎｄｖａｒｉａｂｌｅｔａｒｇｅｔｓｃａｌｅｓａｎｄｖｉｅｗｐｏｉｎｔｓ．Ｆｉｒｓｔ，ａｍｕｌｔｉ⁃ｔａｒｇｅｔｄｅｔｅｃｔｉｏｎｍｏｄｅｌｂａｓｅｄｏｎａｂｏｏｓｔｉｎｇｍｅｔｈｏｄｉｓｃｏｎ⁃ ｓｔｒｕｃｔｅｄ，ｔｏｒｏｕｇｈｌｙｄｅｔｅｃｔａｎｙｓａｌｉｅｎｔｏｂｊｅｃｔｓｉｎｔｈｅｖｉｄｅｏｆｒａｍｅｓ．Ｔｈｅｎａｎｏｐｔｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｌｏｃａｌｓｉｍｉｌａｒｉｔｙｉｓｐｒｏｐｏｓｅｄｆｏｒｏｐｔｉｍｉｚｉｎｇｔｈｅｓａｌｉｅｎｔ⁃ｏｂｊｅｃｔａｒｅａａｎｄｉｍｐｒｏｖｉｎｇｔｈｅａｃｃｕｒａｃｙｏｆｓａｌｉｅｎｔ⁃ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｌｏｃａｌｉｚａｔｉｏｎ．Ｆｉｎａｌｌｙ，ａＳＶＭｃｌａｓｓｉｆｉｅｒｂａｓｅｄｏｎＨＯＧｆｅａｔｕｒｅｓｉｓｔｒａｉｎｅｄｔｏｒｅａｌｉｚｅｍｕｌｔｉ⁃ｔａｒｇｅｔｍａｔｃｈｉｎｇｉｎｍｕｌｔｉ⁃ｅｇｏｃｅｎｔｒｉｃｖｉｄｅｏｓ．ＥｘｐｅｒｉｍｅｎｔｓｕｓｉｎｇＳｃｅｎｅＰａｒｔｙｄａｔａｓｅｔｓｓｈｏｗｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄ．Ｋｅｙｗｏｒｄｓ：ｍｕｌｔｉ⁃ｅｇｏｃｅｎｔｒｉｃｖｉｄｅｏ；ｍｕｌｔｉ⁃ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ；ｍｕｌｔｉ⁃ｏｂｊｅｃｔｍａｔｃｈｉｎｇ收稿日期：２０１６⁃０３⁃２０．网络出版日期：２０１６⁃０８⁃２４．基金项目：国家自然科学基金项目（６１４７２０２９，６１４７３０３１）．通信作者：李龙．Ｅ⁃ｍａｉｌ：ｈｙｉｎ＠ｄｊｐｕ．ｅｄｕ．ｃｎ．Ｅｇｏｃｅｎｔｒｉｃ视频是通过固定在拍摄者头、肩、手等部位或由拍摄者手持的穿戴式摄像机，在拍摄者自由运动过程中所拍摄的。Ｅｇｏｃｅｎｔｒｉｃ视频具有背景变化剧烈、目标尺度差异明显和视角时变性强的特点，同时存在拍摄视频不平顺、运动模糊、噪声大等问题，为基于此的计算机视觉任务带来极大的挑战。Ｍｕｌｔｉ⁃Ｅｇｏｃｅｎｔｒｉｃ视频是由处于同一场景中的多个个体所拍摄的不同视角、不同运动轨迹的视频，研究基于ｍｕｌｔｉ⁃ｅｇｏｃｅｎｔｒｉｃ视频的目标检测和匹配对于后续的场景理解等高级视觉任务具有重要的意义。由于场景的复杂性和运动的多样性，基于视频

·620 智能系统学报第11卷的显著目标检测一直都是计算机视觉研究领域的难分类器预测显著区域，但此类方法无法获得显著区点问题之一。基于单视角视频的目标检测主要有基域中成员的精确位置：Lin等[6在多个视频中利用于单帧图像通过特征提取训练目标检测器的方法，不同运动模式对成员做匹配，然后利用条件随机场如Pedro Felzenszwalb等I)提出的可变性组件模型寻找时空一致性最高的成员，即为当前最显著成员， (deformable part model,.DPM),基于目标成员的可变但此类方法需要每个成员同一时刻的动作具有差异形部位，结合边界敏感的方法挖掘负样本，训练隐性性：通过多个视频寻找匹配点利用透视图原理计算支持向量机(latent,SVM)分类器检测目标，但对于出多个成员的位置和姿态，如Hyun Soo Park等)通视频中距离镜头较远的目标有漏检的情况；Lubomir 过SM)方法，恢复三维场景及成员位置和姿态，实 Bourdev等2提出Poselet模型用带标注的三维人体现场景理解：利用多个视频间的相互运动关系进行动作关节点数据集训练SVM分类器，以检测人的成员检测，如Ryo Yonetani等[)利用一对成员互相头、躯干、背部等部位，该算法在清晰图像上取得较拍摄的视频，根据超像素分割单位区域的局部相对好的效果，但对于低质图像漏检率较高：利用时空特运动和全局运动信息搜索其中一个成员，但此方法征和表面特征相结合的训练方法，如Philippe 一次只能检测一个拍摄视频的成员面部。上述传统 Weinzaepfel)提出运动边模型(motion boundary, 的基于视频的显著目标检测方法大多基于固定视角 MB)将图像局部区域的颜色、光流以包的形式训练或视角微变的视频，而multi-egocentric视频中场景随机森林模型，得到的支持向量机(SVM)分类器可变化剧烈，目标运动稳定性低，如DPM)在视角变检测精确的目标边缘，但当目标无明显运动时，边缘换剧烈时的检测效果下降；Poselets[2算法在图像有检测结果不佳：基于多视角视频的目标检测利用多轻微运动模糊时的性能受到较大影响；Motion 个不同视角的监控视频跟踪目标，检测目标行为，如 Boundariest)算法在目标尺寸较小时出现漏检。基 KSusheel Kumar等提出的实时多视角视频跟踪算于此，本文提出了一种两步层进目标检测算法，将目法，应用在安全系统中。标检测分为粗检测阶段和细检测两阶段，从而提高 Egocentric视频的分析和处理是近年来的研究了基于Egocentric视频的目标检测的鲁棒性，并提热点之一，目前的研究主要集中于估计拍摄者所关出了multi-.egocentric视频中的目标匹配算法，实现注的显著区域，例如Hyun Soo Park[)提出利用群体了多视角多目标的匹配。算法流程图如图1。模式的几何关系得到成员交互关系，经训练后得到输入视频基于Boosting模型的目标粗检测粗检测检测及匹配结果输入相机1 匹配两基于空间位置关系的区域融合算法基于方进梯度相机2 标方图细检测测基于局部相似度的目标区域优化算法（显著目标）算法征的支相机3 向量机模 (非显著目标) (显著目标) 训练训练集输入相机 B.BB 图1 本文算法流程(n为相机个数，即视角数，B,i=1,2,…,11为目标编号) Fig.1 The framework of our method (n represents the number of camera,B,i=1,2,..,11 is target number)

的显著目标检测一直都是计算机视觉研究领域的难点问题之一。基于单视角视频的目标检测主要有基于单帧图像通过特征提取训练目标检测器的方法，如ＰｅｄｒｏＦｅｌｚｅｎｓｚｗａｌｂ等［１］提出的可变性组件模型（ｄｅｆｏｒｍａｂｌｅｐａｒｔｍｏｄｅｌ，ＤＰＭ），基于目标成员的可变形部位，结合边界敏感的方法挖掘负样本，训练隐性支持向量机（ｌａｔｅｎｔ，ＳＶＭ）分类器检测目标，但对于视频中距离镜头较远的目标有漏检的情况；ＬｕｂｏｍｉｒＢｏｕｒｄｅｖ等［２］提出Ｐｏｓｅｌｅｔ模型用带标注的三维人体动作关节点数据集训练ＳＶＭ分类器，以检测人的头、躯干、背部等部位，该算法在清晰图像上取得较好的效果，但对于低质图像漏检率较高；利用时空特征和表面特征相结合的训练方法，如ＰｈｉｌｉｐｐｅＷｅｉｎｚａｅｐｆｅｌ［３］提出运动边模型（ｍｏｔｉｏｎｂｏｕｎｄａｒｙ，ＭＢ）将图像局部区域的颜色、光流以包的形式训练随机森林模型，得到的支持向量机（ＳＶＭ）分类器可检测精确的目标边缘，但当目标无明显运动时，边缘检测结果不佳；基于多视角视频的目标检测利用多个不同视角的监控视频跟踪目标，检测目标行为，如ＫＳｕｓｈｅｅｌＫｕｍａｒ等［４］提出的实时多视角视频跟踪算法，应用在安全系统中。Ｅｇｏｃｅｎｔｒｉｃ视频的分析和处理是近年来的研究热点之一，目前的研究主要集中于估计拍摄者所关注的显著区域，例如ＨｙｕｎＳｏｏＰａｒｋ［５］提出利用群体模式的几何关系得到成员交互关系，经训练后得到分类器预测显著区域，但此类方法无法获得显著区域中成员的精确位置；Ｌｉｎ等［６］在多个视频中利用不同运动模式对成员做匹配，然后利用条件随机场寻找时空一致性最高的成员，即为当前最显著成员，但此类方法需要每个成员同一时刻的动作具有差异性；通过多个视频寻找匹配点利用透视图原理计算出多个成员的位置和姿态，如ＨｙｕｎＳｏｏＰａｒｋ等［５］通过ＳｆＭ［７］方法，恢复三维场景及成员位置和姿态，实现场景理解；利用多个视频间的相互运动关系进行成员检测，如ＲｙｏＹｏｎｅｔａｎｉ等［８］利用一对成员互相拍摄的视频，根据超像素分割单位区域的局部相对运动和全局运动信息搜索其中一个成员，但此方法一次只能检测一个拍摄视频的成员面部。上述传统的基于视频的显著目标检测方法大多基于固定视角或视角微变的视频，而ｍｕｌｔｉ⁃ｅｇｏｃｅｎｔｒｉｃ视频中场景变化剧烈，目标运动稳定性低，如ＤＰＭ［１］在视角变换剧烈时的检测效果下降；Ｐｏｓｅｌｅｔｓ［２］算法在图像有轻微运动模糊时的性能受到较大影响；ＭｏｔｉｏｎＢｏｕｎｄａｒｉｅｓ［３］算法在目标尺寸较小时出现漏检。基于此，本文提出了一种两步层进目标检测算法，将目标检测分为粗检测阶段和细检测两阶段，从而提高了基于Ｅｇｏｃｅｎｔｒｉｃ视频的目标检测的鲁棒性，并提出了ｍｕｌｔｉ⁃ｅｇｏｃｅｎｔｒｉｃ视频中的目标匹配算法，实现了多视角多目标的匹配。算法流程图如图１。图１本文算法流程（ｎ为相机个数，即视角数，βｉ，ｉ＝１，２，…，１１为目标编号）Ｆｉｇ．１Ｔｈｅｆｒａｍｅｗｏｒｋｏｆｏｕｒｍｅｔｈｏｄ（ｎｒｅｐｒｅｓｅｎｔｓｔｈｅｎｕｍｂｅｒｏｆｃａｍｅｒａ， βｉ，ｉ＝１，２，…，１１ｉｓｔａｒｇｅｔｎｕｍｂｅｒ） ·６２０· 智能系统学报第１１卷

第5期李龙，等：一种鲁棒的Muli-Egocentrie视频中的多目标检测及匹配算法 ·621. 1两步层进目标检测算法 m为检测器个数，K:表示第i个检测器，则第i个检测器针对图像f的检测结果用集合来表示，且两步层进目标检测算法的主要思想是首先粗略 B={bIk=1,2,…,},其中为检测器K在图像定位目标位置，其次优化目标区域。算法分为两步： f上检测出的目标个数，=[]，、第1步是基于Boosting)模型的目标粗定位方法，、分别表示的左上角x坐标、左上角y坐融合多个检测器结果，最大限度覆盖目标区域，此种标、右下角x坐标、右下角y坐标、表示为显著方法在一定程度上克服了Egocentric视频背景变化目标的概率，且∈(0,1)，则所有检测器对图像f 剧烈、目标尺度差异明显和视角时变性强等特点导致的检测结果不完整、漏检、错检等问题，提高了算的检测结果为B以=UB。本文取m=4,分别为Mo i=1 法的鲁棒性：第2步采用基于局部相似度的区域优化 tion Boundaries](MB)算法、DPM)算法、Pose- 方法对目标轮廓进行优化，得到更精确的目标区域。 lets[2算法和空间金字塔池化(sptial pyramid poo- 1.1基于Boosting模型的目标粗检测算法 ling,SPP Net)[o算法。算法流程如图2所示，图设输入的Egocentric视频集合为山={c,Il=1, 中Color表示仅用颜色特征：ColorFlow采用颜色和 2,…,n},其中n为视频个数，c表示第l个相机拍光流特征；Color Flow Warping采用颜色、光流以及摄的视频，则第l个视频的第j帧图像表示为f。假形变特征，而Color Flow Warping Backward增加了反设有一系列目标检测器={K:i=1,2,…,m,其中向特征。 Color ColorFlow ColorFlowWarping ColorFlowWarpingBackwardo 输入图像目标检测结果基于空间位置关系的区域融合目标候选区域图2基于boosting模型的目标粗检测算法流程 Fig.2 Object detection based on boosting model 在以上的检测算法中设置较低的检测阈值，可的显著目标候选区域集合B以，b=[xyxys],b∈B 获得较多的目标候选区域，当然其中包含大量的冗作为算法输入。余结果。根据目标候选区的空间位置关系进行区域 2)计算每个显著目标候选区域b:的面积S:= 融合得到目标粗检测结果。具体算法如下： Iy:-y:1×1x,-x:I,保留中满足S:>01的显著目标算法1基于空间位置关系的区域融合算法候选区域，其中日，为阈值。 1)由基于boosting模型的目标粗检测算法得到 3)搜索B中有重叠的任意2个显著目标候选

１两步层进目标检测算法两步层进目标检测算法的主要思想是首先粗略定位目标位置，其次优化目标区域。算法分为两步：第１步是基于Ｂｏｏｓｔｉｎｇ［９］模型的目标粗定位方法，融合多个检测器结果，最大限度覆盖目标区域，此种方法在一定程度上克服了Ｅｇｏｃｅｎｔｒｉｃ视频背景变化剧烈、目标尺度差异明显和视角时变性强等特点导致的检测结果不完整、漏检、错检等问题，提高了算法的鲁棒性；第２步采用基于局部相似度的区域优化方法对目标轮廓进行优化，得到更精确的目标区域。１．１基于Ｂｏｏｓｔｉｎｇ模型的目标粗检测算法设输入的Ｅｇｏｃｅｎｔｒｉｃ视频集合为 ψ ＝｛ｃｌ｜ｌ＝１，２，…，ｎ｝，其中ｎ为视频个数，ｃｌ表示第ｌ个相机拍摄的视频，则第ｌ个视频的第ｊ帧图像表示为ｆｊｌ。假设有一系列目标检测器 ξ ＝｛κｉ｜ｉ＝１，２，…，ｍ｝，其中ｍ为检测器个数，κｉ表示第ｉ个检测器，则第ｉ个检测器针对图像ｆｊｌ的检测结果用集合Ｂｊｌｉ来表示，且Ｂｊｌｉ＝｛ｂｊｋｌｉ｜ｋ＝１，２，…，ｚｊｌｉ｝，其中ｚｊｌｉ为检测器 κｉ在图像ｆｊｌ上检测出的目标个数，ｂｊｋｌｉ＝［ｘｊｋｌｉｙｊｋｌｉｘ～ｊｋｌｉｙ～ｊｋｌｉｓｊｋｌｉ］，ｘｊｋｌｉ、ｙｊｋｌｉ、ｘ～ｊｋｌｉ、ｙ～ｊｋｌｉ分别表示ｂｊｋｌｉ的左上角ｘ坐标、左上角ｙ坐标、右下角ｘ坐标、右下角ｙ坐标、ｓｊｋｌｉ表示ｂｊｋｌｉ为显著目标的概率，且ｓｊｋｌｉ∈（０，１），则所有检测器对图像ｆｊｌ的检测结果为Ｂｊｌ＝∪ ｍｉ＝１Ｂｊｌｉ。本文取ｍ＝４，分别为Ｍｏ⁃ ｔｉｏｎＢｏｕｎｄａｒｉｅｓ［３］（ＭＢ）算法、ＤＰＭ［１］算法、Ｐｏｓｅ⁃ ｌｅｔｓ［２］算法和空间金字塔池化（ｓｐｔｉａｌｐｙｒａｍｉｄｐｏｏ⁃ ｌｉｎｇ，ＳＰＰＮｅｔ）［１０］算法。算法流程如图２所示，图中Ｃｏｌｏｒ表示仅用颜色特征：ＣｏｌｏｒＦｌｏｗ采用颜色和光流特征；ＣｏｌｏｒＦｌｏｗＷａｒｐｉｎｇ采用颜色、光流以及形变特征，而ＣｏｌｏｒＦｌｏｗＷａｒｐｉｎｇＢａｃｋｗａｒｄ增加了反向特征。图２基于ｂｏｏｓｔｉｎｇ模型的目标粗检测算法流程Ｆｉｇ．２Ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎｂｏｏｓｔｉｎｇｍｏｄｅｌ在以上的检测算法中设置较低的检测阈值，可获得较多的目标候选区域，当然其中包含大量的冗余结果。根据目标候选区的空间位置关系进行区域融合得到目标粗检测结果。具体算法如下：算法１基于空间位置关系的区域融合算法１）由基于ｂｏｏｓｔｉｎｇ模型的目标粗检测算法得到的显著目标候选区域集合Ｂｊｌ，ｂ＝［ｘｙｘ～ｙ～ｓ］，ｂ∈Ｂｊｌ作为算法输入。２）计算每个显著目标候选区域ｂｉ的面积Ｓｉ＝｜ｙｉ－ｙ～ｉ｜ × ｜ｘｉ－ｘ～ｉ｜，保留Ｂｊｌ中满足Ｓｉ＞θ１的显著目标候选区域，其中 θ１为阈值。３）搜索Ｂｉｌ中有重叠的任意２个显著目标候选第５期李龙，等：一种鲁棒的Ｍｕｌｔｉ⁃Ｅｇｏｃｅｎｔｒｉｃ视频中的多目标检测及匹配算法 ·６２１·

·622 智能系统学报第11卷区域b:,;计算其重叠面积Sn。如果Sn>82,其 H(p:)=1,P:∈边界超像素 (2) 中0，为阈值，则根据式(1)更新显著目标区域并删 H(P:)=0,P:∈非边界超像素除队中面积较小的那个显著目标候选区域对任意超像素p:,计算其属于显著目标可能性为 fb:=[min(x:,x)min(yy)max(元：，)max(:,）s+ D(p:)= （ω中.（P:P)+w.(p:,P)）·H(P) s],S:>S i=1*i (3) b=[min(x:,x）min(y:y)max(元：，x)max(y:,y)s:+ 式中：山(P:P)表示超像素P:和p的颜色相似度， si],S;>S: 由颜色直方图特征向量的k2距离确定，中(P:,P)表 (1) 示超像素P:和P,之间的运动相似度，由光流模直方 4)重复执行3)，直至无重叠的显著目标候选区图特征向量的K2距离确定，ω。和ω。为权值。域，算法结束。计算所有超像素的显著目标可能性后，保留 1.2基于局部相似度的目标区域优化算法超像素集合P中D(P:)≥0，(0，为阈值)的超像由基于空间位置关系的区域融合算法得到融合素P:,从而得到优化后的显著目标区域，基于局后的显著目标区域中包含了较多的非目标区域，为部相似度的D计算式(3)的区域优化算法示意了更精确地检测目标区域，本文提出基于局部相似如图3。度的区域优化算法对目标区域进行进一步的优化。由于，经过两步层进目标检测后，得到了各个视首先对显著目标区域b∈B进行超像素分割，得超角的Egocentric视频每帧中的显著目标检测结果，像素集合P={p,|i=1,2,…,n},由超像素空间位置下面将对各个视角中的显著目标进行匹配。设置超像素的边界属性： D(p) D(p.) D(p,) 区域优化 (Dp)≥0) 粗检测结果 D(p) 局部相似度计算显著目标区域b 超像素分割区域优化后的目标区域图3基于局部相似度的区域优化算法 Fig.3 Bounding box area optimization based on local similarity 2基于HOG特征的目标匹配算法 (HOG),并将不同level的直方图特征连接起来组成特征向量，：为了实现muli-egocentric中的多目标匹配，首 4)最后将'，和B,输入SVM分类器中进行先对数据集中关键帧的显著目标进行人工标注得到训练显著目标区域h,以及对应目标编号B,构建训练集 5)重复执行3)、4)直到所有显著目标区域训练 H={(hnBn)1m=1,2,…,Q:Bn∈{0,1，…，Q},其完毕，输出SVM目标匹配模型。基于HOG特征的目标匹配分类器训练流程如中Q为标注的目标个数，Q为目标分类数。基于图4所示。 HOG特征的目标匹配算法如下：由两步层进法检测得到多视角的显著目标后，算法2基于H0G特征的目标匹配算法基于HOG特征的目标匹配分类器实现多视角中多 1)输入H={(hn,Bn)17=1,2,…,Q,B,∈{0，目标的匹配流程如图5所示。 1,…,Q}作为输入： 3实验结果 2)初始化sVM分类器参数，bins以及level;: 3)将h,按不同level划分为固定大小的矩形为了验证本文算法的有效性，采用Hyun Soo 块：在每一个矩形块上统计梯度向量直方图 Park[)的Party Scene数据集进行目标检测和目标

区域ｂｉ，ｂｊ；计算其重叠面积Ｓｂｉ∩ｂｊ。如果Ｓｂｉ∩ｂｊ＞θ２，其中 θ２为阈值，则根据式（１）更新显著目标区域并删除Ｂｊｅ中面积较小的那个显著目标候选区域ｂｉ＝［ｍｉｎ（ｘｉ，ｘｊ）ｍｉｎ（ｙｉ，ｙｊ）ｍａｘ（ｘ～ｉ，ｘ～ｊ）ｍａｘ（ｙ～ｉ，ｙ～ｊ）ｓｉ＋ｓｊ］，Ｓｉ＞Ｓｊｂｊ＝［ｍｉｎ（ｘｉ，ｘｊ）ｍｉｎ（ｙｉ，ｙｊ）ｍａｘ（ｘ～ｉ，ｘ～ｊ）ｍａｘ（ｙ～ｉ，ｙ～ｊ）ｓｉ＋ｓｊ］，Ｓｊ＞Ｓｉ ì î í ï ï ï ï ïï （１）４）重复执行３），直至无重叠的显著目标候选区域，算法结束。１．２基于局部相似度的目标区域优化算法由基于空间位置关系的区域融合算法得到融合后的显著目标区域中包含了较多的非目标区域，为了更精确地检测目标区域，本文提出基于局部相似度的区域优化算法对目标区域进行进一步的优化。首先对显著目标区域ｂ∈Ｂｉｌ进行超像素分割，得超像素集合Ｐ＝｛ｐｉ｜ｉ＝１，２，…，ｎ｝，由超像素空间位置设置超像素的边界属性：Ｈ（ｐｉ）＝１，ｐｉ ∈ 边界超像素Ｈ（ｐｉ）＝０，ｐ { ｉ ∈ 非边界超像素（２）对任意超像素ｐｉ，计算其属于显著目标可能性为Ｄ（ｐｉ）＝ ∑ ｎｊ＝１，ｊ≠ｉ（ωａψａ（ｐｉ，ｐｊ）＋ ωｏψｏ（ｐｉ，ｐｊ））·Ｈ（ｐｉ）（３）式中：ψａ（ｐｉ，ｐｊ）表示超像素ｐｉ和ｐｊ的颜色相似度，由颜色直方图特征向量的 κ ２距离确定，ψｏ（ｐｉ，ｐｊ）表示超像素ｐｉ和ｐｊ之间的运动相似度，由光流模直方图特征向量的 κ ２距离确定，ωａ和 ωｏ为权值。计算所有超像素的显著目标可能性后，保留超像素集合Ｐ中Ｄ（ｐｉ） ≥θ３（ θ３为阈值）的超像素ｐｉ，从而得到优化后的显著目标区域，基于局部相似度的Ｄ计算式（３）的区域优化算法示意如图３。由于，经过两步层进目标检测后，得到了各个视角的Ｅｇｏｃｅｎｔｒｉｃ视频每帧中的显著目标检测结果，下面将对各个视角中的显著目标进行匹配。图３基于局部相似度的区域优化算法Ｆｉｇ．３Ｂｏｕｎｄｉｎｇｂｏｘａｒｅａｏｐｔｉｍｉｚａｔｉｏｎｂａｓｅｄｏｎｌｏｃａｌｓｉｍｉｌａｒｉｔｙ２基于ＨＯＧ特征的目标匹配算法为了实现ｍｕｌｔｉ⁃ｅｇｏｃｅｎｔｒｉｃ中的多目标匹配，首先对数据集中关键帧的显著目标进行人工标注得到显著目标区域ｈη 以及对应目标编号 βη 构建训练集Ｈ＝｛（ｈη ，βη ）｜ η ＝１，２，…，Ｑ；βη∈｛０，１，…，Ｑ～｝｝，其中Ｑ为标注的目标个数，Ｑ～为目标分类数。基于ＨＯＧ特征的目标匹配算法如下：算法２基于ＨＯＧ特征的目标匹配算法１）输入Ｈ＝｛（ｈη ，βη ）｜ η ＝１，２，…，Ｑ，βη∈｛０，１，…，Ｑ～｝｝作为输入；２）初始化ＳＶＭ分类器参数，ｂｉｎｓ以及ｌｅｖｅｌ；３）将ｈη 按不同ｌｅｖｅｌ划分为固定大小的矩形块；在每一个矩形块上统计梯度向量直方图（ＨＯＧ），并将不同ｌｅｖｅｌ的直方图特征连接起来组成特征向量ｖη ；４）最后将ｖη 和 βη 输入ＳＶＭ分类器中进行训练；５）重复执行３）、４）直到所有显著目标区域训练完毕，输出ＳＶＭ目标匹配模型。基于ＨＯＧ特征的目标匹配分类器训练流程如图４所示。由两步层进法检测得到多视角的显著目标后，基于ＨＯＧ特征的目标匹配分类器实现多视角中多目标的匹配流程如图５所示。３实验结果为了验证本文算法的有效性，采用ＨｙｕｎＳｏｏＰａｒｋ［３］的ＰａｒｔｙＳｃｅｎｅ数据集进行目标检测和目标 ·６２２· 智能系统学报第１１卷

第5期李龙，等：一种鲁棒的Muli-Egocentrie视频中的多目标检测及匹配算法 ·623· 匹配实验。该multi-egocentric数据集进行目标检测到或只能部分检测到目标，如图6中第1行、第3 和目标匹配实验。该数据集包括来自11个相机的列，检测结果中漏检了目标的手部：而Poselets算法第一视角视频数据，并且是同时拍摄同一场景得到首先检测目标部位，再根据目标种类的不同合并符的。每个视频共8640帧，经同步后每个视频共合模式的部位检测结果，因此检测结果中会产生 8566帧，本文取前914帧中的目标样本做手工标些孤立的部位检测结果，降低了检测结果的精度，如注，作为训练集：另选取50帧作为测试集，其包含没图6中Poselets列所示；由Egocentric视频视角时变有任何目标个体的帧。本文的目标检测算法与性导致的像第3行这样的拍摄角度不正的图像非常 MB、DPM、SPP Net、Poselets算法结果对比如图6所常见，而SPPNet、DPM算法对此种图像会有显著目示。SPP Net、DPM算法在随机窗口中搜索窗口包标漏检的情况。本文算法在粗检测过程中综合了以含目标概率最高的框，因此搜索结果可能不会完全上算法优势，并基于空间位置进行了区域融合，从而覆盖目标区域，但相对准确，这也使得检测的显著目有效地避免了egocentric视频中目标尺度、运动差异标轮廓不完整，如图6中第1行、第2行所示；MB算较大而引起的漏检问题，而基于局部相似度的区域法主要通过目标的运动信息检测目标边缘，但Eg0 优化能很好地排除复杂背景的影响，因而具有较强 centric视频中的运动相对复杂，尤其是当目标运动的鲁棒性。本文算法的显著目标检测结果如图6中不显著或目标只有局部运动时，MB算法无法检测第1列所示。标注相机1 标注 SVM分类器相机2 HOG特征提取训练 BB 标注目标匹配模型相机n 数据标注区域剪栽图4基于H0G特征的目标匹配分类器训练流程(B,i=1,2,“,)表示目标编号) Fig.4 Object classification model training based on HOG feature(B,i=1,2,represents match number of target region) HOG特征提取目标匹配模型两步层进目标检测结果区域剪裁目标匹配结果图5多视角多目标匹配算法流程(B,i=1,2,…,)表示显著目标区域匹配编号) Fig.5 Multi-view and multi-object matching algorithm (B,,i=1,2,...,n represents match number of match target region)

匹配实验。该ｍｕｌｔｉ⁃ｅｇｏｃｅｎｔｒｉｃ数据集进行目标检测和目标匹配实验。该数据集包括来自１１个相机的第一视角视频数据，并且是同时拍摄同一场景得到的。每个视频共８６４０帧，经同步后每个视频共８５６６帧，本文取前９１４帧中的目标样本做手工标注，作为训练集；另选取５０帧作为测试集，其包含没有任何目标个体的帧。本文的目标检测算法与ＭＢ、ＤＰＭ、ＳＰＰＮｅｔ、Ｐｏｓｅｌｅｔｓ算法结果对比如图６所示。ＳＰＰＮｅｔ、ＤＰＭ算法在随机窗口中搜索窗口包含目标概率最高的框，因此搜索结果可能不会完全覆盖目标区域，但相对准确，这也使得检测的显著目标轮廓不完整，如图６中第１行、第２行所示；ＭＢ算法主要通过目标的运动信息检测目标边缘，但Ｅｇｏ⁃ ｃｅｎｔｒｉｃ视频中的运动相对复杂，尤其是当目标运动不显著或目标只有局部运动时，ＭＢ算法无法检测到或只能部分检测到目标，如图６中第１行、第３列，检测结果中漏检了目标的手部；而Ｐｏｓｅｌｅｔｓ算法首先检测目标部位，再根据目标种类的不同合并符合模式的部位检测结果，因此检测结果中会产生一些孤立的部位检测结果，降低了检测结果的精度，如图６中Ｐｏｓｅｌｅｔｓ列所示；由Ｅｇｏｃｅｎｔｒｉｃ视频视角时变性导致的像第３行这样的拍摄角度不正的图像非常常见，而ＳＰＰＮｅｔ、ＤＰＭ算法对此种图像会有显著目标漏检的情况。本文算法在粗检测过程中综合了以上算法优势，并基于空间位置进行了区域融合，从而有效地避免了ｅｇｏｃｅｎｔｒｉｃ视频中目标尺度、运动差异较大而引起的漏检问题，而基于局部相似度的区域优化能很好地排除复杂背景的影响，因而具有较强的鲁棒性。本文算法的显著目标检测结果如图６中第１列所示。图４基于ＨＯＧ特征的目标匹配分类器训练流程（βｉ，ｉ＝１，２，…，η 表示目标编号）Ｆｉｇ．４ＯｂｊｅｃｔｃｌａｓｓｉｆｉｃａｔｉｏｎｍｏｄｅｌｔｒａｉｎｉｎｇｂａｓｅｄｏｎＨＯＧｆｅａｔｕｒｅ（βｉ，ｉ＝１，２，…，ηｒｅｐｒｅｓｅｎｔｓｍａｔｃｈｎｕｍｂｅｒｏｆｔａｒｇｅｔｒｅｇｉｏｎ）图５多视角多目标匹配算法流程（βｉ，ｉ＝１，２，…，η 表示显著目标区域匹配编号）Ｆｉｇ．５Ｍｕｌｔｉ⁃ｖｉｅｗａｎｄｍｕｌｔｉ⁃ｏｂｊｅｃｔｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍ（βｉ，ｉ＝１，２，…，η ｒｅｐｒｅｓｅｎｔｓｍａｔｃｈｎｕｍｂｅｒｏｆｍａｔｃｈｔａｒｇｅｔｒｅｇｉｏｎ）第５期李龙，等：一种鲁棒的Ｍｕｌｔｉ⁃Ｅｇｏｃｅｎｔｒｉｃ视频中的多目标检测及匹配算法 ·６２３·

图６本文方法与ＤＰＭ、ＳＰＰＮｅｔ、Ｐｏｓｅｌｅｔｓ算法结果对比图（Ｏｕｒｓ列为本文方法的检测结果，图中椭圆框中为算法漏检或错检的区域）Ｆｉｇ．６ＣｏｍｐａｒｉｓｏｎｏｆｏｕｒｍｅｔｈｏｄｗｉｔｈＤＰＭ、ＳＰＰＮｅｔａｎｄＰｏｓｅｌｅｔｓ（ｍｉｓｓｉｎｇｏｒｗｒｏｎｇｄｅｔｅｃｔｉｏｎａｒｅａｓａｒｅｉｎｅｌｌｉｐｓｅｂｏｘｅｓ）本文提出的基于ＨＯＧ特征的多目标匹配算法实验结果如图７所示，可以看出，在大多数情况下，本文提出的算法能够有效地匹配多视角中的多个目标。但是当视频视角变化较大时，目标姿态不正，从而导致目标匹配失败，究其原因，因为训练是通过人工标注的包含目标的矩形框来完成的，从而导致训练样例包含更多的非目标区域给匹配结果的正确性带来影响，造成匹配结果不准确，如图７中第３列的目标１和第４列的目标７；另外，由于提取特征时是通过将显著目标区域分成固定尺寸的ｂｉｎｓ（子块），因此当显著目标区域较小时，所划分的ｂｉｎｓ（子块）也就很少，提取的特征也就不显著，因此会出现结果错误，如图７中第１列的目标２、５、３。最后，本文采用Ｆ⁃ｍｅａｓｕｒｅ方法评价目标检测算法。查准率和查全率的计算为Ｐ＝ ∑ ｎｉ＝１Ｓｉ ∩ ＧｉＳｉＲ＝ ∑ ｎｉ＝１Ｓｉ ∩ ＧｉＧｉ（４）式中：Ｓｉ为目标检测算法检测的目标区域像素数，Ｇｉ为人工标注的目标区域像素数，ｎ为目标数。则Ｆ⁃ｍｅａｓｕｒｅ为Ｆ＝２ＰＲＰ＋Ｒ（５）目标匹配正确率的计算为Ａ＝匹配正确的目标数目标总数（６）本文提出的鲁棒的ｍｕｌｔｉ⁃ｅｇｏｃｅｎｔｒｉｃ视频中的目标检测和目标匹配算法在整个数据集上的检测结果如表１所示。 ·６２４· 智能系统学报第１１卷

第5期李龙，等：一种鲁棒的Muli-Egocentric视频中的多目标检测及匹配算法 ·625· C1F914 C9F5577 C6F5044 C11F4772 C5F188 图7本文基于HOG特征的显著目标匹配算法结果和Ground-Truth对比图 Fig.7 Comparison of Ground-Truth and object matching results of our method 表I在Party Scene数据集上的实验结果对比 discriminatively trained,multiscale,deformable part model Table 1 Comparison of experimental results on Scene Par- [C]//Proceedings of IEEE Conference on Computer Vision ty data sets and Pattern Recognition.Anchorage,AK:IEEE,2008:1-8. 目标 R [2]BOURDEV L,MALIK J.Poselets:body part detectors trained using 3d human pose annotations[C]//Proceedings 显著目标 0.77 0.61 0.68 0.61 of the 2009 IEEE 12th International Conference on Comput- 所有目标 0.28 0.39 0.33 0.21 er Vision.Kyoto:IEEE,2009:1365-1372. [3]WEINZAEPFEL P,REVAUD J,HARCHAOUI Z,et al. 4结束语 Learning to detect motion boundaries C]//Proceedings of 本文对multi-egocentric视频中的多目标检测和 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA:IEEE,2015:2578-2586 匹配进行了研究，提出了基于boosting和局部相似 [4]KUMAR K S,PRASAD S,SAROJ P K,et al.Multiple 度的两步层进目标检测算法，综合多种检测模型的 cameras using real time object tracking for surveillance and 优势以克服Egocentric视频中目标尺度差异明显和 security system[C]//Proceedings of the 2010 3rd Interna- 视角时变性强给检测带来的干扰。在显著目标检测 tional Conference on Emerging Trends in Engineering and 基础上，对不同视角中的显著目标构建基于HOG特 Technology.Goa:IEEE,2010:213-218. 征的SVM分类器，实现多视角的多目标匹配，为后 [5]SOO PARK H,SHI Jianbo.Social saliency prediction 期的群体分析、场景理解等高级视觉任务提供了前 [C]//Proceedings of the IEEE Conference on Computer 期基础。muli-egocentric视频的处理和分析是一个 Vision and Pattern Recognition.Boston,MA:IEEE, 极具挑战的研究课题，在后续的研究工作中，将进一 2015:4777-4785. 步考虑融合局部相似度和全局相似度的显著目标区 [6]LIN Yuewei,ABDELFATAH K,ZHOU Youjie,et al.Co- 域检测方法，同时多视角之间的运动关联和目标自 interest person detection from multiple wearable camera vid- 运动轨迹也是多视角视频分析中的重要线索。 eos[C]//Proceedings of the IEEE International Conference 参考文献： on Computer Vision.Santiago:IEEE,2015:4426-4434. [7]SNAVELY N,SEITZ S M,SZELISKI R.Photo tourism: [1]FELZENSZWALB P,MCALLESTER D,RAMANAN D.A exploring photo collections in 3D[J].ACM transactions on

图７本文基于ＨＯＧ特征的显著目标匹配算法结果和Ｇｒｏｕｎｄ⁃Ｔｒｕｔｈ对比图Ｆｉｇ．７ＣｏｍｐａｒｉｓｏｎｏｆＧｒｏｕｎｄ⁃Ｔｒｕｔｈａｎｄｏｂｊｅｃｔｍａｔｃｈｉｎｇｒｅｓｕｌｔｓｏｆｏｕｒｍｅｔｈｏｄ表１在ＰａｒｔｙＳｃｅｎｅ数据集上的实验结果对比Ｔａｂｌｅ１ＣｏｍｐａｒｉｓｏｎｏｆｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｎＳｃｅｎｅＰａｒ⁃ ｔｙｄａｔａｓｅｔｓ目标ＰＲＦＡ显著目标０．７７０．６１０．６８０．６１所有目标０．２８０．３９０．３３０．２１４结束语本文对ｍｕｌｔｉ⁃ｅｇｏｃｅｎｔｒｉｃ视频中的多目标检测和匹配进行了研究，提出了基于ｂｏｏｓｔｉｎｇ和局部相似度的两步层进目标检测算法，综合多种检测模型的优势以克服Ｅｇｏｃｅｎｔｒｉｃ视频中目标尺度差异明显和视角时变性强给检测带来的干扰。在显著目标检测基础上，对不同视角中的显著目标构建基于ＨＯＧ特征的ＳＶＭ分类器，实现多视角的多目标匹配，为后期的群体分析、场景理解等高级视觉任务提供了前期基础。ｍｕｌｔｉ⁃ｅｇｏｃｅｎｔｒｉｃ视频的处理和分析是一个极具挑战的研究课题，在后续的研究工作中，将进一步考虑融合局部相似度和全局相似度的显著目标区域检测方法，同时多视角之间的运动关联和目标自运动轨迹也是多视角视频分析中的重要线索。参考文献：［１］ＦＥＬＺＥＮＳＺＷＡＬＢＰ，ＭＣＡＬＬＥＳＴＥＲＤ，ＲＡＭＡＮＡＮＤ．Ａｄｉｓｃｒｉｍｉｎａｔｉｖｅｌｙｔｒａｉｎｅｄ，ｍｕｌｔｉｓｃａｌｅ，ｄｅｆｏｒｍａｂｌｅｐａｒｔｍｏｄｅｌ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ａｎｃｈｏｒａｇｅ，ＡＫ：ＩＥＥＥ，２００８：１⁃８．［２］ＢＯＵＲＤＥＶＬ，ＭＡＬＩＫＪ．Ｐｏｓｅｌｅｔｓ：ｂｏｄｙｐａｒｔｄｅｔｅｃｔｏｒｓｔｒａｉｎｅｄｕｓｉｎｇ３ｄｈｕｍａｎｐｏｓｅａｎｎｏｔａｔｉｏｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００９ＩＥＥＥ１２ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔ⁃ ｅｒＶｉｓｉｏｎ．Ｋｙｏｔｏ：ＩＥＥＥ，２００９：１３６５⁃１３７２．［３］ＷＥＩＮＺＡＥＰＦＥＬＰ，ＲＥＶＡＵＤＪ，ＨＡＲＣＨＡＯＵＩＺ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｔｏｄｅｔｅｃｔｍｏｔｉｏｎｂｏｕｎｄａｒｉｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１５ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｂｏｓｔｏｎ，ＭＡ：ＩＥＥＥ，２０１５：２５７８⁃２５８６．［４］ＫＵＭＡＲＫＳ，ＰＲＡＳＡＤＳ，ＳＡＲＯＪＰＫ，ｅｔａｌ．Ｍｕｌｔｉｐｌｅｃａｍｅｒａｓｕｓｉｎｇｒｅａｌｔｉｍｅｏｂｊｅｃｔｔｒａｃｋｉｎｇｆｏｒｓｕｒｖｅｉｌｌａｎｃｅａｎｄｓｅｃｕｒｉｔｙｓｙｓｔｅｍ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１０３ｒｄＩｎｔｅｒｎａ⁃ ｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＥｍｅｒｇｉｎｇＴｒｅｎｄｓｉｎＥｎｇｉｎｅｅｒｉｎｇａｎｄＴｅｃｈｎｏｌｏｇｙ．Ｇｏａ：ＩＥＥＥ，２０１０：２１３⁃２１８．［５］ＳＯＯＰＡＲＫＨ，ＳＨＩＪｉａｎｂｏ．Ｓｏｃｉａｌｓａｌｉｅｎｃｙｐｒｅｄｉｃｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｂｏｓｔｏｎ，ＭＡ：ＩＥＥＥ，２０１５：４７７７⁃４７８５．［６］ＬＩＮＹｕｅｗｅｉ，ＡＢＤＥＬＦＡＴＡＨＫ，ＺＨＯＵＹｏｕｊｉｅ，ｅｔａｌ．Ｃｏ⁃ ｉｎｔｅｒｅｓｔｐｅｒｓｏｎｄｅｔｅｃｔｉｏｎｆｒｏｍｍｕｌｔｉｐｌｅｗｅａｒａｂｌｅｃａｍｅｒａｖｉｄ⁃ ｅｏｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｓａｎｔｉａｇｏ：ＩＥＥＥ，２０１５：４４２６⁃４４３４．［７］ＳＮＡＶＥＬＹＮ，ＳＥＩＴＺＳＭ，ＳＺＥＬＩＳＫＩＲ．Ｐｈｏｔｏｔｏｕｒｉｓｍ：ｅｘｐｌｏｒｉｎｇｐｈｏｔｏｃｏｌｌｅｃｔｉｏｎｓｉｎ３Ｄ［Ｊ］．ＡＣＭｔｒａｎｓａｃｔｉｏｎｓｏｎ第５期李龙，等：一种鲁棒的Ｍｕｌｔｉ⁃Ｅｇｏｃｅｎｔｒｉｃ视频中的多目标检测及匹配算法 ·６２５·

ｇｒａｐｈｉｃｓ（ＴＯＧ），２００６，２５（３）：８３５⁃８４６．［８］ＹＯＮＥＴＡＮＩＲ，ＫＩＴＡＮＩＫＭ，ＳＡＴＯＹ．Ｅｇｏ⁃ｓｕｒｆｉｎｇｆｉｒｓｔｐｅｒｓｏｎｖｉｄｅｏｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１５ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｂｏｓｔｏｎ，ＭＡ：ＩＥＥＥ，２０１５：５４４５⁃５４５４．［９］ＦＲＥＵＮＤＹ，ＳＣＨＡＰＩＲＥＲ．Ａｓｈｏｒｔｉｎｔｒｏｄｕｃｔｉｏｎｔｏｂｏｏｓｔｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＪａｐａｎｅｓｅｓｏｃｉｅｔｙｆｏｒａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ，１９９９，１４（５）：７７１⁃７８０．［１０］ＨＥＫａｉｍｉｎｇ，ＺＨＡＮＧＸｉａｎｇｙｕ，ＲＥＮＳｈａｏｑｉｎｇ，ｅｔａｌ．Ｓｐａｔｉａｌｐｙｒａｍｉｄｐｏｏｌｉｎｇｉｎｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｖｉｓｕａｌｒｅｃｏｇｎｉｔｉｏｎ［Ｍ］／／ＦＬＥＥＴＤ，ＰＡＪＤＬＡＴ，ＳＣＨＩＥＬＥＢ，ｅｔａｌ．ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ⁃ＥＣＣＶ２０１４．Ｓｗｉｔｚｅｒ⁃ ｌａｎｄ：ＳｐｒｉｎｇｅｒＩｎｔｅｒｎａｔｉｏｎａｌＰｕｂｌｉｓｈｉｎｇ，２０１４：３４６⁃３６１．［１１］ＬＡＺＥＢＮＩＫＳ，ＳＣＨＭＩＤＣ，ＰＯＮＣＥＪ．Ｂｅｙｏｎｄｂａｇｓｏｆｆｅａ⁃ ｔｕｒｅｓ：ｓｐａｔｉａｌｐｙｒａｍｉｄｍａｔｃｈｉｎｇｆｏｒｒｅｃｏｇｎｉｚｉｎｇｎａｔｕｒａｌｓｃｅｎｅｃａｔｅｇｏｒｉｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２００６ＩＥＥＥＣｏｍｐｕｔ⁃ ｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ：ＩＥＥＥ，２００６，２：２１６９⁃２１７８．［１２］ＢＵＲＧＥＳＣＪＣ．Ａｔｕｔｏｒｉａｌｏｎｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓｆｏｒｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．Ｄａｔａｍｉｎｉｎｇａｎｄｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖ⁃ ｅｒｙ，１９９８，２（２）：１２１⁃１６７．［１３］ＤＡＬＡＬＮ，ＴＲＩＧＧＳＢ．Ｈｉｓｔｏｇｒａｍｓｏｆｏｒｉｅｎｔｅｄｇｒａｄｉｅｎｔｓｆｏｒｈｕｍａｎｄｅｔｅｃｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＣｏｍｐｕｔｅｒＳｏ⁃ ｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉ⁃ ｔｉｏｎ．ＳａｎＤｉｅｇｏ，ＣＡ，ＵＳＡ：ＩＥＥＥ，２００５，１：８８６⁃８９３．［１４］ＺＨＵＷａｎｇｊｉａｎｇ，ＬＩＡＮＧＳｈｕａｎｇ，ＷＥＩＹｉｃｈｅｎ，ｅｔａｌ．Ｓａ⁃ ｌｉｅｎｃｙｏｐｔｉｍｉｚａｔｉｏｎｆｒｏｍｒｏｂｕｓｔｂａｃｋｇｒｏｕｎｄｄｅｔｅｃｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１４ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｃｏｌｕｍｂｕｓ，ＯＨ：ＩＥＥＥ，２０１４：２８１４⁃２８２１．作者简介：李龙，男，１９８２年生，硕士研究生，主要研究方向为图像处理与计算机视觉。尹辉，女，１９７２年生，副教授，博士生导师，主要研究方向为计算机视觉、模式识别以及神经计算。许宏丽，女，１９６３年生，教授，主要研究方向为计算机技术、机器学习以及认知计算。 ·６２６· 智能系统学报第１１卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录