第17卷第1期 智能系统学报 Vol.17 No.1 2022年1月 CAAI Transactions on Intelligent Systems Jan.2022 D0:10.11992/tis.202107019 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20211217.1715.006html 基于背景建模的VideoSAR动目标阴影检测方法 王鑫',田甜2,田金文2 (1.华中科技大学人工智能与自动化学院,湖北武汉430074;2.华中科技大学多谱信息处理技术国家级重点 实验室,湖北武汉430074) 摘要:针对视频合成孔径雷达(video synthetic aperture radar,.VideoSAR)数据进行地面运动目标检测的问题,本 文提出了一种基于单高斯背景模型的VideoSAR动目标阴影检测方法。该方法使用一个时间维度的滑窗对视 频序列进行处理:首先使用RED20深度神经网络模型抑制VideoSAR图像的斑点噪声,随后使用帧间配准算法 快速配准窗口内的图像序列,然后对序列进行建模和差分得到窗口末帧的二值化前景,最后通过连通区域筛选 和区域生长剔除虚假目标。采用美国Sandia国家实验室公布的VideoSAR视频对本文算法进行了验证,实验表 明,该算法能实现对动目标阴影的准确检测。 关键词:视频合成孔径雷达;动目标检测;卷积神经网络:乘性噪声;去噪;图像配准;单高斯模型:区域生长 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2022)01-0059-10 中文引用格式:王鑫,田甜,田金文.基于背景建模的VideoSAR动目标阴影检测方法J.智能系统学报,2022,17(1):59-68.。 英文引用格式:WANG Xin,TIAN Tian,,TIAN Jinwen.Moving target shadow detection in VideoS..AR based on background model- ingJ CAAI transactions on intelligent systems,2022,17(1):59-68. Moving target shadow detection in VideoSAR based on background modeling WANG Xin',TIAN Tian2,TIAN Jinwen'2 (1.School of Artificial Intelligence and Automation,Huazhong University of Science and Technology,Wuhan 430074,China;2.Na- tional Key Laboratory of Science and Technology on Multi-spectral Information Processing.Huangzhong University of Science and Technology,Wuhan 430074,China) Abstract:Aiming at the problem of ground moving target detection based on Video Synthetic Aperture Radar(Video- SAR)data,a VideoSAR moving target shadow detection method based on single Gaussian background model is pro- posed in this paper,which uses a time-dimensional sliding window to process the video sequence:The RED20 deep neural network model is first used to suppress the speckle noise of VideoSAR image,and then the interframe registra- tion algorithm is applied to quickly register the image sequence of the window.After that,the binary foreground of the last frame of the window is obtained by sequence modeling and background subtraction.Finally,false targets are elimin- ated by connected region screening and region growing.The proposed approach is validated on the VideoSAR video published by Sandia National Laboratory,and experimental results show that the algorithm can accurately detect the shadow of moving targets. Keywords:VideoSAR;moving target detection;convolutional neural network;multiplicative noise;denoising;image registration;single Gaussian model;region growing 针对传统合成孔径雷达(synthetic aperture radar,.SAR)成像帧率较低且最小可检测速度较大 的问题,美国Sandia国家实验室2003年提出了 收稿日期:2021-07-12.网络出版日期:2021-12-21. 基金项目:国家自然科学基金项目(42071339). VideoSAR成像模式,该模式的成像结果类似于 通信作者:田甜.E-mail:tian@hust.edu..cn 视频,能够实现对地面场景的高帧率、高分辨率
DOI: 10.11992/tis.202107019 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20211217.1715.006.html. 基于背景建模的 VideoSAR 动目标阴影检测方法 王鑫1 ,田甜1,2,田金文1,2 (1. 华中科技大学 人工智能与自动化学院,湖北 武汉 430074; 2. 华中科技大学 多谱信息处理技术国家级重点 实验室,湖北 武汉 430074) 摘 要:针对视频合成孔径雷达 (video synthetic aperture radar,VideoSAR) 数据进行地面运动目标检测的问题,本 文提出了一种基于单高斯背景模型的 VideoSAR 动目标阴影检测方法。该方法使用一个时间维度的滑窗对视 频序列进行处理:首先使用 RED20 深度神经网络模型抑制 VideoSAR 图像的斑点噪声,随后使用帧间配准算法 快速配准窗口内的图像序列,然后对序列进行建模和差分得到窗口末帧的二值化前景,最后通过连通区域筛选 和区域生长剔除虚假目标。采用美国 Sandia 国家实验室公布的 VideoSAR 视频对本文算法进行了验证,实验表 明,该算法能实现对动目标阴影的准确检测。 关键词:视频合成孔径雷达;动目标检测;卷积神经网络;乘性噪声;去噪;图像配准;单高斯模型;区域生长 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2022)01−0059−10 中文引用格式:王鑫, 田甜, 田金文. 基于背景建模的 VideoSAR 动目标阴影检测方法 [J]. 智能系统学报, 2022, 17(1): 59–68. 英文引用格式:WANG Xin, TIAN Tian, TIAN Jinwen. Moving target shadow detection in VideoSAR based on background modeling[J]. CAAI transactions on intelligent systems, 2022, 17(1): 59–68. Moving target shadow detection in VideoSAR based on background modeling WANG Xin1 ,TIAN Tian1,2 ,TIAN Jinwen1,2 (1. School of Artificial Intelligence and Automation, Huazhong University of Science and Technology, Wuhan 430074, China; 2. National Key Laboratory of Science and Technology on Multi-spectral Information Processing, Huangzhong University of Science and Technology, Wuhan 430074, China) Abstract: Aiming at the problem of ground moving target detection based on Video Synthetic Aperture Radar (VideoSAR) data, a VideoSAR moving target shadow detection method based on single Gaussian background model is proposed in this paper, which uses a time-dimensional sliding window to process the video sequence: The RED20 deep neural network model is first used to suppress the speckle noise of VideoSAR image, and then the interframe registration algorithm is applied to quickly register the image sequence of the window. After that, the binary foreground of the last frame of the window is obtained by sequence modeling and background subtraction. Finally, false targets are eliminated by connected region screening and region growing. The proposed approach is validated on the VideoSAR video published by Sandia National Laboratory, and experimental results show that the algorithm can accurately detect the shadow of moving targets. Keywords: VideoSAR; moving target detection; convolutional neural network; multiplicative noise; denoising; image registration; single Gaussian model; region growing 针对传统合成孔径雷达 (synthetic aperture radar, SAR) 成像帧率较低且最小可检测速度较大 的问题,美国 Sandia 国家实验室 2003 年提出了 VideoSAR[1] 成像模式,该模式的成像结果类似于 视频,能够实现对地面场景的高帧率、高分辨率 收稿日期:2021−07−12. 网络出版日期:2021−12−21. 基金项目:国家自然科学基金项目 (42071339). 通信作者:田甜. E-mail: ttian@hust.edu.cn. 第 17 卷第 1 期 智 能 系 统 学 报 Vol.17 No.1 2022 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2022
第17卷 智能系统学报 。60· 成像,显著提升了对观测场景的动态感知能力, 频数据较少,深度神经网络的训练及其泛化能力 随后学者们对VideoSAR成像算法进行了较多的 测试也是困难的问题。此外,单帧算法没有利用 研究B-12。然而,在VideoSAR成像结果中,运动 VideoSAR的高帧率成像优势和动目标阴影的运 目标方位向速度分量会使它的像产生方位向的散 动特性:而当前的多帧检测算法后处理普遍过于 焦,距离向速度分量会使它的像产生方位向的频 简单,难以有效地消除虚警。为此,本文提出了 移。但是,在合成孔径成像时间内,部分时段或 一种基于单高斯模型的VideoSAR动目标阴影检 者全程被目标遮挡的区域由于回波信号弱,在图 测方法,使用一个时间维度的滑窗对视频序列进 像中呈现为黑色区域,也就是目标遮挡地物而产 行处理,它主要包括深度神经网络去噪、窗口序 生的阴影。图像中的阴影反映了真实目标的存在 列快速配准、建模差分提取前景、后处理消除虚 性,因此可以通过检测运动目标阴影实现对观测 警四个部分,该算法结合多帧图像的信息实现对 场景中运动目标的检测。 动目标阴影的有效检测。 当前的VideoSAR动目标阴影检测算法主要 分为单帧检测算法和多帧检测算法。单帧检测算 1动目标阴影检测算法 法基于动目标阴影的灰度特性来进行检测,又可 本文算法单个时间窗口的处理流程如图1 分为传统方法和深度学习的方法。文献[13]提出 所示,对于窗口内的所有图像,首先使用RED20 了一种基于动目标阴影局部特征的检测方法。该 深度神经网络模型抑制图像中的斑点噪声,然 方法先用改进的OT$U算法对图像进行阈值分 后使用帧间配准20的方式,快速配准当前窗口中 割,然后使用形态学操作和连通域分析别除明显 的所有图像;接着使用单高斯模型对窗口中的图 的虚警,最后根据检测结果的局部信杂比大小别 像序列进行背景建模和差分,得到窗口中最后 除和目标近似、但与背景特征不一样的虚警。文 帧的前景;最后是后处理,先剔除前景中明显不 献[14提出一种基于改进Faster-R-CNN的动目 是阴影的较亮部分,再使用连通区域筛选和区域 标检测方法。该方法先用K-means确定anchor box 生长消除虚警,得到当前窗口中最后一帧的动目 的长宽和长宽比,然后训练以FPN和Resnet-IO1 标阴影检测结果。窗口每往后移动一帧便使用上 作为特征提取器的Faster-R-CNN对目标进行检 述方法检测窗口末帧的运动目标阴影,以此实现 测。多帧检测算法使用相邻的多帧图像对背景进 对VideoSAR图像每一帧的处理。 行建模,然后使用背景差分的方式提取出前景, 即运动目标阴影。文献[15]提出使用单高斯模型 第 第2帧 第n帧 提取动目标阴影,该方法包括SIFT+RANSAC配 准、单高斯背景建模获取前景、连通区域筛选、形 RED20 RED20 RED20 RED20 去噪 去噪 去噪 去噪 态学操作几个步骤。文献[16)]提出使用中值背景 建模和三帧差分提取动目标阴影,该方法包括 配准 SIFT+RANSAC配准、CattePM降噪、Tsallis灰度 嫡最大化阈值分割、中值背景建模和三帧差分提 配准后 配准后 直方图 第1帧 第2帧 均衡化 取前景、形态学操作、连通区域标记等步骤。文 献[17]提出使用检测前跟踪的方式检测Video- 初始化单 与背景差分 OTSU SAR视频序列中的运动目标。文献[18]提出了 更新模型 高斯模型 得到二值前景 调值分 -种VideoSAR视频序列的配准方法,该方法先 使用一个网络估计刚性变换参数,并使用这些参 标记检测 区域生长 连通区域 前景减去分割 数进行双线性插值进行初步配准,然后将初步配 结果 剔除虚警 结果消除亮 筛选 背景干扰 准结果输入到另一个网络,估计出每个像素的位 移矩阵,再次应用双线性插值得到配准结果。 图1算法流程 VideoSAR图像中动目标阴影是典型的弱目 Fig.1 Flowchart of the proposed algorithm 标,其特征较为简单,与其他的弱反射区域没有 1.1 RED20网络去噪 明显的区别,因此基于传统方法的单帧检测算法 斑点噪声是VideoSAR成像系统中固有的一 较难取得较好的效果。基于深度学习的单帧检测 种噪声,它表现为相同区域的像素值在某一平均 算法具有很强的学习能力,但由于VideoSAR视 值附近随机波动,造成相同区域不同像素点亮度
成像,显著提升了对观测场景的动态感知能力, 随后学者们对 VideoSAR 成像算法进行了较多的 研究[2-12]。然而,在 VideoSAR 成像结果中,运动 目标方位向速度分量会使它的像产生方位向的散 焦,距离向速度分量会使它的像产生方位向的频 移。但是,在合成孔径成像时间内,部分时段或 者全程被目标遮挡的区域由于回波信号弱,在图 像中呈现为黑色区域,也就是目标遮挡地物而产 生的阴影。图像中的阴影反映了真实目标的存在 性,因此可以通过检测运动目标阴影实现对观测 场景中运动目标的检测。 当前的 VideoSAR 动目标阴影检测算法主要 分为单帧检测算法和多帧检测算法。单帧检测算 法基于动目标阴影的灰度特性来进行检测,又可 分为传统方法和深度学习的方法。文献 [13] 提出 了一种基于动目标阴影局部特征的检测方法。该 方法先用改进的 OTSU 算法对图像进行阈值分 割,然后使用形态学操作和连通域分析剔除明显 的虚警,最后根据检测结果的局部信杂比大小剔 除和目标近似、但与背景特征不一样的虚警。文 献 [14] 提出一种基于改进 Faster-R-CNN 的动目 标检测方法。该方法先用 K-means 确定 anchor box 的长宽和长宽比,然后训练以 FPN 和 Resnet-101 作为特征提取器的 Faster-R-CNN 对目标进行检 测。多帧检测算法使用相邻的多帧图像对背景进 行建模,然后使用背景差分的方式提取出前景, 即运动目标阴影。文献 [15] 提出使用单高斯模型 提取动目标阴影,该方法包括 SIFT+RANSAC 配 准、单高斯背景建模获取前景、连通区域筛选、形 态学操作几个步骤。文献 [16] 提出使用中值背景 建模和三帧差分提取动目标阴影,该方法包括 SIFT+RANSAC 配准、CattePM 降噪、Tsallis 灰度 熵最大化阈值分割、中值背景建模和三帧差分提 取前景、形态学操作、连通区域标记等步骤。文 献 [17] 提出使用检测前跟踪的方式检测 VideoSAR 视频序列中的运动目标。文献 [18] 提出了 一种 VideoSAR 视频序列的配准方法,该方法先 使用一个网络估计刚性变换参数,并使用这些参 数进行双线性插值进行初步配准,然后将初步配 准结果输入到另一个网络,估计出每个像素的位 移矩阵,再次应用双线性插值得到配准结果。 VideoSAR 图像中动目标阴影是典型的弱目 标,其特征较为简单,与其他的弱反射区域没有 明显的区别,因此基于传统方法的单帧检测算法 较难取得较好的效果。基于深度学习的单帧检测 算法具有很强的学习能力,但由于 VideoSAR 视 频数据较少,深度神经网络的训练及其泛化能力 测试也是困难的问题。此外,单帧算法没有利用 VideoSAR 的高帧率成像优势和动目标阴影的运 动特性;而当前的多帧检测算法后处理普遍过于 简单,难以有效地消除虚警。为此,本文提出了 一种基于单高斯模型的 VideoSAR 动目标阴影检 测方法,使用一个时间维度的滑窗对视频序列进 行处理,它主要包括深度神经网络去噪、窗口序 列快速配准、建模差分提取前景、后处理消除虚 警四个部分,该算法结合多帧图像的信息实现对 动目标阴影的有效检测。 1 动目标阴影检测算法 本文算法单个时间窗口的处理流程如图 1 所示,对于窗口内的所有图像,首先使用 RED20 深度神经网络模型[19] 抑制图像中的斑点噪声,然 后使用帧间配准[20] 的方式,快速配准当前窗口中 的所有图像;接着使用单高斯模型对窗口中的图 像序列进行背景建模和差分,得到窗口中最后一 帧的前景;最后是后处理,先剔除前景中明显不 是阴影的较亮部分,再使用连通区域筛选和区域 生长消除虚警,得到当前窗口中最后一帧的动目 标阴影检测结果。窗口每往后移动一帧便使用上 述方法检测窗口末帧的运动目标阴影,以此实现 对 VideoSAR 图像每一帧的处理。 配准 ... ... 更新模型 第 n 帧 第 n 帧 第 1 帧 第 2 帧 RED20 去噪 RED20 去噪 RED20 去噪 RED20 去噪 配准后 第 2 帧 配准后 第 1 帧 初始化单 高斯模型 与背景差分 得到二值前景 OTSU 阈值分割 直方图 均衡化 前景减去分割 结果消除亮 背景干扰 连通区域 筛选 区域生长 剔除虚警 标记检测 结果 图 1 算法流程 Fig. 1 Flowchart of the proposed algorithm 1.1 RED20 网络去噪 斑点噪声是 VideoSAR 成像系统中固有的一 种噪声,它表现为相同区域的像素值在某一平均 值附近随机波动,造成相同区域不同像素点亮度 第 17 卷 智 能 系 统 学 报 ·60·
·61· 王鑫,等:基于背景建模的VideoSAR动目标阴影检测方法 第1期 不一样,使得原本平滑的区域产生许多的亮点或 分别表示含有噪声的图像及其对应的无噪声真值图。 者暗点。如图2所示,上面的红框中动目标阴影 周围的道路区域和下面的红框中的区域都很不光 滑,斑点噪声的存在严重影响了图像质量,继而 hiil Hihh 影响了检测、识别等任务。 ×3卷积+ 3×3反卷积+ 相加+ReLU ReLU ReLU 图3 RED20网络结构 Fig.3 Structure of RED20 VideoSAR视频资源少,且没有不含噪声的真 值图,因此无法构建数据集。考虑到VideoSAR 图像与可见光灰度图具有一定的相似性,理论上 来说,可以通过向可见光灰度图中添加乘性噪声 来构建训练集,只要添加的乘性噪声分布涵盖了 图2 VideoSAR图像中的斑点噪声 VideoSAR中的噪声分布,就可以将使用该数据集 Fig.2 Speckle noises in VideoSAR image 训练的模型迁移到VideoSAR去噪任务当中,所 目前VideoSAR图像去噪大多是基于一定的 以需要估计一下VideoSAR视频序列中的乘性噪 假设或者先验知识设计的算法:文献[16]使用了 声的分布。对于每一个滑动窗口,具体步骤为: cattePM2模型抑制斑点噪声,文献[22]采用的是 使用1.2节中的帧间配准思想,配准该窗口中的 小波分析去噪232。上述传统方法在进行自适应 图像序列;计算配准后序列的均值,作为不含噪 滤波时,对噪声的感知能力有限,无法精确地获 声的真值图:对所有配准后的图片,计算有效区 得噪声的分布情况,且对于噪声的处理方式比较 域每个像素点的噪声,即“像素点的值/该像素点 单一,难以应对复杂的噪声。 的均值”,将该噪声值保存下来。最后利用保存的 为了更好地抑制斑点噪声、提高图像质量, 噪声数据计算噪声的均值和方差。在Sandia实验 本文率先将深度学习应用到VideoSAR图像去噪 室公布的视频上使用该方法计算出来的乘性噪声 当中。RED20网络9原本是设计用来对可见光 均值为1.052,标准差为0.096。考虑到噪声估计 图像进行去噪处理的,该网络的结构如图3所示, 存在一定的误差,仿真数据集中添加的是均值为 网络前10层为卷积层,后10层为反卷积层,卷积 1,标注差为0.2的服从高斯分布的乘性噪声,即 层和反卷积层的核的尺寸都是3×3,后面连接 使实际噪声分布和估计的噪声相似,那在强噪声 R©LU作为激活函数。因为池化层会丢失掉图像 数据集上训练好的模型也能较好地处理更弱的实 中一些有用的细节信息,因此网络中没有使用池 际噪声;反之如果仿真数据集中添加的是估计出 化层。网络中卷积层用于提取特征消除噪声,反 的噪声分布,一旦噪声被低估,模型的泛化能力 卷积用于恢复图像细节。在卷积层中,每隔一层 就存疑了。 就将该层连接到对称的反卷积层,因此可以直接 VOC2012数据集作为基准数据之一,常被用 进行正向和反向传播。卷积层与反卷积层的连 于对象检测、图像分割网络对比实验与模型效果 接,一方面允许信号直接反向传播到底层,能解 评估中,该数据集包含了丰富的场景,因此从 决梯度消失问题,使得深度网络更加容易实现, V0C2012数据集(共17125张)的每张图片中各 另一方面将图像细节从卷积层传到反卷积层,有 随机裁剪出50×50的图像块,转成灰度图,并逐像 利于恢复原始图像。而隔层连接的方式使得网络 素加入均值为1,标准差为0.2的乘性噪声构成数 收敛更快。 据集,然后以6:2:2的比例划分为训练集、验证集 RED20使用MSE作为损失,其计算方式如 和测试集,来训练RED20模型。随后应用该模型 式(1)所示: 抑制VideoSAR图像中斑点噪声,第二部分的对 4=N∑IFX:0-Y6 1 N (1) 比实验数据表明该方法是可行的。 12基于帧间配准的序列配准 式中:O表示模型参数;N表示样本对数量;X和Y VideoSAR系统的成像方式分为圆迹式、聚束
不一样,使得原本平滑的区域产生许多的亮点或 者暗点。如图 2 所示,上面的红框中动目标阴影 周围的道路区域和下面的红框中的区域都很不光 滑,斑点噪声的存在严重影响了图像质量,继而 影响了检测、识别等任务。 图 2 VideoSAR 图像中的斑点噪声 Fig. 2 Speckle noises in VideoSAR image 目前 VideoSAR 图像去噪大多是基于一定的 假设或者先验知识设计的算法:文献 [16] 使用了 cattePM[21] 模型抑制斑点噪声,文献 [22] 采用的是 小波分析去噪[23-25]。上述传统方法在进行自适应 滤波时,对噪声的感知能力有限,无法精确地获 得噪声的分布情况,且对于噪声的处理方式比较 单一,难以应对复杂的噪声。 为了更好地抑制斑点噪声、提高图像质量, 本文率先将深度学习应用到 VideoSAR 图像去噪 当中。RED20 网络[19] 原本是设计用来对可见光 图像进行去噪处理的,该网络的结构如图 3 所示, 网络前 10 层为卷积层,后 10 层为反卷积层,卷积 层和反卷积层的核的尺寸都是 3×3,后面连接 ReLU 作为激活函数。因为池化层会丢失掉图像 中一些有用的细节信息,因此网络中没有使用池 化层。网络中卷积层用于提取特征消除噪声,反 卷积用于恢复图像细节。在卷积层中,每隔一层 就将该层连接到对称的反卷积层,因此可以直接 进行正向和反向传播。卷积层与反卷积层的连 接,一方面允许信号直接反向传播到底层,能解 决梯度消失问题,使得深度网络更加容易实现, 另一方面将图像细节从卷积层传到反卷积层,有 利于恢复原始图像。而隔层连接的方式使得网络 收敛更快。 RED20 使用 MSE 作为损失,其计算方式如 式 (1) 所示: L(θ) = 1 N ∑N i=1 ||F(Xi ; θ)−Yi ||2 2 (1) 式中:θ 表示模型参数;N 表示样本对数量; Xi和 Yi 分别表示含有噪声的图像及其对应的无噪声真值图。 层号 1 2 3 4 17 18 19 20 … 相加+ReLU 3×3反卷积+ ReLU 3×3卷积+ ReLU 图 3 RED20 网络结构 Fig. 3 Structure of RED20 VideoSAR 视频资源少,且没有不含噪声的真 值图,因此无法构建数据集。考虑到 VideoSAR 图像与可见光灰度图具有一定的相似性,理论上 来说,可以通过向可见光灰度图中添加乘性噪声 来构建训练集,只要添加的乘性噪声分布涵盖了 VideoSAR 中的噪声分布,就可以将使用该数据集 训练的模型迁移到 VideoSAR 去噪任务当中,所 以需要估计一下 VideoSAR 视频序列中的乘性噪 声的分布。对于每一个滑动窗口,具体步骤为: 使用 1.2 节中的帧间配准思想,配准该窗口中的 图像序列;计算配准后序列的均值,作为不含噪 声的真值图;对所有配准后的图片,计算有效区 域每个像素点的噪声,即“像素点的值/该像素点 的均值”,将该噪声值保存下来。最后利用保存的 噪声数据计算噪声的均值和方差。在 Sandia 实验 室公布的视频上使用该方法计算出来的乘性噪声 均值为 1.052,标准差为 0.096。考虑到噪声估计 存在一定的误差,仿真数据集中添加的是均值为 1,标注差为 0.2 的服从高斯分布的乘性噪声,即 使实际噪声分布和估计的噪声相似,那在强噪声 数据集上训练好的模型也能较好地处理更弱的实 际噪声;反之如果仿真数据集中添加的是估计出 的噪声分布,一旦噪声被低估,模型的泛化能力 就存疑了。 VOC2012 数据集作为基准数据之一,常被用 于对象检测、图像分割网络对比实验与模型效果 评估中,该数据集包含了丰富的场景,因此从 VOC2012 数据集 (共 17 125 张) 的每张图片中各 随机裁剪出 50×50 的图像块,转成灰度图,并逐像 素加入均值为 1,标准差为 0.2 的乘性噪声构成数 据集,然后以 6:2:2 的比例划分为训练集、验证集 和测试集,来训练 RED20 模型。随后应用该模型 抑制 VideoSAR 图像中斑点噪声,第二部分的对 比实验数据表明该方法是可行的。 1.2 基于帧间配准的序列配准 VideoSAR 系统的成像方式分为圆迹式、聚束 ·61· 王鑫,等:基于背景建模的 VideoSAR 动目标阴影检测方法 第 1 期
第17卷 智能系统学报 ·62· 式和条带式,不管是哪种模式,都会使得雷达对 此外,配准结果的部分区域没有像素值,如 场景的观测角度和观测距离发生变化,体现在图 图6红框标出的区域所示,这些区域无法用于模 像上就是序列之间会发生平移、旋转、缩放、透视 型初始化和更新。因此,窗口中每一帧与末帧配 等几何畸变。因此在进行像素级背景建模之前, 准时都需要计算出一个有效区域的掩码,将窗口 需要通过配准将同一窗口中的所有图像的背景进 中所有掩码求与,得到窗口掩码,模型初始化、更 行对齐。 新、背景差分均只对窗口掩码区域进行。 配准一组图像的传统方法是直接计算所有图 像相对于参考帧的配准矩阵,假设滑动窗口的总 数是n,长度是s,则每个窗口需要计算s-1次配 准矩阵,一共需要计算n×(s-1)次配准矩阵,计 算量随着窗口长度的线性增加。 因此这里采用文献[2O]提出的一种VideoSAR 图像序列帧间配准方式:对于所有帧,只计算其 与下一帧配准的透视变换矩阵,任意不相邻的 两帧的配准矩阵通过累乘它们之间的所有的配 图6配准产生的无效区域 准矩阵得到。如图4所示,H。~H为图像序列的 Fig.6 Invalid region generated by registration 帧间配准矩阵,当窗口滑动到红色框所示位置 1.3背景建模 时,imgo、img2与img3的配准矩阵分别为 窗口中图像序列进行背景对齐后,使用单高 H×H,×H2、H1×H2、H2,同理当窗口滑动到蓝色框 斯模型进行背景建模,背景像素ⅰ的均值和方差 位置时配准矩阵分别为H1×H2×H3、H2×H、H3。 分别用4和σ表示,初始方差用σ表示,学习率 该方法只需要计算+s-1次配准矩阵,远少于直 用α表示,更新阈值和前景阈值分别用1和2表示, 接配准的n×(s-l)次。 窗口中第1帧中像素点i的值用Ix,y,)表示。本 文中σm2=100,t=1.35,=3,a=0.1,滑动窗口长 度n=20。 首先用窗口中第一帧图像初始化背景,即 img2 img3 1m2 山=I(x,,1),并初始化方差c2=0m2。 然后用第2~n-1帧更新背景和方差,对于 图4帧间快速配准示意图 Fig.4 Schematic diagram of fast inter frame registration I(x,),1e[2,n-1],如果满足: 如图5红框标出区域所示,VideoSAR是对三 (I(,)-4)2(t2)月 I(xy,n)<4 则判断为前景,否则判断为背景。至此,初步 得到了窗口最后一帧中的动目标阴影。 1.4后处理 1)去除前景中过亮的部分 因为观测角度的变化,静止场景在不同帧之 间的回波强度也会有所不同。图7展示了一个窗 口中的两帧图像,右侧是末帧图像,它既是配准 的参考图,也是需要提取前景的帧;左侧是首帧 图5不同观测角度的成像结果差异 Fig.5 Difference of imaging results from different obser- 图像,它已经和右图配准并用于初始化模型的均 vation angles 值。红框标出了两个同名点,它们在两帧中的灰
式和条带式,不管是哪种模式,都会使得雷达对 场景的观测角度和观测距离发生变化,体现在图 像上就是序列之间会发生平移、旋转、缩放、透视 等几何畸变。因此在进行像素级背景建模之前, 需要通过配准将同一窗口中的所有图像的背景进 行对齐。 配准一组图像的传统方法是直接计算所有图 像相对于参考帧的配准矩阵,假设滑动窗口的总 数是 n,长度是 s,则每个窗口需要计算 s-1 次配 准矩阵,一共需要计算 n×(s-1) 次配准矩阵,计 算量随着窗口长度的线性增加。 因此这里采用文献 [20] 提出的一种 VideoSAR 图像序列帧间配准方式:对于所有帧,只计算其 与下一帧配准的透视变换矩阵,任意不相邻的 两帧的配准矩阵通过累乘它们之间的所有的配 准矩阵得到。如图 4 所示,H0~H3 为图像序列的 帧间配准矩阵,当窗口滑动到红色框所示位置 时 , img 0 、 img 2 与 img 3 的配准矩阵分别 为 H0×H1×H2、H1×H2、H2,同理当窗口滑动到蓝色框 位置时配准矩阵分别为 H1×H2×H3、H2×H、H3。 该方法只需要计算 n+s−1 次配准矩阵,远少于直 接配准的 n×(s−1) 次。 H0 H1 H2 H3 img0 img1 img2 img3 img4 图 4 帧间快速配准示意图 Fig. 4 Schematic diagram of fast inter frame registration 如图 5 红框标出区域所示,VideoSAR 是对三 维场景进行二维成像,对于具有一定高度的物 体,不同的观测角度会得到不同的像,且观测角 度差别越大,像的差别越大。理论上两张图像帧 号间隔越小,计算配准矩阵受到干扰越小,因此 帧间配准会比直接配准具有更高的精度,第 2 部 分的实验数据证明确实如此。 图 5 不同观测角度的成像结果差异 Fig. 5 Difference of imaging results from different observation angles 此外,配准结果的部分区域没有像素值,如 图 6 红框标出的区域所示,这些区域无法用于模 型初始化和更新。因此,窗口中每一帧与末帧配 准时都需要计算出一个有效区域的掩码,将窗口 中所有掩码求与,得到窗口掩码,模型初始化、更 新、背景差分均只对窗口掩码区域进行。 图 6 配准产生的无效区域 Fig. 6 Invalid region generated by registration 1.3 背景建模 µi σi 2 σinit 2 α t1 t2 I(xi , yi ,t) σinit 2 = 100 t1 = 1.35 t2 = 3 α = 0.1 窗口中图像序列进行背景对齐后,使用单高 斯模型进行背景建模,背景像素 i 的均值和方差 分别用 和 表示,初始方差用 表示,学习率 用 表示,更新阈值和前景阈值分别用 和 表示, 窗口中第 t 帧中像素点 i 的值用 表示。本 文中 , , , ,滑动窗口长 度 n=20。 µi = I(xi , yi ,1) σi 2 = σinit 2 首先用窗口中第一帧图像初始化背景,即 ,并初始化方差 。 I(xi , yi ,t) 然后用第 2~n-1 帧更新背景和方差,对于 ,t∈[2,n-1],如果满足: (I(xi , yi ,t)-µi) 2 (t2σi) 2 I(xi , yi ,n) < µi 则判断为前景,否则判断为背景。至此,初步 得到了窗口最后一帧中的动目标阴影。 1.4 后处理 1) 去除前景中过亮的部分 因为观测角度的变化,静止场景在不同帧之 间的回波强度也会有所不同。图 7 展示了一个窗 口中的两帧图像,右侧是末帧图像,它既是配准 的参考图,也是需要提取前景的帧;左侧是首帧 图像,它已经和右图配准并用于初始化模型的均 值。红框标出了两个同名点,它们在两帧中的灰 第 17 卷 智 能 系 统 学 报 ·62·
·63· 王鑫,等:基于背景建模的VideoSAR动目标阴影检测方法 第1期 度差别较大,如果左图中两个同名点在背景更新 标阴影的面积范围,并据此对连通区域进行筛 后灰度值变化不大,那么背景差分时,右图比左 选,以消除部分虚警。 图暗的部分(虚线围起的部分)很有可能会被判 3)区域生长剔除假前景 定为动目标阴影。 前面解释了亮背景带来的干扰,并提出了消 除此类干扰的方法,同理暗背景也会产生干扰, 且这种干扰无法用消除亮背景干扰的方式去除。 考虑到动目标阴影与周围区域的对比度较大,而 暗背景干扰与周围区域的对比度通常较小,甚至 多数情况下它们与周围区域是一体的,因此我们 采用区域生长的方式来消除暗背景干扰。 对于前一步得到的每一个连通区域,选择它 图7容易被误分为前景的背景 里面灰度接近该区域灰度均值的点作为种子点。 Fig.7 Background areas that are likely to be mistakenly divided as foreground 接下来是确定生长的上下限,首先计算连通区域 为了消除这种干扰,先将窗口末帧进行直方 的最小包围矩形,并适当扩大该矩形,计算矩形 图均衡化,然后再进行OTSU阈值分割,以得到场 范围内的标准差,该标准差乘以一个常系数,得 景中亮背景的掩码,最后用前景减去该掩码,即 到区域生长的上下生长范围。对于暗背景,该方 式计算到的标准差比较接近其真实标准差,因此 可消除亮背景区域的干扰。图8给出了图7右侧 区域生长会将其与周围背景连成一片,而动目标 图像的亮背景掩码获取过程,虚线围起的区域即 阴影因为与背景对比度较大就不会。剔除区域生 使在差分的时候被视为动目标阴影提取了出来, 长前后面积差值过大和生长结果不符合动目标阴 减去该掩码后即可消除此类干扰。 影尺寸的连通区域,可以一定程度上消除暗背景 的干扰,不过此方法对于那种孤立的暗背景干扰 则效果不佳。本文采样矩形区域尺寸是连通区域 的最小包围矩形尺寸的两倍,标准差系数为5。 2实验结果和讨论 2.1RED20去噪效果 网络训练的学习率为0.0001,batch size设为 l6,采用的优化算法为自适应矩估计(adaptive mo- ment estimation,ADAM),共训l练了110代,第100 代的时候在验证集中的损失最小,且第100代的 模型在测试集上测试时去噪效果良好,为此将第 100代得到的模型应用到VideoSAR图像去噪中, 并与文献[16]使用的cattePM2模型、文献22] 采用小波分析去噪32进行客观指标和视觉质量 的对比。cattePM模型采用和文献[16]一样的参 图8获取亮背景区域掩码示意 数,小波分析去噪的分解层数为3,小波函数为 Fig.8 Schematic diagram of getting the mask of the bright rbiol.1。 background area 本文分别使用3种方法对Sandia实验室公布 2)连通区域筛选 的VideoSAR视频的899帧图像进行了去噪处理, 单高斯模型是像素级的背景建模,尽管前面 因为没有不含噪声的真值图,所以不能采用峰值 已经进行了去噪、配准、滤除亮背景干扰的处理, 信噪比(peak signal-to-noise ratio.,PSNR)和结构相 得到的前景中仍然会存在一些离散噪点和非动目 似度(structural similarity,SSIM)作为评价指标,因 标阴影的小面积连通区域。为此对上一步得到的 此采用等效视数(equivalent number of looks, 前景进行连通区域标记,然后根据待检测目标的 ENL)作为评价标准,ENL值越大,代表图像越平 尺寸、速度范围、雷达分辨率等参数,计算出动目 滑。表1是3种方法的ENL值对比,从数据可以
度差别较大,如果左图中两个同名点在背景更新 后灰度值变化不大,那么背景差分时,右图比左 图暗的部分 (虚线围起的部分) 很有可能会被判 定为动目标阴影。 图 7 容易被误分为前景的背景 Fig. 7 Background areas that are likely to be mistakenly divided as foreground 为了消除这种干扰,先将窗口末帧进行直方 图均衡化,然后再进行 OTSU 阈值分割,以得到场 景中亮背景的掩码,最后用前景减去该掩码,即 可消除亮背景区域的干扰。图 8 给出了图 7 右侧 图像的亮背景掩码获取过程,虚线围起的区域即 使在差分的时候被视为动目标阴影提取了出来, 减去该掩码后即可消除此类干扰。 图 8 获取亮背景区域掩码示意 Fig. 8 Schematic diagram of getting the mask of the bright background area 2) 连通区域筛选 单高斯模型是像素级的背景建模,尽管前面 已经进行了去噪、配准、滤除亮背景干扰的处理, 得到的前景中仍然会存在一些离散噪点和非动目 标阴影的小面积连通区域。为此对上一步得到的 前景进行连通区域标记,然后根据待检测目标的 尺寸、速度范围、雷达分辨率等参数,计算出动目 标阴影的面积范围,并据此对连通区域进行筛 选,以消除部分虚警。 3) 区域生长剔除假前景 前面解释了亮背景带来的干扰,并提出了消 除此类干扰的方法,同理暗背景也会产生干扰, 且这种干扰无法用消除亮背景干扰的方式去除。 考虑到动目标阴影与周围区域的对比度较大,而 暗背景干扰与周围区域的对比度通常较小,甚至 多数情况下它们与周围区域是一体的,因此我们 采用区域生长的方式来消除暗背景干扰。 对于前一步得到的每一个连通区域,选择它 里面灰度接近该区域灰度均值的点作为种子点。 接下来是确定生长的上下限,首先计算连通区域 的最小包围矩形,并适当扩大该矩形,计算矩形 范围内的标准差,该标准差乘以一个常系数,得 到区域生长的上下生长范围。对于暗背景,该方 式计算到的标准差比较接近其真实标准差,因此 区域生长会将其与周围背景连成一片,而动目标 阴影因为与背景对比度较大就不会。剔除区域生 长前后面积差值过大和生长结果不符合动目标阴 影尺寸的连通区域,可以一定程度上消除暗背景 的干扰,不过此方法对于那种孤立的暗背景干扰 则效果不佳。本文采样矩形区域尺寸是连通区域 的最小包围矩形尺寸的两倍,标准差系数为 5。 2 实验结果和讨论 2.1 RED20 去噪效果 网络训练的学习率为 0.000 1,batch_size 设为 16,采用的优化算法为自适应矩估计 (adaptive moment estimation, ADAM),共训练了 110 代,第 100 代的时候在验证集中的损失最小,且第 100 代的 模型在测试集上测试时去噪效果良好,为此将第 100 代得到的模型应用到 VideoSAR 图像去噪中, 并与文献 [16] 使用的 cattePM[21] 模型、文献 [22] 采用小波分析去噪[23-25] 进行客观指标和视觉质量 的对比。cattePM 模型采用和文献 [16] 一样的参 数,小波分析去噪的分解层数为 3,小波函数为 rbio1.1。 本文分别使用 3 种方法对 Sandia 实验室公布 的 VideoSAR 视频的 899 帧图像进行了去噪处理, 因为没有不含噪声的真值图,所以不能采用峰值 信噪比 (peak signal-to-noise ratio, PSNR) 和结构相 似度 (structural similarity, SSIM) 作为评价指标,因 此采用等效视数 (equivalent number of looks, ENL) 作为评价标准,ENL 值越大,代表图像越平 滑。表 1 是 3 种方法的 ENL 值对比,从数据可以 ·63· 王鑫,等:基于背景建模的 VideoSAR 动目标阴影检测方法 第 1 期
第17卷 智能系统学报 ·64· 看出,RED20去噪结果最平滑,其次是cattePM, 虽然抑制了部分斑点噪声,但是像前面所说仍保 最后是小波分析。 留了一些噪声的纹理;cattePM相比之下使得让阴 表1不同方法的去噪结果 影和道路都平滑了很多,但道路上仍然存在较大 Table 1 Denoising results of different methods 的斑块;而RED20则使得道路区域更加的平滑, 不同去噪方法 ENL 几乎看不到斑点的存在。第2行图像选取的是场 原图 46.95 景中的一块同质背景区域,可以看出RED20的去 小波分析 134.04 噪结果也是最佳的。综上,RED20能在保持目标 cattePM 146.82 边缘的情况下,比传统去噪算法更有效地抑制斑 RED20 173.16 点噪声,这表明,用可见光灰度图构建数据集来训 接下来从视觉质量方面对去噪图像进行对 练模型,并将其迁移到VideoSAR中是可行的。 比。首先是总体上进行对比,因为图像比较暗, 不太容易看出它们的差别,因此对去噪结果进行 了直方图均衡化,如图9所示。可以看到原图颗 粒感非常严重;小波分析能一定程度上抑制斑点 噪声,但是保留了一些噪声的纹理,像是盖了 层毛玻璃;cattePM让图像平滑了一些,但是还是 原图小波分析cattePM RED20 存在颗粒感,只不过颗粒比原图更少且更大了; 图10去噪效果细节对比 而RED20则因为能够获取到不同尺度的信息和 Fig.10 Detail comparison of denoising effect 具备复杂的映射关系,具有远强于前两者的去噪 2.2相邻帧配准的效果 能力,去噪结果中同质区域灰度差距小,图像比 前面算法部分的分析说明,计算帧间配准矩 前两者更加平滑。 阵可以显著减少配准的计算量,且理论上精度更 高。这里以长度为20的窗口对整个视频序列滑 窗进行试验,计算有效区域掩码中参考图与配准 结果的PSNR,将所有配准的平均PSNR作为评价 指标。PSNR原本是用于衡量去噪结果和真值图 的差别的,这里之所以能用它衡量配准性能,是 因为前面分析已经说明RED20能够有效地抑制 斑点噪声,可以认为一个窗口中的图像序列的同 名点像素值是相似的,因此配准精度越高,PSNR (a)原图 (b)小波分析 会越高。表2是实验结果,其中PSNR是880个 窗口共计16720次配准PSNR的平均值,实验环 境为windows1(0x64位,CPU为i7-8700,内存为16GB 程序基于opencv3.4.6编写。从表中可以看到帧 间配准比直接配准速度快了很多,且精度也略高 于直接配准,这与前面的分析是一致的。 表2不同配准方式的对比 Table 2 Comparison of different registration methods (c)cattePM (d)RED20 配准方法 PSNR 平均配准时间/ms 图9去噪效果总体对比 直接配准 Fig.9 Overall comparison of denoising effect 34.18 4071.01 帧间配准 34.33 127.85 接下来再从细节上进行对比,截取图9中两 个感兴趣区域并放大,如图10所示。第一行图片 2.3动目标阴影检测性能对比 中的黑色区域为动目标阴影,其周围是道路区 为了量化评估本文算法的检测性能,将本文 域,原图不管是动目标阴影还是周围的道路区 算法与文献[13]提出的传统的单帧检测算法、文 域,内部的像素点都存在较大的差异;小波分析 献[14]提出的基于深度学习的单帧检测算法、文
看出,RED20 去噪结果最平滑,其次是 cattePM, 最后是小波分析。 表 1 不同方法的去噪结果 Table 1 Denoising results of different methods 不同去噪方法 ENL 原图 46.95 小波分析 134.04 cattePM 146.82 RED20 173.16 接下来从视觉质量方面对去噪图像进行对 比。首先是总体上进行对比,因为图像比较暗, 不太容易看出它们的差别,因此对去噪结果进行 了直方图均衡化,如图 9 所示。可以看到原图颗 粒感非常严重;小波分析能一定程度上抑制斑点 噪声,但是保留了一些噪声的纹理,像是盖了一 层毛玻璃;cattePM 让图像平滑了一些,但是还是 存在颗粒感,只不过颗粒比原图更少且更大了; 而 RED20 则因为能够获取到不同尺度的信息和 具备复杂的映射关系,具有远强于前两者的去噪 能力,去噪结果中同质区域灰度差距小,图像比 前两者更加平滑。 (a) 原图 (c) cattePM (b) 小波分析 (d) RED20 图 9 去噪效果总体对比 Fig. 9 Overall comparison of denoising effect 接下来再从细节上进行对比,截取图 9 中两 个感兴趣区域并放大,如图 10 所示。第一行图片 中的黑色区域为动目标阴影,其周围是道路区 域,原图不管是动目标阴影还是周围的道路区 域,内部的像素点都存在较大的差异;小波分析 虽然抑制了部分斑点噪声,但是像前面所说仍保 留了一些噪声的纹理;cattePM 相比之下使得让阴 影和道路都平滑了很多,但道路上仍然存在较大 的斑块;而 RED20 则使得道路区域更加的平滑, 几乎看不到斑点的存在。第 2 行图像选取的是场 景中的一块同质背景区域,可以看出 RED20 的去 噪结果也是最佳的。综上,RED20 能在保持目标 边缘的情况下,比传统去噪算法更有效地抑制斑 点噪声,这表明,用可见光灰度图构建数据集来训 练模型,并将其迁移到 VideoSAR 中是可行的。 原图 小波分析 cattePM RED20 图 10 去噪效果细节对比 Fig. 10 Detail comparison of denoising effect 2.2 相邻帧配准的效果 前面算法部分的分析说明,计算帧间配准矩 阵可以显著减少配准的计算量,且理论上精度更 高。这里以长度为 20 的窗口对整个视频序列滑 窗进行试验,计算有效区域掩码中参考图与配准 结果的 PSNR,将所有配准的平均 PSNR 作为评价 指标。PSNR 原本是用于衡量去噪结果和真值图 的差别的,这里之所以能用它衡量配准性能,是 因为前面分析已经说明 RED20 能够有效地抑制 斑点噪声,可以认为一个窗口中的图像序列的同 名点像素值是相似的,因此配准精度越高,PSNR 会越高。表 2 是实验结果,其中 PSNR 是 880 个 窗口共计 16 720 次配准 PSNR 的平均值,实验环 境为 windows10 x64 位,CPU 为 i7-8700,内存为 16 GB, 程序基于 opencv 3.4.6 编写。从表中可以看到帧 间配准比直接配准速度快了很多,且精度也略高 于直接配准,这与前面的分析是一致的。 表 2 不同配准方式的对比 Table 2 Comparison of different registration methods 配准方法 PSNR 平均配准时间/ms 直接配准 34.18 4071.01 帧间配准 34.33 127.85 2.3 动目标阴影检测性能对比 为了量化评估本文算法的检测性能,将本文 算法与文献 [13] 提出的传统的单帧检测算法、文 献 [14] 提出的基于深度学习的单帧检测算法、文 第 17 卷 智 能 系 统 学 报 ·64·
·65· 王鑫,等:基于背景建模的VideoSAR动目标阴影检测方法 第1期 献[16]提出的传统的多帧检测算法进行量化对 550、600、650帧的检测结果。因为原图对比度较 比。Sandia实验室公布的VideoSAR视频共有 小,检侧结果标在了直方图均衡化后的图上,红 899帧,标注了前660,其中第1~400帧用于训练 色的框表示误检,绿色的框表示正确检测,蓝色 文献[14]使用的改进Faster--RCNN模型,第401~ 的框表示漏检。文献[16]算法是在配准好的图像 660帧用于测试各个算法的性能,测试的统计结 上进行的,为了方便对比,将其检测结果进行了 果如表3所示,图11是各算法第401、450、500、 坐标逆变换再标记到了配准前的图像上。 表3不同算法的检测结果 Table 3 Detection results of different algorithms 算法 正确检测/个 误检/个 漏检/个 准确率% 召回率/% 文献[13] 714 4322 709 14.18 50.18 文献[16 1023 4586 400 14.51 72.94 文献[14 1021 113 402 90.04 71.75 本文 1232 56 191 95.65 86.58 第401帧 第450帧 第500帧 第550帧 第600帧 第650帧 文献 [13] 方法 文献 [1 方法 文献 [14 方法 本文 方法 图11各算法第401、450、500、550、600、650帧的检测结果 Fig.11 Detection results of the 401st,450th,500th,550th,600th,650th frames of each algorithm 从表3和图11可以看出,文献[13]算法的准 检,使得该算法的准确率较低。另外,OTSU分割 确率和召回率都偏低,误检和漏检严重,它是一 结果对召回率起着决定性作用,图12最终结果中 个传统的单帧检测算法,流程分为OT$U阈值分 左下角和右上角的漏检是因为分割后目标与其他 割、形态学操作、连通区域筛选、局部信杂比筛选 区域连成一片造成的,中间的漏检是因为分割时 几个步骤。图12是其对第401帧进行检测时各 分错类别造成的,这就使得该算法召回率较低。 个步骤的结果,从图中可以看到,经过连通区域 文献[16]算法的召回率不是很低,但是准确 筛选后仍然存在很多虚警,而局部信杂比的筛选 率不高,它是一个传统的多帧检测算法,算法流 只能去掉其中一部分,最终结果仍存在较多的误 程分为SIFT+RANSAC配准、cattePM去噪、Tsal-
献 [16] 提出的传统的多帧检测算法进行量化对 比。Sandia 实验室公布的 VideoSAR 视频共有 899 帧,标注了前 660,其中第 1~400 帧用于训练 文献 [14] 使用的改进 Faster-RCNN 模型,第 401~ 660 帧用于测试各个算法的性能,测试的统计结 果如表 3 所示,图 11 是各算法第 401、450、500、 550、600、650 帧的检测结果。因为原图对比度较 小,检测结果标在了直方图均衡化后的图上,红 色的框表示误检,绿色的框表示正确检测,蓝色 的框表示漏检。文献 [16] 算法是在配准好的图像 上进行的,为了方便对比,将其检测结果进行了 坐标逆变换再标记到了配准前的图像上。 表 3 不同算法的检测结果 Table 3 Detection results of different algorithms 算法 正确检测/个 误检/个 漏检/个 准确率/% 召回率/% 文献[13] 714 4 322 709 14.18 50.18 文献[16] 1023 4 586 400 14.51 72.94 文献[14] 1021 113 402 90.04 71.75 本文 1232 56 191 95.65 86.58 第 401 帧 第 450 帧 第 500 帧 第 550 帧 第 600 帧 第 650 帧 文献 [13] 方法 文献 [16] 方法 文献 [14] 方法 本文 方法 图 11 各算法第 401、450、500、550、600、650 帧的检测结果 Fig. 11 Detection results of the 401st, 450th, 500th, 550th, 600th, 650th frames of each algorithm 从表 3 和图 11 可以看出,文献 [13] 算法的准 确率和召回率都偏低,误检和漏检严重,它是一 个传统的单帧检测算法,流程分为 OTSU 阈值分 割、形态学操作、连通区域筛选、局部信杂比筛选 几个步骤。图 12 是其对第 401 帧进行检测时各 个步骤的结果,从图中可以看到,经过连通区域 筛选后仍然存在很多虚警,而局部信杂比的筛选 只能去掉其中一部分,最终结果仍存在较多的误 检,使得该算法的准确率较低。另外,OTSU 分割 结果对召回率起着决定性作用,图 12 最终结果中 左下角和右上角的漏检是因为分割后目标与其他 区域连成一片造成的,中间的漏检是因为分割时 分错类别造成的,这就使得该算法召回率较低。 文献 [16] 算法的召回率不是很低,但是准确 率不高,它是一个传统的多帧检测算法,算法流 程分为 SIFT+RANSAC 配准、cattePM 去噪、Tsal- ·65· 王鑫,等:基于背景建模的 VideoSAR 动目标阴影检测方法 第 1 期
第17卷 智能系统学报 ·66· Is阈值分割、中值建模和三帧差提取前景、形态 法召回率不是特别高,另外该算法是单帧检测算 学操作几个步骤。图13是其检测第401帧时各 法,未利用目标的运动信息,导致仍存在一定的 个步骤的结果,可以看到该算法通过中值建模和 虚警,影响了算法的准确率。 三帧差,能够将大部分动目标阴影提取出来,但 从上面的分析我们知道传统算法中,初步提 是用二值化结果进行中值建模还是丢失了大量的 取的前景决定了召回率的高低,而后处理决定了 信息,导致前景中存在许多的干扰,而后续的形 虚警的多少。图14是本文算法各个步骤的处理 态学操作和连通区域筛选并不能很好地消除虚 结果。从图中可以看到,单高斯模型提取的前景 警,这就导致该算法虚警率高,影响了检测精度。 中存在的干扰较少,且大部分动目标阴影被提取 出来了;消除亮背景干扰这一步能够在保留住动 目标阴影的同时,有效地消除前景中的亮背景; 接下来的连通区域筛选去掉了小的连通区域;而 最后的区域生长消除了两个虚警(图中彩色标记 的两块区域),不过左下角和右上角由于背景区域 (a)原图 (b)二值化结果(c)形态学操作结果 较暗,动目标阴影与周围对比度太小,各有一个 目标没有被检测,左下角的目标四种算法都没检 测到,右上角的目标只有一个算法检测到了。 (d联通区域 (©)局部信杂比(①最终结果 筛选结果 筛选结果 图12文献[13算法第401帧检测结果 (a)去噪结果 (b)单高斯建模 (c)消除亮背景 Fig.12 Detection result of the 401th frame of the al- 提取的前景 干扰的前景 gorithm in reference[13] (d连通区域 (©)区域生长结果 ()最终结果 筛选结果 (a)配准结果 (b)cattePM (c)Tsallis 去噪结果 阈值分割结果 图14本文算法第401帧检测结果 1 Fig.14 Detection result of the 401st frame of the proposed algorithm 1 从表3和图12中可以看到,本文算法无论 是准确率还是召回率,均优于其他3种算法,该 算法能够在准确率极高的情况下,拥有较高的召 回率。 (d)中值建模和(e)形态学操作和 (①最终结果 三帧差结果 连通区域筛选结果 3结束语 图13文献16第401帧检测结果 Fig.13 Detection result of the 401st frame of the algori- 本文提出了一种VideoSAR动目标阴影检测 thm in reference16] 方法,该方法使用一个时间维度的滑动窗口结合 而文献[I4]使用的改进Faster-RCNN算法因 多帧信息来检测VideoSAR序列中的动目标阴 为能够自动学习目标特征,具有很强的目标检测 影。本文率先将深度学习应用到VideoSAR图像 识别能力,表3和图11的结果证实了这一点,但 去噪,表明使用可见光灰度图像训练的去噪模型 是可能由于目标特征单一且训练数据有限,该算 能够成功迁移到VideoSAR图像去噪任务当中
lis 阈值分割、中值建模和三帧差提取前景、形态 学操作几个步骤。图 13 是其检测第 401 帧时各 个步骤的结果,可以看到该算法通过中值建模和 三帧差,能够将大部分动目标阴影提取出来,但 是用二值化结果进行中值建模还是丢失了大量的 信息,导致前景中存在许多的干扰,而后续的形 态学操作和连通区域筛选并不能很好地消除虚 警,这就导致该算法虚警率高,影响了检测精度。 (a) 原图 (b) 二值化结果 (c) 形态学操作结果 (d) 联通区域 筛选结果 (e) 局部信杂比 筛选结果 (f) 最终结果 图 12 文献 [13] 算法第 401 帧检测结果 Fig. 12 Detection result of the 401th frame of the algorithm in reference[13] (a) 配准结果 (b) cattePM 去噪结果 (c) Tsallis 阈值分割结果 (d) 中值建模和 三帧差结果 (e) 形态学操作和 连通区域筛选结果 (f) 最终结果 图 13 文献 [16] 第 401 帧检测结果 Fig. 13 Detection result of the 401st frame of the algorithm in reference[16] 而文献 [14] 使用的改进 Faster-RCNN 算法因 为能够自动学习目标特征,具有很强的目标检测 识别能力,表 3 和图 11 的结果证实了这一点,但 是可能由于目标特征单一且训练数据有限,该算 法召回率不是特别高,另外该算法是单帧检测算 法,未利用目标的运动信息,导致仍存在一定的 虚警,影响了算法的准确率。 从上面的分析我们知道传统算法中,初步提 取的前景决定了召回率的高低,而后处理决定了 虚警的多少。图 14 是本文算法各个步骤的处理 结果。从图中可以看到,单高斯模型提取的前景 中存在的干扰较少,且大部分动目标阴影被提取 出来了;消除亮背景干扰这一步能够在保留住动 目标阴影的同时,有效地消除前景中的亮背景; 接下来的连通区域筛选去掉了小的连通区域;而 最后的区域生长消除了两个虚警 (图中彩色标记 的两块区域),不过左下角和右上角由于背景区域 较暗,动目标阴影与周围对比度太小,各有一个 目标没有被检测,左下角的目标四种算法都没检 测到,右上角的目标只有一个算法检测到了。 (d) 连通区域 筛选结果 (e) 区域生长结果 (f) 最终结果 (a) 去噪结果 (b) 单高斯建模 提取的前景 (c) 消除亮背景 干扰的前景 图 14 本文算法第 401 帧检测结果 Fig. 14 Detection result of the 401st frame of the proposed algorithm 从表 3 和图 12 中可以看到,本文算法无论 是准确率还是召回率,均优于其他 3 种算法,该 算法能够在准确率极高的情况下,拥有较高的召 回率。 3 结束语 本文提出了一种 VideoSAR 动目标阴影检测 方法,该方法使用一个时间维度的滑动窗口结合 多帧信息来检测 VideoSAR 序列中的动目标阴 影。本文率先将深度学习应用到 VideoSAR 图像 去噪,表明使用可见光灰度图像训练的去噪模型 能够成功迁移到 VideoSAR 图像去噪任务当中, 第 17 卷 智 能 系 统 学 报 ·66·
·67· 王鑫,等:基于背景建模的VideoSAR动目标阴影检测方法 第1期 且该模型能够比传统方法更加有效地抑制Video- [8]MILLER J.BISHOP E,DOERRY A.An application of SAR中的斑点噪声;此外,帧间配准方式的应用 backprojection for video SAR image formation exploit- 使得配准速度大大提升且能略微提高配准精度; ing a subaperature circular shift register[C]//Algorithms 最后,区域生长的应用,弥补了许多传统算法仅 for synthetic aperture radar imagery XX.Baltimore,USA: 仅依靠连通区域筛选来别除虚警的不足,更好地 SPE.2013.8746:66-79. 利用了图像的空间和灰度信息。实验结果证明, [9]BISHOP E,LINNEHAN R,DOERRY A.Video-SAR us- 该方法与传统单帧、多帧检测算法和基于深度学 ing higher order Taylor terms for differential range[C]// 习的单帧检测算法相比,能够以更高的精度和召 2016 IEEE Radar Conference.New York,USA:IEEE. 回率检测出VideoSAR序列中的动目标阴影。 2016 不过本文算法在动目标阴影与背景对比度较 [10]SONG Xiaoshen,YU Weidong.Processing video-SAR 低的帧可能会存在漏检,因此后续还需要研究如 data with the fast backprojection method[J].IEEE trans- 何关联帧间检测结果,以便对于目标未能被检测 actions on aerospace and electronic systems,2016, 到的帧,可以通过历史轨迹预测出其最可能存在 52(6):2838-2848. 的位置,以此提高召回率。 [11]HU Ruizhi,MIN Rui,PI Yiming.Interpolation-free al- 参考文献: gorithm for persistent multi-frame imaging of video- SAR[J].IET radar,sonar navigation,2017,11(6): [1]WELLS L,SORENSEN K,DOERRY A,et al.Develop- 978-986. ments in sar and ifsar systems and technologies at Sandia [12]GARREN D A.SAR focus theory of complicated range national laboratories[C1//2003 IEEE Aerospace Confer- migration signatures due to moving targets[J].IEEE ence Proceedings.New York,USA:IEEE,2003: geoscience and remote sensing letters,2018,15(4): 1085-1095. 557-561. [2]ZHAO Songtao,CHEN Jie,YANG Wei,et al.Image [13]LIU Zhongkang,AN Daoxiang,HUANG Xiaotao.Mov- formation method for spaceborne video SAR[C]//2015 ing target shadow detection and global background re- IEEE 5th Asia-Pacific Conference on Synthetic Aperture construction for VideoSAR based on single-frame im- Radar.New York,USA:IEEE,2015:148-151. agey[U.EEE access,,2019,7:42418-42425 [3]KIM C K,AZIM M T,SINGH A K,et al.Doppler shift- [14]闫贺,黄佳,李睿安,等.基于改进快速区域卷积神经 ing technique for generating multi-frames of video SAR 网络的视频SAR运动目标检测算法研究).电子与 via sub-aperture signal processing[J].IEEE transactions 信息学报,2021,43(3615-622 on signal processing,2020,68:3990-4001. YAN He,HUANG Jia,LI Ruian,et al.Research on [4]MOSES R L,ASH JN.Recursive SAR imaging[J].Pro- video SAR moving target detection algorithm based on ceedings of SPIE-The International Society for Optical improved faster region-based CNN[J].Journal of elec- Engineering,2010,6970:69700P-1-69700P-12 tronics information technology,2021,43(3):615-622 [5]MOSES RL,ASH J N.An autoregressive formulation for [15]聊蕾,左潇丽,云涛,等.基于图像序列的VideoSAR动 SAR backprojection imaging[J].IEEE transactions on 目标检测方法[J.雷达科学与技术,2016,14(6):563 aerospace and electronic systems,2011,47(4):2860- 567.573 2873. LIAO Lei,ZUO Xiaoli,YUN Tao,et al.An approach to [6]HAWLEY R W,GARBER W L.Aperture weighting detect moving target in VideoSAR imagery sequence[J]. technique for video synthetic aperture radar[C]//Al- Radar science and technology,2016,14(6):563-567, gorithms for synthetic aperture radar imagery XVIII.Or- 573. lando.USA:SPIE,2011,8051:67-73 [I6]张营,朱岱寅,俞翔,等.一种VideoSAR动目标阴影检 [7]LINNEHAN R.MILLER J.BISHOP E.et al.An autofo- 测方法.电子与信息学报,2017,39(9):2197-2202. cus technique for video-SAR[C]//Algorithms for synthet- ZHANG Ying,ZHU Daiyin,YU Xiang,et al.Approach ic aperture radar imagery XX.Baltimore,USA:SPIE, to moving targets shadow detection for VideoSAR[J]. 2013.8746:56-65. Journal of electronics information technology,2017
且该模型能够比传统方法更加有效地抑制 VideoSAR 中的斑点噪声;此外,帧间配准方式的应用 使得配准速度大大提升且能略微提高配准精度; 最后,区域生长的应用,弥补了许多传统算法仅 仅依靠连通区域筛选来剔除虚警的不足,更好地 利用了图像的空间和灰度信息。实验结果证明, 该方法与传统单帧、多帧检测算法和基于深度学 习的单帧检测算法相比,能够以更高的精度和召 回率检测出 VideoSAR 序列中的动目标阴影。 不过本文算法在动目标阴影与背景对比度较 低的帧可能会存在漏检,因此后续还需要研究如 何关联帧间检测结果,以便对于目标未能被检测 到的帧,可以通过历史轨迹预测出其最可能存在 的位置,以此提高召回率。 参考文献: WELLS L, SORENSEN K, DOERRY A, et al. Developments in sar and ifsar systems and technologies at Sandia national laboratories[C]//2003 IEEE Aerospace Conference Proceedings. New York, USA: IEEE, 2003: 1085−1095. [1] ZHAO Songtao, CHEN Jie, YANG Wei, et al. Image formation method for spaceborne video SAR[C]//2015 IEEE 5th Asia-Pacific Conference on Synthetic Aperture Radar. New York, USA: IEEE, 2015: 148−151. [2] KIM C K, AZIM M T, SINGH A K, et al. Doppler shifting technique for generating multi-frames of video SAR via sub-aperture signal processing[J]. IEEE transactions on signal processing, 2020, 68: 3990–4001. [3] MOSES R L, ASH J N. Recursive SAR imaging[J]. Proceedings of SPIE - The International Society for Optical Engineering, 2010, 6970: 69700P-1–69700P-12. [4] MOSES R L, ASH J N. An autoregressive formulation for SAR backprojection imaging[J]. IEEE transactions on aerospace and electronic systems, 2011, 47(4): 2860– 2873. [5] HAWLEY R W, GARBER W L. Aperture weighting technique for video synthetic aperture radar[C]//Algorithms for synthetic aperture radar imagery XVIII. Orlando, USA: SPIE, 2011, 8051: 67−73. [6] LINNEHAN R, MILLER J, BISHOP E, et al. An autofocus technique for video-SAR[C]//Algorithms for synthetic aperture radar imagery XX. Baltimore, USA: SPIE, 2013, 8746: 56−65. [7] MILLER J, BISHOP E, DOERRY A. An application of backprojection for video SAR image formation exploiting a subaperature circular shift register[C]//Algorithms for synthetic aperture radar imagery XX. Baltimore, USA: SPIE, 2013, 8746: 66−79. [8] BISHOP E, LINNEHAN R, DOERRY A. Video-SAR using higher order Taylor terms for differential range[C]// 2016 IEEE Radar Conference. New York, USA: IEEE, 2016. [9] SONG Xiaoshen, YU Weidong. Processing video-SAR data with the fast backprojection method[J]. IEEE transactions on aerospace and electronic systems, 2016, 52(6): 2838–2848. [10] HU Ruizhi, MIN Rui, PI Yiming. Interpolation-free algorithm for persistent multi-frame imaging of videoSAR[J]. IET radar, sonar & navigation, 2017, 11(6): 978–986. [11] GARREN D A. SAR focus theory of complicated range migration signatures due to moving targets[J]. IEEE geoscience and remote sensing letters, 2018, 15(4): 557–561. [12] LIU Zhongkang, AN Daoxiang, HUANG Xiaotao. Moving target shadow detection and global background reconstruction for VideoSAR based on single-frame imagery[J]. IEEE access, 2019, 7: 42418–42425. [13] 闫贺, 黄佳, 李睿安, 等. 基于改进快速区域卷积神经 网络的视频 SAR 运动目标检测算法研究 [J]. 电子与 信息学报, 2021, 43(3): 615–622. YAN He, HUANG Jia, LI Ruian, et al. Research on video SAR moving target detection algorithm based on improved faster region-based CNN[J]. Journal of electronics & information technology, 2021, 43(3): 615–622. [14] 聊蕾, 左潇丽, 云涛, 等. 基于图像序列的 VideoSAR 动 目标检测方法 [J]. 雷达科学与技术, 2016, 14(6): 563– 567,573. LIAO Lei, ZUO Xiaoli, YUN Tao, et al. An approach to detect moving target in VideoSAR imagery sequence[J]. Radar science and technology, 2016, 14(6): 563–567, 573. [15] 张营, 朱岱寅, 俞翔, 等. 一种 VideoSAR 动目标阴影检 测方法 [J]. 电子与信息学报, 2017, 39(9): 2197–2202. ZHANG Ying, ZHU Daiyin, YU Xiang, et al. Approach to moving targets shadow detection for VideoSAR[J]. Journal of electronics & information technology, 2017, [16] ·67· 王鑫,等:基于背景建模的 VideoSAR 动目标阴影检测方法 第 1 期
第17卷 智能系统学报 ·68· 39(9):2197-2202 let transform and some statistical applications[M]// [17]TIAN Xiaoqing,LIU Jing,MALLICK M,et al.Simul- Wavelets and Statistics.New York,USA:Springer New taneous detection and tracking of moving-target shad- York,1995:103:281-299 ows in ViSAR imagery[J].IEEE transactions on [24]COIFMAN RR.DONOHO D L.Translation-invariant geoscience and remote sensing,2021,59(2):1182-1199. de-noising[M]//Wavelets and Statistics.New York, [18]HUANG Xuejun,DING Jinshan,GUO Qinghua.Unsu- USA:Springer New York,1995:125-150. pervised image registration for video SAR[J].IEEE [25]PESQUET J C,KRIM H,CARFANTAN H.Time-in- journal of selected topics in applied earth observations variant orthonormal wavelet representations[J].IEEE and remote sensing,2020,14:1075-1083 transactions on signal processing,1996,44(8):1964- [19]MAO Xiaojiao,SHEN Chunhua,YANG Yubin.Image 1970. restoration using very deep convolutional encoder-de- 作者简介: coder networks with symmetric skip connections[J]. 王鑫,硕士研究生,主要研究方向 Neural information processing systems,2016,29: 为VideoSAR运动目标检测。 2810-2818 [20]LI Zihan,DONG Zhen,YU Anxi,et al.A robust image sequence registration algorithm for VideoSAR combin- ing surf with inter-frame processing[C]//2019 IEEE In- ternational Geoscience and Remote Sensing Symposium. 田甜,副教授,博士,主要研究方 New York.USA:IEEE.2019:2794-2797. 向为遥感图像处理、计算机视觉、深度 [21]ALVAREZ L,LIONS PL,MOREL J M.Image select- 学习。 ive smoothing and edge detection by nonlinear diffusion. II[J].SIAM journal on numerical analysis,1992,29(3): 845-866 [22]WANG Hongshuo,ZHAO Baojun,YANG Xingsha 田金文,教授,博士,主要研究方 Moving target detection based on Circular Video 向为人工智能、计算机视觉。 SAR[Cl//2019 IEEE International Conference on Signal, Information and Data Processing.New York,USA: IEEE,2019. [23]NASON G P.SILVERMAN B W.The stationary wave-
39(9): 2197–2202. TIAN Xiaoqing, LIU Jing, MALLICK M, et al. Simultaneous detection and tracking of moving-target shadows in ViSAR imagery[J]. IEEE transactions on geoscience and remote sensing, 2021, 59(2): 1182–1199. [17] HUANG Xuejun, DING Jinshan, GUO Qinghua. Unsupervised image registration for video SAR[J]. IEEE journal of selected topics in applied earth observations and remote sensing, 2020, 14: 1075–1083. [18] MAO Xiaojiao, SHEN Chunhua, YANG Yubin. Image restoration using very deep convolutional encoder-decoder networks with symmetric skip connections[J]. Neural information processing systems, 2016, 29: 2810–2818. [19] LI Zihan, DONG Zhen, YU Anxi, et al. A robust image sequence registration algorithm for VideoSAR combining surf with inter-frame processing[C]//2019 IEEE International Geoscience and Remote Sensing Symposium. New York, USA: IEEE, 2019: 2794−2797. [20] ALVAREZ L, LIONS P L, MOREL J M. Image selective smoothing and edge detection by nonlinear diffusion. II[J]. SIAM journal on numerical analysis, 1992, 29(3): 845–866. [21] WANG Hongshuo, ZHAO Baojun, YANG Xingsha. Moving target detection based on Circular Video SAR[C]//2019 IEEE International Conference on Signal, Information and Data Processing. New York, USA: IEEE, 2019. [22] [23] NASON G P, SILVERMAN B W. The stationary wavelet transform and some statistical applications[M]// Wavelets and Statistics. New York, USA: Springer New York, 1995: 103: 281−299. COIFMAN R R, DONOHO D L. Translation-invariant de-noising[M]//Wavelets and Statistics. New York, USA: Springer New York, 1995: 125−150. [24] PESQUET J C, KRIM H, CARFANTAN H. Time-invariant orthonormal wavelet representations[J]. IEEE transactions on signal processing, 1996, 44(8): 1964– 1970. [25] 作者简介: 王鑫,硕士研究生,主要研究方向 为 VideoSAR 运动目标检测。 田甜,副教授,博士,主要研究方 向为遥感图像处理、计算机视觉、深度 学习。 田金文,教授,博士,主要研究方 向为人工智能、计算机视觉。 第 17 卷 智 能 系 统 学 报 ·68·