工程科学学报 Chinese Journal of Engineering 基于YOL0v3的无人机识别与定位追踪 陶磊洪韬钞旭 Drone identification and location tracking based on YOLOv3 TAO Lei.HONG Tao.CHAO Xu 引用本文: 陶磊,洪韬,钞旭.基于Y0L0v3的无人机识别与定位追踪[.工程科学学报,2020,42(4):463-468.doi:10.13374j.iss2095- 9389.2019.09.10.002 TAO Lei,HONG Tao,CHAO Xu.Drone identification and location tracking based on YOLOv3[J].Chinese Journal of Engineering, 2020,42(4:463-468.doi:10.13374.issn2095-9389.2019.09.10.002 在线阅读View online::htps:/ldoi.org10.13374.issn2095-9389.2019.09.10.002 您可能感兴趣的其他文章 Articles you may be interested in 仿生扑翼飞行器的视觉感知系统研究进展 Research progress on visual perception system of bionic flapping-wing aerial vehicles 工程科学学报.2019,41(12:1512 https:/1doi.org10.13374.issn2095-9389.2019.03.08.001 无人机遥感在矿业领域应用现状及发展态势 Current status and developing trend of UAV remote sensing applications in mining industry 工程科学学报.优先发表htps:/ldoi.org/10.13374.issn2095-9389.2019.12.18.003 仿鸿雁编队的无人机集群飞行验证 Verification of unmanned aerial vehicle swarm behavioral mechanism underlying the formation of Anser cygnoides 工程科学学报.2019,41(12:1599htps:1doi.org/10.13374.issn2095-9389.2018.12.18.001 基于深度学习的高效火车号识别 Efficient Wagon Number Recognition Based on Deep Learning 工程科学学报.优先发表htps:/ldoi.org10.13374.issn2095-9389.2019.12.05.001 基于改进鸽群优化和马尔可夫链的多无人机协同搜索方法 Cooperative search for multi-UAVs via an improved pigeon-inspired optimization and Markov chain approach 工程科学学报.2019.41(10:1342 https:/doi.org10.13374.issn2095-9389.2018.09.02.002
基于YOLOv3的无人机识别与定位追踪 陶磊 洪韬 钞旭 Drone identification and location tracking based on YOLOv3 TAO Lei, HONG Tao, CHAO Xu 引用本文: 陶磊, 洪韬, 钞旭. 基于YOLOv3的无人机识别与定位追踪[J]. 工程科学学报, 2020, 42(4): 463-468. doi: 10.13374/j.issn2095- 9389.2019.09.10.002 TAO Lei, HONG Tao, CHAO Xu. Drone identification and location tracking based on YOLOv3[J]. Chinese Journal of Engineering, 2020, 42(4): 463-468. doi: 10.13374/j.issn2095-9389.2019.09.10.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2019.09.10.002 您可能感兴趣的其他文章 Articles you may be interested in 仿生扑翼飞行器的视觉感知系统研究进展 Research progress on visual perception system of bionic flapping-wing aerial vehicles 工程科学学报. 2019, 41(12): 1512 https://doi.org/10.13374/j.issn2095-9389.2019.03.08.001 无人机遥感在矿业领域应用现状及发展态势 Current status and developing trend of UAV remote sensing applications in mining industry 工程科学学报.优先发表 https://doi.org/10.13374/j.issn2095-9389.2019.12.18.003 仿鸿雁编队的无人机集群飞行验证 Verification of unmanned aerial vehicle swarm behavioral mechanism underlying the formation of Anser cygnoides 工程科学学报. 2019, 41(12): 1599 https://doi.org/10.13374/j.issn2095-9389.2018.12.18.001 基于深度学习的高效火车号识别 Efficient Wagon Number Recognition Based on Deep Learning 工程科学学报.优先发表 https://doi.org/10.13374/j.issn2095-9389.2019.12.05.001 基于改进鸽群优化和马尔可夫链的多无人机协同搜索方法 Cooperative search for multi-UAVs via an improved pigeon-inspired optimization and Markov chain approach 工程科学学报. 2019, 41(10): 1342 https://doi.org/10.13374/j.issn2095-9389.2018.09.02.002
工程科学学报.第42卷,第4期:463-468.2020年4月 Chinese Journal of Engineering,Vol.42,No.4:463-468,April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.09.10.002;http://cje.ustb.edu.cn 基于YOLOv3的无人机识别与定位追踪 陶 磊区,洪韬,钞旭 北京航空航天大学电子信息工程学院,北京100191 ☒通信作者,E-mail:taolei@buaa.edu.cn 摘要近年来,无人机入侵的事件经常发生,无人机跌落碰撞的事件也屡见不鲜,在人群密集的地方容易引发安全事故,所 以无人机监测是目前安防领域的研究热点,虽然目前有很多种无人机监测方案,但大多成本高昂,实施困难.在5G背景下, 针对此问题提出了一种利用城市已有的监控网络去获取数据的方法,基于深度学习的算法进行无人机目标检测,进而识别无 人机,并追踪定位无人机.该方法采用改进的YOLOv3模型检测视频帧中是否存在无人机,YOLOv23算法是YOLO(You only look once.,一次到位)系列的第三代版本,属于one-stage目标检测算法这一类,在速度上相对于two--stage类型的算法有着明 显的优势.YOLOv3输出视频帧中存在的无人机的位置信息.根据位置信息用PID(Proportion integration differentiation,比例 积分微分)算法调节摄像头的中心朝向追踪无人机,再由多个摄像头的参数解算出无人机的实际坐标,从而实现定位.本文 通过拍摄无人机飞行的照片、从互联网上搜索下载等方式构建了数据集,并且使用labellmg工具对图片中的无人机进行了标 注,数据集按照无人机的旋翼数量进行了分类.实验中采用按旋翼数量分类后的数据集对检测模型进行训练,训练后的模型 在测试集上能达到83.24%的准确率和88.15%的召回率.在配备NVIDIA GTX1060的计算机上能达到每秒20帧的速度.可 实现实时追踪 关键词5G:目标检测:YOLOv3:PID:无人机追踪 分类号TP391.41 Drone identification and location tracking based on YOLOv3 TAO Lei,HONG Tao,CHAO Xu School of Electronic and Information Engineering,Beihang University,Beijing 100191,China Corresponding author,E-mail:taolei@buaa.edu.cn ABSTRACT In recent years,increasing incidents of drone intrusion have occurred,and the drone collisions have become common.As a result,accidents may occur in densely populated areas.Therefore,drone monitoring is an important research topic in the field of security.Although many types of drone monitoring programs exist,most of them are costly and difficult to implement.To solve this problem,in the 5G context,this study proposed a method of using a city's existing monitoring network to acquire data based on a deep learning algorithm for drone target detection,constructing a recognizable drone,and tracking the unmanned aerial vehicle.The method used the improved YOLOv3 (You only look once)model to detect the presence of drones in video frames.The YOLOv3 algorithm is the third generation version of the YOLO series,belonging to the one-stage target detection algorithm.This algorithm has significant advantages over the two-stage type of algorithm in speed.YOLOv3 outputs the position information of the drone in the video frame. According to the position information,the PID (Proportion integration differentiation)algorithm was used to adjust the center of the camera to track the drone.Then,the parameters of the plurality of cameras were used to calculate the actual coordinates of the drone, thereby realizing the positioning.We built the dataset by taking photos of the drone's flight,searching and downloading drone pictures from the Internet,and labeling the drones in the image by using the labellmg tool.The dataset was classified according to the number of 收稿日期:2019-09-10 基金项目:国家自然科学基金资助项目(61827901,61671056)
基于 YOLOv3 的无人机识别与定位追踪 陶 磊苣,洪 韬,钞 旭 北京航空航天大学电子信息工程学院,北京 100191 苣通信作者,E-mail: taolei@buaa.edu.cn 摘 要 近年来,无人机入侵的事件经常发生,无人机跌落碰撞的事件也屡见不鲜,在人群密集的地方容易引发安全事故,所 以无人机监测是目前安防领域的研究热点. 虽然目前有很多种无人机监测方案,但大多成本高昂,实施困难. 在 5G 背景下, 针对此问题提出了一种利用城市已有的监控网络去获取数据的方法,基于深度学习的算法进行无人机目标检测,进而识别无 人机,并追踪定位无人机. 该方法采用改进的 YOLOv3 模型检测视频帧中是否存在无人机,YOLOv3 算法是 YOLO(You only look once,一次到位)系列的第三代版本,属于 one-stage 目标检测算法这一类,在速度上相对于 two-stage 类型的算法有着明 显的优势. YOLOv3 输出视频帧中存在的无人机的位置信息. 根据位置信息用 PID(Proportion integration differentiation,比例 积分微分)算法调节摄像头的中心朝向追踪无人机,再由多个摄像头的参数解算出无人机的实际坐标,从而实现定位. 本文 通过拍摄无人机飞行的照片、从互联网上搜索下载等方式构建了数据集,并且使用 labelImg 工具对图片中的无人机进行了标 注,数据集按照无人机的旋翼数量进行了分类. 实验中采用按旋翼数量分类后的数据集对检测模型进行训练,训练后的模型 在测试集上能达到 83.24% 的准确率和 88.15% 的召回率,在配备 NVIDIA GTX 1060 的计算机上能达到每秒 20 帧的速度,可 实现实时追踪. 关键词 5G;目标检测;YOLOv3;PID;无人机追踪 分类号 TP391.41 Drone identification and location tracking based on YOLOv3 TAO Lei苣 ,HONG Tao,CHAO Xu School of Electronic and Information Engineering, Beihang University, Beijing 100191, China 苣 Corresponding author, E-mail: taolei@buaa.edu.cn ABSTRACT In recent years, increasing incidents of drone intrusion have occurred, and the drone collisions have become common. As a result, accidents may occur in densely populated areas. Therefore, drone monitoring is an important research topic in the field of security. Although many types of drone monitoring programs exist, most of them are costly and difficult to implement. To solve this problem, in the 5G context, this study proposed a method of using a city’s existing monitoring network to acquire data based on a deep learning algorithm for drone target detection, constructing a recognizable drone, and tracking the unmanned aerial vehicle. The method used the improved YOLOv3 (You only look once) model to detect the presence of drones in video frames. The YOLOv3 algorithm is the third generation version of the YOLO series, belonging to the one-stage target detection algorithm. This algorithm has significant advantages over the two-stage type of algorithm in speed. YOLOv3 outputs the position information of the drone in the video frame. According to the position information, the PID (Proportion integration differentiation) algorithm was used to adjust the center of the camera to track the drone. Then, the parameters of the plurality of cameras were used to calculate the actual coordinates of the drone, thereby realizing the positioning. We built the dataset by taking photos of the drone's flight, searching and downloading drone pictures from the Internet, and labeling the drones in the image by using the labelImg tool. The dataset was classified according to the number of 收稿日期: 2019−09−10 基金项目: 国家自然科学基金资助项目 (61827901,61671056) 工程科学学报,第 42 卷,第 4 期:463−468,2020 年 4 月 Chinese Journal of Engineering, Vol. 42, No. 4: 463−468, April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.09.10.002; http://cje.ustb.edu.cn
464 工程科学学报,第42卷,第4期 rotors of the drone.In the experiment,the detection model was trained by the dataset classified by the number of rotors.The trained model can achieve 83.24%accuracy and 88.15%recall rate on the test set,and speed of 20 frames per second on the computer equipped with NVIDIA GTX 1060 for real-time tracking. KEY WORDS 5G;object detection:you only look once (YOLOv3);proportion integration differentiation (PID);drone tracking 近年来,越来越多的无人机出现在我们的生 以追踪无人机.根据两台或多台摄像头的参数,对 活中,无人机数量的激增,使得无人机市场前景开 出现在多台监控摄像头中同一无人机进行坐标解 阔,但是也给城市安保带来了更大的挑战山.出于 算从而定位无人机 对公众安全的考虑,各地政府在机场、会议场所等 1 区域,禁止未经许可的无人机飞行.因此,在特定 相关工作 区域对无人机进行监测是安防的迫切需求 目前为止,无人机的识别方法多种多样,方法 由于无人机具有体积较小、雷达截面小、低速 主要集中在图像识别、音频信号分析、频谱探测 的特点,利用传统的雷达设备很难探测或者是识 以及雷达数据分析等方面.电气电子工程师学会 别无人机四在城市环境中,声音较为嘈杂,无人机 (Institute of Electrical and Electronics Engineers,IEEE) 更可穿梭于高楼之间,利用声传感器也很难探测 为了促进无人机识别的研究,甚至还为此举办了 到无人机.所以目前迫切需要建立一套对指定区域 无人机鸟类检测挑战大赛(Drone-vs-bird detection 进行无人机实时监测、精准识别的监控系统】 challenge)l7.下文介绍现已有的方法. 在5G、物联网即将到来的时代,城市区域的 最早的研究采用雷达信号分析来探测无人 监控系统已经日趋完善.5G网络低延时、网速快 机,此方法首先利用多雷达对目标进行不同角度 的特点,让实时共享监控视频不再成为难点.利用 的观测,然后对雷达数据进行短时傅里叶变化处 城市监控摄像头网络组成的监控系统,实时对指 理以得到频谱图,接着利用主成分分析法从频谱 定区域进行无人机监测、识别和预警是一种解决 图中提取特征,再利用支持向量机进行训练与分 无人机监管问题的有效方法0.此方法的关键在 类识别8 于对监控摄像头传输回来的视频进行实时有效的 基于音频信号识别的方法主要是通过对无人 处理,从视频中检测是否存在无人机,以便对其进 机的声音特性进行分析,在时域和频域分别对采 行跟踪与定位 集的无人机音频信息进行分析和处理,借助梅尔 目标检测是目前计算机视觉领域的一个重要 频率倒谱系数及线性预测倒谱系数等进行特征的 的研究方向.近几年深度学习的快速发展,以及计 算机计算能力的大幅提升,图像目标识别与分类 提取,用以建立无人机音频识别库,最后借助特征 在准确度和速度上都有了极大的提升.目标检测 匹配算法达到识别无人机的目的9 领域的深度学习算法主要分为one-stage与two- 随着机器学习算法的发展和应用,无人机识 stage两类,前者速度快,后者速度高.one-stage有 别也有了新的手段.通过摄像机自动侦测和追踪 SsD(Single shot multibox detector,,单发多盒)、 小型飞行物获得不同角度拍摄到的无人机图片, YOLO等系列,two-stage有R-CNN(Rich feature 组成视频集,再用卷积神经网络来提取特征,采用 hierarchies for accurate object detection and semantic K邻近算法对目标进行分类0.此外,还有一种基 segmentation,.用于精准目标检测和语意分割的多功 于迁移学习稀疏自动编码器(Sparse auto-encoder, 能层次结构)、Fast R-CNN(Fast region-based SAE)的无人机识别算法,借助SAE对大量目标进 convolutional network method,基于区域的快速卷积 行无监督学习以获取局部特征,然后采用卷积神 神经网络方法)等系列-),目前在各类数据集上 经网络算法提取目标全局特征,由Softmax函数输 测试效果最好的算法是YOLO系列的最新一代 出结果实现对目标的分类 YOLOV3114-161 2无人机识别和定位方法 基于目标检测算法和监控系统,本文提出了 -种基于YOLOv3算法的无人机监测识别与定位 为了使用YOLOv3模型去检测无人机目标, 的方法,它直接对监控视频内容进行实时检测,识 本文对模型做了一定的修改再进行训练,以获取 别出无人机之后,用PID算法去控制摄像头移动 无人机在图像中的坐标信息,为后续的PD算法
rotors of the drone. In the experiment, the detection model was trained by the dataset classified by the number of rotors. The trained model can achieve 83.24% accuracy and 88.15% recall rate on the test set, and speed of 20 frames per second on the computer equipped with NVIDIA GTX 1060 for real-time tracking. KEY WORDS 5G;object detection;you only look once (YOLOv3);proportion integration differentiation (PID);drone tracking 近年来,越来越多的无人机出现在我们的生 活中. 无人机数量的激增,使得无人机市场前景开 阔,但是也给城市安保带来了更大的挑战[1] . 出于 对公众安全的考虑,各地政府在机场、会议场所等 区域,禁止未经许可的无人机飞行. 因此,在特定 区域对无人机进行监测是安防的迫切需求. 由于无人机具有体积较小、雷达截面小、低速 的特点,利用传统的雷达设备很难探测或者是识 别无人机[2] . 在城市环境中,声音较为嘈杂,无人机 更可穿梭于高楼之间,利用声传感器也很难探测 到无人机. 所以目前迫切需要建立一套对指定区域 进行无人机实时监测、精准识别的监控系统[3−8] . 在 5G、物联网即将到来的时代,城市区域的 监控系统已经日趋完善. 5G 网络低延时、网速快 的特点,让实时共享监控视频不再成为难点. 利用 城市监控摄像头网络组成的监控系统,实时对指 定区域进行无人机监测、识别和预警是一种解决 无人机监管问题的有效方法[9−10] . 此方法的关键在 于对监控摄像头传输回来的视频进行实时有效的 处理,从视频中检测是否存在无人机,以便对其进 行跟踪与定位. 目标检测是目前计算机视觉领域的一个重要 的研究方向. 近几年深度学习的快速发展,以及计 算机计算能力的大幅提升,图像目标识别与分类 在准确度和速度上都有了极大的提升. 目标检测 领域的深度学习算法主要分为 one-stage 与 twostage 两类,前者速度快,后者速度高. one-stage 有 SSD( Single shot multibox detector, 单 发 多 盒 ) 、 YOLO 等 系 列 , two-stage 有 R-CNN( Rich feature hierarchies for accurate object detection and semantic segmentation,用于精准目标检测和语意分割的多功 能 层 次 结 构 ) 、 Fast R-CNN( Fast region-based convolutional network method, 基于区域的快速卷积 神经网络方法) 等系列[11−13] ,目前在各类数据集上 测试效果最好的算法是 YOLO 系列的最新一代 YOLOv3[14−16] . 基于目标检测算法和监控系统,本文提出了 一种基于 YOLOv3 算法的无人机监测识别与定位 的方法,它直接对监控视频内容进行实时检测,识 别出无人机之后,用 PID 算法去控制摄像头移动 以追踪无人机. 根据两台或多台摄像头的参数,对 出现在多台监控摄像头中同一无人机进行坐标解 算从而定位无人机. 1 相关工作 目前为止,无人机的识别方法多种多样,方法 主要集中在图像识别、音频信号分析、频谱探测 以及雷达数据分析等方面. 电气电子工程师学会 (Institute of Electrical and Electronics Engineers, IEEE) 为了促进无人机识别的研究,甚至还为此举办了 无人机鸟类检测挑战大赛(Drone-vs-bird detection challenge) [17] . 下文介绍现已有的方法. 最早的研究采用雷达信号分析来探测无人 机,此方法首先利用多雷达对目标进行不同角度 的观测,然后对雷达数据进行短时傅里叶变化处 理以得到频谱图,接着利用主成分分析法从频谱 图中提取特征,再利用支持向量机进行训练与分 类识别[18] . 基于音频信号识别的方法主要是通过对无人 机的声音特性进行分析,在时域和频域分别对采 集的无人机音频信息进行分析和处理,借助梅尔 频率倒谱系数及线性预测倒谱系数等进行特征的 提取,用以建立无人机音频识别库,最后借助特征 匹配算法达到识别无人机的目的[19] . 随着机器学习算法的发展和应用,无人机识 别也有了新的手段. 通过摄像机自动侦测和追踪 小型飞行物获得不同角度拍摄到的无人机图片, 组成视频集,再用卷积神经网络来提取特征,采用 K 邻近算法对目标进行分类[20] . 此外,还有一种基 于迁移学习稀疏自动编码器 (Sparse auto-encoder, SAE) 的无人机识别算法,借助 SAE 对大量目标进 行无监督学习以获取局部特征,然后采用卷积神 经网络算法提取目标全局特征,由 Softmax 函数输 出结果实现对目标的分类. 2 无人机识别和定位方法 为了使用 YOLOv3 模型去检测无人机目标, 本文对模型做了一定的修改再进行训练,以获取 无人机在图像中的坐标信息,为后续的 PID 算法、 · 464 · 工程科学学报,第 42 卷,第 4 期
陶磊等:基于YOLOv3的无人机识别与定位追踪 465 坐标定位提供必要的输入信息. 60 YOLOv3 YOLOv3用于检测每一帧图像中的无人机,预 ·Others 同 测包含无人机的边界框和每个边界框的置信度, 56 以此来获取无人机在图像中的位置.根据预测框 相对于图像中心的位置偏差,来调整摄像头的方 52 回 向,然后根据两个或多个摄像头的参数来进行坐 0 标解算获取无人机的相对坐标 48 46 2.1Y0L0v3 回 目前为止,YOLO总计发布了三代算法,第一代 20 406080100120140160180 Inference time/ms YOLO的性能是低于SSD算法的,第二代YOLOv22 图1 YOLOv3的运行速度明显快于其他可比的目标检测算法4 在第一代的基础上增加了Batch normalization(批 Fig.1 YOLOv3 runs significantly faster than other detection methods 量归一化)、Dimension clusters(维度聚类)、Multi-. with comparable performance Scale training(多尺度训练)等优化手段,速度与准 确度都有了较大的提升,第三代YOLOv3则在第 YOLOv3的网络结构进行修改,YOLOv3网络有 二代的基础上使用了残差模型和FPN(Feature 53个卷积层,图2是YOLOv3的网络结构示意图. pyramid networks,,特征金字塔网络)架构,性能上 基于检测的目标种类,需要修改三个yolo预 有了进一步的提升,YOLOv3是目前效果最好的 测层之前的卷积层的滤波器数量: 目标检测算法之一,其应用范围也比较广泛.图1 filters =3 x(classes+5) (1) 是YOLO系列算法与其它目标检测算法的性能比 本文中需检测三种不同类型的无人机,故 较,所有算法均在相同平台上测试,测试集为 classes为3,将三个YOLO层之前的卷积层的滤波 COCO数据集P叫,mAP(Mean average precision,平均 器数量均修改为24. 准确度)为算法性能的衡量指标 2.2PID控制二轴云台相机 YOLOv3在VOC2007数据集上的评测有着卓越 二轴云台相机,如图3(a)所示.该相机的作用 的表现,可实现80种物体的实时目标检测.在本 在于控制摄像头移动以保持目标在视频中央.控 文的应用中.所使用的YOLOv3模型基于tensorflow 制模块是一个二轴云台,具有两个舵机,一个舵机 (谷歌深度学习框架)实现,只要训练YOLOv3模 负责控制摄像头左右移动,另一个控制摄像头上 型使其实现对无人机的检测.训练之前,需要对 下移动,每个舵机都具有180°的调节范围,控制效 Type Filters Size Output Predict three Convolutional 32 3×3 416×416 Convolutional Convolutional Conv2d Convolutional 64 3×3/2 208×208 set 3×3 1×1 Convolutional 32 1×1 1× Convolutional 64 1×1 Concatenate Residual 208×208 Convolutional IxI Convolutional 128 3x3/2 104×104 Up sanpling Convolutional 64 1×1 2× Convolutional 128 3×3 Convolutional Convolutional Residual 104×104 3×3 1×1 Predict two Convolutional 256 3x3/2 52×52 Convolutional 128 1×1 Convolutional Convolutional Conv2d Convolutional set 1×1 8× 3×3 1×1 Convolutional 256 3×3 Residual 52×52 Concatenate Convolutional Convolutional 256 3x3/2 26×26 3×3 Convolutional 256 1×1 Up sanpling 8× Convolutional 512 3×3 Convolutional 26×26 1×1 Convolutional Convolutional 1024 3x3/2 13×13 1×1 Convolutional 512 IxI Predict one + Convolutional 1024 3×3 Convolutional Convolutional Conv2d 13×13 set 3×3 1×1 图2 YOLOv3网络结构 Fig.2 YOLOv3 network structure
坐标定位提供必要的输入信息. YOLOv3 用于检测每一帧图像中的无人机,预 测包含无人机的边界框和每个边界框的置信度, 以此来获取无人机在图像中的位置. 根据预测框 相对于图像中心的位置偏差,来调整摄像头的方 向,然后根据两个或多个摄像头的参数来进行坐 标解算获取无人机的相对坐标. 2.1 YOLOv3 目前为止,YOLO 总计发布了三代算法,第一代 YOLO 的性能是低于 SSD 算法的,第二代 YOLOv2 在第一代的基础上增加了 Batch normalization(批 量归一化)、Dimension clusters(维度聚类)、MultiScale training(多尺度训练)等优化手段,速度与准 确度都有了较大的提升,第三代 YOLOv3 则在第 二代的基础上使用了残差模型 和 FPN( Feature pyramid networks,特征金字塔网络)架构,性能上 有了进一步的提升. YOLOv3 是目前效果最好的 目标检测算法之一,其应用范围也比较广泛. 图 1 是 YOLO 系列算法与其它目标检测算法的性能比 较 ,所有算法均在相同平台上测试 ,测试集 为 COCO 数据集[21] ,mAP(Mean average precision,平均 准确度) 为算法性能的衡量指标. YOLOv3 在 VOC2007 数据集上的评测有着卓越 的表现,可实现 80 种物体的实时目标检测. 在本 文的应用中,所使用的 YOLOv3 模型基于 tensorflow (谷歌深度学习框架)实现,只要训练 YOLOv3 模 型使其实现对无人机的检测. 训练之前,需要对 YOLOv3 的网络结构进行修改 , YOLOv3 网络有 53 个卷积层,图 2 是 YOLOv3 的网络结构示意图. 基于检测的目标种类,需要修改三个 yolo 预 测层之前的卷积层的滤波器数量: filters =3×(classes+5) (1) 本文中需检测三种不同类型的无人机 , 故 classes 为 3,将三个 YOLO 层之前的卷积层的滤波 器数量均修改为 24. 2.2 PID 控制二轴云台相机 二轴云台相机,如图 3(a)所示. 该相机的作用 在于控制摄像头移动以保持目标在视频中央. 控 制模块是一个二轴云台,具有两个舵机,一个舵机 负责控制摄像头左右移动,另一个控制摄像头上 下移动,每个舵机都具有 180°的调节范围,控制效 60 58 56 54 52 50 48 46 44 20 40 60 80 100 Inference time/ms mAP 120 140 160 180 YOLOv3 Others B C D E F G Method mAP-50 Time/ms [B]SSD32 I 45.4 61 [CIDSSD321 46.1 85 [D]R-FCN 51.9 85 [E1SSD513 50.4 125 [F]DSSD513 53.3 156 [G]FPN FRCN 59.1 172 YOLOv3-320 51.5 22 YOLOv3-416 55.3 29 YOLOv3-608 57.9 51 图 1 YOLOv3 的运行速度明显快于其他可比的目标检测算法[14] Fig.1 YOLOv3 runs significantly faster than other detection methods with comparable performance[14] Type Convolutional 32 3×3 416×416 Convolutional 64 3×3/2 208×208 1× Convolutional 32 1×1 Convolutional Residual 64 1×1 208×208 Filters Size Output Convolutional set Convolutional set Concatenate Convolutional 3×3 Convolutional 128 3×3/2 104×104 2× Convolutional 64 1×1 Convolutional Residual 128 3×3 104×104 Convolutional 256 3×3/2 52×52 8× Convolutional 128 1×1 Convolutional Residual 256 3×3 52×52 Convolutional 256 3×3/2 26×26 8× Convolutional 256 1×1 Convolutional 512 3×3 26×26 Convolutional 1024 3×3/2 13×13 4× Convolutional 512 1×1 Convolutional 1024 3×3 13×13 Up sanpling Convolutional 1×1 Predict three Conv2d 1×1 Convolutional set Concatenate Convolutional 3×3 Convolutional 1×1 Up sanpling Convolutional 1×1 Convolutional 3×3 Convolutional 1×1 Convolutional 3×3 Convolutional 1×1 Conv2d 1×1 Convolutional set Convolutional 3×3 Predict two Predict one Conv2d 1×1 图 2 YOLOv3 网络结构 Fig.2 YOLOv3 network structure 陶 磊等: 基于 YOLOv3 的无人机识别与定位追踪 · 465 ·
466 工程科学学报,第42卷,第4期 Center (w2h/2) Pan right Distance Tiltdown (a) (b) 图3云台相机原理图.(a)二轴云台相机:(b)PD控制摄像头追踪无人机 Fig.3 Schematic of pan and tile camera:(a)pan and tile camera:(b)tracking drones with PID control 果图如图3(b)所示 距离d,单位为m;(2)摄像头A的垂直方向角度 PID算法如下所示: a与水平方向角度a',单位均为rad;(3)摄像头B的 u0=e0+长erna+智 (2) 垂直方向角度B与水平方向角度B,单位均为rad. 其中,)为系统输出,表示舵机转动角度,rad; e()为图像中心与无人机中心的偏离角度,rad; K,、K、K均为常数系数,分别对应比例增益、积 分增益、微分增益 该公式由比例、积分、微分三部分组成,第一 部分使得摄像头跟随无人机移动而转动,积分部 分用来消除稳定误差,防止无人机不在视频中心, 微分部分则用来控制偏差的变化率. 如图4中流程图所示,借助OpenCV(计算机 国5解算无人机坐标 视觉库)处理摄像头视频流,对视频流中的每一帧 Fig.5 Solve the coordinates of the drone 图片进行YOLOv3检测,获取图片中无人机的位 当有两台摄像头捕捉到同一台无人机后,可 置后,计算其中心与图片中心的距离,将距离参数 以根据两个摄像头的参数来求解无人机坐标.以 传递给PID进程进行运算,从而控制舵机转动. 摄像头A所在位置为原点建立三维坐标系,由正 弦定理可得: Camera d sinF-sin(π-a'-B (3) Next Frame PID 无人机在摄像头A坐标系下的坐标为 (Pan and tilt) (Icosa',Isina',Itana),(Xa,YA,ZA)为A的世界坐标, YOLOv3 则无人机的世界坐标为: Failure Success (Icosa'+XA,Isina'+YA,Itana+ZA) (4) No object Object coordinate 3实验结果 图4PID控制流程图 3.1数据集 Fig.4 PID algorithm flowchart 为了获取足够多的无人机图片组成数据集, 2.3无人机定位 从互联网上爬取了大量无人机图片.此外拍摄了 本文所提出的无人机定位方法如图5所示,可 一些无人机照片,对其进行裁剪后加入到数据集 以得到摄像头的基本参数:(1)两个摄像头之间的 中,然后按照旋翼数量的特点对图片进行筛选分
果图如图 3(b)所示. PID 算法如下所示: u(t) = Kpe(t)+Ki w t 0 e(t ′ )dt ′ +Kd de(t) dt (2) 其中 , u(t) 为系统输出 ,表示舵机转动角度 , rad; e(t) 为图像中心与无人机中心的偏离角度 , rad; Kp、Ki、Kd 均为常数系数,分别对应比例增益、积 分增益、微分增益. 该公式由比例、积分、微分三部分组成,第一 部分使得摄像头跟随无人机移动而转动,积分部 分用来消除稳定误差,防止无人机不在视频中心, 微分部分则用来控制偏差的变化率. 如图 4 中流程图所示,借助 OpenCV(计算机 视觉库)处理摄像头视频流,对视频流中的每一帧 图片进行 YOLOv3 检测,获取图片中无人机的位 置后,计算其中心与图片中心的距离,将距离参数 传递给 PID 进程进行运算,从而控制舵机转动. 2.3 无人机定位 本文所提出的无人机定位方法如图 5 所示,可 以得到摄像头的基本参数:(1)两个摄像头之间的 α α ′ β β ′ 距离 d,单位为 m;(2)摄像头 A 的垂直方向角度 与水平方向角度 ,单位均为 rad;(3)摄像头 B 的 垂直方向角度 与水平方向角度 ,单位均为 rad. 当有两台摄像头捕捉到同一台无人机后,可 以根据两个摄像头的参数来求解无人机坐标. 以 摄像头 A 所在位置为原点建立三维坐标系,由正 弦定理可得: l sinβ ′ = d sin(π −α′ −β ′ ) (3) (l cosα ′ ,lsinα ′ ,ltanα) 无 人 机 在 摄 像 头 A 坐 标 系 下 的 坐 标 为 , (XA,YA,ZA) 为 A 的世界坐标, 则无人机的世界坐标为: (l cosα ′+XA,lsinα ′ +YA,ltanα+ZA) (4) 3 实验结果 3.1 数据集 为了获取足够多的无人机图片组成数据集, 从互联网上爬取了大量无人机图片. 此外拍摄了 一些无人机照片,对其进行裁剪后加入到数据集 中,然后按照旋翼数量的特点对图片进行筛选分 y x Center (w/2,h/2) Pan right Tilt down Distance (a) (b) 图 3 云台相机原理图. (a)二轴云台相机;(b)PID 控制摄像头追踪无人机 Fig.3 Schematic of pan and tile camera: (a) pan and tile camera;(b) tracking drones with PID control Camera Frame Next No object Object coordinate YOLOv3 Failure Success PID (Pan and tilt) 图 4 PID 控制流程图 Fig.4 PID algorithm flowchart z z x x d y y α β A B 图 5 解算无人机坐标 Fig.5 Solve the coordinates of the drone · 466 · 工程科学学报,第 42 卷,第 4 期
陶磊等:基于YOLOv3的无人机识别与定位追踪 467 类,得到单旋翼无人机图片150张、四旋翼无人机 模型每秒14帧的速度有了较大的提升.该速度足 图片155张和多旋翼无人机图片158张.之后用 够让摄像头去追踪飞行的无人机并解算出无人机 labellmg软件对图片中的无人机进行标注,每一张 的坐标.图6是YOLOv3模型与SSD模型的实测 图片均有与之相对应的注释文件,里边有包含无 效果图对比,SSD的预测框效果优于YOLOV3,但 人机边界框的位置大小和信息: 速度上不及YOLOv3,考虑到实时性的要求,在实 [top_x topy width height] (5) 际应用场景中,选择YOLOv3更合适 3.2训练结果 采用迁移学习对无人机图片数据集进行训练2-2), 表1模型的准确率和召回率 Table 1 Precision and recall of model 90%的图片用于训练,10%的图片用于测试.基于 Recall/% YOLOv:3已有的预训练权重,在配备NVIDIA GTX Index Counts Categories Accuracy/% 1 150 Single rotor 88.00 86.00 1060的电脑上进行了10万次训练,训练出来的模 155 78.06 92.23 型能够达到83.24%的准确率和88.15%的召回率, Four rotors 158 Multiple rotors 83.54 86.16 结果如表1所示.使用该模型进行实时测试处理 Average 83.24 88.15 速度能达到每秒20帧,在同一平台上相较于SSD 图6SSD及YOLOv3的检测结果(图片上方是SSD模型的检测结果,下方是YOLOv.3的检测结果) Fig.6 SSD and YOLO's test results(Above the picture is the test result of the SSD model,below is the test result of YOLOv3) 4结论 magnetic sensing technology.Int J Appl Math Comput Sci,2006, 1:195 (1)训练好的YOLOv3模型在测试集上能够 [21 de Haag M U,Bartone C G,Braasch M S.Flight-test evaluation of 达到83.24%的准确率和88.15%的召回率 small form-factor LiDAR and radar sensors for sUAS detect-and- (2)在NVIDIA GTX1060平台上实时测试模 avoid applications I/2016 IEEEIALAA 35th Digital Avionics 型能够达到每秒20帧的速度,对视频帧进行目标 Systems Conference (DASC).Sacramento,2016:1 检测能获取无人机的位置信息,实现对无人机的 [3] Saqib M,Khan S D,Sharma N,et al.A study on detecting drones 追踪. using deep convolutional neural networks /2017 14th IEEE (3)根据两个或多个摄像头的参数,能实时解 International Conference on Advanced Video and Signal Based Surveillance (AVSS).Lecce,2017:1 算出无人机的空间坐标,实现对无人机的定位 [4]Aker C,Kalkan S.Using deep networks for drone detection //2017 对于今后的工作,我们准备获取更多场景下的 14th IEEE International Conference on Advanced Video and 无人机数据集来进行模型训练,选取速度更快、占 Signal Based Surveillance (AVSS).Lecce,2017:1 用资源更小的模型来进行无人机识别,让模型能 [5] Ganti S R.Kim Y.Implementation of detection and tracking 够摆脱对显卡的依赖,使该系统的成本更加低廉 mechanism for small UAS /2016 International Conference on Unmanned Aircraft Systems (ICUAS).Arlington,2016:1254 参考文献 [6]Nam H.Han B.Leaming multi-domain convolutional neural [1]Dimitropoulos K,Grammalidis N,Gragopoulos I,et al.Detection, networks for visual tracking Proceedings of the IEEE tracking and classification of vehicles and aircraft based on Conference on Computer Vision and Pattern Recognition.Las
类,得到单旋翼无人机图片 150 张、四旋翼无人机 图片 155 张和多旋翼无人机图片 158 张. 之后用 labellmg 软件对图片中的无人机进行标注,每一张 图片均有与之相对应的注释文件,里边有包含无 人机边界框的位置大小和信息: [top_x top_y width height] (5) 3.2 训练结果 采用迁移学习对无人机图片数据集进行训练[22−23] , 90% 的图片用于训练,10% 的图片用于测试. 基于 YOLOv3 已有的预训练权重,在配备 NVIDIA GTX 1060 的电脑上进行了 10 万次训练,训练出来的模 型能够达到 83.24% 的准确率和 88.15% 的召回率, 结果如表 1 所示. 使用该模型进行实时测试处理 速度能达到每秒 20 帧,在同一平台上相较于 SSD 模型每秒 14 帧的速度有了较大的提升. 该速度足 够让摄像头去追踪飞行的无人机并解算出无人机 的坐标. 图 6 是 YOLOv3 模型与 SSD 模型的实测 效果图对比,SSD 的预测框效果优于 YOLOv3,但 速度上不及 YOLOv3,考虑到实时性的要求,在实 际应用场景中,选择 YOLOv3 更合适. 4 结论 (1)训练好的 YOLOv3 模型在测试集上能够 达到 83.24% 的准确率和 88.15% 的召回率. (2)在 NVIDIA GTX 1060 平台上实时测试模 型能够达到每秒 20 帧的速度,对视频帧进行目标 检测能获取无人机的位置信息,实现对无人机的 追踪. (3)根据两个或多个摄像头的参数,能实时解 算出无人机的空间坐标,实现对无人机的定位. 对于今后的工作,我们准备获取更多场景下的 无人机数据集来进行模型训练,选取速度更快、占 用资源更小的模型来进行无人机识别,让模型能 够摆脱对显卡的依赖,使该系统的成本更加低廉. 参 考 文 献 Dimitropoulos K, Grammalidis N, Gragopoulos I, et al. Detection, tracking and classification of vehicles and aircraft based on [1] magnetic sensing technology. Int J Appl Math Comput Sci, 2006, 1: 195 de Haag M U, Bartone C G, Braasch M S. Flight-test evaluation of small form-factor LiDAR and radar sensors for sUAS detect-andavoid applications // 2016 IEEE/AIAA 35th Digital Avionics Systems Conference (DASC). Sacramento, 2016: 1 [2] Saqib M, Khan S D, Sharma N, et al. A study on detecting drones using deep convolutional neural networks // 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Lecce, 2017: 1 [3] Aker C, Kalkan S. Using deep networks for drone detection // 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Lecce, 2017: 1 [4] Ganti S R, Kim Y. Implementation of detection and tracking mechanism for small UAS // 2016 International Conference on Unmanned Aircraft Systems (ICUAS). Arlington, 2016: 1254 [5] Nam H, Han B. Learning multi-domain convolutional neural networks for visual tracking // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las [6] 表 1 模型的准确率和召回率 Table 1 Precision and recall of model Index Counts Categories Accuracy/% Recall/% 1 150 Single rotor 88.00 86.00 2 155 Four rotors 78.06 92.23 3 158 Multiple rotors 83.54 86.16 Average 83.24 88.15 Drone: 1.00 Drone: 0.98 Drone: 1.00 Drone: 0.94 Drone Drone Drone Drone 图 6 SSD 及 YOLOv3 的检测结果(图片上方是 SSD 模型的检测结果,下方是 YOLOv3 的检测结果) Fig.6 SSD and YOLO’s test results (Above the picture is the test result of the SSD model, below is the test result of YOLOv3) 陶 磊等: 基于 YOLOv3 的无人机识别与定位追踪 · 467 ·
468 工程科学学报,第42卷,第4期 Vegas,,2016:4293 unified,real-time object detection /Proceedings of the IEEE [7]Zhang D.Maei H.Wang X,et al.Deep reinforcement learning for Conference on Computer Vision and Pattern Recognition.Las visual object tracking in videos[J/OL].arXiv preprint (2017-04- Vegas,2016:779 10)[2019-09-10.https://arxiv.org/abs/1701.08936 [17]Coluccia A,Fascista A,Schumann A,et al.Drone-vs-Bird [8]Xi X.Yu Z.Zhan Z,et al.Multi-task cost-sensitive-convolutional detection challenge at IEEE AVSS2019//2019 16th IEEE neural network for car detection./EEE Access,2019,7:98061 International Conference on Advanced Video and Signal Based [9] Wu Y W,Sui Y,Wang G H.Vision-based real-time aerial object Surveillance (AVSS).Taipei,2019:1 localization and tracking for UAV sensing system.IEEE Access, [18]Liu H,Wei Z Q,Chen Y T,et al.Drone detection based on an 2017,5:23969 audio-assisted camera array 2017 IEEE Third International [10]Rozantsev A,Lepetit V,Fua P.Flying objects detection from a Conference on Multimedia Big Data (BigMM).Laguna Hills, single moving camera ll Proceedings of the IEEE Conference on 2017:402 Computer Vision and Pattern Recognition.Boston,2015:4128 [19]Mezei J,Fiaska V,Molnar A.Drone sound detection //2015 16th [11]Girshick R.Fast R-CNN /Proceedings of the IEEE International IEEE International Symposium on Computational Intelligence and Conference on Computer Vision.Santiago,2015:1440 Informatics (CINTD).Budapest,2015:333 [12]Ren S,He K,Girshick R,et al.Faster r-cnn:towards real-time [20]Nguyen P,Ravindranatha M,Nguyen A,et al.Investigating cost- object detection with region proposal networks /Advances in effective rf-based detection of drones /Proceedings of the 2nd Neural Information Processing Systems.Canada,2015:91 Workshop on Micro Aerial Vehicle Networks.Systems,and [13]Liu W.Anguelov D.Erhan D,et al.SSD:single shot multibox Applications for Civilian Use.Singapore,2016:17 detector /European Conference on Computer Vision.Amsterdam, [21]Lin T Y,Maire M,Belongie S,et al.Microsoft coco:common 2016:21 objects in context /European Conference on Computer Vision. [14]Redmon J,Farhadi A.Yolov3:an incremental Zurich,2014:740 improvement[J/OL].arXiv preprint (2018-04-08)[2019-09-10]. [22]Deng J.Dong W,Socher R,et al.Imagenet:a large-scale https://arxiv.org/abs/1804.02767 hierarchical image database/009 IEEE Conference on Computer [15]Redmon J.Farhadi A.YOLO9000:better,faster,stronger / Vision and Pattern Recognition.Miami,2009:248 Proceedings of the IEEE Conference on Computer Vision and [23]Kingma D P,Ba J.Adam:a method for stochastic Pattern Recognition.Honolulu,2017:7263 optimization[J/OL].arXiy preprint (2017-01-30)[2019-09-10]. [16]Redmon J,Divvala S,Girshick R,et al.You only look once: https://arxiv.org/abs/1412.6980
Vegas, 2016: 4293 Zhang D, Maei H, Wang X, et al. Deep reinforcement learning for visual object tracking in videos[J/OL]. arXiv preprint (2017-04- 10)[2019-09-10]. https://arxiv.org/abs/1701.08936 [7] Xi X, Yu Z, Zhan Z, et al. Multi-task cost-sensitive-convolutional neural network for car detection. IEEE Access, 2019, 7: 98061 [8] Wu Y W, Sui Y, Wang G H. Vision-based real-time aerial object localization and tracking for UAV sensing system. IEEE Access, 2017, 5: 23969 [9] Rozantsev A, Lepetit V, Fua P. Flying objects detection from a single moving camera // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, 2015: 4128 [10] Girshick R. Fast R-CNN // Proceedings of the IEEE International Conference on Computer Vision. Santiago, 2015: 1440 [11] Ren S, He K, Girshick R, et al. Faster r-cnn: towards real-time object detection with region proposal networks // Advances in Neural Information Processing Systems. Canada, 2015: 91 [12] Liu W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector // European Conference on Computer Vision. Amsterdam, 2016: 21 [13] Redmon J, Farhadi A. Yolov3: an incremental improvement[J/OL]. arXiv preprint (2018-04-08)[2019-09-10]. https://arxiv.org/abs/1804.02767 [14] Redmon J, Farhadi A. YOLO9000: better, faster, stronger // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 7263 [15] [16] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 779 Coluccia A, Fascista A, Schumann A, et al. Drone-vs-Bird detection challenge at IEEE AVSS2019// 2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Taipei, 2019: 1 [17] Liu H, Wei Z Q, Chen Y T, et al. Drone detection based on an audio-assisted camera array // 2017 IEEE Third International Conference on Multimedia Big Data (BigMM). Laguna Hills, 2017: 402 [18] Mezei J, Fiaska V, Molnár A. Drone sound detection // 2015 16th IEEE International Symposium on Computational Intelligence and Informatics (CINTI). Budapest, 2015: 333 [19] Nguyen P, Ravindranatha M, Nguyen A, et al. Investigating costeffective rf-based detection of drones // Proceedings of the 2nd Workshop on Micro Aerial Vehicle Networks, Systems, and Applications for Civilian Use. Singapore, 2016: 17 [20] Lin T Y, Maire M, Belongie S, et al. Microsoft coco: common objects in context // European Conference on Computer Vision. Zurich, 2014: 740 [21] Deng J, Dong W, Socher R, et al. Imagenet: a large-scale hierarchical image database // 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, 2009: 248 [22] Kingma D P, Ba J. Adam: a method for stochastic optimization[J/OL]. arXiv preprint (2017-01-30)[2019-09-10]. https://arxiv.org/abs/1412.6980 [23] · 468 · 工程科学学报,第 42 卷,第 4 期