点云数据的深度学习处理方法 刘旭辉·,王宏燕° a.北京航空航天大学电子信息工程,北京海淀100191:b.北京航空航天大学医工交又创新研究院,北京海淀10019 c.西安卫星测控中心,陕西西安710000 摘要:随着自动驾驶的快速发展,对环境感知的要求也越来越高。作为自动驾驶 汽车最重要的传感器之一,激光雷达可以通过扫描周围环境得到点云数据。使用合 适的方法处理点云数据,我们可以获得目标物体的种类、距离、方位等。因此,点 云数据的处理成为了自动驾驶行业的一大热点。深度学习在图像上的巨大成功给我 们启发,近年来业内提出了很多基于深度学习的点云处理方法,如多视角投影、体 素化网格等等,但有着各方面的缺陷。 PointNet的提出开拓了全新的处理点云的方 法,即直接在点云上应用深度学习模型,并解决了点云数据的无序性、无结构性的 问题。但是其应用的最大池化对称函数舍弃了太多信息,在实际应用时方差较大 针对该问题,本文提出了新的解决点云数据无序性和保证空间变化不变性的方法。 在解决无序性问题时,用全局最大池化和全局平均池化分别处理每一维的点云数据 然后将得到的两个向量串联得到全局特征。在保证空间变化不变性的同时,对学习 转换矩阵的特征提取中,也引入了全局最大池化和全局平均池化方法,以得到与数 据集更加匹配的转换矩阵。实验证明,本文的方法有效地提高了分类结果的平均准 确率,并减小了准确率方差。 关镳词:自动驾驶;点云数据;深度学习 中图分类号:U461.99 Deep learning Processing Method for Point Cloud Data Liu Xuhui, Wang Hongyan f Electronic and Information Engineering, Beihang University, Beijing, 100191 Advanced Innovation Center for Big Data-based Precision Medicine( Beihang University ) Beijing P.R. China, 100191; 3. Xi'an Satellite Control Center, Shaanxi Xi'an, 710000) Abstract: With the rapid development of autonomous driving, the requirements for environmental awareness are getting higher and higher. As one of the most important sensors for autonomous vehicles, Lidar can get point cloud data by scanning the surrounding environment. Using the appropriate method to process point cloud data, we can obtain the type, distance, orientation, etc. of the target object. Therefore, the processing of point cloud data has become a hot spot in the autopilot industry. The great success of deep learning in images has inspired us. In recent years, many point cloud processing methods using deep learning model have been proposed in the industry, such as multi-view projection, voxel grid (c)1994-2019ChinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net
点云数据的深度学习处理方法 刘旭辉 a,b,王宏燕 c (a. 北京航空航天大学电子信息工程,北京 海淀 100191; b. 北京航空航天大学医工交叉创新研究院,北京 海淀 100191; c. 西安卫星测控中心,陕西 西安 710000) 摘 要: 随着自动驾驶的快速发展,对环境感知的要求也越来越高。作为自动驾驶 汽车最重要的传感器之一,激光雷达可以通过扫描周围环境得到点云数据。使用合 适的方法处理点云数据,我们可以获得目标物体的种类、距离、方位等。因此,点 云数据的处理成为了自动驾驶行业的一大热点。深度学习在图像上的巨大成功给我 们启发,近年来业内提出了很多基于深度学习的点云处理方法,如多视角投影、体 素化网格等等,但有着各方面的缺陷。PointNet 的提出开拓了全新的处理点云的方 法,即直接在点云上应用深度学习模型,并解决了点云数据的无序性、无结构性的 问题。但是其应用的最大池化对称函数舍弃了太多信息,在实际应用时方差较大。 针对该问题,本文提出了新的解决点云数据无序性和保证空间变化不变性的方法。 在解决无序性问题时,用全局最大池化和全局平均池化分别处理每一维的点云数据, 然后将得到的两个向量串联得到全局特征。在保证空间变化不变性的同时,对学习 转换矩阵的特征提取中,也引入了全局最大池化和全局平均池化方法,以得到与数 据集更加匹配的转换矩阵。实验证明,本文的方法有效地提高了分类结果的平均准 确率,并减小了准确率方差。 关键词: 自动驾驶;点云数据;深度学习 中图分类号:U461.99 Deep Learning Processing Method for Point Cloud Data Liu Xuhui 1,2 , Wang Hongyan3 (1. School of Electronic and Information Engineering, Beihang University, Beijing, 100191; 2. Beijing Advanced Innovation Center for Big Data-based Precision Medicine(Beihang University), Beijing P.R.China , 100191; 3. Xi'an Satellite Control Center, Shaanxi Xi'an, 710000) Abstract: With the rapid development of autonomous driving, the requirements for environmental awareness are getting higher and higher. As one of the most important sensors for autonomous vehicles, Lidar can get point cloud data by scanning the surrounding environment. Using the appropriate method to process point cloud data, we can obtain the type, distance, orientation, etc. of the target object. Therefore, the processing of point cloud data has become a hot spot in the autopilot industry. The great success of deep learning in images has inspired us. In recent years, many point cloud processing methods using deep learning model have been proposed in the industry, such as multi-view projection, voxel grid
etc, but have various defects. PointNet has opened up a new way to deal with point clouds, which is to apply the deep learning model directly on the point cloud, and solve the problem of disorder and non-structurality of point cloud data. However, the maxpooling symmetric function of its application discards too much information, and the variance is large in practical applications. Aiming at solving this problem, this paper proposes a new method to solve the disorder of point cloud data and ensure the invariance of spatial variation. When solving the disorder problem, the global maxpooling and the global average pooling are used to process the point cloud data of each dimension separately, and then the obtained two vectors are connected in series to obtain global features. While ensuring the spatial variation invariance, the global maximum pooling and global average pooling methods are also introduced in the feature extraction of the learning transformation matrix to obtain a transformation matrix that f improves the average accuracy of classification results and reduces the accuracy variance %. more closely matches the dataset. Experiments show that the proposed method effectively ey words: autonomous driving; point cloud; deep learning 引言 近年来,随着人工智能技术的迅速发展,传统汽车行业与信息技术结合,在自动驾驶技 术方面的研究取得了长足进步。自动驾驶技术飞速发展,在工业界和学术界都掀起了巨大的 研发热潮,现有的技术多以高级辅助驾驶系统的形式出现,这些技术的目的是减少交通事故 的数量和严重性,提高残疾人和老年人的活动性,减少排放,以及提高交通基础设施的使用 效率。加速无人驾驶技术发展的一个重要的动机是避免人为因素造成的错误,如注意力分散、 疲劳驾驶等。对我中国而言,随着国内经济的持续增长,居民的生活水平不断提高,终端消 费市场活跃加速了汽车科技进步,未来市场巨大吸引大量资本进入,加速了产业发展和升级 国内汽车保有量大量增加,交通事故频发,城市道路通行效率低,自动驾驶被认为是解决上 述问题的重要途径。发展自动驾驶技术的必要性和潜力巨大,可以预见,自动驾驶汽车将成 为继手机之后又一个大有可为的移动终端。其中,环境感知作为自动驾驶汽车中的一环发挥 着不可替代的作用,而激光雷达作为环境感知模块中最为重要的传感器之一,可以通过扫描 汽车周围环境,获得点云数据。通过对点云数据的处理可以获得丰富的信息,如物体的距离 方位、高度、姿态等等。因此,如何处理点云数据实现感知功能越来越成为当下的一个热点 问题。 随着图形处理器GPU计算性能飞速増长,使得计算机硬件计算能力的大大提高,使用深 度学习网络处理图像,实现分类、检测等任务已取得了十分理想的成果。因为点云数据是 个由无序的数据点的集合,所以要将深度学习网络模型处理点云数据前,需要对点云数据进 行处理。现在的方法主要有:将点云投影到一定视角下的二维空间,如MV3D[1]将点云数据 投影到鸟瞰图和前视图;将点云数据划分为具有空间依赖关系的体素网格,如[3][5][7]将 3D点云量化为常规的体素网格。而2017年, Charles提出了全新的点云处理模型-,即使用数 据点级别的深度学习模型直接在点云数据集上进行处理,并且在3D点云分类和场景分割任务 上有着十分显著的表现。 然而, Pointnet中在提取点云特征后,为了解决点云数据集无序性、无结构的问题,使 用最大池化的方法处理每一维特征信息,直接丢弃了除了最大值以外的所有输入信息。为了 (c)1994-2019ChinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net
etc., but have various defects. PointNet has opened up a new way to deal with point clouds, which is to apply the deep learning model directly on the point cloud, and solve the problem of disorder and non-structurality of point cloud data. However, the maxpooling symmetric function of its application discards too much information, and the variance is large in practical applications. Aiming at solving this problem, this paper proposes a new method to solve the disorder of point cloud data and ensure the invariance of spatial variation. When solving the disorder problem, the global maxpooling and the global average pooling are used to process the point cloud data of each dimension separately, and then the obtained two vectors are connected in series to obtain global features. While ensuring the spatial variation invariance, the global maximum pooling and global average pooling methods are also introduced in the feature extraction of the learning transformation matrix to obtain a transformation matrix that more closely matches the dataset. Experiments show that the proposed method effectively improves the average accuracy of classification results and reduces the accuracy variance. key words: autonomous driving; point cloud; deep learning 一、引言 近年来,随着人工智能技术的迅速发展,传统汽车行业与信息技术结合,在自动驾驶技 术方面的研究取得了长足进步。自动驾驶技术飞速发展,在工业界和学术界都掀起了巨大的 研发热潮,现有的技术多以高级辅助驾驶系统的形式出现,这些技术的目的是减少交通事故 的数量和严重性,提高残疾人和老年人的活动性,减少排放,以及提高交通基础设施的使用 效率。加速无人驾驶技术发展的一个重要的动机是避免人为因素造成的错误,如注意力分散、 疲劳驾驶等。对我中国而言,随着国内经济的持续增长,居民的生活水平不断提高,终端消 费市场活跃加速了汽车科技进步,未来市场巨大吸引大量资本进入,加速了产业发展和升级。 国内汽车保有量大量增加,交通事故频发,城市道路通行效率低,自动驾驶被认为是解决上 述问题的重要途径。发展自动驾驶技术的必要性和潜力巨大,可以预见,自动驾驶汽车将成 为继手机之后又一个大有可为的移动终端。其中,环境感知作为自动驾驶汽车中的一环发挥 着不可替代的作用,而激光雷达作为环境感知模块中最为重要的传感器之一,可以通过扫描 汽车周围环境,获得点云数据。通过对点云数据的处理可以获得丰富的信息,如物体的距离、 方位、高度、姿态等等。因此,如何处理点云数据实现感知功能越来越成为当下的一个热点 问题。 随着图形处理器GPU计算性能飞速增长,使得计算机硬件计算能力的大大提高,使用深 度学习网络处理图像,实现分类、检测等任务已取得了十分理想的成果。因为点云数据是一 个由无序的数据点的集合,所以要将深度学习网络模型处理点云数据前,需要对点云数据进 行处理。现在的方法主要有:将点云投影到一定视角下的二维空间,如MV3D[1]将点云数据 投影到鸟瞰图和前视图;将点云数据划分为具有空间依赖关系的体素网格,如[3][5][7]将 3D点云量化为常规的体素网格。而2017年,Charles提出了全新的点云处理模型-,即使用数 据点级别的深度学习模型直接在点云数据集上进行处理,并且在3D点云分类和场景分割任务 上有着十分显著的表现。 然而,PointNet中在提取点云特征后,为了解决点云数据集无序性、无结构的问题,使 用最大池化的方法处理每一维特征信息,直接丢弃了除了最大值以外的所有输入信息。为了
得到包含更多点云信息的特征向量,本文提出一种新的提取全局特征的方法。受 network in network[15]的启发,我们认为全局平均池化操作可以保证对点云顺序的不变性,且包含了 更多的点云信息。因此,将全局最大池化结果与全局平均池化结果相串联,再进行分类,相 对于直接做最大池化,可有效避免一些极端情况的发生,提升模型的稳定性。与其他点云处 理方法相比,我们这种方法在保证一定的准确度的基础上,计算量大大减少,有着很大的竞 争力 我们的模型最主要的部分是在提取点云特征后,分别对特征做全局最大池化和全局平均 池化,然后将两种池化结果相串联,再通过多层感知机进行分类。我们主要的目标任务是点 云数据分类,在自动驾驶场景下,通过点云数据,我们能够分辨出车辆运行中障碍物的种类, 从而方便进一步的决策。相对于摄像头,激光雷达的感知视野范围更大,获取信息更加丰富, 所以该课题有着十分重要的意义。我们在 ShapeNetcore公开数据集上进行了大量的实验,有 效地提高了分类结果的平均准确率,并减小了准确率方差。 二、相关研究工作 (一)激光雷达点云数据 激光雷达,即 LIDAR( Light Detection and ranging),是目前自动驾驶汽车应用最广 泛的传感器之一,在自动驾驶中有两个核心功能:3D环境感知和SLAM加强定位。在3D环境感 知方面,激光雷达通过扫描周围环境得到点云数据,包含丰富的信息,通过处理激光雷达点 云数据我们能够得到目标物体的种类、距离、方位等信息。 点云数据实际上是一个由无序的、无结构的数据点组成的集合,因此我们在处理点云数 据的时候,既要保证对点云的不同排列保持不变性,又要保证对一些空间变换保持不变性 [8][9]。 (二)深度学习在3D点云数据上的应用 1.多视角化投影 多视角化即将3D点云数据投影到一些固定的2D视角,从而应用一些2D视角下的卷积神经 网络的处理方法。MV3D[1]先将点云数据投影到鸟瞰图和前视图,通过鸟瞰图得到目标物体 位置,并与前视图和RGB图像信息这些不同视角下的数据想结合。AVOD[6]同样将点云数据投 影到鸟瞰视角,并结合摄像头提供的图像信息,实现在3D点云数据的认知任务。但是,这种 方法丢弃了一些3D视角下的优势,使得辨别空间几何关系时有所损失,比如2D上图片的遮挡 问题会影响对全局和局部信息的理解 2体素化网格 目前,很多工作是将点云数据划分为在空间上具有依赖关系的体素化网格,这种排布事 由一定空间结构的,类比于2维图像处理,可以进行三维卷积处理。如[3][5][7]将3D数据量 化为常规的体素网格,[12]将整个场景下的点云转化成体素网格,然后使用3D体素卷积神经 (c)1994-2019ChinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net
得到包含更多点云信息的特征向量,本文提出一种新的提取全局特征的方法。受network in network[15]的启发,我们认为全局平均池化操作可以保证对点云顺序的不变性,且包含了 更多的点云信息。因此,将全局最大池化结果与全局平均池化结果相串联,再进行分类,相 对于直接做最大池化,可有效避免一些极端情况的发生,提升模型的稳定性。与其他点云处 理方法相比,我们这种方法在保证一定的准确度的基础上,计算量大大减少,有着很大的竞 争力。 我们的模型最主要的部分是在提取点云特征后,分别对特征做全局最大池化和全局平均 池化,然后将两种池化结果相串联,再通过多层感知机进行分类。我们主要的目标任务是点 云数据分类,在自动驾驶场景下,通过点云数据,我们能够分辨出车辆运行中障碍物的种类, 从而方便进一步的决策。相对于摄像头,激光雷达的感知视野范围更大,获取信息更加丰富, 所以该课题有着十分重要的意义。我们在ShapeNetCore公开数据集上进行了大量的实验,有 效地提高了分类结果的平均准确率,并减小了准确率方差。 二、相关研究工作 (一)激光雷达点云数据 激光雷达,即LIDAR(Light Detection and Ranging),是目前自动驾驶汽车应用最广 泛的传感器之一,在自动驾驶中有两个核心功能:3D环境感知和SLAM加强定位。在3D环境感 知方面,激光雷达通过扫描周围环境得到点云数据,包含丰富的信息,通过处理激光雷达点 云数据我们能够得到目标物体的种类、距离、方位等信息。 点云数据实际上是一个由无序的、无结构的数据点组成的集合,因此我们在处理点云数 据的时候,既要保证对点云的不同排列保持不变性,又要保证对一些空间变换保持不变性 [8][9]。 (二)深度学习在3D点云数据上的应用 1.多视角化投影 多视角化即将3D点云数据投影到一些固定的2D视角,从而应用一些2D视角下的卷积神经 网络的处理方法。MV3D[1]先将点云数据投影到鸟瞰图和前视图,通过鸟瞰图得到目标物体 位置,并与前视图和RGB图像信息这些不同视角下的数据想结合。AVOD[6]同样将点云数据投 影到鸟瞰视角,并结合摄像头提供的图像信息,实现在3D点云数据的认知任务。但是,这种 方法丢弃了一些3D视角下的优势,使得辨别空间几何关系时有所损失,比如2D上图片的遮挡 问题会影响对全局和局部信息的理解。 2.体素化网格 目前,很多工作是将点云数据划分为在空间上具有依赖关系的体素化网格,这种排布事 由一定空间结构的,类比于2维图像处理,可以进行三维卷积处理。如[3][5][7]将3D数据量 化为常规的体素网格,[12]将整个场景下的点云转化成体素网格,然后使用3D体素卷积神经
网络来做分类任务和目标检测任务。但是,体素化处理有着两个方面的缺陷:数据的稀疏性 和计算量的增加。一方面,3D点云数据密度分布不均匀,某些区域点云较为稀疏,会给提取 特征造成一定的影响。[10][11]的提出在某些程度上解决了数据稀疏的问题,但是体素化处 理后的表现仍然没有直接在点云数据上使用深度学习模型好。另一方面是相对于二维卷积 因为多了一个维度,体素化处理后的三维卷积使得计算量大大增加,空间复杂度很高,效率 就有所下降。 (三)深度学习在点云上的直接处理 近年来,研究者们提出了一系列在点云数据上直接应用深度学习模型的方法 PointNet[2]作为开拓者,指明了该领域的一大方向。针对点云的无序性问题, PointNet提 出使用 maxpooling这种对称函数来保证排列的不变性;针对保证空间变换不变性的问题, Pointnet提出在提取特征之前,先对点云数据进行对齐,具体操作是由一个空间变换网络得 到转换矩阵后,与点云相乘完成对齐操作。 Pointnet++[4]针对 PointNet局部特征提取不理 想的缺点,提出了一个分级神经网络来提取局部特征。每个分层结构由采样层、分组层、特 征提取层组成,即对每个点,按照一定规则组成一个局部区域,然后对该区域点云使用 PointNet提取特征,大大提高了分类和场景分割的效果。 PointSIFTI4针对点云的无序性 提出了一种方向编码单元,对三维坐标系中八个方向中最近的点进行卷积,并且基于 PointNet艹+的结构堆叠多次方向编码单元,使得网络结构有了多尺度感知的能力。实验证明 其有着很好的效果,但是其对八个方向的数据点进行卷积,并且沿用了 PointNet++的结构 使得计算量大大增加。F- PointNet[13]结合RGB图像,首先得到二维坐标中的检测框,据此 得到点云中相对应的一个椎体( Frustum),进而使用 PointNet或者 PointNet+结构提取特征 做3D实例分割,从而回归3D框位置。但是其比较依赖于2D图像的检测结果,并且每个椎体内 若存在多个实例也会大大影响分割效果。 全局池化下的点云处理 本文提出了一种点云数据深度学习处理方法,网络结构如图1所示,其输入为n*d的点 云数据,其中n指的是点云数目,d指的是特征维数(通常包含三维坐标xyz、反射量等)。 该网络使用多层感知机提取点云特征,并且为了使网络模型对点云的不同排列保持不变性, 使用全局最大池化和全局平均池化分别对提取的特征进行处理,得到两个全局特征向量。通 过将两个全局特征向量相串联,我们可以得到包含更多点云特征信息的表示向量。鉴于点云 数据所表示的目标特征应该要对某些空间变换保持不变性,在对点云数据提取特征之前,先 对点云进行对齐。我们改进了原有空间变换网络,仍引入了全局最大池化和全局平均池化方 法,以实现对齐操作。 (c)1994-2019ChinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net
网络来做分类任务和目标检测任务。但是,体素化处理有着两个方面的缺陷:数据的稀疏性 和计算量的增加。一方面,3D点云数据密度分布不均匀,某些区域点云较为稀疏,会给提取 特征造成一定的影响。[10][11]的提出在某些程度上解决了数据稀疏的问题,但是体素化处 理后的表现仍然没有直接在点云数据上使用深度学习模型好。另一方面是相对于二维卷积, 因为多了一个维度,体素化处理后的三维卷积使得计算量大大增加,空间复杂度很高,效率 就有所下降。 (三)深度学习在点云上的直接处理 近年来,研究者们提出了一系列在点云数据上直接应用深度学习模型的方法。 PointNet[2]作为开拓者,指明了该领域的一大方向。针对点云的无序性问题,PointNet提 出使用maxpooling这种对称函数来保证排列的不变性;针对保证空间变换不变性的问题, PointNet提出在提取特征之前,先对点云数据进行对齐,具体操作是由一个空间变换网络得 到转换矩阵后,与点云相乘完成对齐操作。PointNet++[4]针对PointNet局部特征提取不理 想的缺点,提出了一个分级神经网络来提取局部特征。每个分层结构由采样层、分组层、特 征提取层组成,即对每个点,按照一定规则组成一个局部区域,然后对该区域点云使用 PointNet提取特征,大大提高了分类和场景分割的效果。PointSIFT[14]针对点云的无序性, 提出了一种方向编码单元,对三维坐标系中八个方向中最近的点进行卷积,并且基于 PointNet++的结构堆叠多次方向编码单元,使得网络结构有了多尺度感知的能力。实验证明 其有着很好的效果,但是其对八个方向的数据点进行卷积,并且沿用了PointNet++的结构, 使得计算量大大增加。F-PointNet[13]结合RGB图像,首先得到二维坐标中的检测框,据此 得到点云中相对应的一个椎体(Frustum),进而使用PointNet或者PointNet+结构提取特征 做3D实例分割,从而回归3D框位置。但是其比较依赖于2D图像的检测结果,并且每个椎体内 若存在多个实例也会大大影响分割效果。 三、全局池化下的点云处理 本文提出了一种点云数据深度学习处理方法,网络结构如图1所示,其输入为𝑛 ∗ 𝑑的点 云数据,其中𝑛指的是点云数目,𝑑指的是特征维数(通常包含三维坐标xyz、反射量等)。 该网络使用多层感知机提取点云特征,并且为了使网络模型对点云的不同排列保持不变性, 使用全局最大池化和全局平均池化分别对提取的特征进行处理,得到两个全局特征向量。通 过将两个全局特征向量相串联,我们可以得到包含更多点云特征信息的表示向量。鉴于点云 数据所表示的目标特征应该要对某些空间变换保持不变性,在对点云数据提取特征之前,先 对点云进行对齐。我们改进了原有空间变换网络,仍引入了全局最大池化和全局平均池化方 法,以实现对齐操作
池{理并南联 n224 图1点云处理神经网络结构 (一)池化层保证点云排列不变性 本文提出在提取全局特征时,对提取的1024维特征的每一维做全局最大池化和全局平均 池化,并将两池化结果相串联。 1.全局最大池化 全局最大池化是指在某一维度所有数据点中选取值最大的点,作为该维度特征值,本文 中,即对n*1024维特征选取每一维值最大的点,舍弃其他的点,从而得到1*1024大小的 全局特征向量。全局最大池化方法可以有效解决点云数据无序性的问题,不论点云数据如何 排列,总能选取出其中最大的特征值,得到一致的全局特征向量 虽然全局最大池化能够较好的保留数据的纹理特征,但丢弃了除了该维特征值最大点以 外的所有点,损失的信息较多。 2全局平均池化 全局平均池化是是指对某一维度所有数据点计算它们的均值,作为该维度特征值,本文 中,即对n*1024维特征每一维计算平均值,从而得到1*1024大小的全局特征向量。全局 平均池化可以有效减小预测值的方差,并且同样保证了提取的全局特征向量对点云数据的不 同排列保持不变性 3池化结果串联 本文提出对提取的两种全局特征进行串联,以得到包含更多点云数据信息的全局特征向 量,避免单独使用全局最大池化造成的信息丢失严重的问题。将全局最大池化与全局平均池 化方法合理融合,既保证了对点云数据或点云特征排列的不变性,又增加了全局特征的信息 量 实验结果表明,我们的方法一定程度上提高了预测的平均准确率,并且有效地减小了准 确率方差,使得预测更加稳定。 (二)特殊空间变换网络 一个空间变换网络由特征提取网络、网格生成器和采样器组成。本文提出的一种特征的 空间变换网络可以提取点云特征,学习得到一个转换矩阵,通过将该转换矩阵与点云数据相 乘,以实现数据对齐或者特征对齐,从而保证对空间变换保持不变性。其网络结构如图2所 示。我们改进了原有的空间变换网络,使得学习得到的转移矩阵更加匹配原有的点云数据或 提取的点云特征。其应用的方法就是使用全局平均池化方法提取全局特征,并该全局特征向 量与原全局最大池化特征得到的特征向量相串联,再通过多层感知机得到转移矩阵。 (c)1994-2019ChinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net
图1 点云处理神经网络结构 (一)池化层保证点云排列不变性 本文提出在提取全局特征时,对提取的1024维特征的每一维做全局最大池化和全局平均 池化,并将两池化结果相串联。 1.全局最大池化 全局最大池化是指在某一维度所有数据点中选取值最大的点,作为该维度特征值,本文 中,即对𝑛 ∗ 1024维特征选取每一维值最大的点,舍弃其他的点,从而得到1 ∗ 1024大小的 全局特征向量。全局最大池化方法可以有效解决点云数据无序性的问题,不论点云数据如何 排列,总能选取出其中最大的特征值,得到一致的全局特征向量。 虽然全局最大池化能够较好的保留数据的纹理特征,但丢弃了除了该维特征值最大点以 外的所有点,损失的信息较多。 2.全局平均池化 全局平均池化是是指对某一维度所有数据点计算它们的均值,作为该维度特征值,本文 中,即对𝑛 ∗ 1024维特征每一维计算平均值,从而得到1 ∗ 1024大小的全局特征向量。全局 平均池化可以有效减小预测值的方差,并且同样保证了提取的全局特征向量对点云数据的不 同排列保持不变性。 3.池化结果串联 本文提出对提取的两种全局特征进行串联,以得到包含更多点云数据信息的全局特征向 量,避免单独使用全局最大池化造成的信息丢失严重的问题。将全局最大池化与全局平均池 化方法合理融合,既保证了对点云数据或点云特征排列的不变性,又增加了全局特征的信息 量。 实验结果表明,我们的方法一定程度上提高了预测的平均准确率,并且有效地减小了准 确率方差,使得预测更加稳定。 (二)特殊空间变换网络 一个空间变换网络由特征提取网络、网格生成器和采样器组成。本文提出的一种特征的 空间变换网络可以提取点云特征,学习得到一个转换矩阵,通过将该转换矩阵与点云数据相 乘,以实现数据对齐或者特征对齐,从而保证对空间变换保持不变性。其网络结构如图2所 示。我们改进了原有的空间变换网络,使得学习得到的转移矩阵更加匹配原有的点云数据或 提取的点云特征。其应用的方法就是使用全局平均池化方法提取全局特征,并该全局特征向 量与原全局最大池化特征得到的特征向量相串联,再通过多层感知机得到转移矩阵
全局最 持征提取 矩阵生成 1024 均池化 图2带殊空间变换网络 在实验中,我们使用了两次特殊空间变换网络,第一次在提取特征之前,对原始点云数 据进行对齐;第二次在提取到64维特征之后,对点云特征进行对齐。 四、实验结果 我们在 shapenetcore partanna_ segmentation_ benchmark[16]公开数据集上进行了大 量实验。实验所用数据集为 ShapeNetcore的子集,具有部件分割信息,包含来自16个形状类 别的16K模型,每个类别的零件数量从2到6不等, ShapeNetcore具有单个3D模型和手动验证 的类别和对齐注释。并且,我们在该数据集上与基础的 PointNet做了比较。 (一)评价指标 1.准确率 实验中我们的任务是对点云目标的分类,所以准确率是最基础的一个评价指标。假设正 确预测的个数为n1,总样本数为n,则准确率为 n 其中aCc表示分类的准确率。 2.均值和方差 实验中我们在测试集上得到了多次预测的准确率,并求得了准确率的均值和方差。准确 率的均值和方差计算公式分别为 ∑=1ac,=1∑1(acc-ac)2 (二)实验结果 表1是我们的方法与 PointNet在 shapenetcore partanna_ segmentation benchmark公开 数据集的对比。 (c)1994-2019ChinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net
图2 特殊空间变换网络 在实验中,我们使用了两次特殊空间变换网络,第一次在提取特征之前,对原始点云数 据进行对齐;第二次在提取到64维特征之后,对点云特征进行对齐。 四、实验结果 我们在shapenetcore_partanno_segmentation_benchmark[16]公开数据集上进行了大 量实验。实验所用数据集为ShapeNetCore的子集,具有部件分割信息,包含来自16个形状类 别的16K模型,每个类别的零件数量从2到6不等,ShapeNetCore具有单个3D模型和手动验证 的类别和对齐注释。并且,我们在该数据集上与基础的PointNet做了比较。 (一)评价指标 1.准确率 实验中我们的任务是对点云目标的分类,所以准确率是最基础的一个评价指标。假设正 确预测的个数为𝑛1,总样本数为𝑛,则准确率为: acc = 𝑛1 𝑛 其中acc表示分类的准确率。 2.均值和方差 实验中我们在测试集上得到了多次预测的准确率,并求得了准确率的均值和方差。准确 率的均值和方差计算公式分别为: 𝑎𝑐𝑐 ̅̅̅̅̅ = 1 𝑛 ∑ 𝑎𝑐𝑐𝑖 𝑛 𝑖=1 , δ = 1 𝑛 ∑ (𝑎𝑐𝑐𝑖 − 𝑎𝑐𝑐 ̅̅̅̅̅) 𝑛 2 𝑖=1 (二)实验结果 表1是我们的方法与PointNet在shapenetcore_partanno_segmentation_benchmark公开 数据集的对比
表1实验准确率信息 方法 准确度均值|准确度最大准确度最小准确度方差 PointNet 68.75 96.87 0.24 五、结语 自动驾驶的飞速发展使得点云处理成为了一大热点,本文提出了一种将深度学习模型应 用在点云数据处理上的方法。我们的模型最主要的部分是在提取点云特征后,分别对特征做 全局最大池化和全局平均池化,然后将两种池化结果相串联,再通过多层感知机进行分类。 全局池化的操作,可以解决点云数据无序性的问题,使得网络提取的全局特征向量对点云的 各种排列保持不变性。通过串联全局最大池化结果与全局平均池化结果,新的特征向量包含 了更多的点云信息,因此可以有效避免应用模型时的一些极端情况的发生。在改进空间变换 网络时,我们同样使用了全局最大池化和全局平均池化的方法。大量的实验表明,我们的方 法在一定程度上提高了基础模型的平均准确率,并且有着较高的稳定性。与其他模型相比, 我们在保证一定准确率的基础上,减少了参数和计算量的冗余,有着较高的效率 参考文献 [1X. Chen, H. Ma, J. Wan, B. Li, and T. Xia. Multi-view 3d object detection network for autonomous driving. In IEEE CVPR, 2017. 2, 5, 6 2]CR Qi, H Su, K Mo, and L J Guibas. Pointnet: Deep learning on point sets for 3d classification and segmentation. Proc. Computer Vision and Pattern Recognition(CVPR), IEEE, 2017.1,2,4,5 3]CR Qi, HSu, M. NieBner, A Dai, M. Yan, andL Guibas. Volumetric and multi-view cnns for object classification on 3d data. In Proc. Computer Vision and Pattern Recognition(CVPR), IEEE, 2016.1.2. [4]C.R. Qi, L. Yi, H. Su, and L J Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. arXiv preprint ar Xiv: 1706.02413, 2017. 1, 2, 4,5 5]D Maturana and S Scherer. VoxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition In IROS, 2015 6 Ku J, Mozifian M, Lee J, et al. Joint 3d proposal generation and object detection from view aggregation(C)/20 18 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).IEEE,2018:1-8 [7 Zhirong Wu, S Song, A. Khosla, Fisher Yu, Linguang Zhang, Xiaoou Tang, and J. Xiao. 3d shapenets: a deep representation for volumetric shapes. In 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pages 1912-1920, June 2015 [8]M. M. Bronstein and l. Kokkinos. Scale-invariant heat kernel signatures for non-rigid shape recognition. In Computer Vision and Pattern Recognition(CVPR), 2010 IEEE Conference on pages 1704-1711. IEEE, 2010 9]R. B. Rusu, N. Blodow, Z. C Marton, and M. Beetz. Aligning point cloud views using (c)1994-2019ChinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net
表 1 实验准确率信息 方法 准确度均值 准确度最大 值 准确度最小 值 准确度方差 PointNet 90.74 96.88 68.75 0.33 本文方法 91.51 96.87 78.15 0.24 五、结语 自动驾驶的飞速发展使得点云处理成为了一大热点,本文提出了一种将深度学习模型应 用在点云数据处理上的方法。我们的模型最主要的部分是在提取点云特征后,分别对特征做 全局最大池化和全局平均池化,然后将两种池化结果相串联,再通过多层感知机进行分类。 全局池化的操作,可以解决点云数据无序性的问题,使得网络提取的全局特征向量对点云的 各种排列保持不变性。通过串联全局最大池化结果与全局平均池化结果,新的特征向量包含 了更多的点云信息,因此可以有效避免应用模型时的一些极端情况的发生。在改进空间变换 网络时,我们同样使用了全局最大池化和全局平均池化的方法。大量的实验表明,我们的方 法在一定程度上提高了基础模型的平均准确率,并且有着较高的稳定性。与其他模型相比, 我们在保证一定准确率的基础上,减少了参数和计算量的冗余,有着较高的效率。 参考文献 [1] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia. Multi-view 3d object detection network for autonomous driving. In IEEE CVPR, 2017. 2, 5, 6. [2] C. R. Qi, H. Su, K. Mo, and L. J. Guibas. Pointnet: Deep learning on point sets for 3d classification and segmentation. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2017. 1, 2, 4, 5. [3] C.R.Qi,H.Su,M.Nießner,A.Dai,M.Yan,andL.Guibas. Volumetric and multi-view cnns for object classification on 3d data. In Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2016. 1, 2. [4] C. R. Qi, L. Yi, H. Su, and L. J. Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. arXiv preprint arXiv:1706.02413, 2017. 1, 2, 4, 5, 7. [5] D. Maturana and S. Scherer. VoxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition. In IROS,2015. [6] Ku J, Mozifian M, Lee J, et al. Joint 3d proposal generation and object detection from view aggregation[C]//2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2018: 1-8. [7] Zhirong Wu, S. Song, A. Khosla, Fisher Yu, Linguang Zhang, Xiaoou Tang, and J. Xiao. 3d shapenets: A deep representation for volumetric shapes. In 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1912–1920, June 2015. [8] M. M. Bronstein and I. Kokkinos. Scale-invariant heat kernel signatures for non-rigid shape recognition. In Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, pages 1704–1711. IEEE, 2010. [9] R. B. Rusu, N. Blodow, Z. C. Marton, and M. Beetz. Aligning point cloud views using
persistent feature histograms. In 2008 IEEE/RSJ International Conference on Intelligent Robots and Systems, pages 3384-3391. IEEE, 2008 [10] Yangyan Li, Soeren Pirk, Hao Su, Charles R Qi, and Leonidas J Guibas. Fpnn: Field probing neural networks for 3d data. ar Xiv preprint ar Xiv: 1605.06240, 2016 [11]M. Tatarchenko, A. Dosovitskiy, and T. Brox Octree generating networks: Efficient convolutional architectures for high-resolution 3d outputs In IEEE International Conference on Computer Vision(ICCV), 2017 [12]. Song and J. Xiao. Deep sliding shapes for amodal 3d object detection in rgb-d images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 808 816.2016 [13]QiCR, Liu W, Wu C, et al. Frustum pointnets for 3d object detection from rgb-d data[ C]/Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018 918-927 [14]Jiang M, Wu Y, Lu C. Pointsift: A sift-like network module for 3d point cloud semantic segmentation[J]- ar Xiv preprint arXiv: 1807.00652, 2018 [15 Lin M, Chen Q, Yan S Network in network[J]. arXiv preprint arXiv: 1312. 4400, 2013 [16]Yi L, Kim V G, Ceylan D, et al. A scalable active framework for region annotation in 3d shape collections([J]. ACM Transactions on Graphics(TOG), 2016, 35(6): 210 作者简介 刘旭辉,北京航空航天大学电子信息工程学院,北京航空航天大学医工交叉创新研究院 邮箱:1332671326@qq.com 王宏燕,西安卫星测控中心,邮箱:155190708@qq.com (c)1994-2019ChinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net
persistent feature histograms. In 2008 IEEE/RSJ International Conference on Intelligent Robots and Systems, pages 3384–3391. IEEE, 2008. [10] Yangyan Li, Soeren Pirk, Hao Su, Charles R Qi, and Leonidas J Guibas. Fpnn: Field probing neural networks for 3d data. arXiv preprint arXiv:1605.06240, 2016. [11] M. Tatarchenko, A. Dosovitskiy, and T. Brox. Octree generating networks: Efficient convolutional architectures for high-resolution 3d outputs. In IEEE International Conference on Computer Vision (ICCV), 2017. [12] S. Song and J. Xiao. Deep sliding shapes for amodal 3d object detection in rgb-d images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 808– 816, 2016. [13] Qi C R, Liu W, Wu C, et al. Frustum pointnets for 3d object detection from rgb-d data[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 918-927. [14] Jiang M, Wu Y, Lu C. Pointsift: A sift-like network module for 3d point cloud semantic segmentation[J]. arXiv preprint arXiv:1807.00652, 2018. [15] Lin M, Chen Q, Yan S. Network in network[J]. arXiv preprint arXiv:1312.4400, 2013. [16] Yi L, Kim V G, Ceylan D, et al. A scalable active framework for region annotation in 3d shape collections[J]. ACM Transactions on Graphics (TOG), 2016, 35(6): 210. 作者简介: 刘旭辉,北京航空航天大学电子信息工程学院,北京航空航天大学医工交叉创新研究院, 邮箱:1332671326@qq.com; 王宏燕,西安卫星测控中心,邮箱:155190708@qq.com