本发明属于三维目标检测领域,涉及一种三维点云的目标检测,具体为一种基于稀疏注意力和动态扩散的三维目标检测方法与系统。
背景技术:
1、三维目标检测是一种旨在从丰富的三维数据中准确识别和定位物体的技术。它是自动驾驶系统中环境感知的核心技术,通过高精度的识别和定位道路上的车辆、行人、障碍物和路标使自动驾驶车辆能够准确理解周围环境。这一过程不仅提供了必要的环境信息,而且是安全决策和控制的基础。这些信息帮助自动驾驶系统进行精确的路径规划、避障操作、速度调整和交通行为预测,确保了行车的安全性和效率。
2、三维数据采集传感器主要包括相机、激光雷达和毫米波雷达等,其中由激光雷达采集的点云数据是最常用的三维数据之一。点云能够以非常高的精度捕捉和表示物体或场景的细节,对三维环境感知的发展至关重要。
3、三维点云目标检测最主要的研究方向之一是基于体素化的方法。体素化是将稀疏且不规则的点云数据划分为规则的三维体素网格。这个过程涉及将点云数据量化到一个预定义的网格空间内,每个体素代表了其内部的点云信息。通过这种转换,原始的点云数据被转化为更为规范化和结构化的格式,可以使用三维稀疏卷积网络将其转换为稠密的二维数据,从而能够利用成熟的二维目标检测方法进行处理。
4、然而,此类基于体素的三维目标检测方法在实时性上表现不佳。由于点云数据的稀疏性和庞大的数据量,当点云被转换为稠密的二维特征图后,大多区域实际上没有包含任何有效的点云信息,这导致了大量的计算资源被用于处理这些空白区域,从而造成了计算能力的严重浪费。
5、此外,基于体素的方法使用传统的三维卷积网络,主要集中于局部特征的提取,由于卷积的感受野有限,不能有效地获取距离较远的区域的信息,因此在捕捉点云数据中的长距离依赖关系时的效果不佳。这一局限性限制了方法在复杂环境中进行精确识别和定位的能力,特别是在场景中存在多个互相关联的对象时。
6、加之激光雷达扫描主要捕获物体表面的点云,导致内部或中心的关键信息往往较少或完全缺失。在经过体素化和三维卷积后,进一步加剧了中心特征丢失的问题,对较大物体的检测影响较大,使方法在识别和定位较大目标的准确性上存在问题。
技术实现思路
1、本发明的目的是针对现有技术中存在的不足,而提出一种基于稀疏注意力和动态扩散的三维目标检测方法与系统。这种方法通过完全基于稀疏数据处理的三维目标检测流程,提升计算效率和降低资源消耗,还结合稀疏注意力编码和动态特征扩散,增强对长距离依赖关系的捕获能力同时扩大感受野并改善物体中心特征缺失问题,实现高精度和高效率的三维目标检测。
2、实现本发明目的的技术方案是:
3、一种基于稀疏注意力和动态扩散的三维目标检测方法,包括如下步骤:
4、s1、将原始点云数据通过体素化处理转换成三维体素网格,再对每个包含点云数据的非空体素提取特征,得到具有空间结构的初始3d稀疏特征图;
5、s2、将初始3d稀疏特征图输入到3d稀疏卷积主干网络中,3d稀疏卷积主干网络利用多个由扩张注意力、子流形稀疏卷积和普通稀疏卷积组成的稀疏注意力编码块和多尺度特征融合对输入的初始3d稀疏特征图进行特征学习,生成3d稀疏特征图;
6、s3、将3d稀疏特征图通过稀疏高度压缩处理,得到初始2d稀疏特征图;
7、s4、将初始2d稀疏特征图输入到2d稀疏卷积主干网络中,2d稀疏卷积主干网络通过动态特征扩散和2d稀疏编码块对初始2d稀疏特征图进行特征增强和提取,生成2d稀疏特征图;
8、s5、使用2d稀疏特征图预测目标类别并生成其边界框。
9、所述步骤s1中体素化处理的具体操作为:首先,对输入的点云数据的三维点云空间沿z轴、y轴和x轴裁剪该三维点云空间的深度、高度和宽度,然后定义体素的大小,根据裁剪后三维点云空间和定义的体素的大小,计算出生成的三维体素网格的尺寸;然后根据输入点云数据中的每个点在三维点云空间中的位置,将所有点划分到所属的体素;对于每个体素,若该体素包含的点数超过阈值,则对该体素进行随机采样,保证该体素内的点数不超过规定的阈值,以便于后续主干网络的特征提取。
10、所述步骤s1中再对每个包含点云数据的非空体素提取特征,具体为:对于每个包含点云数据的非空体素即至少含有一个点的体素,计算包含点的均值作为该体素的特征表示。
11、所述步骤s2中对输入的初始3d稀疏特征图进行特征学习,生成3d稀疏特征图,具体为:将初始3d稀疏特征图输入到3d稀疏卷积主干网络进行特征学习,3d稀疏卷积主干网络首先依次使用四个稀疏注意力编码块进行特征提取和四次下采样,接着使用多尺度特征融合对稀疏注意力编码块输出的特征图进行两次下采样,并将两次下采样的特征图与稀疏注意力编码块输出的特征图进行特征融合;其中稀疏注意力编码块依次由两个使用了扩张注意力的子流形稀疏卷积模块和一个使用了扩张注意力的普通稀疏卷积模块组成,子流形稀疏卷积模块主要负责特征增强和提取,普通稀疏卷积模块主要负责下采样;多尺度特征融合对第四个稀疏注意力编码块输出的特征图依次使用两次普通稀疏卷积进行两次下采样,之后对两次下采样得到的特征图分别使用稀疏反卷积上采样至第四个稀疏注意力编码块输出的特征图的大小,最后将两次上采样得到的特征图与第四个稀疏注意力编码块输出的特征图进行拼接,生成3d稀疏特征图。
12、所述步骤s3中稀疏高度压缩处理的具体操作为:将输入的3d稀疏特征图转换到鸟瞰图平面,通过对鸟瞰图平面上坐标相同的体素特征进行累加求和,生成具有二维空间表示的初始2d稀疏特征图。
13、所述步骤s4中2d稀疏卷积主干网络通过动态特征扩散和2d稀疏编码块进行特征增强和提取的具体操作为:首先对输入的初始2d稀疏特征图进行体素分类,预测每个体素的中心点是否属于某个尺寸类别组或背景;根据体素分类的结果采用动态特征扩散将属于大物体的体素特征扩散至大的区域,将属于小物体的体素特征扩散至小的区域,对属于背景的点不进行特征扩散;最后通过2d稀疏卷积块对经过特征扩散的2d稀疏特征图进行特征提取,生成最终用于目标检测的2d稀疏特征图。
14、所述步骤s5中使用2d稀疏特征图预测目标类别并生成其边界框的具体操作为:预测2d稀疏特征图中每个体素属于某类物体的概率,生成一个通道数与类别数相同的热力图;采用稀疏最大池化从热力图中提取出概率最高的体素;对每个被提取出的概率最高的体素,进一步回归边界框的位置偏移、高度、3d尺寸和旋转角度。
15、一种基于稀疏注意力和动态扩散的三维目标检测系统,用于上述的基于稀疏注意力和动态扩散的三维目标检测方法,所述系统包括:
16、点云体素化模块:该模块用于将输入的点云数据转换为初始3d稀疏特征图。首先通过定义的体素大小将裁剪后的点云划分为三维体素网格,接着将输入的点云数据中的每个点划分到它所属的体素,最后对每个体素内包含的点提取特征得到3d稀疏特征图;
17、3d稀疏主干网络模块:该模块用于从初始3d稀疏特征图中提取3d稀疏特征。首先使用四个稀疏注意力编码块对初始3d稀疏特征图提取特征并逐步下采样,接着使用多尺度特征融合对第四个稀疏注意力编码块输出的特征图进行两次下采样后通过上采样操作与对第四个稀疏注意力编码对输出的特征图进行拼接,生成3d稀疏特征图;
18、2d稀疏主干网络模块:该模块用于处理将3d稀疏特征图压缩后的初始2d稀疏特征图,生成用于目标检测的2d稀疏特征图。首先对初始2d稀疏特征图中的体素进行分类找到需要扩散的体素,然后根据分类的类别大小动态地将需要扩散的体素的特征扩散到相邻区域,最后使用2d稀疏卷积块对扩散后的特征图进行特征提取;
19、稀疏检测头模块:该模块使用2d稀疏特征图进行最终的目标分类和边界框回归。该模块采用稀疏最大池化从分类热力图中选择概率最大的体素,随后对被选定的概率最大的体素特征进行边界框尺寸、位置偏移、高度和方向的回归。
20、本技术的优点或有益效果:
21、本技术方案完全基于稀疏数据处理的方式,在保持数据稀疏性的同时减少在三维目标检测过程中不必要的计算资源和内存消耗并提升计算效率,可以满足对实时性要求较高的应用场景,如自动驾驶和机器人导航等。
22、本技术方案通过由多个稀疏注意力编码块和多尺度特征融合组成的3d稀疏卷积主干网络,增强对长距离空间关系的捕捉能力并扩大感受野,可以帮助自动驾驶和机器人导航等应用理解复杂场景中多目标的空间布局,增强对大尺度和远距离物体的识别能力。
23、本技术方案通过由动态特征扩散和2d稀疏卷积块组成的2d稀疏卷积主干网络改善了在二维稀疏特征图中物体中心特征缺失的问题,在保持特征稀疏性的同时,增强关键体素周围的局部特征表达,帮助三维目标检测系统更好地识别不同大小的物体,提升了目标检测的准确率和鲁棒性。
1.一种基于稀疏注意力和动态扩散的三维目标检测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于稀疏注意力和动态扩散的三维目标检测方法,其特征在于,所述步骤s1中体素化处理的具体操作为:首先,对输入的点云数据的三维点云空间沿z轴、y轴和x轴分别裁剪该三维点云空间的深度、高度和宽度,然后定义体素的大小,根据裁剪后三维点云空间和定义的体素的大小,计算出生成的三维体素网格的尺寸;然后根据输入点云数据中的每个点在三维点云空间中的位置,将所有点划分到所属的体素;对于每个体素,若该体素包含的点数超过阈值,则对该体素进行随机采样,保证该体素内的点数不超过规定的阈值,以便于后续主干网络的特征提取。
3.根据权利要求1所述的基于稀疏注意力和动态扩散的三维目标检测方法,其特征在于,所述步骤s1中再对每个包含点云数据的非空体素提取特征,具体为:对于每个包含点云数据的非空体素即至少含有一个点的体素,计算包含点的均值作为该体素的特征表示。
4.根据权利要求1所述的基于稀疏注意力和动态扩散的三维目标检测方法,其特征在于,所述步骤s2中对输入的初始3d稀疏特征图进行特征学习,生成3d稀疏特征图,具体为:将初始3d稀疏特征图输入到3d稀疏卷积主干网络进行特征学习,3d稀疏卷积主干网络首先依次使用四个稀疏注意力编码块进行特征提取和四次下采样,接着使用多尺度特征融合对稀疏注意力编码块输出的特征图进行两次下采样,并将两次下采样的特征图与稀疏注意力编码块输出的特征图进行特征融合;其中稀疏注意力编码块依次由两个使用了扩张注意力的子流形稀疏卷积模块和一个使用了扩张注意力的普通稀疏卷积模块组成,子流形稀疏卷积模块负责特征增强和提取,普通稀疏卷积模块负责下采样;多尺度特征融合对第四个稀疏注意力编码块输出的特征图依次使用两次普通稀疏卷积进行两次下采样,之后对两次下采样得到的特征图分别使用稀疏反卷积上采样至第四个稀疏注意力编码块输出的特征图的大小,最后将两次上采样得到的特征图与第四个稀疏注意力编码块输出的特征图进行拼接,生成3d稀疏特征图。
5.根据权利要求1所述的基于稀疏注意力和动态扩散的三维目标检测方法,其特征在于,所述步骤s3中稀疏高度压缩处理的具体操作为:将输入的3d稀疏特征图转换到鸟瞰图平面,通过对鸟瞰图平面上坐标相同的体素特征进行累加求和,生成具有二维空间表示的初始2d稀疏特征图。
6.根据权利要求1所述的基于稀疏注意力和动态扩散的三维目标检测方法,其特征在于,所述步骤s4中2d稀疏卷积主干网络通过动态特征扩散和2d稀疏编码块进行特征增强和提取的具体操作为:首先对输入的初始2d稀疏特征图进行体素分类,预测每个体素的中心点是否属于某个尺寸类别组或背景;根据体素分类的结果采用动态特征扩散将属于大物体的体素特征扩散至大的区域,将属于小物体的体素特征扩散至小的区域,对属于背景的点不进行特征扩散;最后通过2d稀疏卷积块对经过特征扩散的2d稀疏特征图进行特征提取,生成最终用于目标检测的2d稀疏特征图。
7.根据权利要求1所述的基于稀疏注意力和动态扩散的三维目标检测方法,其特征在于,所述步骤s5中使用2d稀疏特征图预测目标类别并生成其边界框的具体操作为:预测2d稀疏特征图中每个体素属于某类物体的概率,生成一个通道数与类别数相同的热力图;采用稀疏最大池化从热力图中提取出概率最高的体素;对每个被提取出的概率最高的体素,进一步回归边界框的位置偏移、高度、3d尺寸和旋转角度。
8.一种基于稀疏注意力和动态扩散的三维目标检测系统,其特征在于,所述系统用于权利要求1-7中任意一项所述的基于稀疏注意力和动态扩散的三维目标检测方法,所述系统包括: