一种基于DETR结构的三维目标检测方法、装置及系统

技术2025-05-15 42

本发明涉及计算机视觉，特别是涉及一种基于detr结构的三维目标检测方法、装置及系统。

背景技术：

1、随着科技的高速发展、智能化浪潮的来临，人们大量的手工劳动已被自动化机器所取代，从而极大地提高了生产效率。汽车作为人类不可或缺的交通工具之一，目前主流仍然是人工驾驶。人工驾驶存在着如疲劳驾驶、醉酒驾驶、危险驾驶等诸多问题，而自动驾驶则是解决这些问题的有力工具。自动驾驶技术是当今人工智能领域的重要研究方向，它的出现和发展对于交通安全、交通效率和出行体验都具有重要意义。自动驾驶技术的引入，可以减少人为驾驶错误带来的风险，提高道路行驶的安全性；可以减少交通事故和交通堵塞，提高道路通行能力和交通效率；具备提升出行体验和改善交通环境等优势。

2、自动驾驶的首要关键问题是如何使得机器能够感知汽车周围的环境。随着深度学习的快速发展，人们逐渐将深度学习应用于自动驾驶领域，并取得了巨大的突破。自动驾驶车辆通过各种传感器已经具备初步感知周围场景的基础能力，例如三维目标检测。三维目标检测是指在三维环境中给出所需检测的类别的三维包围盒。自动驾驶车辆的感知能力直接影响后续的自动驾驶决策，因此如何进一步提高自动驾驶车辆的感知能力成为了实现更高阶自动驾驶能力的重要问题。

3、目前自动驾驶领域的高精度检测器往往都是基于中心点或两阶段的检测器。在二维图像领域中，得益于transformer(一种用于自然语言处理和序列到序列任务的深度学习模型)强大的表征能力，基于transformer的端到端目标检测框架(end-to-end objectdetection with transformers，简写为：detr)结构的检测器在二维图像检测中展现出了强大的性能，并成为了主流的检测范式。然而，当涉及到点云数据时，情况变得更加复杂。点云数据与图像数据在特征表示和处理上存在明显的差异：图像数据通常是密集且规则分布的像素集合，而点云数据则是由不规则且稀疏的点构成的。

4、因此，目前将detr结构扩展到点云数据的三维目标检测领域面临着挑战。首先，如何有效选取高质量的检测查询是关键之一。在点云中，这涉及到如何从无序的点云数据中提取高质量的前景信息。其次，如何更好地进行查询与鸟瞰图特征的交互也是一个重要问题。自动驾驶中往往通过鸟瞰图特征来进行三维目标检测，这要求在detr结构中集成对点云数据特有几何形状和分布的理解，例如无尺度变化和局部特性。此外，与传统的非detr结构的三维目标检测器相比，目前基于detr的三维目标检测器在性能上仍存在显著差距。这主要是因为detr结构最初设计用于处理二维图像，对于点云数据的特殊性质和稀疏性尚未得到充分的优化和适应。

5、对于检测查询选择的问题，目前的方法主要通过预测鸟瞰图上的热力图，并根据热力图来筛选前景特征作为检测查询。然而，这种方法主要侧重于分类信息，却往往忽略了查询本身的质量问题，这使得很难保证筛选出高质量的检测查询。针对查询与鸟瞰图特征之间的交互问题，现有的方法通常采用全局注意力或可变形注意力。全局注意力虽然简单直接，却需要大量不必要的计算开销，这在通常具有局部特点的点云数据中效率不高。而可变形注意力虽然可以根据输入数据调整注意力范围的分布，但却缺乏点云的几何先验信息，这导致网络在学习注意力范围时较为困难。

6、有鉴于此，如何克服现有技术所存在的缺陷，解决上述技术问题中的至少一部分问题，是本技术领域待解决的难题。

技术实现思路

1、针对现有技术中的缺陷或改进需求，为了解决目前detr结构三维检测器在检测查询选择、以及查询与鸟瞰图特征交互上所存在的问题。本发明提供一种基于detr结构的三维目标检测方法、装置及系统，基于双重查询选择和可变形格点注意力进行三维目标检测任务，其中双重查询选择用于提高检测查询的选择质量，可变形格点注意力用于提高查询与鸟瞰图特征的交互性能。另外，还在detr结构的三维检测器训练过程匈牙利匹配的分类代价中引入质量评估来优化训练。通过以上改善，本方法最终可以取得相比于非detr结构检测器更加优秀的三维目标检测性能。

2、本发明采用如下技术方案：

3、第一方面，本发明提供了一种基于detr结构的三维目标检测方法，包括：

4、通过三维骨干网络提取输入点云的鸟瞰图特征，并基于鸟瞰图特征使用双重查询选择模块获取初始检测查询；

5、在解码器中通过可变形格点注意力来进行查询与鸟瞰图特征的交互，得到增强后的查询特征，基于增强后的查询特征，通过多层前馈网络进行三维目标检测结果的预测；

6、基于预测的检测结果，通过在detr结构的三维检测器训练时匈牙利匹配的分类代价中引入回归框质量评价，来进一步提升三维检测器的检测效果。

7、在一些实施例中，所述通过三维骨干网络提取输入点云的鸟瞰图特征，并基于鸟瞰图特征使用双重查询选择模块获取初始检测查询具体包括：

8、将输入的点云进行体素化处理，并利用三维骨干网络提取出三维特征，将三维特征在高度上进行压缩，得到点云的鸟瞰图特征；

9、通过一个二分类器以及鸟瞰图特征，进行鸟瞰图上的二分类任务；

10、基于二分类任务的分类结果，进行第一阶段的基于分类的粗略查询选择；

11、基于粗略查询选择结果，进行第二阶段的基于质量的精细查询选择。

12、在一些实施例中，所述基于二分类任务的分类结果，进行第一阶段的基于分类的粗略查询选择具体包括：根据二分类任务的分类结果，选取前30％分类置信度的鸟瞰图特征作为粗略查询。

13、在一些实施例中，所述基于粗略查询选择结果，进行第二阶段的基于质量的精细查询选择具体包括：将得到的粗略查询送入一层解码器中，预测每个查询对应的预测框与真实物体边界框之间的iou分数，并根据该iou分数在粗略查询中进一步选取精细查询。

14、在一些实施例中，所述在解码器中通过可变形格点注意力来进行查询与鸟瞰图特征的交互，得到增强后的查询特征，基于增强后的查询特征，通过多层前馈网络进行三维目标检测结果的预测具体包括：

15、为第一层解码器中的查询定义初始框，作为第一层可变形格点注意力的初始区域；解码器的后续层中使用上一层解码器中的查询预测的物体回归框作为初始区域；

16、在初始区域中均匀划分若干格点作为初始点，通过全连接网络和查询特征预测每个初始点的位置偏移量；再将初始点坐标与位置偏移量相加得到新的位置坐标，并采样鸟瞰图该位置上的特征；

17、将采样的特征与查询特征进行注意力交互，并通过多层解码器得到最终增强后的查询特征；基于最终增强后的查询特征，通过多层前馈网络进行三维目标检测结果的预测。

18、在一些实施例中，所述将采样的特征与查询特征进行注意力交互，并通过多层解码器得到最终增强后的查询特征具体包括：

19、将采样的特征与查询特征进行注意力交互，得到增强后的查询特征；

20、将增强后的查询特征通过前馈网络预测对应的该层的检测结果；

21、将增强后的查询特征及其对应的检测结果用于下一层解码器，经过多层解码器迭代后，得到最终增强后的查询特征。

22、在一些实施例中，所述基于预测的检测结果，通过在detr结构的三维检测器训练时匈牙利匹配的分类代价中引入回归框质量评价，来进一步提升三维检测器的检测效果具体包括：

23、通过前馈网络和查询特征为每个检测结果额外预测一个对应的iou分数，该iou分数用于评价回归框的质量；

24、将iou分数与预测的分类分数进行融合；

25、将融合后的分数用于匈牙利匹配中的分类损失。

26、第二方面，本发明还提供了一种基于detr结构的三维目标检测装置，用于实现第一方面所述的基于detr结构的三维目标检测方法，所述装置包括：

27、至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，用于执行第一方面所述的基于detr结构的三维目标检测方法。

28、第三方面，本发明还提供了一种基于detr结构的三维目标检测系统，应用如第一方面所述的基于detr结构的三维目标检测方法，所述系统包括初始检测查询获取模块、三维目标检测结果预测模块以及检测效果提升模块，其中：

29、所述初始检测查询获取模块用于：通过三维骨干网络提取输入点云的鸟瞰图特征，并基于鸟瞰图特征使用双重查询选择模块获取初始检测查询；

30、所述三维目标检测结果预测模块用于：在解码器中通过可变形格点注意力来进行查询与鸟瞰图特征的交互，得到增强后的查询特征，基于增强后的查询特征，通过多层前馈网络进行三维目标检测结果的预测；

31、所述检测效果提升模块用于：基于预测的检测结果，通过在detr结构的三维检测器训练时匈牙利匹配的分类代价中引入回归框质量评价，来进一步提升三维检测器的检测效果。

32、第四方面，本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，用于完成第一方面所述的基于detr结构的三维目标检测方法。

33、与现有技术相比，本发明的有益效果在于：提供一种基于detr结构的三维目标检测方法、装置及系统，基于双重查询选择和可变形格点注意力进行三维目标检测任务，其中，双重查询选择相比于其他现有的查询选择方法能够有效地选取更高质量的检测查询，用于提高检测查询的选择质量；可变形格点注意力能够有效地结合点云中的几何先验并以自适应的方式摆脱准确回归框的依赖，从而取得更好的特征交互能力，用于提高查询与鸟瞰图特征的交互性能。另外，还在detr结构的三维检测器训练过程匈牙利匹配的分类代价中引入质量评估来优化训练。通过以上改善，本方法最终可以取得相比于非detr结构检测器更加优秀的三维目标检测性能。

技术特征：

1.一种基于detr结构的三维目标检测方法，其特征在于，包括：

2.根据权利要求1所述的基于detr结构的三维目标检测方法，其特征在于，所述通过三维骨干网络提取输入点云的鸟瞰图特征，并基于鸟瞰图特征使用双重查询选择模块获取初始检测查询具体包括：

3.根据权利要求2所述的基于detr结构的三维目标检测方法，其特征在于，所述基于二分类任务的分类结果，进行第一阶段的基于分类的粗略查询选择具体包括：根据二分类任务的分类结果，选取前30％分类置信度的鸟瞰图特征作为粗略查询。

4.根据权利要求3所述的基于detr结构的三维目标检测方法，其特征在于，所述基于粗略查询选择结果，进行第二阶段的基于质量的精细查询选择具体包括：将得到的粗略查询送入一层解码器中，预测每个查询对应的预测框与真实物体边界框之间的iou分数，并根据该iou分数在粗略查询中进一步选取精细查询。

5.根据权利要求1所述的基于detr结构的三维目标检测方法，其特征在于，所述在解码器中通过可变形格点注意力来进行查询与鸟瞰图特征的交互，得到增强后的查询特征，基于增强后的查询特征，通过多层前馈网络进行三维目标检测结果的预测具体包括：

6.根据权利要求5所述的基于detr结构的三维目标检测方法，其特征在于，所述将采样的特征与查询特征进行注意力交互，并通过多层解码器得到最终增强后的查询特征具体包括：

7.根据权利要求1所述的基于detr结构的三维目标检测方法，其特征在于，所述基于预测的检测结果，通过在detr结构的三维检测器训练时匈牙利匹配的分类代价中引入回归框质量评价，来进一步提升三维检测器的检测效果具体包括：

8.一种基于detr结构的三维目标检测装置，用于实现如权利要求1-7任一所述的基于detr结构的三维目标检测方法，其特征在于，所述装置包括：

9.一种基于detr结构的三维目标检测系统，应用如权利要求1-7任一所述的基于detr结构的三维目标检测方法，其特征在于，所述系统包括初始检测查询获取模块、三维目标检测结果预测模块以及检测效果提升模块，其中：

10.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，用于完成如权利要求1-7任一所述的基于detr结构的三维目标检测方法。

技术总结
本发明涉及一种基于DETR结构的三维目标检测方法、装置及系统。其方法部分主要包括：通过三维骨干网络提取输入点云的鸟瞰图特征，并基于鸟瞰图特征使用双重查询选择模块获取初始检测查询；在解码器中通过可变形格点注意力来进行查询与鸟瞰图特征的交互，得到增强后的查询特征，基于增强后的查询特征，通过多层前馈网络进行三维目标检测结果的预测；基于预测的检测结果，通过在DETR结构的三维检测器训练时匈牙利匹配的分类代价中引入回归框质量评价，来进一步提升三维检测器的检测效果。本发明最终可以取得相比于非DETR结构检测器更加优秀的三维目标检测性能。

技术研发人员：白翔,刘哲,侯京华
受保护的技术使用者：华中科技大学
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-30665.html

专利

最新回复(0)