一种多模态模型预训练方法、装置、设备以及存储介质与流程

技术2025-06-18 45

本技术涉及深度学习，特别是涉及一种多模态模型预训练方法、装置、设备以及存储介质。

背景技术：

1、多模态模型能够处理和整合来自不同数据类型或信息源的数据，以利用各种模态的信息获得更全面和准确的理解。目前，多模态模型大多需要先使用大量无标签的多模态数据进行预训练，使模型获得一定的多模态信息抽取和建模能力。

2、相关技术中，通过构建多种单模态的重建任务对用于处理单模态数据的编码器进行预训练，但是，这种预训练方法训练得到的编码器忽略了模态间信息的互补性，导致训练得到的编码器在处理下游任务时的处理效果较差。

3、因此，如何提高训练得到的多模态模型中的编码器处理下游任务的处理效果，成为亟需解决的技术问题。

技术实现思路

1、本技术实施例的目的在于提供一种多模态模型预训练方法、装置、设备以及存储介质，以提高训练得到的多模态模型中的编码器处理下游任务的处理效果。具体技术方案如下：

2、第一方面，本技术实施例提供了一种多模态模型预训练方法，所述方法包括：

3、获取对应于同一场景的样本点云以及样本图像；

4、对所述样本点云进行体素化处理，得到多个体素，并按照各体素所属的鸟瞰图网格对所述样本点云中的部分真实点进行点云掩码处理，得到第一掩码点云，以及对所述样本图像进行图像掩码处理，得到第一掩码图像；

5、利用多模态模型中的第一编码器对所述第一掩码点云进行特征提取，得到鸟瞰图bev视角下的特征，作为第一bev特征，以及利用所述多模态模型中的第二编码器对所述第一掩码图像进行特征提取，得到第一图像特征；其中，所述多模态模型还包括第一转换器、第一融合网络、第一解码器和第二解码器；

6、利用所述第一转换器将所述第一图像特征转换到所述bev视角下，得到第一转换特征；

7、利用所述第一融合网络对所述第一转换特征和所述第一bev特征进行特征融合，得到第二bev特征；

8、利用所述第一解码器对所述第二bev特征进行解码，得到第一预测结果和第二预测结果，以及利用所述第二解码器对第二图像特征进行解码，得到第三预测结果；其中，所述第一预测结果表示：所述鸟瞰图网格包含的预测点的预测数目和各预测点的预测坐标，所述第二预测结果表示：所述鸟瞰图网格中各预测点的预测rgb值，所述第三预测结果表示：所述样本图像中各像素点的预测rgb值；所述第二图像特征为基于所述第一图像特征得到的；

9、基于所述第一预测结果与对应的真值之间的差异，所述第二预测结果与对应的真值之间的差异，以及所述第三预测结果与对应的真值之间的差异，调整所述多模态模型的模型参数；其中，所述第二预测结果对应的真值为所述鸟瞰图网格中的真实点在所述样本图像中的对应像素点的rgb值。

10、第二方面，本技术实施例提供了一种点云处理方法，所述方法包括：

11、获取待处理点云；

12、将所述待处理点云输入基于上述第一方面提供的多模态模型预训练方法训练得到的多模态模型中的第一编码器，得到待利用bev特征；

13、基于所述待利用bev特征进行目标检测，得到检测结果。

14、第三方面，本技术实施例提供了一种多模态模型预训练方法，所述方法包括：

15、获取对应于同一场景的样本点云以及样本图像；

16、对所述样本点云进行体素化处理，得到多个体素，并按照各体素所属的鸟瞰图网格对所述样本点云中的部分真实点进行点云掩码处理，得到第一掩码点云，以及对所述样本图像进行图像掩码处理，得到第一掩码图像；

17、利用多模态模型中的第一编码器对所述第一掩码点云进行特征提取，得到bev视角下的特征，作为第一bev特征，以及利用所述多模态模型中的第二编码器对所述第一掩码图像进行特征提取，得到第一图像特征；其中，所述多模态模型还包括第二转换器、第二融合网络、第一解码器和第二解码器；

18、利用所述第二转换器将所述第一bev特征转换到所述样本图像的图像视角下，得到第二转换特征；

19、利用所述第二融合网络对所述第二转换特征和所述第一图像特征进行特征融合，得到第二图像特征；

20、利用所述第一解码器对第二bev特征进行解码，得到第一预测结果，利用所述第二解码器对所述第二图像特征进行解码，得到第三预测结果和第四预测结果；其中，所述第一预测结果表示：所述鸟瞰图网格包含的预测点的预测数目和各预测点的预测坐标，所述第三预测结果表示：所述样本图像中各像素点的预测rgb值，所述第四预测结果表示：所述样本图像中各像素点的预测深度值；所述第二bev特征为基于所述第一bev特征得到的；

21、基于所述第一预测结果与对应的真值之间的差异，所述第三预测结果与对应的真值之间的差异，以及所述第四预测结果与对应的真值之间的差异，调整所述多模态模型的模型参数；其中，所述第四预测结果对应的真值为所述样本图像的各像素点在所述样本点云中的对应点的深度值。

22、第四方面，本技术实施例提供了一种图像处理方法，所述方法包括：

23、获取待处理图像；

24、将所述待处理图像输入基于上述第三方面提供的多模态模型预训练方法训练得到的多模态模型中的第二编码器，得到待利用图像特征；

25、基于所述待利用图像特征进行目标检测，得到检测结果。

26、第五方面，本技术实施例提供了一种多模态模型预训练装置，所述装置包括：

27、第一获取模块，获取对应于同一场景的样本点云以及样本图像；

28、第一掩码模块，对所述样本点云进行体素化处理，得到多个体素，并按照各体素所属的鸟瞰图网格对所述样本点云中的部分真实点进行点云掩码处理，得到第一掩码点云，以及对所述样本图像进行图像掩码处理，得到第一掩码图像；

29、第一特征提取模块，利用多模态模型中的第一编码器对所述第一掩码点云进行特征提取，得到bev视角下的特征，作为第一bev特征，以及利用所述多模态模型中的第二编码器对所述第一掩码图像进行特征提取，得到第一图像特征；其中，所述多模态模型还包括第一转换器、第一融合网络、第一解码器和第二解码器；

30、第一转换模块，利用所述第一转换器将所述第一图像特征转换到所述bev视角下，得到第一转换特征；

31、第一融合模块，利用所述第一融合网络对所述第一转换特征和所述第一bev特征进行特征融合，得到第二bev特征；

32、第一解码模块，利用所述第一解码器对所述第二bev特征进行解码，得到第一预测结果和第二预测结果，以及利用所述第二解码器对第二图像特征进行解码，得到第三预测结果；其中，所述第一预测结果表示：所述鸟瞰图网格包含的预测点的预测数目和各预测点的预测坐标，所述第二预测结果表示：所述鸟瞰图网格中各预测点的预测rgb值，所述第三预测结果表示：所述样本图像中各像素点的预测rgb值；所述第二图像特征为基于所述第一图像特征得到的；

33、第一调整模块，基于所述第一预测结果与对应的真值之间的差异，所述第二预测结果与对应的真值之间的差异，以及所述第三预测结果与对应的真值之间的差异，调整所述多模态模型的模型参数；其中，所述第二预测结果对应的真值为所述鸟瞰图网格中的真实点在所述样本图像中的对应像素点的rgb值。

34、第六方面，本技术实施例提供了一种点云处理装置，所述装置包括：

35、点云获取模块，用于获取待处理点云；

36、点云输入模块，用于将所述待处理点云输入基于上述第一方面提供的多模态模型预训练方法训练得到的多模态模型中的第一编码器，得到待利用bev特征；

37、点云检测模块，用于基于所述待利用bev特征进行目标检测，得到检测结果。

38、第七方面，本技术实施例提供了一种多模态模型预训练装置，所述装置包括：

39、第二获取模块，获取对应于同一场景的样本点云以及样本图像；

40、第二掩码模块，对所述样本点云进行体素化处理，得到多个体素，并按照各体素所属的鸟瞰图网格对所述样本点云中的部分真实点进行点云掩码处理，得到第一掩码点云，以及对所述样本图像进行图像掩码处理，得到第一掩码图像；

41、第二特征提取模块，利用多模态模型中的第一编码器对所述第一掩码点云进行特征提取，得到bev视角下的特征，作为第一bev特征，以及利用所述多模态模型中的第二编码器对所述第一掩码图像进行特征提取，得到第一图像特征；其中，所述多模态模型还包括第二转换器、第二融合网络、第一解码器和第二解码器；

42、第二转换模块，利用所述第二转换器将所述第一bev特征转换到所述样本图像的图像视角下，得到第二转换特征；

43、第二融合模块，利用所述第二融合网络对所述第二转换特征和所述第一图像特征进行特征融合，得到第二图像特征；

44、第二解码模块，利用所述第一解码器对第二bev特征进行解码，得到第一预测结果，利用所述第二解码器对所述第二图像特征进行解码，得到第三预测结果和第四预测结果；其中，所述第一预测结果表示：所述鸟瞰图网格包含的预测点的预测数目和各预测点的预测坐标，所述第三预测结果表示：所述样本图像中各像素点的预测rgb值，所述第四预测结果表示：所述样本图像中各像素点的预测深度值；所述第二bev特征为基于所述第一bev特征得到的；

45、第二调整模块，基于所述第一预测结果与对应的真值之间的差异，所述第三预测结果与对应的真值之间的差异，以及所述第四预测结果与对应的真值之间的差异，调整所述多模态模型的模型参数；其中，所述第四预测结果对应的真值为所述样本图像的各像素点在所述样本点云中的对应点的深度值。

46、第八方面，本技术实施例提供了一种图像处理装置，所述装置包括：

47、图像获取模块，用于获取待处理图像；

48、图像输入模块，用于将所述待处理图像输入基于上述第三方面提供的多模态模型预训练方法训练得到的多模态模型中的第二编码器，得到待利用图像特征；

49、图像检测模块，用于基于所述待利用图像特征进行目标检测，得到检测结果。

50、第九方面，本技术实施例提供了一种电子设备，包括：

51、存储器，用于存放计算机程序；

52、处理器，用于执行存储器上所存放的程序时，实现上述任一项所述的多模态模型预训练方法，或者，点云处理方法，或者，图像处理方法。

53、第十方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的多模态模型预训练方法，或者，点云处理方法，或者，图像处理方法。

54、第十一方面，本技术实施例提供了一种计算机程序产品，所述计算机程序产品包含可执行指令，当所述可执行指令在计算机上执行时，使得计算机执行上述任一项所述的多模态模型预训练方法，或者，点云处理方法，或者，图像处理方法。

55、本技术实施例有益效果：

56、本技术实施例提供的方案，基于第一预测结果与对应的真值之间的差异调整模型参数，能够使得模型从样本点云中学习到关于点云中的点的分布，包括点的数目以及位置信息。基于第三预测结果与对应的真值之间的差异调整模型参数，能够使得模型从样本图像中学习到颜色信息。将鸟瞰图网格中的真实点在样本图像中的对应像素点的rgb值作为第二预测结果对应的真值，能够充分发挥样本图像中的颜色信息对点云的颜色信息的补充作用。那么，基于第二预测结果与对应的真值之间的差异对模型参数进行调整，使得模型能够充分利用样本图像中的颜色信息进行点云的颜色信息学习，从而使得训练得到的多模态模型中的第一编码器能够在学习到输入的点云中点的分布的基础上，对输入的点云中的rgb信息进行准确预测。从而，能够提高训练得到的多模态模型中的编码器处理下游任务的处理效果。

57、当然，实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。

技术特征：

1.一种多模态模型预训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述多模态模型还包括第二转换器和第二融合网络；

3.根据权利要求1或2所述的方法，其特征在于，所述按照各体素所属的鸟瞰图网格对所述样本点云中的部分真实点进行点云掩码处理，得到第一掩码点云，包括：对多个体素进行分组，得到属于同一鸟瞰图网格的体素；按照第一比例从各鸟瞰图网格中确定待掩码鸟瞰图网格；将确定出的待掩码鸟瞰图网格包含的各真实点的坐标替换为当前的预定坐标，得到第一掩码点云；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述第一预测结果与对应的真值之间的差异，包括：

6.根据权利要求5所述的方法，其特征在于，所述第一差异为利用平滑l1损失函数计算得到；

7.根据权利要求6所述的方法，其特征在于，所述第一倒角距离损失函数为：

8.根据权利要求3所述的方法，其特征在于，所述第二预测结果与对应的真值之间的差异为各鸟瞰图网格对应的第二子差异的总和值；任一鸟瞰图网格对应的第二子差异为：基于该鸟瞰图网格内各预测点的预测rgb值与该鸟瞰图网格内的真实点在所述样本图像中的对应像素点的rgb值，利用第二倒角距离损失函数计算得到。

9.根据权利要求8所述的方法，其特征在于，所述第二倒角距离损失函数为：

10.根据权利要求1或2所述的方法，其特征在于，所述第一编码器包括bev编码器；

11.根据权利要求2所述的方法，其特征在于，所述第一融合网络为第一交叉注意力网络；利用所述第一融合网络对所述第一转换特征和所述第一bev特征进行特征融合，得到第二bev特征，包括：对所述第一bev特征进行映射得到所述第一交叉注意力网络的输入数据中的查询q，以及对所述第一转换特征进行映射得到所述第一交叉注意力网络的输入数据中的键k和值v，并将得到的q、k和v输入至所述第一交叉注意力网络进行特征融合，得到第二bev特征；

12.根据权利要求2所述的方法，其特征在于，所述第三预测结果与对应的真值之间的差异为：基于所述样本图像中各像素点的预测rgb值与所述样本图像中各像素点的真实rgb值，利用均方差损失函数计算得到的；

13.根据权利要求2所述的方法，其特征在于，所述第二转换器用于基于采集所述样本图像的相机的内参、外参以及所述样本点云的点云坐标系与所述相机的相机坐标系之间的转换关系，将所述第一bev特征转换到所述样本图像的图像视角下。

14.一种点云处理方法，其特征在于，所述方法包括：

15.一种多模态模型预训练方法，其特征在于，所述方法包括：

16.根据权利要求15所述的方法，其特征在于，所述多模态模型还包括第一转换器和第一融合网络；

17.根据权利要求16所述的方法，其特征在于，所述按照各体素所属的鸟瞰图网格对所述样本点云中的部分真实点进行点云掩码处理，得到第一掩码点云，包括：对多个体素进行分组，得到属于同一鸟瞰图网格的体素；按照第一比例从各鸟瞰图网格中确定待掩码鸟瞰图网格；将确定出的待掩码鸟瞰图网格包含的各真实点的坐标替换为当前的预定坐标，得到第一掩码点云；

18.根据权利要求17所述的方法，其特征在于，所述方法还包括：

19.根据权利要求17所述的方法，其特征在于，所述第一预测结果与对应的真值之间的差异，包括：

20.根据权利要求19所述的方法，其特征在于，所述第一差异为利用平滑l1损失函数计算得到；

21.根据权利要求20所述的方法，其特征在于，所述第一倒角距离损失函数为：

22.根据权利要求17所述的方法，其特征在于，所述第二预测结果与对应的真值之间的差异为各鸟瞰图网格对应的第二子差异的总和值；任一鸟瞰图网格对应的第二子差异为：基于该鸟瞰图网格内各预测点的预测rgb值与该鸟瞰图网格内的真实点在所述样本图像中的对应像素点的rgb值，利用第二倒角距离损失函数计算得到。

23.根据权利要求22所述的方法，其特征在于，所述第二倒角距离损失函数为：

24.根据权利要求15或16所述的方法，其特征在于，所述第一编码器包括bev编码器；

25.根据权利要求16所述的方法，其特征在于，所述第一融合网络为第一交叉注意力网络；利用所述第一融合网络对所述第一转换特征和所述第一bev特征进行特征融合，得到第二bev特征，包括：对所述第一bev特征进行映射得到所述第一交叉注意力网络的输入数据中的查询q，以及对所述第一转换特征进行映射得到所述第一交叉注意力网络的输入数据中的键k和值v，并将得到的q、k和v输入至所述第一交叉注意力网络进行特征融合，得到第二bev特征；

26.根据权利要求16所述的方法，其特征在于，所述第三预测结果与对应的真值之间的差异为：基于所述样本图像中各像素点的预测rgb值与所述样本图像中各像素点的真实rgb值，利用均方差损失函数计算得到的；

27.根据权利要求15或16所述的方法，其特征在于，所述第二转换器用于基于采集所述样本图像的相机的内参、外参以及所述样本点云的点云坐标系与所述相机的相机坐标系之间的转换关系，将所述第一bev特征转换到所述样本图像的图像视角下。

28.一种图像处理方法，其特征在于，所述方法包括：

29.一种多模态模型预训练装置，其特征在于，所述装置包括：

30.一种点云处理装置，其特征在于，所述装置包括：

31.一种多模态模型预训练装置，其特征在于，所述装置包括：

32.一种图像处理装置，其特征在于，所述装置包括：

33.一种电子设备，其特征在于，包括：

34.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-28任一项所述的方法。

35.一种计算机程序产品，其特征在于，所述计算机程序产品包含可执行指令，当所述可执行指令在计算机上执行时，使得计算机执行权利要求1-28任一项所述的方法。

技术总结
本申请实施例提供了一种多模态模型预训练方法、装置、设备以及存储介质，涉及深度学习技术领域。具体实现方案为：对样本点云和样本图像分别进行掩码处理得到第一掩码点云和第一掩码图像；对第一掩码点云进行特征提取得到第一BEV特征，对第一掩码图像进行特征提取得到第一图像特征；将第一图像特征转换到BEV视角下后和第一BEV特征进行特征融合得到第二BEV特征；分别对第二BEV特征以及第二图像特征进行解码，得到第一预测结果、第二预测结果和第三预测结果；基于第一预测结果、第二预测结果和第三预测结果分别与对应的真值之间的差异，调整模型参数。可见，通过本方案，能够提高训练得到的多模态模型中的编码器处理下游任务的处理效果。

技术研发人员：裴宇,张经纬
受保护的技术使用者：杭州海康威视数字技术股份有限公司
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-32665.html

专利

最新回复(0)