模型训练方法、任务处理方法、装置、电子设备、存储介质及计算机程序产品与流程

技术2025-06-07 79

本技术涉及深度学习，尤其涉及一种模型训练方法、任务处理方法、装置、电子设备、存储介质及计算机程序产品。

背景技术：

1、视觉问答(vqa，visual question answering)技术是指设备根据视觉图像准确回答自然语言问题。与传统文本问答技术相比，vqa技术需要设备同时理解图像和文本两种类型的信息；也就是说，vqa技术连接了计算机视觉和自然语言处理两大领域，使得设备能够同时具有观看和阅读的能力。vqa技术具有广阔的应用前景，比如帮助视障用户感知和了解图像世界、为自动驾驶汽车提供道路和方向指引、协助搭建视觉和语言一体化的服务平台等。

2、然而，相关的vqa方案存在回答准确率低的问题。

技术实现思路

1、为解决相关技术问题，本技术实施例提供一种模型训练方法、任务处理方法、装置、电子设备、存储介质及计算机程序产品。

2、本技术实施例的技术方案是这样实现的：

3、本技术实施例提供一种模型训练方法，包括：

4、针对视觉问答样本数据，生成负样本数据，并确定第一损失函数，所述负样本数据包含负例图像及对应的问答数据；

5、利用视觉问答样本数据和对应的负样本数据、所述第一损失函数，对第一模型进行训练，所述第一模型用于执行待处理的视觉问答任务；其中，在对所述第一模型进行训练的过程中，通过所述第一损失函数至少使得视觉问答样本数据包含的第一类样本数据的训练贡献度增大，视觉问答样本数据包含的第二类样本数据的训练贡献度减小，且问答数据与所述视觉问答样本数据包含的正例图像的依赖关系增大，与负例图像的依赖关系减小，所述第一类样本数据包含预测的答案概率小于或等于第一阈值的视觉问答样本数据，所述第二类样本数据包含预测的答案概率大于第一阈值的视觉问答样本数据。

6、上述方案中，所述确定第一损失函数，包括：

7、确定第二损失函数；其中，所述第一模型训练过程中，通过所述第二损失函数能够使得视觉问答样本数据包含的第一类样本数据的训练贡献度增大，视觉问答样本数据包含的第二类样本数据的训练贡献度减小；

8、利用所述第二损失函数，确定所述第一损失函数。

9、上述方案中，所述生成负样本数据，包括：

10、针对一个视觉问答样本数据，确定视觉问答样本数据包含的第一图像中与对应问题关联的第一区域；

11、利用第二图像包含的至少与对应问题关联的第二区域，替换所述第一区域，得到负例图像；

12、利用所述负例图像和视觉问答样本数据包含的问答数据，生成负样本数据。

13、上述方案中，所述生成负样本数据，包括：

14、针对一个视觉问答样本数据，确定视觉问答样本数据包含的第一图像中与对应问题关联的第一区域；

15、利用第二图像包含的至少与对应问题关联的第二区域，替换所述第一区域，得到负例图像；

16、利用所述负例图像和视觉问答样本数据包含的问答数据，生成负样本数据。

17、上述方案中，所述确定视觉问答样本数据包含的第一图像中与对应问题关联的第一区域，包括：

18、将所述第一图像划分成n个区域，n为大于或等于1的整数；

19、针对n个区域中的每个区域，确定第一信息，所述第一信息包含区域对答案的贡献程度分数；

20、根据每个区域的第一信息，确定所述第一区域，所述第一区域包含n个区域中的一个或多个区域。

21、上述方案中，所述根据每个区域的第一信息，确定所述第一区域，包括：

22、按照贡献程度分数从高到低，将n个区域进行排序，得到排序结果；

23、将排序结果中前m个区域作为所述第一区域；其中，前m个区域的贡献程度分数之和在n个区域的贡献程度分数之和的占比超过第一阈值。

24、上述方案中，所述确定第一信息，包括：

25、针对每个区域，确定区域的梯度响应值；

26、对梯度响应值进行归一化处理，得到所述第一信息。

27、本技术实施例还提供一种任务处理方法，包括：

28、获取待处理的视觉问答任务；

29、利用第一模型执行所述待处理的视觉问答任务，得到执行结果，所述第一模型是利用上述任一模型训练方法得到的。

30、本技术实施例还提供一种模型训练装置，包括：

31、生成单元，用于针对视觉问答样本数据，生成负样本数据，并确定第一损失函数，所述负样本数据包含负例图像及对应的问答数据；

32、训练单元，用于利用视觉问答样本数据和对应的负样本数据、所述第一损失函数，对第一模型进行训练，所述第一模型用于执行待处理的视觉问答任务；其中，在对所述第一模型进行训练的过程中，通过所述第一损失函数至少使得视觉问答样本数据包含的第一类样本数据的训练贡献度增大，视觉问答样本数据包含的第二类样本数据的训练贡献度减小，且问答数据与所述视觉问答样本数据包含的正例图像的依赖关系增大，与负例图像的依赖关系减小，所述第一类样本数据包含预测的答案概率小于或等于第一阈值的视觉问答样本数据，所述第二类样本数据包含预测的答案概率大于第一阈值的视觉问答样本数据。

33、本技术实施例还提供一种任务处理装置，包括：

34、获取单元，用于获取待处理的视觉问答任务；

35、执行单元，用于利用第一模型执行所述待处理的视觉问答任务，得到执行结果，所述第一模型是利用上述任一模型训练方法得到的。

36、本技术实施例还提供一种电子设备，包括：处理器及通信接口；其中，

37、所述处理器，用于：

38、针对视觉问答样本数据，生成负样本数据，并确定第一损失函数，所述负样本数据包含负例图像及对应的问答数据；以及利用视觉问答样本数据和对应的负样本数据、所述第一损失函数，对第一模型进行训练，所述第一模型用于执行待处理的视觉问答任务；其中，在对所述第一模型进行训练的过程中，通过所述第一损失函数至少使得视觉问答样本数据包含的第一类样本数据的训练贡献度增大，视觉问答样本数据包含的第二类样本数据的训练贡献度减小，且问答数据与所述视觉问答样本数据包含的正例图像的依赖关系增大，与负例图像的依赖关系减小，所述第一类样本数据包含预测的答案概率小于或等于第一阈值的视觉问答样本数据，所述第二类样本数据包含预测的答案概率大于第一阈值的视觉问答样本数据；

39、或者，

40、通过所述通信接口获取待处理的视觉问答任务；以及利用第一模型执行所述待处理的视觉问答任务，得到执行结果，所述第一模型是利用上述任一模型训练方法得到的。

41、本技术实施例还提供一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

42、其中，所述处理器用于运行所述计算机程序时，执行时实现上述任一模型训练方法的步骤，或者实现上述任务处理方法的步骤。

43、本技术实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一模型训练方法的步骤，或者实现上述任务处理方法的步骤。

44、本技术实施例提供的模型训练方法、任务处理方法、装置、电子设备、存储介质及计算机程序产品；其中，模型训练方法包括：针对视觉问答样本数据，生成负样本数据，并确定第一损失函数，所述负样本数据包含负例图像及对应的问答数据；利用视觉问答样本数据和对应的负样本数据、所述第一损失函数，对第一模型进行训练，所述第一模型用于执行待处理的视觉问答任务；其中，在对所述第一模型进行训练的过程中，通过所述第一损失函数至少使得视觉问答样本数据包含的第一类样本数据的训练贡献度增大，视觉问答样本数据包含的第二类样本数据的训练贡献度减小，且问答数据与所述视觉问答样本数据包含的正例图像的依赖关系增大，与负例图像的依赖关系减小，所述第一类样本数据包含预测的答案概率小于或等于第一阈值的视觉问答样本数据，所述第二类样本数据包含预测的答案概率大于第一阈值的视觉问答样本数据。本技术实施例提供的技术方案，在视觉问答模型(即第一模型)的训练过程中，通过自动构建负样本数据(也可以理解为对抗样本)，使得视觉问答模型能够基于正样本数据和负样本数据进行训练，即通过对比学习的方式进行均衡训练；同时，通过聚焦数据样本中的负样本(即第一类样本数据)，能够降低视觉问答模型对正样本(即第二类样本数据)的依赖，使得视觉问答模型进行在训练过程中充分学习；也就是说，在数据样本存在不均衡分布的情况下，视觉问答模型能够基于难样本聚焦以及对比学习的方式，对已有的数据样本进行充分学习，使得训练后的视觉问答模型的鲁棒性更强，从而提高了视觉问答模型对视觉问答任务的回答准确率。

技术特征：

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定第一损失函数，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述生成负样本数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述确定视觉问答样本数据包含的第一图像中与对应问题关联的第一区域，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据每个区域的第一信息，确定所述第一区域，包括：

6.根据权利要求4所述的方法，其特征在于，所述确定第一信息，包括：

7.一种任务处理方法，其特征在于，包括：

8.一种模型训练装置，其特征在于，包括：

9.一种任务处理装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：处理器及通信接口；其中，

11.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤，或者实现权利要求7所述方法的步骤。

13.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤，或者实现权利要求7所述方法的步骤。

技术总结
本申请公开了一种模型训练方法、任务处理方法、装置、电子设备、存储介质及计算机程序产品。其中，方法包括：针对视觉问答样本数据，生成负样本数据，并确定第一损失函数，负样本数据包含负例图像及对应的问答数据；利用视觉问答样本数据和对应的负样本数据、第一损失函数，对第一模型进行训练，第一模型用于执行待处理的视觉问答任务；其中，在对第一模型进行训练的过程中，通过第一损失函数至少使得视觉问答样本数据包含的第一类样本数据的训练贡献度增大，视觉问答样本数据包含的第二类样本数据的训练贡献度减小，且问答数据与视觉问答样本数据包含的正例图像的依赖关系增大，与负例图像的依赖关系减小。

技术研发人员：朱茜,韩雪,冯俊兰,邓超
受保护的技术使用者：中国移动通信有限公司研究院
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-31988.html

专利

最新回复(0)