基于数据重采样和概率先验知识的场景图生成方法及系统

技术2025-03-13 56

本发明涉及场景图生成，特别是涉及基于数据重采样和概率先验知识的场景图生成方法及系统。

背景技术：

1、场景图是对场景的结构化表示，可以清晰地表达场景中的物体、属性以及物体之间的关系。随着计算机技术的发展，人们已不再满足于简单地检测和识别图像中的物体，而是期待对视觉场景有更高层次的理解和推理。例如，给定一副图像，本发明不仅要检测和识别图像中的物体，还要理解物体之间的关系。

2、先前的场景图生成方法受数据集谓词长尾效应影响严重，且准确率低。

技术实现思路

1、为了解决现有技术的不足，本发明提供了基于数据重采样和概率先验知识的场景图生成方法及系统；能够有效改善数据集谓词分布不平衡的影响，并且通过概率先验知识提升模型准确率。

2、一方面，提供了基于数据重采样和概率先验知识的场景图生成方法，包括：

3、获取待处理图像；将待处理图像，输入到训练后的场景图生成网络中，得到生成的场景图；所述场景图，包括：场景实体以及场景实体之间的关系；

4、其中，训练后的场景图生成网络，用于：对待处理图像进行目标检测，得到第一组实体目标；基于第一组实体目标，构建出第一图神经网络；第一图神经网络包括：场景实体节点和场景谓词节点；

5、从常识数据库(例如conceptnet、wordnet)中提取实体，得到第二组实体目标；基于第二组实体目标，构建出第二图神经网络；第二图神经网络包括：常识实体节点和常识谓词节点；在第一图神经网络和第二图神经网络之间建立连接边，将场景实体节点与常识实体节点连接起来，将场景谓词节点与常识谓词节点连接起来；

6、通过图神经网络之间的消息传递，更新场景谓词节点与常识谓词节点的连接边，更新第一图神经网络中场景谓词节点与第二图神经网络中常识谓词节点之间的相似性，根据第一图神经网络中场景谓词节点与第二图神经网络中常识谓词节点之间的相似性，对第一图神经网络的场景实体节点之间的关系进行预测，得到优化后的第一图神经网络；

7、根据优化后的第一图神经网络，获取对应的三元组数据；基于所述三元组数据，生成待处理图像对应的场景图。

8、另一方面，提供了基于数据重采样和概率先验知识的场景图生成系统，包括：

9、获取模块，其被配置为：获取待处理图像；

10、生成模块，其被配置为：将待处理图像，输入到训练后的场景图生成网络中，得到生成的场景图；所述场景图，包括：场景实体以及场景实体之间的关系；

11、其中，训练后的场景图生成网络，用于：对待处理图像进行目标检测，得到第一组实体目标；基于第一组实体目标，构建出第一图神经网络；第一图神经网络包括：场景实体节点和场景谓词节点；

12、从常识数据库中提取实体，得到第二组实体目标；基于第二组实体目标，构建出第二图神经网络；第二图神经网络包括：常识实体节点和常识谓词节点；在第一图神经网络和第二图神经网络之间建立连接边，将场景实体节点与常识实体节点连接起来，将场景谓词节点与常识谓词节点连接起来；

13、通过图神经网络之间的消息传递，更新场景谓词节点与常识谓词节点的连接边，更新第一图神经网络中场景谓词节点与第二图神经网络中常识谓词节点之间的相似性，根据第一图神经网络中场景谓词节点与第二图神经网络中常识谓词节点之间的相似性，对第一图神经网络的场景实体节点之间的关系进行预测，得到优化后的第一图神经网络；

14、根据优化后的第一图神经网络，获取对应的三元组数据；基于所述三元组数据，生成待处理图像对应的场景图。

15、再一方面，还提供了一种电子设备，包括：

16、存储器，用于非暂时性存储计算机可读指令；以及

17、处理器，用于运行所述计算机可读指令，

18、其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

19、再一方面，还提供了一种存储介质，非暂时性存储计算机可读指令，其中，当非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

20、再一方面，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

21、上述技术方案具有如下优点或有益效果：

22、本发明主要基于现有的图神经网络场景图生成框架提出一种更为精确的场景图生成算法，具体改进内容可以概括为以下几个方面：

23、1.在模型训练时使用数据重采样模块，使训练数据中谓词分布尽量保持平衡，减少数据集长尾效应带来的不利影响。

24、2.在原有的场景图生成网络上添加概率密度函数，使用概率先验知识提高模型预测准确率。

25、3.使用门控函数在图神经网络消息传递时主动更新概率。

26、本发明的算法改进主要为了让算法能够充分利用先验知识，并克服数据集分布不平衡的影响，在数据集上验证取得了很好的效果。

技术特征：

1.基于数据重采样和概率先验知识的场景图生成方法，其特征是，包括：

2.如权利要求1所述的基于数据重采样和概率先验知识的场景图生成方法，其特征是，将待处理图像，输入到训练后的场景图生成网络中，得到生成的场景图；所述场景图，包括：场景实体以及场景实体之间的关系，其中，训练后的场景图生成网络，包括：

3.如权利要求2所述的基于数据重采样和概率先验知识的场景图生成方法，其特征是，所述对待处理图像进行目标检测，得到第一组实体目标，是通过第一图像检测网络来实现的；所述第一组实体目标，包括：场景实体节点，每一对场景实体节点之间设有场景谓词节点；所述场景实体节点是指场景实体标签，所述场景谓词节点，表示场景实体对之间的位置关系或归属关系；

4.如权利要求1所述的基于数据重采样和概率先验知识的场景图生成方法，其特征是，通过图神经网络之间的消息传递，更新场景谓词节点与常识谓词节点的连接边，更新第一图神经网络中场景谓词节点与第二图神经网络中常识谓词节点之间的相似性，根据第一图神经网络中场景谓词节点与第二图神经网络中常识谓词节点之间的相似性，对第一图神经网络的场景实体节点之间的关系进行预测，得到优化后的第一图神经网络；其中，在消息传递过程中，每个节点的传出消息为：

5.如权利要求1所述的基于数据重采样和概率先验知识的场景图生成方法，其特征是，所述通过图神经网络之间的消息传递，更新场景谓词节点与常识谓词节点的连接边，更新第一图神经网络中场景谓词节点与第二图神经网络中常识谓词节点之间的相似性，根据第一图神经网络中场景谓词节点与第二图神经网络中常识谓词节点之间的相似性，对第一图神经网络的场景实体节点之间的关系进行预测，得到优化后的第一图神经网络；其中，在进行消息传递时，场景图中场景实体节点的传入消息，来源于：场景图中场景实体节点作主语时的场景谓词节点、场景实体节点作宾语时的场景谓词节点以及常识图中常识谓词节点的映射。

6.如权利要求1所述的基于数据重采样和概率先验知识的场景图生成方法，其特征是，所述通过图神经网络之间的消息传递，更新场景谓词节点与常识谓词节点的连接边，更新第一图神经网络中场景谓词节点与第二图神经网络中常识谓词节点之间的相似性，根据第一图神经网络中场景谓词节点与第二图神经网络中常识谓词节点之间的相似性，对第一图神经网络的场景实体节点之间的关系进行预测，得到优化后的第一图神经网络；其中，每次消息传递时，使用门控函数更新谓词概率

7.如权利要求1所述的基于数据重采样和概率先验知识的场景图生成方法，其特征是，将待处理图像，输入到训练后的场景图生成网络中，得到生成的场景图；其中，训练后的场景图生成网络，训练过程包括：

8.基于数据重采样和概率先验知识的场景图生成系统，其特征是，包括：

9.一种电子设备，其特征是，包括：

10.一种存储介质，其特征是，非暂时性存储计算机可读指令，其中，当非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。

技术总结
本发明公开了基于数据重采样和概率先验知识的场景图生成方法及系统，方法包括：在第一和第二图神经网络之间建立连接边，将场景实体节点与常识实体节点连接起来，将场景谓词节点与常识谓词节点连接起来；通过图神经网络之间的消息传递，更新场景谓词节点与常识谓词节点的连接边，更新第一图神经网络中场景谓词节点与第二图神经网络中常识谓词节点之间的相似性，根据第一图神经网络中场景谓词节点与第二图神经网络中常识谓词节点之间的相似性，对第一图神经网络的场景实体节点之间的关系进行预测，得到优化后的第一图神经网络；根据优化后的第一图神经网络，获取对应的三元组数据；基于三元组数据，生成待处理图像对应的场景图。

技术研发人员：刘国良,卢虹宇,田国会,姜健
受保护的技术使用者：山东大学
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-27433.html

专利

最新回复(0)