一种视觉问答方法、装置、计算机设备和存储介质与流程

    技术2025-01-16  41


    本发明涉及人工智能领域,具体涉及一种视觉问答方法、装置、计算机设备和存储介质。


    背景技术:

    1、视觉问答(visual question answering,vqa)旨在让计算机能够理解和回答关于图像或视频内容的问题,一个vqa系统以一张图片或一段视频外加对应的开放式的自然语言问题作为输入,以生成一条自然语言的回答作为输出。vqa在文娱、安防、教育和医疗等领域有着广泛的应用,例如借助vqa快速总结出一段影视剧的背景和人物关系,以帮助用户获得更好的体验。在输入和输出的过程中,如何进行有效的视觉信息表征、如何有机融合视觉和文本信息,是视觉问答方法要解决的关键问题。

    2、当前的相关技术往往采用单一的学习模型进行视觉特征的提取,使得获取到的视觉信息较为有限,导致影响后续回答问题的效果;或者所采用的用于提取视觉特征的学习模型与用于输出问题结果的学习模型相对独立,没有将vqa系统作为整体进行端到端的级联优化,使得整体的vqa系统解决问题的效果不佳。


    技术实现思路

    1、为解决现有存在的技术问题,本发明实施例提供一种视觉问答方法、装置、计算机设备、存储介质和计算机程序产品。

    2、为达到上述目的,本发明实施例的技术方案是这样实现的:

    3、本发明实施例提供了一种视觉问答方法,所述方法包括:获得目标图像和/或目标视频,以及获得所述目标图像和/或目标视频对应的问题文本;

    4、通过预训练完成的多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征,对多个视觉特征进行拼接,获得多维特征向量;其中,所述多个视觉模型至少包括下列一项或多项:分类模型、目标检测模型、分割模型和图像描述模型;

    5、将所述问题文本进行编码,获得第一向量,利用预训练完成的对齐模型对所述多维特征向量和所述第一向量进行融合,获得第二向量;

    6、通过语言模型对所述第二向量进行处理,获得所述问题文本的回答文本。

    7、上述方案中,所述通过预训练完成的多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征之前,所述方法还包括:对所述目标图像或目标视频进行预处理,使得预处理后所述目标图像和目标视频为指定大小;

    8、相应的,所述通过预训练完成的多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征,包括:通过预训练完成的多个视觉模型分别提取预处理后的所述目标图像和/或目标视频中的视觉特征。

    9、上述方案中,所述通过预训练完成的多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征,包括:通过所述分类模型对所述目标图像和/或目标视频进行特征提取,获得第一特征向量,所述第一特征向量表示所述目标图像和/或目标视频所属的类别;

    10、通过所述目标检测模型对所述目标图像和/或目标视频进行特征提取,获得第二特征向量,所述第二特征向量表示所述目标图像和/或目标视频中的目标的位置及目标的类别;

    11、通过所述分割模型对所述目标图像和/或目标视频进行特征提取,获得第三特征向量,所述第三特征向量表示所述目标图像和/或目标视频中的目标对应的形状特征;

    12、通过所述图像描述模型对所述目标图像和/或目标视频进行特征提取,获得第四特征向量,所述第四特征向量表示所述目标图像和/或目标视频的语义描述特征。

    13、上述方案中,所述多个视觉模型还包括姿态估计模型;所述通过多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征,包括:通过所述姿态估计模型对所述目标图像和/或目标视频进行特征提取,获得第五特征向量,所述第五特征向量表示所述目标图像和/或目标视频中的人物的姿态特征。

    14、本发明实施例还提供了一种视觉问答的模型训练方法,所述方法包括:获得训练数据,所述训练数据包括图像和/或视频,以及所述图像和/或视频对应的问题文本和回答文本;

    15、通过待训练的多个视觉模型分别提取所述图像和/或视频中的视觉特征,对多个视觉特征进行拼接,获得多维特征向量;其中,所述多个视觉模型至少包括下列一项或多项:分类模型、目标检测模型、分割模型和图像描述模型;

    16、将所述问题文本进行编码,获得第一向量,利用待训练的对齐模型对所述多维特征向量和所述第一向量进行融合,获得第二向量;

    17、通过语言模型对所述第二向量进行处理,获得所述问题文本的输出回答文本;

    18、基于所述输出回答文本和所述训练数据中的回答文本的相似度,对所述多个视觉模型和所述对齐模型进行训练,更新所述多个视觉模型和/或所述对齐模型的模型参数,直至满足训练截止条件,获得所述多个视觉模型和所述对齐模型。

    19、上述方案中,所述通过待训练的多个视觉模型分别提取所述图像和/或视频中的视觉特征之前,所述方法还包括:对所述图像或视频进行预处理,使得预处理后所述图像和视频为指定大小;

    20、相应的,所述通过待训练的多个视觉模型分别提取所述图像和/或视频中的视觉特征,包括:通过待训练的多个视觉模型分别提取预处理后的所述图像和/或视频中的视觉特征。

    21、上述方案中,所述通过待训练的多个视觉模型分别提取所述图像和/或视频中的视觉特征,包括:通过所述分类模型对所述图像和/或视频进行特征提取,获得第一特征向量,所述第一特征向量表示所述图像和/或视频所属的类别;

    22、通过所述目标检测模型对所述图像和/或视频进行特征提取,获得第二特征向量,所述第二特征向量表示所述图像和/或视频中的目标的位置及目标的类别;

    23、通过所述分割模型对所述图像和/或视频进行特征提取,获得第三特征向量,所述第三特征向量表示所述图像和/或目标视频中的目标对应的形状特征;

    24、通过所述图像描述模型对所述图像和/或视频进行特征提取,获得第四特征向量,所述第四特征向量表示所述图像和/或视频的语义描述特征。

    25、上述方案中,所述多个视觉模型还包括姿态估计模型;所述通过预训练的多个视觉模型分别提取所述图像和/或视频中的视觉特征,包括:通过所述姿态估计模型对所述图像和/或视频进行特征提取,获得第五特征向量,所述第五特征向量表示所述图像和/或视频中的人物的姿态特征。

    26、上述方案中,所述基于所述输出回答文本和所述训练数据中的回答文本的相似度,对所述多个视觉模型和所述对齐模型进行训练,更新所述多个视觉模型和所述对齐模型的模型参数,直至满足训练截止条件,包括:基于所述输出回答文本和所述训练数据中的回答文本计算损失函数;

    27、在所述损失函数大于或等于预设阈值时,更新所述多个视觉模型和所述对齐模型的模型参数,以对所述多个视觉模型和所述对齐模型进行训练;

    28、在所述损失函数小于预设阈值或迭代次数达到最大迭代次数时,确定满足训练截止条件。

    29、上述方案中,在所述更新所述多个视觉模型和所述对齐模型的模型参数之后,所述方法还包括:通过反向传播,基于所述损失函数计算所述多维特征向量中各节点的梯度大小;所述节点为所述多维特征向量中组成每一维特征向量的一种或多种元素;

    30、根据各节点的梯度大小,确定各节点对输出回答文本的贡献度;

    31、根据各节点的贡献度解释所述输出回答文本。

    32、本发明实施例还提供了一种视觉问答装置,所述装置包括:第一获取单元、第一处理单元、第二处理单元、第三处理单元和第四处理单元;其中,

    33、所述第一获取单元,用于获得目标图像和/或目标视频,以及获得所述目标图像和/或目标视频对应的问题文本;

    34、所述第一处理单元,用于通过预训练完成的多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征,对多个视觉特征进行拼接,获得多维特征向量;其中,所述多个视觉模型至少包括下列一项或多项:分类模型、目标检测模型、分割模型和图像描述模型;

    35、所述第二处理单元,用于将所述问题文本进行编码,获得第一向量;

    36、所述第三处理单元,用于利用预训练完成的对齐模型对所述多维特征向量和所述第一向量进行融合,获得第二向量;

    37、所述第四处理单元,用于通过语言模型对所述第二向量进行处理,获得所述问题文本的回答文本。

    38、本发明实施例还提供了一种视觉问答的模型训练装置,所述装置包括:第二获取单元、第五处理单元、第六处理单元、第七处理单元、第八处理单元和模型训练单元;其中,

    39、所述第二获取单元,用于获得训练数据,所述训练数据包括图像和/或视频,以及所述图像和/或视频对应的问题文本和回答文本;

    40、所述第五处理单元,用于通过待训练的多个视觉模型分别提取所述图像和/或视频中的视觉特征,对多个视觉特征进行拼接,获得多维特征向量;其中,所述多个视觉模型至少包括下列一项或多项:分类模型、目标检测模型、分割模型和图像描述模型;

    41、所述第六处理单元,用于将所述问题文本进行编码,获得第一向量;

    42、所述第七处理单元,用于利用待训练的对齐模型对所述多维特征向量和所述第一向量进行融合,获得第二向量;

    43、所述第八处理单元,用于通过语言模型对所述第二向量进行处理,获得所述问题文本的输出回答文本;

    44、所述模型训练单元,用于基于所述输出回答文本和所述训练数据中的回答文本的相似度,对所述多个视觉模型和所述对齐模型进行训练,更新所述多个视觉模型和/或所述对齐模型的模型参数,直至满足训练截止条件,获得所述多个视觉模型和所述对齐模型。

    45、本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明实施例所述视觉问答方法或视觉问答的模型训练方法的步骤。

    46、本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所述视觉问答方法或视觉问答的模型训练方法的步骤。

    47、本技术实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序可由计算机设备的处理器执行,以完成本发明实施例所述视觉问答方法或视觉问答的模型训练方法的步骤。

    48、本发明实施例提供的视觉问答方法、装置、计算机设备和存储介质,一方面,通过采用多个视觉模型分别提取目标图像和/或目标视频中的视觉特征并进行拼接,以获得多维特征向量,既能提取目标图像和/或目标视频中的视频帧整体的特征,又能提取目标图像和/或目标视频中的视频帧中每个目标的特征,使得视觉特征覆盖更加全面,保证了视觉特征提取的全面性;另一方面,通过对齐模型将目标图像和/或目标视频对应的多维度特征向量与问题文本对应的文本特征向量进行融合,并将融合后输出的向量输入到语言模型中以得到回答文本,将多个视觉模型对多种特征有效提取的优势和语言模型较强的泛化能力进行结合,实现大小模型级联,使其能够作为一个整体进行端到端的并行优化。


    技术特征:

    1.一种视觉问答方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于,所述通过多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征之前,所述方法还包括:

    3.根据权利要求1所述的方法,其特征在于,所述通过预训练完成的多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征,包括:

    4.根据权利要求1或3所述的方法,其特征在于,所述多个视觉模型还包括姿态估计模型;

    5.一种视觉问答的模型训练方法,其特征在于,所述方法包括:

    6.根据权利要求5所述的方法,其特征在于,所述通过待训练的多个视觉模型分别提取所述图像和/或视频中的视觉特征之前,所述方法还包括:

    7.根据权利要求5所述的方法,其特征在于,所述通过待训练的多个视觉模型分别提取所述图像和/或视频中的视觉特征,包括:

    8.根据权利要求5或7所述的方法,其特征在于,所述多个视觉模型还包括姿态估计模型;

    9.根据权利要求5所述的方法,其特征在于,所述基于所述输出回答文本和所述训练数据中的回答文本的相似度,对所述多个视觉模型和所述对齐模型进行训练,更新所述多个视觉模型和所述对齐模型的模型参数,直至满足训练截止条件,包括:

    10.根据权利要求9所述的方法,其特征在于,在所述更新所述多个视觉模型和所述对齐模型的模型参数之后,所述方法还包括:

    11.一种视觉问答装置,其特征在于,所述装置包括:

    12.一种视觉问答的模型训练装置,其特征在于,所述装置包括:

    13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述方法的步骤,或者;

    14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至4任一项所述方法的步骤,或者;

    15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现根据权利要求1至4中任一项所述的方法,或者;


    技术总结
    本发明公开了一种视觉问答方法、装置、计算机设备和存储介质。所述方法包括:获得目标图像和/或目标视频,以及获得所述目标图像和/或目标视频对应的问题文本;通过预训练完成的多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征,对多个视觉特征进行拼接,获得多维特征向量;其中,所述多个视觉模型至少包括下列一项或多项:分类模型、目标检测模型、分割模型和图像描述模型;将所述问题文本进行编码,获得第一向量,利用预训练完成的对齐模型对所述多维特征向量和所述第一向量进行融合,获得第二向量;通过语言模型对所述第二向量进行处理,获得所述问题文本的回答文本。

    技术研发人员:李嘉骐,陈茜,邓超,冯俊兰
    受保护的技术使用者:中国移动通信有限公司研究院
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-25037.html

    最新回复(0)