基于LLM推理和集成的图像检索方法及装置

    技术2025-03-03  41


    本发明涉及图像检索领域,尤其涉及一种基于llm推理和集成的图像检索方法及装置。


    背景技术:

    1、近年来,组合图像检索(composed image retrieval,cir)将组合学习和图像检索的概念整合在一起,创建了一个独特而具有挑战性的任务,在条件搜索和时尚造型等领域中得到了广泛的应用,其中,零样本组合图像检索(zs-cir)数据不需要注释数据,能够提升图像检索效率。

    2、相关技术中,常用的zs-cir方法是使用字幕模型或文本反演等方法将图像模态转换为文本模态,再通过使用预训练的vlm为参考图像生成字幕,并根据修改文本重新组合字幕以便后续检索,该方式生成的已编辑字幕无法准确表达组合结果的多样性,而且多样的编辑字幕还可能带来噪声问题,而将所有编辑字幕等同地结合起来可能使显著的语义信息变得微不足道,并产生退化的语义特征,导致图像检索的准确率低。


    技术实现思路

    1、本发明提供一种基于llm推理和集成的图像检索方法及装置,用以解决现有技术的zs-cir方法获取的已编辑字幕无法准确表达组合结果的多样性,而且多样的编辑字幕还可能带来噪声问题,会产生退化的语义特征,导致图像检索的准确率的缺陷,提升了图像检索的准确率。

    2、本发明提供一种基于llm推理和集成的图像检索方法,包括:

    3、对参考图像对应的密集字幕进行llm推理,得到编辑字幕;

    4、从图像数据集中提取出视觉特征,从所述密集字幕中提取出参考字幕特征,从所述编辑字幕中提取出编辑字幕特征;计算所述参考字幕特征、所述编辑字幕特征和所述视觉特征之间的多个特征相似度;

    5、根据所述多个特征相似度之间的相似度减少量计算出集成字幕特征,并根据所述视觉特征和所述集成字幕特征之间的相似度从所述图像数据集搜索出目标检索图像。

    6、根据本发明提供的一种基于llm推理和集成的图像检索方法,所述对参考图像对应的密集字幕进行llm推理,得到编辑字幕包括:

    7、将所述参考图像进行字幕生成处理,得到所述密集字幕;

    8、将所述密集字幕和图像字幕修改文件填充至提示模板,得到目标提示信息,并对所述目标提示信息进行llm推理,得到所述编辑字幕。

    9、根据本发明提供的一种基于llm推理和集成的图像检索方法,所述将所述参考图像进行字幕生成处理,得到所述密集字幕包括:

    10、基于预训练的字幕生成模型对所述参考图像进行自然语言处理,得到自然语言字幕;

    11、采用核心采样对所述自然语言字幕进行处理,得到所述密集字幕。

    12、根据本发明提供的一种基于llm推理和集成的图像检索方法,所述根据所述多个特征相似度之间的相似度减少量计算出集成字幕特征包括:

    13、根据所述多个特征相似度之间的相对减少量确定语义相似度评分;

    14、根据所述语义相似度评分计算出所述集成字幕特征。

    15、根据本发明提供的一种基于llm推理和集成的图像检索方法,所述根据所述语义相似度评分计算出所述集成字幕特征包括:

    16、通过softmax函数计算所述语义相似度评分对应的集成字幕权重;

    17、采用下式计算所述集成字幕权重对应的集成字幕特征:

    18、

    19、其中,hd为所述集成字幕特征,wi为第i个参考图像对应的集成字幕权重,hie为第i个参考图像对应的编辑字幕特征,n为参考图像的总数。

    20、根据本发明提供的一种基于llm推理和集成的图像检索方法,所述根据所述视觉特征和所述集成字幕特征之间的相似度从所述图像数据集搜索出目标检索图像包括:

    21、通过下式计算出所述视觉特征和所述集成字幕特征之间的最大相似度:

    22、

    23、其中,k为所述最大相似度特征,hii为第i个参考图像对应的视觉特征,hd为所述集成字幕特征,i为第i个参考图像;

    24、根据所述最大相似度特征根据余弦相似度对所述图像数据集进行图像检索,得到所述目标检索图像。

    25、本发明还提供一种基于llm推理和集成的图像检索装置,包括:

    26、推理模块,用于对参考图像对应的密集字幕进行llm推理,得到编辑字幕;

    27、相似度计算模块,用于从图像数据集中提取出视觉特征,从所述密集字幕中提取出参考字幕特征,从所述编辑字幕中提取出编辑字幕特征;计算所述参考字幕特征、所述编辑字幕特征和所述视觉特征之间的多个特征相似度,

    28、集成和检索模块,用于根据所述多个特征相似度之间的相似度减少量计算出集成字幕特征,并根据所述视觉特征和所述集成字幕特征之间的相似度从所述图像数据集搜索出目标检索图像。

    29、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于llm推理和集成的图像检索方法。

    30、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于llm推理和集成的图像检索方法。

    31、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于llm推理和集成的图像检索方法。

    32、本发明提供的基于llm推理和集成的图像检索方法及装置,通过对参考图像对应的密集字幕进行llm推理,得到编辑字幕,再从图像数据集中提取出视觉特征,从密集字幕中提取出参考字幕特征,从编辑字幕中提取出编辑字幕特征,并计算参考字幕特征、编辑字幕特征和视觉特征之间的多个特征相似度以确定集成字幕特征,最后根据视觉特征和集成字幕特征之间的相似度从图像数据集搜索出目标检索图像,能够从参考图像的不同语义角度生成不同的编辑字幕,实现了在编辑字幕中整合互补信息并过滤掉噪声,结合语义相关性得分来计算集成字幕特征权重设计图像检索特征,提升了特征的表征能力,进而提高了图像检索的准确率。



    技术特征:

    1.一种基于llm推理和集成的图像检索方法,其特征在于,包括:

    2.根据权利要求1所述的基于llm推理和集成的图像检索方法,其特征在于,所述对参考图像对应的密集字幕进行llm推理,得到编辑字幕包括:

    3.根据权利要求2所述的基于llm推理和集成的图像检索方法,其特征在于,所述将所述参考图像进行字幕生成处理,得到所述密集字幕包括:

    4.根据权利要求1所述的基于llm推理和集成的图像检索方法,其特征在于,所述根据所述多个特征相似度之间的相似度减少量计算出集成字幕特征包括:

    5.根据权利要求4所述的基于llm推理和集成的图像检索方法,其特征在于,所述根据所述语义相似度评分计算出所述集成字幕特征包括:

    6.根据权利要求1所述的基于llm推理和集成的图像检索方法,其特征在于,所述根据所述视觉特征和所述集成字幕特征之间的相似度从所述图像数据集搜索出目标检索图像包括:通过下式计算出所述视觉特征和所述集成字幕特征之间的最大相似度特征:

    7.一种基于llm推理和集成的图像检索装置,其特征在于,包括:

    8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于llm推理和集成的图像检索方法。

    9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于llm推理和集成的图像检索法。

    10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于llm推理和集成的图像检索方法。


    技术总结
    本发明提供一种基于LLM推理和集成的图像检索方法及装置,该方法包括:对参考图像对应的密集字幕进行LLM推理,得到编辑字幕;从图像数据集中提取出视觉特征,从密集字幕中提取出参考字幕特征,从编辑字幕中提取出编辑字幕特征;计算参考字幕特征、编辑字幕特征和视觉特征之间的多个特征相似度;根据多个特征相似度之间的相似度减少量计算出集成字幕特征,并根据视觉特征和集成字幕特征之间的相似度从图像数据集搜索出目标检索图像。本发明所述方法实现了在编辑字幕中整合互补信息并过滤掉噪声,结合语义相关性得分来计算集成字幕特征权重设计图像检索特征,提升了特征的表征能力,进而提高了图像检索的准确率。

    技术研发人员:徐常胜,杨振宇,钱胜胜
    受保护的技术使用者:中国科学院自动化研究所
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-27190.html

    最新回复(0)