一种模型训练方法、装置、设备以及存储介质与流程

    技术2025-01-14  43


    本技术涉及人工智能处理领域,特别是涉及一种模型训练方法、装置、设备以及存储介质。


    背景技术:

    1、在大规模的数据进行预训练,然后在实际的下游任务进行微调是在计算机视觉领域中一种常见的范式。

    2、然而对于下游任务进行微调的过程中,模型会出现灾难性遗忘的问题,即对于遗忘在预训练过程中学习到的知识。


    技术实现思路

    1、本技术至少提供一种模型训练方法、装置、设备以及存储介质。

    2、本技术提供了一种模型训练方法,包括:获取多组样本图文对,每组样本图文对包括图像和文本,部分样本图文对的图像和文本分别为噪声图像和随机文本,部分样本图文对的图像为针对目标任务的图像;利用预训练模型对各样本图文对进行处理,得到各样本图文对的模型处理结果;分别基于各样本图文对的模型处理结果和对应的参考处理结果之间的差异,调整预训练模型的参数,其中,调整得到的预训练模型用于执行目标任务。

    3、在上述方案中,噪声图像和随机文本组成的图文对与预训练数据集的特征分布匹配,使用噪声图像和随机文本组成的图文对以及与目标任务相关的图文对进行训练,能够减少对预训练模型训练过程中对预训练数据集的依赖,并且能够提升目标任务精度且减少模型的特征分布漂移,规避灾难性遗忘。

    4、其中,噪声图像的像素值为随机生成的数值,随机文本包括随机字母组合的假词和/或随机真实单词组成的假句。

    5、在上述方案中,通过随机生成像素值的图像作为噪声图像,以及随机组合的字母组成的假词和/或随机真实单词组成的假句作为随机文本,组成图文对,构建与预训练数据集的特征分布匹配的训练数据。

    6、其中,噪声图像的所有像素值符合预设分布,预设分布包括均匀分布、高斯分布、指数分布中至少一者。

    7、在上述方案中,通过随机生成数值符合预设分布的像素值,从而得到噪声图像,用于构建图文对。

    8、其中,噪声图像和随机文本组成的样本图文对为目标样本图文对;分别基于各样本图文对的模型处理结果和对应的参考处理结果之间的差异,调整预训练模型的参数之前,该方法还包括:利用参考模型对目标样本图文对进行处理,得到目标样本图文对的参考处理结果;其中,参考模型与未经参数调整的预训练模型具有相同网络结构和网络参数。

    9、在上述方案中,参考模型与未经参数调整的预训练模型具有相同网络结构和网络参数,利用参考模型对噪声图像和随机文本组成的样本图文对进行处理,得到的处理结果作为预训练模型的参考,从而使得预训练模型能够学习参考模型的能力,提升模型的分布外鲁棒性。

    10、其中,利用参考模型对目标样本图文对进行处理,得到目标样本图文对的参考处理结果包括:利用参考模型基于目标样本图文对进行特征提取,得到参考样本图像特征和参考样本文本特征;利用预训练模型对各样本图文对进行处理,得到各样本图文对的模型处理结果包括:利用预训练模型基于目标样本图文对进行特征提取,得到目标样本图像特征和目标样本文本特征;分别基于各样本图文对的模型处理结果和对应的参考处理结果之间的差异,调整预训练模型的参数包括:基于目标样本图像特征和参考样本图像特征之间的差异、目标样本文本特征和参考样本文本特征之间的差异,确定第一损失;基于目标损失调整预训练模型的参数,目标损失包括第一损失。

    11、在上述方案中,在使用目标样本图文对作为训练数据的基础上,让预训练模型学习参考模型的特征提取能力,从而实现提升模型分布外鲁棒性。

    12、其中,利用参考模型对目标样本图文对进行处理,得到目标样本图文对的参考处理结果还包括:利用参考模型基于参考样本图像特征和参考样本文本特征,获取目标样本图文对针对目标任务的参考预测结果;利用预训练模型对各样本图文对进行处理,得到各样本图文对的模型处理结果还包括:利用预训练模型基于目标样本图像特征和目标样本文本特征,获取目标样本图文对针对目标任务的模型预测结果;目标损失包括第二损失;基于目标损失调整预训练模型的参数之前,该方法还包括:基于模型预测结果和参考预测结果之间的差异,确定第二损失。

    13、在上述方案中,对预训练模型和参考模型的输出响应对齐,提升模型分布外鲁棒性。

    14、其中,目标任务为检测任务;利用参考模型基于参考样本图像特征和参考样本文本特征,获取目标样本图文对针对目标任务的参考预测结果包括:根据参考样本图像特征和参考样本文本特征之间的相似度,从参考样本图像特征中选出预设数量个子参考图像特征作为参考查询特征;基于参考查询特征、参考样本图像特征和参考样本文本特征,获取参考预测结果;利用预训练模型基于目标样本图像特征和目标样本文本特征,获取目标样本图文对针对目标任务的模型预测结果包括:根据参考查询特征在参考样本图像特征中的位置,从目标样本图像特征中选择相应位置的子特征作为目标查询特征;基于目标查询特征、目标样本图像特征和目标样本文本特征,获取模型预测结果。

    15、在上述方案中,使用参考模型生成的查询指导预训练模型查询的生成,避免两个模型查询的错位影响训练效果。

    16、其中,基于参考查询特征、参考样本图像特征和参考样本文本特征,获取参考预测结果包括:基于参考图像特征和参考文本特征确定参考键特征和参考值特征;对参考查询特征、参考键特征和参考值特征进行注意力处理,得到参考增强特征;基于参考增强特征得到模型预测结果。

    17、在上述方案中,通过注意力处理进一步实现特征增强,得到更加准确的模型预测结果。

    18、其中,目标任务为检测任务、分割任务、分类任务中任一种。

    19、在上述方案中,能够适用于不同类型任务的模型的训练。

    20、其中,该方法还包括:将经参数调整后的预训练模型的参数与未经参数调整的预训练模型的参数进行融合,得到预训练模型的最终参数。

    21、在上述方案中,从特征空间与参数空间同时对模型进行约束,进一步提升分布外鲁棒性。

    22、本技术提供了一种模型训练装置,包括获取模块、模型处理模块和调整模块,获取模块用于获取多组样本图文对,每组样本图文对包括图像和文本,部分样本图文对的图像和文本分别为噪声图像和随机文本,部分样本图文对的图像为针对目标任务的图像;模型处理模块用于利用预训练模型对各样本图文对进行处理,得到各样本图文对的模型处理结果;调整模块用于分别基于各样本图文对的模型处理结果和对应的参考处理结果之间的差异,调整预训练模型的参数,其中,调整得到的预训练模型用于执行目标任务。

    23、本技术提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述任一模型训练方法。

    24、本技术提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述任一模型训练方法。

    25、在上述方案中,噪声图像和随机文本组成的图文对与预训练数据集的特征分布匹配,使用噪声图像和随机文本组成的图文对以及与目标任务相关的图文对进行训练,能够减少对训练过程中对预训练数据集的依赖,并且能够提升目标任务精度且减少模型的特征分布漂移,规避灾难性遗忘。

    26、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本技术。


    技术特征:

    1.一种模型训练方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于,所述噪声图像的像素值为随机生成的数值,所述随机文本包括随机字母组合的假词和/或随机真实单词组成的假句。

    3.根据权利要求2所述的方法,其特征在于,所述噪声图像的所有像素值符合预设分布,所述预设分布包括均匀分布、高斯分布、指数分布中至少一者。

    4.根据权利要求1至3中任一项所述的方法,其特征在于,所述噪声图像和随机文本组成的所述样本图文对为目标样本图文对;所述分别基于各所述样本图文对的模型处理结果和对应的参考处理结果之间的差异,调整所述预训练模型的参数之前,所述方法还包括:

    5.根据权利要求4所述的方法,其特征在于,所述利用参考模型对所述目标样本图文对进行处理,得到所述目标样本图文对的参考处理结果包括:

    6.根据权利要求5所述的方法,其特征在于,所述利用参考模型对所述目标样本图文对进行处理,得到所述目标样本图文对的参考处理结果还包括:

    7.根据权利要求6所述的方法,其特征在于,所述目标任务为检测任务;所述利用所述参考模型基于所述参考样本图像特征和参考样本文本特征,获取所述目标样本图文对针对所述目标任务的参考预测结果包括:

    8.根据权利要求7所述的方法,其特征在于,所述基于所述参考查询特征、所述参考样本图像特征和所述参考样本文本特征,获取所述参考预测结果包括:

    9.根据权利要求1至8中任一项所述的方法,其特征在于,所述目标任务为检测任务、分割任务、分类任务中任一种;和/或,

    10.一种模型训练装置,其特征在于,所述装置包括:

    11.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至9任一项所述的方法。

    12.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至9任一项所述的方法。


    技术总结
    本申请公开了一种模型训练方法、装置、设备以及存储介质,模型训练方法包括:获取多组样本图文对,每组样本图文对包括图像和文本,部分样本图文对的图像和文本分别为噪声图像和随机文本,部分样本图文对的图像为针对目标任务的图像;利用预训练模型对各样本图文对进行处理,得到各样本图文对的模型处理结果;分别基于各样本图文对的模型处理结果和对应的参考处理结果之间的差异,调整预训练模型的参数,其中,调整得到的预训练模型用于执行目标任务。上述方案,能够提升目标任务精度且减少模型的特征分布漂移,规避灾难性遗忘。

    技术研发人员:龙祖伟,王坤,任大发,李煜堃,曾星宇
    受保护的技术使用者:商汤人工智能研究中心(深圳)有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-24938.html

    最新回复(0)