本公开涉及人工智能,尤其涉及计算机视觉、深度学习、大模型等,可应用于生成式人工智能(artificial intelligence generated content,aigc)、人机交互等场景,更具体地,涉及一种图像生成、大模型的训练、图像处理方法及装置、设备和介质。
背景技术:
1、随着计算机技术的发展,人工智能技术也得到了发展。例如,可以利用人工智能技术来进行图像生成。图像生成可以指通过计算机算法和模型生成新的图像的过程。
技术实现思路
1、本公开提供了一种图像生成、大模型的训练、图像处理方法及装置、设备和介质。
2、根据本公开的一个方面,提供了一种图像生成方法,包括:获取编辑文本和经加噪处理的原始图像,其中,编辑文本用于指示针对目标对象的编辑操作,经加噪处理的原始图像未包括目标对象;分别对编辑文本和经加噪处理的原始图像进行特征提取处理,得到文本特征和图像特征,其中,文本特征包括至少一个词向量;根据文本特征和图像特征,确定至少一个词向量各自的特征图;以及,根据至少一个词向量各自的特征图,生成编辑图像,其中,编辑图像包括目标对象。
3、根据本公开的一个方面,提供了一种多模态大模型的训练方法,包括:获取样本编辑文本和样本图像集,其中,样本编辑文本用于指示针对样本目标对象的编辑操作,样本图像集包括样本原始图像和经加噪处理的实际编辑图像,样本原始图像未包括样本目标对象,经加噪处理的实际编辑图像包括样本目标对象;分别对样本编辑文本和样本图像集进行特征提取处理,得到样本文本特征和样本图像特征,其中,样本文本特征包括至少一个样本词向量;根据样本文本特征和样本图像特征,确定至少一个样本词向量各自的样本特征图;根据至少一个样本词向量各自的样本特征图,生成样本编辑图像;以及,根据经加噪处理的实际编辑图像和样本编辑图像,训练第一多模态大模型,得到经训练的第一多模态大模型。
4、根据本公开的一个方面,提供了一种多模态大模型的训练方法,包括:将编辑图像输入至第二多模态大模型,得到输出信息,其中,编辑图像是基于与任务类型相关的编辑文本,利用图像生成方法生成的;以及,根据输出信息和与任务类型相关的参考信息,训练第二多模态大模型,得到经训练的第二多模态大模型。
5、根据本公开的一个方面,提供了一种图像处理方法,包括:获取待处理图像;以及,将待处理图像输入至经训练的第二多模态大模型,得到图像处理结果;其中,经训练的第二多模态大模型是利用多模态大模型的训练方法训练得到的。
6、根据本公开的另一个方面,提供了一种图像生成装置,包括:第一获取模块,用于获取编辑文本和经加噪处理的原始图像,其中,编辑文本用于指示针对目标对象的编辑操作,经加噪处理的原始图像未包括目标对象;第一特征提取处理模块,用于分别对编辑文本和经加噪处理的原始图像进行特征提取处理,得到文本特征和图像特征,其中,文本特征包括至少一个词向量;第一确定模块,用于根据文本特征和图像特征,确定至少一个词向量各自的特征图;以及,第一生成模块,用于根据至少一个词向量各自的特征图,生成编辑图像,其中,编辑图像包括目标对象。
7、根据本公开的另一个方面,提供了一种多模态大模型的训练装置,包括:第二获取模块,用于获取样本编辑文本和样本图像集,其中,样本编辑文本用于指示针对样本目标对象的编辑操作,样本图像集包括样本原始图像和经加噪处理的实际编辑图像,样本原始图像未包括样本目标对象,经加噪处理的实际编辑图像包括样本目标对象;第二特征提取处理模块,用于分别对样本编辑文本和样本图像集进行特征提取处理,得到样本文本特征和样本图像特征,其中,样本文本特征包括至少一个样本词向量;第二确定模块,用于根据样本文本特征和样本图像特征,确定至少一个样本词向量各自的样本特征图;第二生成模块,用于根据至少一个样本词向量各自的样本特征图,生成样本编辑图像;以及,第一训练模块,用于根据经加噪处理的实际编辑图像和样本编辑图像,训练第一多模态大模型,得到经训练的第一多模态大模型。
8、根据本公开的另一个方面,提供了一种多模态大模型的训练装置,包括:第一输入模块,用于将编辑图像输入至第二多模态大模型,得到输出信息,其中,编辑图像是基于与任务类型相关的编辑文本,利用图像生成装置生成的;以及,第二训练模块,用于根据输出信息和与任务类型相关的参考信息,训练第二多模态大模型,得到经训练的第二多模态大模型。
9、根据本公开的另一个方面,提供了一种图像处理装置,包括:第三获取模块,用于获取待处理图像;以及,第二输入模块,用于将待处理图像输入至经训练的第二多模态大模型,得到图像处理结果;其中,经训练的第二多模态大模型是利用多模态大模型的训练装置训练得到的。
10、根据本公开的另一方面,提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个计算机程序,其中,上述一个或多个处理器执行上述一个或多个计算机程序以实现上述方法的步骤。
11、根据本公开的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序或指令,上述计算机程序或指令被处理器执行时实现上述方法的步骤。
12、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序或指令,上述计算机程序或指令被处理器执行时实现上述方法的步骤。
13、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种图像生成方法,包括:
2.根据权利要求1所述的方法,其中,所述根据所述文本特征和所述图像特征,确定所述至少一个词向量各自的特征图包括:
3.根据权利要求2所述的方法,其中,所述注意力策略包括交叉注意力策略;
4.根据权利要求2或3所述的方法,其中,所述特征图包括多个特征元素,每个所述特征元素具有位置属性,所述位置属性用于表征所述特征元素在所述特征图中的位置;
5.根据权利要求4所述的方法,其中,所述根据所述至少一个词向量各自的特征图,生成编辑图像包括:
6.根据权利要求1所述的方法,其中,所述经加噪处理的原始图像是通过对原始图像与随机噪声进行叠加处理得到的。
7.一种多模态大模型的训练方法,包括:
8.根据权利要求7所述的方法,其中,所述根据所述经加噪处理的实际编辑图像和所述样本编辑图像,训练第一多模态大模型,得到经训练的第一多模态大模型包括:
9.根据权利要求7所述的方法,其中,所述根据所述样本文本特征和所述样本图像特征,确定所述至少一个样本词向量各自的样本特征图包括:
10.根据权利要求9所述的方法,其中,所述注意力策略包括交叉注意力策略;
11.根据权利要求7所述的方法,其中,所述分别对所述样本编辑文本和所述样本图像集进行特征提取处理,得到样本文本特征和样本图像特征包括:
12.根据权利要求7至11中任一项所述的方法,其中,所述获取样本编辑文本和样本图像集包括:
13.根据权利要求12所述的方法,还包括:
14.根据权利要求7所述的方法,其中,所述经加噪处理的实际编辑图像是通过对实际编辑图像与样本随机噪声进行叠加处理得到的。
15.一种多模态大模型的训练方法,包括:
16.根据权利要求15所述的方法,其中,所述任务类型包括以下之一:长尾类别任务和异常检测任务。
17.一种图像处理方法,包括:
18.一种图像生成装置,包括:
19.根据权利要求18所述的装置,其中,所述第一确定模块包括:
20.根据权利要求19所述的装置,其中,所述注意力策略包括交叉注意力策略;
21.根据权利要求18或19所述的装置,其中,所述特征图包括多个特征元素,每个所述特征元素具有位置属性,所述位置属性用于表征所述特征元素在所述特征图中的位置;
22.根据权利要求21所述的装置,其中,所述第一生成模块包括:
23.根据权利要求18所述的方法,其中,所述经加噪处理的原始图像是通过对原始图像与随机噪声进行叠加处理得到的。
24.一种多模态大模型的训练装置,包括:
25.根据权利要求24所述的装置,其中,所述第一训练模块包括:
26.根据权利要求24所述的装置,其中,所述第二确定模块包括:
27.根据权利要求26所述的装置,其中,所述注意力策略包括交叉注意力策略;
28.根据权利要求24所述的装置,其中,所述第二特征提取处理模块包括:
29.根据权利要求24至28中任一项所述的装置,其中,所述第二获取模块包括:
30.根据权利要求29所述的装置,还包括:
31.根据权利要求24所述的方法,其中,所述经加噪处理的实际编辑图像是通过对实际编辑图像与样本随机噪声进行叠加处理得到的。
32.一种多模态大模型的训练装置,包括:
33.根据权利要求32所述的装置,其中,所述任务类型包括以下之一:长尾类别任务和异常检测任务。
34.一种图像处理装置,包括:
35.一种电子设备,包括:
36.一种计算机可读存储介质,其上存储有计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现根据权利要求1~6中任一项或权利要求7~14中任一项或权利要求15~16中任一项或权利要求17所述方法的步骤。
37.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现根据权利要求1~6中任一项或权利要求7~14中任一项或权利要求15~16中任一项或权利要求17所述方法的步骤。