本发明属于计算机,具体涉及身份保持图像生成系统。
背景技术:
::1、近年来,随着深度学习技术的不断发展,文本到图像的生成模型(以下简称文生图模型)受到广泛关注与研究,产生了例如imagen[1]和stable diffusion[2]等重要工作。得益于较大的模型规模,文生图模型如sdxl[3]和dall-e 3[4]等模型已经可以生成质量很高的图像。在此基础上,主体驱动的图像生成(subject-driven image generation)成为新的关注热点。该任务以特定主体(比如人物或者物体)为中心,基于文本提示词生成特定主体的定制化图像。身份保持的图像生成(id preserving image generation),是主体驱动的图像生成任务的特殊情况。该任务要求为特定的人物生成定制化的图像,在生成的图像中保持给定的人物的身份特征,使其视觉特征尤其是面部特征不发生变化。身份保持的图像生成可以应用在比如生成定制化写真、虚拟试穿和动漫制作等领域,具有广泛的应用前景和研究意义。2、主体驱动图像生成模型和身份保持图像生成模型都能够实现对特定人物生成定制化的图像,现有的方法可以分为两类:(1)使用给定人物的图像进行微调,通过改变模型权重或寻找特殊词元的嵌入使模型学习给定人物的身份特征,代表方法包括dreambooth[5]和textual inversion[6]。(2)引入新的模块对给定人物的视觉特征进行编码,并利用该编码特征指导扩散模型生成给定人物的定制化图像。此类方法在大规模数据集上进行训练,在推理时不需要针对特定人物微调模型,具备零样本即时生成能力。该类方法的代表工作包括ip-adapter[7]、blip-diffusion[8]、photo maker[9]。现存的方法在身份保持的图像生成任务上取得了一定进展,但仍存在局限性。第一,无论是对模型进行微调还是引入新模块对模型结构进行调整,都在一定程度上损害图像生成模型的生成能力,导致除人物之外的图像上下文内容生成质量不佳;第二,生成图像的身份保真度(id fidelity)不足够高,生成图像中人物的面部细节特征与参考图像仍有较大差距。此外,尽管对给定的宠物进行定制化图像生成也具备广泛的应用场景,但目前还十分缺乏针对宠物的身份保持图像生成的相关工作与研究。技术实现思路1、本发明的目的在于提供一种面部属性驱动的人宠身份保持图像生成模型,以提高生成图像中给定人物或宠物的身份保真度和面部细节特征的一致性。2、本发明提供的面部属性驱动的人宠身份保持图像生成模型,将人物与宠物的身份保持图像生成统一到同一个模型中;该模型将图像的上下文内容生成与人物或宠物的身份生成过程解耦,使用图像上下文内容生成模块生成与身份无关的图像区域,从而提高生成图像的整体质量;此外,构建不同尺度的多任务微调面部属性特征嵌入模块和面部属性驱动的身份保持局部重绘模块,使这些模块学习给定人物或宠物面部属性的细粒度特征,从而提高生成图像中给定人物或宠物的身份保真度和面部细节特征的一致性。具体地,本发明以给定人物或宠物的图像为参考,以给定描述文本为条件,生成具有高身份保真度和高质量的人物或宠物写真图像;具体包括以下三个模块:(1)图像上下文内容生成模块;(2)面部属性特征嵌入模块(以下称为嵌入模块);(3)面部属性驱动的身份特征保持局部重绘模块(以下称为重绘模块);其中:所述图像上下文内容生成模块,根据用户提供的上下文提示词(context prompt)生成符合提示词描述的上下文内容图像;之后使用用户提供的指定人物或宠物的图像对嵌入模块与重绘模块进行微调,学习给定人物或者宠物的视觉特征;最后根据用户输入的面部提示词(facial prompt),由重绘模块对上下文内容图像中的人物或宠物的面部区域进行局部重绘,得到指定人物或者宠物的图像写真。3、本发明中,所述图像上下文内容生成模块和重绘模块均是基于扩散模型原理的,用于实现文本到图像的生成模型。扩散模型的原理是,在一系列时间步t1,t2,…,t上根据扩散规则向输入图像x0添加高斯噪声,直到图像变成纯噪声;然后从该纯噪声开始逐步去噪,还原为原始图像x0。4、文本到图像的生成模型将加噪与去噪的过程放在潜在空间中进行,并且训练一个去噪模型来实现逐步去噪。在训练过程中,首先将训练图像x0编码成潜在空间隐变量z0,并根据扩散规则与时间步t对其加噪,得到隐变量zt;然后将隐变量zt和对应的时间步t输入去噪模型,在图像标注文本数据的指导下,预测隐变量zt中包含的噪声。完成去噪过程后,将隐变量解码回rgb空间,以生成最终图像。通过训练好的去噪模型,文本到图像的生成模型可以在给定文本的指导下,从任意高斯噪声逐步去噪生成一张图像。5、本发明中,所述图像上下文内容生成模块,是一个基于扩散模型原理的文本到图像的生成模型,具体包括文本分词器、文本编码器、变分自编码器以及预测噪声的u-net模型。其中,变分自编码器包含编码器ε和解码器分别用于将图像转化为潜在空间的隐变量和将潜在空间隐变量逆向转化为图像。预测噪声的u-net模型可以细分为特征提取网络和特征融合网络,前者负责从包含噪声的图像中提取特征,后者则根据图像特征预测图像中的噪声。6、本发明中,所述重绘模块,是一个基于扩散模型原理的文本到图像的局部重绘模型,它的u-net模型与图像上下文内容生成模块中u-net模型结构相似,但专门用于预测局部重绘任务中的图像噪声。除u-net模型外,重绘模块的其他组成部分与图像上下文内容生成模型相同。7、本发明中,所述嵌入模块,包含五个可学习张量,分别作为面部整体区域与左眼睛、右眼睛、鼻部、嘴部4个面部属性区域的嵌入表示,用于学习给定人物或宠物的面部整体和各个面部属性区域的特征。8、本发明中,所述图像上下文内容生成模块,负责写真图像中与人物或宠物与身份无关区域的上下文内容的生成,其具体步骤如下:9、(1)接收用户输入的图像上下文提示词tc;10、(2)利用冻结的预训练文本到图像生成模型以步骤(1)中接收的上下文提示词tc为条件,生成符合该提示词描述的图像作为上下文内容图像i。11、本发明中,通过自动化地构建不同尺度的多任务数据集s,对所述的嵌入模块和重绘模块进行微调训练。不同尺度的多任务包括重建人物或者宠物的面部整体区域和以五官为中心的局部区域,具体包括重建面部整体、重建左眼区域、重建右眼区域、重建鼻部区域、重建嘴部区域。数据集构建与微调训练的具体步骤如下:12、(1)接收用户输入的给定人物或宠物的图像集,包含3到5张同一主体的不同图像,并对其进行增强,增强后图像集表示为:13、s={s1,…,sn};14、(2)利用步骤(1)中增强的图像集,为上述的多任务自动化地构建用于微调训练的数据集;多任务记作:15、16、对于第i个任务ki,使用目标检测模型[10]检测第j张图像中目标主体与该任务对应的面部区域(面部整体区域或4个面部属性区域中某一个)的检测框;对该检测框以预定义的方式进行拓展后得到对角坐标得到<图像序号j,对角坐标格式的标注;17、(3)利用步骤(2)构建的多任务数据集对嵌入模块和重绘模块进行微调训练;在微调过程中,根据主体对象的类型(人物或者宠物的品种),设定对应的学习率,并为各个任务设置的在总训练步数中的占比。18、本发明中,所述面部属性特征嵌入模块,为面部整体与各个面部属性分别构建嵌入表示,以学习给定人物或者宠物的面部整体特征与局部的细节特征。本发明通过不同尺度的多任务来优化这些嵌入,具体步骤如下:19、(1)根据主体对象的类别(人物或宠物),选择用于优化嵌入表示的学习率;20、(2)构建五个可学习张量,作为面部整体区域与左眼睛、右眼睛、鼻部、嘴部4个面部属性区域的嵌入表示并初始化,与多任务相对应,记作21、(3)使用文本编码器提取不同任务的固定面部提示词tf的文本嵌入;22、(4)对于第i个任务ki,使用嵌入表示vi替换步骤(3)中的面部提示词tf的文本嵌入中面部区域单词对应的嵌入;23、(5)将步骤(4)中替换后的面部提示词的嵌入输入重绘模块,以其作为条件对嵌入模块和重绘模块进行端到端的微调训练,其损失函数如下:24、25、其中,t为扩散模型中的时间步,zt为该时间步上的隐变量,∈θ为重绘模块中的u-net,∈为随机高斯噪声。26、本发明中,所述重绘模块,通过局部重绘给定人物或宠物的面部或面部属性来重建或生成遮罩区域。其在微调、推理阶段中接收不同输入并得到相应输出,具体如下:27、在微调阶段,固定重绘模块中变分自编码器(其中编码器记作ε,解码器记作d)的参数,使用不同尺度的多任务对重绘模块中的u-net模型∈θ进行微调,具体步骤如下:28、(1)根据主体对象的类别(人物或宠物),选择对应的学习率与各个任务的在总训练步数中的占比;29、(2)对于任务ki,在对应训练集中读取<图像序号j,对角坐标对坐标进行增强得到遮罩m,遮罩后的图像s′j;30、(3)使用重绘模块的变分自编码器的编码器ε将步骤(2)中获取的图像sj与遮罩后的图像s′j编码为隐变量z0与ε(s′j),同时将遮罩m进行处理得到m*;31、(4)在[1,t]范围内随机选择一个时间步t,将步骤(3)中得到的隐变量z0按照扩散的规则添加噪声得到隐变量zt,具体如下:32、zt=αtz0+σt∈,33、其中,αt与σt是扩散模型用于加噪的超参数,∈是随机高斯噪声;34、(5)将步骤(4)得到的隐变量zt、步骤(3)得到的ε(sj′)与m*链接起来作为重绘模块u-net的输入;然后将嵌入模块中替换后的面部提示词的嵌入作为文本条件,输入u-net模型的跨注意力层;基于输入u-net模型的变量、文本条件和时间步t预测步骤(4)向隐变量zt所添加的噪声∈,并以噪声预测值和真实值之间的距离作为损失函数,具体如下:35、36、微调在嵌入模块与重绘模块上同时执行,进行端到端的训练;使用微调后的u-net模型对给定的加噪的遮罩图像逐步去噪,在遮罩区域生成主体对象的面部整体或面部属性并保持非遮罩区域不变,实现局部重绘。37、在推理阶段,重绘模块的输入为图像上下文生成模块根据上下文提示词tc生成的上下文内容图像面部提示词tf和微调后得到的面部区域特征嵌入输出为给定人物或宠物写真图像,其具体步骤如下:38、(1)使用目标检测模型检测上下文内容图像i中人物或宠物的面部整体区域,得到区域的检测框对角坐标pf;39、(2)将步骤(1)中得到对角坐标pf向外拓展为一个正方形得到坐标并根据裁剪得到一个以面部区域为中心的正方形图像并计算面部区域在正方形图像中的相对坐标40、(3)将步骤(2)中得到的以面部区域为中心的正方形图像放缩至重绘模块的输入尺寸并等比例放缩相对坐标41、(4)根据步骤(3)中放缩后的正方形图像以及相对坐标制作面部区域遮罩m与遮罩后的图像42、(5)使用重绘模块的变分自编码器的编码器ε将步骤(4)中获取的遮罩后的图像编码为同时将遮罩m进行处理得到m*;43、(6)将随机噪声、步骤(5)得到的与m*链接起来输入重绘模块,以面部提示词tf和面部整体与各个面部属性的嵌入表示链接后作为文本条件输入重绘模块中u-net的跨注意力层,生成正方形的身份保持的图像44、(7)将步骤(6)得到的正方形的身份保持的图像放缩至输入重绘模型前的尺寸大小并根据坐标粘贴至上下文内容图像i中,并通过插值的方式进行融合,最终生成给定人物或宠物的身份保持的图像。45、本发明的创新之处在于:46、(1)本发明提出的图像生成模型,将给定主题身份的生成与图像上下文内容的生成解耦,使模型够在实现高身份保真度的同时生成高质量的上下文,并减少微调训练时间;47、(2)本发明设计了面部属性驱动的嵌入表示学习方法与局部重绘模块,通过对面部整体与各个面部属性设置不同尺度的多任务,使模型能够有效地学习人物或宠物面部的不同尺度视觉特征,强化生成图像在细节上与给定人物的一致性,从而提高身份保真度。当前第1页12当前第1页12
技术特征:1.一种面部属性驱动的人宠身份保持图像生成模型,其特征在于,将人物与宠物的身份保持图像生成统一到同一个模型中;该模型将图像的上下文内容生成与人物或宠物的身份生成过程解耦,使用图像上下文内容生成模块生成与身份无关的图像区域,从而提高生成图像的整体质量;此外,构建不同尺度的多任务微调面部属性特征嵌入模块和面部属性驱动的身份保持局部重绘模块,使这些模块学习给定人物或宠物面部属性的细粒度特征,从而提高生成图像中给定人物或宠物的身份保真度和面部细节特征的一致性;具体地,以给定人物或宠物的图像为参考,以给定描述文本为条件,生成具有高身份保真度和高质量的人物或宠物写真图像;包括以下三个模块:(1)图像上下文内容生成模块;(2)面部属性特征嵌入模块,简称嵌入模块;(3)面部属性驱动的身份特征保持局部重绘模块,简称称重绘模块;其中:所述图像上下文内容生成模块,根据用户提供的上下文提示词生成符合提示词描述的上下文内容图像;之后使用用户提供的指定人物或宠物的图像对嵌入模块与重绘模块进行微调,学习给定人物或者宠物的视觉特征;最后根据用户输入的面部提示词,由重绘模块对上下文内容图像中的人物或宠物的面部区域进行局部重绘,得到指定人物或者宠物的图像写真;
2.根据权利要求1所述的面部属性驱动的人宠身份保持图像生成模型,其特征在于,所述图像上下文内容生成模块,具体包括文本分词器、文本编码器、变分自编码器以及预测噪声的u-net模型;其中,变分自编码器包含编码器ε和解码器分别用于将图像转化为潜在空间的隐变量和将潜在空间隐变量逆向转化为图像;预测噪声的u-net模型分为特征提取网络和特征融合网络,前者负责从包含噪声的图像中提取特征,后者则根据图像特征预测图像中的噪声;
3.根据权利要求2所述的面部属性驱动的人宠身份保持图像生成模型,其特征在于,所述图像上下文内容生成模块,负责写真图像中与人物或宠物与身份无关区域的上下文内容的生成,具体步骤如下:
4.根据权利要求3所述的面部属性驱动的人宠身份保持图像生成模型,其特征在于,通过自动化地构建不同尺度的多任务数据集s,对所述的嵌入模块和重绘模块进行微调训练;不同尺度的多任务包括重建人物或者宠物的面部整体区域和以五官为中心的局部区域,具体包括重建面部整体、重建左眼区域、重建右眼区域、重建鼻部区域、重建嘴部区域;数据集构建与微调训练的具体步骤如下:
5.根据权利要求4所述的面部属性驱动的人宠身份保持图像生成模型,其特征在于,所述面部属性特征嵌入模块,为面部整体与各个面部属性分别构建嵌入表示,以学习给定人物或者宠物的面部整体特征与局部的细节特征;通过不同尺度的多任务来优化这些嵌入,具体步骤如下:
6.根据权利要求5所述的面部属性驱动的人宠身份保持图像生成模型,其特征在于,所述重绘模块,通过局部重绘给定人物或宠物的面部或面部属性来重建或生成遮罩区域;其在微调、推理阶段中接收不同输入并得到相应输出,具体如下:
技术总结本发明属于计算机技术领域,具体为面部属性驱动的人宠身份保持图像生成模型。本发明模型包含三个模块:图像上下文内容生成模块;面部属性特征嵌入模块;面部属性驱动的身份特征保持局部重绘模块。本发明旨在使用给定的人物或宠物的图像与描述文本,为给定人物或宠物生成高保真度、高质量的写真。本发明基于用户输入文本利用图像上下文生成模块生成与用户的输入文本一致的图像;使用用户提供的图像对嵌入模块和重绘模块进行不同尺度多任务微调训练;最后,通过重绘模块对生成的图像进行局部重绘,将图像中的主体对象重绘为目标人物或宠物。大量实验证明本发明可减少训练时间,并提高身份保真度。
技术研发人员:陈静静,余玥,王佳煜
受保护的技术使用者:复旦大学
技术研发日:技术公布日:2024/10/24