本发明属于图像美学评价,具体涉及一种基于状态空间模型的通用图像美学评价方法。
背景技术:
1、图像美学评价的目的是从美学的方面来预测图像的质量。它在图像编辑、生成和拍摄领域有广泛的应用。然而,一个人对审美的判断与不同的视觉属性(如颜色、构图和内容)以及多个个人角色高度相关。在推理过程中全面考虑所有这些信息,开发一种有效、有效的方法仍然具有挑战性。
2、在这个领域。研究人员开展了很多工作,并提出了大量的算法。现有的作品大多集中于通用美学评价(generic image aesthetic assessment,giaa),该任务旨在预测由多个个体共同打分的平均审美评价。在通用的美学质量评价上,国内外研究者对此展开了广泛而深入的研究。这些研究主要可以归结为三类算法:基于手工特征的美学质量评价算法是指研究人员手动设计与美学紧密相关的特征。然而,手工特征的选取过程需要极高的精确度和细致入微的观察,这导致了特征维度的相对有限性。基于视觉特征的图像美学质量评价算法,为更全面地捕捉图像的美学特征,许多研究设计了双流网络或多个子网络的结构,以同时关注图像的全局和局部特征。基于用户评论的多模态美学质量评价算法,关注图像伴随着海量用户评论。这些评论不仅是用户情感的表达,还蕴藏着丰富的语义内容,为图像的美学质量评价提供了有力的辅助,这一领域的研究成果为美学质量评价领域开辟了新的发展方向,为未来的研究提供了宝贵的借鉴和启示。
3、近期,研究人员开始探索个性化美学评价(personalized image aestheticassessment,piaa),它为每个个体学习一个特定的模型,以预测个人的审美偏好。模型的训练通常分为两个阶段。在第一阶段,利用大众化图像美学评价数据集进行监督训练,以获取美学先验知识模型。此模型能够学习通用的美学规则和模式,为后续的个性化微调提供基础。在第二阶段,针对用户视觉审美体验中的主观性问题,利用特定用户的piaa数据集对美学先验知识模型进行微调训练。此外,人们还多次尝试开发细粒度美学评价(fine-grainedimage aesthetic assessment,fiaa),即评价多种视觉属性的质量或主观偏好。
4、针对以上三个方向,美学质量评价领域主要存在三种模态的特征:图像,图像的描述文本,用户画像文本。如何设计一种通用的方法融合以上模态信息,并且预测出更相关的美学分数是算法面临的挑战。现有的方法通常集中于单一任务,并努力提高特征表示、信息融合机制、推理架构、学习策略和数据集等。
5、申请公布号为cn115272203a,名称为“一种基于状态空间模型的通用图像美学评价方法”的专利申请,公开了一种可以用到各种图像美学评价的任务当中,可以处理多模态的输入进行美学评价的一个通用方法;
6、但该方法的不足之处在于:第一,在引入平衡交叉熵损失需要手动划分分数类别,会使得训练准备变得繁琐。第二,对于piaa任务来说,不同的用户信息处理,需要动态实时的构建文本模板,训练都要重新开展。综上所述,现有技术存在的缺陷是:
7、第一:现有的大多数图像质量评价方法不能高效的建模局部和全局信息相结合的图像特征表示。图像美学的主观判断是基于多种视觉信息的整合,从局部细节,例如噪声和颜色到整体感知,例如构图和语义。局部和全局的感知对iaa都是必不可少的。目前iaa方法主要使用卷积神经网络(convolutional neural network,cnn)或者基于注意力的视觉编码器(vision transformer,vit)来学习视觉表示。然而,这些模型都不能有效地结合局部和全局信息。
8、第二:不能有效的平衡多任务学习的非平衡性。多属性评价的预测是一种多任务学习。在学习过程中,属性评估任务可能会任务互相干扰,降低了表征学习的稳定性或有效性。此外,在现有的数据集美学或属性的分布分数严重不平衡。iaa的模型将是倾斜为较低的误差,超过尾部标签占据有限的实例。
9、第三:不能做到高效灵活的模型设计和部署,推理。已有的piaa方法忽略了主体人物的语义信息。此外,很难灵活地修改角色,以提高灵活性和对piaa的精度。
技术实现思路
1、为了克服上述现有技术存在的不足,本发明的目的在于提供一种基于状态空间模型的通用图像美学评价方法,该方法利用图像,文本信息,用户信息多个模态开展特征提取,融合进而开展多属性美学分数的评价,通过各种基本模块的组合,灵活应用于不同的(image aesthetic assessment,iaa)任务,是适用于各种图像美学评价任务的通用框架。有效的解决了现有图像美学评价模型难以结合局部和全局图像特征、模型多任务训练的不平衡性、模型难以高效灵活设计的问题。为了实现上述目的,本发明采用的技术方案是:
2、一种基于状态空间模型的通用图像美学评价方法,包括以下步骤;
3、步骤1,根据数据集和任务类型,获取训练样本集strain和测试集stest;
4、步骤2,构建通用图像美学评价框架的子模块:
5、步骤3:从步骤2中不同的子模块进行构建,结合具体任务构建具体通用性或者个性化美学评价模型m;
6、步骤4,对网络模型m进行迭代训练:
7、步骤5,通过步骤4迭代训练后的模型。获取美学质量评价分数预测结果。
8、所述步骤1中的数据集中:
9、在以下基准数据集上进行了实验,即ava、tad66k、para、aadb和photo.net数据集;
10、ava和photo.net包括每幅图像的美学得分分布;
11、而para和aadb则包括平均分数;
12、para数据集包含图像,图像文本信息,用户画像信息,用户对图像的打分;
13、所述数据集没有固定的任务类型,结合数据及内容的不同,开展如下实验:
14、对于aadb数据集,仅开展viaa实验;
15、对于tad66k数据集,仅开展viaa实验;
16、对于ava数据集,开展viaa、miaa实验;
17、对于para数据集,开展viaa、miaa、fiaa、piaa实验;
18、对于photonet数据集,开展viaa、miaa实验。
19、在giaa相关任务viaa、fiaa以及多模态图像美学评价(multimodal imageaesthetic assessment,miaa)选择官方的训练测试数据划分方式;
20、在piaa任务中,首先从标注人员中随机选择用户作为实验对象,多次进行试验,并计算评价指标的平均值作为最终实验结果,随后,微调美学分数预测模型。
21、美学分数预测模型在para数据集上进行了viaa、miaa、fiaa和piaa实验;
22、其中:
23、giaa通用的美学质量评价包括viaa、miaa、fiaa;
24、viaa,纯视觉的美学评价任务,模型处理输入的图片,预测出对应的图片的美学质量分数;
25、miaa,多模态的美学评价任务,模型处理输入的图片以及图片相关的文本信息(例如对图像的描述,对图像的赏析评论内容),预测出对应的图片的美学质量分数;
26、fiaa,纯视觉的美学评价任务,模型处理输入的图片,预测出对应的图片的多属性质量分数,包括美学,构图,色彩,景深分数;
27、piaa个性化美学质量评价,用户的信息,以及模型处理输入的图片以及图片相关的文本信息(可以没有),预测出该用户对此图片的美学质量分数。
28、对于不同的任务,样本集元素不尽相同,训练样本集和测试样本集一共有如下三种类型的输入:图像,图像描述,用户信息;
29、针对图像:在细粒度美学评价实验过程中,对para数据集中的图像实施统一的数据预处理方式;在训练和测试阶段采用了不同的预处理策略,在训练阶段,采用了数据增强技术,首先使用双三次插值方法调整每张图像的尺寸,统一重采样,随后从中随机裁剪出像素的图像块,以适配模型的输入要求,对图像进行随机水平翻转;
30、针对图像描述:选取para数据集带有的图像描述信息;
31、针对用户信息:smp(subject multi-character prompts),中文定义如下:用户多字符提示,基于用户信息构建文本模板。
32、充分利用在para数据集中提供的三个用户信息:艺术体验、摄影体验和个性,具体来说,审美体验和摄影体验都包含四个层次:“初学者”、“胜任”、“熟练”、和“专家”;
33、设计相应的文本提示,将些信息合并到模型中;
34、"my artistic experience is{art_exp}."以及"my photographic experienceis{photo_exp}."
35、其中,art_exp和photo_exp表示用户相应的体验水平,人格特征包括五个方面,即“责任心o”、“亲和力c”、“外向e”、“开放a”、和“精神n”,给定一个用户,相应的文本提示信息请遵循以下模板:
36、"in the big-five personality traits test,my scores are as follows:openness score is{o},conscientiousness score is{c},extroversion score is{e},agreeableness score is{a},and neuroticism score is{n}."
37、以上所有的文本模板能够集成在一起,以表示用户的个人信息,采用para数据集进行viaa任务,训练集和测试集信息输入信息只有图片,输出是美学分数;
38、所述步骤2具体为:
39、步骤(1).基于ssm的视觉编码器ev,采用vmamba-tiny作为骨干网络,在模型的分类头输出层之后得到输出的图像特征,对输出特征采取平均值池化;
40、步骤(2).用户信息的文本编码器et,首先利用(word piece tokenizer,wpt)对输入的评论进行精细化的分词处理,生成一个长度为n的单词序列,然后在序列的起始位置添加一个特殊标记[cls],以表示全局特征,为其添加相应的位置编码,并通过线性映射将其转换为嵌入向量,这些嵌入向量随后被输入到一个包含12个transformer模块的(bidirectional encoder representations from transformers,bert)模型中,最终输出序列长度维度n可变的向量,n代表单词长度,截取输出第0维度的特征cls作为输出;
41、步骤(3).自适应平均池化aap,通过平均池化将输入的序列维度压缩至1维;
42、步骤(4).跨信息融合模块cmf,利用图像和文本编码器中分别提取的视觉特征fv和文本特征ft;
43、步骤(5).特征适配器首先接收特征f,对于特定的第i个任务来说,将f进行非线性映射降低维度,经过gelu激活函数之后映射回到接收时维度特征,与之前的图像特征进行残差连接得到输出特征将多尺度适配器称作全局分支;
44、
45、步骤(6).任务适配器φ:在特征适配器的基础上加入若干局部分支构成任务适配器。
46、所述步骤(4)中,在信息融合的过程中,首先对视觉特征和文本特征进行层归一化处理,随后,将归一化后的视觉特征输入交叉注意力层ca中,其中fv经过映射得到向量q,ft经过线性映射得到向量k,v,交叉注意力的计算如下:
47、
48、将交叉注意力ca的输出和原有的视觉特征进行残差连接,得到中间特征fv,随后中间特征再次经过层归一化,之后经过全连接层得到特征,将其与中间特征进行残差连接得到的跨信息融合输出特征f;
49、
50、
51、所述特征适配器输出特征,需要不同的头来适配学习过程,主要有三种局部分支:
52、分数回归分支(分数预测头):将输入特征映射,之后经过relu激活函数再非线性映射得到预测分数;
53、属性预测分支(分类头):将输入特征映射,之后经过relu激活函数再非线性映射得到4维的分数特征,经过softmax归一化得到预测类别;
54、分布预测分支(分布预测头):将输入特征映射,之后经过relu激活函数再线性映射得到分数分布特征,经过softmax归一化得到预测分布。
55、根据具体数据集提供数据的不同选择不同的分支,具体设置如下:
56、采用分布预测分支,就需要增加lemd;
57、采用属性预测分支,就需要增加lba1-ce;
58、采用分数回归分支,就需要增加lmse;
59、ldst=lemd+γlmse+λlba1-ce,
60、lreg=lmse+λlba1-ce,
61、一共有两种部署方式,对于para、aadb、tad66k数据集,采用lreg方式;
62、对于ava、photonet,采用ldst方式。
63、所述步骤3具体为:
64、模型接收三种类型的输入,分别是图像,图像描述文本信息以及用户信息;根据具体任务的不同,模型将会采取不同的构造方式搭建;根据预测属性的不同,模型又会采用不同的适配器。
65、进一步的,具体的模型选择:
66、aesmmba-v模型:开展纯视觉美学评价任务viaa,输入为图片,输出为美学分数,采用图像编码器ev,单个全局分支和若干局部分支;
67、aesmmba-m模型:开展视觉文本融合的美学评价任务miaa,输入为图片和图像描述相关文本信息,输出为美学分数,采用图像编码器ev,文本编码器et,信息融合模块cmf,单个全局分支和若干局部分支;
68、aesmmba-f模型:开展纯视觉细粒度图像美学评价任务fiaa,输入为图片,需要预测多个属性的分数,则采用图像编码器ev,多个全局分支和若干局部分支;
69、aesmmba-p模型:开展个性化视觉美学评价任务piaa,输入为图片和用户描述信息,采用图像编码器ev,文本编码器et,信息融合模块cmf,多个全局分支和若干局部分支;
70、其中,全局分支的数量i取决于数据集属性的个数,局部分支的类型和取决于单属性分数的类型,分布型或者平均值型。开展不同的美学评价任务,按上述方式构建模型m。
71、所述步骤4具体为:
72、步骤4.1,训练阶段初始化模型;
73、初始化迭代次数为t,最大迭代次数为t,针对步骤3种选择的不同模型,设当前基于多粒度网络的无参考图像质量评价网络模型为mt,m为开展viaa任务的模型,初始化令t=1,mt=m;
74、步骤4.2,训练阶段,设置从训练样本集strain中不放回地随机选取batch_size个训练样本作为网络模型mt的输入;
75、步骤4.3,构建损失函数:损失函数共有三种:
76、均方误差损失函数:其中代表预测分数,si代表真实分数,n表示样本数量;
77、平衡交叉熵损失函数:其中nl代表实例数量,ci代表类别标签,k表示任务数量;
78、全局移动距离损失函数:
79、其中a是预测标签,p是数据集的正确标签,cdf是组合分布函数,len是区间块数量,在推理阶段,根据预测的分布来计算美学评估得分;
80、对于不同的数据集,需要开展不同的训练策略:ava和photo.net包括每幅图像的美学得分分布的数据集采用ldst开展分布损失,对于aadb,para包含真实分数的数据集采用lreg进行回归损失。
81、ldst=lemd+γlmse+λlba1-ce,
82、lreg=lmse+λlba1-ce,
83、对于首先计算每个训练样本对应的预测分数与该训练样本对应的分数标签,按照数据集的不同计算上述损失函数。对网络模型st的各层权值参数进行更新;
84、步骤4.4,判断是否已遍历训练样本集strain,若是,执行步骤4.5,否则,执行步骤4.2和4.3;
85、步骤4.5,判断t=t是否成立,若是,得到训练好的基于多粒度网络的无参考图像质量评价网络模型m*=mt,否则,令t=t+1,并执行步骤4.3和4.4。
86、所述步骤5具体为:
87、将测试样本集stest作为训练完成的网络模型m*的输入进行前向推理,得到每个测试样本的质量预测分数,对于回归预测的数据集,预测输出为分数回归分支输出;对于分布预测的数据集,预测输出为分布预测输出的加权组合,对于piaa任务,则对mi进行前向推理,最终评价指标取平均值,以验证模型效果。
88、本发明的有益效果:
89、本发明利用图像,文本多模态信息,可以针对具体美学评价任务灵活构造模型。在每个任务上都能取得很有竞争力乃至最优的结果。
90、本发明具有模型预测美学分数和人类视觉美学感知高度一致的优点,模型适配各种美学评价任务的优点,模型训练和推理便捷高效的优点。
91、本发明提出了通用的美学评价架构,可以灵活处理图像输入,图像描述,用户文本输入多个模态,针对具体的美学评价任务,通过组合各种适配的模块可以构建适配的模型。在多种数据集,多个相关任务上开展多属性美学分数预测。在giaa,piaa上的分数预测表现卓有成效。
1.一种基于状态空间模型的通用图像美学评价方法,其特征在于,包括以下步骤;
2.根据权利要求1所述的一种基于状态空间模型的通用图像美学评价方法,其特征在于,所述步骤1中的数据集中:
3.根据权利要求2所述的一种基于状态空间模型的通用图像美学评价方法,其特征在于,在giaa相关任务viaa、fiaa以及多模态图像美学评价选择官方的训练测试数据划分方式;
4.根据权利要求3所述的一种基于状态空间模型的通用图像美学评价方法,其特征在于,对于不同的任务,样本集元素不尽相同,训练样本集和测试样本集一共有如下三种类型的输入:图像,图像描述,用户信息;
5.根据权利要求1所述的一种基于状态空间模型的通用图像美学评价方法,其特征在于,所述步骤2具体为:
6.根据权利要求1所述的一种基于状态空间模型的通用图像美学评价方法,其特征在于,所述步骤(4)中,在信息融合的过程中,首先对视觉特征和文本特征进行层归一化处理,随后,将归一化后的视觉特征输入交叉注意力层ca中,其中fv经过映射得到向量q,ft经过线性映射得到向量k,v,交叉注意力的计算如下:
7.根据权利要求6所述的一种基于状态空间模型的通用图像美学评价方法,其特征在于,根据具体数据集提供数据的不同选择不同的分支,具体设置如下:
8.根据权利要求6所述的一种基于状态空间模型的通用图像美学评价方法,其特征在于,所述步骤3具体为:
9.根据权利要求1所述的一种基于状态空间模型的通用图像美学评价方法,其特征在于,所述步骤4具体为:
10.根据权利要求1所述的一种基于状态空间模型的通用图像美学评价方法,其特征在于,所述步骤5具体为: