本发明属于行人属性识别,具体涉及一种基于高阶结构多样性特征学习的行人属性识别方法和系统。
背景技术:
1、行人属性识别(par)在视频监控应用中应用广泛,在识别个人的一系列语义属性,包括年龄、性别、服装风格等方面起着至关重要的作用。par可以应用于各种应用,如行人、人脸检索和识别。
2、为了解决par中显示的挑战,现有的方法都致力于增强每个特定属性区域的特征表示,大致可分为两类:基于部分的方法和注意嵌入方法。然而,基于部分的方法中首先使用区域建议网络或人类语义解析、分割技术识别不同的身体区域,随后par模型直接利用提取的区域学习判别特征。这种方法的有效性与区域定位步骤的可靠性密切相关。在实际应用中,如果区域提议网络不能正确识别物体上与属性相关的区域,将会影响par系统的性能,而且提取方法在提取身体区域时会消耗更多的计算资源。
3、而采用注意力嵌入方法来强调行人图像中的特定区域,例如单肩包,这是身体区域检测器难以检测到的。这种方法采用空间或通道注意机制来突出信息属性区域并减轻无关噪声,空间注意生成一个粗糙的空间掩码来学习固定空间位置的特征信息。然而,姿势和视角的变化会导致行人属性出现在不同的空间位置,因此固定的空间掩码可能无法适应这些变化,导致属性识别性能下降。此外,忽略通道交互还会阻止空间注意力捕捉细粒度属性特征。与空间注意不同的是,通道注意旨在明确地建模通道相互作用,并动态调整每个通道的特征响应。不幸的是,现有的模块主要关注粗糙或低阶的外观特征,未能探索高级的复杂或高阶交互。
技术实现思路
1、为了解决现有技术中多标签行人属性识别对注意机制中的高阶统计信息的识别和利用不足,对全面的特征表示和鲁棒性不足的问题,本发明提供一种基于高阶结构多样性特征学习的行人属性识别方法和系统,以解决上述存在的技术缺陷问题。
2、第一方面,本发明提出了一种基于高阶结构多样性特征学习的行人属性识别方法,该方法包括如下步骤:
3、将行人图像输入主干网络中,利用多个transformer编码层对输入的图像进行行人属性特征提取并输出初步属性特征向量f;
4、将预先训练好的高阶结构模块hfmm嵌入到所述主干网络中,输入所述初步属性特征向量f,输出高阶细粒度特征向量;
5、将输出的所述高阶细粒度特征向量送入属性分类层,进一步提取和组合特征,使用softmax函数将特征向量转换为类别概率分布,并利用二元交叉熵损失函数bceloss来衡量预测类别与真实类别之间的差异,并输出类别概率分布。
6、优选的,还包括:
7、在训练过程中引入损失函数软冗余感知损失sarloss来自适应度量阶间和阶内特征的冗余度,通过为每个阶的特征分配不同的权重,并根据这些特征在预测任务中的表现来调整这些权重,来实现鼓励不同阶的特征之间的竞争;
8、根据总损失,包括bceloss和sarloss进行反向传播,计算每个权重对损失的梯度,使用优化算法,如梯度下降、adam更新网络的权重,以最小化总损失。
9、优选的,所述高阶结构模块hfmm包括引入应用于f的高阶多项式预测器,生成包含特征激活的高阶统计的尺度特征映射,主要利用1*1卷积,relu和sigmoid激活函数来实现,具体包括:
10、输入的所述初步属性特征向量f在一阶、二阶和三阶中经过不同的1*1卷积,分别得到z1,
11、利用relu对其进行非线性操作,然后z1,分别进行对应元素相乘得到z1,z2,z3,紧接着引入一个1*1卷积恢复z1,z2,z3的特征通道数和f一样;
12、对整个一阶、二阶和三阶特征z1,z2,z3进行级联操作后,再引入一个sigmoid进行激活,激活后的特征和所述初步属性特征向量f进行对应元素相乘。
13、进一步优选的,所述高阶结构模块hfmm包括引入应用于f的高阶多项式预测器,生成包含特征激活的高阶统计的尺度特征映射,表示为:
14、
15、其中,f表示为f的特定空间位置的局部描述符,<·,·>表示两个相同大小张量的内积,r代表阶数,代表特征f的r阶张量自内积,wr表示需要学习的第r阶张量,它包含f中r阶变量组合的权重。
16、进一步优选的,还包括:利用张量分解对wr进行参数压缩,以减少参数量,防止过拟合,表示为:
17、
18、进一步改写为:
19、
20、其中,αr,d代表第d个rank-1的张量权重,用来决定每个分解项的重要性;dr代表张量的秩,代表外积,代表在第r阶特征图中位置s处的第d个分解项的特征向量;代表在第r阶特征图中位置r处的第d个分解项的特征向量,αr代表所有rank-1的张量权重,zr代表所有特征图进行对应元素相乘得到的特征激活值。
21、优选的,所述二元交叉熵损失函数bceloss的表达式如下:
22、
23、其中,n代表样本数量,m代表属性个数,表示属性分类层输出的预测概率,σ为预设的激活函数,yi,j代表属性标签,ωj表示不均衡抑制因子,ωj表达式如下:
24、
25、其中,rj代表训练集中第j个行人属性的正样本比。
26、优选的,采用vit作为行人属性识别的所述主干网络。
27、第二方面,本发明实施例还提供一种基于高阶结构多样性特征学习的行人属性识别系统,包括:
28、属性特征提取模块,配置用于将行人图像输入主干网络中,利用多个transformer编码层对输入的图像进行行人属性特征提取并输出初步属性特征向量f;
29、高阶结构模块,配置用于将预先训练好的高阶结构模块hfmm嵌入到所述主干网络中,输入所述初步属性特征向量f,输出高阶细粒度特征向量;
30、处理模块,配置用于将输出的所述高阶细粒度特征向量送入属性分类层,进一步提取和组合特征,使用softmax函数将特征向量转换为类别概率分布,并利用二元交叉熵损失函数bceloss来衡量预测类别与真实类别之间的差异,并输出类别概率分布。
31、第三方面,本发明实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
32、第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
33、与现有技术相比,本发明的有益成果在于:
34、本发明提出一个高阶结构多样性特征学习网络(hsdflnet),这是一个为par任务量身定制的创新架构,hsdflnet旨在识别和利用注意机制中的高阶统计信息,从而促进精确和全面的注意特征的产生;此外,还提出一种称为软冗余感知损失(sraloss)的损失函数来自适应度量阶间和阶内特征的冗余度;采用最小-最大优化训练策略巧妙地识别和管理冗余(可重复性),鼓励多样化和分层的高阶特征表示;本发明提出的高阶结构模块只适用于训练;这种设计使本发明的方法能够在训练过程中提供全面的特征表示和鲁棒性,而不会影响推理过程中的简单性和计算效率;在几个具有挑战性的par数据集上的实验表明,本发明的方法优于最先进的方法。
1.一种基于高阶结构多样性特征学习的行人属性识别方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述的基于高阶结构多样性特征学习的行人属性识别方法,其特征在于,还包括:
3.根据权利要求1所述的基于高阶结构多样性特征学习的行人属性识别方法,其特征在于,所述高阶结构模块hfmm包括引入应用于f的高阶多项式预测器,生成包含特征激活的高阶统计的尺度特征映射,主要利用1*1卷积,relu和sigmoid激活函数来实现,具体包括:
4.根据权利要求3所述的基于高阶结构多样性特征学习的行人属性识别方法,其特征在于,所述高阶结构模块hfmm包括引入应用于f的高阶多项式预测器,生成包含特征激活的高阶统计的尺度特征映射,表示为:
5.根据权利要求4所述的基于高阶结构多样性特征学习的行人属性识别方法,其特征在于,还包括:利用张量分解对wr进行参数压缩,以减少参数量,防止过拟合,表示为:
6.根据权利要求1所述的基于高阶结构多样性特征学习的行人属性识别方法,其特征在于,所述二元交叉熵损失函数bceloss的表达式如下:
7.根据权利要求1所述的基于高阶结构多样性特征学习的行人属性识别方法,其特征在于,采用vit作为行人属性识别的所述主干网络。
8.一种基于高阶结构多样性特征学习的行人属性识别系统,其特征在于,包括:
9.一种电子设备,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一所述的方法。