本发明属于图像处理领域,涉及一种基于边缘引导和动态剪枝的车辆图像分割方法。
背景技术:
1、图像分割是图像识别和计算机视觉至关重要的预处理,是许多视觉理解系统的重要组成部分。其中图像语义分割是指对图像的每个像素进行标签预测,以便相同标签的像素与图像中的语义实体相关联。语义分割以静态二维图像、视频或三维体积数据为基准,应用于自动驾驶场景的行人车辆分割、医学图像分割等预测任务。车辆分割任务是将车辆在图像或视频中进行分割,实现像素层面车身背景区分,进而提取出车辆形状、大小和颜色等关键信息的过程,以实现车辆的跟踪、检测和统计等功能,是自动驾驶领域场景理解的基础任务之一。然而,复杂环境下的车辆分割由于道路、建筑和行人等多种背景造成的颜色纹理相似性更具挑战性。同时非目标车辆、行人或其他障碍物的遮挡会导致识别和分割困难。由于车辆可能会变形或受到透视效应的影响,其形状和大小可能会在图像中发生变化。在多种应用场景中,对车辆分割的高效性和计算资源也具有一定要求。所以有必要针对复杂环境下的车辆分割任务设计相匹配的网络模型。一方面,在自动驾驶应用中,需要实时地感知周围环境,包括识别和跟踪其他车辆。为了帮助自动驾驶系统准确地检测和识别道路车辆,从而更好地规划行驶路径、避免碰撞,需要提高模型的灵敏度和准确性,以保证行驶安全性和效率。另一方面,在嵌入式系统、移动设备或边缘计算节点等资源受限的车载设备上,由于处理器性能、内存大小或存储容量等方面的限制,需要权衡速度与性能,最大程度地提高车辆的安全性和运营效率。同时,车辆图像质量会受到光照不足、阴影、雨水等外部条件的影响,使得车辆的边界模糊或难以分割。为了缓解上述问题,本专利提出了一种基于边缘引导和动态剪枝的车辆图像分割方法(vehicle image segmentation method based onedge guidance and dynamic pruning),它主要包括三个模块:基于状态空间模型的混合感知编解码网络、多尺度边缘引导分支和动态联合剪枝算法。基于状态空间模型的混合感知编解码网络由补丁嵌入层、混合状态空间模块和补丁合并层构成,实现图像浅层和深层语义特征的提取和恢复。混合状态空间模块中通过将扩张卷积生成的特征馈送到状态空间模型中,可以利用状态空间模型的状态转换能力来增强特征之间的空间相关性,从而补偿由于空隙而引入的不连续性。混合状态空间模块的状态空间模型分支和混合卷积分支分别处理来自信道分割操作生成的两个子输入。利用状态空间模型的核心ss2d块扫描扩展实现多向特征捕获,使用s6块中的选择性机制对状态空间模型的参数进行选择,准确识别提取有用信息的同时过滤掉冗余信息。混合卷积分支通过扩张卷积和深度可分离卷积在降低参数量的同时感知图像细节特征。多尺度边缘引导分支输入收缩路径的编码特征、扩展路径中高层的解码预测特征和高斯拉普拉斯操作的高频特征。利用高斯滤波器和拉普拉斯算子实现边缘检测并保存高频细节,设计边缘损失函数监督边缘信息学习。然后,通过空间通道注意力将深度语义特征和边缘特征融合输出馈送到扩展路径。最后,通过动态联合剪枝算法联合学习模型权重,利用强化学习代理进行滤波器修剪,将剪枝模型准确性作为代理奖励函数,构建递归网络对奖励函数的变化进行动态建模,迭代训练模型权重和代理策略,得到模型层压缩率和修剪准确性权衡最优分割模型。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种基于边缘引导和动态剪枝的车辆图像分割方法。利用混合感知编解码网络学习车辆图像上下文特征表示,混合感知编码器由状态空间模型融合混合卷积,通过状态空间模型和混合卷积双分支增强图像信息中的深层细节特征并输入解码器实现特征恢复。多尺度边缘引导网络输入不同阶段混合感知编码器提取特征来处理和细化相关联的边界形状信息,设计边缘损失函数监督边缘信息学习。利用动态联合剪枝算法学习模型权重并实现结构化修剪,以完成复杂环境下的车辆图像分割模型在资源受限设备的轻量化部署。
2、为达到上述目的,本发明提供如下技术方案:
3、一种基于边缘引导和动态剪枝的车辆图像分割方法,包括以下步骤:
4、s1:数据预处理:考虑到图像在采集过程中由于采集设备和外部条件的不同,可能受到光照、噪声和模糊等因素的影响,导致图像尺寸不同或质量不佳,利用数据预处理进行图像尺寸调整和图像质量改善,提高模型的稳定性和准确性。首先将图像调整为统一大小,以确保输入模型的尺寸一致性,通过色彩空间转换和亮度对比度调整改变图像的亮度和对比度,以减少外部条件对模型的影响,利用直方图均衡化、模糊和锐化技术增强图像特征。通过平移、旋转和缩放,镜像翻转和随机裁剪等数据增强技术获得高质量、多样化的车辆分割图像数据集。
5、s2:为了解决下采样过程降低图像分辨率和信息丢失问题,通过由补丁嵌入层、混合状态空间模块和补丁合并层构成的混合感知编解码网络,实现图像浅层和深层语义特征的提取和恢复。状态空间模块中通过将扩张卷积生成的特征传递到状态空间模型中,可以利用状态空间模型的状态转换能力来增强特征之间的空间相关性,从而补偿由于空隙而引入的不连续性,同时利用混合卷积捕获上下文信息,提高模型在不丢失图像细节的情况下感知图像不同尺度结构的能力。
6、s21:首先将基准数据集序列i输入到补丁嵌入层,输入图像x∈rh×w×3被划分为大小为4×4的非重叠块,图像维数线性映射到c维,得到嵌入图像x'∈rh×w×c,通过层归一化以标准化嵌入图像,然后将嵌入图像输入到混合状态空间模块构建的编码器。
7、s22:混合状态空间模块构建的编码器由状态空间模型分支和混合卷积分支组成,嵌入图像通过通道分割操作分割为大小相等的两个子输入,子输入分别被传送到两个分支模块。其中,如公式(1)所示,状态空间模型通过隐式潜在态h(t)∈rn将一维输入函数或序列x(t)∈r映射到y(t)≥r。
8、
9、其中a∈rn×n是状态矩阵,而b∈rn×1和ε∈rn×1表示投影参数。为了使连续系统离散化,引入时间尺度参数或步长δ,并使用固定离散化规则将a和b转换为离散参数和
10、
11、离散化后,状态空间模型计算可以通过线性递归实现:
12、
13、也可以通过全局卷积实现:
14、
15、其中,k∈rl表示结构化卷积核,l表示输入序列x的长度。
16、在状态空间模型分支中,输入经过层归一化,首先通过线性映射进行维度增强,然后是具有深度可分离卷积的卷积层,该卷积层保留了维度,同时通过对特征进行分组来改进特征的定位处理。然后应用silu激活函数进行非线性变换,进入ss2d模块,进行特征提取和处理,最后将处理后的特征重新映射到原始特征空间,获得状态空间模型分支的输出。
17、其中,ss2d模块包括扫描扩展、s6块和扫描合并。扫描扩展将输入图像分解为沿上下左右四个方向的独立序列,确保信息的广泛空间覆盖并实现多向特征捕获。s6块使用选择性机制对状态空间模型的参数进行选择,以便准确地识别和提取有用信息,同时过滤掉冗余信息。具体地,该块采用[b,l,d]的特征格式作为输入,其中b是batch大小,l是序列长度,d是特征维度。首先通过线性层对特征进行变换,然后应用状态空间模型中的更新和输出方程来产生最终的输出特征。最后,扫描和合并操作重新配置这些变换的序列,以产生与原始输入图像的尺寸匹配的输出图像。
18、s23:在混合卷积分支中,通过扩张卷积来扩展卷积核的感受野,以捕获更广泛的上下文信息,在不丢失图像细节的情况下感知图像不同尺度结构。为了避免不连续数据出现的网格化效应,使用扩展率为1、2、3、1的扩展策略,在多尺度特征提取后重新聚焦局部特征,同时保持特征空间连续性,在策略末尾使用较小的扩展率关注可能包含重要信息的较小区域。最后,沿着特征图的通道维度合并两个分支的输出,并使用无参数的通道洗牌操作,首先两个子输入通道之间的信息交互。
19、s24:混合感知编码器由四个阶段组成,在前三个阶段结束时应用补丁合并操作,以减少输入特征的高度和宽度,同时增加通道数量。在四个阶段中使用混合状态空间模块,每个阶段的通道计数为[c,2c,4c,8c]。与编码器具有对称结构的解码器也具有四个阶段。在后三个阶段的开始,通过补丁扩展进行4次上采样以恢复特征的高度和宽度,输出前使用最终投影层来恢复特征的大小以匹配分割目标。
20、s3:针对车辆图像具有复杂背景分布和模糊边界难以分割的问题,通过多尺度边缘引导分支在不同层级的分辨率下保留边缘信息,同时连接混合感知编码器提取特征和解码器预测特征。利用高斯滤波器和拉普拉斯算子实现边缘检测并保存高频细节,通过门控卷积块处理和细化边缘相关信息。
21、s31:在编码阶段i,多尺度边缘引导分支输入编码特征第i+1阶段的预测特征和来自高斯拉普拉斯操作得到的高频特征其中,高斯拉普拉斯算子通过高斯滤波器对原始图像进行初始平滑,然后应用拉普拉斯算子实现边缘检测。高斯拉普拉斯操作通过是高斯拉普拉斯算子级联近似序列实现关键细节获取。
22、
23、其中i是输入图像,g是具有高斯滤波器的卷积算子,d分别表示2×下采样操作。高斯拉普拉斯操作的每个级别λk是通过从当前级别ik减去较小级别ik+1的上采样版本(u)而从高斯金字塔获得的。
24、λk=ik-u(ik+1) (6)
25、拉普拉斯算子捕捉输入图像中的二阶变化,提取边缘和轮廓等高频细节信息,对应于高斯拉普拉斯操作中的一级图像的第i级的高频特征被提供给第i个边缘检测模块,表示为fp=λ1(i)。如公式(7),为了在每个级别上保留高频信息fip,从基本级别f0p导出fip,有效保留高频信息。
26、
27、其中,其中d分别表示2×下采样操作,(d(fp))i是2×上采样的i倍,即d(d(...d(fp)))。
28、s32:下一阶段的预测图分解为反向注意力图和边缘注意力图反向注意力图计算为以重新评估和细化来自更高层的不精确预测图。边缘注意力图通过拉普拉斯算子得到如公式(8),通过对三个注意力图进行逐元素相乘,得到组合特征。
29、
30、其中[.]表示级联。为了将模型的注意力引导到重要区域,同时抑制背景噪声和冗余信息为,在i级引入注意力掩码,表示为ψi,第i层的注意力特征图fia计算如下:
31、
32、其中,σ表示sigmoid函数。为了处理和细化边缘相关信息,将注意力特征通过门控卷积块进行重新校准得到
33、s33:为了有效监督边缘信息学习,采用二进制交叉熵损失lbce和骰子损失ldice组合作为边缘函数进行训练:
34、
35、其中d是解码器的阶段数为4。是第i解码层的预测特征图,fi是第i层尺度的分割groundtruth。
36、s4:为了兼顾模型的高性能和轻量级特点,通过动态联合剪枝算法联合学习模型权重,利用强化学习代理进行滤波器修剪,将剪枝模型准确性作为代理奖励函数,构建提供当前状态表示的递归网络对奖励函数的变化进行动态建模,迭代训练模型权重和代理策略。
37、s41:首先,每次迭代中在训练数据集上训练一轮模型权重,同时固定强化学习代理,保持模型权重冻结,用l表示卷积中的层数,并用表示其第l个卷积层的权重。cl+1,cl表示层的输出和输入通道的数量,wl和hl是其内核的空间维度,stridel显示第l层的步幅,flops[l]表示flops值。
38、s42:为了使用强化学习代理来修剪模型,代理定义为在环境中访问的状态,可以执行的操作,以及给定状态和操作的奖励函数。其中代理的状态取决于代理当前正在修剪的层的索引、层内核大小和flop以及已经修剪的flop的数量。代理当前正在修剪第l层,环境的状态定义如下:
39、φl=[l,cl,cl+1,stridel,kl,flops[l],flops1:l-1,flopsl+1,al-1] (11)
40、其中kl是层的内核大小。flops1:l-1表示给定模型当前对其所做的操作的先前层的flop的数量。flopsl+1显示下一层尚未修剪的flop,al-1是代理对上一层的操作。
41、代理执行的动作基于第l层的状态φl,确定其修剪率al,使得al∈[0,1)。给定预测的修剪率al时,移除该层通道。根据flops1:l-1、flops[l]、flopsl+1:l和所需预算flops计算当前层的最小和最大实际可行修剪率。然后,将预测操作al限制在[al,min,al,max]的范围内。
42、奖励函数设置为修剪后的模型在训练数据集的一个子集上的准确性,作为其最终性能的代理。由于代理一次修剪一层模型,因此在代理的每次操作后计算代理值将非常耗时。为了降低计算内存,将代理在模型的所有层上的一次通过作为一个情节轨迹。然后,计算最终修剪模型在轨迹末端子集上的精度,并将其作为轨迹期间看到的所有状态-动作对的奖励值。
43、s43:迭代训练模型权重和代理策略时,代理对其执行操作的卷积层的权重不断变化,奖励函数相应动态改变,将用于训练模型权重的每轮索引映射到嵌入。然后,使用递归模型输入已经通过的相对应的嵌入序列,并输出模型权重的当前状态的表示。计算模型权重在第m轮状态表示如下:
44、zm=fenv(χ1:m,h0;θenv) (12)
45、其中,fenv表示递归模型。χ1:m是每轮嵌入,直到m轮。h0是递归模型的初始状态,将其设置为零向量,θenv是递归模型参数,zm来训练代理。
46、s44:设计解释模型训练递归模型,解释模型采用状态-动作对(s,a)和当代理遵循(s,a)并预测代理的奖励r时环境状态的表示z,当解释模型可以使用表示z来准确预测r时,表示z是环境状态的信息,构建目标来训练递归模型的权重和解释模型的权重:
47、
48、z=fenv(χ,h0;θenv)
49、其中,e表示与epoch索引相对应的epoch嵌入,fβ是解释模型,θβ表示其参数,使用递归模型和柔性致动评价方法来训练代理,通过环境状态z的表示来扩充状态s。
50、s45:为了保持训练稳定,提升模型准确性,通过代理对模型的权重进行软正则化,以与所选的子网络对齐。给定二进制架构向量[v1,v2,…,vl],表示当前最佳代理为每一层选择的信道,使用以下正则化项来训练模型的权重:
51、
52、其中,·表示逐元素乘积,并且所提出的目标对由代理去除的通道正则化。最后,将标准的交叉熵损失lclass与所提出的lalign相结合来训练模型的权重:
53、lω=lclass+βlalign (15)
54、本发明的有益效果在于:首先,复杂环境下的车辆图像分割存在背景分布复杂、非目标车辆或其他障碍物遮挡影响识别分割以及边界模糊等难点。其次,车辆图像分割方法为提升分割性能应用大量卷积和transformer结构,带来严重的计算量和内存消耗,无法很好的平衡分割性能和速度,影响分割模型在嵌入式系统、移动设备或边缘计算节点等资源受限的车载设备上部署。为了解决这些问题,本专利提出了一种基于边缘引导和动态剪枝的车辆图像分割方法,利用基于状态空间模型的混合感知编解码网络实现图像浅层和深层语义特征的提取和恢复。混合状态空间模块构建的编码器由状态空间模型分支和混合卷积分支组成,状态空间模型分支利用状态空间模型的状态转换能力来增强特征之间的空间相关性,从而补偿由于空隙而引入的不连续性,在混合卷积分支中,通过扩张卷积来扩展卷积核的感受野,以捕获更广泛的上下文信息,在不丢失图像细节的情况下感知图像不同尺度结构。多尺度边缘引导分支输入收缩路径的编码特征、扩展路径中高层的解码预测特征和高斯拉普拉斯操作的高频特征。利用高斯滤波器和拉普拉斯算子实现边缘检测并保存高频细节,设计边缘损失函数监督边缘信息学习。最后,通过动态联合剪枝算法联合学习模型权重,利用强化学习代理进行滤波器修剪,构建递归网络对修剪准确性奖励函数的变化进行动态建模,迭代训练模型权重和代理策略,得到模型层压缩率和修剪准确性权衡最优分割模型。本方法不仅能够准确地分割复杂环境下的车辆图像,还能够在资源有限的设备上进行高效部署和运行,实现了性能和速度的平衡。
55、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
1.一种基于边缘引导和动态剪枝的车辆图像分割方法,其特征在于:该方法包括以下步骤:
2.根据权利要求1所述的一种基于边缘引导和动态剪枝的车辆图像分割方法,其特征在于:所述s2具体为:
3.根据权利要求2所述的一种基于边缘引导和动态剪枝的车辆图像分割方法,其特征在于:所述s3具体为:
4.根据权利要求3所述的一种基于边缘引导和动态剪枝的车辆图像分割方法,其特征在于:所述s3具体为: