基于统一局部-长程上下文注意力机制的卷积神经网络

    技术2024-11-02  53


    本发明涉及计算机,具体地涉及基于统一局部-长程上下文注意力机制的卷积神经网络。


    背景技术:

    1、卷积神经网络是计算机领域中一种重要的神经网络。目前,注意力机制在计算机领域中发挥了重要作用,它允许模型自适应地关注重要信息忽略不重要信息,增强了对鉴别性信息的感知能力。自注意力作为一种特殊的注意力机制,它利用成对像素之间的依赖关系来捕获上下文并调整像素的权重。由于自注意力机制在捕获上下文方面出色的表现。现有的方法主要从两方面来探索其在计算机领域的适应性。一方面,通过建模全局上下文学习特征图的整体信息。尽管全局注意力可以捕获全局感受野下密集的长程上下文,但是它的计算复杂度与像素数目成二次方关系。于是,另一种方法在网格内计算自注意力来捕获稀疏长程上下文。由于网格内的像素分散在整个特征图上,所以网格注意力的感受野是全局的,降低了建模全局上下文的计算量。另一方面,通过建模局部上下文学习特征图中的细节信息,使用窗口注意力来建立像素间的短程连接。但是,为了捕获长程上下文,它们需要使用例如移位窗口划分等复杂的操作来实现跨窗口通信。还可通过引入类似于普通卷积的显式滑动窗口注意力机制来将每个目标像素的感受野限制在其最近的相邻像素。

    2、上述方法虽然建模了全局上下文或局部上下文,但是它们将全局上下文和局部上下文的建模独立实施到不同的模块中,忽略了局部与全局信息间潜在的互补与协同效应。


    技术实现思路

    1、本发明的目的在于克服现有技术存在的缺点,提出设计一种基于统一局部-长程上下文注意力机制的卷积神经网络。

    2、本发明解决其技术问题所采取的技术方案是:

    3、基于统一局部-长程上下文注意力机制的卷积神经网络,将resnet-50作为骨干网络,使用resnet-50网络res_conv4_2之前的残差块作为整个网络上特征提取的骨干部分,在res_conv4_2后将网络划分成三个分支:全局特征模块分支、分支一、分支二;

    4、所述全局特征模块分支用于提取特征图的全局信息;

    5、所述分支一嵌入统一空间局部-长程上下文模块ull-s(unifying spatiallocal-long range context module),所述ull-s包括窗口注意力和网格注意力;所述窗口注意力将空间维度划分为多个窗口,并让目标像素与其所在的同一窗口内其他像素交互,从而建立窗口范围内像素间的短程连接来捕获空间局部上下文;所述网格注意力将特征图划分为多个网格,单独计算每个网格的关系矩阵来建立同一网格内成对像素间的交互,从而建立网格长程连接来捕获目标像素的空间长程上下文;建立空间反比例约束,合并目标像素的窗口交互和网格交互来融合空间局部上下文和长程上下文,这种方式不仅直接扩大了目标像素的感受野,而且实现了窗口间的显式通信和网格间的显式通信,提升了空间全局上下文建模的有效性;

    6、所述分支二嵌入统一通道局部-长程上下文模块ull-c(unifying channellocal-long range context module),所述ull-c包括区间注意力和格栅注意力;所述区间注意力将通道维度划分为多个区间,单独计算每个区间的关系矩阵,来建立同一区间内两两通道间的交互,从而建立区间范围内通道间的短距离连接来捕获目标通道的近邻上下文,充分学习局部范围内特征之间的相关性;所述格栅注意力将通道维度划分为多个格栅,每个格栅有若干个以固定间隔选取的通道,单独计算每个格栅的关系矩阵来建立同一个格栅内两两通道的交互,从而建立了目标通道的长程稀疏连接来捕获通道长程稀疏上下文;建立通道反比例约束,合并区间交互和格栅交互来融合目标通道的近邻上下文和长程稀疏上下文,从而拓宽目标通道的特征感知范围,提升通道全局上下文建模的有效性。

    7、进一步的,所述窗口注意力捕获空间局部上下文的具体过程为:

    8、设输入到ull-s的特征图为x∈rh×w×c,其中h、w、c分别为特征图的高度、宽度和通道数量;首先将输入张量x分割成(h/p)×(w/p)个大小为p×p的不重叠的窗口,得到形状为((h/p)×(w/p), p×p, c)的张量x ’;接着,使用两个不同的线性映射将张量x ’转换为窗口查询张量xq1和窗口键张量xk1,xq1和xk1与x ’具有相同的形状;

    9、然后单独计算每个窗口的关系矩阵,来建立同一窗口内成对像素间的交互;所有窗口的关系矩阵a1∈r(hw/(p×p))×(p×p)×(p×p)的计算过程可表示为:

    10、a1=xq1(xk1)t;

    11、其中,表示矩阵乘法;a1中的第(i,j,k)个元素表示第i个窗口内第j个元素和第k个元素间的关系,a1中的第i个矩阵的第j行表示第i个窗口内第j个元素与同窗口内其他元素间的关系,因此a1同时建立了hw/(p×p)个窗口的像素间的交互。建立窗口范围内像素间的短程连接可以捕获目标像素的空间局部上下文,从而充分学习特征图的局部信息。

    12、进一步的,所述网格注意力捕获空间长程上下文的具体过程为:

    13、将输入张量x网格化成形状为(g×g, (h/g)×(w/g), c)的张量x ’’,其中空间维度被(h/g)×(w/g)个网格进行均匀分割,每个网格的大小是g×g;为方便网格内像素间关系的计算,将x ’’的前两个轴交换,并使用两个不同的线性映射来得到网格查询张量xq2和网格键张量xk2,xq2和xk2的形状都为((h/g)×(w/g), g×g, c);单独计算每个网格的关系矩阵来建立同一网格内成对像素间的交互;所有网格的关系矩阵a2∈r(hw/(g×g))×(g×g)×(g×g)的计算过程可表示为:

    14、a2=xq2(xk2)t;

    15、a2中第(i,j,k)个元素表示第i个网格内第j个元素与第k个元素的关系,a2同时建立了(h/g)×(w/g)个网格的像素之间的交互。网格内的连接是一种全局感受野下的稀疏的长程连接,因此a2捕获的目标像素的上下文是全局的和稀疏的,降低了空间全局上下文建模的计算量。

    16、进一步的,所述分支一中,融合空间局部上下文和长程上下文的具体过程为:

    17、使窗口划分和网格划分满足空间反比例约束hw/(p×p)=g×g,即网格大小与窗口数目相等,窗口大小与网格数目相等;

    18、将形状为(hw/(g×g),g×g,g×g)的a2的第一个轴和第二个轴进行交换,得到形状为(g×g,hw/(g×g),g×g)的张量a ’2,以对齐窗口关系矩阵a1和网格关系矩阵a2中的目标像素;

    19、然后,拼接a1和a ’2得到融合局部和长程上下文的关系矩阵a∈r(g×g)×(p×p)×(p×p+g×g)),矩阵a计算了目标像素和其所在的窗口以及网格内的任意像素之间的关系,表示为:

    20、a= cat(diag(a1), diag(a ’2));

    21、其中,cat是指将两个张量沿列维度做拼接的操作;diag(•)是目标像素自相关性去重操作。

    22、进一步的,使用所述空间局部-长程上下文来生成空间方面的注意力图:

    23、首先对a沿列方向应用平均池化和最大池化操作来得到目标像素的上下文嵌入;

    24、然后,将两种池化的结果进行拼接,并应用卷积和softmax操作得到空间注意力图as∈r1×h×w:

    25、as= softmax(conv2d(cat(mean(a), max(a))));

    26、接着,空间注意力图as与原始特征x进行逐元素相乘,并将乘积结果与原始特征x做残差;

    27、最后,应用batchnorm归一化操作和gelu激活函数以得到输出表示a ’s:

    28、a ’s= gelu(batchnorm(x+(x*as)));

    29、其中,*是广播相乘操作。

    30、进一步的,所述区间注意力捕获目标通道的近邻上下文的具体过程为:

    31、将输入张量y∈rh×w×c的通道维度均匀划分成m个不重叠区间,得到形状为(m, c/m, h×w)的张量y ’,其中每个区间包含c/m个原始索引通道;

    32、使用两个不同的线性映射将y ’转换为区间查询张量yq1和区间键张量yk1,yq1和yk1与y ’具有相同的形状;

    33、单独计算每个区间的关系矩阵,来建立同一区间内两两通道间的交互;所有区间的关系矩阵e1∈rm×(c×m)×(c×m):

    34、e1=yq1(yk1)t;

    35、e1中第(i,j,k)个元素表示第i个区间内第j个通道和第k个通道间的关系,e1中的第i个矩阵的第j行表示第i个区间内第j个通道与同区间内其他通道的关系,因此e1同时建立了m个区间的通道间的交互。建立区间范围内通道间的短距离连接可以捕获目标通道的近邻上下文,从而充分学习局部范围内特征之间的相关性。

    36、进一步的,所述格栅注意力捕获通道长程稀疏上下文的具体过程为:

    37、将输入张量y变形为(c/n, n, h×w),并交换前两个轴得到形状为(n,c/n, h×w)的张量y ’’,其中通道维度被划分成n个格栅,每个格栅有c/n个以固定间隔选取的通道;

    38、使用线性映射得到格栅查询张量yq2和格栅键张量yk2,yq2和yk2的形状与y ’’相同;

    39、单独计算每个格栅的关系矩阵来建立同一个格栅内两两通道的交互;所有格栅的关系矩阵e2∈rn×(c×n)×(c×n):

    40、e2= yq2(yk2)t;

    41、e2中第(i,j,k)个元素表示第i个格栅内第j个通道与第k个通道的关系,同时建立了n个格栅的通道之间的关系。e2建立了目标通道的长程稀疏连接,降低了通道全局上下文建模的计算量。

    42、进一步的,所述分支二中,融合目标通道的近邻上下文和长程稀疏上下文的具体过程为:

    43、设计通道反比例约束为c/m=n,即区间大小与格栅数量相等,格栅大小与区间数量相等;

    44、将形状为(n, c/n, c/n)的e2的第一个轴和第二个轴进行交换,得到形状为(c/n,n,c/n)的张量e ’2;

    45、然后,拼接e1和e ’2得到融合近邻上下文和远程上下文的关系矩阵e∈rm×n×(n+m)),矩阵e计算了目标通道和其所在的区间以及格栅内的任意通道之间的依赖关系,表示为:

    46、e = cat(diag(e1), diag(e ’2));

    47、其中,diag(•)是目标通道自相关性去重操作。

    48、进一步的,使用通道局部-长程上下文来生成通道方面的注意力图:

    49、首先对e沿列方向应用平均池化和最大池化操作;

    50、然后,将两种池化的结果进行拼接,并应用卷积和softmax操作得到通道注意力图ec∈rc×1×1:

    51、ec= softmax(conv1d(cat(mean(e), max(e))));

    52、接着,通道注意力图ec与原始特征x进行逐元素相乘,并将乘积结果与原始特征x做残差;

    53、最后,应用batchnorm归一化操作和gelu激活函数,得到融合通道上下文信息的增强特征表示e ’c:

    54、e ’c= gelu(batchnorm(x+(x*fc)));

    55、其中,*是广播相乘操作。

    56、进一步的,所述resnet-50网络的res_conv5_1残差块不进行下采样操作,以便保留更多空间信息而不添加额外的参数。

    57、本发明的技术效果:

    58、与现有技术相比,本发明提出了一种统一局部-长程上下文注意力机制,来有效和高效地学习特征图的局部信息和全局信息。该注意力机制在空间和通道维度上分别实施为统一空间局部-长程上下文模块(unifying spatial local-long range context module,ull-s)和统一通道局部-长程上下文模块(unifyingchannel local-long range contextmodule, ull-c)。统一空间局部-长程上下文模块由窗口注意力和网格注意力构成。窗口注意力通过建立像素间的短程连接捕获目标像素的空间局部上下文。网格注意力通过建立像素间的长程连接捕获目标像素的长程上下文。为了使窗口注意力和网格注意力具有强互补性,本发明提出了一个空间反比例约束来限制窗口数目和网格数目呈反比例关系。通过该约束,网格注意力自然地实现了跨窗口通信,窗口注意力也相应地实现了跨网格通信,这赋予了ull-s模块捕获空间全局密集上下文的能力。


    技术特征:

    1.基于统一局部-长程上下文注意力机制的卷积神经网络,其特征在于,所述卷积神经网络以resnet-50作为骨干网络,将resnet-50网络res_conv4_2之前的残差块作为整个网络上特征提取的骨干部分,在res_conv4_2后将网络划分成三个分支:全局特征模块分支、分支一、分支二;

    2.根据权利要求1所述的基于统一局部-长程上下文注意力机制的卷积神经网络,其特征在于,所述窗口注意力捕获空间局部上下文的具体过程为:

    3.根据权利要求2所述的基于统一局部-长程上下文注意力机制的卷积神经网络,其特征在于,所述网格注意力捕获空间长程上下文的具体过程为:

    4.根据权利要求3所述的基于统一局部-长程上下文注意力机制的卷积神经网络,其特征在于,所述分支一中,融合空间局部上下文和长程上下文的具体过程为:

    5.根据权利要求4所述的基于统一局部-长程上下文注意力机制的卷积神经网络,其特征在于,使用所述空间局部-长程上下文来生成空间方面的注意力图:

    6.根据权利要求1所述的基于统一局部-长程上下文注意力机制的卷积神经网络,其特征在于,所述区间注意力捕获目标通道的近邻上下文的具体过程为:

    7.根据权利要求6所述的基于统一局部-长程上下文注意力机制的卷积神经网络,其特征在于,所述格栅注意力捕获通道长程稀疏上下文的具体过程为:

    8.根据权利要求7所述的基于统一局部-长程上下文注意力机制的卷积神经网络,其特征在于,所述分支二中,融合目标通道的近邻上下文和长程稀疏上下文的具体过程为:

    9.根据权利要求8所述的基于统一局部-长程上下文注意力机制的卷积神经网络,其特征在于,使用通道局部-长程上下文来生成通道方面的注意力图:

    10.根据权利要求1-9任一项所述的基于统一局部-长程上下文注意力机制的卷积神经网络,其特征在于,所述resnet-50网络的res_conv5_1残差块不进行下采样操作。


    技术总结
    本发明涉及计算机领域,具体地涉及基于统一局部‑长程上下文注意力机制的卷积神经网络,该网络在多个维度进行不同尺度的自注意力计算,以学习特征图的局部信息和全局信息。所述网络嵌入统一空间局部‑长程上下文模块和统一通道局部‑长程上下文模块,分别从空间维度和通道维度建模局部上下文和长程上下文。同时引入反比例约束实现隐式通信,然后进一步通过融合局部上下文和长程上下文实现显式通信。这一融合操作保证了局部与全局信息间潜在的互补与协同效应不被忽略,能够更加有效的学习特征图的局部信息和全局信息。

    技术研发人员:周晓颖,王成,庞希愚,栗世涛,田佳琛,马腾达,司炜,刘彤欣
    受保护的技术使用者:山东交通学院
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-21482.html

    最新回复(0)