本发明属于计算机视频分类,具体涉及融合注意力机制的sa-vst视频分类方法。
背景技术:
1、近年来,随着互联网、多媒体技术的蓬勃发展,智能手机、移动平板等网络接入设备日渐普及,使得视频新媒体平台每月活跃用户数不断增加,每天都会有海量的视频被记录分享,通过人工方式去分析和处理目前海量的视频数据几乎是不可能的,如何利用计算机实现快速自动化的视频分析与理解,已经成为计算机视觉领域的基本问题之一。视频数据中人作为主体,人体动作即是表征视频内容的重要特征,因此,人体动作分析与识别是视频理解领域的关键与难点问题。然而,由于现实场景复杂多样、光线条件差、异常动作发生频率低等因素,对于面向公共安全的动作识别提出了更高的实时性与轻量性要求。
2、近些年,transformer应用于计算机视觉任务并取得了长足的发展,与图像分割、目标检测等视觉任务类比,视频动作识别中需要提取的特征呈几何倍数增加,使用原自注意力机制的平方复杂度,会在特征提取过程带来过高的计算量,使得视频分类效率低下。
技术实现思路
1、本发明的目的是提供融合注意力机制的sa-vst视频分类方法,解决了现有视频分类方法分类效率低下的问题。
2、本发明所采用的技术方案是,融合注意力机制的sa-vst视频分类方法,具体按照以下步骤实施:
3、步骤1,从视频数据集中获取描述视频的帧图像,并进行保存,视频数据集划分为训练集和测试集;
4、步骤2,对原始video swin transformer模型中的3d sw-msa模块进行改进,得到改进的video swin transformer模型;
5、步骤3,将训练集输入至改进的video swin transformer模型进行训练,得到训练好的改进的video swin transformer模型;
6、步骤4,将测试集作为训练好的改进的video swin transformer模型的输入,得到每个测试样本的分类结果。
7、本发明的特点还在于,
8、步骤1的具体过程为:
9、步骤1.1,将视频数据集准备为两级结构目录,将视频数据集最终输出文件夹通过ln-s命令软连接到固态硬盘上的文件夹;
10、步骤1.2,使用pyav对mmaction2支持的高效的视频加载库进行视频解码,使用bash脚本文件来自动生成数据集对应文件列表;
11、步骤1.3下载ffmpeg工具,通过bash脚本文件使用ffmpeg工具对视频帧进行抽取,将抽取后的视频帧保存至输出文件夹。
12、步骤2的具体过程为:
13、步骤2.1,将给定的输入视频帧序列输入到原始video swin transformer模型中进行线性变化后得到查询矩阵q、键矩阵k和值矩阵v;
14、即:
15、q=xwq (1)
16、k=xwk (2)
17、v=xwv (3)
18、式(1)~(3)中,表示输入的帧序列,n表示视频帧特征长度,d表示特征维度,wq、wk、分别表示为用于线性变化的权重矩阵;
19、步骤2.2,修改原始video swin transformer模型中的softmax注意力块的矩阵运算顺序,则修改后的矩阵运算顺序表达式为:
20、
21、式(4)中,φ(.)表示核函数,kj是视频帧j所代表的键向量,vj是视频帧j所代表的值向量,qi是视频帧i所代表的查询向量,n是视频帧特征长度;
22、步骤2.3,为步骤2.1得到的值矩阵v增加一个聚焦模块dcm,计算值矩阵v中相邻的特征,得到新的值矩阵v’;
23、步骤2.4,将步骤2.2中修改矩阵运算顺序后的softmax注意力块的输出与聚焦模块dcm的输出相加,得到改进的3d sw-msa模块的输出,从而完成对原始ideo swintransformer模型的改进,得到改进的video swin transformer模型。
24、步骤2.2中,核函数为:
25、φ(yi)=fs(relu(yi)) (5)
26、式(5)中,yi表示查询矩阵q、键矩阵k中的向量,fs为核函数;
27、则和函数具体形式如公式(6)所示:
28、
29、式(6)中,υ为超参数,可设置为0.001,0.01,θ为超参数,用于拉近相似查询键对之间距离,拉远不相似查询键对之间的距离,‖zi‖2为relu激活后的向量yi的l2范数。
30、步骤2.3的具体过程为:
31、设值矩阵v的输入张量为(b,h×w,c),使用滑动窗口k*k展开v,即:
32、
33、式(7)中,b为批次大小,h×w为特征图空间维度,c为输入特征通道数;
34、为每个空间位置生成动态卷积核wdynamic:
35、
36、展开后的张量vunfold和动态卷积核wdynamic进行逐元素相乘,并沿展开维度求和,得到新的值矩阵v’;
37、
38、步骤2.4中,改进的3d sw-msa模块的输出为:
39、
40、本发明的有益效果是:
41、(1)本发明融合注意力机制的sa-vst视频分类方法,对传统softmax注意力机制进行改进,利用矩阵低秩分解将原本查询键对解耦,让信息特征损失尽可能减低,并改变运算顺序使得平方级计算复杂度降低为线性级计算复杂度,从而大大提高了视频的分类效率;
42、(2)本发明融合注意力机制的sa-vst视频分类方法,将线性注意力聚焦能力弱、提取特征多样性差的特点借助设计的核函数与聚焦模块,提高键值对组内相似性,降低组间相似性,得到信息更丰富的特征,大大提高了模型的推理速度和图像检索的准确性。
1.融合注意力机制的sa-vst视频分类方法,其特征在于,具体按照以下步骤实施:
2.根据权利要求1所述的融合注意力机制的sa-vst视频分类方法,其特征在于,步骤1的具体过程为:
3.根据权利要求1所述的融合注意力机制的sa-vst视频分类方法,其特征在于,步骤2的具体过程为:
4.根据权利要求3所述的融合注意力机制的sa-vst视频分类方法,其特征在于,步骤2.2中,核函数为:
5.根据权利要求3所述的融合注意力机制的sa-vst视频分类方法,其特征在于,步骤2.3的具体过程为:
6.根据权利要求3所述的融合注意力机制的sa-vst视频分类方法,其特征在于,步骤2.4中,改进的3d sw-msa模块的输出为: