本发明属于目标检测,具体涉及一种基于大核注意力与多尺度门控单元的视频异常检测方法。
背景技术:
1、视频异常检测是一种旨在自动识别视频中可能存在的异常事件的技术。主要通过分析视频流中的视觉和运动特征,如异常的物体行为、光照变化或场景结构变化等,来检测可能存在的异常事件。这种技术广泛应用于安防监控、交通管理、医疗诊断等领域。随着人工智能技术的发展,视频异常检测技术正在向更智能化和精准化的方向发展。目前主要有两类异常检测的方法。
2、基于重构的方法:将给定的视频帧作为输入,训练时通过提取高级特征表示,学习训练数据的正常模式,以重构视频帧。如果重构误差较大,则可以区分出异常帧。wu p等人在文献“fast sparse coding networks for anomaly detection in videos.patternrecognition,2020.”提出了使用自编码器的异常检测模型。但该方法具有局限性,虽然对视频中的位置相关的异常检测准确率高,但在建模视频帧序列之间的时间依赖性方面表现不佳。
3、基于预测的方法:将异常视为不符合预期事件,正常视频的视频帧之间具有相互依赖性,可以进行预测,而异常视频帧无法预测。liu w等人在文献“future frameprediction for anomaly detection–a new baseline.proceedings of the ieeeconference on computer vision and pattern recognition,2018.”提出了基于预测的异常检测模型。该方法对视频中与运动相关的异常检测准确率高,可以更好地建模和挖掘连续帧的时间关系。但对画幅小的异常事件检测效率较低。
技术实现思路
1、为了克服现有技术的不足,本发明提供了一种基于大核注意力与多尺度门控单元的视频异常检测方法,该方法保留单帧画面的局部重要信息,同时提取时间序列的多尺度特征,从而更好的对连续帧进行建模,实现对视频异常事件的检测。相比现有方法,该方法具备对与运动相关的视频异常检测更精确的检测能力。本发明提出的方法具有重要的实际应用价值,并能够推动视频异常事件检测领域的发展。
2、本发明解决其技术问题所采用的技术方案如下:
3、步骤1:收集和准备待处理的视频数据集,视频数据集包含异常片段和正常片段的视频;
4、步骤2;进行数据预处理;将视频流提取成多个单帧彩色图像,将彩色图像转换为灰度图像;
5、步骤3:选择在动力学人类行为视频数据集上预训练的i3d模型作为骨干,将经过预处理的视频帧数据集图像划分为连续16帧一组,提取rgb特征;
6、步骤4:把特征输入到大核注意力机制提取位置特征模块,在该模块中设置串行卷积层,选择空间特征后输入到空间注意力机制进行特征提取;在串行卷积层里设置3个大核卷积,通过串行卷积层将大核显式地分解为一系列深度卷积,每个卷积核具有不同的核大小和扩张率;
7、步骤5:每个分解后的深度卷积输出通过一个1×1的卷积层f1×1(·),用于在每个空间特征向量中进行通道混合;
8、步骤6:通过将分解后的大核卷积输出特征进行连接,然后使用平均池化pavg(·)和最大池化pmax(·)提取空间特征关系描述符saavg和samax;设置为连接后的特征,计算公式如下:
9、
10、步骤7:将平均池化和最大池化得到的空间特关系征描述符输入到空间注意力中,通过一个卷积层f2→n(·)转换为n个空间注意力图计算公式如下:
11、
12、步骤8:对每个空间注意力图应用sigmoid激活函数,得到相应的空间选择掩码,将空间选择掩码加权的分解大核卷积输出的特征进行融合,得到注意力特征;计算公式如下:
13、
14、步骤9:将通过i3d模型提取到的rgb特征与注意力特征进行融合,得到该模块的输出结果即位置特征;
15、步骤10:设置3个不同尺度卷积的卷积核,分别对应不同的时间感受范围,捕获不同时间尺度上的动态信息;将i3d模型提取到的rgb特征输入到3个卷积层中,卷积层分别是
16、步骤11:将不同尺度的卷积特征通过tanh门控单元进行加权融合;门控单元根据输入自适应地调整每个尺度特征的重要性,动态控制信息在不同时间尺度特征之间的流向;
17、步骤12:将多个门控单元的输出恢复成与初始特征相同的形状,然后输入到transformer模型,表示为f(·)中,以捕获时间序列中的长程依赖关系,得到全局的上下文语义信息;设置为恢复形状后的特征,st为模型输出,计算公式如下:
18、
19、步骤13:将通过i3d模型提取到的rgb特征与时间序列模型的输出进行融合,得到该模块的输出结果即时序特征;
20、步骤14:将位置特征与时序特征进行融合,得到最终特征;利用最终的特征进行训练和推理,完成对视频中的异常事件检测。
21、优选地,所述预处理还包括对图像进行缩放、裁剪、归一化操作。
22、本发明的有益效果如下:
23、1.精确的位置特征提取能力:本发明利用大核注意力机制对视频帧进行处理,能够有效地捕捉到局部重要信息和上下文变化。这种方法能够更加精确地提取与异常行为相关的位置特征,提高检测的准确性。
24、2.高效的时序特征挖掘策略:本发明利用多尺度门控单元的设计允许模型同时捕获不同时间尺度上的动态信息。使得模型能够更加灵活地响应不同的时间特征。无论异常事件是瞬时发生还是逐渐演变,这种方法都能够有效地处理视频帧序列中的时间依赖性。
25、3.本发明方法可以检测不连续动作或在视频中位置不明显的异常事件,例如打架或袭击等以人为目标的异常行为。
1.一种基于大核注意力与多尺度门控单元的视频异常检测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于大核注意力与多尺度门控单元的视频异常检测方法,其特征在于,所述预处理还包括对图像进行缩放、裁剪、归一化操作。