本发明属于视频异常检测,具体涉及多尺度注意力前向短时间隔帧预测的视频异常检测方法。
背景技术:
1、随着平安城市、智能交通、智能楼宇、智慧交通的建设及社会整体安防意识的提升,视频监控处于快速发展期,视频监控市场将大力扩张。视频监控设备被广泛应用于公共安全领域,其产生的数据量爆炸式增长。大多数监控设备只记录长期视频数据,不能智能检测异常事件的发生并及时报警,高精度和快速响应的视频异常事件检测技术的实现受到研究者们的广泛关注,是计算机视觉领域一项极具挑战的任务。异常通常指一些与正常情况或预期不符的事件,具有不确定性、不规律性等特点,如掷物,奔跑,违反交通规则等。这些特点造成现实生活中异常事件发生频率远低于正常事件,采集难度大,一些关于异常事件检测的数据集中正常事件的比例远大于异常事件的比例,这就对异常事件的检测造成很大的困难。
2、近年来,基于重建或预测的方法因其不需要复杂的标记和具体的异常定义成为当下热门。重建方法通过对输入视频帧序列重建,根据重构数据与原始数据之间的误差进行检测。预测方法通过对输入视频帧序列进行学习,对下一时刻帧进行预测,计算预测帧与真实帧之间的预测误差进行检测。通常异常会比正常产生更大的误差。这两类方法的核心在于对视频序列信息的特征提取和通过误差对异常进行判断。
3、基于重建的方法重建每个输入帧,仅关注外观模式的重建,不可避免的造成运动信息的丢失。因此,基于预测的视频异常检测方法因其能够捕获运动信息得到了广泛的研究。模型的优化目标是根据后向的视频帧来预测前向下一时刻帧。然而,目前大多数基于预测的方法都是根据后向视频序列来预测前向某一时刻帧。在预测过程中,部分异常在初始阶段具有和正常相似的运动模式,模型难以准确区分预测,可能导致较高的错误检测率。同时,在学习后向视频信息的过程中,场景中不同目标的尺度以及不同分辨率层同一目标尺度并不相同,模型对较小或较大尺度目标的特征提取并不充分,容易忽略较小或较大尺度的目标。
技术实现思路
1、本发明的目的是提供多尺度注意力前向短时间隔帧预测的视频异常检测方法,能够对视频帧中不同尺度目标的特征进行充分提取,增强网络预测帧保持在未来和历史序列的运动一致性,有效提升异常检测的精度。
2、本发明所采用的技术方案是,多尺度注意力前向短时间隔帧预测的视频异常检测方法,具体按照以下步骤实施:
3、步骤1、给定视频帧序列,构建编码器网络提取序列的初级时空特征;
4、步骤2、在编码器和解码器之间的跳跃连接过程中使用多尺度特征提取模块对初级时空特征中的不同尺度目标进行多尺度特征提取;
5、步骤3、利用有效通道注意力剔除提取到的特征信息中的冗余信息;
6、步骤4、解码器通过提取的多尺度特征进行未来短时间隔帧预测;
7、步骤5、构建预测模型的损失函数;
8、步骤6、迭代训练模型并得到能够预测接近真实帧的模型;
9、步骤7、通过计算预测帧和真实帧之间的多尺度预测误差进行视频异常检测。
10、本发明的特点还在于,
11、步骤1中使用编码器对视频序列进行初级时空特征提取,编码器是由多个卷积层和池化层组成的下采样结构。
12、3.根据权利要求2所述的多尺度注意力前向短时间隔帧预测的视频异常检测方法,其特征在于,所述步骤2具体如下:
13、步骤2.1、对初级时空特征进行浅层局部特征提取:
14、不同尺度的卷积核捕获不同尺度目标的浅层特征,卷积核大小分别设置为1×1、3×3和5×5,在不同尺度区域捕获目标特征;
15、步骤2.2、扩大感受野:
16、在获取浅层局部特征的同时,使用不同尺度的膨胀卷积扩大对目标关注的感受野,获取目标在更大视野上的语义信息,膨胀卷积的大小设置为3×3,rate设置为3和5;
17、步骤2.3、特征融合:
18、将所述步骤2.1中不同卷积核提取的不同尺度目标浅层局部特征与所述步骤2.2中不同膨胀卷积提取的更大视野上的语义信息进行融合,提升网络对不同尺寸目标的特征提取能力,得到多尺度特征。
19、步骤3具体如下:
20、首先,对得到的多尺度特征进行通道压缩,每个通道进行加权处理,应用在特征图的每个空间位置上,其次,确定交互的覆盖范围即1d卷积核的大小k,捕获通道间交互,为每个通道分配不同的权重,1d卷积核的大小k与通道维度c成比例,即k和c之间存在映射定义为式(a):
21、c=φ(k) (a)
22、另一方面,通道维度c是2的指数幂,将线性函数扩展为非线性函数,定义为式(b):
23、c=φ(k)=2(γ*k-b) (b)
24、在给定信道维度c的情况下,内核大小k通过以下公式(c)自适应地确定:
25、
26、其中,|·|odd表示|·|的最近奇数,γ和b设置为2和1,通过使用非线性映射,达到剔除冗余信息,增强模型对不同尺度目标关注能力的效果。
27、步骤4通过解码器过程中得到得多尺度特征对短时间间隔帧进行预测。
28、步骤5具体如下:
29、步骤5.1、外观优化损失:
30、使用所有像素的相似性最小化预测帧与真实帧在rgb空间的误差,最小化误差函数定义为式(d):
31、
32、其中,lapp为外观优化损失,it为t时刻真实帧,为网络生成的t时刻预测帧,前向短时间隔帧预测损失由不同时刻帧构成,外观优化损失定义为式(e):
33、
34、其中,lfst-app为短时间隔预测帧与真实帧在rgb像素空间的外观损失;λ被设计为平衡不同时刻帧的贡献,λ为0.8;
35、步骤5.2、运动优化损失:
36、使用预测帧与真实帧梯度间的误差进行运动约束,预测帧与真实帧之间的运动损失定义为式(f):
37、
38、其中,lmot为运动优化损失,i为真实帧,为网络生成的预测帧,i和j分别为图像行和列上像点的坐标,运动优化同样与不同时刻帧有关,最小化运动优化损失函数定义为式(g):
39、
40、lfst-mot为短时间隔预测帧和真实帧之间的运动损失;
41、步骤5.3、前向短时间隔帧预测损失:
42、前向短时间隔帧预测损失由外观损失和运动损失构成,最终最小化误差函数定义为式(h):
43、lfst=λapplfst-app+λmotlfst-mot (h)
44、其中,lfst为提出的短时间隔帧预测损失;λapp、λmot被设计为平衡不同时刻帧的贡献,均设置为1.0。
45、使用从数据集中随机挑选的连续16帧和未来短时间间隔的两帧进行迭代训练,所有帧在输入网络前归一化到[-1,1],前16帧用于网络的输入,未来短时间间隔帧的两帧用于优化网络生成预测帧的能力,通过在不同数据上迭代训练50轮,学习率设置为0.0002,使用adamw优化器训练模型具有能够预测接近真实帧得能力。
46、步骤7具体如下:
47、计算网络生成的预测帧和真实帧之间的预测误差得到预测误差图,将预测误差图调整为3个不同尺度,每个尺度上的最大预测误差通过基于块的均方误差计算,对于每个帧,通过对每个尺度中的最大预测误差求和计算最终通常用作异常评估标准的峰值信噪比psnr预测误差,最终预测误差定义为式(i):
48、
49、其中,表示mspe中的最大值平方,mspe为不同尺度上的最大预测误差之和,定义为式(j):
50、
51、其中,msi是通过基于块的均方误差获得的尺度i中的最大预测误差,n设置为3,表示由三个不同尺度的预测误差组成,根据最终每个尺度中的最大预测误差之和mspe计算最终预测误差;
52、通过对预测误差进行最大最小归一化得到最终的用于异常检测的异常分数s(t),异常分数定义为式(k):
53、
54、异常分数用于异常判断,通常正常具有较低的分数,异常具有较高的分数,设置阈值可将正常和异常进行区分。
55、本发明的有益效果是,1.通过重新设计的多尺度特征提取模块,能对视频帧中不同尺度目标的特征进行充分提取,同时使用有效注意力模块剔除了冗余信息,增强了模型关注不同尺度目标的能力。2.使用前向短时间隔帧预测损失,增强了网络预测帧保持在未来和历史序列运动一致性的能力。3.通过多尺度异常分数,提高了异常检测的精度,降低了较大尺度和较小尺度目标被忽视的概率。
1.多尺度注意力前向短时间隔帧预测的视频异常检测方法,其特征在于,具体按照以下步骤实施:
2.根据权利要求1所述的多尺度注意力前向短时间隔帧预测的视频异常检测方法,其特征在于,所述步骤1中使用编码器对视频序列进行初级时空特征提取,编码器是由多个卷积层和池化层组成的下采样结构。
3.根据权利要求2所述的多尺度注意力前向短时间隔帧预测的视频异常检测方法,其特征在于,所述步骤2具体如下:
4.根据权利要求3所述的多尺度注意力前向短时间隔帧预测的视频异常检测方法,其特征在于,所述步骤3具体如下:
5.根据权利要求4所述的多尺度注意力前向短时间隔帧预测的视频异常检测方法,其特征在于,所述步骤4通过解码器过程中得到得多尺度特征对短时间间隔帧进行预测。
6.根据权利要求5所述的多尺度注意力前向短时间隔帧预测的视频异常检测方法,其特征在于,所述步骤5具体如下:
7.根据权利要求6所述的多尺度注意力前向短时间隔帧预测的视频异常检测方法,其特征在于,使用从数据集中随机挑选的连续16帧和未来短时间间隔的两帧进行迭代训练,所有帧在输入网络前归一化到[-1,1],前16帧用于网络的输入,未来短时间间隔帧的两帧用于优化网络生成预测帧的能力,通过在不同数据上迭代训练50轮,学习率设置为0.0002,使用adamw优化器训练模型具有能够预测接近真实帧得能力。
8.根据权利要求7所述的多尺度注意力前向短时间隔帧预测的视频异常检测方法,其特征在于,所述步骤7具体如下: