本技术涉及视频处理,特别涉及一种基于扩散模型的视频处理方法、设备及介质。
背景技术:
1、扩散模型是近年来备受关注的一类生成模型,能够根据文本生成图像或视频,并通过迭代地向数据分布中注入噪声并逐步去噪,从而生成高质量的图像或视频。
2、然而,扩散模型的性能在很大程度上取决于所使用的采样方法。传统的采样方法,如马尔科夫链蒙特卡洛方法(mcmc,markov chain monte carlo)和朗之万动力学,存在着收敛速度慢、样本质量差等问题。为了克服这些局限性,研究者们探索了各种改进方案,如去噪扩散概率模型(ddpm,denoising diffusion probabilistic models)和去噪扩散隐式模型(ddim,denoising diffusion implicit models)。尽管这些方法在一定程度上提高了扩散模型的性能,但在处理高维数据和捕捉长程依赖关系方面仍然存在不足。
3、传统的mcmc和朗之万动力学采样方法收敛速度慢,需要大量迭代步骤才能生成高质量样本。这在处理高维数据如高分辨率图像时尤为明显。
4、ddpm和ddim等方法虽然在一定程度上缓解了上述问题,但仍然难以准确捕捉数据中的长程依赖关系。这可能导致生成样本缺乏全局一致性和连贯性。
5、现有方法在捕捉数据的底层结构和语义信息方面存在不足。尽管一些方法引入了先验知识或条件信息,但仍难以准确建模数据的内在规律和层次结构。这导致生成样本在语义一致性和细节保真度方面有待提高。
6、扩散模型的训练和采样过程都涉及噪声的引入和去除。然而,现有方法对噪声的鲁棒性有限,尤其在面对强噪声或非高斯噪声时,去噪效果往往不尽如人意。噪声的残留会导致生成样本出现伪影、失真等质量问题,造成扩散模型输出的视频的质量低,严重影响模型的实用价值。
技术实现思路
1、本技术提供了一种基于扩散模型的视频处理方法、设备及介质,可以解决扩散模型输出的视频的质量低的问题。
2、第一方面,本技术实施例提供了一种基于扩散模型的视频处理方法,该视频处理方法包括:
3、分别针对扩散模型的反向的每个时间步,进行以下步骤:
4、获取时间步的目标视频的物理先验特征,并基于物理先验特征计算多头注意力模型的头部分配向量;物理先验特征用于描述目标视频的物理信息,头部分配向量用于描述多头注意力模型中每个头部的重要性;
5、对目标视频中每一帧的图像进行特征提取,得到每帧图像的局部特征,并对所有局部特征进行聚合得到目标视频的全局特征;
6、分别针对每个局部特征,基于头部分配向量,利用多头注意力模型对局部特征进行编码,得到多头注意力模型中每个头部对应的局部编码向量,并根据所有局部编码向量、所有头部对每个局部编码向量进行加权,得到每个局部编码向量的最终局部编码向量,将所有最终局部编码向量进行整合,得到局部特征的局部编码;
7、基于头部分配向量,利用多头注意力模型对全局特征进行编码,得到多头注意力模型中每个头部对应的全局编码向量,并根据所有全局编码向量、所有头部对每个全局编码向量进行加权,得到每个全局编码向量的最终全局编码向量,将所有最终全局编码向量进行整合,得到全局特征的全局编码;
8、对全局编码和每个局部编码进行解码,得到每帧图像对应的去噪图像,并将所有去噪图像进行拼接,得到扩散模型在时间步输出的去噪视频。
9、可选的,基于物理先验特征计算多头注意力模型的头部分配向量,包括:
10、通过公式:
11、α=σ(w2·relu(w1·[et;fphy]+b1)+b2)
12、计算头部分配向量α;
13、其中,w1和w2均表示权重矩阵,b1和b2均表示偏置项,et表示时间步的步骤嵌入,fphy表示物理先验特征,σ()和relu()均表示激活函数。
14、可选的,对所有局部特征进行聚合得到目标视频的全局特征,包括:
15、通过公式:
16、fglobal=ftemporal(flocl,1,flocl,2,...,flocl,t)
17、获取目标视频的全局特征fglobal;
18、其中,ftemporal()表示聚合函数,flocl,1表示第1帧图像的局部特征,flocl,2表示第2帧图像的局部特征,flocl,n表示第n帧图像的局部特征。
19、可选的,根据所有局部编码向量、所有头部对每个局部编码向量进行加权,得到每个局部编码向量的最终局部编码向量,包括:
20、根据所有局部编码向量对每个局部编码向量进行加权,得到每个局部编码向量的中间局部编码向量;
21、分别针对每个头部,计算头部与每个其他头部之间的信息传递权重,基于所有信息传递权重对头部对应的中间局部编码向量进行加权,得到每个局部编码向量的最终局部编码向量。
22、可选的,根据所有局部编码向量对每个局部编码向量进行加权,得到每个局部编码向量的中间局部编码向量,包括:
23、通过公式:
24、h′i=γi⊙hi
25、获取第i个局部编码向量的中间局部编码向量h'i;
26、其中,hi表示第i个局部编码向量,i=1,2,...,i,i表示多头注意力模型中头部的数量,γi表示第i个局部编码向量对应的动态重要性权重:
27、γi=ai⊙βi
28、ai=softmax(wa·hi)
29、其中,ai表示第i个局部编码向量对应的自注意力权重,βi表示第i个局部编码向量的初始重要性权重,wa表示权重矩阵。
30、可选的,计算头部与每个其他头部之间的信息传递权重,包括:
31、通过公式:
32、xijk=g×1u1(i,:)×2u2(j,:)×3u3(k,:)
33、计算第i个头部与第j个头部之间在第k个路由类型下的信息传递权重xijk;
34、其中,g表示核张量,u1(i,:)表示第i个头部的因子矩阵,u2(j,:)表示第j个头部的因子矩阵,u3(k,:)表示第k个路由类型的因子矩阵,i≠j,i,j∈{1,2,...,i},i表示多头注意力模型中头部的数量,k=1,2,...,k,k表示路由类型的数量。
35、可选的,基于所有信息传递权重对头部对应的中间局部编码向量进行加权,得到每个局部编码向量的最终局部编码向量,包括:
36、通过公式:
37、
38、获取第i个局部编码向量的最终局部编码向量
39、其中,h'i表示第i个局部编码向量的中间局部编码向量。
40、可选的,对全局编码和每个局部编码进行解码,得到每帧图像对应的去噪图像,包括:
41、通过公式:
42、
43、获取第n帧图像的去噪图像
44、其中,表示第n帧图像的局部编码,表示全局编码,n=1,2,...,n,n表示目标视频的帧数,fdecode()表示解码器。
45、第二方面,本技术实施例提供了一种基于扩散模型的视频处理装置,包括:
46、生成模块,用于获取时间步的目标视频的物理先验特征,并基于物理先验特征计算多头注意力模型的头部分配向量;物理先验特征用于描述目标视频的物理信息,头部分配向量用于描述多头注意力模型中每个头部的重要性;
47、特征提取模块,用于对目标视频中每一帧的图像进行特征提取,得到每帧图像的局部特征,并对所有局部特征进行聚合得到目标视频的全局特征;
48、第一编码模块,用于分别针对每个局部特征,基于头部分配向量,利用多头注意力模型对局部特征进行编码,得到多头注意力模型中每个头部对应的局部编码向量,并根据所有局部编码向量、所有头部对每个局部编码向量进行加权,得到每个局部编码向量的最终局部编码向量,将所有最终局部编码向量进行整合,得到局部特征的局部编码;
49、第二编码模块,用于基于头部分配向量,利用多头注意力模型对全局特征进行编码,得到多头注意力模型中每个头部对应的全局编码向量,并根据所有全局编码向量、所有头部对每个全局编码向量进行加权,得到每个全局编码向量的最终全局编码向量,将所有最终全局编码向量进行整合,得到全局特征的全局编码;
50、解码模块,用于对全局编码和每个局部编码进行解码,得到每帧图像对应的去噪图像,并将所有去噪图像进行拼接,得到扩散模型在时间步输出的去噪视频。
51、第三方面,本技术实施例提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,该处理器执行上述计算机程序时实现上述的基于扩散模型的视频处理方法。
52、第四方面,本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述的基于扩散模型的视频处理方法。
53、本技术的上述方案有如下的有益效果:
54、在本技术的实施例中,通过基于物理先验特征计算多头注意力模型的头部分配向量,考虑了目标视频的物理信息,使得头部分配向量的准确性和实际性提高;基于头部分配向量,利用多头注意力模型对局部特征进行编码,得到多头注意力模型中每个头部对应的局部编码向量,并根据所有局部编码向量、所有头部对每个局部编码向量进行加权,得到每个局部编码向量的最终局部编码向量,将所有最终局部编码向量进行整合,得到局部特征的局部编码,考虑了多头注意力模型中每个头部,通过进行加权对每个头部的输出进行更新,提高了局部编码向量的准确性,进而提高了局部编码的精确程度;对全局编码和每个局部编码进行解码,得到每帧图像对应的去噪图像,并将所有去噪图像进行拼接,得到目标视频的去噪视频,使得解码时考虑了目标视频的全局信息和局部信息,提高扩散模型输出的视频的质量。
55、本技术的其它有益效果将在随后的具体实施方式部分予以详细说明。
1.一种基于扩散模型的视频处理方法,其特征在于,包括:
2.根据权利要求1所述的视频处理方法,其特征在于,所述基于所述物理先验特征计算多头注意力模型的头部分配向量,包括:
3.根据权利要求1所述的视频处理方法,其特征在于,所述对所有局部特征进行聚合得到所述目标视频的全局特征,包括:
4.根据权利要求1所述的视频处理方法,其特征在于,所述根据所有局部编码向量、所有头部对每个所述局部编码向量进行加权,得到每个所述局部编码向量的最终局部编码向量,包括:
5.根据权利要求4所述的视频处理方法,其特征在于,所述根据所有局部编码向量对每个所述局部编码向量进行加权,得到每个所述局部编码向量的中间局部编码向量,包括:
6.根据权利要求4所述的视频处理方法,其特征在于,所述计算所述头部与每个其他头部之间的信息传递权重,包括:
7.根据权利要求6所述的视频处理方法,其特征在于,所述基于所有信息传递权重对所述头部对应的中间局部编码向量进行加权,得到每个所述局部编码向量的最终局部编码向量,包括:
8.根据权利要求1所述的视频处理方法,其特征在于,所述对所述全局编码和每个所述局部编码进行解码,得到每帧所述图像对应的去噪图像,包括:
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的基于多头注意力的视频处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的基于多头注意力的视频处理方法。