轻量化可部署的光流估计方法、系统、设备及存储介质与流程

    技术2024-11-22  50


    本发明涉及光流估计,尤其涉及一种轻量化可部署的光流估计方法、系统、设备及存储介质。


    背景技术:

    1、在视频编解码领域,运动向量(mv)估计是一项关键技术,用于预测视频帧之间的运动信息,以实现高效的视频压缩和传输。传统的视频编解码标准(如h.265/avc)通常采用运动向量来描述帧间的运动,以减少视频数据的冗余性。然而,传统的运动向量估计方法往往具有计算复杂度高、存储需求大等问题,尤其是对于高分辨率视频和实时应用场景,存在着挑战。

    2、随着深度学习技术的发展,基于卷积神经网络(cnn)的光流估计方法逐渐成为一种重要的替代方案。这些方法利用深度学习模型从图像序列中学习到的特征来进行光流估计,具有更好的性能和更低的计算复杂度。然而,现有的光流估计模型往往较大,占用大量的存储空间和计算资源,限制了它们在资源受限的设备上的部署和应用。

    3、因此,有必要提出一种新颖的、轻量级的光流估计模型,以实现在保持高性能的同时,显著减小模型的大小和计算复杂度。


    技术实现思路

    1、本发明的目的是提供一种轻量化可部署的光流估计方法、系统、设备及存储介质,可以提升训练效果,并能够有效地处理不同尺度的运动;而且,通过纯卷积运算,不仅能够更有效地捕捉图像序列中的时空信息,保证高性能,而且提高网络的简洁性和效率,有利于实际部署、

    2、本发明的目的是通过以下技术方案实现的:

    3、一种轻量化可部署的光流估计方法,包括:

    4、构建用于光流估计的卷积神经网络,其包含编码部分与解码部分;

    5、训练卷积神经网络:输入原始参考帧与当前帧对应的luma图至编码部分,将二者拼接后,提取出不同分辨率的语义特征,最后一个分辨率的语义特征输入至解码部分,在解码部分上采样后与编码部分相同分辨率的语义特征拼接,并继续进行上采样再与编码部分相同分辨率的语义特征拼接,不断重复,最终生成亚像素级别的预测光流图;结合所述预测光流图构建损失函数,并过滤掉运动大于设定像素位置的损失,利用过滤后的损失函数优化所述卷积神经网络的参数;

    6、训练完毕后,输入原始参考帧与当前帧对应的luma图,生成设定的两种不同分辨率的预测光流图,使用较大分辨率的预测光流图与给定运动阈值筛选出两个不同大小的有运动区域,将较大运动区域使用较小分辨率的预测光流图,将较小运动区域使用较大分辨率的预测光流图,再拼接为最终的运动向量预测结果。

    7、一种轻量化可部署的光流估计系统,包括:

    8、网络构建单元,用于构建用于光流估计的卷积神经网络,其包含编码部分与解码部分;

    9、网络训练单元,用于训练卷积神经网络:输入原始参考帧与当前帧对应的luma图至编码部分,将二者拼接后,提取出不同分辨率的语义特征,最后一个分辨率的语义特征输入至解码部分,在解码部分上采样后与编码部分相同分辨率的语义特征拼接,并继续进行上采样再与编码部分相同分辨率的语义特征拼接,不断重复,最终生成亚像素级别的预测光流图;结合所述预测光流图构建损失函数,并过滤掉运动大于设定像素位置的损失,利用过滤后的损失函数优化所述卷积神经网络的参数;

    10、光流估计单元,用于在训练完毕后,输入原始参考帧与当前帧对应的luma图,生成设定的两种不同分辨率的预测光流图,使用较大分辨率的预测光流图与给定运动阈值筛选出两个不同大小的有运动区域,将较大运动区域使用较小分辨率的预测光流图,将较小运动区域使用较大分辨率的预测光流图,再拼接为最终的运动向量预测结果。

    11、一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;

    12、其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。

    13、一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。

    14、由上述本发明提供的技术方案可以看出,1)小运动训练,两阶段大运动融合测试:传统的光流估计模型通常会同时训练小运动和大运动,但这往往会增加网络模型的复杂性和计算成本,本发明采用了一种创新的训练策略,仅训练网络以捕捉小运动,而将大运动的估计留给后续的两阶段融合测试阶段,这种分阶段的设计既提高了训练效率,又能够有效地处理不同尺度的运动;2)不需要构建显式的前后帧相关性:传统的光流估计方法通常需要显式地构建前后帧之间的相关性,例如通过光流约束等方法,然而,本发明采用了一种创新的方法,通过纯卷积运算来直接从图像序列中学习特征,而无需显式地建模前后帧之间的关系,这种方法简化了模型的设计和实现,并且能够更有效地捕捉图像序列中的时空信息;3)本发明所采用的纯卷积运算策略进一步提高了模型的简洁性和效率,网络不借助任何transformer(变换神经网络)以及注意力等硬件不友好的算子,在部署方面有着很大的优势。



    技术特征:

    1.一种轻量化可部署的光流估计方法,其特征在于,包括:

    2.根据权利要求1所述的一种轻量化可部署的光流估计方法,其特征在于,结合所述预测光流图构建损失函数包括:

    3.根据权利要求1所述的一种轻量化可部署的光流估计方法,其特征在于,所述过滤掉运动大于设定像素位置的损失包括:

    4.根据权利要求1所述的一种轻量化可部署的光流估计方法,其特征在于,所述输入原始参考帧与当前帧对应的luma图,生成设定的两种不同分辨率的预测光流图包括:

    5.一种轻量化可部署的光流估计系统,其特征在于,包括:

    6.根据权利要求5所述的一种轻量化可部署的光流估计系统,其特征在于,结合所述预测光流图构建损失函数包括:

    7.根据权利要求5所述的一种轻量化可部署的光流估计系统,其特征在于,所述过滤掉运动大于设定像素位置的损失包括:

    8.根据权利要求5所述的一种轻量化可部署的光流估计方法,其特征在于,所述输入原始参考帧与当前帧对应的luma图,生成设定的两种不同分辨率的预测光流图包括:

    9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;

    10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~4任一项所述的方法。


    技术总结
    本发明公开了一种轻量化可部署的光流估计方法、系统、设备及存储介质,采用了一种创新的训练策略,仅训练网络以捕捉小运动,而将大运动的估计留给后续的两阶段融合测试阶段,这种分阶段的设计既提高了训练效率,又能够有效地处理不同尺度的运动;并且,采用了一种创新的方法,通过纯卷积运算来直接从图像序列中学习特征,而无需显式地建模前后帧之间的关系,这种方法简化了模型的设计和实现,并且能够更有效地捕捉图像序列中的时空信息;同时,本发明所采用的纯卷积运算策略进一步提高了模型的简洁性和效率,网络不借助任何Transformer(变换神经网络)以及注意力等硬件不友好的算子,在部署方面有着很大的优势。

    技术研发人员:张程,张子文,冯溢,吴盛园,武祥吉,周胜辉
    受保护的技术使用者:上海双深信息技术有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-22452.html

    最新回复(0)