基于参考质量自适应的可学习视频编码方法与系统与流程

    技术2025-01-08  58


    本发明涉及视频编码,尤其涉及一种基于参考质量自适应的可学习视频编码方法与系统。


    背景技术:

    1、视频作为一种多媒体数据形式,在广播电视、手机直播、道路监控、智慧城市等领域被广泛应用。对于一个分辨率为1080p(p表示逐行扫描)、每秒30帧的视频,其数据量可以达到每秒180mbytes(兆字节)。庞大的数据量,造成了巨大的视频的传输与存储代价。因此,在传输与存储前,通常需要压缩视频的大小,将视频编码为更紧凑的码流,以减小其传输与存储代价。

    2、可学习视频编码(learned video coding,可学习视频编码)相关介绍:传统视频编码标准,如h.264/avc(advanced video coding,先进视频编码)、h.265/hevc(highefficiency video coding,高效视频编码)、h.266/vvc(versatile video coding,通用视频编码),大都采用基于块的混合编码框架,包含基于块的运动预测、运动补偿、变换、量化、熵编码等模块。尽管传统视频编码标准已取得了巨大的成功,但其编码性能也陷入瓶颈,想要取得更大的编码性能也愈加困难。近年来,基于神经网络的可学习视频编码方法开启了一个新的方向,为取得更大的编码性能带来了希望。可学习的视频编码方法利用神经网络实现了传统混合编码框架中的各个编码模块,利用率失真(rdo)函数,联合训练所有编码模块。

    3、目前,已有的可学习条件编码方法主要可以分为两类,包括基于残差编码的方法和基于条件编码的方法。

    4、这两类方法的共同点在于都需要运动预测和运动补偿。运动预测通常将当前待编码帧和参考帧送入运动估计网络,例如光流网络,得到当前帧和参考帧之间运动的矢量,例如光流(包含了当前帧的每个像素的运动矢量)。预测得到的运动矢量需要经过编码解码,在可学习的视频编码方法中,常用自编码器实现运动矢量的编码和解码,运动编码器将预测的运动矢量压缩为码流,运动解码器将码流解码为重建的运动矢量。运动补偿指得到重建的运动矢量后,需要利用参考帧,得到当前待编码帧的预测。

    5、这两类方法的主要区别在于:经运动预测、运动补偿后,残差编码方法(lu,g.,ouyang,w.,xu,d.,zhang,x.,cai,c.,&gao,z.(2019).dvc:an end-to-end deep videocompression framework.in proceedings of the ieee/cvf conference on computervision and pattern recognition(pp.11006-11015).)将当前待编码视频帧和预测帧相减得到残差,以减少时域冗余,然后用另一个自编码器的编码网络编码残差,得到残差的隐变量,隐变量再经熵编码得到码流。在解码器中,熵解码器将码流重新解码为残差的隐变量,自编码器的解码网络将隐变量解码为残差后再加上预测帧,得到重建帧。除了像素域的残差编码,hu等人(hu,z.,lu,g.,&xu,d.(2021).fvc:a new framework towards deepvideo compression in feature space.in proceedings of the ieee/cvf conferenceon computer vision and pattern recognition(pp.1502-1511).)还提出了特征域的残差编码,先对原始待编码视频帧和参考帧提取深度特征,然后在特征域进行运动预测和运动补偿,然后编码当前帧的深度特征和预测帧的深度特征的残差。

    6、对于条件的编码方法,li(li,j.,li,b.,&lu,y.(2021).deep contextual videocompression[dcvc].advances in neural information processing systems,34,18114-18125.)等人提出了dcvc可学习视频编码方法,在该方法中,得到预测帧后,将预测帧送入神经网络提取深度特征,作为上下文特征,和待编码帧一起送入(常见的方式为在通道维度级联concatenate)自编码器的编码网络中,不显式地计算残差,而是让编码网络自动地学习减少时域冗余,编码网络将输入帧编码为隐变量,再利用熵编码器,将隐变量无损地编码为码流。在解码端,熵解码器将码流无损地解码为隐变量,自编码器的解码网络将隐变量解码为重建帧。在解码网络获得重建帧前,再把上下文特征送入(常见的方式为在通道维度级联concatenate)解码网络中。sheng等人(sheng,x.,li,j.,li,b.,li,l.,liu,d.,&lu,y.(2022).temporal context mining for learned video compression.ieeetransactions on multimedia.)在dcvc的基础上还提出dcvc-tcm可学习视频编码方法,该方法提出了特征域的运动补偿,将获得上一帧的重建帧之前的解码网络的中间特征作为编码下一帧的参考特征,利用重建光流对参考特征进行特征域的运动补偿,得到预测特征,然后从预测特征提取多尺度的上下文特征。在编码网络编码和解码网络解码的过程中,将多尺度的上下文特征以条件编码的方式送入编码网络和解码网络中,以此利用时域相关性,减小时域冗余。li等人(li,j.,li,b.,&lu,y.(2022,october).hybrid spatial-temporalentropy modelling for neural video compression.in proceedings of the 30th acminternational conference on multimedia(pp.1503-1511),提出了dcvc-hem可学习视频编码方法,该方法沿用了dcvc-tcm的特征域运动补偿和多尺度上下文特征的技术,并在此基础上进一步加入了混合时空熵模型。li等人(li,j.,li,b.,&lu,y.(2023).neural videocompression with diverse contexts.in proceedings of the ieee/cvf conferenceon computer vision and pattern recognition(pp.22616-22626).)在dcvc-hem的基础上进一步提出了dcvc-dc可学习视频编码方法,该方法提出了基于四叉树划分的混合时空域熵模型,大幅提升了可学习视频编码方法的编码性能,让其编码性能超越了传统视频编码标准h.266/vvc的参考软件。sheng等人(sheng,x.,li,l.,liu,d.,&li,h.(2024).spatial decomposition and temporal fusion based inter prediction for learnedvideo compression.ieee transactions on circuits and systems for videotechnology.)又在dcvc-dc的基础上提出了基于空间分解和时域融合的帧间预测技术,有效地解决了可学习视频编码方案无法为存在不一致运动的区域和存在运动遮挡的区域得到准确的帧间预测的问题,进一步提升了可学习视频编码的编码性能。

    7、在以上介绍的可学习视频编码方法中,重建视频的失真不仅来自于量化,还来自于有损变换。在编码视频时,基于神经网络的非线性变换引入了一种隐式的量化,隐式量化的程度不仅受到了损失函数中的拉格朗日乘子λ的影响,还受到了参考信息的质量的影响。换言之,基于神经网络的非线性变换网络需要适应不同的质量的参考信息,以达到拉格朗日乘子λ控制的重建视频质量。然而,现有可学系视频编码方法中难以有效适应不同质量的参考信息,以至于难以达到拉格朗日乘子λ控制的重建视频质量。

    8、有鉴于此,特提出本发明。


    技术实现思路

    1、本发明的目的是提供一种基于参考质量自适应的可学习视频编码方法与系统,能够在保证重建视频质量的前提下,提升视频特别是超高清视频的压缩效率,具有广泛应用的潜力。

    2、本发明的目的是通过以下技术方案实现的:

    3、一种基于参考质量自适应的可学习视频编码方法,包括:

    4、步骤1、对输入的当前待编码帧与对应的参考帧进行运动估计,获得运动矢量;

    5、步骤2、对所述运动矢量进行运动编码与运动解码,获得重建运动获得重建运动矢量;

    6、步骤3、结合所述重建运动矢量以及当前待编码帧对应的参考特征,挖掘出多尺度的时域上下文;

    7、步骤4、利用所述多尺度时域上下文以及对应的参考帧对当前待编码帧进行上下文编码,获得视频码流;利用所述多尺度时域上下文以及对应的参考帧对视频码流进行上下文解码,获得不完全解码的特征;其中,上下文编码与上下文解码时,引入参考质量自适应模块,它利用所述参考帧学习一组空间变化的滤波器,滤波器再和上下文编码或上下文解码的中间特征进行卷积,实现上下文编码器和上下文解码器根据参考帧的质量的自适应调节;

    8、步骤5、对所述不完全解码的特征进行变换,获得下一待编码帧对应的参考帧及参考特征。

    9、一种基于参考质量自适应的可学习视频编码系统,包括基于参考质量自适应的可学习视频编码模型,通过基于参考质量自适应的可学习视频编码模型进行视频编码,所述基于参考质量自适应的可学习视频编码模型包括:

    10、运动估计模块,用于对输入的当前待编码帧与对应的参考帧进行运动估计,获得运动矢量;

    11、运动矢量编解码网络,用于对所述运动矢量进行运动编码与运动解码,获得重建运动获得重建运动矢量;

    12、时域上下文挖掘模块,用于结合所述重建运动矢量以及当前待编码帧对应的参考特征,挖掘出多尺度的时域上下文;

    13、嵌入参考质量自适应模块的上下文编解码网络,用于利用所述多尺度时域上下文以及对应的参考帧对当前待编码帧进行上下文编码,获得视频码流;利用所述多尺度时域上下文以及对应的参考帧对视频码流进行上下文解码,获得不完全解码的特征;其中,上下文编码与上下文解码时,引入参考质量自适应模块,它利用所述参考帧学习一组空间变化的滤波器,滤波器再和上下文编码器或上下文解码器的中间特征进行卷积,实现上下文编码和上下文解码根据参考帧的质量的自适应调节;

    14、帧生成器,用于对所述不完全解码的特征进行变换,获得下一待编码帧对应的参考帧及参考特征。

    15、一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;

    16、其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。

    17、一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。

    18、由上述本发明提供的技术方案可以看出,通过在上下文编码时引入参考质量自适应模块,它先从输入的参考帧学习一组空间变化的滤波器,这组滤波器再和上下文编码器或上下文解码器的中间特征做卷积,实现上下文编码器和上下文解码器根据参考帧的质量的自适应调节,使得可学习视频编码方法能够适应不同质量的参考帧,以达到目标重建帧质量的目的,获得最佳的编码性能。


    技术特征:

    1.一种基于参考质量自适应的可学习视频编码方法,其特征在于,包括:

    2.根据权利要求1所述的一种基于参考质量自适应的可学习视频编码方法,其特征在于,

    3.根据权利要求1所述的一种基于参考质量自适应的可学习视频编码方法,其特征在于,所述结合所述重建运动矢量以及当前待编码帧对应的参考特征,挖掘出多尺度的时域上下文包括:

    4.根据权利要求1所述的一种基于参考质量自适应的可学习视频编码方法,其特征在于,所述利用所述多尺度时域上下文以及对应的参考帧对当前待编码帧进行上下文编码,获得视频码流包括:

    5.根据权利要求1所述的一种基于参考质量自适应的可学习视频编码方法,其特征在于,所述利用所述多尺度时域上下文以及对应的参考帧对视频码流进行上下文解码,获得不完全解码的特征包括:

    6.根据权利要求1所述的一种基于参考质量自适应的可学习视频编码方法,其特征在于,所述对所述不完全解码的特征进行变换,获得下一待编码帧对应的参考帧及参考特征包括:

    7.根据权利要求1~6任一项所述的一种基于参考质量自适应的可学习视频编码方法,其特征在于,所述步骤1通过运动估计模块实现,步骤2通过运动矢量编解码网络实现,步骤3通过时域上下文挖掘模块实现,步骤4通过嵌入参考质量自适应模块的上下文编解码网络实现,步骤5通过帧生成器实现;它们共同组成基于参考质量自适应的可学习视频编码模型;

    8.一种基于参考质量自适应的可学习视频编码系统,其特征在于,包括基于参考质量自适应的可学习视频编码模型,通过基于参考质量自适应的可学习视频编码模型进行视频编码,所述基于参考质量自适应的可学习视频编码模型包括:

    9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;

    10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。


    技术总结
    本发明公开了一种基于参考质量自适应的可学习视频编码方法与系统,通过在上下文编码时引入参考质量自适应模块,它先从输入的参考帧学习一组空间变化的滤波器,这组滤波器再和上下文编码器或上下文解码器的中间特征做卷积,实现上下文编码器和上下文解码器根据参考帧的质量的自适应调节,使得可学习视频编码方法能够适应不同质量的参考帧,以达到目标重建帧质量的目的,获得最佳的编码性能。

    技术研发人员:李礼,盛锡华,刘东,李厚强,宋小民,刘征,郑慧明
    受保护的技术使用者:四川国创新视超高清视频科技有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-24788.html

    最新回复(0)