用于视频压缩的基于深度学习的图像分区的制作方法

技术2025-02-19 90

本原理涉及视频压缩的领域。

背景技术：

1、在hevc视频压缩标准(国际电信联盟，itu-t h.265高效视频编码)中，画面被划分为所谓的编码树单元(ctu)，其尺寸通常为64×64、128×128或256×256像素。

2、每个ctu由压缩域中的编码树表示。这是ctu的四叉树划分，其中每个叶子称为编码单元(cu)，如图1所示。

3、然后，每个cu被给予一些帧内或帧间预测参数(预测信息)。为此，将其在空间上分区为一个或多个预测单元(pu)，每个pu均分配有一些预测信息。在cu级别上分配帧内或帧间编码模式，参见图2。

4、根据在比特流中用信号通知的分区类型，进行将编码单元分区为(多个)预测单元。对于帧内编码单元，仅使用图3中所示的分区类型2n×2n和n×n。这意味着在帧内编码单元中仅使用方形预测单元。

5、相反，帧间编码单元可以使用图3所示的所有分区类型。

6、根据hevc标准，在“转换树”之后，编码单元也以递归的方式被划分成所谓的转换单元。因此，转换树是编码单元的四叉树划分，并且转换单元是转换树的叶子。转换单元封装与所考虑的方形空间区域相对应的每个画面分量的方形转换块。转换块是单个分量中样本的方形块，其中应用了相同的转换。

7、在"基于贝叶斯决策规则的hevc的快速编码单元尺寸选择(fast coding unitsize selection for hevc based on bayesian decision rule)"(在画面编码研讨会中；ieee会议记录，2012年5月7日)中，x.shen等人描述了贝叶斯决策规则，以通过率失真优化来协助决策编码器侧编码单元的拆分。但是，x.shen等人的建模，其在输入处获取每个编码单元确定的标量值的集合(例如，每个cu的运动向量)，并输出关于是否将cu拆分为4个子cu的概率决策，未能解决最新视频压缩工具所涉及的更复杂的分区问题。

8、新出现的视频压缩工具包括压缩域中的编码树单元表示，这允许在压缩域中以更灵活的方式表示画面数据。编码树的这种灵活表示的优点是，与hevc标准的cu/pu/tu布置相比，它提供了增加的压缩效率。

9、四叉树加二叉树(qtbt)编码工具提供了这种增加的灵活性。该编码工具在于编码树，其中编码单元既可以按四叉树也可以按二叉树方式拆分。编码树单元的这种编码树表示如图4所示。块上的qtbt表示如图5所示。

10、通过率失真优化过程在编码器侧决策编码单元的拆分，所述率失真优化过程在于以最小的率失真成本确定ctu的qtbt表示。

11、在qtbt技术中，cu具有方形或矩形形状。编码单元的尺寸始终为2的幂，并且通常为从4到256。

12、除了用于编码单元的各种矩形形状之外，与hevc相比，这种新的ctu表示具有以下不同的特性。

13、首先，ctu的qtbt分解由两个阶段组成：首先以四叉树的方式拆分ctu，然后可以以二进制方式进一步划分每个四叉树叶子。这在图4的右侧进行了说明，其中实线表示四叉树分解阶段，并且虚线表示空间嵌入在四叉树叶子中的二元分解。

14、其次，在帧内片段中，亮度和色度块分区结构是分开的，并且独立地决策。

15、接下来，不再采用cu分区为预测单元或转换单元。换句话说，每个编码单元系统地由单个预测单元(以前是2n×2n预测单元分区类型)和单个转换单元(不划分为转换树)组成。

16、但是，需要进一步改进的压缩效率用于qtbt技术。

技术实现思路

1、通过所描述的实施例中的至少一个，解决了现有技术的这些和其他缺陷和缺点，这些实施例针对用于对视频数据的块进行编码的方法和设备。在至少一个实施例中，提出了使用卷积神经网络来生成用于决策编码块的拆分的边界分区概率的向量。

2、根据本文所述的至少一个一般实施例，提供了一种用于对视频数据的块进行编码的方法。所述方法包括：使用卷积神经网络从至少一个输入数据生成用于图像数据块的边界可能性向量，输入数据包括用于所述图像数据块的运动向量场、和基于所述运动向量场的来自运动补偿的残差数据；使用所述边界可能性向量将所述图像数据块分区为一个或多个较小块；以及，编码所述一个或多个较小块。有利地，运动向量场包括用于所述图像数据块的每个基本子块的运动向量，并由此针对所述图像数据块的每个基本子块确定残差数据。

3、根据本文描述的另一一般实施例，提供了一种用于对视频数据块进行编码的设备。所述设备包括存储器和处理器，所述处理器被配置为：使用卷积神经网络从至少一个输入数据生成用于图像数据块的边界可能性向量，输入数据包括用于所述图像数据块的运动向量场、和基于所述运动向量场的来自运动补偿的残差数据；使用所述边界可能性向量将所述图像数据块分区为一个或多个较小分区；以及，编码所述一个或多个较小分区。

4、根据本文所述的另一方面，提供了一种非瞬态计算机可读储存介质，其包含根据所描述的方法实施例中的任一个的方法或由所描述的设备实施例中的任一个的设备所生成的数据内容，用于使用处理器进行回放。

5、根据本文描述的另一方面，提供了一种信号，包括根据用于编码视频数据块的所描述的方法实施例中的任一个的方法或由用于编码视频数据块的所描述的设备实施例中的任一个的设备生成的视频数据，用于使用处理器进行回放。

6、根据本文描述的另一方面，提供了一种包括指令的计算机程序产品，当由计算机执行程序时，所述指令促使计算机执行所描述的方法实施例中的任何一个的方法。

7、通过下面将结合附图阅读的示例性实施例的以下详细描述，本原理的这些和其他方面、特征和优点将变得清楚。

技术特征：

1.一种方法，包括：

2.一种用于对视频数据块进行编码的设备，包括：

3.根据权利要求1所述的方法或根据权利要求2所述的设备，其中所述输入数据还包括所述块的图像数据。

4.根据权利要求1或3所述的方法或根据权利要求2或3所述的设备，其中所述输入数据还包括针对多个参考图像中的每一个的多个运动向量场和残差数据，并且其中使用多个参考图像中的相应参考图像来获得多个运动向量场中的每个运动向量场。

5.根据权利要求1或3所述的方法或根据权利要求2或3所述的设备，其中针对参考图像来估计运动向量场，并且其中所述参考图像是用于重构所述编码块的解码画面缓冲器中的第一参考画面。

6.根据权利要求3所述的方法或根据权利要求3所述的设备，其中所述输入数据包括预测数据而不是残差数据，其中所述残差数据是从预测数据和原始图像数据获得的。

7.根据权利要求1、3-6中任一项所述的方法或根据权利要求2-6中任一项所述的设备，其中所述运动向量场的运动向量通过以下函数归一化：

8.根据权利要求1、3-6中任一项所述的方法或根据权利要求2-6中任一项所述的设备，其中所述残差通过以下函数归一化：

9.根据权利要求1、3-8中任一项所述的方法或根据权利要求2-8中任一项所述的设备，其中基本子块的尺寸为4×4。

10.根据权利要求1、3-9中的任一项所述的方法或根据权利要求2-9中的任一项所述的设备，其中，所述卷积神经网络包括卷积层和全连接层。

技术总结
本申请涉及用于视频压缩的基于深度学习的图像分区。通过使用经由使用基于深度学习的图像分区获得的分区选择，使用几种可能的分区操作中的一种或多种来拆分视频数据块。在至少一个实施例中，使用卷积神经网络在一个或多个拆分操作中拆分块。在另一实施例中，卷积神经网络的输入来自运动向量场和对应的残差。提供了用于编码的方法、设备、和信号实施例。

技术研发人员：F·加尔平,F·拉卡普,P·博尔德斯
受保护的技术使用者：交互数字VC控股公司
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-26751.html

专利

最新回复(0)