视频处理方法、装置、设备及计算机可读存储介质与流程

技术2025-01-16 61

本申请涉及视频业务，尤其涉及一种视频处理方法、装置、设备及计算机可读存储介质。

背景技术：

1、随着计算机技术的不断发展和进步，基于面部图像例如人脸的图像处理技术已经从二维发展到三维，由于基于三维的图像处理的真实感更强而得到了广泛关注，且对三维人脸进行驱动(简称为人脸驱动)是三维图像处理领域的一个重要应用。

2、然而，相关技术中的人脸驱动方法，仅支持单一类型的驱动信息，比如文本信息、语音信息、人脸三维形变统计模型(3dmm，3d morphable face models)表情系数中的任一类型的驱动信息，如果切换成其他类型的驱动信息，则需要对整个重建的驱动模型进行重新训练，训练成本高、耗时较长。

技术实现思路

1、为解决相关技术中存在的技术问题，本申请实施例提供一种视频处理方法、装置、设备及计算机可读存储介质。

2、为达到上述目的，本申请实施例的技术方案是这样实现的：

3、第一方面，本申请实施例提供了一种视频处理方法，所述方法包括：

4、获取原始视频数据和目标驱动信息；所述原始视频数据包括至少一个视频帧，每个所述视频帧包含至少一个面部图像；

5、将所述原始视频数据和目标驱动信息输入至预先训练的驱动模型中，得到目标视频数据；所述目标视频数据为基于所述原始视频数据合成的面部动态视频图像，所述驱动模型支持多种模态的驱动信息；所述目标驱动信息为所述多种模态的驱动信息中的至少一种；

6、其中，所述驱动模型包括第一网络模型和第二网络模型，所述第一网络模型包括所述多种模态的驱动信息对应的编码器网络和第一空间；在所述面部图像驱动的过程中，所述第二网络模型的参数和所述第一空间的基底固定，所述编码器网络的参数基于所述目标驱动信息的类型从预设的多组参数中确定得到。

7、第二方面，本申请实施例还提供了一种视频处理装置，包括：

8、获取单元，用于获取原始视频数据和目标驱动信息；所述原始视频数据包括至少一个视频帧，每个所述视频帧包含至少一个面部图像；

9、生成单元，用于将所述原始视频数据和目标驱动信息输入至预先训练的驱动模型中，得到目标视频数据；所述目标视频数据为基于所述原始视频数据合成的面部动态视频图像，所述驱动模型支持多种模态的驱动信息；所述目标驱动信息为所述多种模态的驱动信息中的至少一种；

10、其中，所述驱动模型包括第一网络模型和第二网络模型，所述第一网络模型包括所述多种模态的驱动信息对应的编码器网络和第一空间；在所述面部图像驱动的过程中，所述第二网络模型的参数和所述第一空间的基底固定，所述编码器网络的参数基于所述目标驱动信息的类型从预设的多组参数中确定得到。

11、第三方面，本申请实施例还提供了一种视频处理设备，包括：

12、通信接口，用于获取原始视频数据和目标驱动信息；所述原始视频数据包括至少一个视频帧，每个所述视频帧包含至少一个面部图像；

13、处理器，用于将所述原始视频数据和目标驱动信息输入至预先训练的驱动模型中，得到目标视频数据；所述目标视频数据为基于所述原始视频数据合成的面部动态视频图像，所述驱动模型支持多种模态的驱动信息；所述目标驱动信息为所述多种模态的驱动信息中的至少一种；

14、其中，所述驱动模型包括第一网络模型和第二网络模型，所述第一网络模型包括所述多种模态的驱动信息对应的编码器网络和第一空间；在所述面部图像驱动的过程中，所述第二网络模型的参数和所述第一空间的基底固定，所述编码器网络的参数基于所述目标驱动信息的类型从预设的多组参数中确定得到。

15、第四方面，本申请实施例还提供了一种视频处理设备，包括：处理器和用于存储能够在所述处理器上运行的计算机程序的存储器；

16、其中，所述处理器用于运行所述计算机程序时，执行本申请实施例所述的视频处理方法的步骤。

17、第五方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例所述的视频处理方法的步骤。

18、本申请实施例提供的视频处理方法、装置、设备及计算机可读存储介质，获取原始视频数据和目标驱动信息；所述原始视频数据包括至少一个视频帧，每个所述视频帧包含至少一个面部图像；将所述原始视频数据和目标驱动信息输入至预先训练的驱动模型中，得到目标视频数据；所述目标视频数据为基于所述原始视频数据合成的面部动态视频图像，所述驱动模型支持多种模态的驱动信息；所述目标驱动信息为所述多种模态的驱动信息中的至少一种；其中，所述驱动模型包括第一网络模型和第二网络模型，所述第一网络模型包括所述多种模态的驱动信息对应的编码器网络和第一空间；在所述面部图像驱动的过程中，所述第二网络模型的参数和所述第一空间的基底固定，所述编码器网络的参数基于所述目标驱动信息的类型从预设的多组参数中确定得到。采用本申请实施例的方法，驱动模型基于第一网络模型和第二网络模型支持多种模态的驱动信息，从而合成面部动态视频图像，且在面部图像驱动的过程中，当需要切换成其他类型的目标驱动信息的情况下，只需要固定驱动模型中的第二网络模型的参数和第一空间的基底，单独训练一个待切换的目标驱动信息对应的编码器网络，而该编码器网络的参数是基于待切换的目标驱动信息的类型从预设的多组参数中确定得到的，而无需对整个重建的驱动模型进行重新训练，有效降低了模型训练过程的运算成本及时间成本。

技术特征：

1.一种视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标驱动信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述原始视频数据和目标驱动信息输入至预先训练的驱动模型中，得到目标视频数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标参数和所述驱动模型，生成所述目标视频数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标投影系数，确定目标投影特征，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于所述目标投影系数，确定目标投影特征，包括：

7.根据权利要求4所述的方法，其特征在于，所述基于所述目标投影特征和所述第二网络模型，生成所述目标视频数据，包括：

8.根据权利要求7所述的方法，其特征在于，所述第二网络模型包括第一感知器网络和第二感知器网络，所述特征参数至少包括以下之一：密度值；颜色值；其中，

9.根据权利要求4所述的方法，其特征在于，在所述将所述目标驱动信息和目标体素特征输入至所述目标参数对应的编码器网络中，得到相应的目标投影系数之前，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述利用预先构建的三维空间特征网格，查询与所述特征采样点对应的体素特征，包括：

11.一种视频处理装置，其特征在于，包括：

12.一种视频处理设备，其特征在于，包括：

13.一种视频处理设备，其特征在于，包括：处理器和用于存储能够在所述处理器上运行的计算机程序的存储器；

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10任一项所述方法的步骤。

技术总结
本申请公开了一种视频处理方法、装置、设备及计算机可读存储介质。其中，所述方法包括：获取原始视频数据和目标驱动信息；将所述原始视频数据和目标驱动信息输入至预先训练的驱动模型中，得到目标视频数据；所述驱动模型支持多种模态的驱动信息；所述目标驱动信息为所述多种模态的驱动信息中的至少一种；其中，所述驱动模型包括第一网络模型和第二网络模型，所述第一网络模型包括所述多种模态的驱动信息对应的编码器网络和第一空间；在所述面部图像驱动的过程中，所述第二网络模型的参数和所述第一空间的基底固定，所述编码器网络的参数基于所述目标驱动信息的类型从预设的多组参数中确定得到。

技术研发人员：谢柠蔚,李杰
受保护的技术使用者：中国移动通信有限公司研究院
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-25066.html

专利

最新回复(0)