一种无声视频拟音方法、电子设备、存储介质与流程

    技术2025-02-14  57


    本发明涉及音频生成,尤其是涉及一种无声视频拟音方法、电子设备、存储介质。


    背景技术:

    1、电影、视频游戏等媒体中,音效是保证观众沉浸式视听体验的重要元素。再惊艳的视觉效果如果缺少有力的、贴切的声音,就难以传达出作品的情绪、完美的艺术表达。然而,在传统影视制作的过程中,由于拍摄现场通常比较嘈杂,而且有些声音(如心跳、针落到地上等)难以录制的原因,通常需要专业的拟音师在后期制作中添加符合画面内容的、同步的音效。

    2、人工的拟音过程是复杂、费力且耗时的。专业的拟音师通常需要首先收集相关的拟音道具,根据画面内容实时制造和录制声音,最后再将声音加入到视频中,并进行调整。

    3、现有的无声视频拟音方法存在如下缺点:

    4、(1)目前的方法生成的音频质量较差:对于基于模型生成无声视频的音频的方法,这类方法高度依赖高质量的训练数据来达到好的模型效果。然而,目前可利用的大规模视频-音频成对数据集通常是从互联网上以合法方式进行爬取,视频中的音频通常带有复杂的环境音、噪声,导致数据集中的音频质量较差,限制了模型学习后生成高质量音频的能力。

    5、(2)音画不同步:部分方法为了保证音频质量,依赖文生音频的基础模型构建两阶段模型进行音频生成。这类方法通过将视频信息映射到文本特征空间,来进行对无声视频的拟音。然而,由于视频信息到文本特征空间的映射存在信息损失,且模型的训练过程并非直接以最终的音频作为监督,导致生成的音频出现和视频画面不相关或者不同步的问题。

    6、综上,当前缺少一种无声视频拟音方法,以解决或部分解决前述问题。


    技术实现思路

    1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种无声视频拟音方法,以解决或部分解决音画不同步的问题。

    2、本发明的目的可以通过以下技术方案来实现:

    3、本发明的一个方面,提供了一种无声视频拟音方法,利用注入处理后的unet网络生成待拟音的无声视频的视频拟音,其中,所述注入处理包括如下步骤:

    4、针对所述无声视频和预先获取的提示词,分别进行特征提取得到视觉编码和文本编码;

    5、基于平行交叉注意力机制,将所述视觉编码和文本编码注入预先构建的unet网络的交叉注意力层;

    6、针对所述无声视频,通过事件发生检测得到事件发生信号;

    7、通过逐层残差添加的方式,将所述事件发生信号注入所述unet网络的解码器层。

    8、作为优选的技术方案,所述的将所述视觉编码和文本编码注入预先构建的unet网络的交叉注意力层的过程包括如下步骤:

    9、将所述文本编码输入unet网络的交叉注意力层,得到文本编码对应的注意力输出;

    10、将所述视觉编码输入可训练的基于视觉条件的交叉注意力层,得到视觉编码对应的注意力输出;

    11、将文本编码对应的注意力输出和视觉编码对应的注意力输出叠加,作为unet网络的交叉注意力层的最终输出。

    12、作为优选的技术方案,所述的基于视觉条件的交叉注意力层与unet网络的交叉注意力层的结构相同。

    13、作为优选的技术方案,通过对每个去噪步骤中的音频进行去噪并和样本的原始音频进行对比,基于如下优化目标函数实现交叉注意力层的训练:

    14、

    15、其中,表示损失函数值,∈表示该扩散过程所添加的噪声,∈θ表示可训练的噪声估计网络,t表示加噪时间步,zt表示加噪隐变量,tem和vemb分别表示文本编码和视觉编码,训练过程中,以预设的概率随机丢弃文本编码的信息。

    16、作为优选的技术方案,所述的将所述事件发生信号注入所述unet网络的解码器层的过程包括如下步骤:

    17、将所述事件发生信号和预设的因变量输入可训练的时序适配网络,得到编码后的信号,编码后的信号通过逐层残差添加的方式,注入到unet网络的解码器层。

    18、作为优选的技术方案,所述的时序适配网络通过散损失函数实现训练。

    19、作为优选的技术方案,基于所述无声视频,利用可训练的事件发生检测器得到事件发生信号,其中,所述事件发生检测器在训练过程中,基于人工标注好的二值的事件发生信号,通过计算二值交叉熵实现训练。

    20、作为优选的技术方案,所述的视觉编码的获取过程包括如下步骤:

    21、利用预训练好的多模态视觉编码器对所述无声视频进行提取,通过对各个视频帧的特征进行整合和映射,得到所述视觉编码。

    22、本发明的另一个方面,提供了一种电子设备,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行前所述无声视频拟音方法的指令。

    23、本发明的另一个方面,提供了一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行前述无声视频拟音方法的指令。

    24、与现有技术相比,本发明至少具有以下有益效果之一:

    25、(1)改善音画同步:针对当前方案存在的音画不同步的问题,本发明对无声视频进行事件发生检测得到事件发生信号,并以逐层残差添加的方式,将事件发生信号注入unet网络的解码器层,利用注入后的unet网络实现音频生成,通过引入事件发生信号,使得生成的音频能够符合事件发生信号,从而达到音画同步的效果。

    26、(2)实现文本控制的拟音生成:本发明在对unet网络进行注入处理的过程中,通过兼顾视频信息和文本信息,另外以预设概率随机丢弃文本输入信息,充分提取并成功向unet网络中注入视觉语义信息,不会影响视觉语义和文本语义共同融合来控制音频生成,实现在视频生成音频的过程中,能够用文本进行控制生成音频的相关性,并达到进一步编辑的效果。

    27、(3)高质量的音频生成:本发明基于高质量的文生音频模型进行构建,该模型通常在高质量的音频数据集上进行训练。因此,相比目前在视频-音频数据集上进行训练的视频拟音模型而言,本发明能够实现更高质量的音频生成效果。



    技术特征:

    1.一种无声视频拟音方法,其特征在于,利用注入处理后的unet网络生成待拟音的无声视频的视频拟音,其中,所述注入处理包括如下步骤:

    2.根据权利要求1所述的一种无声视频拟音方法,其特征在于,所述的将所述视觉编码和文本编码注入预先构建的unet网络的交叉注意力层的过程包括如下步骤:

    3.根据权利要求2所述的一种无声视频拟音方法,其特征在于,所述的基于视觉条件的交叉注意力层与unet网络的交叉注意力层的结构相同。

    4.根据权利要求2所述的一种无声视频拟音方法,其特征在于,通过对每个去噪步骤中的音频进行去噪并和样本的原始音频进行对比,基于如下优化目标函数实现交叉注意力层的训练:

    5.根据权利要求1所述的一种无声视频拟音方法,其特征在于,所述的将所述事件发生信号注入所述unet网络的解码器层的过程包括如下步骤:

    6.根据权利要求5所述的一种无声视频拟音方法,其特征在于,所述的时序适配网络通过散损失函数实现训练。

    7.根据权利要求1所述的一种无声视频拟音方法,其特征在于,基于所述无声视频,利用可训练的事件发生检测器得到事件发生信号,其中,所述事件发生检测器在训练过程中,基于人工标注好的二值的事件发生信号,通过计算二值交叉熵实现训练。

    8.根据权利要求1所述的一种无声视频拟音方法,其特征在于,所述的视觉编码的获取过程包括如下步骤:

    9.一种电子设备,其特征在于,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述无声视频拟音方法的指令。

    10.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述无声视频拟音方法的指令。


    技术总结
    本发明涉及一种无声视频拟音方法、电子设备、存储介质,方法利用注入处理后的Unet网络生成待拟音的无声视频的视频拟音,其中,注入处理包括如下步骤:针对所述无声视频和预先获取的提示词,分别进行特征提取得到视觉编码和文本编码;基于平行交叉注意力机制,将所述视觉编码和文本编码注入预先构建的Unet网络的交叉注意力层;针对所述无声视频,通过事件发生检测得到事件发生信号;通过逐层残差添加的方式,将所述事件发生信号注入所述Unet网络的解码器层。与现有技术相比,本发明具有改善音画同步、实现文本控制的拟音生成等优点。

    技术研发人员:曾艳红,张倚铭,顾毅骋,邢哲宁,王远程,武执政,陈恺
    受保护的技术使用者:上海人工智能创新中心
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-26481.html

    最新回复(0)