多文本视频时序定位检索的长视频生成方法、系统和设备

    技术2025-12-19  12


    本技术涉及视频生成,特别涉及一种多文本视频时序定位检索的长视频生成方法、系统和设备。


    背景技术:

    1、长视频生成是一项基于给定的文本指引,生成连续的对应文本场景且具有较长时间段的视频内容的任务,视频内容长短需要明显长于只有一个场景的若干秒视频片段,其具有广泛的应用前景及价值。

    2、然而,现有的长视频生成方法主要基于已有的视频/图片数据来拟合函数损失,以训练出适用于视频生成的模型,内存占用随生成视频时长而增加。并且,由于模型存在对训练数据拟合不充分或者缺失的,生成视频内容容易出现忽视真实世界物理规律的情况(例如,桌子在走动)。此外,在视频连续性上,由于帧间内容的非连续/自然的过渡,生成视频内容的整体一致性目前仍然要弱于真实视频。

    3、因此,如何使用较少的内存、生成更加遵循物理规律的长视频,是亟待解决的技术问题。


    技术实现思路

    1、鉴于上述问题,本技术实施例提供了一种多文本视频时序定位检索的长视频生成方法、系统和设备,以便克服上述问题或者至少部分地解决上述问题。

    2、本技术实施例的第一方面,公开了一种多文本视频时序定位检索的长视频生成方法,所述方法包括:

    3、根据文本检索序列,从视频库中检索符合每段文本描述的目标视频片段,得到所述文本检索序列对应的多个目标视频片段,所述文本检索序列包括多段文本描述;

    4、将所述文本检索序列调整为相同主体和相同主题的新文本描述序列,并根据所述新文本描述序列对所述多个目标视频片段进行编辑处理,得到具有相同主体和相同主题的多个处理视频片段;

    5、根据相邻的前后两个处理视频段的噪声特征,将所述多个处理视频片段按照视频序列顺序进行平滑过渡衔接,得到长时序视频,所述视频序列顺序是根据所述新文本描述序列确定的,所述噪声特征表征处理视频的内容信息。

    6、可选地,根据文本检索序列,从视频库中检索符合每段文本描述的目标视频片段,包括:

    7、将所述文本检索序列中的每段文本描述转化为文本嵌入特征向量;

    8、按照预设时间长度,将所述视频库中的每个视频切分为多个视频片段,并对各视频片段进行特征提取,得到与所述文本嵌入特征向量维度相同的视频特征向量;

    9、将所述文本嵌入特征向量与所述视频特征向量进行匹配,得到与所述文本嵌入特征向量匹配的视频特征向量,并将所述匹配的视频特征向量对应的视频片段确定为符合文本描述的目标视频片段。

    10、可选地,将所述文本检索序列调整为相同主体和相同主题的新文本描述序列,包括:

    11、对所述文本检索序列中的每段文本描述逐个进行调整,得到相同主体和相同主题的多段文本描述;

    12、分别对所述多段文本描述添加相同的风格描述,得到相同主体的新文本描述序列。

    13、可选地,根据所述新文本描述序列对所述多个目标视频片段进行编辑处理,得到具有相同主体和相同主题的多个处理视频片段,包括:

    14、利用生成式扩散模型根据所述新文本描述序列中的新文本描述,依次对所述多个目标视频片段进行编辑处理,得到具有相同主体和相同主题的多个处理视频片段;

    15、其中,所述生成式扩散模型具备根据文本描述生成对应视频的能力。

    16、可选地,利用生成式扩散模型根据所述新文本描述序列中的新文本描述,依次对所述多个目标视频片段进行编辑处理,得到具有相同主体和相同主题的多个处理视频片段,包括:

    17、对所述目标视频片段中的每帧图像进行前向加噪处理,得到具有图像信息的噪声特征;

    18、根据所述新文本描述序列中对应的新文本描述,对所述噪声特征进行反向去噪处理,得到具有相同主体和相同主题的处理视频片段;

    19、按照上述方法对所述多个目标视频片段进行编辑,得到具有相同主体和相同主题的多个处理视频片段。

    20、可选地,根据所述新文本描述序列中对应的新文本描述,对所述噪声特征进行反向去噪处理,得到具有相同主体和相同主题的处理视频片段,包括:

    21、利用每帧图像的相邻帧图像的噪声特征,对每帧图像的噪声特征进行修正,得到修正后的噪声特征;

    22、根据所述修正后的噪声特征,得到修正后的每帧图像;

    23、根据所述修正后的图像,得到具有相同主体和相同主题的处理视频片段。

    24、可选地,根据相邻的前后两个处理视频段的噪声特征,将所述多个处理视频片段按照视频序列顺序进行平滑过渡衔接,得到长时序视频,包括:

    25、根据视频序列顺序,选取前一处理视频片段的最后一帧图像的第一噪声特征,以及,选取后一处理视频片段的第一帧图像的第二噪声特征;

    26、根据所述第一噪声特征和所述第二噪声特征进行加权处理,得到加权噪声特征序列;

    27、利用生成式扩散模型对所述加权噪声特征序列进行处理,生成中间帧图像序列;

    28、根据所述中间帧图像序列对所述前一处理视频片段和所述后一处理视频片段进行衔接,通过对所述多个处理视频片段的衔接得到长时序视频。

    29、可选地,所述生成式扩散模型是按照以下步骤训练的:

    30、构建训练数据集,所述训练数据集包括:目标主体的多张图像、每张图片的文本描述;

    31、利用所述训练数据集对所述生成式扩散模型进行训练,以使所述生成式扩散模型学习了目标主体的图像特征。

    32、本技术实施例的第二方面,公开了一种多文本视频时序定位检索的长视频生成系统,所述系统包括:

    33、视频检索模块,用于根据文本检索序列,从视频库中检索符合每段文本描述的目标视频片段,得到所述文本检索序列对应的多个目标视频片段,所述文本检索序列包括多段文本描述;

    34、视频编辑模块,用于将所述文本检索序列调整为相同主体和相同主题的新文本描述序列,并根据所述新文本描述序列对所述多个目标视频片段进行编辑处理,得到具有相同主体和相同主题的多个处理视频片段;

    35、视频衔接模块,用于根据相邻的前后两个处理视频段的噪声特征,将所述多个处理视频片段按照视频序列顺序进行平滑过渡衔接,得到长时序视频,所述视频序列顺序是根据所述新文本描述序列确定的,所述噪声特征表征处理视频的内容信息。

    36、本技术实施例的第三方面,公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本技术实施例第一方面所述的多文本视频时序定位检索的长视频生成方法的步骤。

    37、本技术实施例包括以下优点:

    38、在本技术实施例中,根据文本检索序列,从视频库中检索符合每段文本描述的目标视频片段,得到所述文本检索序列对应的多个目标视频片段,所述文本检索序列包括多段文本描述;将所述文本检索序列调整为相同主体的新文本描述序列,并根据所述新文本描述序列对所述多个目标视频片段进行编辑处理,得到具有相同主体和相同主题的多个处理视频片段;根据相邻的前后两个处理视频段的噪声特征,将所述多个处理视频片段按照视频序列顺序进行平滑过渡衔接,得到长时序视频,所述视频序列顺序是根据所述新文本描述序列确定的,所述噪声特征表征处理视频的内容信息。

    39、本技术实施例通过从视频库中检索符合文本描述的目标视频片段,使用已有视频片段来生成长视频,加强了生成视频对现实世界物理规律的遵循;根据相同主体的新文本描述序列对多个目标视频片段进行编辑,保持了处理视频片段与原始真实视频(即目标视频)相近的视频内容一致性,从而分段生成了主体、视频内容风格一致的视频内容(即处理视频片段),以用于生成长时序视频。并且,噪声特征表征处理视频的内容信息,基于噪声特征对处理视频进行衔接使得不同处理视频之间具有更好的连续性。

    40、由于本技术实施例是对视频片段进行处理,通过多段内容组合过渡完成长时序视频生成,因而该方法通过对时序视频生成任务进行了有效的分段处理,其内存占用并不随视频长度增加而增长,全过程始终保持了较低的内存占用开销,相较于其他内存占用随视频生成长度增加而扩大的长视频生成方法表现出了更强的泛用性。如此,本技术实施例提供的多文本视频时序定位检索的长视频生成方法使用较少的内存、生成更加遵循物理规律的长时序视频。


    技术特征:

    1.一种多文本视频时序定位检索的长视频生成方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于,根据文本检索序列,从视频库中检索符合每段文本描述的目标视频片段,包括:

    3.根据权利要求1所述的方法,其特征在于,将所述文本检索序列调整为相同主体和相同主题的新文本描述序列,包括:

    4.根据权利要求1所述的方法,其特征在于,根据所述新文本描述序列对所述多个目标视频片段进行编辑处理,得到具有相同主体和相同主题的多个处理视频片段,包括:

    5.根据权利要求4所述的方法,其特征在于,利用生成式扩散模型根据所述新文本描述序列中的新文本描述,依次对所述多个目标视频片段进行编辑处理,得到具有相同主体和相同主题的多个处理视频片段,包括:

    6.根据权利要求5所述的方法,其特征在于,根据所述新文本描述序列中对应的新文本描述,对所述噪声特征进行反向去噪处理,得到具有相同主体和相同主题的处理视频片段,包括:

    7.根据权利要求1所述的方法,其特征在于,根据相邻的前后两个处理视频段的噪声特征,将所述多个处理视频片段按照视频序列顺序进行平滑过渡衔接,得到长时序视频,包括:

    8.根据权利要求4-6任一所述的方法,其特征在于,所述生成式扩散模型是按照以下步骤训练的:

    9.一种多文本视频时序定位检索的长视频生成系统,其特征在于,所述系统包括:

    10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-8任一项所述的多文本视频时序定位检索的长视频生成方法的步骤。


    技术总结
    本申请提供了一种多文本视频时序定位检索的长视频生成方法、系统和设备,该方法包括:根据文本检索序列,从视频库中检索符合每段文本描述的目标视频片段,得到文本检索序列对应的多个目标视频片段,所述文本检索序列包括多段文本描述;将文本检索序列调整为相同主体和相同主题的新文本描述序列,并根据所述新文本描述序列对所述多个目标视频片段进行编辑处理,得到具有相同主体和相同主题的多个处理视频片段;根据相邻的前后两个处理视频段的噪声特征,将所述多个处理视频片段按照视频序列顺序进行平滑过渡衔接,得到长时序视频,所述视频序列顺序是根据所述新文本描述序列确定的。如此,使用较少的内存、生成更加遵循物理规律的长时序视频。

    技术研发人员:朱文武,王鑫,冯惟
    受保护的技术使用者:清华大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-38254.html

    最新回复(0)