本申请涉及人工智能,更具体的,涉及一种视频摘要生成方法及相关装置。
背景技术:
1、面对海量视频,用户需要快速了解视频主要内容以决定是否观看,视频摘要技术应运而生。视频摘要技术通过提取视频中的关键片段,生成精炼的视频预览,用于提升视频浏览效率。
2、然而,目前视频摘要生成方法生成的视频摘要准确性较低,存在较大的改进空间。
技术实现思路
1、鉴于上述问题,本申请提供了一种视频摘要生成方法及相关装置,以实现提高视频摘要准确性的目的。具体方案如下:
2、本申请第一方面提供一种视频摘要生成方法,包括:
3、获取目标视频中每个视频片段的多模态视频表示;
4、根据每个所述视频片段的多模态视频表示构建马尔可夫决策过程,并利用强化学习算法求解使所述马尔可夫决策过程回报最大化的最优视频片段组合,所述马尔可夫决策过程中的状态空间包括多个视频片段组合、动作空间包括选择或不选择所述视频片段;
5、根据所述最优视频片段组合生成所述目标视频的视频摘要。
6、在一种可能的实现中,所述获取目标视频中每个视频片段的多模态视频表示,包括:
7、获取每个所述视频片段的多模态特征;
8、针对每个所述视频片段,利用多头注意力机制计算不同模态特征之间的注意力权重;
9、根据不同模态特征之间的注意力权重对多模态特征进行特征融合,得到融合后的多模态特征;
10、对融合后的多模态特征进行拼接,得到拼接特征;
11、将所述拼接特征映射到一个共同的语义空间,得到所述视频片段的多模态视频表示。
12、在一种可能的实现中,所述根据每个所述视频片段的多模态视频表示构建马尔可夫决策过程,并利用强化学习算法求解使所述马尔可夫决策过程回报最大化的最优视频片段组合,包括:
13、将每个所述视频片段的多模态视频表示输入到指针网络中,预测每个所述视频片段作为摘要起始位置的概率和作为摘要结束位置的概率;
14、将作为摘要起始位置概率最高的所述视频片段确定为起始视频片段,将作为摘要结束位置概率最高的所述视频片段确定为结束视频片段,得到所述多个视频片段组合;
15、根据所述多个视频片段组合构建马尔可夫决策过程,并利用强化学习算法求解使所述马尔可夫决策过程回报最大化的最优视频片段组合。
16、在一种可能的实现中,所述将每个所述视频片段的多模态视频表示输入到指针网络中,预测每个所述视频片段作为摘要起始位置的概率和作为摘要结束位置的概率,包括:
17、将每个所述视频片段的多模态视频表示输入到指针网络中的双向长短期记忆网络中,得到每个所述视频片段的上下文表示;
18、将每个所述视频片段的上下文表示输入到所述指针网络中的第一多层感知机,得到每个所述视频片段作为摘要起始位置的概率;
19、将每个所述视频片段的上下文表示输入到所述指针网络中的第二多层感知机,得到每个所述视频片段作为摘要结束位置的概率。
20、在一种可能的实现中,所述根据所述最优视频片段组合生成所述目标视频的视频摘要,包括:
21、根据所述最优视频片段组合构建基于图的整数规划模型,所述基于图的整数规划模型的全局目标函数表示选择的视频片段的重要性之和以及选择的视频片段之间相似度之和;
22、以所述全局目标函数最大化为优化目标求解所述全局目标函数,从所述最优视频片段组合中提取多个目标视频片段;
23、按照时间顺序对所述多个目标视频片段排序,得到所述目标视频的视频摘要。
24、在一种可能的实现中,在根据所述最优视频片段组合生成所述目标视频的视频摘要之后,还包括:
25、提取所述视频摘要的视觉特征和音频特征;
26、对所述视频摘要的视觉特征和音频特征进行特征融合,得到所述视频摘要的融合特征;
27、利用预先训练得到的摘要文本生成模型,将所述视频摘要的融合特征映射为自然语言描述,所述摘要文本生成模型包括编码器和解码器,利用视频描述数据集训练得到。
28、本申请第二方面提供一种视频摘要生成装置,包括:
29、多模态视频表示获取单元,用于获取目标视频中每个视频片段的多模态视频表示;
30、摘要片段提取单元,用于根据每个所述视频片段的多模态视频表示构建马尔可夫决策过程,并利用强化学习算法求解使所述马尔可夫决策过程回报最大化的最优视频片段组合,所述马尔可夫决策过程中的状态空间包括多个视频片段组合、动作空间包括选择或不选择所述视频片段;
31、摘要片段组织单元,用于根据所述最优视频片段组合生成所述目标视频的视频摘要。
32、本申请第三方面提供一种计算机程序产品,包括计算机可读指令,当所述计算机可读指令在电子设备上运行时,使得所述电子设备实现上述第一方面或第一方面任一实现方式的视频摘要生成方法。
33、本申请第四方面提供一种电子设备,包括至少一个处理器和与所述处理器连接的存储器,其中:
34、所述存储器用于存储计算机程序;
35、所述处理器用于执行所述计算机程序,以使所述电子设备能够实现上述第一方面或第一方面任一实现方式的视频摘要生成方法。
36、本申请第五方面提供一种计算机存储介质,所述存储介质承载有一个或多个计算机程序,当所述一个或多个计算机程序被电子设备执行时,能够使所述电子设备上述第一方面或第一方面任一实现方式的视频摘要生成方法。
37、借由上述技术方案,本申请提供的一种视频摘要生成方法及相关装置,在获取目标视频中每个视频片段的多模态视频表示之后,将从目标视频中多个视频片段中提取最优视频片段组合的过程建模为马尔可夫决策过程,兼顾视频片段的局部重要性和全局相干性,利用强化学习算法求解马尔可夫决策过程的最优策略,提取出由重要视频片段组成的更简洁、更连贯的最优视频片段组合,从而根据最优视频片段组合生成准确的视频摘要,提升视频摘要质量。
1.一种视频摘要生成方法,其特征在于,包括:
2.根据权利要求1所述的视频摘要生成方法,其特征在于,所述获取目标视频中每个视频片段的多模态视频表示,包括:
3.根据权利要求1所述的视频摘要生成方法,其特征在于,所述根据每个所述视频片段的多模态视频表示构建马尔可夫决策过程,并利用强化学习算法求解使所述马尔可夫决策过程回报最大化的最优视频片段组合,包括:
4.根据权利要求3所述的视频摘要生成方法,其特征在于,所述将每个所述视频片段的多模态视频表示输入到指针网络中,预测每个所述视频片段作为摘要起始位置的概率和作为摘要结束位置的概率,包括:
5.根据权利要求1所述的视频摘要生成方法,其特征在于,所述根据所述最优视频片段组合生成所述目标视频的视频摘要,包括:
6.根据权利要求1所述的视频摘要生成方法,其特征在于,在根据所述最优视频片段组合生成所述目标视频的视频摘要之后,还包括:
7.一种视频摘要生成装置,其特征在于,包括:
8.一种计算机程序产品,其特征在于,包括计算机可读指令,当所述计算机可读指令在电子设备上运行时,使得所述电子设备实现如权利要求1至6中任意一项所述的视频摘要生成方法。
9.一种电子设备,其特征在于,包括至少一个处理器和与所述处理器连接的存储器,其中:
10.一种计算机存储介质,其特征在于,所述存储介质承载有一个或多个计算机程序,当所述一个或多个计算机程序被电子设备执行时,能够使所述电子设备实现如权利要求1至6中任意一项所述的视频摘要生成方法。