一种基于基因学习模型的曲艺视频标注方法

    技术2025-09-14  36


    本发明涉及计算机视觉,具体为一种基于基因学习模型的曲艺视频标注方法。


    背景技术:

    1、传统曲艺以活态载体(人)现场的演唱或演奏为主,同时通过表演者与当地风俗礼仪形成的精神文化场来传递知识、价值、情感,是十分珍贵的不可再生资源,由此需要对这类资源实施一定的保护措施,对曲艺进行录像并将视频进行标注,分类存储是保护传统曲艺的重要手段;数字技术可以支撑曲艺类非物质文化遗产的保护传承及传播,如何对这些文化相关的视频资源以及对应的文化视频的元数据进行高效且标准化管理就成了迫切需要面对的问题。

    2、现有技术的不足:

    3、目前针对曲艺视频的标注面临诸多挑战,首先缺少可用的曲艺视频标注数据集,而相关领域专家数量较少,普通人标注精确度较低,且人工标注效率低。其次因为曲艺视频包含大量具有传统文化语义的信息,高度特化,演员的形态、动作、衣服甚至配乐都具有其独特的艺术特点,普通的标注算法和平台无法高效地对传统曲艺视频进行标注。


    技术实现思路

    1、本发明的目的在于提供一种基于基因学习模型的曲艺视频标注方法,以解决上述背景技术中提出的问题。

    2、为实现上述目的,本发明提供如下技术方案:一种基于基因学习模型的曲艺视频标注方法,本方法包括以下步骤:

    3、s1、通过镜头分界、关键帧提取等技术提取视频的关键帧,记录关键帧在曲艺视频所有帧中的下标,计算当前关键帧的时间,并将关键帧输入特征提取网络进行特征提取;

    4、s2、提取对应音频特征:分离曲艺视频的音频,然后根据关键帧对应的时间提取1s的音频,并将音频段输入特征提取网络进行音频特征提取;

    5、s3、多模态时序特征聚合:将每个关键帧的视觉特征以及音频特征进行同步聚合,得到每帧的多模态融合特征,然后对所有关键帧的多模态融合特征进行时序聚合,得到视频级时序聚合特征;

    6、s4、多粒度标注:根据得到的视频级时序聚合特征进行推理,得到视频级特征,根据得到的关键帧特征进行推理得到视频帧级特征。

    7、优选的,所述步骤s1具体包括以下步骤:

    8、a1、将待标注曲艺视频输入transnetv2镜头分界算法,将视频每帧压缩到统一的小尺寸48*27*3,每隔100帧作为一个片段,并且提取每帧的颜色直方图hist以及可学习相似性矩阵,返回视频每一帧是否是片段边界帧的概率,超过阈值(默认是0.5)的判断为镜头边界帧,最终得到视频的镜头分界列表,列表的每一项代表一个完整的分镜头,包含该分镜头的起始帧下标和结束帧下标;

    9、a2、视频关键帧提取,对于每帧图像,通过提取图像的彩色显著性图的颜色信息、亮度信息、运动信息,从多个不同方向对图像进行全方位的度量,从而全面且准确的筛选出精准描述视频帧快速变化的信息,通过计算相邻两帧间的均方误差mse,可以将均方误差曲线上的极值点当作候选关键帧,通过计算候选关键帧与前后帧的差异,最终选出真正的关键帧;

    10、a3、视频关键帧特征提取,使用clip中预训练的vit/b16进行视频帧的视觉特征的提取。

    11、优选的,所述步骤s2具体包括以下步骤:

    12、b1、分离视频的音频,根据记录的视频关键帧的下标,以及视频帧率确定对应的音频位置,截取对应1s的音频段;

    13、b2、将每个音频段先进行手工音频特征提取,再输入音频特征提取网络中得到深度特征。

    14、优选的,所述步骤s3具体包括以下步骤:

    15、c1、拼接视频帧的同维度视觉和音频特征,并进行维度转换;

    16、c2、拼接后特征进行注意力融合,继续与原视觉特征、音频特征进行拼接,得到多模态同步融合特征;

    17、c3、将上述每帧多模态同步融合特征输入时序特征提取算法中,得到视频级时序聚合特征。

    18、优选的,所述多粒度标注包括视频级标注分支及帧级标注分支,所述步骤s4具体包括以下步骤:

    19、d1、将通过所述多模态时序聚合特征步骤获得的视频级多模态时序聚合特征输入到分类层中进行预测,得到视频的粗粒度视频级标注结果;

    20、d2、将所述关键帧提取步骤获得的曲艺视频关键帧输入到目标检测框架中预测,得到视频的细粒度视频帧级标注结果;

    21、d3、将所述粗粒度视频级标注结果与所述细粒度视频标注结果进行合并、去重得到所述多粒度多模态标注结果。

    22、优选的,所述关键帧提取步骤a2具体包括以下步骤:

    23、e1、视频镜头内每一视频帧的动态特征由相邻两帧间帧间差分得出:

    24、fm(x,y)=it(x,y)-it-1(x,y)

    25、其中x、y分别代表像素的坐标,t代表t时刻;

    26、e2、视频帧的亮度特征可以看成其在对应位置上的r、g、b三个通道的平均值:

    27、

    28、其中x、y分别代表像素的坐标,t代表t时刻;

    29、e3、得到视频帧i的显著性图s之后,将显著性图s与原视频帧i的r、g、b三个通道分别进行相乘操作,然后合并三个通道,得到彩色显著性图r,得到彩色显著性图的cielab颜色空间的红/绿颜色特征fra(x,y)和黄/蓝frb(x,y)颜色特征:

    30、

    31、其中a代表红/绿强度,越接近-127越绿,越偏向127越红;b代表黄/蓝强度,越接近-127越偏蓝,越接近127越黄;maxa(mina)分别表示当前图像中红绿通道的最大值(最小值),maxb(mina)分别表示当前图像中黄蓝通道的最大值(最小值);

    32、e4、将原图像的静态特征、彩色显著性图像的颜色特征以及原图像的运动特征进行融合,得到视频帧的特征l(x,y);

    33、e5、使用欧氏距离的平方均值作为相似性,均值越小,则相邻两帧的相似性越高,对于输入的视频帧序列,使用下式进行相似性度量:

    34、

    35、其中i代表当前帧下标,m和n分别代表视频帧的宽、高。

    36、相似度曲线的极大值点说明前后两帧视频相似度差距过大,将这些极大值点对应的相邻两个视频帧加入候选帧序列中,然后判断当前极大值点与前一点以及后一点的差值是否大于全局均值:

    37、

    38、其中d′和d″分别代表极大值点与前一点和后一点的差,如果分别大于全局均值,则将极值点对应的两帧中的后一帧作为最终的关键帧,并记录关键帧的下标。

    39、优选的,所述显著性图由下列步骤得到:

    40、f1、使用cielab颜色空间模拟人类大脑皮层中的双色对立系统,建模人类对暖色调敏感对冷色调不敏感的表现:

    41、

    42、

    43、其中x代表图像像素的坐标向量,即x=(x,y),x,y分别为图像的横纵坐标,ia(x)和ib(x)分别代表红绿通道a和黄蓝通道b的值,ian和ibn分别是正则化后的红绿通道和黄蓝通道的值,其中σc为方差;

    44、f2、使用高斯映射对人们习惯注意画面中心部分进行建模:

    45、

    46、其中c为图像中心点的坐标向量,σd2是方差;

    47、f3、使用带通滤波建模人眼中显著物体,log-gabor带通滤波器的传递函数g(x)在原点处不能够直接使用数学解析式表示,所以需要通过傅立叶变换得到g(u),故传递函数g(x)(x=(x,y)∈r2)转换后的的数学公式如下:

    48、

    49、其中ω0是log-gabor滤波器的中心频率,u=(u,v)为频率域坐标,σf为控制带宽的参数;将所述cielab空间得到的il(x)、ia(x)和ib(x)与传递函数进行卷积运算得到sf(x):

    50、sf(x)=((il*g)2+(ia*g)2+(ib*g)2)12(x)

    51、f4、视频帧的显著性图像由所述sc(x)、sd(x)、sf(x)相乘得到:

    52、sdsp(x)=sd(x)·sc(x)·sf(x)

    53、优选的,所述手工音频特征提取的步骤具体如下:

    54、g1、对音频段进行预处理操作,包括:预加重、分帧、加窗;

    55、g2、使用快速傅立叶变换将音频帧离散化,从时域转换到频域,得到对应的能量分布,然后将能量分布取模并进行二次方运算得到谱线能量;

    56、g3、使用mel滤波器对音频信号进行滤波,并将mel频率与幅度谱相乘取对数得到fbank手工音频特征。

    57、优选的,所述多粒度标注包括对视频进行粗粒度标注,并从多个维度对视频进行细粒度标注,补充视频级标注缺失的语义信息。

    58、优选的,所述粗粒度标注包括水袖功、帽翅功、单人打等标签。

    59、与现有技术相比,本发明的有益效果是:

    60、该一种基于基因学习模型的曲艺视频标注方法,模仿人类基因指导人类同时处理多模态信息的行为,省去人工并且标注准确,同时利用曲艺视频的音频信息和视觉信息进行同步融合,得到多模态融合特征,将多模态特征进行时序特征提取得到粗粒度视频级特征,将关键帧输入改进的目标识别网络得到细粒度帧级特征,实现对曲艺视频的自动化标注,提高标注效率。


    技术特征:

    1.一种基于基因学习模型的曲艺视频标注方法,其特征在于:本方法包括以下步骤:

    2.根据权利要求1所述的一种基于基因学习模型的曲艺视频标注方法,其特征在于:所述步骤s1具体包括以下步骤:

    3.根据权利要求1所述的一种基于基因学习模型的曲艺视频标注方法,其特征在于:所述步骤s2具体包括以下步骤:

    4.根据权利要求1所述的一种基于基因学习模型的曲艺视频标注方法,其特征在于:所述步骤s3具体包括以下步骤:

    5.根据权利要求1所述的一种基于基因学习模型的曲艺视频标注方法,其特征在于:所述多粒度标注包括视频级标注分支及帧级标注分支,所述步骤s4具体包括以下步骤:

    6.根据权利要求2所述的一种基于基因学习模型的曲艺视频标注方法,其特征在于:所述关键帧提取步骤a2具体包括以下步骤:

    7.根据权利要求6所述的一种基于基因学习模型的曲艺视频标注方法,其特征在于:所述显著性图由下列步骤得到:

    8.根据权利要求3所述的一种基于基因学习模型的曲艺视频标注方法,其特征在于:所述手工音频特征提取的步骤具体如下:

    9.根据权利要求1所述的一种基于基因学习模型的曲艺视频标注方法,其特征在于:所述多粒度标注包括对视频进行粗粒度标注,并从多个维度对视频进行细粒度标注,补充视频级标注缺失的语义信息。

    10.根据权利要求9所述的一种基于基因学习模型的曲艺视频标注方法,其特征在于:所述粗粒度标注包括水袖功、帽翅功、单人打标签。


    技术总结
    本发明公开了一种基于基因学习模型的曲艺视频标注方法,本方法包括以下步骤:S1、提取视频的关键帧,记录关键帧在曲艺视频所有帧中的下标,计算当前关键帧的时间,并将关键帧输入特征提取网络进行特征提取;S2、分离曲艺视频的音频,提取音频特征;S3、将每个关键帧的视觉特征以及音频特征进行同步聚合,得到每帧的多模态融合特征,对所有关键帧的多模态融合特征进行时序聚合,得到视频级时序聚合特征;S4、根据得到的视频级时序聚合特征进行推理,得到视频级特征,根据得到的关键帧特征进行推理得到视频帧级特征;本发明可以实现对传统曲艺视频的多粒度标注,有助于后续对该视频的管理、检索,有利于传播中华文化。

    技术研发人员:徐坤,赵海英,侯小刚
    受保护的技术使用者:北京邮电大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-35529.html

    最新回复(0)