基于大模型的视频分类方法、装置、智能设备及存储介质与流程

    技术2025-12-22  11


    本技术涉及视觉大模型,具体涉及一种基于大模型的视频分类方法、装置、智能设备及存储介质。


    背景技术:

    1、随着数字化技术的迅速发展,视频数据的大规模生成和应用成为社会信息化的显著特征之一。其中,视频分类任务有着广泛的应用前景与重要的应用价值,例如对视频数据中的人体动作进行识别和分类,从而为视频监控、安防报警、体育分析等场景提供智能化的分析和决策支持。

    2、目前使用大模型的视频分类方法在进行训练和推理时,通常在视频数据上采样得到图像序列,然后将图片序列分割成若干个图像块,利用大模型捕捉不同图像块间的关系,整个过程的参数量和计算量非常庞大,需要花费大量的计算资源和时间。相应地,本领域需要一种新的基于大模型的视频分类方法。


    技术实现思路

    1、为了克服上述缺陷,提出了本技术,以解决或至少部分地解决视频分类大模型训练和推理需要花费大量计算资源和时间的技术问题。

    2、在第一方面,提供一种基于大模型的视频分类方法,所述方法包括:获取视频分类数据集、第一掩码矩阵以及第二掩码矩阵;基于预先获取的大模型以及分类器构建视频分类模型;利用所述第一掩码矩阵以及所述视频分类数据集训练所述视频分类模型;使用训练后的视频分类模型根据所述第二掩码矩阵对视频进行分类。

    3、在上述基于大模型的视频分类方法的一个技术方案中,在所述获取视频分类数据集、第一掩码矩阵以及第二掩码矩阵之前,所述方法还包括:获取视频数据集;基于预设视频分类任务在所述视频数据集中选取并标注多个正例以及负例;根据所述多个正例以及负例生成视频分类数据集。

    4、在上述基于大模型的视频分类方法的一个技术方案中,所述基于预先获取的大模型以及分类器构建视频分类模型,包括:对分类器进行初始化;使用预先获取的大模型以及初始化后的分类器构建视频分类模型。

    5、在上述基于大模型的视频分类方法的一个技术方案中,所述视频分类数据集包括多个图像序列,所述图像序列包括多张图像,所述利用所述第一掩码矩阵以及所述视频分类数据集训练所述视频分类模型,包括:将多个图像序列中的多张图像划分成对应的图像块;基于第一掩码矩阵对各图像对应的图像块进行丢弃;使用各图像未被丢弃的图像块训练所述视频分类模型。

    6、在上述基于大模型的视频分类方法的一个技术方案中,第一掩码矩阵包括第一掩码比例以及第一掩码位置,所述基于第一掩码矩阵对各图像对应的图像块进行丢弃,包括:利用随机算法确定多个图像序列对应的第一掩码位置;基于所述第一掩码位置以及第一掩码比例对各图像对应的图像块进行丢弃。

    7、在上述基于大模型的视频分类方法的一个技术方案中,所述使用训练后的视频分类模型根据所述第二掩码矩阵对视频进行分类,包括:获取待分类视频的图像序列;将所述待分类视频的图像序列中的多张图像划分成对应的图像块;使用第二掩码矩阵对待分类图像序列中各图像对应的图像块进行丢弃;使用训练后的视频分类模型根据待分类图像序列中各图像未被丢弃的图像块对所述待分类视频进行分类。

    8、在上述基于大模型的视频分类方法的一个技术方案中,第二掩码矩阵包括第二掩码比例以及第二掩码位置,所述使用第二掩码矩阵对待分类图像序列中各图像对应的图像块进行丢弃,包括:基于所述第二掩码比例以及第二掩码位置对待分类图像序列中各图像对应的图像块进行丢弃。

    9、在第二方面,提供一种基于大模型的视频分类装置,所述装置包括:获取模块,用于获取视频分类数据集、第一掩码矩阵以及第二掩码矩阵;构建模块,用于基于预先获取的大模型以及分类器构建视频分类模型;训练模块,用于利用所述第一掩码矩阵以及所述视频分类数据集训练所述视频分类模型;分类模块,用于使用训练后的视频分类模型根据所述第二掩码矩阵对视频进行分类。

    10、在上述基于大模型的视频分类装置的一个技术方案中,所述装置还包括:数据获取模块,用于获取视频数据集;数据标注模块,用于基于预设视频分类任务在所述视频数据集中选取并标注多个正例以及负例;数据生成模块,用于根据所述多个正例以及负例生成视频分类数据集。

    11、在上述基于大模型的视频分类装置的一个技术方案中,所述构建模块包括:初始化单元,用于对分类器进行初始化;构建单元,用于使用预先获取的大模型以及初始化后的分类器构建视频分类模型。

    12、在上述基于大模型的视频分类装置的一个技术方案中,所述视频分类数据集包括多个图像序列,所述图像序列包括多张图像,所述训练模块包括:第一划分单元,用于将多个图像序列中的多张图像划分成对应的图像块;第一丢弃单元,用于基于第一掩码矩阵对各图像对应的图像块进行丢弃;训练单元,用于使用各图像未被丢弃的图像块训练所述视频分类模型。

    13、在上述基于大模型的视频分类装置的一个技术方案中,第一掩码矩阵包括第一掩码比例以及第一掩码位置,所述第一丢弃单元包括:第一位置确定子单元,用于利用随机算法确定多个图像序列对应的第一掩码位置;第一丢弃子单元,用于基于所述第一掩码位置以及第一掩码比例对各图像对应的图像块进行丢弃。

    14、在上述基于大模型的视频分类装置的一个技术方案中,所述分类模块包括:获取单元,用于获取待分类视频的图像序列;第二划分单元,用于将所述待分类视频的图像序列中的多张图像划分成对应的图像块;第二丢弃单元,用于使用第二掩码矩阵对待分类图像序列中各图像对应的图像块进行丢弃;分类单元,用于使用训练后的视频分类模型根据待分类图像序列中各图像未被丢弃的图像块对所述待分类视频进行分类。

    15、在上述基于大模型的视频分类装置的一个技术方案中,第二掩码矩阵包括第二掩码比例以及第二掩码位置,所述第二丢弃单元包括:第二丢弃子单元,用于基于所述第二掩码比例以及第二掩码位置对待分类图像序列中各图像对应的图像块进行丢弃。

    16、在第三方面,提供一种智能设备,该智能设备包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有计算机程序,所述计算机程序被所述至少一个处理器执行时实现上述第一方面任一项技术方案所述的基于大模型的视频分类方法。

    17、在第四方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述第一方面任一项技术方案所述的基于大模型的视频分类方法。

    18、本技术上述一个或多个技术方案,至少具有如下一种或多种有益效果:

    19、在实施本技术的技术方案中,利用获取的第一掩码矩阵以及视频分类数据集训练构建的视频分类模型,由于第一掩码矩阵可以选择性地丢弃视频分类数据集中的某些数据,使用未丢弃的数据训练视频分类模型,作为一种数据增强方法,在减少训练数据量的同时达到了提高模型鲁棒性和实时性的效果;类似地,在使用视频分类模型对视频进行分类即在模型推理应用时,根据第二掩码矩阵对数据进行同样的处理,实现减少推理数据量以及推理耗时的目的。综上所述,本方法简单有效,通用于多种视频分类模型,可以实现减少视频分类模型的计算量、提高训练效率、降低显存占用以及减少训练及推理耗时的目的,解决了视频分类大模型训练和推理需要花费大量计算资源和时间的技术问题。

    20、在实施本技术的技术方案中,通过标注多个正例以及负例生成视频分类数据集,实现了利用视频分类数据集以及第一掩码矩阵对构建的视频分类模型进行微调,使模型符合视频分类任务要求的目的。

    21、在实施本技术的技术方案中,利用随机算法确定多个图像序列对应的第一掩码位置,基于第一掩码位置以及第一掩码比例对各图像对应的图像块进行丢弃,即使用固定的掩码比例随机丢弃各图像中的图像块,在减少训练数据量的同时达到了提高模型的泛化能力以及减少过拟合现象的效果。

    22、在实施本技术的技术方案中,在模型推理应用阶段,使用固定的掩码比例和掩码位置丢弃待分类视频图像中的图像块,在减少推理数据量的同时达到了减少推理波动的效果。


    技术特征:

    1.一种基于大模型的视频分类方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的基于大模型的视频分类方法,其特征在于,在所述获取视频分类数据集、第一掩码矩阵以及第二掩码矩阵之前,所述方法还包括:

    3.根据权利要求1所述的基于大模型的视频分类方法,其特征在于,所述基于预先获取的大模型以及分类器构建视频分类模型,包括:

    4.根据权利要求1所述的基于大模型的视频分类方法,其特征在于,所述视频分类数据集包括多个图像序列,所述图像序列包括多张图像,所述利用所述第一掩码矩阵以及所述视频分类数据集训练所述视频分类模型,包括:

    5.根据权利要求4所述的基于大模型的视频分类方法,其特征在于,第一掩码矩阵包括第一掩码比例以及第一掩码位置,所述基于第一掩码矩阵对各图像对应的图像块进行丢弃,包括:

    6.根据权利要求1所述的基于大模型的视频分类方法,其特征在于,所述使用训练后的视频分类模型根据所述第二掩码矩阵对视频进行分类,包括:

    7.根据权利要求6所述的基于大模型的视频分类方法,其特征在于,第二掩码矩阵包括第二掩码比例以及第二掩码位置,所述使用第二掩码矩阵对待分类图像序列中各图像对应的图像块进行丢弃,包括:

    8.一种基于大模型的视频分类装置,其特征在于,所述装置包括:

    9.一种智能设备,其特征在于,包括:

    10.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的基于大模型的视频分类方法。


    技术总结
    本申请涉及视觉大模型技术领域,具体提供一种基于大模型的视频分类方法、装置、智能设备及存储介质,旨在解决视频分类大模型训练和推理需要花费大量计算资源和时间的问题。为此目的,本申请获取视频分类数据集、第一掩码矩阵以及第二掩码矩阵,基于预先获取的大模型以及分类器构建视频分类模型,利用第一掩码矩阵以及视频分类数据集训练视频分类模型,使用训练后的视频分类模型根据第二掩码矩阵对视频进行分类。本申请实现了减少视频分类模型的计算量,提高训练效率、降低显存占用以及减少训练及推理耗时的目的,解决了视频分类大模型训练和推理需要花费大量计算资源和时间的问题,达到了提高模型鲁棒性和实时性的效果。

    技术研发人员:杨博
    受保护的技术使用者:云从科技集团股份有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-38398.html

    最新回复(0)