本发明涉及音视频审核领域,具体是指一种基于人工智能的音视频内容识别和审核方法。
背景技术:
1、互联网上敏感内容的传播速度和传播数量逐日增加,给传统的人工审核工作带来了巨大的挑战。手动过滤大量音视频数据是不现实的,包含敏感内容的音视频内容也会给审核人员带来心理压力和潜在创伤,现有方法存在缺少高效自动化的手段来检测和筛选这类敏感音视频内容的问题;传统敏感内容检测方法直接采取裸体代表敏感内容的论断,采用图像处理方法,依赖皮肤探测器计算皮肤裸露程度,忽略了皮肤裸露是出于艺术或教育意义的可能性,且传统的敏感内容检测方法存在识别结果不准确的问题;传统音频检测方法通常直接使用原始的音频波形数据进行特征提取,但音频波形数据维度高,存在特征提取复杂,难以捕捉到语音信号中的高阶特征和重要信息的问题。
技术实现思路
1、针对上述情况,为克服现有技术的缺陷,本发明提供了一种基于人工智能的音视频内容识别和审核方法,针对手动过滤大量音视频数据是不现实的,包含敏感内容的音视频内容也会给审核人员带来心理压力和潜在创伤,现有方法存在缺少高效自动化的手段来检测和筛选这类敏感音视频内容的问题,本方案寻求计算机辅助解决方案,提出一种音视频内容识别审核方法,减轻审核人员的工作强度;针对传统敏感内容检测方法直接采取裸体代表敏感内容的论断,采用图像处理方法,依赖皮肤探测器计算皮肤裸露程度,忽略了皮肤裸露是出于艺术或教育意义的可能性,且传统的敏感内容检测方法存在识别结果不准确的问题,本方案利用视频流媒体的多模态数据特性,从原始音视频中提取视频信号、字幕信号和音频信号来增强检测准确度,有效地挑出包含敏感内容的感兴趣的片段;针对传统音频检测方法通常直接使用原始的音频波形数据进行特征提取,但音频波形数据维度高,存在特征提取复杂,难以捕捉到语音信号中的高阶特征和重要信息的问题,本方案以频谱图图像的形式从语音中提取特征,获得高性能和低成本的敏感内容检测手段,具有较高精度和鲁棒性,采用高斯模糊函数平滑分类概率,减少由于时间变化导致的噪声,从而提高敏感事件的识别准确性,对音频信号采取加窗处理,有效地减小频谱泄漏和边缘效应,有助于提高信号处理的稳定性。
2、本发明采取的技术方案如下:本发明提供的一种基于人工智能的音视频内容识别和审核方法,该方法包括以下步骤:
3、步骤s1:收集并构建融合训练数据集,融合训练数据集由带有特定敏感性类别的训练用音视频组成,特定敏感性类别包括敏感、非敏感;
4、步骤s2:随机采样,根据预设采样频率在训练用音视频中随机采样,得到一系列感兴趣时间点;
5、步骤s3:切割音视频,根据预设时间间隔,切割训练用音视频,生成时间上存在重叠的片段单元;
6、步骤s4:构建片段分类器,并采用融合训练数据集训练片段分类器,片段分类器包括运动行为分类器、目标检测器、字幕文本分类器、音频流分类器、视频帧分类器;
7、步骤s5:评估分类概率,将待审查音视频输入片段分类器,片段分类器对感兴趣时间点的特定敏感性类别进行评估,输出各个特定敏感性类别的分类概率;
8、步骤s6:时间对齐,找出感兴趣时间点上重叠的所有片段单元,确保分类概率的时间戳与感兴趣时间点的时间戳相匹配;
9、步骤s7:分类概率平滑,利用一维高斯模糊函数对感兴趣时间点的分类概率进行平滑处理;
10、步骤s8:融合向量提取;
11、步骤s9:融合元学习,采用分数阈值法构建融合分类模型,融合分类模型通过对所有片段分类器输出的分类概率进行融合,生成待审查音视频整体是否包含敏感内容的分类结果。
12、进一步地,在步骤s4中,构建片段分类器,具体包括以下步骤:
13、步骤s41:从训练用音视频中单独提取视频信号,采用光流法,构建并训练运动行为分类器;
14、步骤s42:从训练用音视频中单独提取视频信号,采用yolo神经网络,构建并训练目标检测器;
15、步骤s43:从训练用音视频中单独提取字幕信号,采用长短期记忆网络,构建并训练字幕文本分类器;
16、步骤s44:从训练用音视频中单独提取音频信号,采用cnn模型,构建并训练音频流分类器;
17、步骤s45:从训练用音视频中单独提取视频信号,采用人体肤色检测算法,构建并训练视频帧分类器。
18、进一步地,在步骤s44中,构建并训练音频流分类器,具体包括以下步骤:
19、步骤s441:音频特征提取,将音频信号转化为mel频谱图,mel频谱图具有频率和时间两个维度,由颜色强度表示音频信号幅度,利用短傅里叶变换来创建音频信号的mel频谱;
20、步骤s442:构建并训练cnn模型,采用数据增强技术处理训练cnn模型所用的数据集,对数据集进行扩充;
21、步骤s443:将频谱图图像作为cnn模型的输入数据,cnn模型根据音频信号输出视频所属分类。
22、进一步地,在步骤s441中,音频特征提取,具体包括以下步骤:
23、步骤s4411:将音频信号按序分割成30毫秒的子帧;
24、步骤s4412:对每个子帧进行加窗处理,计算音频信号的信号频率范围,所用公式如下:
25、;
26、其中,表示音频信号的信号频率范围,表示每个窗口的样本数,表示频率索引,取值为,表示采样频率;
27、步骤s4413:对所有子帧进行加窗处理,并对所有子帧应用短傅里叶变换,所用公式如下:
28、;
29、其中,表示音频信号在信号频率范围内和第时刻处的短时傅里叶变换结果,表示第时刻,表示样本的索引,表示汉明窗口函数,表示音频信号的样本值,表示频率域中的相位信息,表示复数的虚部单位。
30、进一步地,在步骤s8中,融合向量提取,具体包括以下步骤:
31、步骤s81:将所有片段单元包含的任一感兴趣时间点的分类概率作为向量元素,组合为融合向量,即一个感兴趣时间点对应一个融合向量;
32、步骤s82:计算融合向量的长度,公式如下:
33、;
34、其中,表示融合向量的长度,表示片段分类器的数量,表示第个片段分类器能够预测的片段单元的时间跨度,表示对进行向上取整操作,表示第个片段分类器对下一个片段单元开始评估的时间间隔。
35、进一步地,在步骤s9中,融合元学习,具体包括以下步骤:
36、步骤s91:采用分数阈值法,构建融合分类模型,计算融合分数,所用公式如下:
37、<mi>fusion_score(v)=</mi><mfrac><mstyle><msubsup><mo>∑</mo><mi>i=1</mi><mi>l</mi></msubsup><mi>v[i]</mi></mstyle><mi>l</mi></mfrac>;
38、其中,表示融合分数,<mi>v[i]</mi>表示融合向量的第个分类概率;
39、步骤s92:分类概率二值化,对融合向量的每个向量元素进行二值化处理,将融合向量所占存储空间缩减为种可能,即比特;
40、步骤s93:输出最终融合标签,由最高分类概率的所属特定敏感性类别定义,表示待审查音视频是否包含敏感内容的分类结果,将分类结果记为最终融合标签,最终融合标签计算公式如下:
41、;
42、其中,表示最终融合标签,表示预期的决策阈值,表示待审查音视频包含敏感内容,表示待审查音视频不包含敏感内容。
43、采用上述方案本发明取得的有益效果如下:
44、(1)针对手动过滤大量音视频数据是不现实的,包含敏感内容的音视频内容也会给审核人员带来心理压力和潜在创伤,现有方法存在缺少高效自动化的手段来检测和筛选这类敏感音视频内容的问题,本方案寻求计算机辅助解决方案,提出一种音视频内容识别审核方法,减轻审核人员的工作强度。
45、(2)针对传统敏感内容检测方法直接采取裸体代表敏感内容的论断,采用图像处理方法,依赖皮肤探测器计算皮肤裸露程度,忽略了皮肤裸露是出于艺术或教育意义的可能性,且传统的敏感内容检测方法存在识别结果不准确的问题,本方案利用视频流媒体的多模态数据特性,从原始音视频中提取视频信号、字幕信号和音频信号来增强检测准确度,有效地挑出包含敏感内容的感兴趣的片段。
46、(3)针对传统音频检测方法通常直接使用原始的音频波形数据进行特征提取,但音频波形数据维度高,存在特征提取复杂,难以捕捉到语音信号中的高阶特征和重要信息的问题,本方案以频谱图图像的形式从语音中提取特征,获得高性能和低成本的敏感内容检测手段,具有较高精度和鲁棒性,采用高斯模糊函数平滑分类概率,减少由于时间变化导致的噪声,从而提高敏感事件的识别准确性,对音频信号采取加窗处理,有效地减小频谱泄漏和边缘效应,有助于提高信号处理的稳定性。
1.一种基于人工智能的音视频内容识别和审核方法,其特征在于:该方法包括以下步骤:
2.根据权利要求1所述的一种基于人工智能的音视频内容识别和审核方法,其特征在于:在步骤s4中,构建片段分类器,包括以下步骤:
3.根据权利要求2所述的一种基于人工智能的音视频内容识别和审核方法,其特征在于:在步骤s44中,构建并训练音频流分类器,包括以下步骤:
4.根据权利要求3所述的一种基于人工智能的音视频内容识别和审核方法,其特征在于:在步骤s8中,融合向量提取,包括以下步骤:
5.根据权利要求4所述的一种基于人工智能的音视频内容识别和审核方法,其特征在于:在步骤s9中,融合元学习,包括以下步骤: