本发明属于声音提取处理,具体涉及一种基于双线索的目标声音提取处理方法、系统及平台。
背景技术:
1、随着机器听力领域的发展,现目前针对目标说话者、乐器和声音事件等多种重叠声音,有许多关于目标声音提取和去除的研究和应用。
2、这些研究都可以应用在耳机、助听器和电话的设备中,为人们过滤掉环境中不重要的声音,只保留感兴趣的声音。早期的工作主要对通用声音分离,说话人分离等进行研究,但随着目标音频中的声音类型的增多,给分离带来了很大的难题,导致声音分离处理效果差。
3、而且,在现目前,对于声音分离处理中,没有人关注并结合目标声音的时间戳信息,即起始和偏移时间(这些信息在听觉场景分析中非常重要,像声音事件检测和语音活动检测一样得到了广泛的研究,时间戳信息可以帮助指导目标声音的定位和提取),以及声音类别标签,来对声音进行分离处理。
4、因此,针对以上声音分离处理难度大,导致声音分离处理效果差,以及没有人关注并结合目标声音的时间戳信息,即起始和偏移时间,以及声音类别标签,来对声音进行分离处理的技术问题缺陷,急需设计和开发一种基于双线索的目标声音提取处理方法、系统及平台。
技术实现思路
1、为克服上述现有技术存在的不足及困难,本发明之目的在于,针对评上述所存在的技术问题缺陷,而提供一种基于双线索的目标声音提取处理方法、系统及平台,结合目标声音的时间戳信息,以及声音类别标签,来对声音进行分离处理,以提升声音提取的效果,并通过时间戳信息可以帮助指导目标声音的定位和提取。
2、本发明的第一目的在于提供一种基于双线索的目标声音提取处理方法;本发明的第二目的在于提供一种基于双线索的目标声音提取处理系统;本发明的第三目的在于提供一种基于双线索的目标声音提取处理平台。
3、本发明的第一目的是这样实现的:所述方法包括如下步骤:
4、构建与第一线索数据相对应的声音事件检测网络模型,并训练所述声音事件检测网络模型;其中,所述第一线索数据为与声音相对应的时间戳信息线索数据;
5、构建与第二线索数据相对应的目标声音提取系统,并训练与所述目标声音提取系统相对应的目标声音提取网络;其中,所述第二线索数据为与声音相对应的声音类别线索数据;
6、根据所述声音事件检测网络模型,并结合所述目标声音提取系统,实时提取与双线索数据相对应的目标声音数据;其中,所述双线索数据包括第一线索数据和第二线索数据。
7、进一步地,所述构建与第一线索数据相对应的声音事件检测模型,并训练所述声音事件检测模型,还包括:
8、声音事件检测网络模型采用预训练的12层卷积神经网络,并去除处理原先的线性层和全连接层;其中,声音事件检测网络模型前面12个卷积层卷积模块的卷积核大小为3×3,步长为1×1,填充大小为1×1;声音事件检测网络由预训练的12层卷积神经网络和新加入的1层卷积网络组合,总共有13层,区别在于卷积核大小为(3,2),填充大小为(1,0);
9、将卷积核与输入特征图卷积,并捕获相对应的局部模式,通过卷积后再依次进行二维批量归一化处理和relu激活函数处理,并池化处理;其中,所述池化处理选择大小为2×2的平均池化应用于每个卷积块。
10、进一步地,所述构建与第一线索数据相对应的声音事件检测模型,并训练所述声音事件检测模型,还包括:
11、将输入的时域信号进行短时傅里叶变换,并生成相对应的短时傅里叶变换幅度谱;
12、通过梅尔滤波器组,获取相对应的梅尔短时傅里叶变换幅度谱;并结合取对数生成相对应的对数梅尔时频谱图特征数据;
13、采用二进制交叉熵损失函数对所述声音事件的强标签和弱标签进行联合训练;其中,所述强标签为声音事件对应的起始时间;所述弱标签为音频中的声音类别。
14、进一步地,所述构建与第一线索数据相对应的声音事件检测模型,并训练所述声音事件检测模型,还包括:
15、结合第一指标数据,实时评估及验证处理所述声音事件检测模型;其中,所述第一指标数据包括:全类平均正确率数据、f1-分数数据和复调声音检测评分数据。
16、进一步地,所述构建与第二线索数据相对应的目标声音提取系统,并训练与所述目标声音提取系统相对应的目标声音提取网络,还包括:
17、根据目标声音提取系统的主干网络,并结合至少一个掩码网络,以及与所述掩码网络相对应的编码器特征,生成与目标音频相对应的实部数据和虚部数据;
18、分别逆变换处理所述实部数据和所述虚部数据,生成相对应的目标波形数据。
19、进一步地,所述构建与第二线索数据相对应的目标声音提取系统,并训练与所述目标声音提取系统相对应的目标声音提取网络,还包括:
20、生成并获取与目标声音相对应的傅里叶谱图数据,并实时提取与傅里叶谱图数据相对应的频谱图特征数据;
21、结合单目标和多目标提取任务模型,实时验证处理与所述目标声音提取系统相对应的目标声音提取模型。
22、进一步地,所述根据所述声音事件检测网络模型,并结合所述目标声音提取系统,实时提取与双线索数据相对应的目标声音数据,还包括:
23、结合掩码网络,融合处理与声音相对应的时间戳信息数据和目标声音音频类别标签数据,并生成相对应的融合特征数据。
24、本发明的第二目的是这样实现的:所述系统用于实现所述的基于双线索的目标声音提取处理方法;所述系统包括:
25、第一模型构建训练单元,用于构建与第一线索数据相对应的声音事件检测网络模型,并训练所述声音事件检测网络模型;其中,所述第一线索数据为与声音相对应的时间戳信息线索数据;
26、第二模型构建训练单元,用于构建与第二线索数据相对应的目标声音提取系统,并训练与所述目标声音提取系统相对应的目标声音提取网络;其中,所述第二线索数据为与声音相对应的声音类别线索数据;
27、目标声音数据生成单元,用于根据所述声音事件检测网络模型,并结合所述目标声音提取系统,实时提取与双线索数据相对应的目标声音数据;其中,所述双线索数据包括第一线索数据和第二线索数据。
28、进一步地,所述第一模型构建训练单元,还包括:
29、第一数据处理模块,用于声音事件检测网络模型采用预训练的12层卷积神经网络,并去除处理原先的线性层和全连接层;其中,声音事件检测网络模型前面12个卷积层卷积模块的卷积核大小为3×3,步长为1×1,填充大小为1×1;声音事件检测网络由预训练的12层卷积神经网络和新加入的1层卷积网络组合,总共有13层,区别在于卷积核大小为(3,2),填充大小为(1,0);
30、第二数据处理模块,用于将卷积核与输入特征图卷积,并捕获相对应的局部模式,通过卷积后再依次进行二维批量归一化处理和relu激活函数处理,并池化处理;其中,所述池化处理选择大小为2×2的平均池化应用于每个卷积块;
31、和/或,所述第一模型构建训练单元,还包括:
32、第一数据生成模块,用于将输入的时域信号进行短时傅里叶变换,并生成相对应的短时傅里叶变换幅度谱;
33、第二数据生成模块,用于通过梅尔滤波器组,获取相对应的梅尔短时傅里叶变换幅度谱;并结合取对数生成相对应的对数梅尔时频谱图特征数据;
34、数据联合训练模块,用于采用二进制交叉熵损失函数对所述声音事件的强标签和弱标签进行联合训练;其中,所述强标签为声音事件对应的起始时间;所述弱标签为音频中的声音类别;
35、和/或,所述第一模型构建训练单元,还包括:
36、第一模型验证模块,用于结合第一指标数据,实时评估及验证处理所述声音事件检测模型;其中,所述第一指标数据包括:全类平均正确率数据、f1-分数数据和复调声音检测评分数据;
37、所述第二模型构建训练单元,还包括:
38、第三数据生成模块,用于根据目标声音提取系统的主干网络,并结合至少一个掩码网络,以及与所述掩码网络相对应的编码器特征,生成与目标音频相对应的实部数据和虚部数据;
39、第四数据生成模块,用于分别逆变换处理所述实部数据和所述虚部数据,生成相对应的目标波形数据;
40、和/或,所述第二模型构建训练单元,还包括:
41、第五数据生成模块,用于生成并获取与目标声音相对应的傅里叶谱图数据,并实时提取与傅里叶谱图数据相对应的频谱图特征数据;
42、第二模型验证模块,用于结合单目标和多目标提取任务模型,实时验证处理与所述目标声音提取系统相对应的目标声音提取模型;
43、和/或,所述目标声音数据生成单元,还包括:
44、数据融合处理模块,用于结合掩码网络,融合处理与声音相对应的时间戳信息数据和目标声音音频类别标签数据,并生成相对应的融合特征数据。
45、本发明的第三目的是这样实现的:包括处理器、存储器以及基于双线索的目标声音提取处理平台控制程序;其中在所述的处理器执行所述的基于双线索的目标声音提取处理平台控制程序,所述的基于双线索的目标声音提取处理平台控制程序被存储在所述存储器中,所述的基于双线索的目标声音提取处理平台控制程序,实现所述的基于双线索的目标声音提取处理方法。
46、本发明通过方法构建与第一线索数据相对应的声音事件检测网络模型,并训练所述声音事件检测网络模型;其中,所述第一线索数据为与声音相对应的时间戳信息线索数据;构建与第二线索数据相对应的目标声音提取系统,并训练与所述目标声音提取系统相对应的目标声音提取网络;其中,所述第二线索数据为与声音相对应的声音类别线索数据;根据所述声音事件检测网络模型,并结合所述目标声音提取系统,实时提取与双线索数据相对应的目标声音数据;其中,所述双线索数据包括第一线索数据和第二线索数据。以及与所述方法相应的系统、平台,并结合目标声音的时间戳信息(即起始和偏移时间,这些信息在听觉场景分析中非常重要,并且时间戳信息可以帮助指导目标声音的定位和提取),以及声音类别标签,来对声音进行分离处理,以提升声音提取的效果,并通过时间戳信息可以帮助指导目标声音的定位和提取。也就是说,本发明方案利用声音类别标签和时间戳信息的双线索指导目标声音提取的方法,能够利用目标音频标签以及获取音频的时间戳信息并对目标声音进行提取。
1.一种基于双线索的目标声音提取处理方法,其特征在于,所述方法包括如下步骤:
2.根据权利1所述的一种基于双线索的目标声音提取处理方法,其特征在于,所述构建与第一线索数据相对应的声音事件检测模型,并训练所述声音事件检测模型,还包括:
3.根据权利1或2所述的一种基于双线索的目标声音提取处理方法,其特征在于,所述构建与第一线索数据相对应的声音事件检测模型,并训练所述声音事件检测模型,还包括:
4.根据权利3所述的一种基于双线索的目标声音提取处理方法,其特征在于,所述构建与第一线索数据相对应的声音事件检测模型,并训练所述声音事件检测模型,还包括:
5.根据权利1所述的一种基于双线索的目标声音提取处理方法,其特征在于,所述构建与第二线索数据相对应的目标声音提取系统,并训练与所述目标声音提取系统相对应的目标声音提取网络,还包括:
6.根据权利1或5所述的一种基于双线索的目标声音提取处理方法,其特征在于,所述构建与第二线索数据相对应的目标声音提取系统,并训练与所述目标声音提取系统相对应的目标声音提取网络,还包括:
7.根据权利1所述的一种基于双线索的目标声音提取处理方法,其特征在于,所述根据所述声音事件检测网络模型,并结合所述目标声音提取系统,实时提取与双线索数据相对应的目标声音数据,还包括:
8.一种基于双线索的目标声音提取处理系统,其特征在于,所述系统用于实现如权利要求1至7中任一项所述的基于双线索的目标声音提取处理方法;所述系统包括:
9.根据权利8所述的一种基于双线索的目标声音提取处理系统,其特征在于,所述第一模型构建训练单元,还包括:
10.一种基于双线索的目标声音提取处理平台,其特征在于,包括处理器、存储器以及基于双线索的目标声音提取处理平台控制程序;其中,在所述的处理器执行所述的基于双线索的目标声音提取处理平台控制程序,所述的基于双线索的目标声音提取处理平台控制程序被存储在所述存储器中,所述的基于双线索的目标声音提取处理平台控制程序,实现如权利要求1至7中任一项所述的基于双线索的目标声音提取处理方法。