本发明涉及声纹降噪识别,特别是一种复杂环境下声纹降噪识别方法及系统。
背景技术:
1、在当前数字化时代,复杂环境下的声纹识别技术已成为信息安全与智能互动系统的关键组成部分,这类技术通过分析人声信号,实现身份验证以及环境监控与交互响应功能,传统声纹识别系统受环境噪声影响,尤其是在多源声音干扰的公共与开放场所,声纹识别技术的研究与开发不断深入,提高系统的稳定性与准确性,适应更广泛的应用场景。
2、现有技术仍面临多项挑战,环境噪声的多样性与不可预测性使得传统的声纹提取方法难以保持高识别精度,现有技术在声源分离和声音增强方面尚存在不足,噪声抑制技术在复杂环境中的效果有限,技术通常依赖于环境噪声的稳定性和预测性,难以适应突发的声源变化,针对这些问题,我方发明提供了一种新型的声纹降噪识别方法及系统,该系统采用麦克风阵列和先进的声音处理算法,提升声纹信号在嘈杂环境中的清晰度和识别准确率。
技术实现思路
1、鉴于上述现有的一种复杂环境下声纹降噪识别方法及系统中存在的问题,提出了本发明。
2、因此,本发明所要解决的问题在于通过实时频谱分析和判决反馈机制,能够动态地调整噪声抑制策略,应对环境变化,采用带通滤波与放大处理,增强目标声音信号,减少环境噪声的干扰,使用快速傅里叶变换fft和逆快速傅里叶变换ifft技术,确保声纹特征的精确提取与还原。
3、为解决上述技术问题,本发明提供如下技术方案:一种复杂环境下声纹降噪识别方法,其包括,采集复杂环境下声音并进行预处理;对环境声音进行实时监测和分析;采用判决反馈机制对环境声音进行降噪处理;重新采集人声信号并进行声纹特征提取;基于提取声纹特征对降噪处理后的环境声音中进行声纹识别;对数据进行存储。
4、作为本发明所述复杂环境下声纹降噪识别方法的一种优选方案,其中:所述采集复杂环境下声音并进行预处理指使用麦克风阵列实时采集环境声音中的信号;
5、对从不同麦克风接收到的信号进行时间同步;
6、对采集的声音信号使用延迟求和波束形成技术增强信号,波束形成公式为:
7、
8、其中y(t)为在时间t的输出信号,xi(t)为第i个麦克风在时间t的信号,τi为第i个麦克风信号的时延调整,n为麦克风的数量;
9、应用带通滤波公式对麦克风阵列输出的信号进行放大,公式为:
10、s(t)=a·(y(t)*hbp(t))
11、其中s(t)为经过放大和滤波处理的信号,a为放大系数,hbp(t)为带通滤波器的冲激响应函数;
12、将经过放大和滤波处理的模拟信号s(t)转换为数字信号。
13、作为本发明所述复杂环境下声纹降噪识别方法的一种优选方案,其中:所述对环境声音进行实时监测和分析指将预处理后的数字信号应用快速傅里叶变换fft从数字信号转换到频域信号,fft的公式为:
14、
15、其中s(f,t)为时间t处的频率f的复数频谱,s(t)为经过预处理的声音信号,j为虚数单位;
16、计算复数频谱中频率分量的能量,公式为:
17、e(f,t)=|s(f,t)|2
18、其中e(f,t)为在频率f处的能量;
19、计算频谱的总能量作为基准,公式为:
20、
21、其中ea为频谱的总能量,f为最高频率;
22、设定阈值为平均能量的150%,与频率分量的能量进行对比,当频率分量的能量>阈值时,则识别为噪声,当频率分量的能量≤阈值时,则识别为正常的环境声与背景噪声。
23、作为本发明所述复杂环境下声纹降噪识别方法的一种优选方案,其中:所述采用判决反馈机制对环境声音进行降噪处理指根据实时频谱分析结果,计算环境噪声的平均频谱,噪声平均频谱计算公式为:
24、
25、其中为噪声平均频谱,sn(f,l)为第l帧的噪声频谱,l为帧数;
26、使用频谱减法从复数频谱中减去噪声平均频谱:
27、
28、其中为降噪后的信号频谱,α为噪声抑制因子;
29、将降噪后的信号频谱通过逆快速傅里叶变换(ifft)转换回时域信号,公式为:
30、
31、其中为降噪处理的时域信号。
32、作为本发明所述复杂环境下声纹降噪识别方法的一种优选方案,其中:所述重新采集人声信号并进行声纹特征提取指将获得的人声时域信号进行预加重处理,预加重公式为:
33、s′(t)=y(t)-βy(t-1)
34、其中s′(t)为预加重后的信号,β为预加重系数,y(t)为新采集人声信号;
35、将预加重的人声信号分割成小帧,每帧持续25毫秒,每帧间重叠10毫秒,并在每帧上应用汉明窗减少帧边界的信号断裂;
36、在每帧声音信号上应用汉明窗表达式为:
37、
38、其中ω(n)为汉明窗函数在第n个采样点的值,n为样本索引,n为窗口大小;
39、对每帧信号进行快速傅里叶变换fft,将时域信号转换为频域信号;
40、将频域信号应用梅尔滤波器组mfcc模拟人耳的频率感知特性,mfcc表达式为:
41、
42、其中m(f)为在频率f处经过梅尔滤波器处理的输出,k为频率分量的总数,sk(f)为在频率f处的信号的频谱强度,hk(f)为第k个梅尔滤波器在频率f的响应;
43、对梅尔滤波器组的输出取对数,应用dct提取mfcc特征,dct的公式为:
44、
45、其中c(m)为第m个提取mfcc特征,m为mfcc特征的数量。
46、作为本发明所述复杂环境下声纹降噪识别方法的一种优选方案,其中:所述基于提取声纹特征对降噪处理后的环境声音中进行声纹识别指将mfcc特征进行归一化处理;
47、构建cnn模型,包括卷积层、池化层以及全连接层;
48、卷积层通过学习特征过滤器捕获声纹特征,公式为:
49、
50、其中为第l层在位置(i,j)的特征,为第l层的卷积核在(m,n)位置的权重,bl为第l层的偏置项,σ为激活函数,m为卷积核的高度,n为卷积核的宽度;
51、使用mfcc特征训练cnn模型,在训练周期中,通过网络前向传播mfcc特征数据,获取分类输出,计算交叉熵损失函数,公式为:
52、
53、其中l为最小化损失函数的值,yc为真实标签的独热编码形式中的第c个元素,为模型预测第c个类别的概率,c为类别数;
54、通过反向传播算法计算损失函数关于每个权重的梯度,应用梯度下降更新权重,在训练过程中,实时计算模型损失,若模型损失在连续3个周期中没有下降,则停止训练得到cnn模型;
55、将实时声纹数据输入训练好的cnn模型中,进行声纹识别。
56、作为本发明所述复杂环境下声纹降噪识别方法的一种优选方案,其中:所述对数据进行存储指将收集的原始声音数据、通过fft变换、自适应滤波、mfcc提取步骤处理过的数据,声纹识别、噪声分析结果以及动态评估噪声环境变化的数据存储到postgresql数据库中。
57、作为本发明所述复杂环境下声纹降噪识别系统的一种优选方案,其中:包括,
58、采集模块,用于使用阵列麦克风持续采集环境中的声音信号和数据并进行预处理;
59、分析模块,用于对收集到的声音数据进行实时监测和分析;
60、判决模块,用于使用判决反馈机制对环境噪声进行调整;
61、提取模块,用于应用梅尔滤波器组mfcc模拟人耳的频率感知特性提取声纹的特征;
62、识别模块,用于使用多通道信号处理技术进行声纹识别;
63、存储模块,用于将收集的原始声音数据和公式处理过的数据进行存储。
64、一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述复杂环境下声纹降噪识别方法的步骤。
65、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述复杂环境下声纹降噪识别方法的步骤。
66、本发明有益效果为:本发明通过对采集的声音信号进行实时监测与分析,判决反馈机制对环境声音进行降噪处理,预加重和汉明窗处理后的人声信号,从而有效提高声纹识别的准确性,精确地抑制噪声,以及确保声纹特征的完整性和信号的质量。
1.一种复杂环境下声纹降噪识别方法,其特征在于:包括,
2.如权利要求1所述的复杂环境下声纹降噪识别方法,其特征在于:所述采集复杂环境下声音并进行预处理指使用麦克风阵列实时采集环境声音中的信号;
3.如权利要求2所述的复杂环境下声纹降噪识别方法,其特征在于:所述对环境声音进行实时监测和分析指将预处理后的数字信号应用快速傅里叶变换fft从数字信号转换到频域信号,fft的公式为:
4.如权利要求3所述的复杂环境下声纹降噪识别方法,其特征在于:所述采用判决反馈机制对环境声音进行降噪处理指根据实时频谱分析结果,计算环境噪声的平均频谱,噪声平均频谱计算公式为:
5.如权利要求4所述的复杂环境下声纹降噪识别方法,其特征在于:所述重新采集人声信号并进行声纹特征提取指将获得的人声时域信号进行预加重处理,预加重公式为:
6.如权利要求5所述的复杂环境下声纹降噪识别方法,其特征在于:所述基于提取声纹特征对降噪处理后的环境声音中进行声纹识别指将mfcc特征进行归一化处理;
7.如权利要求6所述的复杂环境下声纹降噪识别方法,其特征在于:所述对数据进行存储指将收集的原始声音数据、通过fft变换、自适应滤波、mfcc提取步骤处理过的数据,声纹识别、噪声分析结果以及动态评估噪声环境变化的数据存储到postgresql数据库中。
8.一种基于权利要求1-7任一所述的复杂环境下声纹降噪识别系统,其特征在于:包括,
9.一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的复杂环境下声纹降噪识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的复杂环境下声纹降噪识别方法的步骤。