一种非线性回声数据的生成方法、系统、介质及设备与流程

    技术2025-03-18  50


    本发明涉及语音数据处理,尤其涉及一种非线性回声数据的生成方法、系统、计算机可读存储介质及终端设备。


    背景技术:

    1、会议终端设备的使用场景丰富多样,导致会议通话环路中存在的干扰和失真对回声消除算法的性能是不小的挑战。会议终端外接自定义扬声器、麦克风等设备是最为常见的用户使用场景,而非线性回声的主要来源就包括扬声器、麦克风的非线性特性,例如,扬声器的选择取决于用户自定义,质量往往参差不齐,当外接的扬声器的设备类型、参数、失真情况存在差异时,回声消除算法的性能也就参差不齐,因此,需要广泛测试市面上主流的扬声器、电视、音箱等放音设备,来验证回声消除算法对于不同场景下外接不同放音设备的回声消除效果,以调整回声消除算法的参数,使其性能始终处于良好状态,能够适配大多数外接放音设备或者提供不同配置项来解决回声问题。

    2、现有技术采用的回声消除算法对各个扬声器、麦克风的非线性失真的调优,主要是依靠人工采集会议终端设备在外接不同扬声器、麦克风下的近端语音信号和回声信号,通过本地算法处理后调整回声消除算法的参数,然后再进行复测,如此重复操作,以达到回声消除算法取得最优效果。但是,这种调试过程需要针对每一个特定的回声环路反复采集回声数据来进行验证和调参,费时费力,导致调试效率较低,并且采集的数据也覆盖不了全部的会议场景,导致无法将回声消除算法调试到适用于不同场景的最优状态。

    3、因此,如何获取批量的非线性回声数据,以满足后续回声消除算法效果的鲁棒性验证和参数调优的需求,是现有技术急需解决的问题。


    技术实现思路

    1、本发明实施例的目的在于,提供一种非线性回声数据的生成方法、系统、计算机可读存储介质及终端设备,能够模拟不同通话场景下存在的非线性回声,批量生成非线性回声数据,以满足后续回声消除算法效果在不同会议场景下的鲁棒性验证和参数调优的需求,从而缩短回声消除算法的调试时间,提高回声消除算法的调试效率。

    2、为了实现上述目的,本发明实施例提供了一种非线性回声数据的生成方法,包括:

    3、采集通话场景下的原始语音数据,并获取所述原始语音数据对应的频域语音数据和频域相位信息;

    4、根据所述频域语音数据,使用预设的非线性滤波器对通话场景下的回声的非线性失真进行模拟,获得频域非线性回声数据;

    5、根据所述频域相位信息对所述频域非线性回声数据进行处理,获得时域非线性回声数据,以根据所述时域非线性回声数据进行回声消除。

    6、进一步地,所述根据所述频域语音数据,使用预设的非线性滤波器对通话场景下的回声的非线性失真进行模拟,获得频域非线性回声数据,具体包括:

    7、根据预设的人耳听觉阈值为预设的频域二阶volterra滤波器配置权重系数;

    8、通过仿真生成所述频域二阶volterra滤波器的线性volterra滤波器内核和二次volterra滤波器内核;

    9、将所述权重系数、所述线性volterra滤波器内核和所述二次volterra滤波器内核代入所述频域二阶volterra滤波器中,与所述频域语音数据进行相乘,获得频域非线性回声数据。

    10、进一步地,所述频域非线性回声数据通过以下公式计算获得:

    11、

    12、其中,dp,k表示所述频域非线性回声数据,xp-p',k'、xp,k'和xp,(k-k')mod n表示所述频域语音数据,α1;p',k,k”和α2;p,(k-k')mod n分别表示所述频域二阶volterra滤波器的线性分量的权重系数和二次分量的权重系数,hp',k,k'表示所述线性volterra滤波器内核,ck',(k-k”)mod n表示所述二次volterra滤波器内核,p和p'均表示数据帧索引变量,k、k'和k”均表示频率索引变量,n表示所述频域二阶volterra滤波器的长度,n1表示所述线性volterra滤波器的长度,表示所述线性volterra滤波器内核的长度,l表示平移因子,

    13、进一步地,所述线性volterra滤波器内核为频率索引k到k'的、长度为的交叉带滤波器hp,k,k',所述交叉带滤波器hp,k,k'定义为:

    14、

    15、其中,h1(n)表示所述交叉带滤波器hp,k,k'的线性内核,在所述线性volterra滤波器内核中代表交叉带组合,n表示时域信号的时序,的傅里叶变换定义为表示的共轭转置,和ψ(w)分别表示和ψ(n)的傅里叶变换,表示长度为m的分析窗,ψ(n)表示长度为m的合成窗,w表示角频率。

    16、进一步地,所述二次volterra滤波器内核定义为:

    17、

    18、其中,m和n表示时域信号的时序,p”表示数据帧索引变量,的傅里叶变换定义为η表示调节的截止频率的常量。

    19、进一步地,所述频域二阶volterra滤波器的线性分量的权重系数和二次分量的权重系数通过以下公式计算获得:

    20、

    21、其中,α1;p',k,k”和α2;p,(k-k')mod n分别表示所述线性分量的权重系数和所述二次分量的权重系数,tq(f)表示所述人耳听觉阈值。

    22、进一步地,所述线性volterra滤波器内核和所述二次volterra滤波器内核为符合均值为0、方差为1的正态分布随机数。

    23、为了实现上述目的,本发明实施例还提供了一种非线性回声数据的生成系统,用于实现上述任一项所述的非线性回声数据的生成方法,所述系统包括:

    24、语音数据采集及时频域转换模块,用于采集通话场景下的原始语音数据,并获取所述原始语音数据对应的频域语音数据和频域相位信息;

    25、频域回声数据生成模块,用于根据所述频域语音数据,使用预设的非线性滤波器对通话场景下的回声的非线性失真进行模拟,获得频域非线性回声数据;

    26、时域回声数据生成模块,用于根据所述频域相位信息对所述频域非线性回声数据进行处理,获得时域非线性回声数据,以根据所述时域非线性回声数据进行回声消除。

    27、本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的非线性回声数据的生成方法。

    28、本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的非线性回声数据的生成方法。

    29、与现有技术相比,本发明实施例提供了一种非线性回声数据的生成方法、系统、计算机可读存储介质及终端设备,首先采集通话场景下的原始语音数据,并获取原始语音数据对应的频域语音数据和频域相位信息;然后根据频域语音数据,使用预设的非线性滤波器对通话场景下的回声的非线性失真进行模拟,获得频域非线性回声数据;最后根据频域相位信息对频域非线性回声数据进行处理,获得时域非线性回声数据,以根据时域非线性回声数据进行回声消除。本发明实施例能够模拟不同通话场景下存在的非线性回声,批量生成非线性回声数据,以满足后续回声消除算法效果在不同会议场景下的鲁棒性验证和参数调优的需求,从而缩短回声消除算法的调试时间,提高回声消除算法的调试效率。


    技术特征:

    1.一种非线性回声数据的生成方法,其特征在于,包括:

    2.如权利要求1所述的非线性回声数据的生成方法,其特征在于,所述根据所述频域语音数据,使用预设的非线性滤波器对通话场景下的回声的非线性失真进行模拟,获得频域非线性回声数据,具体包括:

    3.如权利要求2所述的非线性回声数据的生成方法,其特征在于,所述频域非线性回声数据通过以下公式计算获得:

    4.如权利要求3所述的非线性回声数据的生成方法,其特征在于,所述线性volterra滤波器内核为频率索引k到k'的、长度为的交叉带滤波器hp,k,k',所述交叉带滤波器hp,k,k'定义为:

    5.如权利要求4所述的非线性回声数据的生成方法,其特征在于,所述二次volterra滤波器内核定义为:

    6.如权利要求5所述的非线性回声数据的生成方法,其特征在于,所述频域二阶volterra滤波器的线性分量的权重系数和二次分量的权重系数通过以下公式计算获得:

    7.如权利要求2所述的非线性回声数据的生成方法,其特征在于,所述线性volterra滤波器内核和所述二次volterra滤波器内核为符合均值为0、方差为1的正态分布随机数。

    8.一种非线性回声数据的生成系统,其特征在于,用于实现如权利要求1~7中任一项所述的非线性回声数据的生成方法,所述系统包括:

    9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1~7中任一项所述的非线性回声数据的生成方法。

    10.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1~7中任一项所述的非线性回声数据的生成方法。


    技术总结
    本发明公开了一种非线性回声数据的生成方法、系统、介质及设备,所述方法包括:采集通话场景下的原始语音数据,并获取原始语音数据对应的频域语音数据和频域相位信息;根据频域语音数据,使用预设的非线性滤波器对通话场景下的回声的非线性失真进行模拟,获得频域非线性回声数据;根据频域相位信息对频域非线性回声数据进行处理,获得时域非线性回声数据,以根据时域非线性回声数据进行回声消除。采用本发明的技术方案能够模拟不同通话场景下存在的非线性回声,批量生成非线性回声数据,以满足后续回声消除算法效果在不同会议场景下的鲁棒性验证和参数调优的需求,从而缩短回声消除算法的调试时间,提高回声消除算法的调试效率。

    技术研发人员:耿立宏,管晓培,任昊,汪开元,高阳,邓毅
    受保护的技术使用者:中移物联网有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-27742.html

    最新回复(0)