本发明涉及领域,尤其涉及一种机器人唤醒词灵敏度自适应场景噪音的方法及装置。
背景技术:
1、随着智能机器人技术的快速发展,语音唤醒技术是机器人与用户交互的前体。语音唤醒技术是指通过语音唤醒设备的技术,而唤醒词的唤醒灵敏度是语音唤醒技术的重要指标。当用户发出的语音信号与唤醒词的匹配程度较高,也即语音信号的得分大于唤醒词的唤醒灵敏度,此时设备被唤醒。在实际应用中,机器人所处的环境往往存在各种噪音,如背景音、人声干扰等,这些噪音严重影响机器人的唤醒词识别灵敏度,因此需要对唤醒词的唤醒灵敏度进行调节。
2、现有技术中,参见申请公布号为cn109243431a的一种处理方法、控制方法、识别方法及其装置和电子设备,其公开了调整所述设备的唤醒灵敏度包括:根据所述应用场景信息和所述灵敏度设置信息,设置所述设备的唤醒引擎的唤醒参数和/或设置所述设备的声音传感器的声音采集参数。其主要通过预先设定的固定阈值来提高识别率,难以适应复杂多变的噪音环境,使机器人在各种噪音环境下的唤醒率较低,相应唤醒词识别准确率也较差。
技术实现思路
1、为此,需要提供一种机器人唤醒词灵敏度自适应场景噪音的方法,通过动态调整唤醒词的识别阈值,结合环境噪音特征,实现唤醒词灵敏度的高精度自适应调节,从而提高机器人在各种噪音环境下的唤醒率。
2、为实现上述目的,本发明提供了一种机器人唤醒词灵敏度自适应场景噪音的方法,其包括以下步骤:
3、实时采集机器人所在场景的环境声音信号;
4、从所述环境声音信号中提取有效特征,获得噪音特征向量;
5、根据噪音特征向量实时调整唤醒词识别阈值;
6、对所述环境声音信号进行降噪处理;
7、当经过进行降噪处理的环境声音信号的能量超过唤醒词识别阈值时,使用语音识别模型对经过进行降噪处理的环境声音信号进行唤醒词识别,响应用户。
8、进一步地,从所述环境声音信号中提取有效特征,获得噪音特征向量的步骤,包括以下步骤:
9、提取环境声音信号的频域特征和时域特征,获得对应的特征;
10、将提取的特征进行融合,形成噪音特征向量。
11、进一步地,提取环境声音信号的频域特征包括采用频谱熵和/或mfcc对环境声音信号进行特征提取。
12、进一步地,提取环境声音信号的时域特征包括短时能量对环境声音信号进行特征提取。
13、进一步地,在从所述环境声音信号中提取有效特征,获得噪音特征向量的步骤时,还包括对环境声音信号进行噪音预处理的步骤。
14、进一步地,所述对环境声音信号进行噪音预处理的步骤,包括对噪音源定位和将不同方向的噪音源分离。
15、进一步地,采用多麦克风阵列通过信号到达时间差进行噪音源定位,包括以下步骤:
16、设xi(t)为第i个麦克风接采集的环境声音信号,di为第i个麦克风与噪音源的距离,c为声音传播速度,则噪音源到各麦克风的到达时间差△tij可以表示为:
17、
18、其中△tij表示声音从声源传到麦克风i和麦克风j之间的时间差,di和dj分别是声源到麦克风i和麦克风j的距离,c是声音在介质中的传播速度;
19、利用gcc-phat算法估计噪音源方向:
20、
21、其中,rij(τ)是麦克风i和麦克风j接收到的声音信号的归一化互相关函数,xi(f)和xj(f)分别为第i个和第j个麦克风信号的傅里叶变换,表示xi(f)的复共轭,ej2πfτ是相位因子,τ=△tij,表示为时延。
22、进一步地,采用波束形成的方法,将不同方向的噪音源分离:
23、
24、其中,y(t)是波束形成后的输出的环境声音信号,m表示输入信号的数量,xi(t)是第i个麦克风采集的环境声音信号;wi是波束形成权重。
25、进一步地,所述根据噪音特征向量实时调整唤醒词识别阈值的步骤,包括以下步骤:
26、引入灵敏度调整因子α,则
27、α=tf(f(t))
28、其中f(t)为噪音特征向量,f(f(t))为噪音特征向量到灵敏度因子的映射函数;
29、采用线性回归进行训练,则唤醒词识别阈值t
30、t=t0α
31、其中t0为原始唤醒词识别阈值。
32、一种机器人唤醒词灵敏度自适应场景噪音的装置,执行时实现所述的机器人唤醒词灵敏度自适应场景噪音的方法的步骤,其包括
33、环境声音采集模块,用于实时采集机器人所在场景的环境声音信号;
34、噪音特征提取模块,接收所述环境声音采集模块采集的环境声音信号,并从环境声音信号中提取有效特征,获得噪音特征向量;
35、自适应灵敏度调整模块,根据噪音特征向量实时调整唤醒词识别阈值;
36、消音降噪模块,接收所述环境声音采集模块采集的环境声音信号,并对环境声音信号进行降噪处理;
37、唤醒词识别模块,接收所述消音降噪模块降噪处理后的环境声音信号,当环境声音信号的能量超过唤醒词识别阈值时,对经过进行降噪处理的环境声音信号进行唤醒词识别,响应用户。
38、区别于现有技术,上述技术方案主要通过实时监测并评估当前环境中的噪音水平和类型,再根据实时噪音评估结果,动态实时调整唤醒词识别阈值,实现自适应调节机制,使其能够根据环境噪音的变化自动调整灵敏度,无需人工干预,再通过判断当经过降噪处理的环境声音信号的能量是否超过唤醒词识别阈值时,确定是否进行唤醒词识别,实现机器人在不同噪音环境下均能保持较高的唤醒率,以使机器人能够自适应各种复杂多变的噪音环境,提高机器人的智能化水平和用户体验。
1.一种机器人唤醒词灵敏度自适应场景噪音的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种机器人唤醒词灵敏度自适应场景噪音的方法,其特征在于,从所述环境声音信号中提取有效特征,获得噪音特征向量的步骤,包括以下步骤:
3.根据权利要求2所述的一种机器人唤醒词灵敏度自适应场景噪音的方法,其特征在于,提取环境声音信号的频域特征包括采用频谱熵和/或mfcc对环境声音信号进行特征提取。
4.根据权利要求2所述的一种机器人唤醒词灵敏度自适应场景噪音的方法,其特征在于,提取环境声音信号的时域特征包括短时能量对环境声音信号进行特征提取。
5.根据权利要求1所述的一种机器人唤醒词灵敏度自适应场景噪音的方法,其特征在于,在从所述环境声音信号中提取有效特征,获得噪音特征向量的步骤时,还包括对环境声音信号进行噪音预处理的步骤。
6.根据权利要求5所述的一种机器人唤醒词灵敏度自适应场景噪音的方法,其特征在于,所述对环境声音信号进行噪音预处理的步骤,包括对噪音源定位和将不同方向的噪音源分离。
7.根据权利要求6所述的一种机器人唤醒词灵敏度自适应场景噪音的方法,其特征在于,采用多麦克风阵列通过信号到达时间差进行噪音源定位,包括以下步骤:
8.根据权利要求6所述的一种机器人唤醒词灵敏度自适应场景噪音的方法,其特征在于,采用波束形成的方法,将不同方向的噪音源分离:
9.根据权利要求1所述的一种机器人唤醒词灵敏度自适应场景噪音的方法,其特征在于,所述根据噪音特征向量实时调整唤醒词识别阈值的步骤,包括以下步骤:
10.一种机器人唤醒词灵敏度自适应场景噪音的装置,执行时实现如权利要求1到9中任意一项所述的机器人唤醒词灵敏度自适应场景噪音的方法的步骤,其特征在于,包括