用于基于面部检测的多通道波束成形的音频源分离的制作方法

技术2026-01-29 5

本实现方式总体上涉及信号处理，并且具体地涉及用于基于面部检测的多通道波束成形的音频源分离。

背景技术：

1、波束成形是一种信号处理技术，其能够聚焦在空间方向上发射或接收的信号的能量。例如，波束成形器可以通过在麦克风输出处的信号组合来改善由麦克风阵列检测到的语音的质量。更具体地，波束成形器可以将相应的权重应用于由麦克风阵列中的每个麦克风输出的音频信号，使得当音频信号被组合时，在语音的方向上的信号强度被增强(或在噪声的方向上的信号强度被抑制)。自适应波束成形器能够动态地调整麦克风输出的权重以优化组合音频信号的质量或信噪比(snr)。因此，自适应波束成形器可以适应环境中的改变。除了其他示例之外，示例自适应波束成形技术包括最小均方误差(mmse)波束成形、最小方差无失真响应(mvdr)波束成形和广义特征值(gev)波束成形。

2、在远场应用中，自适应波束成形器可能无法区分源自目标音频源(诸如麦克风阵列的用户)的语音和源自干扰项(distractor)音频源(诸如在背景中说话的人)的语音。因此，当目标音频源和干扰项音频源同时说话时，自适应波束成形器可能无法将干扰项语音抑制为背景噪声。因此，存在对于通过远场应用中的自适应波束成形器来改善目标语音和干扰项语音的分离的需要。

技术实现思路

1、提供本
技术实现要素：
是为了以简化形式介绍下面在具体实施方式中进一步描述的概念的选择。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在限制所要求保护的主题的范围。

2、本公开的主题的一个创新方面可在处理音频信号的方法中实现。该方法包括：经由多个麦克风接收音频信号；接收与音频信号的帧相关联的图像；检测接收的图像中的一个或多个面部；在接收的图像中检测到的一个或多个面部之中选择一数量的(n个)目标面部；确定n个目标面部中的每个相对于多个麦克风的相应方向；以及至少部分地基于n个目标面部的方向，朝向音频信号的到达方向(doa)选择性地引导与多通道波束成形器相关联的波束。

3、本公开的主题的另一创新方面可在包括处理系统和存储器的语音增强系统中实现。所述存储器存储指令，所述指令在由所述处理系统执行时使得所述语音增强系统经由多个麦克风接收音频信号；接收与所述音频信号的帧相关联的图像；检测接收的图像中的一个或多个面部；在接收的图像中检测到的一个或多个面部之中选择一数量的(n个)目标面部；确定所述n个目标面部中的每个相对于所述多个麦克风的相应方向；以及至少部分地基于n个目标面部的方向，朝向音频信号的doa选择性地引导与多通道波束成形器相关联的波束。

技术特征：

1.一种处理音频信号的方法，包括：

2.根据权利要求1所述的方法，其中n＝1。

3.根据权利要求2所述的方法，其中选择n个目标面部包括：

4.根据权利要求1所述的方法，其中n>1。

5.根据权利要求4所述的方法，其中所述一个或多个面部中的每个被选择为所述n个目标面部中的相应一个。

6.根据权利要求1所述的方法，还包括：

7.根据权利要求6所述的方法，其中选择性地引导所述波束包括：

8.根据权利要求6所述的方法，其中选择性地引导所述波束包括：

9.根据权利要求6所述的方法，其中所述多通道波束成形器包括最小方差无失真响应(mvdr)波束成形器，所述最小方差无失真响应波束成形器减小所述音频信号的噪声分量的功率而不使所述音频信号的语音分量失真。

10.根据权利要求9所述的方法，还包括：

11.根据权利要求10所述的方法，还包括：

12.根据权利要求10所述的方法，还包括：

13.一种语音增强系统，包括：

14.根据权利要求13所述的语音增强系统，其中n＝1并且选择n个目标面部包括：

15.根据权利要求13所述的语音增强系统，其中n>1并且所述一个或多个面部中的每个被选择为所述n个目标面部中的相应一个。

16.根据权利要求13所述的语音增强系统，其中所述指令的执行进一步使得所述语音增强系统：

17.根据权利要求16所述的语音增强系统，其中选择性地引导所述波束包括：

18.根据权利要求16所述的语音增强系统，其中所述多通道波束成形器包括最小方差无失真响应(mvdr)波束成形器，所述最小方差无失真响应波束成形器减小所述音频信号的噪声分量的功率而不使所述音频信号的语音分量失真。

19.根据权利要求18所述的语音增强系统，其中所述指令的执行进一步使得所述语音增强系统：

20.根据权利要求19所述的语音增强系统，其中所述指令的执行进一步使得所述语音增强系统：

技术总结
本公开提供了用于语音增强的方法、设备和系统。本实现方式更具体地涉及利用多种模态来抑制源自干扰项音频源的音频，而不使源自目标音频源的音频失真。在一些方面中，语音增强系统可经由麦克风阵列接收多通道音频信号且可进一步接收与音频信号的相应帧相关联的图像。语音增强系统检测图像中的一个或多个目标面部，并且确定音频帧是否源自目标音频源。举例来说，语音增强系统可将每一目标面部的相应方向与音频帧的到达方向(DOA)进行比较。语音增强系统可基于音频帧是否源自目标面部而朝向音频帧的DOA选择性地引导与多通道波束成形器相关联的波束。

技术研发人员：S·莫萨耶布尔卡斯卡里
受保护的技术使用者：辛纳普蒂克斯公司
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-39643.html

专利

最新回复(0)