一种语音活动检测方法、装置、设备及存储介质与流程

技术2025-06-09 58

本发明涉及语音活动检测，具体的说，涉及的是一种语音活动检测方法、装置、设备及存储介质。

背景技术：

1、语音活动检测vad(voice activity detection)是指通过准确识别一段语音信号中的起始点和结束点，区分出语音信号和噪音信号的过程，是语音分析、语音合成和语音活动检测等领域中的一个重要环节。语音活动检测通过识别并去除噪音段数据，节省数据处理时间，提升语音活动检测的精度，在实际应用中具有重要的研究意义。

2、现有技术中，普遍通过设置门限、采用似然比波动方式或采用统计模型等方式来进行语音判别，通常在外界环境噪声较小的情况下，这些传统的语音活动检测方式一般能取得较理想的结果，但当应用环境过于复杂时，其效果很难满足实际应用需求。

技术实现思路

1、基于此，本发明提供了一种语音活动检测方法、装置、设备及存储介质，其能够通过将待检声音信号的频谱信息输入语音检测模块，通过卷积神经网络、循环神经网络和全连接网络来逐帧计算所述待检声音信号的语音活动检测结果，具备较好的抗环境干扰能力，适用于复杂的应用环境，满足实际应用需求。

2、为实现上述目的，本发明实施例提供了一种语音活动检测方法，包括：

3、将获取的待检声音信号的频谱信息输入语音检测模型，其中，所述语音检测模型为卷积神经网络、循环神经网络和全连接网络串联的模型；

4、利用所述卷积神经网络对所述频谱信息进行降维处理，得到降维信息；

5、利用所述循环神经网络提取所述降维信息的特征信息；

6、利用所述全连接网络对所述特征信息进行语音活动检测，得到所述待检声音信号的语音活动检测结果；其中，所述语音活动检测结果为语音或非语音。

7、作为上述方案的改进，所述循环神经网络包括至少两个级联的双向gru层或者至少两个级联的双向lstm层。

8、作为上述方案的改进，所述循环神经网络包括两个级联双向gru层；其中，所述gru层的输入大小和输出大小均为t×1024，t为所述频谱信息关联的预设帧时长，所述gru层的超参数设置为隐含层节点数量为1024。

9、作为上述方案的改进，所述卷积神经网络包括至少两个卷积层和与每一所述卷积层对应的池化层；

10、所述利用所述卷积神经网络对所述频谱信息进行降维处理，得到降维信息，包括：

11、采用因果卷积方式，通过所述卷积层和所述池化层对所述频谱信息进行降维处理，得到降维信息。

12、作为上述方案的改进，所述卷积神经网络由第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层依次串联得到，每一卷积层的卷积核均为(2,3)，卷积步长均为(1,2)；

13、所述第一卷积层，其输入大小为1×t×161，输出大小为16×t×80，深度为16；其中，t为所述频谱信息关联的预设帧时长；所述第二卷积层，其输入大小为16×t×80，输出大小为32×t×39，深度为32；所述第三卷积层，其输入大小为32×t×39，输出大小为64×t×19深度为64；所述第四卷积层，其输入大小为64×t×19，输出大小为128×t×9，深度为128；所述第五卷积层，其输入大小为128×t×9，输出大小为256×t×4，深度为256。

14、作为上述方案的改进，所述语音检测模型还包括第一重构层和第二重构层，所述第一重构层串联在所述卷积神经网络之前，所述第二重构层串联在所述卷积神经网络和所述循环神经网络之间，所述第一重构层的输入大小为t×a，所述第一重构层的输出大小等于所述卷积神经网络的输入大小，所述第二重构层的输入大小等于所述卷积神经网络的输出大小，所述第二重构层的输出大小等于所述循环神经网络的输入大小；其中，a为所述频谱信息的维度，t为所述频谱信息关联的预设帧时长。

15、作为上述方案的改进，所述将获取的待检声音信号的频谱信息输入语音检测模型之前，还包括：

16、按照预设采样频率对输入的待检声音信号进行采样，得到离散信号；

17、按照预设帧时长、预设帧间隔对所述离散信号进行划分，得到若干信号段；

18、分别对每一所述信号段进行傅里叶变换，得到与每一所述信号段关联的频谱信息。

19、为实现上述目的，本发明实施例还提供了一种语音活动检测装置，包括：

20、输入模块，用于将获取的待检声音信号的频谱信息输入语音检测模型，其中，所述语音检测模型为卷积神经网络、循环神经网络和全连接网络串联的模型；

21、降维模块，用于利用所述卷积神经网络对所述频谱信息进行降维处理，得到降维信息；

22、特征提取模块，用于利用所述循环神经网络提取所述降维信息的特征信息；

23、语音活动检测模块，用于利用所述全连接网络对所述特征信息进行语音活动检测，得到所述待检声音信号的语音活动检测结果；其中，所述语音活动检测结果为语音或非语音。

24、为实现上述目的，本发明实施例还提供了一种语音活动检测设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一实施例所述的语音活动检测方法。

25、为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的语音活动检测方法。

26、与现有技术相比，本发明实施例公开的语音活动检测方法、装置、设备及存储介质，通过将获取的待检声音信号的频谱信息输入语音检测模型，其中，所述语音检测模型为卷积神经网络、循环神经网络和全连接网络串联的模型；利用所述卷积神经网络对所述频谱信息进行降维处理，得到降维信息；利用所述循环神经网络提取所述降维信息的特征信息；利用所述全连接网络对所述特征信息进行语音活动检测，得到所述待检声音信号的语音活动检测结果；其中，所述语音活动检测结果为语音或非语音。由此可见，本发明实施例通过将待检声音信号的频谱信息输入语音检测模块，通过卷积神经网络、循环神经网络和全连接网络来逐帧计算所述待检声音信号的语音活动检测结果，具备较好的抗环境干扰能力，适用于复杂的应用环境，满足实际应用需求。

技术特征：

1.一种语音活动检测方法，其特征在于，包括：

2.如权利要求1所述的语音活动检测方法，其特征在于，所述循环神经网络包括至少两个级联的双向gru层或者至少两个级联的双向lstm层。

3.如权利要求2所述的语音活动检测方法，其特征在于，所述循环神经网络包括两个级联双向gru层；其中，所述gru层的输入大小和输出大小均为t×1024，t为所述频谱信息关联的预设帧时长，所述gru层的超参数设置为隐含层节点数量为1024。

4.如权利要求1所述的语音活动检测方法，其特征在于，所述卷积神经网络包括至少两个卷积层和与每一所述卷积层对应的池化层；

5.如权利要求4所述的语音活动检测方法，其特征在于，所述卷积神经网络由第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层依次串联得到，每一卷积层的卷积核均为(2,3)，卷积步长均为(1,2)；

6.如权利要求1所述的语音活动检测方法，其特征在于，所述语音检测模型还包括第一重构层和第二重构层，所述第一重构层串联在所述卷积神经网络之前，所述第二重构层串联在所述卷积神经网络和所述循环神经网络之间，所述第一重构层的输入大小为t×a，所述第一重构层的输出大小等于所述卷积神经网络的输入大小，所述第二重构层的输入大小等于所述卷积神经网络的输出大小，所述第二重构层的输出大小等于所述循环神经网络的输入大小；其中，a为所述频谱信息的维度，t为所述频谱信息关联的预设帧时长。

7.如权利要求1所述的语音活动检测方法，其特征在于，所述将获取的待检声音信号的频谱信息输入语音检测模型之前，还包括：

8.一种语音活动检测装置，其特征在于，包括：

9.一种语音活动检测设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的语音活动检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的语音活动检测方法。

技术总结
本发明公开一种语音活动检测方法、装置、设备及存储介质，将获取的待检声音信号的频谱信息输入语音检测模型，其中，语音检测模型为卷积神经网络、循环神经网络和全连接网络串联的模型；利用卷积神经网络对频谱信息进行降维处理，得到降维信息；利用循环神经网络提取降维信息的特征信息；利用全连接网络对特征信息进行语音活动检测，得到待检声音信号的语音活动检测结果；其中，语音活动检测结果为语音或非语音。本发明实施例通过将待检声音信号的频谱信息输入语音检测模块，通过卷积神经网络、循环神经网络和全连接网络来计算所述待检声音信号的语音活动检测结果，具备较好的抗环境干扰能力，适用于复杂的应用环境，满足实际应用需求。

技术研发人员：黄川
受保护的技术使用者：中移物联网有限公司
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-32120.html

专利

最新回复(0)