用于语音处理的神经网络模型的训练方法、装置与流程

技术2025-11-08 19

本发明涉及人工智能领域，特别地，涉及用于语音处理的神经网络模型的训练方法。

背景技术：

1、随着人工智能技术的发展，越来越多应用采用了人工智能技术。在音频处理方面，例如，用于声音事件检测的神经网络模型、用于语音增强的神经网络模型、用于回声消除的神经网络模型等用于语音处理的神经网络模型都得以广泛应用。其中，声音事件检测(sed，sound event detection)是指识别环境中的声音来检测事件的发生，例如“婴儿哭声、爆炸声、狗叫声”等；语音增强(speech enhancement)是一种当语音信号被各种各样噪声干扰时，从背景噪声中提取出干净的语音信号，抑制噪声的技术；回声消除(echocancellation)是指在双工通讯时，消除由扬声器播放产生的远端信号。

技术实现思路

1、本发明提供了一种用于语音处理的神经网络模型的训练方法，以对用于语音处理的神经网络模型用进行训练。

2、本发明第一方面提供一种用于语音处理的神经网络模型的训练方法，该方法包括：

3、根据至少一个以上待训练模型，选择待训练模型对应的样本数据，其中，每个待训练模型的样本数据单独构建，

4、将所选择的样本数据以批次维度进行级联，得到第一样本输入数据，

5、对第一样本输入数据进行通道维度级联，得到级联后的样本输入数据，

6、基于级联后的样本输入数据进行特征提取，得到可被各待训练模型共享的样本特征数据，

7、将所提取的样本特征数据输入至待训练模型，

8、根据待训练模型输出结果与目标结果之间的损失函数值，调整待训练模型的模型参数，直至待训练模型达到预期。

9、本发明第二方面提供一种用于语音处理的神经网络模型的训练装置，该装置包括：

10、样本获取模块，用于根据至少一个以上待训练模型，选择对应的样本数据，其中，每个待训练模型的样本数据单独构建，将所选择的样本数据以批次维度进行级联，得到第一样本输入数据，

11、级联器，用于对第一样本输入数据进行通道维度级联，得到级联后的样本输入数据，

12、特征提取器，用于基于级联后的样本输入数据进行特征提取，得到可被各待训练模型共享的样本特征数据，

13、训练模块，用于将所提取的样本特征数据输入至待训练模型，根据待训练模型输出结果与目标结果之间的损失函数值，调整待训练模型的模型参数，直至待训练模型达到预期。

14、本发明第三方面提供一种用于语音处理的神经网络模型的推理方法，该方法包括：

15、获取待处理语音数据，

16、利用训练后的用于语音处理的神经网络模型对待处理语音数据进行语音处理，

17、其中，

18、用于语音处理的神经网络模型采用任一所述训练方法的步骤进行训练。

19、本发明第四方面提供一种用于语音处理的神经网络模型的推理装置，该装置包括：

20、获取模块，用于获取待处理语音数据，

21、语音处理模块，利用训练后的用于语音处理的神经网络模型对待处理语音数据进行语音处理，

22、其中，

23、用于语音处理的神经网络模型采用所述训练方法的步骤进行训练。

24、本申请提供的一种用于语音处理的神经网络模型的训练方法，通过将所选择的样本数据以批次维度进行级联得到样本输入数据，通过对样本输入数据进行级联以及特征提取，有利于实现多任务的联合训练，有利于减少模型参数量，提高单任务训练的训练效率。

技术特征：

1.一种用于语音处理的神经网络模型的训练方法，其特征在于，该方法包括：

2.如权利要求1所述的训练方法，其特征在于，所述对第一样本输入数据进行通道维度级联包括：

3.如权利要求2所述的训练方法，其特征在于，在待训练模型包括仅有待训练回声消除模型的情形下，所述将所选择的样本数据以批次维度进行级联，包括：

4.如权利要求3所述的训练方法，其特征在于，所述对第一样本输入数据进行通道维度级联，进一步包括：

5.如权利要求4所述的训练方法，其特征在于，所述将第一样本输入数据和第二样本输入数据进行级联，包括：

6.如权利要求2或5所述的训练方法，其特征在于，在待训练模型包括有除待训练回声消除模型之外的其它两个以上待训练模型的情形下：

7.如权利要求6所述的训练方法，其特征在于，所述其它两个以上待训练模型包括：待训练声音事件检测模型、以及待训练语音增强模型，所述待训练语音增强模型还包括：用于人声活动检测的分类器，

8.如权利要求7所述的训练方法，其特征在于，所述第二样本数据如下方式获得：

9.一种用于语音处理的神经网络模型的训练装置，其特征在于，该装置包括：

10.一种用于语音处理的神经网络模型的推理方法，其特征在于，该方法包括：

11.如权利要求10所述的推理方法，其特征在于，所述用于语音处理的神经网络模型包括：训练后的声音事件检测模型、以及训练后的语音增强模型，

12.如权利要求11所述的推理方法，其特征在于，所述用于语音处理的神经网络模型还包括训练后的回声消除模型，

13.一种用于语音处理的神经网络模型的推理装置，其特征在于，该装置包括：

14.如权利要求13所述的推理装置，其特征在于，所述用于语音处理的神经网络模型包括：训练后的声音事件检测模型、以及训练后的语音增强模型，

15.如权利要求14所述的推理装置，其特征在于，所述语音增强子模块还包括，用于利用训练后的语音增强模型，对第二特征数据进行人声活动检测，

技术总结
本申请公开了一种用于语音处理的神经网络模型的训练方法，该方法包括：根据至少一个以上待训练模型，选择待训练模型对应的样本数据，其中，每个待训练模型的样本数据单独构建，将所选择的样本数据以批次维度进行通道维度级联，得到第一样本输入数据，对第一样本输入数据进行级联，得到级联后的样本输入数据，基于级联后的样本输入数据进行特征提取，得到可被各待训练模型共享的样本特征数据，将所提取的样本特征数据输入至待训练模型，根据待训练模型输出结果与目标结果之间的损失函数值，调整待训练模型的模型参数，直至待训练模型达到预期。本申请有利于实现多任务联合训练，提高训练效率。

技术研发人员：尹旭贤,艾国,杨作兴
受保护的技术使用者：深圳比特微电子科技有限公司
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-36350.html

专利

最新回复(0)