本发明属于语音处理和生物识别,具体涉及语种识别模型训练方法及识别方法、系统。
背景技术:
1、自二十世纪九十年代起,神经网络便开始兴起,而神经网络的第一次被成功的应用则是在2009年,它在网络算法中扮演着特征提取器的角色。深度神经网络(deepneuralnetwork,dnn)在2014年被提出,且验证了其性能强于ivector算法。之后,卷积神经网络(convolutional neutral networks,cnn)、循环神经网络(recurrent neuralnetwork,rnn)、时延神经网络(time-delay neural network,tdnn)等算法被陆续提出,且都在语种识别的研究中取得了良好的成绩。为改善rnn网络中存在的梯度爆炸和梯度消失等不足,gonzalez等人提出了lstm-rnn算法。为了在语种识别的过程中模型能更关注于语种相关的有效信息,geng等提出了利用注意力机制模型来改良模型性能。现阶段,在语种识别的领域中,研究者们对于端到端的识别算法模型的研究正在不断探索中前进,端到端的语种识别是深度学习算法中的一个重要研究方向。
2、语种识别是指根据音频信号的特征来确定音频属于哪一种语言类型。首先,从输入的语音信号中提取特征,可能包括声谱图、梅尔频率倒谱系数(mfcc)、线性预测编码(lpc)系数、过零率等。这些特征能够捕捉到语音信号的频率、能量、时域特性等信息。接着对提取到的特征进行归一化处理,以确保不同语言之间的特征在尺度上保持一致,这有助于提高分类的准确性。利用已知语种的语音样本,建立语音语种识别模型。常见的模型包括高斯混合模型(gmm)、支持向量机(svm)、深度神经网络(dnn)等。在训练过程中,模型学习如何从特征中区分不同语种的模式。最后利用训练好的模型,对新的语音信号进行分类和识别。根据以上这些步骤和方法,语音语种识别系统可以有效地对不同语种的语音进行自动识别和分类。
3、当使用神经网络作为语音语种识别系统的模型时,选择适当的目标函数是至关重要的。神经网络的目标函数应该能够有效地衡量模型预测输出与真实语种标签之间的差异,并且能够在训练过程中引导模型参数的更新,使得模型能够更好地适应语种分类任务。当考虑神经网络的目标函数时,可以将其分为基于分类和基于度量的学习两种类型。基于分类的函数通常用于分类任务,例如softmax损失和交叉熵损失。这些函数侧重于区分不同类别的数据,但在度量同一类别内数据的相似性方面不是很有效,这可能会影响不同领域的鲁棒性。为了弥补这一不足,可以在基于分类的函数中引入度量学习的思想。基于度量学习的目标函数侧重于直接度量特征之间的相似度。这些函数可以引导网络学习更紧凑的表示,使特征在同一类别中更相似,在不同类别之间更分散。基于度量学习的典型函数包括n对损失、对比损失、三元组损失等,它们监督网络达到更好的性能。
4、但是现有的训练方式中,损失函数的形式,以及三元组损失选择样本的策略,都不能有效的对语种(含常规的语种,以及方言)数据进行利用,从而使得用于语种识别的数据训练有效性不高的问题,进而影响了模型的分类效果。
技术实现思路
1、本发明的目的是为了解决利用现有的训练方式对语种识别模型进行训练时存在损失函数针对语种识别的数据训练有效性不高的问题,以及导致的模型训练效果有待于提高的问题。
2、基于优化三元组损失的语种识别模型训练方法,包括以下步骤:
3、将训练集中的音频送入多语种音频识别模型进行处理,利用训练集对多语种音频识别模型进行训练,在训练过程中,基于改进的三元组损失确定总损失,
4、所述的改进的三元组损失如下:
5、
6、其中,n代表样本总数,a代表锚点样本,即锚定样本;p代表与锚点同一类别的正样本,n代表与锚点是不同类别的负样本,d(a,p)和d(a,n)是锚点样本和正样本、负样本之间的距离,d(p,n)是正样本和负样本之间的距离;margin是一个超参数;
7、基于总损失实现对多语种音频识别模型的训练,得到训练好的多语种音频识别模型。
8、进一步地,在计算改进的三元组损时,采用改进的困难选择策略选择样本,改进的困难选择策略:在选取正样本时,选择离锚点距离最远的正样本;选择负样本时,用随机选择的方式。
9、进一步地,基于改进的三元组损失确定的总损失l总=αlce+(1-α)ltriplet,其中lce为交叉熵损失。
10、进一步地,交叉熵损失其中c为音频数据样本类别数量;yij为符号函数,取0或1,如果音频数据样本i的真实类别等于j,则取1,否则取0;pij为预测音频数据样本i属于类别j的概率,n表示输入的音频数据样本总数。
11、进一步地,所述距离采用余弦相似度计算得到。
12、进一步地,所述的多语种音频识别模型如下:
13、输入首先进入wav2vec2模型得到音频特征序列,然后将音频特征序列依次送入1维卷积层、池化层、前馈神经网络、全连接层和一个分类器,本实施方式中采用softmax实现分类。
14、一种基于优化三元组损失的语种识别方法,针对待识别的音频,采用所述的基于优化三元组损失的语种识别模型训练方法训练得到的多语种音频识别模型进行识别,得到待识别的音频的语种。
15、一种基于优化三元组损失的语种识别系统,包括:
16、待识别的音频识别单元,加载或调取多语种音频识别模型对待识别的音频进行识别,得到待识别的音频的语种;
17、所述的多语种音频识别模型为所述的基于优化三元组损失的语种识别模型训练方法训练得到的多语种音频识别模型。
18、进一步地,所述系统还包括:待识别的音频获取单元,用于获取待识别的音频。
19、有益效果:
20、本发明提出了一种基于优化三元组损失的语种识别模型训练方法,本发明训练过程中的损失函数,可以有效的针对语种识别的数据进行训练,提高了用于语种识别的数据训练有效性,进而提高了语种的分类效果。此外,本发明在考虑锚点和正样本距离、锚点负样本距离的基础上添加了对正负样本距离的考虑,以及在选择样本的策略上进行了优化,降低训练过程中目标函数计算的时间复杂度,而且在降低时间复杂度的同时也提高了语种识别的准确率。对比实验在数据集olr2020上进行验证,与其他目标函数相比,本发明方法有效提高了语种识别系统的性能。
1.基于优化三元组损失的语种识别模型训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于优化三元组损失的语种识别模型训练方法,其特征在于,在计算改进的三元组损时,采用改进的困难选择策略选择样本,改进的困难选择策略:在选取正样本时,选择离锚点距离最远的正样本;选择负样本时,用随机选择的方式。
3.根据权利要求1所述的基于优化三元组损失的语种识别模型训练方法,其特征在于,基于改进的三元组损失确定的总损失l总=αlce+(1-α)ltriplet,其中lce为交叉熵损失。
4.根据权利要求3所述的基于优化三元组损失的语种识别模型训练方法,其特征在于,交叉熵损失其中c为音频数据样本类别数量;yij为符号函数,取0或1,如果音频数据样本i的真实类别等于j,则取1,否则取0;pij为预测音频数据样本i属于类别j的概率,n表示输入的音频数据样本总数。
5.根据权利要求1所述的基于优化三元组损失的语种识别模型训练方法,其特征在于,所述距离采用余弦相似度计算得到。
6.根据权利要求1至5任意一项所述的基于优化三元组损失的语种识别模型训练方法,其特征在于,所述的多语种音频识别模型如下:
7.一种基于优化三元组损失的语种识别方法,其特征在于,针对待识别的音频,采用权利要求1至6任意一项所述的基于优化三元组损失的语种识别模型训练方法训练得到的多语种音频识别模型进行识别,得到待识别的音频的语种。
8.一种基于优化三元组损失的语种识别系统,其特征在于,包括:
9.根据权利要求8所述的一种基于优化三元组损失的语种识别系统,其特征在于,所述系统还包括:待识别的音频获取单元,用于获取待识别的音频。