语音转换方法、装置、电子设备及存储介质与流程

技术2025-11-04 4

本技术涉及音频信息，尤其涉及一种语音转换方法、装置、电子设备及存储介质。

背景技术：

1、语音转换(vc，voice conversion)旨在改变一个说话人的音色，使该说话人的语音听起来像另一个人的音色，同时保持语音内容不变。现有技术中，语音转换方法依赖于使用声码器根据声学特征重构语音，导致转换后的语音质量不佳。

技术实现思路

1、为解决相关技术问题，本技术实施例提供一种语音转换方法、装置、电子设备及存储介质。

2、本技术实施例的技术方案是这样实现的：

3、本技术实施例提供了一种语音转换方法，包括：

4、获取源说话人的第一语音和目标说话人的第二语音；

5、调用语音预训练模型对所述第一语音进行处理，得到所述第一语音的预训练特征，所述预训练特征表征语音内容；

6、调用先验编码器对所述第一语音的预训练特征进行处理，得到第一序列，所述第一序列表征所述第一语音的预训练特征的第一潜在分布；

7、调用声纹识别模型对所述第二语音进行处理，得到第一向量，所述第一向量表征所述目标说话人的音色特征；

8、调用流模型对所述第一序列进行处理，得到第二序列，所述流模型以所述第一向量作为条件，所述第二序列表征所述第一语音的预训练特征的第二潜在分布；

9、调用解码器对所述第二序列和所述第一向量进行处理，以将所述第一语音由所述源说话人的音色转换为所述目标说话人的音色。

10、其中，上述方案中，所述语音预训练模型包括哈伯特(hubert)模型，对应地，所述预训练特征包括软hubert特征。

11、上述方案中，在所述获取源说话人的第一语音和目标说话人的第二语音之前，所述方法还包括：

12、对设定数据库中存储的每个语音样本进行分析，得到每个语音样本的线性谱、第二向量和预训练特征，所述第二向量表征语音样本对应的说话人的音色特征，所述设定数据库中存储的语音样本分别由不同的说话人发出；

13、调用后验编码器对每个语音样本的线性谱和第二向量进行处理，得到每个语音样本对应的第三序列，所述第三序列表征语音样本的线性谱的第三潜在分布，所述后验编码器以输入的第二向量为条件；

14、调用先验编码器对每个语音样本的预训练特征进行处理，得到每个语音样本对应的第四序列，所述第四序列表征语音样本的预训练特征的第一潜在分布；

15、基于所述设定数据库中每个语音样本对应的第三序列、第四序列和第二向量，训练流模型和解码器。

16、上述方案中，所述基于所述设定数据库中每个语音样本对应的第三序列、第四序列和第二向量，训练流模型和解码器，包括：

17、以所述设定数据库中第一语音样本对应的第四序列和第二语音样本对应的第二向量作为输入，训练流模型，并基于流模型输出的第五序列和第二语音样本对应的第二向量作为输入，训练解码器，其中，流模型在训练时以输入的第二向量作为条件，第五序列表征第一语音样本的预训练特征的第二潜在分布；

18、基于流模型输出的第五序列和第二语音样本对应的第三序列，判断流模型的输出是否满足第一设定收敛条件，以及基于解码器输出的语音信号和第二语音样本的语音信号，判断解码器的输出是否满足第二设定收敛条件；

19、在判断出流模型的输出满足所述第一设定收敛条件以及解码器的输出满足所述第二设定收敛条件的情况下，停止训练流模型和解码器。

20、上述方案中，所述后验编码器包括16个波网(wavenet)残差结构。

21、上述方案中，所述流模型由4个仿射耦合层组成，每个耦合层包含4个wavenet残差结构。

22、上述方案中，所述解码器包括：至少两组转置卷积以及每组转置卷积后接的多感受野融合模块，其中，所述多感受野融合模块由等大的至少两个一维卷积组成。

23、上述方案中，所述先验编码器由第一前馈神经网络(ffn，feed-forward network)和变换(transformer)块组成，其中，所述第一ffn由两层卷积组成，所述transformer块由多头注意力(ma，multi-head attention)和第二ffn组成。

24、上述方案中，所述基于流模型输出的第五序列和第二语音样本对应的第三序列，判断流模型的输出是否满足第一设定收敛条件，包括：

25、基于流模型输出的第五序列计算第一损失值，其中，所述第一损失值表征流模型输出的第五序列与第二语音样本对应的第三序列之间的匹配度；

26、在所述第一损失值小于第一设定阈值的情况下，判断流模型的输出满足所述第一设定收敛条件。

27、上述方案中，所述基于解码器输出的语音信号和第二语音样本的语音信号，判断解码器的输出是否满足第二设定收敛条件，包括：

28、基于解码器输出的语音信号和第二语音样本的语音信号计算第二损失函数的第二损失值，其中，所述第二损失值表征解码器输出的语音信号的梅尔mel谱与第二语音样本的mel谱之间的差异；

29、在所述第二损失值小于第二设定阈值的情况下，判断解码器的输出满足所述第二设定收敛条件。

30、本技术实施例还提供了一种语音转换装置，包括：

31、获取单元，用于获取源说话人的第一语音和目标说话人的第二语音；

32、第一调用单元，用于调用语音预训练模型对所述第一语音进行处理，得到所述第一语音的预训练特征，所述预训练特征表征语音内容；

33、第二调用单元，用于调用先验编码器对所述第一语音的预训练特征进行处理，得到第一序列，所述第一序列表征所述第一语音的预训练特征的第一潜在分布；

34、第三调用单元，用于调用声纹识别模型对所述第二语音进行处理，得到第一向量，所述第一向量表征所述目标说话人的音色特征；

35、第四调用单元，用于调用流模型对所述第一序列进行处理，得到第二序列，所述流模型以所述第一向量作为条件，所述第二序列表征所述第一语音的预训练特征的第二潜在分布；

36、第五调用单元，用于调用解码器对所述第二序列和所述第一向量进行处理，以将所述第一语音由所述源说话人的音色转换为所述目标说话人的音色。

37、本技术实施例还提供了一种电子设备，包括：音频采集装置、处理器及存储器；

38、所述音频采集装置，用于获取源说话人的第一语音和目标说话人的第二语音；

39、所述存储器，用于存储语音预训练模型、先验编码器、声纹识别模型、流模型及解码器；

40、所述处理器，用于调用语音预训练模型对所述第一语音进行处理，得到所述第一语音的预训练特征，所述预训练特征表征语音内容；

41、所述处理器，还用于调用先验编码器对所述第一语音的预训练特征进行处理，得到第一序列，所述第一序列表征所述第一语音的预训练特征的第一潜在分布；

42、所述处理器，还用于调用声纹识别模型对所述第二语音进行处理，得到第一向量，所述第一向量表征所述目标说话人的音色特征；

43、所述处理器，还用于调用流模型对所述第一序列进行处理，得到第二序列，所述流模型以所述第一向量作为条件，所述第二序列表征所述第一语音的预训练特征的第二潜在分布；

44、所述处理器，还用于调用解码器对所述第二序列和所述第一向量进行处理，以将所述第一语音由所述源说话人的音色转换为所述目标说话人的音色。

45、本技术实施例还提供了一种电子设备，包括：第一处理器和用于存储能够在处理器上运行的计算机程序的第一存储器，

46、其中，所述第一处理器用于运行所述计算机程序时，执行上述任一种语音转换方法的步骤。

47、本技术实施例还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种语音转换方法的步骤。

48、本技术实施例提供的语音转换方法、装置、电子设备及存储介质，调用语音预训练模型对源说话人的第一语音进行处理，得到第一语音的预训练特征，该预训练特征表征语音内容；调用先验编码器对第一语音的预训练特征进行处理，得到第一序列，该第一序列表征第一语音的预训练特征的第一潜在分布；调用声纹识别模型对目标说话人的第二语音进行处理，得到第一向量，该第一向量表征目标说话人的音色特征；之后，调用流模型对第一序列进行处理，得到第二序列，该流模型以第一向量作为条件，该第二序列表征第一语音的预训练特征的第二潜在分布；最后，调用解码器对第二序列和第一向量进行处理，以将第一语音由源说话人的音色转换为目标说话人的音色。可以看出，在上述语音转换方案中，只需要将源说话人和目标说话人的语音进行输入，就能够完成源说话人与目标说话人之间的音色转换，直接输出音色转换后的语音波形，语音转换过程不再需要借助声码器来进行语音合成，由此避免了因声码器级联而带来的累积错误，从而有效地提高了音色转换后的语音质量。

技术特征：

1.一种语音转换方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语音预训练模型包括哈伯特hubert模型，对应地，所述预训练特征包括软hubert特征。

3.根据权利要求1所述的方法，其特征在于，在所述获取源说话人的第一语音和目标说话人的第二语音之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述设定数据库中每个语音样本对应的第三序列、第四序列和第二向量，训练流模型和解码器，包括：

5.根据权利要求3所述的方法，其特征在于，所述后验编码器包括16个波网wavenet残差结构。

6.根据权利要求1至3任一项所述的方法，其特征在于，所述流模型由4个仿射耦合层组成，每个耦合层包含4个wavenet残差结构。

7.根据权利要求1至3任一项所述的方法，其特征在于，所述解码器包括：至少两组转置卷积以及每组转置卷积后接的多感受野融合模块，其中，所述多感受野融合模块由等大的至少两个一维卷积组成。

8.根据权利要求1至3任一项所述的方法，其特征在于，所述先验编码器由第一前馈神经网络ffn和变换transformer块组成，其中，所述第一ffn由两层卷积组成，所述transformer块由多头注意力ma和第二ffn组成。

9.根据权利要求4所述的方法，其特征在于，所述基于流模型输出的第五序列和第二语音样本对应的第三序列，判断流模型的输出是否满足第一设定收敛条件，包括：

10.根据权利要求3所述的方法，其特征在于，所述基于解码器输出的语音信号和第二语音样本的语音信号，判断解码器的输出是否满足第二设定收敛条件，包括：

11.一种语音转换装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：音频采集装置、处理器及存储器；

13.一种电子设备，其特征在于，包括：第一处理器和用于存储能够在处理器上运行的计算机程序的第一存储器，

14.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10任一项所述方法的步骤。

技术总结
本申请公开了一种语音转换方法、装置、电子设备及存储介质，其中，语音转换方法包括：调用语音预训练模型对源说话人的第一语音进行处理，得到第一语音的预训练特征，预训练特征表征语音内容；调用先验编码器对第一语音的预训练特征进行处理，得到第一序列，第一序列表征第一语音的预训练特征的第一潜在分布；调用声纹识别模型对目标说话人的第二语音进行处理，得到第一向量，第一向量表征目标说话人的音色特征；之后，调用流模型对第一序列进行处理，得到第二序列，流模型以第一向量作为条件，第二序列表征第一语音的预训练特征的第二潜在分布；最后，调用解码器对第二序列和第一向量进行处理，以实现源说话人和目标说话人之间的音色转换。

技术研发人员：钟荣秀,许乐,刘莹,杨会宝,张世磊,邓超
受保护的技术使用者：中国移动通信有限公司研究院
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-36108.html

专利

最新回复(0)