本发明涉及语音识别合成,具体为一种交互式语音编辑与合成系统。
背景技术:
1、语音识别技术是将人类语音信号转换成对应的文本或命令的技术,主要包括声音采集、预处理、特征提取、建模与训练、解码与识别等步骤,广泛应用于语音助手等场景,语音合成技术是一种将文字信息转换为可听语音输出的技术,语音合成的基本过程包括输入文本分析、语言处理、韵律处理和声学处理等阶段,主要应用于智能客服,智能家居等场景。
2、目前的语音识别和语音合成技术大多是基于传统机器学习实现,并且两个环节相对独立和割裂,语音识别的输入是语音,语音合成的输入一般是文字,而且对于语音合成技术来说通常语音效果不佳,机器合成语态明显,而且不能解决语音-文字-语音的连贯流程,无法满足用户对语音内容的实时编辑和再合成的需求。
3、于是,有鉴于此,针对现有的结构及缺失予以研究改良,提出一种交互式语音编辑与合成系统。
技术实现思路
1、针对现有技术的不足,本发明提供了一种交互式语音编辑与合成系统,解决了上述背景技术中提出的问题。
2、为实现以上目的,本发明通过以下技术方案予以实现:一种交互式语音编辑与合成系统,包括下述步骤:
3、s1、语音识别转文字:
4、利用语音识别模块识别输入的语音内容,并将其转换为文字并加以显示,若用户无需对文字内容加以修改则直接输出语音;
5、s2、文本修改:
6、若用户需要对文字内容加以修改会产生以下情况:
7、a:文本内容全修改;
8、b:文本内容删除;
9、c:文本内容增加;
10、其中,c情况中又分为以下两种情况:
11、c1:增加的内容与原文本有重复;
12、c2:增加的内容与原文本不重复;
13、基于以上情况文本编辑模块实时扫描修改内容,并判断用户修改文字内容的具体操作属于上述a-c任一情况;
14、s3、文本协作编辑:
15、文本编辑模块支持多用户同时编辑同一文本内容,通过云端同步技术确保不同用户之间的编辑内容实时更新和同步;
16、s4、文字转语音合成:
17、基于文本编辑模块对修改内容时具体操作的情况判断,由语音合成模块基于文字生成对应的语音片段,而生成的语音片段对应文本编辑模块所判断的情况具体如下:
18、a:文本内容全修改,若为该情况则语音合成模块将输入的语音作为prompt并推理生成新文本对应的语音片段;
19、b:文本内容删除,若为该情况则语音合成模块直接将输入语音对应的语音片段删除并做平滑处理;
20、c1:增加的内容与原文本有重复,则语音合成模块将原文本对应的输入语音切片后粘贴至新增加文本对应的语音片段;
21、c2:增加的内容与原文本不重复,则语音合成模块将输入的语音作为prompt并推理生成新文本对应的语音片段;
22、s5、生成输出语音:
23、基于文字修改后转语音生成的语音片段结合输入语音进行合成后生成输出语音。
24、进一步的,所述步骤s1中,语音识别模块采用大模型深度学习的语音识别技术,如深度神经网络或循环神经网络,深度神经网络简称dnn,循环神经网络简称rnn。
25、进一步的,所述步骤s1中,语音识别模块利用大规模的语音数据集进行模型训练,如librispeech或ted-lium,并通过数据预处理、特征提取和模型训练此类步骤提高语音识别模块对多种语言和方言的识别能力。
26、进一步的,所述步骤s1中,语音识别模块还采用流式语音识别技术,对输入语音进行实时处理以减少识别延迟。
27、进一步的,所述步骤s3中,语音合成模块采用端到端语音合成模型,如tacotron 2或wavenet以确保输出语音的自然流畅度。
28、进一步的,所述步骤s3中,语音合成模块支持音色、语调和音量选择,并能够通过将输入语音作为prompt进行训练推理,基于大模型技术进行声音克隆并允许用户根据个人喜好进行个性化设置。
29、进一步的,所述步骤s3中,语音合成模块通过训练不同的语音模型或使用语音转换技术,实现定制化音色、语调和音量的语音输出。
30、进一步的,所述步骤s3中,语音合成模块采用波形建模和语音编码技术,对合成语音进行音质优化和压缩处理。
31、进一步的,所述交互式语音编辑与合成系统应用于人工智能领域。
32、本发明提供了一种交互式语音编辑与合成系统,具备以下有益效果:
33、1.该交互式语音编辑与合成系统,在集成了语音识别、文本编辑和语音合成技术的基础上,为用户带来了显著的效果和便利,用户可以通过语音直接输入内容,省去了手动输入的繁琐步骤,大大提高了输入效率,实时语音识别和语音合成技术确保用户能够即时听到编辑后的内容,减少了等待时间,该发明的实现和应用将推动语音识别、文本编辑和语音合成技术的进一步发展,促进相关领域的技术创新和产业升级,通过不断优化和改进系统性能,提高识别准确率和语音合成质量,将进一步拓展该系统的应用领域和市场前景。
1.一种交互式语音编辑与合成系统,其特征在于:包括下述步骤:
2.根据权利要求1所述的一种交互式语音编辑与合成系统,其特征在于:所述步骤s1中,语音识别模块采用大模型深度学习的语音识别技术,如深度神经网络或循环神经网络,深度神经网络简称dnn,循环神经网络简称rnn。
3.根据权利要求1所述的一种交互式语音编辑与合成系统,其特征在于:所述步骤s1中,语音识别模块利用大规模的语音数据集进行模型训练,如librispeech或ted-lium,并通过数据预处理、特征提取和模型训练此类步骤提高语音识别模块对多种语言和方言的识别能力。
4.根据权利要求1所述的一种交互式语音编辑与合成系统,其特征在于:所述步骤s1中,语音识别模块还采用流式语音识别技术,对输入语音进行实时处理以减少识别延迟。
5.根据权利要求1所述的一种交互式语音编辑与合成系统,其特征在于:所述步骤s3中,语音合成模块采用端到端语音合成模型,如tacotron 2或wavenet以确保输出语音的自然流畅度。
6.根据权利要求1所述的一种交互式语音编辑与合成系统,其特征在于:所述步骤s3中,语音合成模块支持音色、语调和音量选择,并能够通过输入语音为prompt进行训练推理,基于大模型技术进行声音克隆并允许用户根据个人喜好进行个性化设置。
7.根据权利要求1所述的一种交互式语音编辑与合成系统,其特征在于:所述步骤s3中,语音合成模块通过训练不同的语音模型或使用语音转换技术,实现定制化音色、语调和音量的语音输出。
8.根据权利要求1所述的一种交互式语音编辑与合成系统,其特征在于:所述步骤s3中,语音合成模块采用波形建模和语音编码技术,对合成语音进行音质优化和压缩处理。
9.根据权利要求1-8所述的一种交互式语音编辑与合成系统,其特征在于:所述交互式语音编辑与合成系统应用于人工智能领域。