本技术涉及跨语言沟通,具体涉及一种语音处理方法、装置、电子设备和计算机可读存储介质。
背景技术:
1、使用不同语种的用户进行沟通时,因为语种不同,给交流带来了障碍,为了方便沟通,需要对沟通的内容进行翻译。
2、沟通时采用的翻译方式有两种,一种方式是:沟通双方都使用相同的翻译终端,分别使用翻译终端将对方的语音范围为当前用户的语种。另一种方式是:沟通双方面对面沟通,共用一个翻译终端,翻译终端轮流将一方的语音翻译为另一方能够听懂的语音。
3、对于没有同时配置翻译终端的用户,以及不在同一地点的用户,比如传统的电话交谈,目前的翻译方式都很难满足用户的翻译需求,这是亟需解决的技术问题。
技术实现思路
1、本技术提供了一种语音处理方法、装置、电子设备和计算机可读存储介质,在跨语言沟通时,即使双方不是面对面,能够不需要沟通的双方都配备相关的电子设备就可以实现准确、高效的跨语言沟通。
2、为了达到上述目的,本技术采用如下技术方案。
3、第一方面,本技术实施例提供了一种语音处理方法,用于电子设备,所述电子设备包括麦克风,所述方法包括:获取通话终端获取的第一语音信息,所述第一语音信息对应的语种是第一语种;将第一数据包发送给指定服务器,所述第一数据包包括所述第一语音信息,所述指定服务器用于将所述第一语音信息翻译为第二语音信息,所述第二语音信息对应的语种是第二语种,所述指定服务器部署有具有翻译功能的大模型;获取所述指定服务器发送的第二数据包,所述第二数据包包括所述第二语音信息;播放所述第二语音信息;获取所述麦克风获取的第三语音信息;所述第三语音信息对应的语种是所述第二语种;将第三数据包发送给所述指定服务器,所述指定服务器还用于将所述第三语音信息翻译为第四语音信息,所述第四语音信息对应的语种是所述第一语种;获取所述指定服务器发送的第四数据包,所述第四数据包包括所述第四语音信息;将所述第四语音信息发送给所述通话终端。
4、在一些可能的实施方式中,大模型能够根据通话上下文对翻译内容进行修订,实现比传统翻译更优的效果。举例来说,大模型可以是chatgpt模型。
5、该实施例提供的方案,可以应用在不同用户使用不同语言进行沟通的场景,通话终端获取一个用户的第一语音信息传给电子设备,电子设备将获取的第一语音信息发给指定服务器,利用指定服务器的大模型将第一语音信息翻译为电子设备侧的用户对应的语种,得到第二语音信息,电子设备获取指定服务器发送的包括第二语音信息数据包,然后将第二语音信息播放出来,这样电子设备侧的用户就可以听懂沟通的另一用户所说的话;以及在电子设备侧的用户说话时,麦克风获取第三语音信息,然后电子设备将第三语音信息发送给指定服务器,指定服务器将第三语音信息翻译为沟通的另一方的语种,得到第四语音信息,然后电子设备将获取的第四服语音信息发送给通话终端,通话终端将第四语音信息发给沟通的另一侧用户。采用该方案可以实现不同用户的跨语言沟通,在整个过程中通过电子设备与指定服务器之间信息交互实现不同语种语言的翻译和传输,可以理解的,语音处理的过程不需要通话终端对语音进行翻译,通话终端用于将第一语音信息发送给电子设备,以及接收第四语音,并将第四语音信息发送给通话的另一用户,该方案语音处理的过程不依赖于通话终端,得电子设备与通话终端的耦合度较低,有利于设备之间进行交互。可以理解的,随着指定服务器的大模型的升级,其性能越来越强,功能越来越丰富,可以更准确地翻译,由于翻译由指定服务器中的大模型来实现,降低了电子设备的成本。
6、在一些可能的实现方式中,电子设备与通话终端之间可以利用usb线相连进行通信,也可以使用蓝牙方式进行通信。在蓝牙容易受干扰或者信号较复杂的场景,采用usb线进行数据的传输抗干扰能力更强。
7、可以理解的,可以在通话终端上安装与本技术的语音处理对应的应用程序,该应用可以实现与电子设备的配网,比如通过ble协议,实现wifi配网,也可以通过wifi的wps按钮等方式实现配网。应用程序还可以提供相关语言语种的设置,可以切换沟通双方对应的默认语种,配置语音播放模式,用户登录id、查阅付费情况等信息。
8、可以理解的,沟通双方的语种可以在通话终端的应用程序中进行设置,也可以由指定服务器中的大模型进行识别后得到,也可以通话终端中设置电子设备侧用户的语种即第二语种,通话另一侧用户对应的第一语种由指定服务器中的模型进行识别等,这些处理方式都是可行的。
9、需要说明的是,本技术实施例中提到的不同的语种可以是:英语、中文、日语、德语、法语等有较大语音区别的语音,也可以是具有地方特色的不同的方言,只要大模型支持,都是可行的。
10、在一种可能的实现方式中,所述方法还包括:在所述播放所述第二语音信息的同时,同步播放所述第一语音信息。
11、在上述方案中,在电子设备播放第二语音的同时还播放第一语音信息,有利于用户结合第一语音信息和第二语音信息对沟通的内容进行理解。可以理解的,在实际应用中可以对第一语音信息和第二语音信息的音量大小或者音量的强弱对比进行设定,具体地,可以在通话终端的应用程序上设定,也可以在电子设备上进行设定。
12、在一种可能的实现方式中,所述第一数据包还包括:指示所述指定服务器根据所述第一语音信息得到与所述第一语音信息对应的第一文本信息的第一指示信息;所述第二数据包还包括所述第一文本信息;所述方法还包括:将所述第一文本信息发送给所述通话终端;所述第三数据包还包括:指示所述指定服务器根据所述第三语音信息得到与所述第三语音信息对应的第二文本信息的第二指示信息;所述第四数据包还包括所述第二文本信息;所述方法还包括:将所述第二文本信息发送给所述通话终端。
13、在上述方案中,通过传输语音信息和文本信息,可以在通信终端中显示沟通的语音以及对应的文本,方便用户查看沟通记录。
14、在一种可能的实现方式中,所述第二语音信息的声纹信息与所述第一语音信息的声纹信息匹配;所述第四语音信息的声纹信息与所述第三语音信息的声纹信息匹配。
15、在上述方案中,指定服务器在进行翻译时,第二语音信息的声纹信息与第一语音信息的声纹信息匹配;第四语音信息的声纹信息与第三语音信息的声纹信息匹配。有利于提升用户体验。
16、在一种可能的实现方式中,所述第一语音信息包括如下语音信息中的一种或者多种:所述通话终端获取的蜂窝电话语音信息、网络会议语音信息、聊天应用得到的语音信息。
17、本技术实施例提供的技术方案不限于使用通话终端进行蜂窝通话的场景,也适用于使用通话终端进行网络会议、在线沟通或者聊天等可能涉及不同语种进行语音通信的场景。
18、第二方面,本技术实施例提供了一种语音处理装置,包括:麦克风、第一获取单元、第一发送单元、第二获取单元、第三获取单元、第二发送单元,其中,所述第一获取单元,用于获取通话终端获取的第一语音信息,所述第一语音信息对应的语种是第一语种;所述第一发送单元,用于将第一数据包发送给指定服务器,所述第一数据包包括所述第一语音信息,所述指定服务器用于将所述第一语音信息翻译为第二语音信息,所述第二语音信息对应的语种是第二语种,所述指定服务器部署有具有翻译功能的大模型;所述第二获取单元,用于获取所述指定服务器发送的第二数据包,所述第二数据包包括所述第二语音信息;所述播放单元,用于播放所述第二语音信息;所述第三获取单元,用于获取所述麦克风获取的第三语音信息;所述第三语音信息对应的语种是所述第二语种;所述第一发送单元还用于,将第三数据包发送给所述指定服务器,所述指定服务器还用于将所述第三语音信息翻译为第四语音信息,所述第四语音信息对应的语种是所述第一语种;所述第二获取单元还用于,获取所述指定服务器发送的第四数据包,所述第四数据包包括所述第四语音信息;所述第二发送单元还用于,将所述第四语音信息发送给所述通话终端。
19、在一种可能的实现方式中,所述播放单元还用于,在所述播放所述第二语音信息的同时,同步播放所述第一语音信息。
20、在一种可能的实现方式中,所述第一语音信息包括如下语音信息中的一种或者多种:所述通话终端获取的蜂窝电话语音信息、网络会议语音信息、聊天应用得到的语音信息。
21、第三方面,本技术实施例提供了一种电子设备,包括:通信模块、麦克风、存储器和一个或多个处理器,所述通信模块、所述麦克风、所述存储器与所述处理器耦合;其中,所述存储器中存储有计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述处理器执行时,使得所述电子设备执行如第一方面及其任一种可能的实现方式提供的方法。
22、第四方面,本技术实施例提供了一种计算机可读存储介质,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如第一方面及其任一种可能的实现方式提供的方法。
23、第五方面,本技术提供一种计算机程序产品。当计算机程序产品在电子设备上运行时,使得电子设备执行如第一方面及其任一种可能的实现方式提供的方法。
24、第六方面,本技术实施例提供了一种芯片系统。当芯片系统应用于电子设备时,芯片系统包括一个或多个处理器,一个或多个处理器用于调用计算机指令以使得电子设备执行如第一方面及其任一种可能的实现方式提供的方法。
25、可以理解,上述提供的第二方面的语音处理装置、第三方面的电子设备、第四方面的计算机可读存储介质、第五方面的计算机程序产品及第六方面的芯片系统所能达到的有益效果,可参考如第一方面的有益效果,不再赘述。
1.一种语音处理方法,其特征在于,用于电子设备,所述电子设备包括麦克风,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1或2所述的方法,其特征在于,
4.根据权利要求1至3任一项所述的方法,其特征在于,
5.根据权利要求1至4任一项所述的方法,其特征在于,
6.一种语音处理装置,其特征在于,包括:麦克风、第一获取单元、第一发送单元、第二获取单元、第三获取单元、第二发送单元,其中,
7.根据权利要求6所述的语音处理装置,其特征在于,
8.根据权利要求6或7所述的语音处理装置,其特征在于,
9.一种电子设备,其特征在于,包括:通信模块、麦克风、存储器和一个或多个处理器,所述通信模块、所述麦克风、所述存储器与所述处理器耦合;其中,所述存储器中存储有计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述处理器执行时,使得所述电子设备执行如权利要求1-5中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-5中任一项所述的方法。