本发明涉及深度学习领域,尤其涉及一种与玩家交互的智能npc系统。
背景技术:
1、基于ai的npc系统已经被广泛应用于各种类型的游戏中,但其智能性与gpt-3等模型效果相差甚远,不具备足够的真实感。学术类模型在实际应用中,工程化程度较差,不能直接应用于电子游戏或元宇宙中。
2、具体表现上来说,上述现有技术会面临以下的问题:1)反馈内容枯燥单一,在面对大量玩家时,即使是多项选项也是显得很单一,在本质上与传统的npc并没有太大的变化;2)无法照顾玩家情绪,一个固定的回答内容有时候并不能让玩家真正理解游戏剧情的表达内容,需要玩家反复点击、反复理解。在这种情绪之下极大可能造成玩家心情烦躁,造成不佳的游戏体验;3)成本持续增高,工作人员持续为npc添加多选项反馈,会造成游戏npc的设计负担,同时让企业承担更高的费用,在工作量增大。
技术实现思路
1、本发明实施例提供一种与玩家交互的智能npc系统,玩家输入相对应的剧情任务内容文字或者语音,多模态模型根据玩家不同的输入生成相应的语音,同时操纵npc实现各种动作和表情。
2、为实现上述目的,本技术实施例提供一种与玩家交互的智能npc系统,包括:多模态模型和前端系统;所述多模态模型和所述前端系统通信相连;
3、所述多模态模型包括语音转文字模块、智能问答模块、文字转语音模块以及动作表情生成模块;
4、所述语音转文字模块将来自所述前端系统的玩家语音信号转换为模块输入文本;
5、所述智能问答模块将来自所述语音转文字模块的模块输入文本和/或来自所述前端系统的玩家输入文本转换为答案文本;
6、所述文字转语音模块将来自所述智能问答模块的答案文本转换为自然语音;
7、所述动作表情生成模块根据来自所述智能问答模块的答案文本和/或来自所述文字转语音模块的自然语音和/或来自所述前端系统的情境信号,生成与所述答案文本和/或所述自然语音和/或所述情境信号相匹配的动作序列和表情变化信息;
8、所述前端系统根据来自所述动作表情生成模块的动作序列和表情变化信息,控制npc角色模型执行对应的动作。
9、在一种可能的实现方式中,所述语音转文字模块包括音频输入接口、预处理单元、深度学习识别模型单元和后处理单元;
10、所述音频输入接口接收并暂存所述玩家语音信号;
11、所述预处理单元对所述玩家语音信号进行清洗和特征化;
12、所述深度学习识别模型单元利用训练好的模型进行语音特征到文本字符的映射;
13、所述后处理单元对从所述深度学习识别模型单元接收到的映射进行修正、去冗余和拼接,并输出模块输入文本。
14、在一种可能的实现方式中,所述预处理单元对所述玩家语音信号进行降噪、分帧和加窗后进行特征化,得到玩家语音特征;
15、采用声学模型me l频率倒谱系数,将所述玩家语音特征转化为特征向量序列;
16、所述深度学习识别模型单元利用第一序列到序列模型,建立一个端到端的深度神经网络,通过该深度神经网络对提取出的特征向量序列进行解码和识别,映射到相应的文本序列;
17、所述后处理单元利用transformer架构的大规模语言模型,对所述文本序列进行修正、去冗余和拼接,并输出模块输入文本。
18、所述预处理单元负责数据采集与预处理:接收来自前端模型的玩家语音信号,对原始音频数据进行预处理,具体包括降噪、分帧、加窗三种操作,以便提取出适合语音识别的核心特征。
19、特征提取可以由所述预处理单元负责,也可以由所述深度学习识别模型单元负责,特征提取包括:采用深度学习网络中的声学模型me l频率倒谱系数(mfcc),将预处理后的语音信号转化为高维特征向量序列。
20、所述深度学习识别模型单元负责语音识别:基于deepspeech这种序列到序列(sequence-to-sequence)模型,建立一个端到端的深度神经网络,然后对提取出的特征向量序列进行解码和识别,将语音特征映射到相应的文本序列。
21、所述后处理单元负责语言模型融合:结合大规模语言模型transformer架构,通过集成语言模型对识别候选结果进行重排序和优化,提高词汇预测准确性,尤其是对于游戏特有的术语和对话上下文的理解能力。
22、在一种可能的实现方式中,所述智能问答模块包括自然语言理解子模块、知识检索与推理子模块、答案生成子模块以及情感分析与个性化处理子模块;
23、所述自然语言理解子模块将模块输入文本和/或玩家输入文本转化为结构化查询信息;
24、所述知识检索与推理子模块根据所述结构化查询信息,利用索引技术和推理算法从知识库中提取对应的知识信息;
25、所述答案生成子模块依据提取的知识信息,生成答案文本;
26、所述情感分析与个性化处理子模块结合情感标签,对所述答案文本进行优化。
27、在一种可能的实现方式中,所述自然语言理解子模块采用基于transformers架构的预训练的自然语言理解模型,将模块输入文本和/或玩家输入文本转化为结构化查询信息;
28、所述知识检索与推理子模块根据所述结构化查询信息,利用索引技术和推理算法从预构建的游戏知识库中提取对应的知识信息;
29、所述答案生成子模块将提取的知识信息依次输入采用第二序列到序列模型、基于transformer的gpt-3模型生成答案文本;所述第二序列到序列模型和所述gpt-3模型训练采用的训练数据的结构上包含上下文信息和角色属性标签;
30、所述情感分析与个性化处理子模块结合情感标签,对所述答案文本进行优化。
31、在一种可能的实现方式中,所述文字转语音模块包括:
32、文本预处理器,对所述答案文本进行前期处理;
33、音素转换与韵律分析单元,将所述答案文本转换成音素序列,并赋予对应的韵律特征;
34、声学模型组件,根据所述音素序列和对应的韵律特征,利用深度学习技术生成声学参数;
35、波形合成器,基于所述声学参数,生成人耳可听的自然语音。
36、在一种可能的实现方式中,所述文本预处理器,对所述答案文本进行文本标准化、分词、去除噪声字符和词语标注;
37、所述音素转换与韵律分析单元,将所述答案文本转换成音素序列,并通过韵律分析预测得到所述音素序列中每个音节的发音时长、重音位置和音调变化;
38、所述声学模型组件,将所述音素序列和对应的韵律特征输入端到端的深度神经网络模型,生成声学参数;
39、所述波形合成器,基于所述声学参数,使用gr i ff i n-lim算法生成人耳可听的自然语音。
40、在一种可能的实现方式中,所述动作表情生成模块包括:
41、情感识别模块,对所述答案文本和/或所述自然语音和/或所述情境信号进行情感分析;
42、动作规划与生成子模块,依据情感分析结果,选择并优化相应的动作序列;
43、表情合成引擎,依据情感分析结果,创建表情变化信息;
44、输出整合模块,将所述动作序列和所述表情变化信息,同步整合输出至所述npc角色模型中。
45、在一种可能的实现方式中,所述情感识别模块,通过情感识别算法进行深度分析对所述答案文本和/或所述自然语音和/或所述情境信号进行情感分析,得到情感状态;
46、所述动作规划与生成子模块,依据所述情感状态,在预设的动作设计规则库中选择相应的动作序列,并通过融合算法动态对所述动作序列进行优化;
47、所述表情合成引擎,利用人脸表情肌肉模型facs,依据所述情感状态,计算并合成得到表情参数集作为表情变化信息。
48、在一种可能的实现方式中,所述前端系统包括前后端通讯模块、多模态输入接口、动作库、表情控制系统和音频播放组件;
49、所述前后端通讯模块,用于和所述多模态模型建立通信;
50、所述多模态输入接口,用于接收和转换玩家输入的文字或语音信息;
51、所述表情控制系统,用于根据来自所述动作表情生成模块的表情变化信息生成并应用至npc角色模型的面部表情动画;
52、所述动作库内置动作规划与执行子系统,根据来自所述动作表情生成模块的动作序列控制npc角色模型实施三维动作;
53、所述音频播放组件,用于接收并播放由所述文字转语音模块实时生成的自然语音。
54、相比于现有技术,本发明实施例提供一种与玩家交互的智能npc系统,旨在解决传统npc系统存在的反馈内容单一、无法照顾玩家情绪及成本持续增高的问题,通过引入多模态模型和前端系统,实现了npc与玩家间更为真实、个性化且情感化的交互体验。具体而言,多模态模型包括语音转文字模块、智能问答模块、文字转语音模块以及动作表情生成模块,共同作用于玩家输入的理解、回答的生成及npc动作表情的实时控制,提升了交互的真实性和沉浸感。其中,语音转文字模块采用深度学习识别模型单元,通过预处理、特征提取、映射和后处理流程,将玩家语音高效转换为文本,为后续智能问答提供基础;智能问答模块结合自然语言理解、知识检索与推理、答案生成及情感分析与个性化处理,确保回答内容的精准性、丰富性和情感共鸣,改善了玩家体验;文字转语音模块运用深度学习技术生成声学参数,再通过波形合成还原自然语音,增强了npc表达的自然度和多样性;动作表情生成模块根据答案文本、自然语音和情境信号的情感分析,规划npc的动作序列和表情变化,实现更为细腻和真实的非言语沟通。前端系统:集成多模态输入、动作库、表情控制和音频播放功能,确保npc反应的即时性和协调性,提升了整体系统的工程化水平和用户体验。
55、综上所述,本发明实施例的与玩家交互的智能npc系统通过一系列技术创新和优化,有效克服了现有技术的局限性,为玩家提供了更为丰富、真实和情感化的交互体验,同时降低了开发和运营成本。
1.一种与玩家交互的智能npc系统,其特征在于,包括:多模态模型和前端系统;所述多模态模型和所述前端系统通信相连;
2.如权利要求1所述与玩家交互的智能npc系统,其特征在于,所述语音转文字模块包括音频输入接口、预处理单元、深度学习识别模型单元和后处理单元;
3.如权利要求2所述与玩家交互的智能npc系统,其特征在于,所述预处理单元对所述玩家语音信号进行降噪、分帧和加窗后进行特征化,得到玩家语音特征;
4.如权利要求1所述与玩家交互的智能npc系统,其特征在于,所述智能问答模块包括自然语言理解子模块、知识检索与推理子模块、答案生成子模块以及情感分析与个性化处理子模块;
5.如权利要求4所述与玩家交互的智能npc系统,其特征在于,所述自然语言理解子模块采用基于transformers架构的预训练的自然语言理解模型,将模块输入文本和/或玩家输入文本转化为结构化查询信息;
6.如权利要求1所述与玩家交互的智能npc系统,其特征在于,所述文字转语音模块包括:
7.如权利要求6所述与玩家交互的智能npc系统,其特征在于,所述文本预处理器,对所述答案文本进行文本标准化、分词、去除噪声字符和词语标注;
8.如权利要求1所述与玩家交互的智能npc系统,其特征在于,所述动作表情生成模块包括:
9.如权利要求8所述与玩家交互的智能npc系统,其特征在于,所述情感识别模块,通过情感识别算法进行深度分析对所述答案文本和/或所述自然语音和/或所述情境信号进行情感分析,得到情感状态;
10.如权利要求1所述与玩家交互的智能npc系统,其特征在于,所述前端系统包括前后端通讯模块、多模态输入接口、动作库、表情控制系统和音频播放组件;