本申请涉及音频识别,尤其涉及一种基于声纹聚类的网约车音频角色识别方法及设备。
背景技术:
1、在网约车服务中,为确保乘客的出行安全和提升司机的服务质量,采取了一项重要措施:乘客上车落座后,将立即收到本次行程全程录音的提示,此时开始对车内进行录音。这一举措旨在确保行程的透明性和安全性,为乘客提供更加安心、舒适的出行体验。在每一次服务过程中,确保司机和乘客的音频数据得到全面且准确的分离是至关重要的。这样的分离操作有助于构建清晰的对话序列,进而对司机与乘客之间的对话进行深入分析。通过这一分析,能够精准地识别出司机在服务过程中可能存在的违规行为,从而为用户提供更加优质和合规的出行体验。
2、现有技术中,存在着分类不清晰的问题,尤其是在分离司机和乘客的语音时,难以准确判断语音是由司机、乘客还是客服发出。由于不同人的声纹具有独特的特征,这些特征可以用于区分不同的说话者。传统的音频特征提取的方式如:如mfcc、plp、deep feature等,这些特征能够反映不同人的语音特点。但是存在由于语音重叠等因素,导致分类结果不准确的问题。
技术实现思路
1、为至少在一定程度上克服相关技术中在对网约车内录制的音频数据进行频角色识别时,由于语音重叠等因素,导致分类结果不准确的问题的问题,本申请提供一种基于声纹聚类的网约车音频角色识别方法及设备。
2、本申请的方案如下:
3、根据本申请实施例的第一方面,提供一种基于声纹聚类的网约车音频角色识别方法,包括:
4、获取网约车在日内录制的原始音频数据;
5、提取所述原始音频数据中的人声音频数据;
6、对所述人声音频数据进行切分,得到多个人声音频数据片段;
7、对所述人声音频数据片段进行聚类,得到待筛选司机音频数据集和乘客音频数据集;
8、将所述待筛选司机音频数据集输入预先训练的重叠检测模型,通过所述重叠检测模型在所述待筛选司机音频数据集中拆分出重叠音频和司机音频数据集。
9、优选地,对所述人声音频数据片段进行聚类,得到待筛选司机音频数据集和乘客音频数据集,包括:
10、判断两个连续人声音频数据片段之间的余弦相似度,若两个连续人声音频数据片段之间的余弦相似度高于第一预设阈值,则将其进行合并;
11、在任意两个连续人声音频数据片段之间的余弦相似度均不高于第一预设阈值时,将当前的声音频数据片段进行聚类,并将高于第一音频时长的聚类划分为第一类聚类数据集,将不高于第一音频时长的聚类划分为第二类聚类数据集;
12、对每个聚类数据集中所有嵌入向量取平均值,得到中心嵌入向量;
13、根据每个聚类数据集的中心嵌入向量,判断各聚类数据集之间的余弦相似度;
14、在第二类聚类数据集与任意第一类聚类数据集的余弦相似度均高于第二预设阈值时,将其合并到余弦相似度最高的第一类聚类数据集中;
15、在第二类聚类数据集与任意第一类聚类数据集的余弦相似度均不高于第二预设阈值时,将其确定为乘客音频数据集;
16、将非乘客音频数据集确定为待筛选司机音频数据集。
17、优选地,所述方法还包括:
18、获取司机音频样本数据集和重叠音频样本数据集;
19、将多份司机音频样本数据集与一份重叠音频样本数据集作为训练数据集,训练所述重叠检测模型。
20、优选地,获取司机音频样本数据集,包括:
21、获取司机注册时采集的司机音频数据,以及历史司机音频数据集,作为所述司机音频样本数据集。
22、优选地,所述方法还包括:
23、对所述司机音频样本数据集进行标准化处理;包括:
24、对所述司机音频样本数据集中的司机音频样本数据进行切分;
25、对切分后的司机音频样本数据进行梅尔频谱图转换;
26、计算进行梅尔频谱图转换后的司机音频样本数据的均值和标准差,并进行归一化处理。
27、优选地,训练所述重叠检测模型,包括:
28、构建重叠检测模型;
29、将所述训练数据集输入重叠检测模型,基于对比学习损失函数和交叉熵损失函数进行迭代;
30、在迭代完成后对重叠检测模型进行评估,评估通过后完成训练。
31、优选地,对所述人声音频数据进行切分,包括:
32、将所述人声音频数据的首部以第二音频时长为基准进行切分,剩余部分以第三音频时长为基准进行切分;
33、对司机音频样本数据进行切分,包括:
34、将所述司机音频样本数据集中的音频数据的首部以第二音频时长为基准进行切分,剩余部分以第三音频时长为基准进行切分;
35、所述第二音频时长为所述第三音频时长的四倍。
36、优选地,所述方法还包括:
37、每间隔预设周期,通过周期内的司机音频数据集对所述重叠检测模型进行更新。
38、优选地,所述方法还包括:
39、将所述司机音频数据集进行存储,并标注对应的日期。
40、根据本申请实施例的第二方面,提供一种基于声纹聚类的网约车音频角色识别设备,包括:
41、处理器和存储器;
42、所述处理器与存储器通过通信总线相连接:
43、其中,所述处理器,用于调用并执行所述存储器中存储的程序;
44、所述存储器,用于存储程序,所述程序至少用于执行如以上任一项所述的一种基于声纹聚类的网约车音频角色识别方法。
45、本申请提供的技术方案可以包括以下有益效果:
46、本申请中的基于声纹聚类的网约车音频角色识别方法,包括:获取网约车在日内录制的原始音频数据;提取原始音频数据中的人声音频数据;对人声音频数据进行切分,得到多个人声音频数据片段;对人声音频数据片段进行聚类,得到待筛选司机音频数据集和乘客音频数据集;将待筛选司机音频数据集输入预先训练的重叠检测模型,通过重叠检测模型在待筛选司机音频数据集中拆分出重叠音频和司机音频数据集。
47、本申请中的技术方案,首先根据网约车在日内录制的原始音频数据中的人声音频数据进行切分后再进行聚类,由于网约车的司机是常驻角色,乘客是轮换角色,所以聚类后的数据集中一般是一个较大的司机音频数据集和多个较小的乘客音频数据集。由于待筛选司机音频数据集可能存在着重叠音频的干扰,所以本技术方案中,还将待筛选司机音频数据集输入预先训练的重叠检测模型,以将重叠音频和司机音频数据集进行拆分,最终得到准确的司机音频数据集和乘客音频数据集,从而解决现有技术中由于语音重叠等因素,导致分类结果不准确的问题。
48、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
1.一种基于声纹聚类的网约车音频角色识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对所述人声音频数据片段进行聚类,得到待筛选司机音频数据集和乘客音频数据集,包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,获取司机音频样本数据集,包括:
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
6.根据权利要求3所述的方法,其特征在于,训练所述重叠检测模型,包括:
7.根据权利要求5所述的方法,其特征在于,对所述人声音频数据进行切分,包括:
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
10.一种基于声纹聚类的网约车音频角色识别设备,其特征在于,包括: