本发明涉及数据挖掘,尤其涉及的是一种多模态长尾数据挖掘方法、系统、车辆及存储介质。
背景技术:
1、自动驾驶由于可以自动安全的操作车辆,因此具有安全可靠的优势,其依靠人工智能、视觉计算、雷达、监控装置和全球定位系统等协同合作,以实现无人驾驶。随着自动驾驶的高速发展,为了达到较高的检测准确度,以提高自动驾驶的安全性使得大数据处理和应用成为核心挑战之一。
2、海量的自动驾驶数据中包含了大量的长尾信息,而这些长尾信息对于完善和优化自动驾驶系统尤为重要,因此如何利用和挖掘长尾信息中的信息也是研究的方向之一。现有技术中通常采用人工的方式从长尾信息中挖掘信息,而人工挖掘信息的方式不仅效率低、浪费人力成本,而且难以获取到准确的挖掘信息。
3、因此,现有技术中的方法需要进一步的改进。
技术实现思路
1、鉴于上述相关技术中的不足之处,本发明的目的在于提供一种多模态长尾数据挖掘方法、系统及存储介质,克服现有技术中采用人工方式进行长尾数据挖掘所导致的效率低、准确低的缺陷。
2、本发明解决技术问题所采用的技术方案如下:
3、第一方面,本实施例提供了一种多模态长尾数据挖掘方法,其中,包括:
4、从车辆自动驾驶数据信息中过滤出长尾数据;
5、基于参数微调后的clip模型对所述长尾数据进行数据挖掘,得到长尾数据的数据挖掘结果;其中,所述clip模型的参数微调的步骤包括:
6、利用预先训练的clip模型对多个样本图像进行单目标分类,得到单目标分类预测结果,接收对单目标分类预测结果中多个语义类别的标注信息,得到标注样本集,利用所述标注样本集对所述预训练的clip模型再次训练,得到参数微调的clip模型。
7、可选地,所述从车辆自动驾驶数据信息中过滤出长尾数据的步骤包括:
8、获取车辆自动驾驶数据信息中的多张场景图像数据,得到原始数据集;
9、根据预设定义语义类别从所述原始数据集中过滤出长尾数据。
10、可选地,所述利用预先训练的clip模型对多个样本图像进行单目标分类,得到单目标分类预测结果的步骤包括:
11、对全局静态目标和单帧运动目标进行聚类,得到不同目标的聚类簇;
12、将不同目标的聚类簇投影并裁剪出相对应的投影图像;
13、利用预训练的clip模型对各个不同目标的投影图像进行语义预测;
14、通过全局轨迹所对应的类别,确定出单目标分类预测结果。
15、可选地,所述利用预先训练的clip模型对多个样本图像进行单目标分类,得到单目标分类预测结果的步骤之前,还包括:
16、利用预定义的类别语义和开源数据对源clip模型进行训练,得到预训练的clip模型。
17、可选地,所述接收对单目标分类预测结果中多个语义类别的标注信息,得到标注样本集的步骤包括:
18、获取单目标分类预测结果中各个样本图像对应的时序信息、显示信息和视角信息;
19、根据时序信息、显示信息和视角信息将多个样本图像拼接成全局图像;
20、接收对全局图像的标注信息,得到标注数据集。
21、可选地,利用所述标注样本集对所述预训练的clip模型再次训练,得到参数微调的clip模型的步骤包括:
22、将标注样本集输入至所述预训练的clip模型,对所述clip模型进行多次迭代训练,得到训练完成后的参数微调的clip模型。
23、可选地,利用所述标注样本集对所述预训练的clip模型再次训练,得到参数微调的clip模型的步骤,还包括:
24、将标注样本集输入至预设离线模型,对所述预设离线模型进行多次迭代训练,得到所述预设离线模型输出的预测结果信息;
25、将所述预测结果信息添加到所述长尾数据中,重复基于参数微调后的clip模型对所述长尾数据进行数据挖掘,得到长尾数据的数据挖掘结果的步骤,直到满足预设要求,输出得到分类预测结果。
26、第二方面,本实施例公开了一种多模态长尾数据挖掘系统,其中,包括:
27、参数微调模块,用于利用预先训练的clip模型对多个样本图像进行单目标分类,得到单目标分类预测结果,接收对单目标分类预测结果中多个语义类别的标注信息,得到标注样本集,利用所述标注样本集对所述预训练的clip模型再次训练,得到参数微调的clip模型;
28、数据过滤模块,用于从车辆自动驾驶数据信息中过滤出长尾数据;
29、数据挖掘模块,用于基于参数微调后的clip模型对所述长尾数据进行数据挖掘,得到长尾数据的数据挖掘结果。
30、第三方面,本实施例公开了一种车辆,其中,所述车辆包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的多模态长尾数据挖掘程序,所述处理器执行所述多模态长尾数据挖掘程序时,实现所述的多模态长尾数据挖掘方法的步骤。
31、第四方面,本实施例公开了一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有多模态长尾数据挖掘程序,所述多模态长尾数据挖掘程序被处理器执行时,实现所述的多模态长尾数据挖掘方法的步骤。
32、有益效果:
33、本实施例公开了一种多模态长尾数据挖掘方法、系统、车辆及存储介质,基于参数微调后的clip模型对长尾数据进行数据挖掘,得到长尾数据的数据挖掘结果;clip模型的参数微调的步骤为:利用预先训练的clip模型对多个样本图像进行单目标分类,得到单目标分类预测结果,接收对单目标分类预测结果中多个语义类别的标注信息,得到标注样本集,基于标注样本集得到参数微调的clip模型。本实施例方法通过人工标注增加语义类别数据,以人工标注增加的语义类别数据对clip模型进行微调,利用微调后的clip模型对长尾数据进行挖掘,从而实现更有效的挖掘出预定义语义类别,提高了长尾数据挖掘的准确度。
1.一种多模态长尾数据挖掘方法,其特征在于,包括:
2.根据权利要求1所述的多模态长尾数据挖掘方法,其特征在于,所述从车辆自动驾驶数据信息中过滤出长尾数据的步骤包括:
3.根据权利要求1所述的多模态长尾数据挖掘方法,其特征在于,所述利用预先训练的clip模型对多个样本图像进行单目标分类,得到单目标分类预测结果的步骤包括:
4.根据权利要求1所述的多模态长尾数据挖掘方法,其特征在于,所述利用预先训练的clip模型对多个样本图像进行单目标分类,得到单目标分类预测结果的步骤之前,还包括:
5.根据权利要求1所述的多模态长尾数据挖掘方法,其特征在于,所述接收对单目标分类预测结果中多个语义类别的标注信息,得到标注样本集的步骤包括:
6.根据权利要求1所述的多模态长尾数据挖掘方法,其特征在于,利用所述标注样本集对所述预训练的clip模型再次训练,得到参数微调的clip模型的步骤包括:
7.根据权利要求1所述的多模态长尾数据挖掘方法,其特征在于,利用所述标注样本集对所述预训练的clip模型再次训练,得到参数微调的clip模型的步骤,还包括:
8.一种多模态长尾数据挖掘系统,其特征在于,包括:
9.一种车辆,其特征在于,所述车辆包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的多模态长尾数据挖掘程序,所述处理器执行所述多模态长尾数据挖掘程序时,实现如权利要求1-7任一项所述的多模态长尾数据挖掘方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有多模态长尾数据挖掘程序,所述多模态长尾数据挖掘程序被处理器执行时,实现如权利要求1-7任一项所述的多模态长尾数据挖掘方法的步骤。