本发明涉及人工智能,尤其涉及一种多模态数据的数字标签生成方法、设备、存储介质及产品。
背景技术:
1、随着科技与信息技术的发展,数据易泄漏成为一个日益突出的问题。电力系统作为关键基础设施,其数据庞大而复杂,同时也涉及到用户的隐私和安全。这一背景下,数据溯源技术成为解决电网数据泄漏问题的重要手段。传统的数据溯源方法在电网这样的复杂环境中面临诸多挑战,因为电网数据往往包含多种形式的信息,包括实时监测、用户行为等多维度的数据。
2、而数字标签不仅作为简单标记,更是一种融合了隐蔽性、多模态特征和溯源功能的智能标识。通过数字标签对数据进行更全面和智能的描述,不仅有助于提高数据溯源的准确性和效率,同时也为电网数据的隐私保护提供了创新性的解决方案。
3、但是,电力系统中存在的数据具有多模态特征,依赖人工生成数字标签的生成是一件非常复杂的工作,费时费力,导致成本居高不下。目前针对多模态数据的数字标签还没有一个很好的解决办法。
技术实现思路
1、本发明提供了一种多模态数据的数字标签生成方法,以解决多模态数据生成数字标签的技术空白,实现自动生成多模态数据的数字标签,有利于提高电力系统的数据溯源的准确性、效率和安全性。
2、根据本发明的一方面,提供了一种多模态数据的数字标签生成方法,包括:
3、获取电力系统的多模态数据集;所述多模态数据集包括:结构化数据和非结构化数据;所述结构化数据包括:数值型数据和分类型数据;
4、对所述分类型数据进行特征编码,获得数值形式的分类型编码数据;
5、对来自同一主体的所述数值型数据和所述分类型编码数据进行数据拼接,获得第一潜在表示向量;
6、采用自编码器对所述非结构化数据进行编码得到第二潜在表示向量;
7、对所述第一潜在表示向量和所述第二潜在表示向量分别进行加密,获得所述多模态数据集的数字标签。
8、进一步的,所述非结构化数据包括:文本数据;所述第二潜在表示向量包括:文本数据对应的文本潜在表示向量;所述采用自编码器对所述非结构化数据进行编码得到第二潜在表示向量的步骤包括:
9、基于文本自编码器对所述文本数据进行编码得到文本潜在表示向量;其中,基于双向降噪处理的训练文本样本数据训练lstm网络得到文本自编码器。
10、进一步的,基于双向降噪处理的训练文本样本数据训练lstm网络得到文本自编码器的步骤包括:
11、对二值文本样本数据进行双向降噪处理,获得训练文本样本数据;所述双向降噪处理为从所述二值文本样本数据中随机选择第一数量的非零值数据设置为零,并选择第二数量的零值数据设置为一;
12、对所述训练文本样本数据映射为词嵌入向量;
13、将所述词嵌入向量输入lstm网络中,获得预测文本潜在变量分布,并从所述预测文本潜在变量分布中采样一个预测文本潜在表示向量;
14、将所述预测文本潜在表示向量输入解码器中,获得所述预测文本潜在表示向量的重构文本向量,并将所述重构文本向量映射为重构词嵌入向量;
15、根据所述词嵌入向量和所述重构词嵌入向量计算第一损失函数值,并根据所述第一损失函数值对所述lstm网络的参数进行迭代训练。
16、进一步的,所述第一损失函数的计算公式为:
17、
18、其中,ltae为第一损失函数值,eq(z|x)[log p(x|z)]为重构损失的期望,用于表示给定预测文本潜在表示向量z的条件下,编码器输入的词嵌入向量x的概率p(x|z)的对数的期望值;α为用于平衡重构损失和kl散度之间的权重的超参数,dkl(q(z|x)||p(z))为kl散度,用于衡量编码器输出的预测文本潜在变量分布q(q|x)与先验文本潜在变量分布p(z)之间的差异,β是控制稀疏惩罚项的权重的超参数,为针对lstm网络中每个隐藏神经元的稀疏惩罚项的kl散度,ρ为目标稀疏值,为lstm网络的隐藏层中第j个神经元在所有训练文本样本数据上的平均激活度,m为lstm网络的隐藏层中神经元的数量。
19、进一步的,所述非结构化数据包括:图像数据;所述第二潜在表示向量包括:图像数据对应的图像潜在表示向量;所述采用自编码器对所述非结构化数据进行编码得到第二潜在表示向量的步骤包括:
20、基于图像自编码器对所述图像数据进行编码得到图像潜在表示向量;其中,基于加噪的训练图像样本数据训练cnn网络得到图像自编码器。
21、进一步的,基于加噪的训练图像样本数据训练cnn网络得到图像自编码器的步骤包括:
22、对图像样本数据进行加噪处理获得训练图像样本数据;
23、通过cnn网络中的卷积层、池化层和全连接层对所述训练图像样本数据进行特征提取,获得预测图像潜在表示向量;
24、通过cnn网络中的反卷积层和反池化层对所述预测图像潜在表示向量进行解码处理,获得给解码特征图像;
25、通过cnn网络中的卷积层对所述解码特征图像进行尺寸转换,获得重构图像数据;
26、根据所述训练图像样本数据和所述重构图像数据计算第二损失函数值,并根据所述第二损失函数值对所述lstm网络的参数进行迭代训练。
27、进一步的,所述对所述分类型数据进行特征编码,获得数值形式的分类型编码数据的步骤包括:
28、对于表示设备状态的分类型数据,采用独热编码方式对所述分类型数据进行编码,获得数值形式的分类型编码数据;
29、对于表示标识号的分类型数据,采用标签编码对所述分类型数据进行编码,获得数值形式的分类型编码数据。
30、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
31、至少一个处理器;以及
32、与所述至少一个处理器通信连接的存储器;其中,
33、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的多模态数据的数字标签生成方法。
34、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的多模态数据的数字标签生成方法。
35、根据本发明的另一方面,提供了一种计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现本发明任一实施例所述的多模态数据的数字标签生成方法。
36、本发明实施例的技术方案,通过获取电力系统的多模态数据集;多模态数据集包括:结构化数据和非结构化数据;结构化数据包括:数值型数据和分类型数据;对分类型数据进行特征编码,获得数值形式的分类型编码数据;对来自同一主体的数值型数据和分类型编码数据进行数据拼接,获得第一潜在表示向量;采用自编码器对非结构化数据进行编码得到第二潜在表示向量;对第一潜在表示向量和第二潜在表示向量分别进行加密,获得多模态数据集的数字标签,实现了自动生成多模态数据的数字标签,填补了多模态数据生成数字标签的技术空白,有利于提高电力系统的数据溯源的准确性、效率和安全性。
37、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
1.一种多模态数据的数字标签生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述非结构化数据包括:文本数据;所述第二潜在表示向量包括:文本数据对应的文本潜在表示向量;
3.根据权利要求2所述的方法,其特征在于,基于双向降噪处理的训练文本样本数据训练lstm网络得到文本自编码器的步骤包括:
4.根据权利要求3所述的方法,其特征在于,所述第一损失函数的计算公式为:
5.根据权利要求2所述的方法,其特征在于,所述非结构化数据包括:图像数据;所述第二潜在表示向量包括:图像数据对应的图像潜在表示向量;
6.根据权利要求5所述的方法,其特征在于,基于加噪的训练图像样本数据训练cnn网络得到图像自编码器的步骤包括:
7.根据权利要求1所述的方法,其特征在于,所述对所述分类型数据进行特征编码,获得数值形式的分类型编码数据的步骤包括:
8.一种电子设备,其特征在于,所述电子设备包括:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的多模态数据的数字标签生成方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的多模态数据的数字标签生成方法。