本发明涉及数据处理领域,尤其涉及一种小样本工业时序数据增强和质量预测方法及系统。
背景技术:
1、为了确保工业过程的安全和效率,严格控制各类过程变量是一项重要任务。然而,对于一些关键变量,尤其是质量变量,通常很难实现实时测量。软测量技术能够通过易于测量的过程变量来预测难以测量的质量变量。软测量技术通常可分为两类,即基于模型的方法和基于数据的方法。基于模型的方法依赖于领域知识和理论模型来描述和解释过程现象,通过构建数学模型来做出预测和决策。这些方法具有出色的可解释性,但在很大程度上依赖于对系统和过程的理论理解,需要模型分析方面的专业知识和经验。相比之下,数据驱动的方法使用统计技术来提取数据特征,以更高的灵活性从大量数据中自动学习,尤其擅长识别高维和复杂数据结构之间的非线性等特征。随着工艺复杂性的增长和数据传输技术的发展,基于数据的软测量技术已成为主流。然而,缺失值、低采样率和高采样重复率等问题会导致基于数据的软测量神经网络模型的训练数据不足。在这种情况下,软测量神经网络模型无法完全捕捉过程的动态性,可能无法准确预测质量变量。这种现象被称为小样本问题。
2、针对小样本问题,可以通过虚拟样本生成(virtual sample generation, vsg)技术进行数据扩充。vsg技术旨在基于现有的数据集创建新的样本,以扩展和丰富训练数据集,从而提高软测量神经网络模型的性能。基于采样的vsg技术,如插值法和bootstrap法等经典方法,在软测量应用中发挥着重要作用。尽管生成了额外的样本,但它们本质上并不生成新的数据,而是利用现有的数据来生成额外的样本。随着深度学习技术的快速发展,基于特征提取的vsg技术,如变分自编码器(variational autoencoder, vae)和生成对抗性网络(generative adversarial network, gan),在生成高维数据和增加样本多样性方面取得了良好的效果。例如,利用vae可以从噪声过程数据中提取特征,测量当前样本和历史样本之间的相似性,学习高维复杂数据的分布并生成相似样本。虽然基于vae和gan的方法在生成虚拟样本方面表现出了强大的能力,但它们在应用于时间序列数据时遇到了局限性,没有考虑过程数据的时间相关性和动态特征。由于无法完全捕捉时间序列数据的数据分布,vae减少了模型的多样性,以最大限度地减少重构误差损失,从而导致数据同质化。对于gan来说,它虽然能够产生更多样化的样本,但容易生成与实际数据显著偏离的虚拟样本。因此,提供一种能同时兼顾虚拟样本多样性以及真实性的小样本工业时序数据增强和质量预测方法及系统,成为目前亟待解决的问题。
技术实现思路
1、本发明要解决的技术问题是,提供一种小样本工业时序数据增强和质量预测方法及系统。
2、本发明的技术方案是:种小样本工业时序数据增强和质量预测方法,所述方法包括步骤:
3、s1、获取历史数据集作为训练数据集,将历史数据集d输入加入时序解码过程的变分自编码器模型以生成虚拟样本,对虚拟样本样本进行处理后获取补充过程样本;
4、s2、将输入预训练的软测量神经网络模型以获取虚拟质量样本,将由历史数据集、补充过程样本以及虚拟质量样本组成的扩展训练数据集,由扩展训练数据集对软测量神经网络模型进行更新训练;
5、s3、将在线输入变量输入更新后的软测量神经网络模型,预测在线质量变量;
6、其中,步骤s1包括步骤:
7、s11、对工业时序数据进行预处理,获取历史数据集作为训练数据集;
8、s12、将历史数据集d输入加入时序解码过程的变分自编码器模型后生成虚拟样本,对虚拟样本进行筛选扩充,获取虚拟过程样本;
9、其中,x表示n×t×m的一般过程变量,y表示n×t×m的关键质量变量,式中n表示变量维度,t是时间步长,m和m分别表示过程变量和质量变量的维度;以及步骤s12包括:
10、s121、将历史数据集d作为模型输入并输入至编码器中进行编码,其中编码层包含若干卷积层,并通过展开操作后,计算获取潜变量z;
11、s122、潜变量z与条件变量c结合后,共同作为输入变量进入解码器,在该解码过程中输入变量分别经过多个时序性模块,提取各个模型下的时序特征;
12、s123、将所有的时序特征进行组合处理,获取全新的虚拟样本;
13、s124、对虚拟样本进行筛选扩充,获取补充过程样本。
14、较佳的,在步骤s122中,多个时序性模块包括一个趋势性模块、若干个季节性模块以及一个残差模块。
15、较佳的,在步骤s12中,损失函数的计算公式为:
16、
17、在上式中,为似然函数,是z在x, c条件下的后验概率分布,x为重构的时间序列数据,c为条件变量。服从一个高斯分布,是和之间的kl散度。为的缩写,为的缩写。
18、较佳的,在步骤s121,中通过 获得相应的潜变量z,潜变量z经过解码器,可以通过重构获得虚拟样本;其中为n(0,1)的正态分布中随机采样得到的值,μ表示潜变量的均值,为潜变量的标准差。
19、较佳的,在步骤s2包括步骤:
20、s21、利用预训练的软测量神经网络模型对虚拟过程样本进行处理以获取虚拟质量样本;
21、s22、获取扩展训练数据集,扩展训练数据集重新输入训练模型获取更新后的软测量神经网络模型。
22、较佳的,在步骤s3中,虚拟质量样本的获取过程为:
23、
24、其中,函数指的是预训练的软测量神经网络模型,表示权重参数,b表示偏差。
25、本发明还提供了一种小样本工业时序数据增强和质量预测系统,所述系统包括:
26、样本生成模块,用以获取历史数据集作为训练数据集,将历史数据集d输入加入时序解码过程的变分自编码器模型以生成虚拟样本,对虚拟样本样本进行处理后获取虚拟过程样本;
27、混合训练模块,与所述样本生成模块电连接,用以将输入预训练的软测量神经网络模型以获取虚拟质量样本;将由历史数据集d、虚拟过程样本以及虚拟质量样本组成的扩展训练数据集,由扩展训练数据集对软测量神经网络模型进行更新训练;
28、预测模块,与所述混合训练模块电连接,将在线输入变量输入更新后的软测量神经网络模型,预测在线质量变量;
29、其中,所述样本生成模块包括:
30、预处理单元,用以对工业时序数据进行预处理,获取历史数据集作为训练数据集;
31、虚拟样本生成单元,与所述预处理单元电连接,用以利用加入时序解码过程的变分自编码器模型,将历史数据集d输入该模型后生成虚拟样本,并对虚拟样本进行筛选扩充,以获取虚拟过程样本;
32、其中,所述虚拟样本生成单元包括:
33、潜变量生成子单元,与所述预处理单元电连接,用以将历史数据集d作为模型输入并输入编码器中进行编码,其中编码层包含若干个卷积层,并通过展开操作后,计算获取潜变量z;
34、时序特征提取子单元,与所述潜变量生成子单元电连接,用于将潜变量z与条件变量c结合后,共同作为输入变量进入解码器,在该解码过程中输入变量分别经过一个趋势性模块、若干个季节性模块以及一个残差模块后,提取各个模型下的时序特征;
35、虚拟样本获取子单元,与所述时序特征提取子单元电连接,用以将所有的时序特征进行组合处理,获取全新的虚拟样本 ;
36、虚拟过程样本获取子单元,与所述虚拟样本获取子单元电连接,用以对虚拟样本进行筛选扩充,获取虚拟过程样本。
37、较佳的,所述混合训练模块包括:
38、虚拟质量样本生成单元,与所述虚拟样本生成单元电连接,用以利用预训练的软测量神经网络模型对虚拟过程样本进行处理以获取虚拟质量样本;
39、扩展训练数据集生成单元,与所述虚拟质量样本生成单元电连接,用以获取扩展训练数据集,并将扩展训练数据集重新输入训练模型获取更新后的软测量神经网络模型。
40、较佳的,所述虚拟样本生成单元中还包括一损失函数计算子单元,与虚拟样本获取子单元电连接。
41、上述技术方案具有如下优点或有益效果:在上述一种小样本工业时序数据增强和质量预测方法和系统中,由样本生成阶段、混合训练阶段以及预测阶段三部分组成。与传统的vae虚拟样本生成方法相比,上述方法加入了时序解码器部分,即通过趋势性模块、季节性模块和残差模块的组合,形成了全新的解码器方法,从而提升了时间序列样本的特征提取和虚拟样本生成的效果。由于时序特征提取更加精准,且加入了条件变量进行控制,所以提升样本多样性和可靠性。此外,在生成虚拟样本的过程中加入了条件变量,使得生成的虚拟样本对于质量变量等重要的输出变量更加敏感,提升了虚拟样本的价值。最后,本方法在损失函数中引入了条件变量c,需要考虑x和c的联合概率分布等复杂情况,对于损失函数的推导和计算难度更高。最终改进和设计完成的损失函数能够很好地训练得到模型的关键参数,取得了良好的效果。
1.一种小样本工业时序数据增强和质量预测方法,其特征在于,所述方法包括步骤:
2.根据权利要求1所述的小样本工业时序数据增强和质量预测方法,其特征在于,在步骤s122中,多个时序性模块包括一个趋势性模块、若干个季节性模块以及一个残差模块。
3.根据权利要求1所述的小样本工业时序数据增强和质量预测方法,其特征在于,在步骤s12中,损失函数的计算公式为:
4.根据权利要求1所述的小样本工业时序数据增强和质量预测方法,其特征在于,在步骤s121中通过 获得相应的潜变量z,潜变量z经过解码器,可以通过重构获得虚拟样本;其中为n(0,1)的正态分布中随机采样得到的值,μ表示潜变量的均值,为潜变量的标准差。
5.根据权利要求1所述的小样本工业时序数据增强和质量预测方法,其特征在于,在步骤s2包括步骤:
6.根据权利要求1所述的小样本工业时序数据增强和质量预测方法,其特征在于,在步骤s3中,虚拟质量样本的获取过程为:
7.一种小样本工业时序数据增强和质量预测系统,用于执行如权利要求1-6中任一所述的方法,其特征在于,所述系统包括:
8.根据权利要求7所述的小样本工业时序数据增强和质量预测系统,其特征在于,所述混合训练模块(2)包括:
9.根据权利要求7所述的小样本工业时序数据增强和质量预测系统,其特征在于,所述虚拟样本生成单元(12)中还包括一损失函数计算子单元(125),与时序特征提取子单元(122)电连接。