一种基于强化学习的生产业务流程超时异常处理方法

技术2026-05-11 23

本发明属于业务流程管理，涉及业务流程的超时异常处理方法。

背景技术：

1、在当今快速变化的制造业环境中，生产业务流程管理是确保生产效率、产品质量和满足客户需求的核心。企业面临着激烈的市场竞争和日益增长的定制化需求，这要求生产系统不仅要高效、灵活，还要能够迅速适应市场和技术的变化。在这种背景下，生产业务流程中的超时异常处理变得尤为重要，它直接关系到订单的准时交付、生产成本的控制以及客户满意度的维护。传统的生产业务流程超时异常处理方法主要依赖于人工经验和直觉进行决策。这些方法通常缺乏系统性分析和科学依据，导致决策结果可能不是最优的。例如，在面临超时风险时，企业可能会选择加班或增加临时资源来赶工，但这些应急措施往往伴随着高昂的额外成本，并且可能影响员工的工作生活平衡和长期的生产效率。此外，传统方法在预测和识别生产业务流程中的潜在超时风险方面也存在不足。它们通常缺乏有效的工具和机制来提前发现可能导致超时的因素，如资源分配不当、工序依赖关系复杂或生产能力不足等。这种被动的应对方式意味着只有在超时发生后，企业才会采取行动，这不仅增加了生产成本，也可能导致客户信任度下降。因此，迫切需要一种更为智能化、自动化的超时异常处理技术，能够通过分析生产业务流程中的历史数据和实时信息，准确预测每个活动的剩余执行时间，在检测到超时风险时，能够自动调整生产计划，如通过并行执行任务等方式，以最小化成本并确保生产任务按时完成。

技术实现思路

1、本发明提供了一种基于强化学习的生产业务流程超时异常处理方法，旨在通过自动化和智能化技术提高生产效率和处理超时风险。该方法包括以下关键步骤：首先，输入生产业务流程事件日志和案例执行的规定时间；其次，从日志中提取活动名称、所需资源、持续时间等特征，构建特征矩阵；然后，使用自注意力机制预测当前案例的剩余执行时间，并判断是否存在超时风险；若存在风险，则将生产业务流程建模为马尔可夫过程，并利用深度q网络来优化决策策略，实现任务的并行执行和超时异常的解决。该方法通过自动化特征提取、精确剩余时间预测、智能并行执行优化和资源合理分配，提高了生产业务流程的灵活性和响应速度，有效降低了生产成本并提升了客户满意度。

2、一种基于强化学习的生产业务流程超时异常处理方法，包括以下步骤：

3、(1)输入生产业务流程事件日志以及每个案例执行的规定时间；

4、(2)对事件日志提取特征，得到一组特征集，将所有提取的特征组合成一个特征矩阵x，其中每一行代表一个案例，每一列代表一个特征：

5、活动名称activity_name；

6、活动所需资源resource＝{r1,r2,…,rn}；

7、活动持续时间time：活动开始到活动结束持续的时间；

8、活动持续时间的最大值max＝max(x1,x2,…,xn)，其中xi(1≤i≤n)

9、表示当前案例中第i个活动的持续时间；

10、活动持续时间的最小值min＝min(x1,x2,…,xn)；

11、活动持续时间的平均值mean，即所有活动持续时间的总和除以活动

12、个数：

13、

14、依赖活动的数量activity_dependent，指的是某个活动a所依赖的其他活动的数量。对于每个活动a，其依赖活动的数量activity_dependenta可以通过计算指向活动a的边的数量来得到：

15、activity_dependenta＝|{e∈e|e的目标节点是a}|；

16、(3)引入自注意力机制对生产业务流程当前案例进行剩余时间的预测，包括输入层、编码器、注意力层和输出层；

17、(4)判断预测到的剩余执行时间tremaining是否大于规定时间，若是，则认为生产业务流程存在超时风险，跳转到步骤(5)，否则不会超时则结束；

18、(5)引入强化学习，通过将生产业务流程建模为马尔可夫过程，并利用深度q网络(dqn)来优化决策策略，实现当前执行案例中未执行任务的并行执行和超时异常问题的解决。

19、进一步，所述的步骤(3)由以下步骤组成：

20、(3.1)构建输入层，输入层接收特征矩阵x，是一个k×n的矩阵，其中k是事件日志中案例的数量，n是每个案例的特征数量，每个案例对应的特征向量可以表示为xi＝[activity_name,resource,time,activity_num,ma x,min,mean,activity_dependent]，其中activity_name、resource、time、acti vity_num、max、min、mean、activity_dependent分别代表活动名称、活动所需资源、活动持续时间、剩余活动数量、活动持续时间的最大值、活动持续时间的最小值、活动持续时间的平均值和依赖活动的数量；

21、(3.2)构建编码层，使用长短期记忆网络(long short-term memory networks,lstm)来实现编码层，将输入特征序列转换为高维表示，以捕捉特征之间的复杂关系，涉及以下步骤：

22、遗忘门激活：对于每个时间步t，lstm计算一个遗忘门激活值ft，

23、该值基于当前输入xt和前一时间步的隐藏状态ht-1：

24、ft＝d(wf×[ht-1,xt]+bf)

25、其中，δ是sigmoid激活函数，wf和bf是遗忘门的权重和偏置；

26、候选状态计算：lstm计算一个候选状态该状态包含新的输入信

27、息，用于更新当前的细胞状态ct：

28、

29、其中，tanh是激活函数，wc和bc是候选状态的权重和偏置；

30、细胞状态更新：当前的细胞状态ct是前一时间步的细胞状态ct-1和

31、候选状态的结合，通过遗忘门的加权：

32、

33、其中，ct-1和ct分别是前一时间步和当前步的细胞状态，为候选状态，ft是遗忘门激活值；

34、输入门激活：lstm计算一个输入门激活值it，该值决定新细胞状态ct对隐藏状态ht的贡献：

35、it＝d(wi×[ht-1,xt]+bi)

36、其中，δ是sigmoid激活函数，wi和bi是输入门的权重和偏置；

37、隐藏状态更新：lstm更新隐藏状态ht，该状态是细胞状态ct通过

38、输入门激活值的加权：

39、ht＝it×tanh(ct)

40、其中，it是输入门激活值；

41、(3.3)构建注意力层，使用加权求和的方式计算输入序列中每个元素的重要性，以便模型能够集中注意力于最相关的特征，一个自注意力机制可以表示为：

42、

43、其中，at是时间步t的加权表示，hi是序列中第i个元素的隐藏状态，n是当前案例中的活动数量，αi是第i个元素的注意力权重。注意力权重αi通常由输入特征和当前隐藏状态共同决定，可以使用如下公式计算：

44、

45、其中，score(ht,hi)是一个可学习的函数，用于计算当前隐藏状态ht和序列中第i个元素的隐藏状态hi之间的相似度：

46、score(ht,hi)＝vttanh(wh×ht+uh×hi)

47、其中，wh和uh是可学习的权重矩阵，v是可学习的权重向量，vt是可学习的权重向量的转置，tanh是激活函数；

48、(3.4)构建输出层，使用连接层来加权表示at映射到预测的剩余执行时间tremaining：

49、tremaining＝w×at+b

50、其中，w和b是可学习的权重和偏置；

51、(3.5)损失函数和优化，使用均方误差(mse)来衡量预测的剩余执行时间tremaining和真实值之间的差异：

52、

53、其中，是模型预测的第i个案例的剩余执行时间，是真实值，使用随机梯度下降算法来最小化损失函数，进而优化模型参数；

54、进一步，所述的步骤(5)由以下步骤组成：

55、(5.1)定义状态空间以捕捉生产业务流程的执行状态和资源状态，动作空间包括开始任务和并行任务对。具体地，将当前执行案例建模为一个马尔科夫过程p＝(s,a)，其中状态s表示当前流程的执行状态，动作a表示开始执行或并行执行某个任务；状态s表示为s＝(tcompleted,tpending,rstatus)，其中tcompleted是已完成的任务集合，tpending是待执行的任务集合，rstatus是资源的当前状态；动作a表示为a＝{start_task(i),parallel_task(i,j)}，其中start_task(i)表示开始执行任务i，parallel_task(i,j)表示将任务i和j并行执行；

56、(5.2)设计转移概率，表示从当前状态s执行动作a转移到新的状态s′的概率：p(s'|s,a)，通过统计事件日志中每个状态-动作对的状态转移概率得到；

57、(5.3)考虑生产效率、资源效率、超时和资源冲突来设计奖励函数以激励快速完成任务、高效利用资源，并惩罚超时和资源冲突：

58、rtoal＝w1×refficiency+w2×rresource+w3×rtimeout+w4×rconflict

59、其中，w1、w2、w3、w4是权重系数，用于平衡不同奖励组件的重要性；生产效率t是完成任务所需的总时间；资源效率ut和rt分别是在时间t使用的资源量和可用的总资源量；超时惩罚λ是惩罚系数，n是任务总数，δi是指示函数，如果任务i超时则为1，否则为0；资源冲突rconflict＝-μ×c，μ是惩罚系数，c是在决策过程中发生的资源冲突次数；

60、(5.4)使用深度q网络学习在给定状态下选择最优动作的策略，首先随机初始化q网络的参数，然后智能体根据ε-贪心策略在环境中选择动作，执行选择的动作并观察环境的反馈，包括下一个状态和奖励，接着更新q值：

61、计算目标q值：y＝r+g×maxa'qtarget(s',a'；qtarget)，其中r是奖励，γ是折扣因子，qtarget是目标网络的输出，s′是下一个状态，a′是下一个状态的可能动作，θtarget是q网络的参数；

62、计算当前q值：qcurrent(s,a；q)，其中s是当前状态，a是当前动作，θ是q网络的参数；

63、使用梯度下降更新q网络的参数：其

64、中α是学习率；

65、(5.5)重复上述探索和更新步骤，直到策略收敛，智能体能够根据学习到的策略并行化执行生产业务流程中的任务，消除超时异常。

66、本发明的技术构思是：首先，输入生产业务流程事件日志和案例执行的规定时间；其次，从日志中提取活动名称、所需资源、持续时间等特征，构建特征矩阵；然后，使用自注意力机制预测当前案例的剩余执行时间，并判断是否存在超时风险；若存在风险，将生产业务流程建模为马尔可夫过程，并利用深度q网络(dqn)来优化决策策略，实现任务的并行执行和超时异常的解决。该方法通过自动化特征提取、精确剩余时间预测、智能并行执行优化和资源合理分配，提高了生产业务流程的灵活性和响应速度，有效降低了生产成本并提升了客户满意度。

67、本发明的优点是：利用自注意力机制对生产业务流程的剩余执行时间进行准确预测，能够提前识别潜在的超时风险；使用强化学习自动识别生产业务流程中可以并行执行的节点，减少了人工干预，降低了对专家经验的依赖，使得流程自动化程度更高。

技术特征：

1.一种基于强化学习的生产业务流程超时异常处理方法，包括以下步骤：

2.如权利要求1所述的基于强化学习的生产业务流程超时异常处理方法，其特征在于，步骤(2)中对事件日志提取特征，具体包括如下特征：

3.如权利要求1所述的基于强化学习的生产业务流程超时异常处理方法，其特征在于，步骤(3)具体包括以下步骤：

4.如权利要求1所述的基于强化学习的生产业务流程超时异常处理方法，其特征在于，步骤(5)具体包括以下步骤：

5.如权利要求4所述的基于强化学习的生产业务流程超时异常处理方法，其特征在于，步骤(5.4)具体为：

技术总结
本发明提出一种基于强化学习的生产业务流程超时异常处理方法，包括以下步骤：首先，输入生产业务流程事件日志和案例执行的规定时间；其次，从日志中提取活动名称、所需资源、持续时间等特征，构建特征矩阵；然后，使用自注意力机制预测当前案例的剩余执行时间，并判断是否存在超时风险；若存在风险，将生产业务流程建模为马尔可夫过程，并利用深度Q网络来优化决策策略，实现任务的并行执行和超时异常问题的解决。本发明利用自注意力机制对生产业务流程的剩余执行时间进行准确预测，能够提前识别潜在的超时风险；使用强化学习自动识别生产业务流程中可以并行执行的节点，减少了人工干预，降低了对专家经验的依赖，使得流程自动化程度更高。

技术研发人员：王佳星,余益丰,侯晨煜,曹斌,范菁
受保护的技术使用者：浙江工业大学
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-42692.html

专利

最新回复(0)