一种结合动态知识图谱的仿真决策方法

    技术2024-12-21  4


    本发明属于对抗仿真,尤其涉及一种结合动态知识图谱的仿真决策方法。


    背景技术:

    1、对抗仿真作为一种高效的训练和策略评估工具,其重要性日益凸显。对抗仿真允许决策者和策略规划者在虚拟环境中模拟实际对抗情境,以测试和优化策略及资源部署。当前的对抗仿真流程主要包括以下步骤:

    2、(1)创建模型:这一步骤侧重于根据物理特性和对抗业务设计各类模型,如实体模型、组件模型、行为模型和规则模型等。这些模型构成了仿真环境的基础。

    3、(2)创建装备模板:为装备模型输入参数以实现高度复用。这包括机动组件、传感器组件、行为能力组件和特征组件等,以构建可重复使用的装备模板。

    4、(3)组装实体:将装备模板装配到实体模型上,形成型号化的装备模型,如特定型号的飞机或舰艇实体。

    5、(4)创建想定:在所设想的对抗环境中部署红蓝双方资源,为实体赋予预定行为,构建对抗场景想定。

    6、(5)运行想定:通过时间离散仿真方式,根据时间推进来模拟对抗场景中的态势变化,评估各种战术和策略的有效性。

    7、尽管现有对抗仿真技术在战术分析和决策支持方面提供了显著的帮助,但其在应对复杂对抗的动态性方面存在明显不足。主要局限性如下:

    8、(1)手动创建和管理想定的效率低下:当前仿真方法要求操作员手动创建和管理对抗场景想定,包括资源部署、行为规划等。这不仅耗时费力,而且在快速变化的对抗环境中,往往无法及时更新想定以反映实时情报和对抗场景变化。这种低效率严重限制了仿真作为即时决策工具的应用。

    9、(2)复杂规则的设计困难:为确保仿真结果的真实性和准确性,需要设计复杂的对抗规则以模拟各种可能的对抗情景。然而,现有的仿真系统往往依赖硬编码规则,这不仅限制了规则的灵活性和可扩展性,而且使得修改和更新规则变得异常困难。因此,仿真系统在面对未预见情况时的适应能力受到了限制。

    10、(3)对复杂情境的响应不足:现代对抗的特点是信息化和网络化,对抗场景情境极为复杂多变。现有仿真系统往往难以有效模拟这种复杂性,特别是在面对复杂交互、电子战、网络攻防等现代对抗元素时,现有方法的模拟能力显得力不从心。

    11、(4)可扩展性和可维护性问题:随着仿真需求的增长和对抗技术的发展,仿真系统需要不断扩展和更新以包含新的模型、规则和技术。然而,现有仿真框架的可扩展性和可维护性常常受到限制,这不仅增加了更新系统的难度,也降低了长期使用的可行性。

    12、(5)仿真结果的实用性限制:由于上述局限性,即使是经过精心设计的仿真也可能无法提供足够实用的见解或决策支持。仿真结果的准确性和相关性在很大程度上依赖于初始想定的质量和对抗规则的真实性,这些因素的不确定性增加了仿真依赖性的风险。


    技术实现思路

    1、基于现有技术的局限性,本发明通过一种结合动态知识图谱的仿真决策方法来克服现有技术的不足,提高仿真的灵活性、效率和实用性,以更好地适应现代对抗场景的复杂性和动态性。面对当前对抗仿真流程在效率、规则设计、复杂情境响应、可扩展性和可维护性等方面的不足,提出了包含以下主要技术创新点的解决方案:

    2、1.知识图谱构建与动态更新:构建涵盖对抗实体和规则的知识图谱,并通过集成的信息收集模块实时更新,以反映最新的对抗场景状况和对抗规则。

    3、2.基于知识图谱的对抗决策支持:通过知识图谱自动生成对抗方案,进行仿真模拟与方案评估,并在对抗执行阶段根据实时情报和对抗场景态势变化动态调整对抗方案和规则。

    4、3.学习与优化机制:引入机器学习机制,基于仿真结果和实际对抗反馈自动学习和调整对抗规则和决策逻辑,以适应复杂多变的对抗环境并提高决策质量。

    5、为实现上述目的,本技术公开的结合动态知识图谱的仿真决策方法,包括以下步骤:

    6、收集多源对抗数据,构建知识图谱并动态更新知识图谱,以反映最新的对抗场景状况和对抗规则;

    7、基于知识图谱的对抗决策支持:通过知识图谱自动生成对抗方案,进行仿真模拟与方案评估,并在对抗执行阶段根据实时情报和对抗场景态势变化动态调整对抗方案和规则,具体包括以下步骤:自动生成对抗方案,仿真模拟与方案评估、实时决策支持与调整;

    8、学习与优化机制:根据机器学习机制,基于仿真结果和实际对抗反馈自动学习和调整对抗规则和决策逻辑,以适应复杂多变的对抗环境并提高决策质量,具体包括以下步骤:数据驱动的持续学习、优化决策支持框架和知识图谱的演化与完善。

    9、进一步地,所述收集多源数据,构建知识图谱,包括:

    10、通过自动化工具和手动输入方式收集多源数据,所述多源数据至少包括装备参数、对抗手册、历史对抗记录之一;利用数据预处理技术将收集到的数据转化为结构化数据;

    11、在预处理后的数据基础上,依据对抗域知识和对抗规则定义知识图谱中的核心实体和实体间的关系;

    12、采用图数据库技术存储实体和关系,构建对抗规则知识图谱。

    13、进一步地,所述动态更新知识图谱包括:

    14、通过接口自动接收实时情报数据,

    15、对于文本形式的数据应用nlp技术,从文本中识别和提取对抗相关的实体及其关系,实现知识图谱的更新;

    16、建立用户反馈机制,允许用户修改或补充知识图谱中的信息;

    17、为应对对抗场景情况的快速变化,对知识图谱进行版本控制和历史追踪,保留每次更新的历史记录。

    18、进一步地,所述对抗方案自动生成包括多任务学习框架构建、数据预处理与特征工程、训练与优化;

    19、所述多任务学习框架构建,具体包括:

    20、任务定义:定义多任务学习框架中的任务,包括对抗方案生成、资源消耗预测、效果评估;

    21、采用生成式预训练模型gpt为骨干网络,以生成的方式进行对抗方案生成、资源消耗预测和效果评估,任务形式化为:

    22、(y1,y2,…,ym)=gpt(x1,x2,…,xn),

    23、其中,x1,x2,…,xn为模型的提示输入,y1,y2,…,ym为模型的预测输出;

    24、采用参数共享的方式对多任务之间的共性信息进行捕获,具体地:

    25、使用共享的表示层,用于捕获所有任务间共通的特征和信息,以实现知识和信息在不同任务之间的传递和共享;

    26、为每个任务设计任务特定层,用于提取任务相关的特征和完成特定的学习目标;

    27、对于不同版本的开源模型采用相同的逐层搜索策略,确定共享表示层和任务特定层;

    28、所述数据预处理与特征工程,包括:

    29、对于对抗方案的生成,标注各种对抗动作和决策的效果,以供训练使用;

    30、基于知识图谱和历史数据,提取决策相关的特征;

    31、所述训练与优化包括:

    32、对于共享表示层,将gpt-2中的对应层直接使用到全部任务上,对于任务特定层,根据任务数量拷贝多份,独立用于特定任务;

    33、通过联合训练多个任务,共同优化共享表示层和任务特定层,保证每个任务的性能最优化,即:根据生成损失的定义,对于任务ti,其损失定义为:

    34、

    35、其中,i表示任务的索引,ti表示第i个任务,w表示gpt-2模型的预测输入索引,yw表示第j个输出词,p(yw|y1,…,yw―1)表示gpt-2模型在已知预测输出y1,…,yw―1条件下输出yw的概率;

    36、则联合损失定义为多任务损失的加权:

    37、

    38、进一步地,所述对于不同版本的开源模型采用相同的逐层搜索策略,确定共享表示层和任务特定层,通过以下步骤完成:

    39、步骤1:固定模型,对任务ti进行性能评估,得到指标p;

    40、步骤2:逐层解冻gpt-2的transformer层lj,对任务ti进行性能评估,得到指标pj,并计算性能变化δpj=p―pj;

    41、步骤3:对于所有任务执行以上步骤,获得性能变化,选择其中引起综合性能提升最高的k层transformer作为任务特定层,其余层为共享表示层,因此,任务特定层如下确定:

    42、

    43、表示任务ti在解冻transformer层lj时的性能提升,其中k值取gpt-2中transformer层数的一半,argtopkj表示获取在以j为索时,所有中最大的k个值所对应的索引。

    44、进一步地,所述仿真模拟与方案评估包括元学习算法应用和仿真模拟与反馈;

    45、所述元学习算法应用包括:

    46、利用元学习算法训练模型以快速适应新的对抗环境和条件;

    47、使用元学习框架以在少量样本情况下快速更新模型;

    48、所述仿真模拟与反馈包括:

    49、基于知识图谱和动态更新的对抗规则,构建详尽的仿真环境,为对抗方案提供实际的背景和条件;

    50、通过高级仿真引擎执行对抗方案,收集关键事件和结果数据;

    51、根据仿真结果,利用元学习算法对模型进行快速调整和优化,以提高对抗方案的有效性和适应性。

    52、进一步地,所述实时决策支持与调整包括:

    53、在对抗执行过程中,系统能够实时融合新的情报数据,更新知识图谱,并根据对抗场景态势的变化自动调整对抗方案;

    54、引入动态决策调整机制,允许系统根据实时仿真反馈和决策者的即时指令,快速迭代优化对抗方案;

    55、为决策者提供决策建议及其理由,包括推荐方案的优势、潜在风险及影响因素分析,帮助决策者理解决策背后的逻辑,增强决策的透明度和可信度;

    56、所述数据驱动的持续学习包括:

    57、将仿真模拟和实际对抗的结果反馈至系统,建立起一个持续的学习和优化循环;

    58、利用收集到的数据训练深度学习模型,如预训练语言模型用于时间序列数据分析,从而提升系统的决策支持能力;对于知识图谱表示学习,采用图神经网络提高对抗方案生成的准确性和适应性;

    59、使用自适应算法,使系统根据历史和实时数据自动调整对抗规则和决策逻辑,无需人工干预。

    60、进一步地,所述优化决策支持框架包括多目标优化、决策树与规则库动态更新和仿真环境优化;

    61、所述多目标优化同时考虑对抗任务的多个评价指标,通过pareto优化技术,为决策者提供一系列权衡方案;

    62、多目标优化的求解方法如下:

    63、首先随机生成连续型初始种群xcon,随后利用基于排序的离散化生成01型种群xbi,并依据xbi计算初始种群适应度{f(x1),l,f(xn)},其中n为种群规模,f(xn)是解xn的适应度;当终止条件未满足时,算法迭代运行;

    64、在算法前85%次迭代,pom模块用标准差分进化算法的算子在连续域对xcon进行变异和交叉生成连续型子代个体ocon;在算法最后15%次迭代,对ocon采用主成分分析把数据从原目标空间降维至低维潜空间;

    65、记目标函数数量为m,取前(m-1)个主成分对应的特征向量[v1,…,vm-1]为潜空间坐标系,利用下式在超平面进行重采样生成ocon:

    66、

    67、其中是xcon中样本均值,σk是低维潜空间中第k个维度的取值范围,vk是xcon样本协方差矩阵第k大的特征值对应的特征向量,即潜空间中第k个坐标轴;

    68、随后采用基于排序的离散化生成xbi,再通过基于排序的离散化形成新的种群obi,最后在xbi和obi之间通过pom映射机制,将父代种群中精英个体的特征传递给子代;

    69、所述决策树与规则库动态更新根据机器学习模型的输出和用户反馈,动态更新系统中的决策树和规则库;

    70、所述仿真环境优化基于最新的学习成果和反馈,不断优化仿真环境,包括模拟敌我双方行为、环境变化。

    71、进一步地,所述pom映射机制的步骤如下:

    72、1)依据目标函数值和pareto支配原则求出obi中的非支配集并随机选出一个非支配个体yj,xcon进行标准差分进化算法的变异和交叉,生成连续型子代个体ocon,随后通过基于排序的离散化生成0-1型子代个体obi;

    73、2)以概率pind从obi中挑选个体xi与yj之间进行pom,最终生成候选种群的个体ζi,在这个过程中xi的每一个分量以pgen的概率被yj的对应分量替代;ζi的计算用下式描述:

    74、xi=(o1,…,od),yj=(p1,…,pn),ζi=(c1,…,cn)

    75、

    76、其中d是决策变量维数,rd∈(0,1)为随机数,pgen是预先给定的分量替换概率,o1,...on分别表示子代种群中的第1个和第n个个体,yj表示当前非支配解集中随机挑选的一个个体,p1,...pn分别表示优化以来最好的n个非支配个体,c1,...cn分别表示pom处理后,生成的n’个子代个体,它们被选为算法下一场迭代的父代种群,即候选种群的个体,pk是优化以来最好的第k个非支配个体,ok是子代种群中的第k个个体;通过pom的映射机制,打破种群个体在进化过程中0元素数量和1元素数量的比例维持在1:1的问题;

    77、3)进行选择算子操作:

    78、在合并种群{obi,ζ1,…,ζn}上进行选择操作,其中n为种群规模。随后根据pareto支配原则利用非支配排序得到若干层非支配序列{fr1,…,frk};按照序号由小到大的顺序保留各层个体;当保留的个体数量大于n时,依照拥挤距离阶段拥挤距离最低的若干个解直至得到下一代种群的n个个体。

    79、10.根据权利要求9所述的结合动态知识图谱的仿真决策方法,其特征在于,所述知识图谱的演化与完善,包括知识提炼与融合和交叉验证与知识修正;

    80、所述知识提炼与融合将从数据驱动学习中获得的新知识,融合到知识图谱中;

    81、所述交叉验证与知识修正通过交叉验证机制,检验新融合知识的有效性和准确性,必要时进行修正或回滚。

    82、本技术的有益效果如下:

    83、本技术提出了一种结合对抗规则知识网络的对抗仿真方法,通过知识图谱技术,提高了对抗仿真和对抗规划的灵活性、效率及其对复杂对抗环境的适应能力。


    技术特征:

    1.一种结合动态知识图谱的仿真决策方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的结合动态知识图谱的仿真决策方法,其特征在于,所述收集多源数据,构建知识图谱,包括:

    3.根据权利要求2所述的结合动态知识图谱的仿真决策方法,其特征在于,所述动态更新知识图谱包括:

    4.根据权利要求3所述的结合动态知识图谱的仿真决策方法,其特征在于,所述对抗方案自动生成包括多任务学习框架构建、数据预处理与特征工程、训练与优化;

    5.根据权利要求4所述的结合动态知识图谱的仿真决策方法,其特征在于,所述对于不同版本的开源模型采用相同的逐层搜索策略,确定共享表示层和任务特定层,通过以下步骤完成:

    6.根据权利要求5所述的结合动态知识图谱的仿真决策方法,其特征在于,所述仿真模拟与方案评估包括元学习算法应用和仿真模拟与反馈;

    7.根据权利要求6所述的结合动态知识图谱的仿真决策方法,其特征在于,所述实时决策支持与调整包括:

    8.根据权利要求7所述的结合动态知识图谱的仿真决策方法,其特征在于,所述优化决策支持框架包括多目标优化、决策树与规则库动态更新和仿真环境优化;

    9.根据权利要求8所述的结合动态知识图谱的仿真决策方法,其特征在于,所述pom映射机制的步骤如下:

    10.根据权利要求9所述的结合动态知识图谱的仿真决策方法,其特征在于,所述知识图谱的演化与完善,包括知识提炼与融合和交叉验证与知识修正;


    技术总结
    本发明公开了一种结合动态知识图谱的仿真决策方法,包括以下步骤:知识图谱构建与动态更新:构建涵盖对抗实体和规则的知识图谱,并通过集成的信息收集模块实时更新,以反映最新的对抗场景状况和对抗规则。基于知识图谱的对抗决策支持:通过知识图谱自动生成对抗方案,进行仿真模拟与方案评估,并在对抗执行阶段根据实时情报和对抗态势变化动态调整对抗方案和规则。学习与优化机制:引入机器学习机制,以适应复杂多变的对抗环境并提高决策质量。本申请通过知识图谱技术,提高了对抗仿真和对抗规划的灵活性、效率及其对复杂对抗环境的适应能力。

    技术研发人员:赵翔,庞宁,黄宏斌,吴继冰,徐浩,王懋,曾维新
    受保护的技术使用者:中国人民解放军国防科技大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-24025.html

    最新回复(0)