基于可视化建模与作业编排调度的数据分析方法及系统与流程

    技术2024-12-09  11


    本发明涉及数据分析,具体为基于可视化建模与作业编排调度的数据分析方法及系统。


    背景技术:

    1、随着大数据时代的到来,数据分析已经成为各行各业决策的重要依据。然而,传统的数据分析方法通常依赖于复杂的编程和繁琐的数据处理流程,这不仅增加了数据分析的难度,也降低了数据分析的效率。因此,开发一种直观、高效的数据分析系统,具有重要的实际意义和应用价值。另外,开源作业调度框架在企业级多租户调度策略、调度性能、系统资源利用率和支持大集群扩展性方面,功能和性能都存在一定的局限性,本发明针对这些方面自研作业编排调度引擎作为数据分析系统的底座,大幅提升了数据可视化分析工作生产效率。


    技术实现思路

    1、鉴于上述存在的问题,提出了本发明。

    2、因此,本发明解决的技术问题是:如何通过智能资源调度策略,实现数据分析任务的高效执行和资源利用最大化,从而解决现有技术中资源利用率低、任务执行效率低的问题。

    3、为解决上述技术问题,本发明提供如下技术方案:基于可视化建模与作业编排调度的数据分析方法,其包括如下步骤,

    4、设计数据分析流程和服务节点,构建数据分析模型。

    5、通过服务编排引擎实时加载数据分析模型并进行初始化。

    6、数据分析模型中的数据处理节点对数据进行预处理和转换,形成统一的数据集。

    7、构建综合目标优化模型,输出资源分配方案。

    8、根据资源分配方案以及统一的数据集,动态调整任务执行顺序。

    9、编排调度引擎采用步进式资源调度策略进行资源分配和任务执行。

    10、作为本发明所述的基于可视化建模与作业编排调度的数据分析方法的一种优选方案,其中:所述构建数据分析模型是设计和管理服务端组件,将业务配置和扩展的组件进行保存,用户通过 http 请求向 rest api 发送数据预处理逻辑以及任务调度策略,restapi 接收请求后,将任务调度策略存储在服务器的数据库中,用户通过 rest api 实时更新已存储的任务调度策略,rest api 将新的任务调度策略覆盖数据库中的旧任务调度策略,aviator 引擎从数据库中提取最新任务调度策略进行解析,将解析后的任务调度策略转换为数据处理节点的任务调度策略指令集。

    11、初始化服务节点时,将解析后的任务调度策略指令集绑定到服务节点;并在服务节点中创建周期执行器,周期执行器定期监控流程配置表检测任务调度策略的变化。

    12、在初始化时自动生成流程配置表,记录服务节点的操作状态和依赖关系,当周期执行器检测到配置表的更新时,服务节点自动进行内部流程的热更新,服务编排引擎依据更新后的任务调度策略指令调整当前任务的执行顺序和资源分配,生成更新通知,通知客户端关于流程配置的变更,客户端通过流程配置总线接收更新通知,使用扫描器扫描component 接口的计算元组件,并将组件信息发送至总线,上报控制器从总线接管组件信息并打包发送给服务器,拉取控制器从服务器获取最新的流程配置并存储在本地缓存中。

    13、作为本发明所述的基于可视化建模与作业编排调度的数据分析方法的一种优选方案,其中:所述通过服务编排引擎实时加载数据分析模型并进行初始化是在构建完成数据分析模型后,服务编排引擎开始实时加载和初始化数据分析模型,服务编排引擎从服务器数据库中提取用户通过 rest api 存储的任务调度策略并调用 aviator 引擎对提取到的任务调度策略进行解析,将解析结果转化为数据处理节点的具体操作指令。

    14、服务节点通过获取解析后的指令初始化操作环境,利用流程配置表确定节点之间的依赖关系和执行顺序,服务编排引擎采用异步通信机制协调服务节点的启动顺序,并分配所需的计算资源,周期执行器实时监控数据处理节点的状态变化,根据流程配置表对节点进行更新和重新配置,在所有节点准备完成后,服务编排引擎启动数据分析模型,使数据处理节点按照解析后的任务调度策略执行数据处理和任务调度。

    15、所述流程配置表是在模型构建时自动生成的,记录了每个服务节点的当前状态和依赖链,使节点在正确的时机启动。

    16、作为本发明所述的基于可视化建模与作业编排调度的数据分析方法的一种优选方案,其中:所述预处理和转换是在服务节点初始化完成后,数据处理节点根据 aviator引擎解析后的规则指令集执行数据预处理操作,包括从数据源节点收集原始数据,去除空值、去除重复值、检测并处理异常值,并统一数据格式。

    17、在完成预处理后,数据处理节点进行数据转换,将预处理后的数据转换为符合分析需求的数据类型,包括数据类型转换、聚合和特征工程操作,将不同来源的数据进行集成形成统一的数据集。

    18、作为本发明所述的基于可视化建模与作业编排调度的数据分析方法的一种优选方案,其中:所述构建综合目标优化模型是完成动态调整资源分配,对于所有分配给任务节点的cpu资源量资源总和必须大于或等于任务节点所需的cpu资源量,所有分配给任务节点的内存资源总和必须大于或等于任务节点所需的内存资源量。

    19、对于每个计算资源节点分配的总资源不能超过可用资源,所有分配给任务节点的cpu资源量资源总和必须小于或等于资源节点的可用 cpu资源量,所有分配给任务节点的内存资源总和必须小于或等于资源节点的可用内存资源量。

    20、根据资源节点的当前负载加上所有分配给当前的任务资源量之和,输出一个期望的目标值,表达式为:

    21、,

    22、其中,为资源节点 的当前负载,为资源节点  分配给任务节点  的cpu资源量, 为资源 节点 分配给任务节点  的内存资源量,、分别为任务节点  所需要的cpu资源量和内存资源量。

    23、将任务执行的时间压缩至最短,利用历史数据中的资源使用效率,优化资源分配,表达式为:

    24、,

    25、,

    26、其中, 为任务节点  的执行时间,为资源节点  的健康状态, 为历史数据中资源  在执行任务  时的执行效率, 为任务节点  的优先级权重。

    27、构建综合优化目标函数,表达式为:

    28、,

    29、其中,、分别为任务执行时间的权重、负载均衡的权重,是期望的负载均衡值,、分别为任务节点的总数、资源类型的总数,分别为任务节点的索引。

    30、作为本发明所述的基于可视化建模与作业编排调度的数据分析方法的一种优选方案,其中:所述动态调整任务执行顺序是加载统一数据集,获取任务节点所需的数据,并作为综合目标优化模型的输入,输出资源分配方案。

    31、基于综合目标优化模型输出的资源分配方案,为每个任务节点分配特定的计算资源。

    32、通过资源分配方案构建可视化的有向无环图,使用有向无环图表示任务之间的依赖关系,其中每个节点代表一个任务,边表示任务之间的依赖,根据任务节点的前置条件和依赖关系自动生成拓扑结构,所有任务节点按照自身在有向无环图中的位置进行排序,完成前置任务完成后才启动后续任务。

    33、所述计算资源是cpu资源量以及内存资源类。

    34、作为本发明所述的基于可视化建模与作业编排调度的数据分析方法的一种优选方案,其中:所述资源分配和任务执行是根据逐步分配计算资源并按任务优先级顺序执行任务,根据资源分配方案为每个任务分配初始的计算资源,实时监控当前任务在时间使用资源的情况,每个任务节点 均有一个相对应的初始的资源分配量,记录资源使用动态并与资源分配方案进行对比,若任务提前完成或延迟,则释放或需求的资源将根据资源分配方案,表达式为:

    35、 ,

    36、  ,

    37、,

    38、其中, 为分配给任务  的资源量  , 为资源分配方案中分配给任务的资源量 ,任务节点  在时间  使用资源量  的情况, 为任务节点 在时间  使用资源量  的情况,为根据实时监控反馈进行的资源调整量。

    39、根据dag结构中的任务依赖关系和资源分配方案,逐步调度任务节点执行,构建任务调度顺序,表达式为:

    40、,

    41、其中, 为任务节点  的优先级,为任务节点  的执行时间。

    42、将任务执行过程划分为多个阶段,在每个阶段结束时,根据任务执行的结果和资源使用情况,调整下一阶段的任务执行计划和资源分配策略。

    43、收集任务节点执行过程中的资源使用情况和任务执行时间,构建反馈优化目标函数,表达式为:

    44、,

    45、其中,为任务节点  的执行时间,为资源  使用的权重。

    46、本发明的另外一个目的是提供基于可视化建模与作业编排调度的数据分析系统,其能通过智能资源调度策略,实现数据分析任务的高效执行和资源利用最大化,解决了现有技术中资源利用率低、任务执行效率低的问题。

    47、为解决上述技术问题,本发明提供如下技术方案:基于可视化建模与作业编排调度的数据分析系统,包括:数据分析建模模块、服务编排引擎模块、智能资源调度模块、实时监控与反馈模块以及反馈优化模块。

    48、所述数据分析建模模块是根据数据分析需求,设计数据分析流程和服务节点,构建数据分析模型。

    49、所述服务编排引擎模块是实时加载数据分析模型并进行初始化,根据综合优化目标模型输出的资源分配方案进行资源分配。

    50、所述智能资源调度模块是采用智能资源调度策略进行资源分配和任务执行,通过预测和实时监控动态调整资源和调度策略。

    51、所述实时监控与反馈模块是实时监控任务执行情况和资源使用情况,提供反馈数据优化资源调度策略。

    52、所述反馈优化模块是通过持续收集任务执行数据,更新机器学习模型和综合优化目标模型,形成闭环优化。

    53、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述基于可视化建模与作业编排调度的数据分析方法的步骤。

    54、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述基于可视化建模与作业编排调度的数据分析方法的步骤。

    55、本发明的有益效果:本发明通过智能资源调度策略,将综合优化目标模型的结果与实时监控和预测相结合,动态调整资源分配和任务执行顺序,从而实现数据分析任务的高效执行和资源利用的最大化,有效解决了现有技术中资源利用率低和任务执行效率低的问题。


    技术特征:

    1.基于可视化建模与作业编排调度的数据分析方法,其特征在于,包括:

    2.如权利要求1所述的基于可视化建模与作业编排调度的数据分析方法,其特征在于:所述构建数据分析模型是设计和管理服务端组件,将业务配置和扩展的组件进行保存,用户通过 http 请求向 rest api 发送数据预处理逻辑以及任务调度策略,rest api 接收请求后,将任务调度策略存储在服务器的数据库中,用户通过 rest api 实时更新已存储的任务调度策略,rest api 将新的任务调度策略覆盖数据库中的旧任务调度策略,aviator 引擎从数据库中提取最新任务调度策略进行解析,将解析后的任务调度策略转换为数据处理节点的任务调度策略指令集;

    3.如权利要求2所述的基于可视化建模与作业编排调度的数据分析方法,其特征在于:所述通过服务编排引擎实时加载数据分析模型并进行初始化是在构建完成数据分析模型后,服务编排引擎开始实时加载和初始化数据分析模型,服务编排引擎从服务器数据库中提取用户通过 rest api 存储的任务调度策略并调用 aviator 引擎对提取到的任务调度策略进行解析,将解析结果转化为数据处理节点的具体操作指令;

    4.如权利要求3所述的基于可视化建模与作业编排调度的数据分析方法,其特征在于:所述预处理和转换是在服务节点初始化完成后,数据处理节点根据 aviator 引擎解析后的规则指令集执行数据预处理操作,包括从数据源节点收集原始数据,去除空值、去除重复值、检测并处理异常值,并统一数据格式;

    5.如权利要求4所述的基于可视化建模与作业编排调度的数据分析方法,其特征在于:所述构建综合目标优化模型是确定任务调度策略,输出动态调整资源分配,对于所有分配给任务节点的cpu资源量资源总和必须大于或等于任务节点所需的cpu资源量,所有分配给任务节点 的内存资源总和必须大于或等于任务节点所需的内存资源量;

    6.如权利要求5所述的基于可视化建模与作业编排调度的数据分析方法,其特征在于:所述动态调整任务执行顺序是加载统一数据集,获取任务节点所需的数据,并作为综合目标优化模型的输入,输出资源分配方案;

    7.如权利要求6所述的基于可视化建模与作业编排调度的数据分析方法,其特征在于:所述资源分配和任务执行是根据逐步分配计算资源并按任务优先级顺序执行任务,根据资源分配方案为每个任务分配初始的计算资源,实时监控当前任务在时间使用资源的情况,每个任务节点 均有一个相对应的初始的资源分配量,记录资源使用动态并与资源分配方案进行对比,若任务提前完成或延迟,则释放或需求的资源将根据资源分配方案,表达式为:

    8.一种采用如权利要求1至7任一所述的基于可视化建模与作业编排调度的数据分析方法的系统,其特征在于:包括数据分析建模模块、服务编排引擎模块、智能资源调度模块、实时监控与反馈模块以及反馈优化模块;

    9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于可视化建模与作业编排调度的数据分析方法的步骤。

    10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述基于可视化建模与作业编排调度的数据分析方法的步骤。


    技术总结
    本发明公开了基于可视化建模与作业编排调度的数据分析方法及系统,涉及数据分析技术领域,包括:根据数据分析需求,设计数据分析流程和服务节点,构建数据分析模型;加载数据分析模型并进行初始化;对数据进行预处理和转换,形成统一的数据集;构建综合目标优化模型,输出资源分配方案;根据资源分配方案以及统一的数据集,动态调整任务执行顺序;编排调度引擎采用步进式资源调度策略进行资源分配和任务执行。本发明通过智能资源调度策略,将综合优化目标模型的结果与实时监控和预测相结合,动态调整资源分配和任务执行顺序,从而实现数据分析任务的高效执行和资源利用的最大化,有效解决了现有技术中资源利用率低和任务执行效率低的问题。

    技术研发人员:袁存发,汤幸福,陆文迪,张强,许金龙,江家杰,周洋
    受保护的技术使用者:朗坤智慧科技股份有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-23314.html

    最新回复(0)