本发明涉及数据处理,尤其涉及一种数据血缘关系的确定方法、装置、电子设备及存储介质。
背景技术:
1、数据血缘(data lineage)是指数据关联关系链路,用于指示数据产生、转移及处理等流程的上下游依赖关系,对于数据的质量、可信度及可解释性起重要作用。随着大数据时代的到来,数据量、数据复杂性和多样性的增长,数据血缘关系确定方法的性能备受数据管理人员关注。
2、目前,数据血缘关系是根据数据的相似度确定的,例如,根据各数据的数据表表名和表结构信息计算数据相似度,再根据数据相似度确定各数据的血缘关系得分,进而得到各数据之间的数据血缘关系。但该方法需要通过手动或者半自动化工具对数据的数据表表明和表结构信息进行标注,并根据标注后的信息确定数据血缘关系,数据血缘关系的分析周期长,成本高,实用性低,且数据量越大,数据血缘关系的确定速率越低。
技术实现思路
1、本发明提供了一种数据血缘关系的确定方法、装置、电子设备及存储介质,不需要借助手动或者半自动工具,根据语言解析规则和目标关系型数据库的数据库类型,确定待处理数据的解析编辑文件,再使用目标结构化查询语言脚本调用解析编辑文件,解析待处理数据的数据血缘关系,血缘关系分析工作的效率和经济性高。
2、根据本发明的一方面,提供了一种数据血缘关系的确定方法,该方法包括:
3、确定待处理数据的目标工作流配置信息,其中,目标工作流配置信息包括待处理数据的目标关系型数据库和目标结构化查询语言脚本;
4、利用预先设置的语言解析规则对目标关系型数据库进行处理,得到待处理数据的中间处理文件;
5、基于中间处理文件和目标结构化查询语言脚本,确定待处理数据的数据血缘关系。
6、根据本发明的另一方面,提供了一种数据血缘关系的确定装置,数据血缘关系的确定装置用于实现本发明任一实施例中的数据血缘关系的确定方法,该装置包括:
7、信息获取模块,用于确定待处理数据的目标工作流配置信息,其中,目标工作流配置信息包括待处理数据的目标关系型数据库和目标结构化查询语言脚本;
8、文件确定模块,用于利用预先设置的语言解析规则对目标关系型数据库进行处理,得到待处理数据的中间处理文件;
9、血缘确定模块,用于基于中间处理文件和目标结构化查询语言脚本,确定待处理数据的数据血缘关系。
10、根据本发明的另一方面,提供了一种电子设备,该电子设备包括:
11、至少一个处理器;以及与至少一个处理器通信连接的存储器;
12、其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例中的数据血缘关系的确定方法。
13、根据本发明的另一方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例中的数据血缘关系的确定方法。
14、本发明的数据血缘关系的确定方法包括:确定待处理数据的目标工作流配置信息,其中,目标工作流配置信息包括待处理数据的目标关系型数据库和目标结构化查询语言脚本;利用预先设置的语言解析规则对目标关系型数据库进行处理,得到待处理数据的中间处理文件;基于中间处理文件和目标结构化查询语言脚本,确定待处理数据的数据血缘关系。本发明的技术方案,先根据预先设置的语言解析规则和目标关系型数据库的数据库类型,确定待处理数据的解析编辑文件,再使用目标结构化查询语言脚本调用解析编辑文件,解析出待处理数据的数据血缘关系,数据血缘关系的确定工作是全自动的,血缘关系分析工作的效率高,不需要借助手动或者半自动工具,可以有效降低数据血缘关系分析工作的成本和数据量对数据血缘关系确定工作的影响,提升数据血缘关系确定工作的经济性。解决了通过手动或者半自动化工具对数据的数据表表明和表结构信息进行标注,并根据标注后的信息确定数据血缘关系,数据血缘关系的分析周期长,成本高,实用性低,且数据量越大,数据血缘关系的确定速率越低等问题。
15、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
1.一种数据血缘关系的确定方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述确定待处理数据的目标工作流配置信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述利用预先设置的语言解析规则对所述目标关系型数据库进行处理,得到所述待处理数据的中间处理文件,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述中间处理文件和所述目标结构化查询语言脚本,确定所述待处理数据的数据血缘关系,包括:
5.根据权利要求4所述的方法,其特征在于,在所述基于所述语法逻辑树的语义分析结果,确定所述数据血缘关系时,还包括:
6.根据权利要求1所述的方法,其特征在于,所述待处理数据包括至少一个子待处理数据,所述数据血缘关系包括至少一个子数据血缘关系,所述子数据血缘关系与所述子待处理数据一一对应;
7.根据权利要求6所述的方法,其特征在于,在所述基于所述血缘关系查询指令在所述至少一个子数据血缘关系中进行匹配,并根据匹配结果确定候选数据血缘关系时,还包括:
8.一种数据血缘关系的确定装置,其特征在于,用于实现权利要求1至7中任一所述的数据血缘关系的确定方法,所述数据血缘关系的确定装置包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1至7中任一所述的数据血缘关系的确定方法。
