本发明涉及大数据处理,具体地说是一种元数据标准化生成及校验的方法和系统。
背景技术:
1、随着大数据时代的到来,数据的规模和复杂性不断增加,元数据的处理和管理变得尤为重要。然而,传统的元数据管理方式通常依赖人工进行字段和类型的校验,效率低下且易出错。此外,由于不同业务部门对元数据的管理方式存在差异,导致元数据缺乏统一的标准,不利于数据的共享和交换。
技术实现思路
1、本发明的技术任务是针对以上不足之处,提供一种元数据标准化生成及校验的方法和系统,能够自动处理、校验并标准化元数据,提高数据处理效率和准确性。
2、本发明解决其技术问题所采用的技术方案是:
3、一种元数据标准化生成及校验的方法,该方法的实现包括以下步骤:
4、1)接收来自不同业务部门的元数据;
5、2)对元数据中的中文名称进行分词处理,将每个中文名称拆解成多个单词;
6、3)根据分词结果,将每个单词对应的英文简称按照分词的顺序以“_”进行连接,生成元数据字段的英文名称;
7、4)根据分词结果中的域词,在知识库中查找对应的字段类型和长度;
8、5)生成标准化的元数据信息;
9、6)将标准化后的元数据信息与预设的元数据标准进行对比校验,生成校验结果,并将校验结果反馈给对应的业务部门。
10、优选的,所述来自不同业务部门的元数据,包括字段名称、字段类型、字段长度信息。
11、优选的,根据生成的英文名称、字段类型、字段长度信息,生成标准化的元数据信息。
12、进一步的,通过元数据词典提供元数据信息的查询功能,以便用户查询标准化的元数据信息。
13、进一步的,通过任务管理模块提供元数据信息的导入、导出功能,支持通过文件导入或页面输入的方式生成元数据信息,并能够下载成多种格式的文件或建表语句。
14、本发明还要求保护一种元数据标准化生成及校验的系统,包括:
15、数据接收模块:用于接收来自不同业务部门的元数据,包括字段名称、字段类型、字段长度等信息;
16、分词处理模块:对元数据中的中文名称进行分词处理,将每个中文名称拆解成多个单词;
17、英文名称生成模块:根据分词结果,将每个单词对应的英文简称按照分词的顺序以“_”进行连接,生成元数据字段的英文名称;
18、字段类型与长度确定模块:根据分词结果中的域词,在知识库中查找对应的字段类型和长度;
19、元数据标准化模块:用于生成标准化的元数据信息;
20、校验反馈模块:将标准化后的元数据信息与预设的元数据标准进行对比校验,生成校验结果,并将校验结果反馈给对应的业务部门。
21、进一步的,该系统还包括元数据词典模块:用于提供元数据信息的查询功能,以便用户查询标准化的元数据信息;
22、任务管理模块:用于提供元数据信息的导入、导出功能,支持通过文件导入或页面输入的方式生成元数据信息,并可下载成多种格式的文件或建表语句。
23、进一步的,该系统还包括元数据版本管理模块,用于对元数据进行版本管理。
24、本发明还要求保护一种元数据标准化生成及校验的装置,包括至少一个存储器和至少一个处理器;
25、所述至少一个存储器,用于存储机器可读程序;
26、所述至少一个处理器,用于调用所述机器可读程序,实现上述的方法。
27、本发明还要求保护一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器实现上述的方法。
28、本发明的一种元数据标准化生成及校验的方法和系统与现有技术相比,具有以下有益效果:
29、1、通过自动处理、校验并标准化元数据,提高了数据处理效率和准确性;
30、2、通过统一元数据标准,实现了数据的共享和交换,提高了数据的使用价值;
31、3、提供了元数据词典和任务管理功能,方便用户查询和管理元数据信息。
1.一种元数据标准化生成及校验的方法,其特征在于,该方法的实现包括以下步骤:
2.根据权利要求1所述的一种元数据标准化生成及校验的方法,其特征在于,所述来自不同业务部门的元数据,包括字段名称、字段类型、字段长度信息。
3.根据权利要求1所述的一种元数据标准化生成及校验的方法,其特征在于,根据生成的英文名称、字段类型、字段长度信息,生成标准化的元数据信息。
4.根据权利要求1所述的一种元数据标准化生成及校验的方法,其特征在于,通过元数据词典提供元数据信息的查询功能,以便用户查询标准化的元数据信息。
5.根据权利要求1所述的一种元数据标准化生成及校验的方法,其特征在于,通过任务管理模块提供元数据信息的导入、导出功能,支持通过文件导入或页面输入的方式生成元数据信息,并能够下载成多种格式的文件或建表语句。
6.一种元数据标准化生成及校验的系统,其特征在于,包括:
7.根据权利要求6所述的一种元数据标准化生成及校验的系统,其特征在于,还包括元数据词典模块:用于提供元数据信息的查询功能,以便用户查询标准化的元数据信息;
8.根据权利要求6所述的一种元数据标准化生成及校验的系统,其特征在于,还包括元数据版本管理模块,用于对元数据进行版本管理。
9.一种元数据标准化生成及校验的装置,其特征在于,包括至少一个存储器和至少一个处理器;
10.一种计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器实现权利要求1至5任一项所述的方法。