本发明涉及数据治理,特别涉及一种数据资产化治理方法及系统。
背景技术:
1、随着互联网技术的不断发展,数据已成为企业的重要资产之一。标讯数据作为招投标领域的核心数据资源,其有效治理和资产化对于提升企业的市场竞争力、优化资源配置具有重要意义。同时标讯信息作为商业活动中的重要组成部分,其数量庞大且种类繁多。然而,由于数据来源多样、信息录入不规范等原因,标讯信息中存在着大量的重复、相似或无关数据,这些数据不仅占用了大量的存储空间,还增加了数据处理和应用的难度。
2、目前,虽然有一些关于数据去重和整合的方法,但针对标讯信息这一特定领域的数据治理流程尚不完善。因此,开发一种高效、准确的标讯数据资产化治理流程方法,对于提升数据质量、优化数据应用具有重要意义。
3、为了实现标讯信息的有效去重、整合及资产化管理,提升数据质量,提高数据使用效率,为企业或机构提供决策支持,本发明提出了一种数据资产化治理方法及系统。
技术实现思路
1、本发明为了弥补现有技术的缺陷,提供了一种简单高效的数据资产化治理方法及系统。
2、本发明是通过如下技术方案实现的:
3、一种数据资产化治理方法,其特征在于:包括以下步骤:
4、步骤s1、采集数据
5、收集历史招投标文件,包括招标文件、投标文件与中标文件;
6、步骤s2、数据清洗
7、对收集到的数据进行预处理,包括去除重复数据,纠正错误数据,确保数据的准确性和完整性;
8、所述步骤s2中,按项目编号和公告类型对错误数据进行去重,标记重复数据,重复数据不进入后续流程;
9、错误数据包括未采集全文信息的记录数据。
10、步骤s3、模型解析
11、通过字段抽取模型对空值字段进行解析与填充,具体步骤为:
12、步骤s3.1、数据标注:根据预设的信息类别,对标讯数据进行标注,形成训练样本集;
13、所述步骤s3.1中,为了提高标注的准确性和效率,标注过程采用正则匹配规则和关键词匹配规则。
14、步骤s3.2、模型训练:利用训练样本集对深度学习模型进行训练,得到字段抽取模型;训练构成中,对深度学习模型进行优化调节,提高字段抽取的准确率和效率;
15、步骤s3.3、字段抽取:基于训练好的字段抽取模型,对新的标讯文件进行字段抽取,得到目标字段;
16、所述步骤s3.3中,将全文信息字段传入训练后的字段抽取模型,通过字段抽取模型逐条解析服务时间、采购单位、采购单位地址、代理机构名称、项目编号与项目名称字段,并将字段抽取模型抽取结果填充至空字段。
17、步骤s4、判断字段抽取模型的解析结果是否可用
18、对抽取出的目标字段进行数据核验,确保数据的真实性和可靠性;
19、对于需要进行单位换算的字段,按照预设的换算规则进行换算;
20、对于抽取出的空值字段,根据预先定义的统计规则集,结合非空字段的取值进行推算或剔除,确保数据的完整性;
21、步骤s5、治理数据
22、针对地址类、金额类和联系人联系方式类,三类数据分别进行治理;
23、所述步骤s5中,地址类字段包括但不限于采购单位地址、代理机构地址与项目地址;针对地址进行省市区拆分,将地址字段拆分出省、市与区信息,同时针对有市级信息但没有省级信息的记录,通过行政区划库进行填充。
24、金额类字段包括但不限于中标金额、预算金额与最高限价;将大写金额描述转化成数字描述,同时对金额字段进行单位统一,确定为元、万元等。
25、联系人联系方式类字段包括但不限于项目联系人联系方式、采购单位联系人联系方式与代理机构联系人联系方式;针对联系人联系方式字段进行人名和联系方式的拆分,对拆分后的联系方式字段进行标准化治理,剔除其中的汉字部分与不合规的联系方式;
26、所述不合规的联系方式包括格式错误,以及不符合用户自定义规则的描述。
27、步骤s6、数据分析和应用
28、对治理后的标讯数据进行深度挖掘和分析,提取有价值的信息,为企业决策提供支持;同时,将治理后的数据资产化。
29、一种数据资产化治理系统,包括:
30、采集数据模块,负责收集历史招投标文件,包括招标文件、投标文件与中标文件;
31、数据清洗模块,负责对收集到的数据进行预处理,包括去除重复数据,纠正错误数据,确保数据的准确性和完整性;
32、所述数据清洗模块按项目编号和公告类型对错误数据进行去重,标记重复数据,重复数据不进入后续流程;
33、错误数据包括未采集全文信息的记录数据。
34、模型解析模块,负责通过字段抽取模型对空值字段进行解析与填充;具体步骤为:
35、步骤s3.1、数据标注:根据预设的信息类别,对标讯数据进行标注,形成训练样本集;
36、所述步骤s3.1中,为了提高标注的准确性和效率,标注过程采用正则匹配规则和关键词匹配规则。
37、步骤s3.2、模型训练:利用训练样本集对深度学习模型进行训练,得到字段抽取模型;训练构成中,对深度学习模型进行优化调节,提高字段抽取的准确率和效率;
38、步骤s3.3、字段抽取:基于训练好的字段抽取模型,对新的标讯文件进行字段抽取,得到目标字段;
39、所述步骤s3.3中,将全文信息字段传入训练后的字段抽取模型,通过字段抽取模型逐条解析服务时间、采购单位、采购单位地址、代理机构名称、项目编号与项目名称字段,并将字段抽取模型抽取结果填充至空字段。
40、判断模块,负责判断字段抽取模型的解析结果是否可用:
41、对抽取出的目标字段进行数据核验,确保数据的真实性和可靠性;
42、对于需要进行单位换算的字段,按照预设的换算规则进行换算;
43、对于抽取出的空值字段,根据预先定义的统计规则集,结合非空字段的取值进行推算或剔除,确保数据的完整性;
44、数据治理模块,负责针对地址类、金额类和联系人联系方式类,三类数据分别进行治理;
45、所述地址类字段包括但不限于采购单位地址、代理机构地址与项目地址;所述数据治理模块针对地址进行省市区拆分,将地址字段拆分出省、市与区信息,同时针对有市级信息但没有省级信息的记录,通过行政区划库进行填充。
46、金额类字段包括但不限于中标金额、预算金额与最高限价;所述数据治理模块将大写金额描述转化成数字描述,同时对金额字段进行单位统一,确定为元、万元等。
47、联系人联系方式类字段包括但不限于项目联系人联系方式、采购单位联系人联系方式与代理机构联系人联系方式;所述数据治理模块针对联系人联系方式字段进行人名和联系方式的拆分,对拆分后的联系方式字段进行标准化治理,剔除其中的汉字部分与不合规的联系方式;
48、所述不合规的联系方式包括格式错误,以及不符合用户自定义规则的描述。
49、数据分析和应用模块,负责对治理后的标讯数据进行深度挖掘和分析,提取有价值的信息,为企业决策提供支持;同时,将治理后的数据资产化。
50、本发明的有益效果是:该数据资产化治理方法及系统,通过对历史标讯数据进行治理和挖掘,显著提升了数据的准确性、完整性和可用性,为企业的标讯数据治理和价值挖掘提供了新的解决方案。
1.一种数据资产化治理方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的数据资产化治理方法,其特征在于:所述步骤s2中,按项目编号和公告类型对错误数据进行去重,标记重复数据,重复数据不进入后续流程;
3.根据权利要求1所述的数据资产化治理方法,其特征在于:所述步骤s3.1中,为了提高标注的准确性和效率,标注过程采用正则匹配规则和关键词匹配规则。
4.根据权利要求3所述的数据资产化治理方法,其特征在于:所述步骤s3.3中,将全文信息字段传入训练后的字段抽取模型,通过字段抽取模型逐条解析服务时间、采购单位、采购单位地址、代理机构名称、项目编号与项目名称字段,并将字段抽取模型抽取结果填充至空字段。
5.根据权利要求3所述的数据资产化治理方法,其特征在于:所述步骤s5中,地址类字段包括但不限于采购单位地址、代理机构地址与项目地址;针对地址进行省市区拆分,将地址字段拆分出省、市与区信息,同时针对有市级信息但没有省级信息的记录,通过行政区划库进行填充;
6.一种数据资产化治理系统,其特征在于:包括采集数据模块,数据清洗模块,模型解析模块,判断模块,数据治理模块,以及数据分析和应用模块;
7.根据权利要求6所述的数据资产化治理系统,其特征在于:所述数据清洗模块按项目编号和公告类型对错误数据进行去重,标记重复数据,重复数据不进入后续流程;
8.根据权利要求6所述的数据资产化治理系统,其特征在于:所述步骤s3.1中,为了提高标注的准确性和效率,标注过程采用正则匹配规则和关键词匹配规则。
9.根据权利要求6所述的数据资产化治理系统,其特征在于:所述步骤s3.3中,将全文信息字段传入训练后的字段抽取模型,通过字段抽取模型逐条解析服务时间、采购单位、采购单位地址、代理机构名称、项目编号与项目名称字段,并将字段抽取模型抽取结果填充至空字段。
10.根据权利要求6所述的数据资产化治理系统,其特征在于:所述地址类字段包括但不限于采购单位地址、代理机构地址与项目地址;所述数据治理模块针对地址进行省市区拆分,将地址字段拆分出省、市与区信息,同时针对有市级信息但没有省级信息的记录,通过行政区划库进行填充;