本发明涉及信息处理,尤其涉及一种基于数据挖掘的标准信息耦合测算方法。
背景技术:
1、数据挖掘首次出现在1989年举行的第十一届国际联合人工智能学术会议上,数据挖掘思想来自于机器学习、数据库系统、模式识别和统计,从技术层面上看,数据挖掘时从大量数据中提取潜在有用的信息和知识的过程,从商业层面看,数据挖掘就是一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。数据挖掘根据用户的挖掘需求从不同维度进行操作,但是过多的数据量和维度对导致数据挖掘难度增大,影响数据挖掘的效率。
2、中国专利公开号cn110442623a公开了一种大数据挖掘方法、装置及数据挖掘服务器,通过综合考虑不同兴趣度度量维度,以对每个维度的所有业务大数据进行聚类后,可以保证不同兴趣度度量维度在不同的数据挖掘项目待应用场景下性能表现更加统一,提高大数据挖掘的能力,并且可以根据各聚类簇的特征信息,动态确定待挖掘服务的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度,并以此进行后续数据挖掘。
3、由此可见,该发明提供的大数据挖掘方法、装置及数据挖掘服务器存在以下问题:对大量业务数据进行聚类分析,数据分析量会随着时间和业务维度的增加而增大,导致数据挖掘效率低,不利于数据挖掘程序的移植。
技术实现思路
1、为此,本发明提供一种基于数据挖掘的标准信息耦合测算方法,用以克服现有技术中数据挖掘效率低的问题。
2、为实现上述目的,本发明提供一种基于数据挖掘的标准信息耦合测算方法,包括:
3、步骤s1,基于预设数据源获取原始数据,根据预设条件对所述原始数据进行初步筛选,以得到初步筛选后的基础数据;每一所述原始数据具有对应的数据特征、数据类型和数据属性;
4、步骤s2,根据所述基础数据中的各数据特征进行聚类,以得到第一聚类结果;所述第一聚类结果包括若干聚类组,每一聚类组中包括至少一个基础数据;
5、步骤s3,根据每一聚类组对应的数据特征,与标准信息对应的数据特征进行耦合分析,将满足预设标准的聚类组中的基础数据确定为耦合数据;
6、步骤s4,根据标准信息对应的数据类型对所述耦合数据进行处理,以得到待挖掘数据。
7、进一步地,在所述步骤s3中,所述耦合分析包括:
8、步骤s31,获取每一聚类组对应的数据特征的特征评价值yt1,yt2,…,yti,…,ytn,以及标准信息对应的数据特征的标准特征评价值et;其中,i=1,2,…,n;yti为第i个聚类组对应的数据特征的特征评价值,n为所述第一聚类结果中聚类组的数量;
9、步骤s32,获取每一聚类组对应的数据特征与标准信息对应的数据特征的耦合度c1,c2,…,ci,…,cn,和综合协调指数zt1,zt2,…,zti,…,ztn;其中,ci为第i个聚类组对应的数据特征与标准信息对应的数据特征的耦合度,zti为第i个聚类组对应的数据特征与标准信息对应的数据特征的综合协调指数;ci=sqrt((yti×et)/((yti+et)/2)2),zti=a×yti+b×et;a为第一权重系数,b为第二权重系数;sqrt()为预设的平方根确定函数;
10、步骤s33,根据所述耦合度和综合协调指数确定耦合协调度ct1,ct2,…,cti,…,ctn;其中,cti为第i个聚类组对应的数据特征与标准信息对应的数据特征的耦合协调度,cti=sqrt(ci×zti)。
11、进一步地,在所述步骤s3中,所述预设标准为所述耦合度大于预设耦合度阈值且所述耦合协调度大于预设耦合协调度阈值。
12、进一步地,在所述步骤s1中,包括
13、步骤s11,基于预设数据源获取初始数据,并对所述初始数据进行数据预处理,以得到原始数据;
14、步骤s12,根据预设条件对所述原始数据进行筛选以得到基础数据。
15、进一步地,所述预设条件基于标准信息的关键指标确定,其中,标准信息包含至少一个关键指标。
16、进一步地,所述预设条件根据对标准信息的关键指标进行聚类确定,其中,将聚类结果中类别数量超出预设聚类阈值的关键指标设定为预设条件。
17、进一步地,在所述步骤s4中,包括:
18、步骤s41,根据所述耦合数据的数据类型进行分类,以得到若干分类集;
19、步骤s42,根据所述标准信息对应的数据类型与每一分类集对应的数据类型进行比较,以得到目标分类集,将所述目标分类集中的耦合数据确定为待挖掘数据。
20、进一步地,在所述步骤s41中,包括:
21、步骤s411,将所述耦合数据输入目标分类模型,以得到所述目标分类模型的分类结果;所述分类结果包括若干分类集,每一分类集中的耦合数据对应的数据类型相同。
22、进一步地,根据所述耦合数据对所述目标分类模型进行更新。
23、进一步地,所述目标分类集中的数据类型与所述标准信息对应的数据类型相同。
24、与现有技术相比,本发明的有益效果在于,本发明基于预设数据源获取原始数据,根据预设条件对所述原始数据进行初步筛选,以得到初步筛选后的基础数据。原始数据的数据量很大,其中有很多不符合要求的数据,先通过初步筛选滤除一部分数据,能够减少后续数据处理量,提高数据挖掘效率。根据所述基础数据中的各数据特征进行聚类,以得到第一聚类结果;根据每一聚类组对应的数据特征,与标准信息对应的数据特征进行耦合分析,将满足预设标准的聚类组中的基础数据确定为耦合数据。基础数据的数据特征不一定全部相同,可能存在部分基础数据的数据特征相同,通过聚类将数据特征相同的聚到一起,再与标准信息的数据特征进行耦合分析确定耦合数据,能够进一步减少数据挖掘的数据量,提高数据挖掘效率和准确性。根据标准信息对应的数据类型对所述耦合数据进行处理,以得到待挖掘数据,能够进一步保证数据挖掘的挖掘效率和准确性。
25、进一步地,通过耦合度和耦合协调度进行耦合分析,能够快速确定第一聚类结果中各聚类组与标准信息之间的关联协调程度。
26、进一步地,通过设定预设标准能够快速确定与标准信息关联程度比较强的数据特征对应的聚类组。
27、进一步地,通过数据预处理能够提高数据质量和数据可靠性,提高后续数据分析处理的效率。
28、进一步地,根据标准信息的关键指标确定预设条件,能够提高数据的可靠性,提高后续数据挖掘的效率。
29、进一步地,通过数据类型对耦合数据进行分类处理,能够快速确定与标准信息的数据类型对应的耦合数据,提高数据挖掘的准确性。
30、进一步地,将耦合数据输入目标分类模型进行分类,能够提高分类的准确性,从而提高后续数据挖掘的准确性。
1.一种基于数据挖掘的标准信息耦合测算方法,其特征在于,包括:
2.根据权利要求1所述的基于数据挖掘的标准信息耦合测算方法,其特征在于,在所述步骤s3中,所述耦合分析包括:
3.根据权利要求2所述的基于数据挖掘的标准信息耦合测算方法,其特征在于,在所述步骤s3中,所述预设标准为所述耦合度大于预设耦合度阈值且所述耦合协调度大于预设耦合协调度阈值。
4.根据权利要求3所述的基于数据挖掘的标准信息耦合测算方法,其特征在于,在所述步骤s1中,包括
5.根据权利要求4所述的基于数据挖掘的标准信息耦合测算方法,其特征在于,所述预设条件基于标准信息的关键指标确定,其中,所述标准信息包含至少一个关键指标。
6.根据权利要求5所述的基于数据挖掘的标准信息耦合测算方法,其特征在于,所述预设条件根据对标准信息的关键指标进行聚类确定,其中,将聚类结果中类别数量超出预设聚类阈值的关键指标设定为预设条件。
7.根据权利要求6所述的基于数据挖掘的标准信息耦合测算方法,其特征在于,在所述步骤s4中,包括:
8.根据权利要求7所述的基于数据挖掘的标准信息耦合测算方法,其特征在于,在所述步骤s41中,包括:
9.根据权利要求8所述的基于数据挖掘的标准信息耦合测算方法,其特征在于,根据所述耦合数据对所述目标分类模型进行更新。
10.根据权利要求9所述的基于数据挖掘的标准信息耦合测算方法,其特征在于,所述目标分类集中的数据类型与所述标准信息对应的数据类型相同。
