本发明涉及计算机的,尤其是涉及一种统一用户识别方法及装置。
背景技术:
1、当前,用户识别接口为项目自行调用多个接口完成,数据仓库只提供各个项目的查询接口,对于不同的项目,调用的接口不同,不同的接口逻辑不同,导致查询出的数据结果不同,例如,根据提供的用户实体数据在一个项目中只能调用即时通信接口,也就是只能确定得到即时通信账号,在另一个项目中只能调用门户类网站接口,也就是只能确定得到门户类网站账号。可见,通过一个接口确定得到的虚拟网络账户不够全面准确,导致产品的可信度和实用性下降。
2、通过上述的描述可知,传统的用户识别功能存在如下问题:第一,得到的虚拟网络账户不全面准确,功能数据更新复杂。原因在于不同项目使用不同接口和转换逻辑,导致相同实体信息在各个项目系统中确定的虚拟网络账户不一致,降低了项目的可信度,另外,不同项目需要学习多个接口格式(如,即时通信接口、门户类网站接口),且接口数据更新后需要重新对接,导致任务量繁琐;第二,功能延迟高。原因在于当调用用户识别功能时,常常需要调用多个接口(如,即时通信接口、门户类网站接口等),其中一个接口的延时或积压会显著影响整个接口的返回速度,导致接口速度受到所有接口返回时间之和的限制;第三,数据的关联性弱。单个接口只支持在单个数据表中查询,例如,通过一种用户实体数据查询邮箱时,只能返回当前用户实体数据关联的邮箱账号,无法查询到上述邮箱账号所关联的其它虚拟网络账户和实体信息;第四,不支持模糊查询和多条件查询。用户识别只支持精准匹配,无法执行模糊查询或多条件联合查询。
3、综上,需要对传统的用户识别进行迭代优化处理,以缓解传统的用户识别存在数据不全面准确、延迟高、数据关联性弱和查询方式单一的技术问题。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种统一用户识别方法及装置,以缓解传统的用户识别存在数据不全面准确、延迟高、数据关联性弱和查询方式单一的技术问题。
2、第一方面,本发明实施例提供了一种统一用户识别方法,包括:
3、获取数据提供方提供的多张数据表,并采用hive对多张所述数据表进行清洗关联融合处理,得到标准数据表,其中,所述标准数据表中包括:用户实体数据和与所述用户实体数据对应的虚拟账户数据;
4、根据所述标准数据表确定模糊查询字段,并将所述模糊查询字段写入es中建立索引,得到模糊查询的维度表,其中,所述模糊查询的维度表为所述模糊查询字段与第一主键值的对应关系;
5、将所述标准数据表保存至doris,并在所述doris中建立精准查询的维度表,其中,所述精准查询的维度表为精准查询维度与第二主键值的对应关系;
6、为所述es和所述doris创建唯一的统一用户识别接口,以使用户调用所述统一用户识别接口实现统一用户识别功能;
7、获取用户调用所述统一用户识别接口发起的查询请求,并根据所述查询请求进行数据的查询,进而将查询得到的数据缓存至redis中,以提高对所述查询得到的数据的再次查询效率,其中,所述redis中缓存的所述查询得到的数据在到达过期时间后自动清除。
8、进一步的,采用hive对多张所述数据表进行清洗关联融合处理,包括:
9、对多张所述数据表中的重复数据进行删除,得到重复数据删除后的多张数据表;
10、对所述重复数据删除后的多张数据表中的错误数据进行删除,得到错误数据删除后的多张数据表,其中,所述错误数据为不满足对应的标准格式的数据;
11、对所述错误数据删除后的多张数据表中的关联数据进行关联融合,得到所述标准数据表,其中,所述关联数据为与同一目标数据有关联的不同数据。
12、进一步的,根据所述标准数据表确定模糊查询字段,包括:
13、在所述标准数据表中确定用户实体数据;
14、根据所述用户实体数据确定所述模糊查询字段。
15、进一步的,所述查询请求包括:模糊查询请求,根据所述查询请求进行数据的查询,包括:
16、根据所述查询请求中携带的目标模糊查询字段在所述模糊查询的维度表中确定与所述目标模糊查询字段对应的目标第一主键值;
17、根据所述目标第一主键值在所述标准数据表中确定与所述目标第一主键值对应的第一目标标准数据,并将所述第一目标标准数据作为所述查询得到的数据。
18、进一步的,所述查询请求包括:精准查询请求,所述精准查询维度包括:用户实体数据,根据所述查询请求进行数据的查询,包括:
19、根据所述查询请求中携带的目标用户实体数据在所述精准查询的维度表中确定与所述目标用户实体数据对应的目标第二主键值;
20、根据所述目标第二主键值在所述标准数据表中确定与所述目标第二主键值对应的第二目标标准数据,并将所述第二目标标准数据作为所述查询得到的数据。
21、进一步的,在根据所述查询请求进行数据的查询之前,所述方法还包括:
22、判断所述redis中是否包含所述查询请求对应的目标查询得到的数据;
23、若包含,则将所述目标查询得到的数据作为所述查询得到的数据。
24、进一步的,在得到所述查询得到的数据后,所述方法还包括:
25、根据预设的数据查询策略返回所述查询得到的数据,其中,所述数据查询策略包括:查询预设数量的查询得到的数据的策略、返回预设数量的查询得到的数据的策略。
26、进一步的,所述方法还包括:
27、获取所述数据提供方提供的新数据表,并采用hive对所述新数据表进行清洗,进而将清洗后的新数据表和所述标准数据表进行关联融合处理,得到新标准数据表;
28、根据所述新标准数据表对所述doris中的所述标准数据表进行更新,并对所述doris中的精准查询的维度表进行更新,统计得到精准查询的维度表的更新信息;
29、根据所述精准查询的维度表的更新信息和所述清洗后的新数据表对所述es中的模糊查询的维度表进行更新,以使所述es中的数据与所述doris中的数据同步。
30、进一步的,所述第一主键值用于表征对应的模糊查询字段所对应的数据在所述标准数据表中的位置信息,所述第二主键值用于表征对应的精准查询维度所对应的数据在所述标准数据表中的位置信息,所述标准数据表中的数据为按照所述模糊查询字段和/或所述精准查询维度进行归类后的数据。
31、第二方面,本发明实施例还提供了一种统一用户识别装置,包括:
32、获取和清洗关联融合处理单元,用于获取数据提供方提供的多张数据表,并采用hive对多张所述数据表进行清洗关联融合处理,得到标准数据表,其中,所述标准数据表中包括:用户实体数据和与所述用户实体数据对应的虚拟账户数据;
33、确定和建立单元,用于根据所述标准数据表确定模糊查询字段,并将所述模糊查询字段写入es中建立索引,得到模糊查询的维度表,其中,所述模糊查询的维度表为所述模糊查询字段与第一主键值的对应关系;
34、保存和建立单元,用于将所述标准数据表保存至doris,并在所述doris中建立精准查询的维度表,其中,所述精准查询的维度表为精准查询维度与第二主键值的对应关系;
35、创建单元,用于为所述es和所述doris创建唯一的统一用户识别接口,以使用户调用所述统一用户识别接口实现统一用户识别功能;
36、查询单元,用于获取用户调用所述统一用户识别接口发起的查询请求,并根据所述查询请求进行数据的查询,进而将查询得到的数据缓存至redis中,以提高对所述查询得到的数据的再次查询效率,其中,所述redis中缓存的所述查询得到的数据在到达过期时间后自动清除。
37、在本发明实施例中,提供了一种统一用户识别方法,包括:获取数据提供方提供的多张数据表,并采用hive对多张数据表进行清洗关联融合处理,得到标准数据表,其中,标准数据表中包括:用户实体数据和与用户实体数据对应的虚拟账户数据;根据标准数据表确定模糊查询字段,并将模糊查询字段写入es中建立索引,得到模糊查询的维度表,其中,模糊查询的维度表为模糊查询字段与第一主键值的对应关系;将标准数据表保存至doris,并在doris中建立精准查询的维度表,其中,精准查询的维度表为精准查询维度与第二主键值的对应关系;为es和doris创建唯一的统一用户识别接口,以使用户调用统一用户识别接口实现统一用户识别功能;获取用户调用统一用户识别接口发起的查询请求,并根据查询请求进行数据的查询,进而将查询得到的数据缓存至redis中,以提高对查询得到的数据的再次查询效率,其中,redis中缓存的查询得到的数据在到达过期时间后自动清除。通过上述描述可知,本发明的统一用户识别方法中,对多张数据表进行了清洗关联融合处理,得到的标准数据表的关联性强、数据更加全面准确,另外,为了提高检索的速度,在es中建立了模糊查询的维度表,同时,在doris中建立了精准查询的维度表,并为es和doris创建了唯一的统一用户识别接口,后续在发起查询请求时,只需用户调用唯一的统一用户识别接口即可,降低了接口延迟,此外,在实现精准查询的同时,还能实现模糊查询,查询方式更加丰富,查询得到的数据会缓存到redis中,能加快下次继续查询查询得到的数据的速度,缓解了传统的用户识别存在数据不全面准确、延迟高、数据关联性弱和查询方式单一的技术问题。
1.一种统一用户识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,采用hive对多张所述数据表进行清洗关联融合处理,包括:
3.根据权利要求1所述的方法,其特征在于,根据所述标准数据表确定模糊查询字段,包括:
4.根据权利要求1所述的方法,其特征在于,所述查询请求包括:模糊查询请求,根据所述查询请求进行数据的查询,包括:
5.根据权利要求1所述的方法,其特征在于,所述查询请求包括:精准查询请求,所述精准查询维度包括:用户实体数据,根据所述查询请求进行数据的查询,包括:
6.根据权利要求1所述的方法,其特征在于,在根据所述查询请求进行数据的查询之前,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,在得到所述查询得到的数据后,所述方法还包括:
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
9.根据权利要求1所述的方法,其特征在于,所述第一主键值用于表征对应的模糊查询字段所对应的数据在所述标准数据表中的位置信息,所述第二主键值用于表征对应的精准查询维度所对应的数据在所述标准数据表中的位置信息,所述标准数据表中的数据为按照所述模糊查询字段和/或所述精准查询维度进行归类后的数据。
10.一种统一用户识别装置,其特征在于,包括: