本申请涉及数据处理,具体涉及一种行程数据统计方法、装置和电子设备。
背景技术:
1、随着电信市场迅速发展,运营商的业务复杂度也越来越高。为了满足越来越多的用户个性化需求,针对不同用户群体的需求推出适合的产品和营销活动,需要对上游数据进行大数据实时分析计算。
2、在通过上游提取的数据进行用户的行程确定时,因为存在网络io(input output)延迟或者集群节点能力不同,使得数据在进入spark实时计算批次时由于数据延迟会存在乱序问题。
3、用户的连续行程计算在没有考虑延迟数据导致的乱序问题的情况下,仅根据既有数据批次进行行程判断,会导致计算出的行程的准确率较低,行程的连续性较差的问题。
技术实现思路
1、本申请实施例提供一种行程数据统计方法、装置和电子设备,用以解决spark系统进行连续行程计算时没有考虑延迟数据导致乱序问题的情况下,计算出的行程准确率较低、连续性较差的技术问题。
2、第一方面,本申请实施例提供一种行程数据统计方法,包括:
3、实时获取至少一个用户的活动数据,并对所述活动数据进行预处理以构建各所述用户在各地区的用户连续行程画像;
4、基于配置的水印延迟时长,根据水印延迟时长内获取的延迟活动数据对所述用户连续行程画像进行实时检查纠正,获得纠正后的用户连续行程画像。
5、在一个实施例中,所述对所述活动数据进行预处理以构建各所述用户在各地区的连续行程画像,包括:
6、根据所述活动数据实时更新行程明细数据表;
7、基于所述行程明细数据表,通过聚类分析实时更新用户行程关系图谱,所述用户行程关系图谱表征当前各所述用户在各所述地区的起止时刻;
8、基于所述用户行程关系图谱更新用户行程分析矩阵,所述用户行程分析矩阵以矩阵形式表征当前各所述用户在各所述地区的起止时刻;
9、基于所述用户行程分析矩阵更新用户连续行程画像,所述用户连续行程画像包括各所述用户分别在各所述地区的连续行程画像集合。
10、在一个实施例中,所述行程明细数据表、所述用户行程关系图谱、所述用户行程分析矩阵和所述用户连续行程画像存储于redis存储器中。
11、在一个实施例中,所述方法还包括:
12、将纠正后的用户连续行程画像实时更新至数据库;
13、获取当前活动数据,基于所述当前活动数据的时间戳和所述水印延迟时长,确定是否触发水印计算窗口的计算,基于是否触发水印计算窗口的计算确定是否从所述数据库中的用户连续行程画像中提取目标连续行程。
14、在一个实施例中,所述获取当前活动数据,基于所述当前活动数据的时间戳和所述水印延迟时长,确定是否触发水印计算窗口的计算,基于是否触发水印计算窗口的计算确定是否从所述数据库中的用户连续行程画像中提取目标连续行程,包括:
15、获取当前活动数据,确定所述当前活动数据所属的目标用户;
16、基于所述当前活动数据的时间戳和所述水印延迟时长计算当前活动数据的水印时间;
17、当基于水印时间确定触发了水印计算窗口的计算时,基于触发的水印计算窗口,确定从所述数据库中的用户连续行程画像中,提取出所述目标用户超过预设时长的连续行程作为目标连续行程。
18、在一个实施例中,确定触发了水印计算窗口后,还包括:
19、基于触发的水印计算窗口,根据各所述用户的行程是否切换,对所述redis存储器中存储的所述行程明细数据表中的明细数据进行清理。
20、在一个实施例中,所述方法还包括:
21、在进行目标连续行程提取后,基于所述目标用户的行程是否切换,分别对所述用户行程关系图谱、所述用户行程分析矩阵和所述用户连续行程画像中的数据进行清理。
22、在一个实施例中,所述基于配置的水印延迟时长,根据水印延迟时长内获取的延迟活动数据对所述用户连续行程画像进行实时检查纠正,获得纠正后的用户连续行程画像,包括:
23、基于配置的水印延迟时长,确定水印延迟时长内获取的延迟活动数据所属的用户;
24、基于所述延迟活动数据,实时对所述用户连续行程画像中所述延迟活动数据所属的用户的连续行程数据进行检查纠正。
25、第二方面,本申请实施例提供一种行程数据统计装置,包括:
26、构建模块,用于实时获取至少一个用户的活动数据,并对所述活动数据进行预处理以构建各所述用户在各地区的用户连续行程画像;
27、纠正模块,用于基于配置的水印延迟时长,根据水印延迟时长内获取的延迟活动数据对所述用户连续行程画像进行检查纠正,获得纠正后的用户连续行程画像。
28、第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的行程数据统计方法的步骤。
29、第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的行程数据统计方法的步骤。
30、第五方面,本申请实施例提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行如上所述第一方面所述的行程数据统计方法的步骤。
31、本申请实施例提供的行程数据统计方法、装置和电子设备,通过设置水印模型机制,在实时获取了用户的活动数据实时构建用户在各地区的用户连续行程画像后,基于水印延迟时长内获得的延迟数据实时的对构建的用户连续行程画像进行检查纠正,使得用户连续行程画像是基于实时数据和延迟数据进行排序后计算获得的,更符合用户的连续行程轨迹,相较于根据既有数据批次进行行程判断,计算出的行程的准确率较高,行程的连续性较好。
1.一种行程数据统计方法,其特征在于,包括:
2.根据权利要求1所述的行程数据统计方法,其特征在于,所述对所述活动数据进行预处理以构建各所述用户在各地区的连续行程画像,包括:
3.根据权利要求2所述的行程数据统计方法,其特征在于,所述行程明细数据表、所述用户行程关系图谱、所述用户行程分析矩阵和所述用户连续行程画像存储于redis存储器中。
4.根据权利要求3所述的行程数据统计方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的行程数据统计方法,其特征在于,所述获取当前活动数据,基于所述当前活动数据的时间戳和所述水印延迟时长,确定是否触发水印计算窗口的计算,基于是否触发水印计算窗口的计算确定是否从所述数据库中的用户连续行程画像中提取目标连续行程,包括:
6.根据权利要求5所述的行程数据统计方法,其特征在于,确定触发了水印计算窗口后,还包括:
7.根据权利要求5所述的行程数据统计方法,其特征在于,所述方法还包括:
8.根据权利要求1所述的行程数据统计方法,其特征在于,所述基于配置的水印延迟时长,根据水印延迟时长内获取的延迟活动数据对所述用户连续行程画像进行实时检查纠正,获得纠正后的用户连续行程画像,包括:
9.一种行程数据统计装置,其特征在于,包括:
10.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的行程数据统计方法的步骤。