本发明属于职住地识别,尤其涉及一种职住地识别方法及装置。
背景技术:
1、现有技术中识别职住地的方案主要包括:方案一:选取停留时长最长的基站为职住地。根据数据采集得到的轨迹数据,将一个用户所对应的所有工作或休息时间段内所访问过的基站列成一个统计表,进一步统计出在每个基站停留的时长,选取停留时长最长的基站作为职住地。方案二:聚类方式选取居住地。根据数据采集得到的轨迹数据,将一个用户所对应的轨迹数据进行聚类,聚类完成后计算每个类簇的累计停留时长,选取累计停留时长最长的类簇的中心点作为职住地。
2、但是方案一只利用了单一轨迹点的停留时长,忽略了周边轨迹点的停留时长,且忽略了职住地一般轨迹点密集,存在空间聚集性的特征。方案二中信令数据存在基站漂移和频繁切换等噪声问题,聚类方式选取职住地容易受噪声和轨迹点不均匀分布的影响。聚类结果错误容易导致累计停留时长错误,从而最终识别的职住地偏离真实位置。
技术实现思路
1、鉴于以上现有技术的不足,发明的目的在于提供一种职住地识别方法、装置、电子设备和存储介质,在进行k近邻分析时划定了时间范围,更符合用户居住和工作轨迹点产生的时序性特点;在计算轨迹点局部空间密度时采用加权k近邻思想,引入轨迹点权重系数,增加轨迹点局部信息的差异化,更准确反应轨迹点的相对位置;此外,在轨迹点密度的定义中添加了全局信息项,考虑了局部密度的同时,兼顾了k近邻区域外的密度贡献,更全面的刻画用户轨迹分布特征;最后,结合k近邻停留时长计算置信度来选取职住地,有效提高了用户职住地识别的准确性和可信性。
2、本发明的第一方面,提出了一种职住地识别方法,包括如下七个步骤:
3、获取手机信令数据,对手机信令数据预处理得到轨迹数据;
4、将轨迹数据中的轨迹点按时间排序,选取进行k近邻分析的轨迹点范围;
5、计算轨迹点局部权重系数;
6、计算轨迹点的加权k近邻空间密度;
7、计算每个轨迹点的k近邻停留时长;
8、根据所述k近邻停留时长和所述加权k近邻空间密度计算职住地置信度;
9、选取轨迹数据中职住地置信度最高的轨迹点作为居住地或工作地。
10、进一步地,上述一种职住地识别方法中,对手机信令数据预处理得到轨迹数据,包括:
11、从手机信令数据中选取其中一个月的数据;
12、从选取的一个月的数据中抽取工作时间段和休息时间段的轨迹数据。
13、进一步地,上述一种职住地识别方法中,选取进行k近邻分析的轨迹点范围,包括:
14、对每个轨迹点,选取以当前轨迹点时间为中心的时间窗口m,在时间窗口m内选取k近邻轨迹点。
15、进一步地,上述一种职住地识别方法中,计算轨迹点局部权重系数,是通过如下公式计算的:
16、
17、其中,dij表示第i个轨迹点和第j个轨迹点的之间的欧氏距离,knn(i)表示第i个轨迹点的k近邻,μi表示第i个轨迹点局部权重系数。
18、进一步地,上述一种职住地识别方法中,计算轨迹点的加权k近邻空间密度,是通过如下公式计算的:
19、
20、其中,n表示样本集数量,表示k近邻区域内的局部密度,表示k近邻区域外的全局密度,ρi表示第i个轨迹点的加权k近邻空间密度。
21、进一步地,上述一种职住地识别方法中,计算每个轨迹点的k近邻停留时长,是通过如下公式计算的:
22、wi=ti+∑j∈knn(i)tj
23、其中,ti表示第i个轨迹点停留时长,tj表示第j个轨迹点的停留时长,knn(i)表示第i个轨迹点的k近邻,wi表示第i个轨迹点的k近邻停留时长。
24、进一步地,上述一种职住地识别方法中,根据k近邻停留时长和加权k近邻空间密度计算职住地置信度,是通过如下公式计算的:
25、γi=wiρi
26、其中,γi表示第i个轨迹点的职住地置信度,wi表示第i个轨迹点的k近邻停留时长,ρi表示加权k近邻空间密度。
27、本发明的第二方面,还提出了一种职住地识别装置,包括:
28、预处理模块:用于获取手机信令数据,对手机信令数据预处理得到轨迹数据;
29、第一选取模块:用于将轨迹数据中的轨迹点按时间排序,选取进行k近邻分析的轨迹点范围;
30、第一计算模块:用于计算轨迹点局部权重系数;
31、第二计算模块:用于计算轨迹点的加权k近邻空间密度;
32、第三计算模块:用于计算每个轨迹点的k近邻停留时长;
33、第四计算模块:用于根据k近邻停留时长和加权k近邻空间密度计算职住地置信度;
34、第二选取模块:用于选取轨迹数据中职住地置信度最高的轨迹点作为居住地或工作地。
35、本发明的第三方面,还提出了一种电子设备,包括:处理器和存储器;
36、所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种职住地识别方法。
37、本发明的第四方面,还提出了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种职住地识别方法。
38、本发明的有益效果如下:根据时序范围进行k近邻分析,计算加权k近邻空间密度,有利于充分整合用户轨迹数据中的时间和空间信息,考虑了轨迹时序关系;采用加权k近邻的思想进行轨迹数据的空间结构分析,相对于现有技术,兼顾了轨迹数据的全局和局部结构信息,并突出了局部密度的差异化,削弱了噪声数据影响;结合每个轨迹点的k近邻停留时长和加权k近邻空间密度计算置信度,根据置信度识别用户职住位置,综合了数据的空间信息和时间信息,并生成职住位置置信度,更具解释性,使识别结果更加准确,可根据职住地置信度进行二次分析,防止识别错误后真实职住地丢失。
1.一种职住地识别方法,其特征在于,包括:
2.根据权利要求1所述的一种职住地识别方法,其特征在于,所述对所述手机信令数据预处理得到轨迹数据,包括:
3.根据权利要求1所述的一种职住地识别方法,其特征在于,所述选取进行k近邻分析的轨迹点范围,包括:
4.根据权利要求1所述的一种职住地识别方法,其特征在于,所述计算轨迹点局部权重系数,是通过如下公式计算的:
5.根据权利要求1所述的一种职住地识别方法,其特征在于,所述计算轨迹点的加权k近邻空间密度,是通过如下公式计算的:
6.根据权利要求1所述的一种职住地识别方法,其特征在于,所述计算每个轨迹点的k近邻停留时长,是通过如下公式计算的:
7.根据权利要求1所述的一种职住地识别方法,其特征在于,所述根据所述k近邻停留时长和所述加权k近邻空间密度计算职住地置信度,是通过如下公式计算的:
8.一种职住地识别装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:处理器和存储器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述一种职住地识别方法。