本技术涉及数据处理,尤其是涉及一种基于采集频次的数据处理方法及装置。
背景技术:
1、对于针对基于从社交媒体、新闻网站等平台的海量信息的采集过程,通常会有需要管理人员采集某网站中内容的需求。例如,管理人员将多个网站的社交媒体以及新闻数据进行下载,再从内容中抽取相关的字段,以实现从社交媒体、新闻网站等平台的海量信息的采集过程。有时需要将网页相关的文件也保存到本地,如图片、附件等。但是,管理人员在网站数据采集的过程中经常会出现采集失败的情况发生,使得网站数据采集在成本较高的情况下采集成功率却较低的情况发生。
技术实现思路
1、本发明的目的在于提供一种基于采集频次的数据处理方法及装置,以解决网站数据采集在成本较高的情况下采集成功率却较低的技术问题。
2、第一方面,本技术实施例提供了一种基于采集频次的数据处理方法,所述方法包括:
3、获取待采集网站,并向所述待采集网站发送多次采集请求;其中,所述多次采集请求之间存在间隔时间;
4、如果所述多次采集请求中第一次采集请求对应的反馈结果为采集成功且第二次采集请求及以后的采集重试请求对应的反馈结果为采集失败,则根据所述第二次采集请求及所述采集重试请求的请求发送成功次数确定每个所述请求发送成功次数之间的重试间隔时长,并将所述请求发送成功次数确定为请求重试次数;
5、如果所述请求重试次数大于预设次数阈值且所述重试间隔时长大于预设时长阈值,则将所述待采集网站确定为目标网站,对待发送至所述目标网站的采集请求与上一次采集请求的发送间隔时长进行延长,并在多个所述请求重试次数中确定在第一预设时长内的第一请求重试次数以及在第二预设时长内的第二请求重试次数;其中,所述第二预设时长小于所述第一预设时长;
6、如果所述第一请求重试次数超过第一预设次数且所述第二请求重试次数未超过第二预设次数,则将待发送至所述目标网站的采集请求的采集频次按照第一预设降低比例值进行缩减;其中,所述第一预设次数小于所述第二预设次数;
7、如果所述第一请求重试次数超过所述第一预设次数且所述第二请求重试次数超过所述第二预设次数,则将待发送至所述目标网站的采集请求的采集频次按照第二预设降低比例值进行缩减;其中,所述第二预设降低比例值大于所述第一预设降低比例值。
8、在一个可能的实现中,在所述如果所述请求重试次数大于预设次数阈值且所述重试间隔时长大于预设时长阈值,则将所述待采集网站确定为目标网站的步骤之后,还包括:
9、针对所述待采集网站在云服务器中建立多个虚拟容器,所述虚拟容器用于通过指定ip地址进行通信,每个所述虚拟容器对应一指定ip地址,多个所述虚拟容器对应的多个所述指定ip地址均不相同;
10、响应于通过多个所述指定ip地址中的第一指定ip地址对所述待采集网站发送采集请求对应的采集反馈结果为采集失败的次数大于预设失败次数,通过多个所述指定ip地址中的第二指定ip地址对所述待采集网站发送采集请求,以利用所述虚拟容器更换发送采集请求的ip地址。
11、在一个可能的实现中,在指定机构的场所空间中包含有所述指定机构的总控终端以及隶属于所述指定机构的多个机构内终端;在所述如果所述请求重试次数大于预设次数阈值且所述重试间隔时长大于预设时长阈值,则将所述待采集网站确定为目标网站的步骤之后,还包括:
12、通过所述总控终端对所述多个机构内终端中的至少一个目标机构内终端进行调用,并控制所述目标机构内终端模拟访问所述待采集网站;
13、响应于所述目标机构内终端访问所述待采集网站成功,控制所述目标机构内终端读取所述待采集网站的网站数据并将所述网站数据发送至所述总控终端,以通过所述总控终端从所述目标机构内终端调取所述网站数据;
14、基于所述总控终端中的所述网站数据执行针对所述待采集网站的采集任务。
15、在一个可能的实现中,所述响应于所述目标机构内终端访问所述待采集网站成功,控制所述目标机构内终端读取所述待采集网站的网站数据并将所述网站数据发送至所述总控终端,以通过所述总控终端从所述目标机构内终端调取所述网站数据的步骤,包括:
16、响应于所述目标机构内终端访问所述待采集网站成功,控制所述目标机构内终端通过访问所述待采集网站获取所述待采集网站的待界面展示内容;其中,所述待界面展示内容中包含所述待采集网站的网站数据;
17、对所述待界面展示内容进行处理,得到所述待采集网站的网站图像,并将所述网站图像发送至所述总控终端,以通过所述总控终端对所述网站图像进行图像内容识别,得到所述网站数据。
18、在一个可能的实现中,所述通过所述总控终端对所述多个机构内终端中的至少一个目标机构内终端进行调用的步骤,包括:
19、通过所述总控终端对所述多个机构内终端的当前使用状态进行检测;
20、如果所述多个机构内终端中存在所述当前使用状态处于未使用且无操作待机状态的目标机构内终端,则通过所述总控终端对所述目标机构内终端进行调用;
21、如果所述多个机构内终端中不存在所述当前使用状态处于未使用且无操作待机状态的目标机构内终端,则确定当前对所述多个机构内终端放弃调用。
22、在一个可能的实现中,所述控制所述目标机构内终端模拟访问所述待采集网站的步骤,包括:
23、通过无线通讯远程操控所述目标机构内终端访问所述待采集网站,以模拟所述目标机构内终端访问所述待采集网站的过程。
24、在一个可能的实现中,在所述响应于所述目标机构内终端访问所述待采集网站成功,控制所述目标机构内终端读取所述待采集网站的网站数据并将所述网站数据发送至所述总控终端,以通过所述总控终端从所述目标机构内终端调取所述网站数据的步骤之后,还包括:
25、基于所述总控终端控制多个所述机构内终端读取所述网站数据的过程,记录每个所述机构内终端针对所述待采集网站的访问次数、访问频率、访问成功率、登录数据,得到多个所述机构内终端针对所述待采集网站的访问历史数据;
26、根据所述访问历史数据从多个所述机构内终端中确定优先调用的第一机构内终端;
27、根据所述第一机构内终端对应的所述访问历史数据通过所述总控终端控制所述第一机构内终端读取所述待采集网站的网站数据。
28、第二方面,提供了一种基于采集频次的数据处理装置,包括:
29、获取模块,用于获取待采集网站,并向所述待采集网站发送多次采集请求;其中,所述多次采集请求之间存在间隔时间;
30、确定模块,用于如果所述多次采集请求中第一次采集请求对应的反馈结果为采集成功且第二次采集请求及以后的采集重试请求对应的反馈结果为采集失败,则根据所述第二次采集请求及所述采集重试请求的请求发送成功次数确定每个所述请求发送成功次数之间的重试间隔时长,并将所述请求发送成功次数确定为请求重试次数;
31、延长模块,用于如果所述请求重试次数大于预设次数阈值且所述重试间隔时长大于预设时长阈值,则将所述待采集网站确定为目标网站,对待发送至所述目标网站的采集请求与上一次采集请求的发送间隔时长进行延长,并在多个所述请求重试次数中确定在第一预设时长内的第一请求重试次数以及在第二预设时长内的第二请求重试次数;其中,所述第二预设时长小于所述第一预设时长;
32、第一缩减模块,用于如果所述第一请求重试次数超过第一预设次数且所述第二请求重试次数未超过第二预设次数,则将待发送至所述目标网站的采集请求的采集频次按照第一预设降低比例值进行缩减;其中,所述第一预设次数小于所述第二预设次数;
33、第二缩减模块,用于如果所述第一请求重试次数超过所述第一预设次数且所述第二请求重试次数超过所述第二预设次数,则将待发送至所述目标网站的采集请求的采集频次按照第二预设降低比例值进行缩减;其中,所述第二预设降低比例值大于所述第一预设降低比例值。
34、第三方面,本技术实施例又提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的第一方面所述方法。
35、第四方面,本技术实施例又提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述的第一方面所述方法。
36、本技术实施例带来了以下有益效果:
37、本技术实施例提供的一种基于采集频次的数据处理方法及装置,能够获取待采集网站,并向所述待采集网站发送多次采集请求;其中,所述多次采集请求之间存在间隔时间;如果所述多次采集请求中第一次采集请求对应的反馈结果为采集成功且第二次采集请求及以后的采集重试请求对应的反馈结果为采集失败,则根据所述第二次采集请求及所述采集重试请求的请求发送成功次数确定每个所述请求发送成功次数之间的重试间隔时长,并将所述请求发送成功次数确定为请求重试次数;如果所述请求重试次数大于预设次数阈值且所述重试间隔时长大于预设时长阈值,则将所述待采集网站确定为目标网站,对待发送至所述目标网站的采集请求与上一次采集请求的发送间隔时长进行延长,并在多个所述请求重试次数中确定在第一预设时长内的第一请求重试次数以及在第二预设时长内的第二请求重试次数;其中,所述第二预设时长小于所述第一预设时长;如果所述第一请求重试次数超过第一预设次数且所述第二请求重试次数未超过第二预设次数,则将待发送至所述目标网站的采集请求的采集频次按照第一预设降低比例值进行缩减;其中,所述第一预设次数小于所述第二预设次数;如果所述第一请求重试次数超过所述第一预设次数且所述第二请求重试次数超过所述第二预设次数,则将待发送至所述目标网站的采集请求的采集频次按照第二预设降低比例值进行缩减;其中,所述第二预设降低比例值大于所述第一预设降低比例值。本方案中,在采集请求多次重试仍采集失败的情况下,对于目标网站的判定不仅基于采集失败的重试次数确定,还根据这些重试次数之间的重试间隔时长确定,在重试间隔时长较长且重试次数较多的情况下才确定为目标网站,使得目标网站的确定结果更加精确,避免了由于重试密集度较高而导致重试多次采集失败的网站被误判定为目标网站,然后,在确认目标网站的情况下,还延长了采集请求的时间间隔,以提高采集的成功率,避免由于重试密集度较高而导致重试采集失败,而且,对再次重试的采集频次也基于之前已请求的重试密集程度进行不同程度的调整:如果之前已请求的重试密集程度不够密集即较长的时间内重试较少次数,则再次重试的采集频次进行较小程度的缩减;如果之前已请求的重试密集程度过于密集即较短的时间内重试较多次数,则再次重试的采集频次进行较大程度的缩减。如此根据不同重试密集程度进行不同程度的采集频次调节,不仅提高了采集的成功率,而且还节省了不必要的采集请求发送次数,降低网站数据采集成本,从而解决了网站数据采集在成本较高的情况下采集成功率却较低的技术问题。
38、为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
1.一种基于采集频次的数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在所述如果所述请求重试次数大于预设次数阈值且所述重试间隔时长大于预设时长阈值,则将所述待采集网站确定为目标网站的步骤之后,还包括:
3.根据权利要求1所述的方法,其特征在于,在指定机构的场所空间中包含有所述指定机构的总控终端以及隶属于所述指定机构的多个机构内终端;在所述如果所述请求重试次数大于预设次数阈值且所述重试间隔时长大于预设时长阈值,则将所述待采集网站确定为目标网站的步骤之后,还包括:
4.根据权利要求3所述的方法,其特征在于,所述响应于所述目标机构内终端访问所述待采集网站成功,控制所述目标机构内终端读取所述待采集网站的网站数据并将所述网站数据发送至所述总控终端,以通过所述总控终端从所述目标机构内终端调取所述网站数据的步骤,包括:
5.根据权利要求3所述的方法,其特征在于,所述通过所述总控终端对所述多个机构内终端中的至少一个目标机构内终端进行调用的步骤,包括:
6.根据权利要求3所述的方法,其特征在于,所述控制所述目标机构内终端模拟访问所述待采集网站的步骤,包括:
7.根据权利要求3所述的方法,其特征在于,在所述响应于所述目标机构内终端访问所述待采集网站成功,控制所述目标机构内终端读取所述待采集网站的网站数据并将所述网站数据发送至所述总控终端,以通过所述总控终端从所述目标机构内终端调取所述网站数据的步骤之后,还包括:
8.一种基于采集频次的数据处理装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至7任一项所述的方法。