本申请属于信息安全,尤其涉及一种辅助工具识别方法、装置、设备及存储介质。
背景技术:
1、用户端在访问系统网页、应用功能等场景中,会产生特定的行为信息。一些用户端在该过程中会通过辅助工具获取并越权使用用户账号,造成敏感数据泄露,因此,对用户端在访问系统网页、应用功能等过程中的监测和防护步骤是必不可少的。
2、在相关技术中,可以采用特征匹配和启发识别方式识别辅助工具。然而,前者只能对已有的行为特征进行匹配,若辅助工具更新频繁,则会导致辅助工具识别手段滞后,一方面无法识别新的辅助工具,另一方面不断匹配已过时的废弃特征,严重影响辅助工具识别的准确性及效率;后者涉及的特征库中的有用特征及无用特征存在多变性,容易使识别辅助工具的模型学习到错误特征,影响识别辅助工具的模型的识别准确率及效率。
技术实现思路
1、本申请实施例提供一种辅助工具识别方法、装置、设备及存储介质,能够解决相关技术中识别辅助工具准确率和效率低的问题。
2、第一方面,本申请实施例提供一种辅助工具识别方法,该方法可以包括:
3、获取第一样本集,第一样本集包括m个样本用户行为特征信息,样本用户行为特征信息包括在预设时间窗口内样本用户端登录系统产生的操作行为次数以及在预设时间窗口内访问系统中至少两个模块的每个模块的次数,m为大于1的整数;
4、根据第一样本集,通过孤立森林算法,构建第二样本集;
5、根据第一样本集的第一样本数量和第二样本集的第二样本数量,确定第三样本集,第三样本集的第三样本数量由第一样本数量和第二样本数量的变化动态调整的;
6、通过第三样本集和第四样本集,训练第一辅助工具识别模型,直至满足预设训练条件,得到第二辅助工具识别模型;其中,第四样本集由第一样本集中除第三样本集之外的用户行为特征信息构成,第二辅助工具识别模型用于识别访问系统的用户端是否为通过辅助工具访问系统的用户端。
7、第二方面,本申请实施例提供一种辅助工具识别装置,该装置可以包括:
8、获取模块,用于获取第一样本集,第一样本集包括m个样本用户行为特征信息,样本用户行为特征信息包括在预设时间窗口内样本用户端登录系统产生的操作行为次数以及在预设时间窗口内访问系统中至少两个模块的每个模块的次数,m为大于1的整数;
9、构建模块,用于根据第一样本集,通过孤立森林算法,构建第二样本集;
10、确定模块,用于根据第一样本集的第一样本数量和第二样本集的第二样本数量,确定第三样本集,第三样本集的第三样本数量由第一样本数量和第二样本数量的变化动态调整的;
11、训练模块,用于通过第三样本集和第四样本集,训练第一辅助工具识别模型,直至满足预设训练条件,得到第二辅助工具识别模型;其中,第四样本集由第一样本集中除第三样本集之外的用户行为特征信息构成,第二辅助工具识别模型用于识别访问系统的用户端是否为通过辅助工具访问系统的用户端。
12、第三方面,本申请实施例提供了一种计算机设备,该计算机设备包括:处理器以及存储有计算机程序指令的存储器;
13、处理器执行计算机程序指令时实现如第一方面所示的辅助工具识别方法。
14、第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面所示的辅助工具识别方法。
15、第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面所示的辅助工具识别方法。
16、第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所示的辅助工具识别方法。
17、本申请实施例的辅助工具识别方法、装置、设备及存储介质,通过包括m个样本用户行为特征信息的第一样本集,通过孤立森林算法,构建包括在预设时间窗口内样本用户端登录系统产生的操作行为次数以及在预设时间窗口内访问系统中至少两个模块的每个模块的次数的第二样本集;接着,根据第一样本集的第一样本数量和第二样本集的第二样本数量,确定第三样本集,第三样本集的第三样本数量由第一样本数量和第二样本数量的变化动态调整的;然后,通过第三样本集和第四样本集,训练第一辅助工具识别模型,直至满足预设训练条件,得到第二辅助工具识别模型;其中,第四样本集由第一样本集中除第三样本集之外的用户行为特征信息构成,第二辅助工具识别模型用于识别访问系统的用户端是否为通过辅助工具访问系统的用户端。这样,可以基于在预设时间窗口内样本用户端登录系统产生的操作行为次数以及在预设时间窗口内访问系统中至少两个模块的每个模块的次数,通过孤立森林算法,构建第二样本集,并基于第一样本集的第一样本数量和第二样本集的第二样本数量动态调整第三样本集的样本数量,可以通过第三样本集和第一样本集训练第一辅助工具识别模型,使得训练后的第二辅助工具识别模型可以减少误报率,运行效率更快以及隔离异常的能力更强,由此,通过孤立森林算法生成的训练样本可以较准确地构建外挂识别模型,避免模型不符合业务逻辑导致无法识别异常或识别准确性较低的问题,能够更快速地判断用户行为特征信息是否属于基于外挂的虚假用户行为特征信息。
1.一种辅助工具识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一样本集,通过孤立森林算法,构建第二样本集,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一样本集的第一样本数量和所述第二样本集的第二样本数量,确定第三样本集,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一样本集的第一样本数量和所述第二样本集的第二样本数量,确定第三样本集,包括:
5.根据权利要求1所述的方法,其特征在于,所述获取第一样本集之前,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述对所述每个样本用户端的样本行为数据进行特征构造,得到所述每个样本用户端的样本用户行为特征信息,包括:
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
8.根据权利要求7所述的方法,其特征在于,所述目标用户行为特征信息包括在预设时间窗口内所述目标用户端登录所述系统产生的目标操作行为次数以及在所述预设时间窗口内访问所述系统中至少两个模块的每个模块的目标次数;所述向所述系统的管理人员进行提示之前,所述方法包括:
9.一种辅助工具识别装置,其特征在于,包括:
10.一种计算机设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
11.一种计算机程序产品,其特征在于,所述程序产品被存储在非瞬态存储介质中,所述程序产品被至少一个处理器执行以实现如权利要求1-8任一项所述的辅助工具识别方法的步骤。