本发明涉及人工智能,尤其涉及一种违规网站识别方法、装置、设备、存储介质及程序产品。
背景技术:
1、在网络以非法占有为目的,用虚构事实或者隐瞒真相的方法,骗取款额较大的公私财物的行为,或将有价值的东西做注码来赌输赢的行为等均是一种违规行为,而随着网络的发展,这些违规行为已逐渐在网络中开展,在网络中实施违规行为时,其内容复杂多变,给违规检测工作带来了更大的挑战。因此,技术手段在防范和打击网络中的违规行为起到不可或缺的作用。当前涉及违规行为的威胁主要处理来自于app、url网站、小程序等站点的数据和风险预判,当前有70%以上的案件与app或网站有关。如果能及时发现这些风险网站并及时进行内容理解,就能为违规行为治理工作带来巨大增益。
2、现有的主流方案主要是通过安全业务人员人工访问疑似风险网站,利用已有经验进行相关违规内容的入口发现或流程挖掘,同时辅助一些简易的文本识别和图像识别算法进行检测。但这种方案高度依赖人工经验,缺少智能系统的自学习能力,成长性较差,违规人员一旦改变作案手段和方法,系统都将无法及时、有效地对这些违规人员进行识别和预警。
技术实现思路
1、本发明提供一种违规网站识别方法、装置、设备、存储介质及程序产品,用以解决现有技术中对违规网站的检测依赖人工的缺陷,实现自动、智能、准确的对待识别网站进行检测。
2、本发明提供一种违规网站识别方法,包括:
3、确定待识别网站的网站地址和页面内容中的至少一项;其中,所述网站地址包括域名、网址和ip地址中的至少一项;
4、基于所述网站地址和页面内容中的至少一项,确定所述待识别网站是否为违规网站。
5、根据本发明提供的一种违规网站识别方法,所述基于所述网站地址和页面内容中的至少一项,确定所述待识别网站是否为违规网站,包括以下一项或多项:
6、基于所述网站地址,确定所述待识别网站是否为违规网站;
7、基于所述页面内容,确定所述待识别网站是否为违规网站。
8、根据本发明提供的一种违规网站识别方法,所述基于所述网站地址,确定所述待识别网站是否为违规网站,包括:
9、基于所述网站地址的特征,确定所述待识别网站是否为违规网站;其中,所述网站地址的特征包括:dga域名特征、网址路径特征、注册信息特征、归属地特征、备案特征、网址排列特征、网址统计特征、敏感词特征、链入链出特征、访问量特征中的至少一项。
10、根据本发明提供的一种违规网站识别方法,所述基于所述网站地址,确定所述待识别网站是否为违规网站,包括:
11、获取所述待识别网站的源代码;
12、根据所述源代码,抽取所述待识别网站中的隐式链接,并确定所述隐式链接的地址信息;
13、根据所述网站地址和所述地址信息确定所述待识别网站是否为违规网站。
14、根据本发明提供的一种违规网站识别方法,所述根据所述源代码抽取隐式链接,包括:
15、根据所述源代码确定所述待识别网站的统一资源定位符的属性值和所述统一资源定位符在页面内容中的尺寸;
16、根据所述属性值和所述尺寸抽取所述隐式链接。
17、根据本发明提供的一种违规网站识别方法,所述根据所述源代码,抽取所述待识别网站中的隐式链接,包括:
18、检测所述属性值是否完整和异常,得到第一检测结果;以及
19、检测所述尺寸是否达到异常尺寸要求,得到第二检测结果;以及
20、检测所述统一资源定位符是否显示异常,得到第三检测结果;
21、根据所述第一检测结果、所述第二检测结果或所述第三检测结果抽取所述隐式链接。
22、根据本发明提供的一种违规网站识别方法,所述基于所述页面内容,确定所述待识别网站是否为违规网站,包括:
23、基于所述页面内容构建输入特征;
24、将所述输入特征输入至预设的网站检测模型中,得到所述网站检测模型输出的检测结果;
25、根据所述检测结果确定所述待识别网站是否为违规网站。
26、根据本发明提供的一种违规网站识别方法,所述网站检测模型基于transformer模型训练得到,所述transformer模型中的自注意力机制中添加有相对偏置项。
27、根据本发明提供的一种违规网站识别方法,预设的网站检测模型训练过程,包括:
28、获取多个样本页面内容分别对应的样本输入特征;其中,各个所述样本页面内容包括至少一个样本图文token;
29、将所述样本输入特征输入至自注意力机制中,得到所述自注意力机制输出的处理结果;
30、根据所述处理结果计算注意力得分,并根据所述样本图文token之间的浏览顺序和页面内容布局计算所述相对偏置项;
31、根据所述注意力得分和所述相对偏置项训练所述transformer模型,得到所述网站检测模型。
32、根据本发明提供的一种违规网站识别方法,所述基于所述页面内容构建输入特征,包括:
33、基于所述页面内容,构建表征所述页面内容的浏览顺序的第一特征向量、表征所述页面内容布局的第二特征向量、表征所述页面内容位置关系的第三特征向量、表征页面内容分区的第四特征向量和表征所述页面内容语义的第五特征向量;
34、将所述第二特征向量输入至自适应映射层中,得到所述自适应映射层输出的布局映射特征向量;
35、根据所述第一特征向量、所述第三特征向量、所述第四特征向量、所述第五特征向量和所述布局映射特征向量构建所述页面内容的所述输入特征。
36、根据本发明提供的一种违规网站识别方法,所述构建表征所述页面内容的浏览顺序的第一特征向量,包括:
37、对所述页面内容进行切割,得到多个图文token,并对各个所述图文token进行增强处理;
38、构建将增强处理后的所述图文token映射到第一坐标轴的第一投影剖面函数,和构建将增强处理后的所述图文token映射到第二坐标轴的第二投影剖面函数;
39、根据所述第一投影剖面函数和所述第二投影剖面函数确定各个所述图文token在待构建的网站空间浏览树中作为叶子节点时的节点位置信息,并根据所述节点位置信息构建所述网站空间浏览树;
40、根据所述网站空间浏览树中的叶子节点的索引得到所述第一特征向量。
41、根据本发明提供的一种违规网站识别方法,所述根据所述第一投影剖面函数和所述第二投影剖面函数确定各个所述图文token在待构建的网站空间浏览树中作为叶子节点时的节点位置信息,包括:
42、从所述第一投影剖面函数中确定为0的点集为第一谷点,以及从所述第二投影剖面函数中确定为0的点集为第二谷点;
43、分别根据所述第一谷点和所述第二谷点进行切割,得到多个第一类簇和多个第二类簇;
44、将所述第一类簇和所述第二类簇中的所述图文token根据对应的坐标值确定所述节点位置信息。
45、根据本发明提供的一种违规网站识别方法,所述对各个所述图文token进行增强处理,包括:
46、基于预设的均匀分布确定各个所述图文token在各坐标轴对应的随机变量;
47、若所述随机变量的绝对值大于预设的变量阈值,根据随机变量的绝对值确定移动数据,并根据所述随机变量的正负性确定移动方向;
48、将各个所述图文token的坐标值依据对应的移动数据和移动方向进行增强处理。
49、本发明还提供一种违规网站识别装置,包括:
50、第一确定模块,配置为确定待识别网站的网站地址和页面内容中的至少一项;其中,所述网站地址包括域名、网址和ip地址中的至少一项;
51、第二确定模块,配置为基于所述网站地址和页面内容中的至少一项,确定所述待识别网站是否为违规网站。
52、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述违规网站识别方法。
53、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述违规网站识别方法。
54、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述违规网站识别方法。
55、本发明提供的一种违规网站识别方法、装置、设备、存储介质及程序产品,在对待识别网站进行识别时,基于待识别网站的网站地址和页面内容中的至少一项来确定,网站地址和网页内容均可表征待识别网站,因此,通过能够自动、准确、全面的对待识别网站进行违规识别。
1.一种违规网站识别方法,其特征在于,包括:
2.根据权利要求1所述的违规网站识别方法,其特征在于,所述基于所述网站地址和页面内容中的至少一项,确定所述待识别网站是否为违规网站,包括以下一项或多项:
3.根据权利要求2所述的违规网站识别方法,其特征在于,所述基于所述网站地址,确定所述待识别网站是否为违规网站,包括:
4.根据权利要求2所述的违规网站识别方法,其特征在于,所述基于所述网站地址,确定所述待识别网站是否为违规网站,包括:
5.根据权利要求4所述的违规网站识别方法,其特征在于,所述根据所述源代码,抽取所述待识别网站中的隐式链接,包括:
6.根据权利要求5所述的违规网站识别方法,其特征在于,所述根据所述属性值和所述尺寸抽取所述隐式链接,包括:
7.根据权利要求2所述的违规网站识别方法,其特征在于,所述基于所述页面内容,确定所述待识别网站是否为违规网站,包括:
8.根据权利要求7所述的违规网站识别方法,其特征在于,所述网站检测模型基于transformer模型训练得到,所述transformer模型中的自注意力机制中添加有相对偏置项。
9.根据权利要求8所述的违规网站识别方法,其特征在于,预设的网站检测模型训练过程,包括:
10.根据权利要求7所述的违规网站识别方法,其特征在于,所述基于所述页面内容构建输入特征,包括:
11.根据权利要求10所述的违规网站识别方法,其特征在于,所述构建表征所述页面内容的浏览顺序的第一特征向量,包括:
12.根据权利要求11所述的违规网站识别方法,其特征在于,所述根据所述第一投影剖面函数和所述第二投影剖面函数确定各个所述图文token在待构建的网站空间浏览树中作为叶子节点时的节点位置信息,包括:
13.根据权利要求11所述的违规网站识别方法,其特征在于,所述对各个所述图文token进行增强处理,包括:
14.一种违规网站识别装置,其特征在于,包括:
15.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至13任一项所述违规网站识别方法。
16.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至13任一项所述违规网站识别方法。
17.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至13任一项所述违规网站识别方法。