本技术涉及计算机领域的信息确定技术,尤其涉及一种信息确定方法、装置、设备及计算机可读存储介质。
背景技术:
1、随着科学技术的不断发展,互联网用户能够更加简便快捷地上传图片信息和文字信息到网络上,这使得网络环境的维护变得更加困难;同时,用户上传的图文信息很可能存在违规内容,这都使得网络平台企业面临的风险越来越多。网络平台企业的网页上如果出现了违规内容,会给企业带来巨大的法律问题,同时也会影响企业在社会里的声誉。在大数据时代传统的人工审核方式已经逐渐被淘汰,而深度学习技术尤其是卷积神经网络和循环神经网络在目标检测以及相关领域中的应用,显示出了比传统的人工检测方式更准确高效的优势。目前,相关技术中使用深度学习的算法审核用户上传的图文信息的方案是:先将图文信息拆分成纯图片信息和纯文字信息,再分别针对纯文字信息进行审核和针对纯图片信息进行审核;但是,上述相关技术中对图文信息审核的效率较低,且容易产生漏审核,进而导致图文信息审核准确率较低。
技术实现思路
1、为解决上述技术问题,本技术实施例提供一种信息确定方法、装置、设备及计算机可读存储介质,可以解决相关技术中审核图文信息方案存在效率较低,且容易漏审核的问题,同时提高了图文信息的审核准确率。
2、为达到上述目的,本技术实施例的技术方案是这样实现的:
3、一种信息确定方法,所述方法包括:
4、获取待审核信息中的图片信息和文字信息;
5、对所述图片信息进行处理得到第一特征信息,并对所述文字信息进行处理得到第二特征信息;
6、基于所述第一特征信息、所述第二特征信息和目标权重参数,确定目标图文特征信息;其中,所述目标权重参数表征所述图片信息和所述文字信息的权重信息;
7、基于所述目标图文特征信息和候选敏感词特征信息,确定所述待审核信息是否通过审核。
8、上述方案中,所述对所述图片信息进行处理得到第一特征信息,并对所述文字信息进行处理得到第二特征信息,包括:
9、采用目标图片特征提取模型对所述图片信息处理,得到第一候选特征信息,并对所述第一候选特征信息进行降维处理得到第一特征信息;
10、对所述文字信息进行序列化处理,并采用目标文字特提取模型对处理后的文字信息进行处理,得到第二特征信息。
11、上述方案中,所述采用目标文字特提取模型对处理后的文字信息进行处理,得到第二特征信息,包括:
12、对所述处理后的文字信息进行分词处理得到多个分词,并对每一分词进行筛选得到多个筛选后的分词;
13、采用第一文字特征提取模型对所述多个筛选后的分词进行处理,得到第一词向量和第一分词参数;
14、基于所述第一词向量和所述第一分词参数,确定第一子特征向量;
15、采用第二文字特征提取模型对所述处理后的文字信息进行处理,得到第二子特征向量;其中,所述目标文字特征提取模型包括所述第一文字特征提取模型和所述第二文字特征提取模型;
16、基于所述第一子特征向量和所述第二子特征向量,得到文字特征向量;其中,所述第二特征信息包括所述文字特征向量。
17、上述方案中,所述基于所述第一子特征向量和所述第二子特征向量,得到第二特征向量,包括:
18、若所述多个筛选后的分词中不具有敏感词,基于所述第一子特征向量和所述第二子特征向量得到所述文字特征向量;
19、若所述多个筛选后的分词中具有敏感词,确定所述多个筛选后的分词中的待处理敏感词,并采用所述第一文字特征提取模型对所述待处理敏感词处理,得到敏感词向量;
20、基于所述敏感词向量、所述第一子特征向量和所述第二子特征向量,得到所述文字特征向量。
21、上述方案中,所述基于所述第一特征信息、所述第二特征信息和目标权重参数,确定目标图文特征信息,包括:
22、基于所述第一特征信息和所述第二特征信息,确定第一图文特征信息;
23、基于所述第一特征信息、所述第二特征信息、所述第一图文特征信息和所述目标权重参数,确定所述目标图文特征信息。
24、上述方案中,所述基于所述第一特征信息、所述第二特征信息、所述第一图文特征信息和所述目标权重参数,确定所述目标图文特征信息,包括:
25、基于第一权重参数和第二权重参数确定目标系数;其中,所述目标权重参数包括所述第一权重参数和所述第二权重参数;
26、基于所述第一特征信息、所述第二特征信息、所述第一权重参数、所述第二权重参数、所述第一图文特征信息和所述目标系数,得到第二图文特征信息;
27、对所述第二图文特征信息进行降维处理,得到所述目标图文特征信息。
28、上述方案中,所述基于所述目标图文特征信息和候选敏感词信息,确定所述待审核文件是否通过审核,包括:
29、针对每一类型的每一候选敏感词,确定所述目标图文特征信息与每一所述候选敏感词特征信息之间的第一相似度;其中,所述候选敏感词特征信息为候选敏感词的特征信息;
30、若多个所述第一相似度均满足目标阈值,确定所述待审核文件通过审核;
31、若多个所述第一相似度中存在所述第一相似度不满足目标阈值的情况,确定所述待审核文件未通过审核。
32、上述方案中,所述方法,还包括:
33、针对每一类型的所述候选敏感词,基于多个所述第一相似度得到目标概率参数和基础阈值;
34、基于所述目标概率参数和所述基础阈值进行运算,得到每一类型的所述候选敏感词对应的目标敏感参数;
35、基于多个所述目标敏感参数处理得到所述目标阈值。
36、一种信息确定装置,所述装置包括:
37、获取模块,用于获取待审核信息中的图片信息和文字信息;
38、处理模块,用于对所述图片信息进行处理得到第一特征信息,并对所述文字信息进行处理得到第二特征信息;
39、融合模块,用于基于所述第一特征信息、所述第二特征信息和目标权重参数,确定目标图文特征信息;
40、确定模块,用于基于所述目标图文特征信息和候选敏感词特征信息,确定所述待审核信息是否通过审核。
41、一种信息确定设备,所述设备包括:处理器、存储器和通信总线;
42、所述通信总线用于实现处理器和存储器之间的通信连接;
43、所述处理器用于执行存储器中的信息确定程序,以实现上述的信息确定方法的步骤。
44、一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述的信息确定方法的步骤。
45、本技术的实施例所提供的信息确定方法、装置、设备及计算机可读存储介质,可以获取待审核信息中的图片信息和文字信息,之后对图片信息进行处理得到第一特征信息,并对文字信息进行处理得到第二特征信息,以及基于第一特征信息、第二特征信息和目标权重参数确定目标图文特征信息,最后基于目标图文特征信息和候选敏感词特征信息确定待审核信息是否通过审核,如此,可以使用根据图片信息得到的第一特征信息与根据文字信息得到的第二特征信息以及目标权重参数来确定目标图文特征信息,从而确定的目标图文特征信息既表征了来源于图片信息的词信息,同时也表征了来源于文字信息的词信息,仅需要根据目标图文特征信息和候选敏感词特征信息进行一次审核就可以实现对图文信息的审核,而不需要如相关技术中那样分别审核图片信息和文字信息,提高了审核效率;且,在审核待审核信息的时候是对图片信息对应的特征信息、文字信息对应的特征信息与特定的权重参数结合后得到的目标图文特征信息进行审核的,从而可以解决相关技术中容易产生漏审核的问题,提高了图文信息审核准确率。
1.一种信息确定方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述图片信息进行处理得到第一特征信息,并对所述文字信息进行处理得到第二特征信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述采用目标文字特征提取模型对处理后的文字信息进行处理,得到所述第二特征信息,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一子特征向量和所述第二子特征向量,得到文字特征向量,包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征信息、所述第二特征信息和目标权重参数,确定目标图文特征信息,包括:
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一特征信息、所述第二特征信息、所述第一图文特征信息和所述目标权重参数,确定所述目标图文特征信息,包括:
7.根据权利要求1所述的方法,其特征在于,所述基于所述目标图文特征信息和候选敏感词信息,确定所述待审核文件是否通过审核,包括:
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
9.一种信息确定装置,其特征在于,所述装置包括:
10.一种信息确定设备,其特征在于,所述设备包括:处理器、存储器和通信总线;
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1~8中任一项所述的信息确定方法的步骤。
