本技术涉及数据处理,尤其是涉及一种基于关键词的数据关联储存方法及装置。
背景技术:
1、对于从社交媒体、新闻网站等平台采集的海量信息,通常存储在数据库中,目前,关键词搜索是在数据库查询过程中搜索索引的通用方法,其中,关键词可以是单个媒体在制作使用索引时所用到的词汇。例如,可以是访问者想要了解的产品、服务和公司等的具体名称用语。因此,目前数据库中储存的上述这些海量信息之间的关联关系通常也是针对关键词进行关联,但是,针对关键词进行关联储存的关联关系精确度较低。
技术实现思路
1、本发明的目的在于提供一种基于关键词的数据关联储存方法及装置,以解决针对关键词进行关联的关联关系精确度较低的技术问题。
2、第一方面,本技术实施例提供了一种基于关键词的数据关联储存方法,所述方法包括:
3、获取多篇待储存文本;
4、通过人工智能(artificial intelligence,ai)文本解读模块对所述多篇待储存文本中的每篇所述待储存文本的通篇文本进行ai解读,得到文本通篇解读结果,并根据所述文本通篇解读结果生成所述待储存文本对应的文本主旨;
5、从所述多篇待储存文本中确定所述文本主旨相同或相似的多篇第一待储存文本,并对所述多篇第一待储存文本通过所述文本主旨的主旨关联关系进行一级关联储存;
6、通过所述ai文本解读模块对所述多篇第一待储存文本进行逐句的ai解读,得到文本语句解读结果,并根据所述文本语句解读结果在所述多篇第一待储存文本中查询具有相同句意或相似句意的目标语句,以及包含有所述目标语句的多篇第二待储存文本;
7、对所述多篇第二待储存文本通过所述目标语句的句意关联关系进行二级关联储存;所述二级关联储存的关联高度大于所述一级关联储存的关联高度;
8、通过所述ai文本解读模块对所述多篇第二待储存文本进行逐词的ai解读,得到文本词汇解读结果,并根据所述文本词汇解读结果在所述多篇第二待储存文本中查询与指定关键词具有相同词意或相似词意的目标关键词,以及包含有所述目标关键词的多篇第三待储存文本;
9、对所述多篇第三待储存文本通过所述指定关键词以及所述目标关键词的词意关联关系进行三级关联储存;所述三级关联储存的关联高度大于所述二级关联储存的关联高度。
10、在一个可能的实现中,在所述根据所述文本词汇解读结果在所述多篇第二待储存文本中查询与指定关键词具有相同词意或相似词意的目标关键词的步骤之后,还包括:
11、在所述多篇待储存文本中确定待分析文本以及所述待分析文本的第一网络发布时刻;
12、基于所述文本主旨、所述目标语句的句意以及所述目标关键词的词意,通过比所述第一网络发布时刻更早的若干第二网络发布时刻查询所述待分析文本对应的溯源文本,并将多篇所述溯源文本中所述第二网络发布时刻最早的文本确定为根源文本;
13、确定所述溯源文本以及所述根源文本的发布对象,并根据所述溯源文本以及所述根源文本的发布对象、所述溯源文本以及所述根源文本的发布方式、所述溯源文本对应的所述第二网络发布时刻、以及所述根源文本对应的所述第二网络发布时刻生成所述待分析文本的传播途径梯度图。
14、在一个可能的实现中,所述发布方式包含文本转载发布、文本编辑发布以及文本链接发布;所述根据所述溯源文本以及所述根源文本的发布对象、所述溯源文本以及所述根源文本的发布方式、所述溯源文本对应的所述第二网络发布时刻、以及所述根源文本对应的所述第二网络发布时刻生成所述待分析文本的传播途径梯度图的步骤,包括:
15、根据所述溯源文本以及所述根源文本的发布对象、所述溯源文本对应的所述第二网络发布时刻、以及所述根源文本对应的所述第二网络发布时刻,生成所述待分析文本的初步传播途径梯度图;其中,所述初步传播途径梯度图中所述待分析文本、所述溯源文本以及所述根源文本之间的梯度第一连接关系为基于时间先后顺序的梯度关联关系;
16、根据所述待分析文本、所述溯源文本以及所述根源文本的之间的文本转载关系、文本链接关系和文本编辑重复情况,确定所述待分析文本、所述溯源文本以及所述根源文本的之间的传播方式关联关系;其中,所述传播方式关联关系包含转载关联关系、链接关联关系以及复制关联关系;
17、基于所述传播方式关联关系对所述初步传播途径梯度图进行优化,生成所述待分析文本的最终传播途径梯度图;其中,所述最终传播途径梯度图中所述待分析文本、所述溯源文本以及所述根源文本之间的梯度第二连接关系为基于传播方式的梯度关联关系。
18、在一个可能的实现中,在所述通过ai文本解读模块对所述多篇待储存文本中的每篇所述待储存文本的通篇文本进行ai解读,得到文本通篇解读结果的步骤之后,还包括:
19、根据所述文本通篇解读结果识别所述待储存文本的通篇大意,并基于所述文本主旨以及所述通篇大意,生成所述待储存文本对应的摘要以及子目录;
20、基于多篇所述待储存文本对应的子目录生成所述多篇待储存文本对应的总目录,并根据所述摘要、所述总目录以及所述待储存文本生成所述待储存文本的查询图表;其中,所述查询图表中包含所述摘要、所述待储存文本以及所述总目录中每个所述子目录之间的映射关系。
21、在一个可能的实现中,所述查询图表中还包含所述待储存文本与文本发布域名、以及文本在网络中对应的原文页面之间的映射关系;
22、在所述基于多篇所述待储存文本对应的子目录生成所述多篇待储存文本对应的总目录,并根据所述摘要、所述总目录以及所述待储存文本生成所述待储存文本的查询图表的步骤之后,还包括:
23、从所述多篇待储存文本中确定待查询文本,并在图形用户界面中显示所述总目录以及所述总目录中的多个所述子目录;
24、响应于针对多个所述子目录中的目标子目录的第一选择指令,根据所述第一选择指令在所述总目录中确定所述待查询文本对应的目标子目录;
25、基于所述目标子目录通过所述摘要与所述总目录中每个所述子目录之间的映射关系,确定并在图形用户界面中显示所述待查询文本对应的摘要;
26、响应于针对所述待查询文本对应的多篇摘要中的目标摘要的第二选择指令,根据所述目标摘要通过所述摘要与所述待储存文本之间的映射关系,确定所述待查询文本对应的目标待储存文本;
27、根据所述待储存文本与文本发布域名、以及文本在网络中对应的原文页面之间的映射关系,从所述查询图表中反向查询所述待查询文本对应的目标文本发布域名、以及所述待查询文本在网络中对应的目标原文页面。
28、在一个可能的实现中,在所述对所述多篇第三待储存文本通过所述指定关键词以及所述目标关键词的词意关联关系进行三级关联储存的步骤之后,还包括:
29、基于所述文本主旨、所述通篇大意、所述目标语句的句意以及所述目标关键词的词意,确定所述多篇第三待储存文本之间的进阶关联关系,并对所述多篇第三待储存文本通过所述进阶关联关系进行四级关联储存;其中,所述进阶关联关系包含文本佐证关系、文本引申关系、以及主旨升华关系中的任意一项或多项。
30、在一个可能的实现中,在所述对所述多篇第三待储存文本通过所述指定关键词以及所述目标关键词的词意关联关系进行三级关联储存的步骤之后,还包括:
31、在所述多篇第三待储存文本中确定相同的所述目标关键词在每篇所述第三待储存文本中的实际出现频率;
32、如果所述实际出现频率低于预设出现频率阈值,则将多篇所述第三待储存文本之间进行中度关联储存;
33、如果所述实际出现频率高于或等于所述预设出现频率阈值,则将多篇所述第三待储存文本之间进行高度关联储存。
34、第二方面,提供了一种基于关键词的数据关联储存装置,包括:
35、获取模块,用于获取多篇待储存文本;
36、生成模块,用于通过ai文本解读模块对所述多篇待储存文本中的每篇所述待储存文本的通篇文本进行ai解读,得到文本通篇解读结果,并根据所述文本通篇解读结果生成所述待储存文本对应的文本主旨;
37、确定模块,用于从所述多篇待储存文本中确定所述文本主旨相同或相似的多篇第一待储存文本,并对所述多篇第一待储存文本通过所述文本主旨的主旨关联关系进行一级关联储存;
38、第一查询模块,用于通过所述ai文本解读模块对所述多篇第一待储存文本进行逐句的ai解读,得到文本语句解读结果,并根据所述文本语句解读结果在所述多篇第一待储存文本中查询具有相同句意或相似句意的目标语句,以及包含有所述目标语句的多篇第二待储存文本;
39、第一储存模块,用于对所述多篇第二待储存文本通过所述目标语句的句意关联关系进行二级关联储存;所述二级关联储存的关联高度大于所述一级关联储存的关联高度;
40、第二查询模块,用于通过所述ai文本解读模块对所述多篇第二待储存文本进行逐词的ai解读,得到文本词汇解读结果,并根据所述文本词汇解读结果在所述多篇第二待储存文本中查询与指定关键词具有相同词意或相似词意的目标关键词,以及包含有所述目标关键词的至少两篇第三待储存文本;
41、第二储存模块,用于对所述至少两篇第三待储存文本通过所述指定关键词以及所述目标关键词的词意关联关系进行三级关联储存;所述三级关联储存的关联高度大于所述二级关联储存的关联高度。
42、第三方面,本技术实施例又提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的第一方面所述方法。
43、第四方面,本技术实施例又提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述的第一方面所述方法。
44、本技术实施例带来了以下有益效果:
45、本技术实施例提供的一种基于关键词的数据关联储存方法及装置,能够获取多篇待储存文本,通过ai文本解读模块对所述多篇待储存文本中的每篇所述待储存文本的通篇文本进行ai解读,得到文本通篇解读结果,并根据所述文本通篇解读结果生成所述待储存文本对应的文本主旨,从所述多篇待储存文本中确定所述文本主旨相同或相似的多篇第一待储存文本,并对所述多篇第一待储存文本通过所述文本主旨的主旨关联关系进行一级关联储存,通过所述ai文本解读模块对所述多篇第一待储存文本进行逐句的ai解读,得到文本语句解读结果,并根据所述文本语句解读结果在所述多篇第一待储存文本中查询具有相同句意或相似句意的目标语句,以及包含有所述目标语句的多篇第二待储存文本,对所述多篇第二待储存文本通过所述目标语句的句意关联关系进行二级关联储存,所述二级关联储存的关联高度大于所述一级关联储存的关联高度,通过所述ai文本解读模块对所述多篇第二待储存文本进行逐词的ai解读,得到文本词汇解读结果,并根据所述文本词汇解读结果在所述多篇第二待储存文本中查询与指定关键词具有相同词意或相似词意的目标关键词,以及包含有所述目标关键词的多篇第三待储存文本,对所述多篇第三待储存文本通过所述指定关键词以及所述目标关键词的词意关联关系进行三级关联储存,所述三级关联储存的关联高度大于所述二级关联储存的关联高度,本方案中,通过先通过解读的文章通篇相似主旨进行关联,再通过更细分解读的文章中的相似语句进行进一步关联,然后再通过语句中更加精细解读的与关键词相似词意的词汇进行更进一步的关联,实现从大致方面即文章整体主旨到具体方面即语句乃至更加具体的关键词汇的逐步精细的关联过程,避免只针对关键词进行关联而使关联的基础过于片面,导致关联关系的精确度较低的问题发生,通过主旨、句意以及词意使关联的基础更加全面,不仅仅局限于关键词,从而提高关联关系的精确度,解决了针对关键词进行关联的关联关系精确度较低的技术问题。
46、为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
1.一种基于关键词的数据关联储存方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在所述根据所述文本词汇解读结果在所述多篇第二待储存文本中查询与指定关键词具有相同词意或相似词意的目标关键词的步骤之后,还包括:
3.根据权利要求2所述的方法,其特征在于,所述发布方式包含文本转载发布、文本编辑发布以及文本链接发布;所述根据所述溯源文本以及所述根源文本的发布对象、所述溯源文本以及所述根源文本的发布方式、所述溯源文本对应的所述第二网络发布时刻、以及所述根源文本对应的所述第二网络发布时刻生成所述待分析文本的传播途径梯度图的步骤,包括:
4.根据权利要求1所述的方法,其特征在于,在所述通过ai文本解读模块对所述多篇待储存文本中的每篇所述待储存文本的通篇文本进行ai解读,得到文本通篇解读结果的步骤之后,还包括:
5.根据权利要求4所述的方法,其特征在于,所述查询图表中还包含所述待储存文本与文本发布域名、以及文本在网络中对应的原文页面之间的映射关系;
6.根据权利要求4所述的方法,其特征在于,在所述对所述多篇第三待储存文本通过所述指定关键词以及所述目标关键词的词意关联关系进行三级关联储存的步骤之后,还包括:
7.根据权利要求1所述的方法,其特征在于,在所述对所述多篇第三待储存文本通过所述指定关键词以及所述目标关键词的词意关联关系进行三级关联储存的步骤之后,还包括:
8.一种基于关键词的数据关联储存装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至7任一项所述的方法。