本发明涉及人工智能领域,尤其涉及一种基于语言模型分析的现有技术检索方法及系统。
背景技术:
1、现有技术检索是技术人员为了了解相关技术的先进性和先进程度而采用的专业搜索操作,这种搜索通常涉及将关键字如字词输入到搜索引擎中,以获取相关的技术信息,辅助其对自身技术的先进性和先进程度进行判断。随着人工智能和大数据的发展,这一过程已逐渐演变为更加复杂和高效的语义搜索,其中引入了基于深度学习模型的技术,如sentence transformers。
2、sentence transformers模型是在传统的transformer模型基础上发展而来,专门为理解和处理完整句子或段落设计。它通过将文本转换为一种密集的向量形式,从而捕捉文本的深层语义。这种向量可以与现有技术数据库中的文档向量进行比较,如余弦相似度等数学方法来评估相似性,进而找出与查询内容最相关的现有技术。
3、目前,用户在使用语义搜索时,出于便利或者专业能力不足等原因,所输入的技术文本中通常会包含大量的公知常识,这类公知常识是本领域技术人员的普遍认知,对于技术文本的先进性实质贡献较低,而现有技术中的语义搜索是基于整个技术文本,并不会识别其中公知常识的部分,因此搜索结果及其排序会受到这类公知常识部分的影响,并且其中的公知常识部分越多,搜索列表中靠前的现有技术就越多为本领域的公知常识,难以满足用户快速找出可用以对比的现有技术的需求,导致用户的检索体验较差。
技术实现思路
1、有鉴于此,本发明的一个目的是提出一种现有技术的检索方法,其可在一定程度上改善由于技术文本包含公知常识导致用户检索体验较差的问题。
2、在一些说明性实施例中,所述现有技术的检索方法,包括:
3、s1、获取用户输入的技术文本;
4、s2、将所述技术文本分拆为多个文本单元;
5、s3、利用每个文本单元在现有技术数据库中进行检索匹配,生成与所述文本单元一一对应的多个第一检索列表;
6、其中,所述第一检索列表中的现有技术少于所述现有技术数据库;
7、s4、确定每个第一检索列表与对应的文本单元之间的综合相似性系数,删除综合相似性系数高于第一阈值的第一检索列表;
8、s5、生成包含有剩余的第一检索列表中的现有技术的重组数据库;
9、s6、利用所述技术文本在所述重组数据库中进行检索匹配,生成面向用户的第二检索列表。
10、在一些可选地实施例中,所述确定每个第一检索列表与其对应的文本单元之间的综合相似性系数的过程,包括:确定第一检索列表中每个现有技术与该第一检索列表对应的文本单元之间的第一相似性系数;通过所述第一相似性系数之间的计算,确定该第一检索列表与其对应的文本单元之间的综合相似性系数。
11、在一些可选地实施例中,在s4-s5之间,还包括:删除剩余的第一检索列表中第一相似性系数低于第二阈值的现有技术。
12、在一些可选地实施例中,所述生成与所述文本单元一一对应的多个第一检索列表的过程,包括:针对每次检索匹配,按照第一设定数量选取其中第一相似性系数最高的现有技术生成所述第一检索列表。
13、在一些可选地实施例中,在s4-s5之间,还包括:针对剩余的第一检索列表中的每个现有技术,确定其中的每个文本段落与其对应的文本单元之间的第二相似性系数,并选取所述第二相似性系数最高的文本段落作为相关技术片段替代该现有技术。
14、在一些可选地实施例中,在s4-s5之间,还包括:将剩余的第一检索列表中的现有技术以不少于2个的方式进行组合,得到多个组合现有技术;所述重组数据库包括:以单个现有技术独立存在的独立现有技术、以及所述组合现有技术。
15、在一些可选地实施例中,所述组合现有技术的最大组合数量不超过4个。
16、在一些可选地实施例中,在进行所述组合之前,还包括:获取用户输入的组合数量上限;所述将剩余的第一检索列表中的现有技术以不少于2个的方式进行组合的过程,包括:根据用户输入的组合数量上限对所述现有技术进行组合。
17、在一些可选地实施例中,所述将所述技术文本分拆为多个文本单元的过程,包括:将所述技术文本通过语义分割模型分拆为多个文本单元。
18、在一些可选地实施例中,所述检索方法,还包括:训练及优化所述语义分割模型。
19、在一些可选地实施例中,在s6之后,还包括:获取用户对于本次检索的评价分值;在评价分值高于第三阈值时,利用本次检索过程中语义分割模型的模型参数作为成功案例,进行所述训练及优化所述语义分割模型;和/或,在评价分值低于第三阈值时,自动调整或由用户调整所述语义分割模型的模型参数重新进行s2~s6。
20、在一些可选地实施例中,所述检索方法,在s7之后,还包括:将所述第二检索列表中的每个现有技术分别与所述技术文本一并输入大型语言模型,通过所述大型语言模型生成两者之间进行相似性比较的评述文本;将具有所述检索结果及其对应的评述文本的所述第二检索列表推送给用户。
21、在一些可选地实施例中,在所述将所述第二检索列表中的每个现有技术分别与所述技术文本一并输入大型语言模型之前,还包括:获取所述第二检索列表中的每个现有技术的关联文本;其中,所述关联文本包括:该现有技术引用和/或被引用的相关文本。
22、在一些可选地实施例中,所述将所述第二检索列表中的每个现有技术分别与所述技术文本一并输入大型语言模型,通过所述大型语言模型生成两者之间进行相似性比较的评述文本的过程,包括:将所述第二检索列表中的每个现有技术及其对应的关联文本作为一整体分别与所述技术文本一并输入所述大型语言模型中,生成所述评述文本。
23、在一些可选地实施例中,所述利用所述技术文本在重组数据库中进行检索匹配,生成面向用户的第二检索列表的过程,包括:确定所述重组数据库中每个现有技术与所述技术文本之间的第三相似性系数,按照第二设定数量选取第三相似性系数最高的现有技术生成所述第二检索列表。
24、本发明的另一个目的在于提供一种现有技术的检索系统,以解决现有技术中存在的问题。
25、在一些说明性实施例中,所述现有技术的检索系统,包括:用户输入模块,用于获取用户输入的技术文本;文本分割模块,用于将所述技术文本分拆为多个文本单元;第一相似性匹配模块,用于利用每个文本单元在现有技术数据库中进行检索匹配,生成与所述文本单元一一对应的多个第一检索列表;其中,所述第一检索列表中的现有技术少于所述现有技术数据库;综合相似性计算模块,用于确定每个第一检索列表与对应的文本单元之间的综合相似性系数;第一降噪模块,用于删除综合相似性系数高于第一阈值的第一检索列表;数据库重构模块,用于生成包含有剩余的第一检索列表中的现有技术的重组数据库;第二相似性匹配模块,用于利用所述技术文本在所述重组数据库中进行检索匹配,生成面向用户的第二检索列表。
26、在一些可选地实施例中,所述第一相似度匹配模块,包括:第一相似性计算模块,用于确定第一检索列表中每个现有技术与该第一检索列表对应的文本单元之间的第一相似性系数;所述综合相似性计算模块,用于通过所述第一相似性系数之间的计算,确定该第一检索列表与其对应的文本单元之间的综合相似性系数。
27、在一些可选地实施例中,所述检索系统,还包括:第二降噪模块,用于删除剩余的第一检索列表中第一相似性系数低于第二阈值的现有技术。
28、在一些可选地实施例中,所述第一相似度匹配模块,还包括:第一列表生成模块,用于针对每次检索匹配,按照第一设定数量选取其中第一相似性系数最高的现有技术生成所述第一检索列表。
29、在一些可选地实施例中,所述检索系统,还包括:第二相似性计算模块,用于针对剩余的第一检索列表中的每个现有技术,确定其中的每个文本段落与其对应的文本单元之间的第二相似性系数;提取模块,用于选取所述第二相似性系数最高的文本段落作为相关技术片段替代该现有技术。
30、在一些可选地实施例中,所述检索系统,还包括:组合模块,用于将剩余的第一检索列表中的现有技术以不少于2个的方式进行组合,得到多个组合现有技术;其中,所述重组数据库包括:以单个现有技术独立存在的独立现有技术、以及所述组合现有技术。
31、在一些可选地实施例中,所述组合现有技术的最大组合数量不超过4个。
32、在一些可选地实施例中,所述用户输入模块,还用于获取用户输入的组合数量上限;所述组合模块,用于根据用户输入的组合数量上限对所述现有技术进行组合。
33、在一些可选地实施例中,所述文本分割模块,用于将所述技术文本通过语义分割模型分拆为多个文本单元。
34、在一些可选地实施例中,所述检索系统,还包括:模型训练模块,用于训练及优化所述语义分割模型。
35、在一些可选地实施例中,所述检索系统,还包括:用户评估模块,用于获取用户对于本次检索的评价分值;所述模型训练模块,用于在评价分值高于第三阈值时,利用本次检索过程中语义分割模型的模型参数作为成功案例,进行所述训练及优化所述语义分割模型;和/或,在评价分值低于第三阈值时,自动调整或由用户调整所述语义分割模型的模型参数重新进行检索。
36、在一些可选地实施例中,所述检索系统,还包括:评述模块,用于将所述第二检索列表中的每个现有技术分别与所述技术文本一并输入大型语言模型,生成两者之间进行相似性比较的评述文本;推送模块,用于将具有所述检索结果及其对应的评述文本的所述第二检索列表推送给用户。
37、在一些可选地实施例中,所述检索系统,还包括:关联数据模块,用于获取所述第二检索列表中的每个现有技术的关联文本;其中,所述关联文本包括:该现有技术引用和/或被引用的相关文本;所述评述模块用于将所述第二检索列表中的每个现有技术及其对应的关联文本作为一整体分别与所述技术文本一并输入所述大型语言模型中,生成所述评述文本。
38、在一些可选地实施例中,所述第二相似性匹配模块,包括:第三相似性计算模块,用于确定所述重组数据库中每个现有技术与所述技术文本之间的第三相似性系数;第二列表生成模块,用于按照第二设定数量选取第三相似性系数最高的现有技术生成所述第二检索列表。
39、本发明通过将待检索的技术文本分拆为若干个文本单元,以每个文本单元进行独立检索,再将获得的检索列表中综合相似性系数高于第一阈值的检索列表删除,从而将明显为公知常识的文本单元所检索出来的现有技术剔除,以剩余的现有技术重构现有技术数据库,最后以整个技术文本在重组数据库中进行检索匹配,有效改善了技术文本中公知常识部分对于检索结果的影响,提升用户的检索体验;并且本技术不涉及删除技术文本中的公知常识部分,也就避免了技术文本由于缺乏部分内容导致语义检索失真的问题。
1.一种现有技术的检索方法,其特征在于,包括:
2.根据权利要求1所述的检索方法,其特征在于,所述确定每个第一检索列表与其对应的文本单元之间的综合相似性系数的过程,包括:
3.根据权利要求2所述的检索方法,其特征在于,在s4-s5之间,还包括:删除剩余的第一检索列表中第一相似性系数低于第二阈值的现有技术。
4.根据权利要求2所述的检索方法,其特征在于,所述生成与所述文本单元一一对应的多个第一检索列表的过程,包括:
5.根据权利要求1所述的检索方法,其特征在于,在s4-s5之间,还包括:
6.根据权利要求1所述的检索方法,其特征在于,在s4-s5之间,还包括:
7.根据权利要求6所述的检索方法,其特征在于,所述组合现有技术的最大组合数量不超过4个。
8.根据权利要求6所述的检索方法,其特征在于,在进行所述组合之前,还包括:获取用户输入的组合数量上限;
9.根据权利要求1所述的检索方法,其特征在于,所述将所述技术文本分拆为多个文本单元的过程,包括:
10.根据权利要求9所述的检索方法,其特征在于,还包括:训练及优化所述语义分割模型。
11.根据权利要求9所述的检索方法,其特征在于,在s6之后,还包括:获取用户对于本次检索的评价分值;
12.根据权利要求1所述的检索方法,其特征在于,在s7之后,还包括:将所述第二检索列表中的每个现有技术分别与所述技术文本一并输入大型语言模型,通过所述大型语言模型生成两者之间进行相似性比较的评述文本;
13.根据权利要求12所述的检索方法,其特征在于,在所述将所述第二检索列表中的每个现有技术分别与所述技术文本一并输入大型语言模型之前,还包括:
14.根据权利要求1所述的检索方法,其特征在于,所述利用所述技术文本在重组数据库中进行检索匹配,生成面向用户的第二检索列表的过程,包括:
15.一种现有技术的检索系统,其特征在于,包括:
16.根据权利要求15所述的检索系统,其特征在于,所述第一相似度匹配模块,包括:第一相似性计算模块,用于确定第一检索列表中每个现有技术与该第一检索列表对应的文本单元之间的第一相似性系数;
17.根据权利要求16所述的检索系统,其特征在于,还包括:第二降噪模块,用于删除剩余的第一检索列表中第一相似性系数低于第二阈值的现有技术。
18.根据权利要求16所述的检索方法,其特征在于,所述第一相似度匹配模块,还包括:第一列表生成模块,用于针对每次检索匹配,按照第一设定数量选取其中第一相似性系数最高的现有技术生成所述第一检索列表。
19.根据权利要求14所述的检索系统,其特征在于,还包括:
20.根据权利要求14所述的检索系统,其特征在于,还包括:
21.根据权利要求20所述的检索系统,其特征在于,所述组合现有技术的最大组合数量不超过4个。
22.根据权利要求20所述的检索系统,其特征在于,所述用户输入模块,还用于获取用户输入的组合数量上限;
23.根据权利要求15所述的检索系统,其特征在于,所述文本分割模块,用于将所述技术文本通过语义分割模型分拆为多个文本单元。
24.根据权利要求23所述的检索系统,其特征在于,还包括:模型训练模块,用于训练及优化所述语义分割模型。
25.根据权利要求23所述的检索系统,其特征在于,还包括:
26.根据权利要求15所述的检索系统,其特征在于,还包括:
27.根据权利要求26所述的检索系统,其特征在于,还包括:
28.根据权利要求15所述的检索系统,其特征在于,所述第二相似性匹配模块,包括: