基于大语言模型的生命周期流数据混合检索方法及装置

    技术2025-01-22  64


    本发明涉及电数字数据处理和数据流检索,特别涉及一种基于大语言模型的生命周期流数据混合检索方法及装置。


    背景技术:

    1、随着大数据时代的到来,各种类型的数据以极高的速度生成和累积,其中包括了大量的流数据。在生命周期分析流数据库中,根据需求准确检索流信息是生命周期分析的一个重要环节,而如何有效地检索、分析和利用这些流数据,尤其是结合大语言模型进行混合检索,成为了当前研究的热点和难点。

    2、相关技术中,能够引入大语言模型的能力分析用户的检索意图,输出统一的检索关键信息,通过结构化检索和向量检索相结合的方式,实现文本-多模态数据的高效精确检索。

    3、然而,相关技术中,现有的包括gabi,encoinvent,elcd等在内的数据库,普遍存在数据不完整、标准不统一、流名称不唯一等问题,导致传统的全文检索和语义检索难以返回准确的流,亟待改善。


    技术实现思路

    1、本发明提供一种基于大语言模型的生命周期流数据混合检索方法及装置,以解决相关技术中的数据库,普遍存在数据不完整、标准不统一、流名称不唯一,易导致传统的全文检索和语义检索难以返回准确的流等问题。

    2、本发明第一方面实施例提供一种基于大语言模型的生命周期流数据混合检索方法,包括以下步骤:接收用户输入的包含流的查询信息和过滤条件的检索请求;响应于所述检索请求,利用大语言模型将所述查询信息转换为语义检索英文信息、全文检索中文信息和全文检索英文信息,并分别转换为语义检索字符串和全文检索字符串;利用所述语义检索字符串、所述全文检索字符串和所述过滤条件在预设数据库内进行语义检索和全文检索,分别得到根据相似度排序的语义检索结果列表和全文检索结果列表;将所述语义检索结果列表和所述全文检索结果列表合并,并根据合并结果列表的每个结果计算对应的语义检索分数和全文检索分数,以根据所述语义检索分数和所述全文检索分数的加权之和得到初步排名分数;基于所述初步排名分数,根据语义检索和全文检索的一致性指标及排名置信度衰减因子计算综合排名指数,并基于所述综合排名指数,对所述合并结果列表进行降序排序,返回综合排序结果列表,并保留满足预设个数条件的结果,以生成初步排序结果;基于深度学习模型对所述初步排序结果进行重排序,生成包含唯一标识符、排名和内容的最终结果列表。

    3、可选地,在本发明的一个实施例中,所述分别转换为语义检索字符串和全文检索字符串,包括:将所述全文检索中文信息和所述全文检索英文信息转换为字符串类型,并用预设字符串连接,以得到所述全文检索字符串。

    4、可选地,在本发明的一个实施例中,所述分别转换为语义检索字符串和全文检索字符串,还包括:利用预设模型将所述语义检索英文信息转换为嵌入向量;将所述嵌入向量转化为所述语义检索字符串。

    5、可选地,在本发明的一个实施例中,所述全文检索结果列表中查询的语句和文档之间的相似得分的计算公式为:

    6、,

    7、其中,为语句包含的第个关键词,为文档,为文档数量,为反向文档频率,为文档词频,为所述合并结果列表中的每一个结果,为查询语句词频;

    8、所述语义检索结果列表中向量和向量之间的相似程度的计算公式为:

    9、,

    10、其中,为所述合并结果列表中的每一个结果,为所述文档数量,分别代表所述向量和所述向量的第个分量。

    11、可选地,在本发明的一个实施例中,所述语义检索分数和所述全文检索分数的计算公式为:

    12、,

    13、其中,为所述合并结果列表中的每一个结果,为避免计算数值过大的常数,和分别为所述合并结果列表中的每一个结果在全文检索和语义检索中的排名。

    14、可选地,在本发明的一个实施例中,所述合并结果列表中的初始得分的计算公式为:

    15、,

    16、其中,和分别为全文检索和语义检索的权重,为所述全文检索分数,为所述语义检索分数,为所述合并结果列表中的每一个结果,代表全文检索,代表语义检索;

    17、所述语义检索和全文检索的一致性指标的计算公式为:

    18、,

    19、其中,为检索结果的总数,和分别为所述合并结果列表中的每一个结果在全文检索和语义检索中的排名;

    20、所述语义检索和全文检索的一致性得分的计算公式为:

    21、,

    22、其中,为一个控制对最终得分的影响程度的调整参数,为所述初始得分,为所述语义检索和全文检索的一致性指标;

    23、所述排名置信度衰减因子的计算公式为:

    24、,

    25、其中,为衰减率,为所述初始得分;

    26、所述综合排名指数的计算公式为:

    27、,

    28、其中,为所述语义检索和全文检索的一致性得分,为所述排名置信度衰减因子。

    29、本发明第二方面实施例提供一种基于大语言模型的生命周期流数据混合检索装置,包括:接收模块,用于接收用户输入的包含流的查询信息和过滤条件的检索请求;转换模块,用于响应于所述检索请求,利用大语言模型将所述查询信息转换为语义检索英文信息、全文检索中文信息和全文检索英文信息,并分别转换为语义检索字符串和全文检索字符串;获取模块,用于利用所述语义检索字符串、所述全文检索字符串和所述过滤条件在预设数据库内进行语义检索和全文检索,分别得到根据相似度排序的语义检索结果列表和全文检索结果列表;计算模块,用于将所述语义检索结果列表和所述全文检索结果列表合并,并根据合并结果列表的每个结果计算对应的语义检索分数和全文检索分数,以根据所述语义检索分数和所述全文检索分数的加权之和得到初步排名分数;降序排序模块,用于基于所述初步排名分数,根据语义检索和全文检索的一致性指标及排名置信度衰减因子计算综合排名指数,并基于所述综合排名指数,对所述合并结果列表进行降序排序,返回综合排序结果列表,并保留满足预设个数条件的结果,以生成初步排序结果;重排序模块,用于基于深度学习模型对所述初步排序结果进行重排序,生成包含唯一标识符、排名和内容的最终结果列表。

    30、可选地,在本发明的一个实施例中,所述转换模块包括:第一转换单元,用于将所述全文检索中文信息和所述全文检索英文信息转换为字符串类型,并用预设字符串连接,以得到所述全文检索字符串。

    31、可选地,在本发明的一个实施例中,所述转换模块还包括:第二转换单元,用于利用预设模型将所述语义检索英文信息转换为嵌入向量;转化单元,用于将所述嵌入向量转化为所述语义检索字符串。

    32、可选地,在本发明的一个实施例中,所述全文检索结果列表中查询的语句和文档之间的相似得分的计算公式为:

    33、,

    34、其中,为语句包含的第个关键词,为文档,为文档数量,为反向文档频率,为文档词频,为所述合并结果列表中的每一个结果,为查询语句词频;

    35、所述语义检索结果列表中向量和向量之间的相似程度的计算公式为:

    36、,

    37、其中,为所述合并结果列表中的每一个结果,为所述文档数量,分别代表所述向量和所述向量的第个分量。

    38、可选地,在本发明的一个实施例中,所述语义检索分数和所述全文检索分数的计算公式为:

    39、,

    40、其中,为所述合并结果列表中的每一个结果,为避免计算数值过大的常数,和分别为所述合并结果列表中的每一个结果在全文检索和语义检索中的排名。

    41、可选地,在本发明的一个实施例中,所述合并结果列表中的初始得分的计算公式为:

    42、,

    43、其中,和分别为全文检索和语义检索的权重,为所述全文检索分数,为所述语义检索分数,为所述合并结果列表中的每一个结果,代表全文检索,代表语义检索;

    44、所述语义检索和全文检索的一致性指标的计算公式为:

    45、,

    46、其中,为检索结果的总数,和分别为所述合并结果列表中的每一个结果在全文检索和语义检索中的排名;

    47、所述语义检索和全文检索的一致性得分的计算公式为:

    48、,

    49、其中,为一个控制对最终得分的影响程度的调整参数,为所述初始得分,为所述语义检索和全文检索的一致性指标;

    50、所述排名置信度衰减因子的计算公式为:

    51、,

    52、其中,为衰减率,为所述初始得分;

    53、所述综合排名指数的计算公式为:

    54、,

    55、其中,为所述语义检索和全文检索的一致性得分,为所述排名置信度衰减因子。

    56、本发明第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的基于大语言模型的生命周期流数据混合检索方法。

    57、本发明第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,该程序被处理器执行时实现如上的基于大语言模型的生命周期流数据混合检索方法。

    58、本发明第五方面实施例提供一种计算机程序产品,所述计算机程序产品存储计算机程序,该程序被处理器执行时实现如上的基于大语言模型的生命周期流数据混合检索方法。

    59、本发明实施例可以利用大语言模型总结提炼出用户输入内容的关键信息,避免无效信息对语义检索的影响,使用倒数排序融合算法对全文检索和语义检索结果进行综合排序,实现根据用户输入的流的相关信息在数据库中准确检索到所有符合要求的流,提高查询内容质量,提高检索结果准确性,并支持多语言查询。由此,解决了相关技术中的数据库,普遍存在数据不完整、标准不统一、流名称不唯一,易导致传统的全文检索和语义检索难以返回准确的流等问题。

    60、本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。


    技术特征:

    1.一种基于大语言模型的生命周期流数据混合检索方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的基于大语言模型的生命周期流数据混合检索方法,其特征在于,所述分别转换为语义检索字符串和全文检索字符串,包括:

    3.根据权利要求1所述的基于大语言模型的生命周期流数据混合检索方法,其特征在于,所述分别转换为语义检索字符串和全文检索字符串,还包括:

    4.根据权利要求1所述的基于大语言模型的生命周期流数据混合检索方法,其特征在于,所述全文检索结果列表中查询的语句和文档之间的相似得分的计算公式为:

    5.根据权利要求4所述的基于大语言模型的生命周期流数据混合检索方法,其特征在于,所述语义检索分数和所述全文检索分数的计算公式为:

    6.根据权利要求5所述的基于大语言模型的生命周期流数据混合检索方法,其特征在于,所述合并结果列表中的初始得分的计算公式为:

    7.一种基于大语言模型的生命周期流数据混合检索装置,其特征在于,包括:

    8.根据权利要求7所述的基于大语言模型的生命周期流数据混合检索装置,其特征在于,所述转换模块包括:

    9.根据权利要求7所述的基于大语言模型的生命周期流数据混合检索装置,其特征在于,所述转换模块还包括:

    10.根据权利要求7所述的基于大语言模型的生命周期流数据混合检索装置,其特征在于,所述全文检索结果列表中查询的语句和文档之间的相似得分的计算公式为:

    11.根据权利要求10所述的基于大语言模型的生命周期流数据混合检索装置,其特征在于,所述语义检索分数和所述全文检索分数的计算公式为:

    12.根据权利要求11所述的基于大语言模型的生命周期流数据混合检索装置,其特征在于,所述合并结果列表中的初始得分的计算公式为:

    13.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-6任一项所述的基于大语言模型的生命周期流数据混合检索方法。

    14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行,以用于实现如权利要求1-6任一项所述的基于大语言模型的生命周期流数据混合检索方法。

    15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被执行,以用于实现如权利要求1-6中任一项所述的基于大语言模型的生命周期流数据混合检索方法。


    技术总结
    本发明涉及电数字数据处理和数据流检索技术领域,特别涉及一种基于大语言模型的生命周期流数据混合检索方法及装置,其中,方法包括:利用大语言模型将查询信息转换为语义检索英文信息、全文检索中文信息和全文检索英文信息;利用语义检索字符串、全文检索字符串和过滤条件在预设数据库内进行语义检索和全文检索;根据语义检索分数和全文检索分数的加权之和得到初步排名分数;根据语义检索和全文检索的一致性指标及排名置信度衰减因子计算综合排名指数;基于深度学习模型对初步排序结果进行重排序,生成包含唯一标识符、排名和内容的最终结果列表。由此,解决了相关技术数据库存在数据不完整、标准不统一、流名称不唯一,难以返回准确的流的问题。

    技术研发人员:徐明,李楠,郭静,周逸航,齐剑川
    受保护的技术使用者:清华大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-25404.html

    最新回复(0)