基于上下文信息聚合的智能问答方法、系统、设备及介质与流程

    技术2025-04-12  40


    本发明涉及自然语言处理,具体地说是一种基于上下文信息聚合的智能问答方法、系统、设备及介质。


    背景技术:

    1、智能问答系统(intelligent question answering system)是一种基于人工智能技术的自然语言处理系统,能够自动化地获取、理解和处理人类语言,并根据用户的提问给出相应的回答,不仅限于简单的查询响应,还能处理复杂的问题,提供详细的解释和推理过程。现有的智能问答系统通常依赖于预先训练的大规模语料库,结合深度学习算法,以实现对自然语言的深度理解和推理。随着用户需求的多样化和问题复杂度的提升,智能问答系统面临着诸多挑战,如:如何更好地理解上下文、如何准确匹配用户意图及如何提供个性化的回答。

    2、上下文信息聚合方法旨在利用用户对话中的历史信息,以增强系统对当前问题的理解和响应能力。传统的智能问答系统往往仅处理孤立的问题,忽略了对话的连续性,导致回答与用户实际需求不匹配。上下文信息聚合方法一般通过获取历史上下文信息,再根据其对当前用户问题进行改写。但是传统的获取历史上下文的方法通常使用规则的方式,例如专利号为cn113673256a专利文献的技术方案中,获取上下文的方式是通过“统计对话数据集合的对话信息中具有预设语义特征的答复信息的数量”以及“统计对话数据集合的对话信息中询问信息和对应答复信息的数量”来实现的。另外,传统的根据历史上下文对当前问题进行改写的方法通常使用的是先判断当前问题中缺失的部分,然后从历史上下文中进行填充。传统的上下文信息聚合的方法中,无论是获取历史上下文的方法还是根据历史上下文信息对当前问题进行改写的方法都偏向于语法分析、统计和规则的方式,缺乏泛用性,且人工维护成本较高。


    技术实现思路

    1、本发明的技术任务是提供一种基于上下文信息聚合的智能问答方法、系统、设备及介质,来解决现有的智能问答系统在处理用户连续提问时,往往忽略了前后语境,从而导致回答与用户意图不符或缺乏准确性以及传统上下文信息聚合方法中缺乏泛用性,人工维护成本高的问题。

    2、本发明的技术任务是按以下方式实现的,一种基于上下文信息聚合的智能问答方法,该方法具体如下:

    3、知识库构建:离线收集领域内知识数据,对知识数据进行预处理,将预处理后的数据进行向量化,将向量化的数据存储到向量知识库中;

    4、用户交互:接收用户输入的问题并展示回答结果;

    5、上下文管理:存储用户在当前对话中的全部历史对话记录到向量知识库中,计算历史对话记录中用户问题和回答与当前用户问题的相似度、距离权重、关键词重叠情况以及语义重要性;当加权相似度超过预设阈值时,则认为对应历史问题或回答与当前问题相关,并记录所在的问答对;

    6、上下文信息聚合:根据上下文管理过程中传递过来的相关上下文,利用提示工程构建提示词,借助大语言模型对当前用户问题进行改写;

    7、智能问答:根据相关上下文和当前用户问题,判断是否能够直接回答改写后的用户问题:

    8、若判定结果为是,则调用大语言模型,将历史对话和当前问题作为输入,生成直接回答;

    9、若判定结果为否,则将改写后的用户问题转化为向量,从离线构建的向量知识库中进行向量检索,获取相关的知识信息,再通过提示工程利用改写后的用户问题和检索结果构建提示词并输入大语言模型中获取模型回答。

    10、作为优选,对知识数据进行预处理具体如下:

    11、数据清洗:去除乱码及超链接无意义的文本数据,并对文本数据进行去重处理;

    12、切块:将长文本按照固定长度(例如250个字符)进行切块。

    13、作为优选,向量化采用bge-m3模型,bge-m3模型将文本转化为包含语义的向量表示;向量知识库采用milvus知识库,向量化数据的数据存储格式为(embedding,text)的形式;其中,embedding为向量数据;text是对应的文本数据。

    14、作为优选,存储用户在当前对话中的全部历史对话记录到向量知识库中具体如下:

    15、对用户提出的问题和对应问题的回答分别进行向量化,并以(embedding,question, answer)的三元组形式存储在向量库中;

    16、其中,当存储用户问题时,embedding为对应问题的向量数据;question为对应问题的文本数据;answer为对应问题对应的回答文本数据;

    17、当存储对应问题的回答时,embedding为对应回答的向量数据;question为对应回答对应的问题文本数据;answer为对应回答的文本数据。

    18、更优地,加权相似度(weighted similarity)是对相似度(similarity)、距离权重(weighted distance)、关键词重叠情况(words overlap)以及语义重要性(semanticimportance)的加权求和的结果;加权相似度的计算公式如下:

    19、;

    20、其中,ws表示加权相似度;s表示相似度;wd表示距离权重;wo表示关键词重叠情况;si表示语义重要性。

    21、更优地,相似度是指当前用户问题文本与历史对话记录中的问题或回答文本的向量相似度;向量相似度采用余弦相似度进行计算,余弦相似度计算公式如下:

    22、;

    23、其中,表示向量a和向量b的内积,即对应元素相乘再相加的结果;表示向量a的模,即向量a的长度,通过将向量a中每个元素的平方求和,再取平方根得到;表示向量b的模,即向量b的长度,通过将向量b中每个元素的平方求和,再取平方根得到;

    24、距离权重是指当前用户问题与历史对话记录中问答对的距离比重;具体地,当前问题与历史对话记录中问答对的距离越近,距离比重越高;距离权重表示为与距离成反比的量;距离权重公式如下:

    25、;

    26、其中, 表示当前用户问题与历史对话记录中第i个问答对的距离; 表示与第i个问答对相关的距离权重;

    27、为了确保所有权重总和为1(即归一化处理),定义归一化的距离权重,公式如下:

    28、;

    29、其中,n表示历史对话记录中的问答对总数。

    30、更优地,词重叠情况是指当前用户问题文本与历史对话记录中的问题或者答案的字符重合度;词重叠情况wo公式如下:

    31、;

    32、其中,表示当前用户的问题文本;表示历史对话记录中的某个问题文本;表示历史对话记录中的某个答案文本;表示当前问题文本与历史问题文本的字符重合部分的长度;表示当前问题文本与历史问题文本的字符总长度;表示当前问题文本与历史答案文本的字符重合部分的长度;表示当前问题文本与历史答案文本的字符总长度;

    33、语义重要性是指历史对话记录中的包含预定义的关键词个数,语义重要性si公式如下:

    34、;

    35、其中,表示历史对话记录中的某个问题文本;表示历史对话记录中的任一个答案文本;表示预定义的关键词集合;表示文本x中包含的预定义关键词的个数。

    36、一种基于上下文信息聚合的智能问答系统,该系统用于实现如上述的基于上下文信息聚合的智能问答方法;该系统包括:

    37、知识库构建模块,用于离线收集领域内知识数据,对知识数据进行预处理,将预处理后的数据进行向量化,将向量化的数据存储到向量知识库中;

    38、用户交互模块,用于接收用户输入的问题并展示回答结果;

    39、上下文管理模块,用于存储用户在当前对话中的全部历史对话记录到向量知识库中,计算历史对话记录中用户问题和回答与当前用户问题的相似度、距离权重、关键词重叠情况以及语义重要性;当加权相似度超过预设阈值时,则认为对应历史问题或回答与当前问题相关,并记录所在的问答对;

    40、上下文信息聚合模块,用于根据上下文管理过程中传递过来的相关上下文,利用提示工程构建提示词,借助大语言模型对当前用户问题进行改写;

    41、智能问答模块,用于根据相关上下文和当前用户问题,判断是否能够直接回答改写后的用户问题:

    42、若判定结果为是,则调用大语言模型,将历史对话和当前问题作为输入,生成直接回答;

    43、若判定结果为否,则将改写后的用户问题转化为向量,从离线构建的向量知识库中进行向量检索,获取相关的知识信息,再通过提示工程利用改写后的用户问题和检索结果构建提示词并输入大语言模型中获取模型回答。

    44、一种电子设备,包括:存储器和至少一个处理器;

    45、其中,所述存储器上存储有计算机程序;

    46、所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如上述的基于上下文信息聚合的智能问答方法。

    47、一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的基于上下文信息聚合的智能问答方法。

    48、本发明的基于上下文信息聚合的智能问答方法、系统、设备及介质具有以下优点:

    49、(一)本发明显著提升了问答系统的上下文理解能力和回答的准确性,为用户提供了更加丰富和贴心的问答体验,提升用户体验和系统回答的准确性;

    50、(二)本发明通过知识库构建、用户交互、上下文管理、上下文信息聚合和智能问答,实现了对用户历史对话的存储、相关上下文的提取、用户问题的改写以及智能回答,能够有效提高问答系统的准确性和响应速度,为用户提供更加精准和个性化的问答服务;

    51、(三)本发明利用了包括包含语义的向量、距离权重、词重叠、语义重要性在内的多个特征来获取相关的历史上下文,相比于传统的获取相关上下文方法,本发明利用了更深层次的语义关系,准确率更高;

    52、(四)本发明在上下文信息聚合方法中,利用大语言模型,通过提示工程的方式,将相关历史上下文的信息整合到用户的当前问题中;相比于传统的改写方法,本发明通过大语言模型整合生成改写后的问题,改写后的问题文本更加自然,更有逻辑,不仅提高了问题表述的准确性,还优化了后续回答的生成过程,创新性地解决了传统方法中上下文利用不充分的问题;

    53、(五)本发明整合了知识库构建、用户交互、上下文管理、问题改写、问答生成等多个模块,能够在多个步骤中优化问题理解和回答生成的过程,形成一个完整的智能问答工作流。


    技术特征:

    1.一种基于上下文信息聚合的智能问答方法,其特征在于,该方法具体如下:

    2.根据权利要求1所述的基于上下文信息聚合的智能问答方法,其特征在于,对知识数据进行预处理具体如下:

    3.根据权利要求1所述的基于上下文信息聚合的智能问答方法,其特征在于,向量化采用bge-m3模型,bge-m3模型将文本转化为包含语义的向量表示;向量知识库采用milvus知识库,向量化数据的数据存储格式为(embedding,text)的形式;其中,embedding为向量数据;text是对应的文本数据。

    4.根据权利要求1所述的基于上下文信息聚合的智能问答方法,其特征在于,存储用户在当前对话中的全部历史对话记录到向量知识库中具体如下:

    5.根据权利要求1-4中任一项所述的基于上下文信息聚合的智能问答方法,其特征在于,加权相似度是对相似度、距离权重、关键词重叠情况以及语义重要性的加权求和的结果;加权相似度的计算公式如下:

    6.根据权利要求5所述的基于上下文信息聚合的智能问答方法,其特征在于,相似度是指当前用户问题文本与历史对话记录中的问题或回答文本的向量相似度;向量相似度采用余弦相似度进行计算,余弦相似度计算公式如下:

    7.根据权利要求5所述的基于上下文信息聚合的智能问答方法,其特征在于,词重叠情况是指当前用户问题文本与历史对话记录中的问题或者答案的字符重合度;词重叠情况wo公式如下:

    8.一种基于上下文信息聚合的智能问答系统,其特征在于,该系统用于实现如权利要求1至7任一项所述的基于上下文信息聚合的智能问答方法;该系统包括:

    9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;

    10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至7中任一项所述的基于上下文信息聚合的智能问答方法。


    技术总结
    本发明公开了基于上下文信息聚合的智能问答方法、系统、设备及介质,属于自然语言处理技术领域,本发明要解决的技术问题为现有的智能问答系统在处理用户连续提问时,往往忽略了前后语境,从而导致回答与用户意图不符或缺乏准确性以及传统上下文信息聚合方法中缺乏泛用性,人工维护成本高,采用的技术方案为:知识库构建:离线收集领域内知识数据,对知识数据进行预处理,将预处理后的数据进行向量化,将向量化的数据存储到向量知识库中;用户交互:接收用户输入的问题并展示回答结果;上下文管理;上下文信息聚合;智能问答。

    技术研发人员:张思嘉,张其来,展恩昊,段强,姜凯,魏子重,李锐
    受保护的技术使用者:山东浪潮科学研究院有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-29142.html

    最新回复(0)