文本处理方法、装置、电子设备及存储介质与流程

    技术2025-01-16  45


    本申请涉及计算机,尤其涉及一种文本处理方法、装置、电子设备及存储介质。


    背景技术:

    1、政府留言板是公众与政府之间沟通交流的重要渠道,对留言涉及的内容按照重要程度或紧急程度进行有效地分类,对于后续精确回复留言具有重要作用,可以提高政府的公信力和服务水平,增强公众的满意度和信任度。现有分类方案主要包括三类,1、关键词分类处理,通过正则匹配等方式进行分类处理;2、基于传统自然语言处理(natural languageprocessing,nlp)模型分类处理,如双向编码器表示(bidirectional encoderrepresentations from transformers,bert)等文本分类模型;3、大模型直接识别留言内容进行分类,采用大语言模型通过自然语言提问的方式进行文本分类。上述三种方案存在主要问题如下:

    2、1、关键词分类准确率低:采用固定的关键词匹配方式,无法覆盖各类使用场景,导致总体分类准确率低,泛化性差。

    3、2、传统nlp模型需专门标注训练数据,泛化性差:传统nlp模型需要精确标注的专业化训练数据才能适配实际应用场景的留言内容,在实际应用中,标注训练数据既费时又费力,且对于未涉及的领域存在泛化性差的问题。

    4、3、大模型直接识别留言内容进行分类,难以匹配用户定义的分级标准:虽然大型语言模型在理解复杂文本上有优秀表现,但用于留言的个性化分级分类时,由于没有先验知识,无法适配自定义分级标准,导致分类准确性差。


    技术实现思路

    1、为解决相关技术问题,本申请实施例提供一种文本处理方法、装置、电子设备及存储介质。

    2、本申请实施例的技术方案是这样实现的:

    3、本申请实施例提供了一种文本处理方法,包括:

    4、获取留言的第一文本;

    5、采用预设的第一大语言模型(large language model,llm)对所述第一文本进行识别,得到所述第一文本中的情感信息和事件信息;

    6、采用预设的拟合算法对所述情感信息和所述事件信息进行拟合,得到所述第一文本的评估结果;所述评估结果用于表征对所述留言进行处理的紧急程度。

    7、上述方案中,所述第一llm包括识别情感类要素的第一模型和识别事件类要素的第二模型,所述采用预设的大语言模型llm对所述第一文本进行识别,得到所述第一文本中的情感信息和事件信息,包括:

    8、采用所述第一模型对所述第一文本进行识别,得到所述第一文本中的情感信息;

    9、采用所述第二模型对所述第一文本进行识别,得到所述第一文本中的事件信息。

    10、上述方案中,所述方法还包括:

    11、获取已知的情感类型数据、情感极性数据、事件类型数据和事件领域数据;

    12、利用所述情感类型数据和所述情感极性数据对初始的第二大语言模型llm进行训练,得到所述第一模型;

    13、利用所述事件类型数据和所述事件领域数据对所述第二llm进行训练,得到所述第二模型。

    14、上述方案中,所述情感信息包括情感极性参数和情感类型参数;所述情感极性参数表征情感的强弱程度;所述事件信息包括事件类型参数和事件领域参数;所述采用预设的拟合算法对所述情感信息和所述事件信息进行拟合,得到所述第一文本的评估结果,包括:

    15、采用预设的拟合算法对所述情感极性参数、所述情感类型参数、所述事件类型参数和所述事件领域参数进行加权拟合,得到所述第一文本的评估结果。

    16、上述方案中,所述采用预设的拟合算法对所述情感极性参数、所述情感类型参数、所述事件类型参数和所述事件领域参数进行加权拟合,得到所述第一文本的评估结果,包括:

    17、采用预设的拟合算法确定所述情感极性参数的第一权重因子、所述情感类型参数的第二权重因子、所述事件类型参数的第三权重因子和所述事件领域参数的第四权重因子;

    18、基于所述第一权重因子、所述第二权重因子、所述第三权重因子、所述第四权重因子、所述情感极性参数、所述情感类型参数、所述事件类型参数和所述事件领域参数确定所述第一文本的评分;

    19、根据所述第一文本的评分确定所述第一文本的评估结果。

    20、上述方案中,所所述评估结果至少包括第一级别的第一评估结果和第二级别的第二评估结果;所述第一级别的优先级高于第二级别的优先级;所述根据所述第一文本的评分确定所述第一文本的评估结果,包括:

    21、在所述第一文本的评分满足所述第一级别对应的分值区间的情况下,确定所述第一文本为所述第一评估结果;所述第一评估结果用于表征对所述留言进行优先处理;

    22、在所述第一文本的评分满足所述第二级别对应的分值区间的情况下,确定所述第一文本为所述第二评估结果;所述第二评估结果用于表征对所述留言不进行优先处理。

    23、上述方案中,所述情感极性参数包括以下至少之一:

    24、负面情感信息;

    25、中性情感信息;

    26、正面情感信息。

    27、本申请实施例还提供了一种文本处理装置,包括:

    28、获取单元,用于获取留言的第一文本;

    29、识别单元,用于采用预设的第一llm对所述第一文本进行识别,得到所述第一文本中的情感信息和事件信息;

    30、拟合单元,用于采用预设的拟合算法对所述情感信息和所述事件信息进行拟合,得到所述第一文本的评估结果;所述评估结果用于表征对所述留言进行处理的紧急程度。

    31、本申请实施例还提供了一种电子设备,包括:

    32、存储器,用于存储可执行指令;

    33、处理器,用于执行所述存储器中存储的可执行指令时,实现上述所述方法的任一步骤。

    34、本申请实施例还提供一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现上述所述方法的任一步骤。

    35、本申请实施例提供的文本处理方法、装置、电子设备及存储介质,其中,方法包括:获取留言的第一文本;采用预设的第一llm对所述第一文本进行识别,得到所述第一文本中的情感信息和事件信息;采用预设的拟合算法对所述情感信息和所述事件信息进行拟合,得到所述第一文本的评估结果;所述评估结果用于表征对所述留言进行处理的紧急程度,本申请实施例的方案,通过采用预设的第一llm对留言的第一文本进行识别,得到第一文本中的情感信息和事件信息;采用预设的拟合算法对情感信息和事件信息进行拟合,得到所述第一文本表征对所述留言进行处理的紧急程度评估结果;即通过包括情感信息和事件信息等相关因素,能够对留言内容进行更细致和全面的分析,提高分类的准确性和有效性;通过预设的拟合算法,提升各关键因素识别准确率,能够利用大语言模型的强大表达能力和泛化能力,减少对专门标注训练数据的依赖,降低训练成本和时间;通过拟合处理,提高评估的灵活性和适应性。



    技术特征:

    1.一种文本处理方法,其特征在于,包括:

    2.根据权利要求1所述的方法,其特征在于,所述第一llm包括识别情感类要素的第一模型和识别事件类要素的第二模型,所述采用预设的大语言模型llm对所述第一文本进行识别,得到所述第一文本中的情感信息和事件信息,包括:

    3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

    4.根据权利要求1-3任一项所述的方法,其特征在于,所述情感信息包括情感极性参数和情感类型参数;所述情感极性参数表征情感的强弱程度;所述事件信息包括事件类型参数和事件领域参数;所述采用预设的拟合算法对所述情感信息和所述事件信息进行拟合,得到所述第一文本的评估结果,包括:

    5.根据权利要求4所述的方法,其特征在于,所述采用预设的拟合算法对所述情感极性参数、所述情感类型参数、所述事件类型参数和所述事件领域参数进行加权拟合,得到所述第一文本的评估结果,包括:

    6.根据权利要求5所述的方法,其特征在于,所述评估结果至少包括第一级别的第一评估结果和第二级别的第二评估结果;所述第一级别的优先级高于第二级别的优先级;所述根据所述第一文本的评分确定所述第一文本的评估结果,包括:

    7.根据权利要求5所述的方法,其特征在于,所述情感极性参数包括以下至少之一:

    8.一种文本处理装置,其特征在于,包括:

    9.一种电子设备,其特征在于,包括:

    10.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至7任一项所述的文本处理方法。


    技术总结
    本申请公开了一种文本处理方法、装置、电子设备及存储介质。其中,方法包括:获取留言的第一文本;采用预设的第一大语言模型(LLM)对所述第一文本进行识别,得到所述第一文本中的情感信息和事件信息;采用预设的拟合算法对所述情感信息和所述事件信息进行拟合,得到所述第一文本的评估结果;所述评估结果用于表征对所述留言进行处理的紧急程度。

    技术研发人员:刘伟东,高东辉,黄艳华,刘硕,焦若丹,段宣翡
    受保护的技术使用者:中国移动通信有限公司研究院
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-25080.html

    最新回复(0)