一种大模型word文本分割器的设计方法与流程

    技术2025-02-08  54

    本发明涉及文本处理,尤其涉及一种大模型word文本分割器的设计方法。


    背景技术:

    1、随着人工智能技术的快速发展,大模型成为了当前研究的热点之一。大模型具有强大的表示学习能力和泛化能力,能够处理复杂的自然语言任务。通用大模型在企业的应用场景中具有一定的知识局限性,且对于企业来说,数据安全至关重要,一般企业都会要求在本地部署私有大模型,而不使用互联网环境。检索增强生成(rag)应运而生。其方案主要是实现对知识的结构化存储、智能检索和个性化推荐,从而提升工作效率和创新能力。对于这种企业知识库,相当于是在大模型的基础上,外挂了一个知识库,主要分成两个阶段如下

    2、1、知识库准备阶段:即构建企业内部知识库。主要流程是:

    3、(1)上传文档:将企业内部文档(例如企业的各种规章制度)上传到服务器。

    4、(2)文档数据提取:程序对已上传文档的内容进行读取。

    5、(3)文本分割:将已读取到的文档内容按照一定的规则进行拆分。常用的文本分割方式主要是按照字符、字符长度进行拆分。

    6、(4)向量化:将拆分后的文本数据转换为向量矩阵。

    7、(5)入库:将向量化后的数据保存到向量数据库。

    8、2、知识库应用阶段:对用户回答的问题进行解答。主要流程是:

    9、(1)用户提问:用户通过前端页面输入问题

    10、(2)数据检索:根据用户问题进行数据检索,此处检索的是企业内部知识库的内容。

    11、(3)生成提示语:将检索到的知识,和用户问题,生成提示语。

    12、(4)提交大模型生成答案:将提示语提交给大模型,得到答案。提示语作为大模型的直接输入,是影响其生成答案准确性的重要影响因素。精心设计的提示能够有效引导模型输出更精确、相关性更高的回答。

    13、在实践过程中发现,数据检索时,检索的知识段落字数过多或过长都会造成答案的错误。在知识段落字数过长时,内部含有的干扰信息会增多,造成大模型的幻觉。在知识段落字数过少时,有可能导致知识段落中不包含有效信息。而企业常用的知识文档一般为word格式。基于以上几点认为,对于构建知识库时,对于用户word文档的拆分显得尤为重要。如何让拆分后的段落知识中包含更多的有效信息、更少的无效信息,是需要解决的重点。


    技术实现思路

    1、为了解决以上技术问题,本发明提供了一种大模型word文本分割器的设计方法。能够准确识别文本中的标题,并根据标题层级关系自动生成目录文件。同时,在文章分割过程中,将标题信息融入到各个段落中,以便于后续的信息检索和内容管理,提高文本处理的效率和准确性。

    2、本发明的技术方案是:

    3、一种大模型word文本分割器的设计方法,包括标题识别、目录生成、文本分割,自动化地识别文本中的多级标题,生成目录文件,并在文本分割过程中将标题信息融入到各个段落中。

    4、进一步的,

    5、在文本分割过程中,自动识别文本中的标题信息,并构建标题层级结构;根据标题层级结构将文本分割成若干个段落。将标题路径信息添加到每个分割出的段落最前面,以增强段落的结构性和可追溯性。

    6、再进一步的,

    7、标题识别:识别word文本中的一级、二级、三级标题,识别方式分成两种:

    8、(1)读取word段落样式,将段落样式是head开头的内容,认为是标题;按文档顺序依次读取即可;

    9、(2)若段落样式中head的段落较少,这种情况可能是由于文本格式不标准。这种情况下,可判断段落中是否存在加粗文本;若存在加粗文本,可将加粗文本段落的第一句话,作为段落标题。

    10、目录生成:根据标题识别的输出,自动生成目录文件,具体内容为:文档文件名\n一级标题\n二级标题\n三级标题,标题之间使用\n进行分割。将目录文件作为单独的文件进行向量化,应对标题列表作为类别答案,提供给用户。

    11、文本分割:整个文档按照常规字符列表、字符长度进行分割;

    12、分割时,按照固定字符“\n”,“\n\n”来进行分割,分割后,为每个分割后的段落添加前缀,格式为:(一级标题::二级标题::三级标题)+分割后的段落内容。若前缀字符串长度大于分割后的段落内容字符串的1/3,则认为过长,则只保留段落标题,即第三级标题。

    13、本发明的有益效果是

    14、提高了文本处理的自动化程度,减少了人工干预,降低了错误率。

    15、通过准确识别和处理文本结构,提高了信息检索的效率和准确性。

    16、生成的目录文件和分割段落具有高度的结构化,便于后续的内容管理和知识提取。

    17、适用于各种类型的结构化文档,具有广泛的应用前景。



    技术特征:

    1.一种大模型word文本分割器的设计方法,其特征在于,

    2.根据权利要求1所述的方法,其特征在于,

    3.根据权利要求2所述的方法,其特征在于,

    4.根据权利要求3所述的方法,其特征在于,

    5.根据权利要求1所述的方法,其特征在于,

    6.根据权利要求5所述的方法,其特征在于,

    7.根据权利要求5或6所述的方法,其特征在于,

    8.根据权利要求7所述的方法,其特征在于,


    技术总结
    本发明提供一种大模型word文本分割器的设计方法,属于文本处理技术领域,本发明包括标题识别、目录生成、文本分割,自动化地识别文本中的多级标题,生成目录文件,并在文本分割过程中将标题信息融入到各个段落中。确保每个段落都与其标题层级紧密关联。这种方法通过减少无效信息干扰,提高了大模型处理相关问题的准确性,支持企业利用人工智能技术实现知识管理和应用的高效化。

    技术研发人员:谢文倩,刘存喜,李廷
    受保护的技术使用者:浪潮云信息技术股份公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-26148.html

    最新回复(0)