本发明涉及文本处理,尤其涉及一种大模型word文本分割器的设计方法。
背景技术:
1、随着人工智能技术的快速发展,大模型成为了当前研究的热点之一。大模型具有强大的表示学习能力和泛化能力,能够处理复杂的自然语言任务。通用大模型在企业的应用场景中具有一定的知识局限性,且对于企业来说,数据安全至关重要,一般企业都会要求在本地部署私有大模型,而不使用互联网环境。检索增强生成(rag)应运而生。其方案主要是实现对知识的结构化存储、智能检索和个性化推荐,从而提升工作效率和创新能力。对于这种企业知识库,相当于是在大模型的基础上,外挂了一个知识库,主要分成两个阶段如下
2、1、知识库准备阶段:即构建企业内部知识库。主要流程是:
3、(1)上传文档:将企业内部文档(例如企业的各种规章制度)上传到服务器。
4、(2)文档数据提取:程序对已上传文档的内容进行读取。
5、(3)文本分割:将已读取到的文档内容按照一定的规则进行拆分。常用的文本分割方式主要是按照字符、字符长度进行拆分。
6、(4)向量化:将拆分后的文本数据转换为向量矩阵。
7、(5)入库:将向量化后的数据保存到向量数据库。
8、2、知识库应用阶段:对用户回答的问题进行解答。主要流程是:
9、(1)用户提问:用户通过前端页面输入问题
10、(2)数据检索:根据用户问题进行数据检索,此处检索的是企业内部知识库的内容。
11、(3)生成提示语:将检索到的知识,和用户问题,生成提示语。
12、(4)提交大模型生成答案:将提示语提交给大模型,得到答案。提示语作为大模型的直接输入,是影响其生成答案准确性的重要影响因素。精心设计的提示能够有效引导模型输出更精确、相关性更高的回答。
13、在实践过程中发现,数据检索时,检索的知识段落字数过多或过长都会造成答案的错误。在知识段落字数过长时,内部含有的干扰信息会增多,造成大模型的幻觉。在知识段落字数过少时,有可能导致知识段落中不包含有效信息。而企业常用的知识文档一般为word格式。基于以上几点认为,对于构建知识库时,对于用户word文档的拆分显得尤为重要。如何让拆分后的段落知识中包含更多的有效信息、更少的无效信息,是需要解决的重点。
技术实现思路
1、为了解决以上技术问题,本发明提供了一种大模型word文本分割器的设计方法。能够准确识别文本中的标题,并根据标题层级关系自动生成目录文件。同时,在文章分割过程中,将标题信息融入到各个段落中,以便于后续的信息检索和内容管理,提高文本处理的效率和准确性。
2、本发明的技术方案是:
3、一种大模型word文本分割器的设计方法,包括标题识别、目录生成、文本分割,自动化地识别文本中的多级标题,生成目录文件,并在文本分割过程中将标题信息融入到各个段落中。
4、进一步的,
5、在文本分割过程中,自动识别文本中的标题信息,并构建标题层级结构;根据标题层级结构将文本分割成若干个段落。将标题路径信息添加到每个分割出的段落最前面,以增强段落的结构性和可追溯性。
6、再进一步的,
7、标题识别:识别word文本中的一级、二级、三级标题,识别方式分成两种:
8、(1)读取word段落样式,将段落样式是head开头的内容,认为是标题;按文档顺序依次读取即可;
9、(2)若段落样式中head的段落较少,这种情况可能是由于文本格式不标准。这种情况下,可判断段落中是否存在加粗文本;若存在加粗文本,可将加粗文本段落的第一句话,作为段落标题。
10、目录生成:根据标题识别的输出,自动生成目录文件,具体内容为:文档文件名\n一级标题\n二级标题\n三级标题,标题之间使用\n进行分割。将目录文件作为单独的文件进行向量化,应对标题列表作为类别答案,提供给用户。
11、文本分割:整个文档按照常规字符列表、字符长度进行分割;
12、分割时,按照固定字符“\n”,“\n\n”来进行分割,分割后,为每个分割后的段落添加前缀,格式为:(一级标题::二级标题::三级标题)+分割后的段落内容。若前缀字符串长度大于分割后的段落内容字符串的1/3,则认为过长,则只保留段落标题,即第三级标题。
13、本发明的有益效果是
14、提高了文本处理的自动化程度,减少了人工干预,降低了错误率。
15、通过准确识别和处理文本结构,提高了信息检索的效率和准确性。
16、生成的目录文件和分割段落具有高度的结构化,便于后续的内容管理和知识提取。
17、适用于各种类型的结构化文档,具有广泛的应用前景。
1.一种大模型word文本分割器的设计方法,其特征在于,
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求2所述的方法,其特征在于,
4.根据权利要求3所述的方法,其特征在于,
5.根据权利要求1所述的方法,其特征在于,
6.根据权利要求5所述的方法,其特征在于,
7.根据权利要求5或6所述的方法,其特征在于,
8.根据权利要求7所述的方法,其特征在于,