一种大模型word文本分割器的设计方法与流程

技术2025-02-08 60

本发明涉及文本处理，尤其涉及一种大模型word文本分割器的设计方法。

背景技术：

1、随着人工智能技术的快速发展，大模型成为了当前研究的热点之一。大模型具有强大的表示学习能力和泛化能力，能够处理复杂的自然语言任务。通用大模型在企业的应用场景中具有一定的知识局限性，且对于企业来说，数据安全至关重要，一般企业都会要求在本地部署私有大模型，而不使用互联网环境。检索增强生成(rag)应运而生。其方案主要是实现对知识的结构化存储、智能检索和个性化推荐，从而提升工作效率和创新能力。对于这种企业知识库，相当于是在大模型的基础上，外挂了一个知识库，主要分成两个阶段如下

2、1、知识库准备阶段：即构建企业内部知识库。主要流程是：

3、(1)上传文档：将企业内部文档(例如企业的各种规章制度)上传到服务器。

4、(2)文档数据提取：程序对已上传文档的内容进行读取。

5、(3)文本分割：将已读取到的文档内容按照一定的规则进行拆分。常用的文本分割方式主要是按照字符、字符长度进行拆分。

6、(4)向量化：将拆分后的文本数据转换为向量矩阵。

7、(5)入库：将向量化后的数据保存到向量数据库。

8、2、知识库应用阶段：对用户回答的问题进行解答。主要流程是：

9、(1)用户提问：用户通过前端页面输入问题

10、(2)数据检索：根据用户问题进行数据检索，此处检索的是企业内部知识库的内容。

11、(3)生成提示语：将检索到的知识，和用户问题，生成提示语。

12、(4)提交大模型生成答案：将提示语提交给大模型，得到答案。提示语作为大模型的直接输入，是影响其生成答案准确性的重要影响因素。精心设计的提示能够有效引导模型输出更精确、相关性更高的回答。

13、在实践过程中发现，数据检索时，检索的知识段落字数过多或过长都会造成答案的错误。在知识段落字数过长时，内部含有的干扰信息会增多，造成大模型的幻觉。在知识段落字数过少时，有可能导致知识段落中不包含有效信息。而企业常用的知识文档一般为word格式。基于以上几点认为，对于构建知识库时，对于用户word文档的拆分显得尤为重要。如何让拆分后的段落知识中包含更多的有效信息、更少的无效信息，是需要解决的重点。

技术实现思路

1、为了解决以上技术问题，本发明提供了一种大模型word文本分割器的设计方法。能够准确识别文本中的标题，并根据标题层级关系自动生成目录文件。同时，在文章分割过程中，将标题信息融入到各个段落中，以便于后续的信息检索和内容管理，提高文本处理的效率和准确性。

2、本发明的技术方案是：

3、一种大模型word文本分割器的设计方法，包括标题识别、目录生成、文本分割，自动化地识别文本中的多级标题，生成目录文件，并在文本分割过程中将标题信息融入到各个段落中。

4、进一步的，

5、在文本分割过程中，自动识别文本中的标题信息，并构建标题层级结构；根据标题层级结构将文本分割成若干个段落。将标题路径信息添加到每个分割出的段落最前面，以增强段落的结构性和可追溯性。

6、再进一步的，

7、标题识别：识别word文本中的一级、二级、三级标题，识别方式分成两种：

8、(1)读取word段落样式，将段落样式是head开头的内容，认为是标题；按文档顺序依次读取即可；

9、(2)若段落样式中head的段落较少，这种情况可能是由于文本格式不标准。这种情况下，可判断段落中是否存在加粗文本；若存在加粗文本，可将加粗文本段落的第一句话，作为段落标题。

10、目录生成：根据标题识别的输出，自动生成目录文件，具体内容为：文档文件名\n一级标题\n二级标题\n三级标题，标题之间使用\n进行分割。将目录文件作为单独的文件进行向量化，应对标题列表作为类别答案，提供给用户。

11、文本分割：整个文档按照常规字符列表、字符长度进行分割；

12、分割时，按照固定字符“\n”,“\n\n”来进行分割，分割后，为每个分割后的段落添加前缀，格式为：(一级标题::二级标题::三级标题)+分割后的段落内容。若前缀字符串长度大于分割后的段落内容字符串的1/3，则认为过长，则只保留段落标题，即第三级标题。

13、本发明的有益效果是

14、提高了文本处理的自动化程度，减少了人工干预，降低了错误率。

15、通过准确识别和处理文本结构，提高了信息检索的效率和准确性。

16、生成的目录文件和分割段落具有高度的结构化，便于后续的内容管理和知识提取。

17、适用于各种类型的结构化文档，具有广泛的应用前景。

技术特征：

1.一种大模型word文本分割器的设计方法，其特征在于，

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求1所述的方法，其特征在于，

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求5或6所述的方法，其特征在于，

8.根据权利要求7所述的方法，其特征在于，

技术总结
本发明提供一种大模型word文本分割器的设计方法，属于文本处理技术领域，本发明包括标题识别、目录生成、文本分割，自动化地识别文本中的多级标题，生成目录文件，并在文本分割过程中将标题信息融入到各个段落中。确保每个段落都与其标题层级紧密关联。这种方法通过减少无效信息干扰，提高了大模型处理相关问题的准确性，支持企业利用人工智能技术实现知识管理和应用的高效化。

技术研发人员：谢文倩,刘存喜,李廷
受保护的技术使用者：浪潮云信息技术股份公司
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-26148.html

专利

最新回复(0)