本技术涉及数据处理,具体来说涉及一种基于大模型的政策文本去噪与关联事项提取方法及系统。
背景技术:
1、政策文件的整理和分析是政府部门、研究机构以及企业在政策制定、研究和决策过程中至关重要的环节。传统的政策文件的整理和分析通常依靠领域专家进行人工处理,专家通过阅读、理解和归纳政策文本来提取关键信息和关联事项。这种方法虽然可以获得高质量的结果,但其效率低下,成本高昂,难以满足大规模政策文本处理的需求。此外,基于规则的政策文件处理方法可以依赖于预定义的规则和模板进行文本处理。该方法在处理格式化和结构化文本时效果较好,但在面对非结构化和复杂文本时,其效果显著下降。
2、随着机器学习技术的发展,基于机器学习的自然语言处理(naturallanguageprocessing,nlp)技术逐渐应用于政策文本处理。该方法通过训练模型来自动化识别和提取文本信息,极大地提高了处理效率。然而,传统的nlp和早期深度学习模型在语义理解和关联提取方面能力不足,难以处理复杂的政策文本关系。此外,由于政策发文来源于不同的地区和部门,不同级别、部门的政策侧重不同,现有技术难以消除噪音,且难以将不同级别的政策进行关联以提取合并信息并保持文本一致性。
技术实现思路
1、本发明的目的在于提供一种基于大模型的政策文本去噪与关联事项提取方法及系统,利用大模型和自然语言处理技术对政策文本进行分类和去噪,提高政策文本信息提取的准确性,减少了噪音干扰。
2、为实现上述目的,本发明公开了如下技术方案:
3、本发明一方面提供了一种基于大模型的政策文本去噪与关联事项提取方法,该方法包括以下步骤:
4、收集不同来源的政策文本,构建政策知识库;
5、利用大模型对所述政策知识库中的政策文本进行分类,所述大模型为基于自然语言处理技术的预训练语言模型;
6、从分类后的政策文本中提取具体的事项,并基于预定义的规则对提取的事项进行初步分解;
7、构建政策事项的关联度矩阵,所述关联度矩阵用于表示不同事项之间的关联度,将初步分解的事项与已分解入库的事项进行关联,并根据事项之间的相似度更新事项之间的协同矩阵;
8、基于已关联的事项进行政策关联,构建政策知识图谱,所述政策知识图谱用于表示政策文本中事项之间的关系。
9、可选地,上述的政策文本去噪与关联事项提取方法,还包括以下步骤:
10、复核事项之间的关联关系,复核过程包括专家评审和/或自动化检测,并将复核后的事项录入到标准化事项库中;
11、基于所述标准化事项库对所述大模型进行优化,所述优化过程包括调整模型参数和更新训练数据。
12、优选地,上述的方法中,所述收集不同来源的政策文本,构建政策知识库,包括:
13、收集政策文本,政策文本的来源包括政策文档、申报通知、学术文章及实施细则;
14、对收集的政策文本进行数据清洗处理,包括文本去重、去除无关信息及格式统一;
15、将清洗后的政策文本存储在政策知识库中,所述政策知识库为可查询数据库。
16、进一步的,上述的方法中,所述利用大模型对所述政策知识库中的政策文本进行分类,包括:
17、识别所述政策知识库中每个政策文本的关键特征,为不同类别的政策文本建立分类知识库;
18、将人工分类标注数据作为训练集对大模型进行训练,并利用训练后的大模型对政策文本进行预分类;
19、对大模型的预分类结果进行人工抽样核验,并对大模型评估准确率低的政策文本数据进行人工标注;
20、将经过人工标注后的政策文本数据作为训练集继续对大模型进行训练,以优化大模型的分类性能;
21、利用优化后的大模型对所述政策知识库中的政策文本进行自动分类。
22、进一步的,上述的方法中,所述从分类后的政策文本中提取具体的事项,并基于预定义的规则对提取的事项进行初步分解,包括:
23、确定用于识别和提取事项的关键词;
24、利用大模型对分类后的政策文本进行细粒度分析,识别出包含具体事项的段落或句子,并根据预定义的规则,从识别出的段落或句子中提取具体的事项,所述预定义规则包括识别事项的句型结构和术语;
25、通过自然语言处理nlp方法对提取的事项进行初步分解,得到政策事项文本。
26、进一步的,上述的方法中,所述构建政策事项的关联度矩阵,将初步分解的事项与已分解入库的事项进行关联,并根据事项之间的相似度更新事项之间的协同矩阵,包括:
27、将所述政策事项文本转换为特征向量;
28、使用聚类算法对所述特征向量进行聚类,得到不同类别的政策事项;
29、对每个聚类内部的政策事项,使用lsh方法计算两两政策事项之间的相似度,构建每个聚类内部的关联度矩阵;
30、对所述初步分解的事项,使用lsh方法基于其特征向量寻找相关聚类,计算其与所述相关聚类内已分解入库的事项的相似度,并根据所计算的相似度将所述初步分解的事项与已分解入库的事项进行关联;
31、根据所述初步分解的事项与其相关聚类内事项的相似度,采用哈希表动态更新事项之间的协同矩阵。
32、进一步的,上述的方法中,所述基于已关联的事项进行政策关联,构建政策知识图谱,包括:
33、在已建立的协同矩阵中提取事项之间的关系,包括相似度和/或关联度;
34、为每个政策事项创建一个节点,所述节点的属性包括事项的名称、内容和/或分类;
35、根据提取事项之间的关系在所述节点之间创建边,所述边的属性包括关系类型、相似度和/或关联度;
36、基于所述节点和所述边构建知识图谱,并将构建的知识图谱存储到图数据库中。
37、进一步的,上述的方法中,所述复核事项之间的关联关系,包括:
38、如果对提取的事项存在分解或者关联错误,则通过人工修改事项分解或者关联,或通过大模型重新进行事项分解或者关联。
39、本发明另一方面提供了一种基于大模型的政策文本去噪与关联事项提取系统,所述系统包括:
40、政策文本收集模块,用于收集不同来源的政策文本,构建政策知识库;
41、政策文本分类模块,用于利用大模型对所述政策知识库中的政策文本进行分类,所述大模型为基于自然语言处理技术的预训练语言模型;
42、事项提取分解模块,用于从分类后的政策文本中提取具体的事项,并基于预定义的规则对提取的事项进行初步分解;
43、矩阵构建更新模块,用于构建政策事项的关联度矩阵,所述关联度矩阵用于表示不同事项之间的关联度,将初步分解的事项与已分解入库的事项进行关联,并根据事项之间的相似度更新事项之间的协同矩阵;
44、知识图谱构建模块,用于基于已关联的事项进行政策关联,构建政策知识图谱,所述政策知识图谱用于表示政策文本中事项之间的关系。
45、本发明还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于大模型的政策文本去噪与关联事项提取方法。
46、
技术实现要素:
中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
47、本公开实施例提供的技术方案,首先通过构建政策知识库,将来自不同来源的政策文本进行集中管理;然后利用预训练的自然语言处理模型对政策文本进行分类和去噪,自动化识别和过滤掉无关或冗余的信息;接下来构建政策事项的关联度矩阵和协同矩阵,定量分析不同政策事项之间的关联度和相似度;然后基于已关联的事项构建政策知识图谱,直观地展示政策文本中事项之间的关系,帮助用户全面理解政策内容及其内在关联。本方案利用大模型和自然语言处理技术,通过对政策文本分类、去噪、提取事项和构建关联度,增强了政策信息的系统化管理和关联关系分析能力,提高了政策文本的处理和分析效率。
1.基于大模型的政策文本去噪与关联事项提取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,还包括以下步骤:
3.根据权利要求2所述的方法,其特征在于,所述收集不同来源的政策文本,构建政策知识库,包括:
4.根据权利要求3所述的方法,其特征在于,所述利用大模型对所述政策知识库中的政策文本进行分类,包括:
5.根据权利要求4所述的方法,其特征在于,所述从分类后的政策文本中提取具体的事项,并基于预定义的规则对提取的事项进行初步分解,包括:
6.根据权利要求5所述的方法,其特征在于,所述构建政策事项的关联度矩阵,将初步分解的事项与已分解入库的事项进行关联,并根据事项之间的相似度更新事项之间的协同矩阵,包括:
7.根据权利要求6所述的方法,其特征在于,所述基于已关联的事项进行政策关联,构建政策知识图谱,包括:
8.根据权利要求2-7任一项所述的方法,其特征在于,所述复核事项之间的关联关系,包括:
9.基于大模型的政策文本去噪与关联事项提取系统,其特征在于,所述系统包括:
10.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的基于大模型的政策文本去噪与关联事项提取方法。