本公开涉及数据处理,尤其涉及一种基于大模型的信息提取方法、装置及电子设备。
背景技术:
1、项目评估是银行对借款人申请使用贷款的固定资产建设项目,从项目建设的必要性、技术的先进合理性、财务效益、银行收益及潜在风险等方面进行全面系统的分析论证,为贷款决策提供意见和建议的工作过程。项目评估形成的主要成果是项目评估报告,为信贷决策提供重要参考和建议;项目评估报告通常以word文档提交到系统,是非结构化数据。
2、为跟踪项目评估的撰写质量和为后续项目相关模型的建立提供基础数据,需要从项目评估报告中提取相关的信息和指标;目前进行信息提取的方法成本较高,且针对文档中的表格信息无法很好的解析,信息提取效果较差。
技术实现思路
1、本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
2、本公开第一方面实施例提出了一种基于大模型的信息提取方法,所述方法包括:
3、对项目评估报告进行解析,得到文本部分和表格部分,并基于预设的模板分别从所述文本部分中提取各指标对应的文本片段,以及从所述表格部分中提取各指标对应的表格;
4、获取所述指标对应的文本片段和提示词prompt生成所述指标对应的大模型的第一输入信息,由大模型基于各指标的所述第一输入信息确定第一问答信息集;
5、获取所述指标对应的表格和prompt生成所述指标对应的大模型的第二输入信息,由大模型基于各指标的所述第二输入信息确定第二问答信息集;
6、根据所述第一问答信息集和所述第二问答信息集,获取所述项目评估报告的结构化数据,对所述项目评估报告的结构化数据进行存储。
7、本公开第二方面实施例提出了一种基于大模型的信息提取装置,所述装置包括:
8、第一获取模块,用于对项目评估报告进行解析,得到文本部分和表格部分,并基于预设的模板分别从所述文本部分中提取各指标对应的文本片段,以及从所述表格部分中提取各指标对应的表格;
9、第二获取模块,用于获取所述指标对应的文本片段和提示词prompt生成所述指标对应的大模型的第一输入信息,由大模型基于各指标的所述第一输入信息确定第一问答信息集;
10、第三获取模块,用于获取所述指标对应的表格和prompt生成所述指标对应的大模型的第二输入信息,由大模型基于各指标的所述第二输入信息确定第二问答信息集;
11、第四获取模块,用于根据所述第一问答信息集和所述第二问答信息集,获取所述项目评估报告的结构化数据,对所述项目评估报告的结构化数据进行存储。
12、本公开第三方面实施例提出了一种电子设备,包括:
13、至少一个处理器;以及
14、与至少一个处理器通信连接的存储器;其中,
15、存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开第一方面实施例中提供的基于大模型的信息提取方法。
16、本公开第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机指令,其中,计算机指令用于使计算机执行根据本公开第一方面实施例中提供的基于大模型的信息提取方法。
17、本公开第五方面实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开第一方面实施例中提供的基于大模型的信息提取方法。
18、本申请通过对项目评估报告进行解析,确定文本部分和表格部分,进一步基于文本部分确定指标的文本片段,基于表格部分确定指标的表格,根据指标的文本片段和指标的表格与对应的prompt得到对应的第一输入信息和第二输入信息,由大模型对第一输入信息和第二输入信息进行处理,确定第一问答信息集和第二问答信息集,进而根据第一问答信息集和第二问答信息集提取项目评估报告的结构化数据并进行存储,能够满足不同场景的信息提取需求,且信息提取过程更加高效,信息提取结果更加准确。
1.一种基于大模型的信息提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述指标对应的文本片段的提取过程,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述指标对应的文本片段的提取过程,包括:
4.根据权利要求3所述的方法,其特征在于,所述获取所述指标对应的文本片段和所述指标的提示词生成所述指标对应的大模型的第一输入信息,包括:
5.根据权利要求1所述的方法,其特征在于,所述指标对应的表格的提取过程,包括:
6.根据权利要求5所述的方法,其特征在于,所述获取所述指标对应的表格和prompt生成所述指标对应的大模型的第二输入信息,包括:
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述根据所述第一问答信息集和所述第二问答信息集,获取所述项目评估报告的结构化数据,包括:
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
9.根据权利要求7所述的方法,其特征在于,所述基于低秩适应lora网络和所述微调样本数据,对所述大模型进行微调,包括:
10.根据权利要求1所述的方法,其特征在于,所述对项目评估报告进行解析,得到文本部分和表格部分之前,还包括:
11.根据权利要求2所述的方法,其特征在于,所述文本部分的定位信息列表的获取过程,包括:
12.一种基于大模型的信息提取装置,其特征在于,包括:
13.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-11中任一项所述的方法。
15.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-11中任一项所述的方法。