本发明涉及人工智能,具体为一种基于大语言模型的数据查询和可视化方法及系统。
背景技术:
1、随着大数据时代的到来,数据查询与可视化分析在政府和企业等工作领域中的应用越来越广泛。然而,传统的数据查询和分析方式需要用户具备一定的专业知识和技能,无法满足非专业人士的需求,对业务人员的专业技能要求较高。
2、在筛选数据表方面,用户需要人工选择数据表和查询字段,这个过程不仅繁琐,而且容易出错。特别是在面对复杂的数据库结构时,用户需要具备一定的数据库专业知识和技能,才能够准确地选择到所需的数据表。在数据查询方面,用户需要编写sql语句来执行查询任务。对于非专业人士来说,编写正确的sql语句是一大挑战,即使是专业人士,也可能会因为sql语句的错误而导致查询结果不准确或无法查询到结果。在数据可视化展示方面,单一的可视化展示形式难以满足不同用户的需求,也无法直观地展示数据的复杂性和多样性,展示多样的数据形式往往需要用到编程语言或bi等可视化工具,对于非专业人士来说,熟练掌握这些专业技能也是一个较高的要求。
3、因此,有必要研究一种数据查询和可视化方法将数据查询与可视化过程全自动执行,满足非专业人士的数据查询和可视化需求,更好、更高效地开展数据分析工作。
技术实现思路
1、本发明的目的在于提供一种基于大语言模型的数据查询和可视化方法及系统,以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:一种基于大语言模型的数据查询和可视化方法,所述方法包括以下步骤:
3、筛选数据表,用于更加精准地生成sql语句;
4、生成sql语句,将用户查询问题转化为sql语句;
5、执行sql语句,在数据库中执行生成的sql语句,并做进一步处理;
6、数据可视化,将查询到的数据转化为多种类型的可视化图表。
7、优选的,筛选数据表的具体操作包括:
8、用textrank关键词提取算法提取关键词,选取top-k个关键词;
9、对查询问题、关键词序列以及表的schema序列进行向量编码;
10、分别计算问题向量与schema向量、关键词序列向量与schema向量的相似度并将二者加权求和,筛选出相似度达到一定阈值的表,相似度方法为余弦相似度。
11、优选的,生成sql语句的具体操作包括:
12、增量预训练,先构建sql代码数据集,再清洗数据,然后基于codellama34b模型进行增量预训练;
13、指令微调,先构建text2sql问答数据集,再清洗数据,然后基于增量预训练后的模型采用高效微调方法lora进行微调,最后进行模型评估与优化;
14、sql生成,将用户查询问题和筛选到的数据表的schema传入上述模型中,生成可执行的sql查询语句。
15、优选的,执行sql语句的具体操作包括:
16、接收sql语句并建立数据库连接,抽取表名及备注、字段名及备注,并存储;
17、在数据库查询数据,将查询结果返回给系统;
18、处理表头,重点是日期时间类型和涉及统计计算的字段,将数据按照字段对应的表头和数据拼接成字典并存储进列表。
19、优选的,数据可视化的具体操作包括:
20、数据预处理和数据映射,其中支持多种数据可视化类型;
21、生成可视化图表,并在同一系统的前端界面展示,支持动态更新数据内容和设置图表交互功能。
22、一种基于大语言模型的数据查询和可视化系统,所述系统由筛选模块、语句生成模块、语句执行模块以及数据展示模块组成;
23、筛选模块,筛选数据表,用于更加精准地生成sql语句;
24、语句生成模块,生成sql语句,将用户查询问题转化为sql语句;
25、语句执行模块,执行sql语句,在数据库中执行生成的sql语句,并做进一步处理;
26、数据展示模块,数据可视化,将查询到的数据转化为多种类型的可视化图表。
27、优选的,所述筛选模块,用textrank关键词提取算法提取关键词,选取top-k个关键词;
28、对查询问题、关键词序列以及表的schema序列进行向量编码;
29、分别计算问题向量与schema向量、关键词序列向量与schema向量的相似度并将二者加权求和,筛选出相似度达到一定阈值的表,相似度方法为余弦相似度。
30、优选的,所述语句生成模块,包括增量预训练,先构建sql代码数据集,再清洗数据,然后基于codellama 34b模型进行增量预训练;
31、指令微调,先构建text2sql问答数据集,再清洗数据,然后基于增量预训练后的模型采用高效微调方法lora进行微调,最后进行模型评估与优化;
32、sql生成,将用户查询问题和筛选到的数据表的schema传入上述模型中,生成可执行的sql查询语句。
33、优选的,所述语句执行模块,接收sql语句并建立数据库连接,抽取表名及备注、字段名及备注,并存储;
34、在数据库查询数据,将查询结果返回给系统;
35、处理表头,重点是日期时间类型和涉及统计计算的字段,将数据按照字段对应的表头和数据拼接成字典并存储进列表。
36、优选的,所述数据展示模块,数据预处理和数据映射,其中支持多种数据可视化类型;
37、生成可视化图表,并在同一系统的前端界面展示,支持动态更新数据内容和设置图表交互功能。
38、与现有技术相比,本发明的有益效果是:
39、本发明提出的基于大语言模型的数据查询和可视化方法及系统,通过使用大语言模型,用户可以以自然语言的形式输入查询需求,从而避免了传统数据查询中需要用户手动选择数据表和编写sql语句的繁琐过程;无需用户具备深厚的数据库知识和编程技能,即可实现高效的数据查询和可视化展示,使得非专业人士也能轻松进行数据分析;支持多种数据可视化展示形式,能够满足不同用户的个性化需求,更直观、更全面地展示数据的特征;将数据查询与可视化过程集成在一个系统中,自动化的处理过程大大提高了数据分析工作的效率,节省了人力和时间成本。
1.一种基于大语言模型的数据查询和可视化方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种基于大语言模型的数据查询和可视化方法,其特征在于:筛选数据表的具体操作包括:
3.根据权利要求1所述的一种基于大语言模型的数据查询和可视化方法,其特征在于:生成sql语句的具体操作包括:
4.根据权利要求1所述的一种基于大语言模型的数据查询和可视化方法,其特征在于:执行sql语句的具体操作包括:
5.根据权利要求1所述的一种基于大语言模型的数据查询和可视化方法,其特征在于:数据可视化的具体操作包括:
6.一种根据权利要求1-5任意一项所述的基于大语言模型的数据查询和可视化方法的基于大语言模型的数据查询和可视化系统,其特征在于:所述系统由筛选模块、语句生成模块、语句执行模块以及数据展示模块组成;
7.根据权利要求6所述的一种基于大语言模型的数据查询和可视化系统,其特征在于:所述筛选模块,用textrank关键词提取算法提取关键词,选取top-k个关键词;
8.根据权利要求6所述的一种基于大语言模型的数据查询和可视化系统,其特征在于:所述语句生成模块,包括增量预训练,先构建sql代码数据集,再清洗数据,然后基于codellama 34b模型进行增量预训练;
9.根据权利要求6所述的一种基于大语言模型的数据查询和可视化系统,其特征在于:所述语句执行模块,接收sql语句并建立数据库连接,抽取表名及备注、字段名及备注,并存储;
10.根据权利要求6所述的一种基于大语言模型的数据查询和可视化系统,其特征在于:所述数据展示模块,数据预处理和数据映射,其中支持多种数据可视化类型;
