本发明涉及数据处理,具体而言,涉及一种基于大模型的高后果区风险评价报告编写方法。
背景技术:
1、随着工业化进程的不断推进,管道系统在石油、天然气、水资源管理等多个领域得到了广泛应用。然而,管道运行过程中由于各种外部环境和内部压力的变化,易出现异常情况,如温度、压力、流量或振动等数据的异常波动。为了确保管道的安全运行和及时处理异常情况,对油气管道高后果区每年均需要进行风险评价,以辨识埋地油气管道周边的风险。
2、但是,目前的风险评价过程通常是手动进行的,需要专业人员根据周边环境因素、相关标准和规定进行评估,然后编制评价报告。这种手动评价流程耗时耗力,容易出现人为误差,且无法及时反映最新的周边环境变化,存在信息不完整或者重复劳动的风险。同时,手动编制评价报告需要耗费大量时间和精力,且可能存在报告格式、内容统一性不足等问题。这种低效率的报告编制过程可能延迟了评价结果的发布,影响了后续的决策和应对措施的实施。
3、因此,有必要设计一种基于大模型的高后果区风险评价报告编写方法用以解决当前技术中存在的问题。
技术实现思路
1、鉴于此,本发明提出了一种基于大模型的高后果区风险评价报告编写方法,旨在解决当前高后果区风险评价报告编写费时费力,且报告准确性较低易受人为影响的问题。
2、本发明提出了一种基于大模型的高后果区风险评价报告编写方法,包括:
3、基于大数据采集若干风险评价报告,提取每一所述风险评价报告的关键字,并根据所述关键字计算报告特征值,根据所述报告特征值将若干所述风险评价报告划分模板等级;
4、采集待检测管道的运行数据,识别所述运行数据中的异常数据,并基于随机森林模型获得所述待检测管道的风险预测值;
5、根据所述风险预测值确定区域统计范围,根据所述区域统计范围内的统计数据判断是否对所述风险预测值进行调整,获得最终风险预测值;
6、根据所述最终风险预测值确定评价报告编写模板对应的模板等级,在确定对应的模板等级后,获得所述异常数据与对应的模板等级内的每一模板的匹配度,根据所述匹配度确定风险评价报告编写模板;
7、将所述异常数据填入所述风险评价报告编写模板。
8、进一步的,提取每一所述风险评价报告的关键字,并根据所述关键字计算报告特征值时,包括:
9、计算所述风险评价报告内关键字的词频和逆文档频率,根据所述词频和逆文档频率获得每一所述关键字的tf-idf值;
10、对所述关键字的tf-idf值加权平均后获得所述报告特征值。
11、进一步的,根据所述报告特征值将若干所述风险评价报告划分模板等级时,包括:
12、s1:初始化k个质心,分配每一份风险评价报告到最近的质心,形成k个簇;
13、s2:重新计算每个簇的质心;
14、s3:重复s1和s2直到质心不再变化或重复完成预设次数;
15、s4:将每个簇的质心作为该簇的特征值;
16、质心计算公式如下:
17、;
18、其中,zk表示第k个簇的质心,表示第k个簇中的报告数,ti表示第i份报告的特征向量。
19、进一步的,根据所述报告特征值将若干所述风险评价报告划分模板等级时,还包括:
20、将簇的特征值zk分别与预先设定的第一预设特征值zk1和第二预设特征值zk2进行比对,zk1<zk2,根据比对结果将若干所述风险评价报告划分模板等级;
21、当zk≤zk1时,将该簇中的风险评价报告划分为第一模板等级;
22、当zk1<zk≤zk2时,将该簇中的风险评价报告划分为第二模板等级;
23、当zk2<zk时,将该簇中的风险评价报告划分为第三模板等级;
24、其中,所述第一模板等级表示风险评价报告的风险值低于所述第二模板等级,所述第二模板等级表示风险评价报告的风险值低于所述第三模板等级。
25、进一步的,基于随机森林模型获得所述待检测管道的风险预测值时,包括:
26、在所述运行数据中获取历史运行数据,将所述历史运行数据划分为训练集和测试集;
27、使用交叉验证结合网格搜索寻找随机森林模型的最佳参数,建立随机森林模型;
28、使用所述训练集拟合所述随机森林模型;
29、将所述测试集带入所述随机森林模型并计算风险预测值的准确率;
30、当所述准确率达到预设准确率阈值时,根据所述异常数据获取当前所述待检测管道的风险预测值,将所述风险预测值记为f。
31、进一步的,根据所述风险预测值确定区域统计范围时,包括:
32、将风险预测值f分别与预先设定的第一预设风险预测值f1和第二预设风险预测值f2进行比对,f1<f2,根据比对结果确定区域统计范围;
33、当f≤f1时,确定所述区域统计范围为第一预设范围;
34、当f1<f≤f2时,确定所述区域统计范围为第二预设范围;
35、当f2<f时,确定所述区域统计范围为第三预设范围;
36、其中,所述第一预设范围表示统计区域面积小于第二预设范围,所述第二预设范围表示统计区域面积小于第三预设范围。
37、进一步的,根据所述区域统计范围内的统计数据判断是否对所述风险预测值进行调整时,包括:
38、采集所述区域统计范围内的人口密度数据r,将所述人口密度数据r与人口密度阈值rmax进行比对,根据比对结果判断是否对所述风险预测值进行调整;
39、当r>rmax时,判定对所述风险预测值进行调整,获得调整后的风险预测值,并将调整后的风险预测值作为所述最终风险预测值;
40、当r≤rmax时,判定不对所述风险预测值进行调整,并将所述风险预测值作为所述最终风险预测值。
41、进一步的,当判定对所述风险预测值进行调整时,包括:
42、根据所述人口密度数据r与人口密度阈值rmax获得密度差值δr,δr=r-rmax,将所述密度差值δr分别与预先设定的第一预设密度差值δr1和第二预设密度差值δr2进行比对,δr1<δr2,根据比对结果对所述风险预测值进行调整;
43、当δr≤δr1时,确定第一预设调整系数a1对所述风险预测值进行调整,获得调整后的风险预测值f*a1;
44、当δr1<δr≤δr2时,确定第二预设调整系数a2对所述风险预测值进行调整,获得调整后的风险预测值f*a2;
45、当δr2<δr时,确定第三预设调整系数a3对所述风险预测值进行调整,获得调整后的风险预测值f*a3;
46、其中,1<a1<a2<a3<1.2。
47、进一步的,根据所述最终风险预测值确定评价报告编写模板对应的模板等级时,包括:
48、当最终风险预测值处于第一区间时,确定评价报告编写模板对应的模板等级为第一模板等级;
49、当最终风险预测值处于第二区间时,确定评价报告编写模板对应的模板等级为第二模板等级;
50、当最终风险预测值处于第三区间时,确定评价报告编写模板对应的模板等级为第三模板等级;
51、其中,所述第一区间为所述最终风险预测值小于或等于第一预设风险预测值f1,所述第一区间为所述最终风险预测值大于第一预设风险预测值f1且小于或等于第二预设风险预测值f2,所述第三区间为所述最终风险预测值大于第二预设风险预测值f2。
52、进一步的,在确定对应的模板等级后,根据所述匹配度确定风险评价报告编写模板时,包括:
53、获得所述异常数据与对应的模板等级内的每一模板的匹配度,根据所述匹配度确定风险评价报告编写模板时,包括:
54、根据所述异常数据获得异常特征数量n,并根据下式计算匹配度;
55、;
56、其中,p表示匹配度,yi表示异常数据中第i数据的特征值;mki表示模板k的第i数据的特征值,n表示异常特征数量,wi表示第i个权重;
57、将异常数据与对应的模板等级内的每一模板的匹配度从高到低排列,选取所述匹配度最高的模板作为风险评价报告编写模板。
58、与现有技术相比,本发明的有益效果在于:通过大数据和机器学习技术实现了管道风险评价报告编写的自动化与智能化。利用大数据采集和自然语言处理技术,提取并分析大量风险评价报告中的关键字,计算报告特征值,从而将报告划分为不同的模板等级,提高了报告分类的准确性。通过随机森林模型对管道运行数据进行实时分析和风险预测,并结合区域统计数据进行调整,确保风险预测值的精确性和可靠性。根据调整后的风险预测值选择最匹配的报告编写模板,自动生成结构统一、内容详实的风险评价报告。减少了人为误差和重复劳动,提高了报告编写效率和统一性,还能够及时反映最新的环境变化,提升了管道风险管理的及时性和有效性。
1.一种基于大模型的高后果区风险评价报告编写方法,其特征在于,包括:
2.根据权利要求1所述的基于大模型的高后果区风险评价报告编写方法,其特征在于,提取每一所述风险评价报告的关键字,并根据所述关键字计算报告特征值时,包括:
3.根据权利要求2所述的基于大模型的高后果区风险评价报告编写方法,其特征在于,根据所述报告特征值将若干所述风险评价报告划分模板等级时,包括:
4.根据权利要求3所述的基于大模型的高后果区风险评价报告编写方法,其特征在于,根据所述报告特征值将若干所述风险评价报告划分模板等级时,还包括:
5.根据权利要求4所述的基于大模型的高后果区风险评价报告编写方法,其特征在于,基于随机森林模型获得所述待检测管道的风险预测值时,包括:
6.根据权利要求5所述的基于大模型的高后果区风险评价报告编写方法,其特征在于,根据所述风险预测值确定区域统计范围时,包括:
7.根据权利要求6所述的基于大模型的高后果区风险评价报告编写方法,其特征在于,根据所述区域统计范围内的统计数据判断是否对所述风险预测值进行调整时,包括:
8.根据权利要求7所述的基于大模型的高后果区风险评价报告编写方法,其特征在于,当判定对所述风险预测值进行调整时,包括:
9.根据权利要求8所述的基于大模型的高后果区风险评价报告编写方法,其特征在于,根据所述最终风险预测值确定评价报告编写模板对应的模板等级时,包括:
10.根据权利要求9所述的基于大模型的高后果区风险评价报告编写方法,其特征在于,在确定对应的模板等级后,根据所述匹配度确定风险评价报告编写模板时,包括: