一种测评报告实体抽取模型的二次训练方法及相关设备与流程

    技术2024-11-02  52


    本技术涉及人工智能自然语言处理领域,具体是涉及一种测评报告实体抽取模型的二次训练方法及相关设备。


    背景技术:

    1、随着互联网近年来的迅猛发展,其已深深嵌入了日常生活的每一个角落,赋予普通人前所未有的能力,即使身处家中,也能与世界无缝连接。然而,网络的无边界特性同样吸引了不法分子的注意,其利用技术漏洞实施网络攻击,严重扰乱了网络秩序。自1981年第一款计算机病毒“elk cloner”问世以来,网络威胁形式经历了数次迭代升级,其复杂性和不可预知性对全球信息安全构成了严峻挑战。为了应对这一危机,保护内部机密免遭泄露,各行各业的机构纷纷提升了网络安全意识,并持续增加在网络安全防护上的投入。在这个背景下,等级保护测评服务应运而生,它不仅成为了大型企业网络安全策略的重要组成部分,也是衡量企业网络安全水平的关键指标。该服务通过对企业的信息基础设施进行全面的安全评估,帮助企业识别风险、加固防御体系,从而有效抵御潜在的网络威胁,保障业务连续性和数据安全。综上所述,网络安全已成为数字化时代不可或缺的一环,等级保护测评服务作为一项专业且必要的措施,对于维护企业乃至整个社会的信息安全具有重要意义。

    2、测评服务主要包括两大环节:第一步是测评师亲临现场,对内部服务器和计算机进行详尽的分析与检查;第二步是撰写分析报告,总结分析结果并提出建议。目前,通过测评师来编写与审核测评报告,既耗费大量时间,又难以稳定保证准确率。此外,公司管理层期望通过深入分析报告来指导项目定位和投入方向,但面对海量的冗余数据,这项工作的推进显得尤为困难。

    3、随着人工智能大语言模型的兴起,原本期望直接使用预训练模型进行网络安全领域的实体抽取,但经过大量的实践测试后发现,其在网络安全方面的实体抽取成功率最高只能达到65%左右,远远不能满足实际应用的需求。因此现有的预训练大模型还需要提高在测评报告实体抽取中的识别率,即预训练模型能够正确识别和抽取测评报告实体(如服务器地址、ip地址、漏洞类型)的比例。


    技术实现思路

    1、本实施例提供了一种测评报告实体抽取模型的二次训练方法及相关设备,探究如何提高现有技术中预训练模型在抽取测评报告实体时的识别率。

    2、第一方面,本发明提供了一种测评报告实体抽取模型的二次训练方法,包括:

    3、初始化预训练模型的二次训练环境;其中,所述二次训练环境安装有python语言依赖库;

    4、接收所述测评报告的原始文本;

    5、对所述测评报告的原始文本进行预处理,得到json格式文本集;

    6、根据json格式文本集,对所述预训练模型进行二次训练,得到可用于所述测评报告实体抽取的二次训练模型。

    7、在其中的一些实施例中,对所述测评报告的原始文本进行预处理,得到json格式文本集,包括:

    8、对所述测评报告的原始文本进行语义分割,得到独立语句;

    9、对所述独立语句进行文本清洗,得到清洗后语句;

    10、提取并标注所述清洗后语句中的实体,得到标注后语句;

    11、根据标注后语句,创建标注数据集;

    12、将所述标注数据集转换为json格式文本集。

    13、在其中的一些实施例中,对所述测评报告的原始文本进行语义分割,得到独立语句,包括:

    14、运行python语言的文件读取模块,加载所述测评报告的原始文本;

    15、对加载后的所述测评报告的原始文本应用正则表达式,识别并分割单断句符,得到过渡文本;

    16、对所述过渡文本再次应用正则表达式,识别并分割英文省略符,得到所述独立语句。

    17、在其中的一些实施例中,对所述独立语句进行文本清洗,得到清洗后语句,包括:

    18、应用python语言依赖库的大小写转换函数,将所述独立语句中的单词字母转换为小写;所述大小写转换函数可使用python字符串的lower() 函数;

    19、应用python语言依赖库的拼写修正函数,识别并修正所述独立语句中的错误拼写;所述拼写修正函数可使用autocorrect库中的修正函数;

    20、应用python语言依赖库的文本解析函数,对包含html标签的所述独立语句进行文本解析;在所述文本解析后,应用文本提取函数提取纯文本以移除html标签;所述文本解析函数可使用lxml库中的html.fromstring()函数,所述文本提取函数可使用.itertext()函数;

    21、应用python语言依赖库的识别替换函数,识别所述独立语句中的特殊字符,并将其替换为空格;所述识别替换函数可使用正则表达式的正则表达式的re.sub()函数;

    22、启动spacy库的自然语言处理流程,排除停用词,得到所述清洗后语句;所述spacy库的自然语言处理流程为:应用nlp对象解析所述独立语句,遍历生成的doc对象中每个token,执行not token.is_stop条件判断,排除停用词,得到所述清洗后语句。

    23、在其中的一些实施例中,提取并标注所述清洗后语句中的实体,得到标注后语句,包括:

    24、应用spacy库的ner实体识别模块,提取所述清洗后语句中的实体,并使用ner实体识别模块对提取后实体的类型和位置坐标进行标注,得到标注后语句。

    25、在其中的一些实施例中,根据标注后语句,创建标注数据集,包括:

    26、为每个所述标注后语句,创建一条记录;其中,所述记录包含标注后语句的句子文本、实体列表以及每个实体的类型和位置坐标;

    27、收集所有标注后语句的对应记录,得到所述标注数据集。

    28、在其中的一些实施例中,将所述标注数据集转换为json格式文本集,包括:

    29、创建匹配记录格式的第一字段结构和匹配实体格式的第二字段结构;

    30、根据所述第一字段结构,为每条所述记录创建json对象,所述json对象包含句子文本和实体列表;

    31、根据所述第二字段结构,为每个实体列表中的实体创建json子对象,所述json子对象包含实体类型和位置坐标;

    32、将包含有第一字段结构和第二字段结构的所有记录封装到一个json数组中,得到所述json格式文本集。

    33、在其中的一些实施例中,根据json格式文本集,对所述预训练模型进行二次训练,得到可用于所述测评报告实体抽取的二次训练模型,包括:

    34、预设所述预训练模型的超参数,得到预设后模型;

    35、对所述预设后模型,使用json格式文本集进行迭代训练。

    36、在其中的一些实施例中,对所述预设后模型,使用json格式文本集进行迭代训练,包括:

    37、读取包含句子文本和实体标签的json格式文本集;

    38、将json格式文本集中的句子文本转换为词嵌入表示作为特征变量;

    39、将json格式文本集中的实体标签转换为bio编码或其他适用的标签格式作为目标变量;

    40、接收特征变量作为输入,目标变量作为输出,迭代微调预设后模型,得到所述测评报告实体抽取的二次训练模型。

    41、与现有技术相比,本发明的一种测评报告实体抽取模型的二次训练方法,通过对网络安全测评报告的领域数据进行专门的预处理和二次训练,使得模型能够更好地理解并抽取测评报告中的实体信息,提高了实体抽取的识别率,最终让测评师能够地将二次训练模型应用于测评报告分析。

    42、第二方面,本发明提供了一种测评报告实体抽取模型的二次训练系统,包括:环境初始化模块,用于初始化预训练模型的二次训练环境;其中,所述二次训练环境安装有python语言依赖库;

    43、原始文本接收模块,用于接收所述测评报告的原始文本;

    44、json格式文本集获取模块,用于对所述测评报告的原始文本进行预处理,得到json格式文本集;

    45、二次训练模块,用于根据json格式文本集,对所述预训练模型进行二次训练,得到可用于所述测评报告实体抽取的二次训练模型。

    46、第三发面,本发明提供了一种电子设备,所述电子设备包括存储器以及处理器,所述存储器存储有至少一条计算机可执行指令,所述处理器被配置为运行所述计算机可执行指令,所述计算机可执行指令被所述处理器运行时以实现第一方面所述的一种测评报告实体抽取模型的二次训练方法。

    47、第四方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现第一方面所述的一种测评报告实体抽取模型的二次训练方法。

    48、与现有技术相比,本发明的一种测评报告实体抽取模型的二次训练系统、电子设备及存储介质的有益效果与上述的一种测评报告实体抽取模型的二次训练方法的有益效果相同,故此处不再赘述。


    技术特征:

    1.一种测评报告实体抽取模型的二次训练方法,其特征在于,包括:

    2.根据权利要求1所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,对所述测评报告的原始文本进行预处理,得到json格式文本集,包括:

    3.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,对所述测评报告的原始文本进行语义分割,得到独立语句,包括:

    4.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,对所述独立语句进行文本清洗,得到清洗后语句,包括:

    5.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,提取并标注所述清洗后语句中的实体,得到标注后语句,包括:

    6.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,根据标注后语句,创建标注数据集,包括:

    7.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,将所述标注数据集转换为json格式文本集,包括:

    8.根据权利要求2所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,根据json格式文本集,对所述预训练模型进行二次训练,得到可用于所述测评报告实体抽取的二次训练模型,包括:

    9.根据权利要求8所述的一种测评报告实体抽取模型的二次训练方法,其特征在于,对所述预设后模型,使用json格式文本集进行迭代训练,包括:

    10.一种测评报告实体抽取模型的二次训练系统,其特征在于,包括:


    技术总结
    本发明公开了一种测评报告实体抽取模型的二次训练方法及相关设备,所述二次训练方法包括:初始化预训练模型的二次训练环境;其中,所述二次训练环境安装有python语言依赖库;接收所述测评报告的原始文本;对所述测评报告的原始文本进行预处理,得到json格式文本集;根据json格式文本集,对所述预训练模型进行二次训练,得到可用于所述测评报告实体抽取的二次训练模型;本发明通过对网络安全测评报告的领域数据进行专门的预处理和二次训练,使得模型能够更好地理解并抽取测评报告中的实体信息,提高了实体抽取的识别率,最终让测评师能够地将二次训练模型应用于测评报告分析。

    技术研发人员:宋超,武建双,孙宝,刘洋,王雅莉,刘京,许建锋
    受保护的技术使用者:合肥天帷信息安全技术有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-21440.html

    最新回复(0)