本发明涉及模型训练领域,具体涉及语言模型训练方法、装置、存储介质及设备。
背景技术:
1、随着大规模语言模型的发展,极大拓展了语言模型在语言理解和文本生成方面的能力边界,在自然语言处理领域中占有重要地位。语言模型在自然语言处理上的准确度也得到越来越广泛的关注。在电商领域的应用上,多采用bert(bidirectional encoderrepresentations form transformer,双向编码特征)模型、gpt(generative pre-trainedtransformer,生成式与训练)模型对用户的行为日志实现意图识别、智能问答等应用场景。
2、随着自然语言处理的要求逐渐提高,语言模型的训练过程中仍然采用单一损失计算的方式,无法兼顾样本知识学习和降低样本噪声干扰的问题,导致语言模型训练效果较差。
技术实现思路
1、基于此,本发明提供语言模型训练方法、装置、存储介质及设备,通过多阶段损失计算对语言模型进行训练,使语言模型在充分学习样本特征的同时,降低干扰噪声的影响,达到较好的模型训练效果。
2、第一方面,本发明提供一种语言模型训练方法,包括:
3、步骤s101,获取用户行为日志,对所述用户行为日志进行预处理得到训练样本集;
4、步骤s102,将所述训练样本集按预设比例划分为训练集和评估集;
5、步骤s103,将所述训练集输入预设的语言模型对语言模型的参数进行调整,得到第一语言模型;
6、步骤s104,将所述评估集输入所述第一语言模型并计算第一损失,重复执行步骤s103直至所述第一损失小于第一阈值,将第一语言模型记为中间语言模型;
7、步骤s105,将所述训练集输入所述中间语言模型对中间语言模型的参数进行调整,得到第二语言模型;
8、步骤s106,将所述评估集输入所述第二语言模型并计算第二损失,重复执行步骤s105直至所述第二损失小于第二阈值,将所述第二语言模型记为最终语言模型。
9、其中,所述预设的语言模型为纠错型掩码与训练语言模型,所述第一损失为交叉熵损失,所述第二损失为信息噪声对比估计损失。
10、进一步的,所述获取用户行为日志,对所述用户行为日志进行预处理得到训练样本集,包括:
11、获取用户行为日志;
12、对于任意一条用户行为日志,执行以下步骤得到样本数据,将所有用户行为日志得到的样本数据汇总得到训练样本集:
13、从所述用户行为日志提取用户查询信息以及用户点击的商品信息;
14、根据所述用户查询信息和用户点击的商品信息的相关性生成数据标签;
15、将所述用户查询信息、用户点击的商品信息和数据标签构成样本数据。
16、其中,所述数据标签包括强相关、弱相关和不相关。
17、进一步的,所述交叉熵损失的具体表达式为:
18、,
19、其中,为交叉熵损失,为第一语言模型预测的数据标签,当预测数据标签为强相关时,当预测数据标签为不相关时,当预测数据标签为弱相关时,为第一语言模型预测的数据标签为时真实的概率分布,为第一语言模型预测的数据标签为时预测的概率分布。
20、进一步的,所述信息噪声对比估计损失的具体表达式为:
21、,
22、其中,为信息噪声对比估计损失,为输入中间语言模型的评估集的数据标签,为评估集的正样本的数据标签,为评估集中所有样本的数据标签,为评估集中样本数据的数量,为评估集的样本数据与正样本之间的相似度,为评估集的样本数据与评估集中任意一个样本数据之间的相似度,为相似度调节系数。
23、其中,所述训练集中数据标签为强相关的样本数据、弱相关的样本数据和不相关的样本数据的数量比例为7:6:7;
24、所述评估集中数据标签为强相关的样本数据、弱相关的样本数据和不相关的样本数据的数量比例为6:2:2。
25、第二方面,本发明还提供一种语言模型训练装置,包括:
26、数据获取模块,用于获取用户行为日志,对所述用户行为日志进行预处理得到训练样本集;
27、训练样本划分模块,用于将所述训练样本集按预设比例划分为训练集和评估集;
28、第一模型训练模块,用于将所述训练集输入预设的语言模型对语言模型的参数进行调整,得到第一语言模型;
29、第一调整模块,用于将所述评估集输入所述第一语言模型并计算第一损失,重复执行模型训练模块直至所述第一损失小于第一阈值,将第一语言模型记为中间语言模型;
30、第二模型训练模块,用于将所述训练集输入所述中间语言模型对中间语言模型的参数进行调整,得到第二语言模型;
31、第二调整模块,用于将所述评估集输入所述第二语言模型并计算第二损失,重复执行第二模型训练模块直至所述第二损失小于第二阈值,将所述第二语言模型记为最终语言模型。
32、第三方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项语言模型训练方法的步骤。
33、第四方面,本发明还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,执行第一方面中任一项语言模型训练方法。
34、采用上述技术方案的有益效果为:本发明采用两阶段损失计算训练语言模型,突破语言模型训练过程中单一损失计算导致的无法兼顾样本特征学习和降低样本噪声干扰的问题;采用交叉熵损失使语言模型的损失降低至可控状态,采用信息噪声对比估计损失有效降低噪声带来的局部损失,提高语言模型的训练效果。
1.一种语言模型训练方法,其特征在于,包括:
2.如权利要求1所述的语言模型训练方法,其特征在于,所述预设的语言模型为纠错型掩码与训练语言模型,所述第一损失为交叉熵损失,所述第二损失为信息噪声对比估计损失。
3.如权利要求2所述的语言模型训练方法,其特征在于,所述获取用户行为日志,对所述用户行为日志进行预处理得到训练样本集,包括:
4.如权利要求3所述的语言模型训练方法,其特征在于,所述数据标签包括强相关、弱相关和不相关。
5.如权利要求4所述的语言模型训练方法,其特征在于,所述交叉熵损失的具体表达式为:
6.如权利要求5所述的语言模型训练方法,其特征在于,所述信息噪声对比估计损失的具体表达式为:
7.如权利要求4所述的语言模型训练方法,其特征在于,所述训练集中数据标签为强相关的样本数据、弱相关的样本数据和不相关的样本数据的数量比例为7:6:7;
8.一种语言模型训练装置,其特征在于,包括:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项语言模型训练方法的步骤。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时,执行权利要求1-7中任一项语言模型训练方法。