一种数据增强方法、装置、设备和存储介质与流程

技术2025-03-17 41

本发明涉及计算机，尤其涉及一种数据增强方法、装置、设备和存储介质。

背景技术：

1、针对人机对话在工业场景中的应用，需要大量样本对深度学习模型进行训练。而在实际生产环境中，一个业务在刚刚起步时，往往面临样本较少的问题。

2、相关技术中，往往通过专家标注的方式编写样本以及相似的句子，用来扩充原始数据。但这种方式人工成本较高，而且耗时较长，无法解决冷启动过程中数据量少的问题。

技术实现思路

1、本申请实施例提供一种数据增强方法、装置、设备和存储介质。

2、本申请实施例的技术方案是这样实现的：

3、一种数据增强方法，所述方法包括：

4、获取第一样本数据和第二样本数据；所述第一样本数据集包括未标记的文本数据；所述第二样本数据包括已标记的文本数据；

5、基于所述第一样本数据对网络模型进行无监督训练，并确定第一损失函数值；

6、基于所述第二样本数据对所述网络模型进行有监督训练，并确定第二损失函数值；

7、基于所述第一损失函数值和所述第二损失函数值，对所述网络模型的参数进行调整，得到训练后的网络模型；

8、基于所述训练后的网络模型进行文本数据增强。

9、上述方案中，所述基于所述第一样本数据对网络模型进行无监督训练，并确定第一损失函数值，包括：

10、对所述第一样本数据进行加噪处理，得到加噪的文本数据；

11、将所述第一样本数据输入所述网络模型，生成第一文本数据；所述第一文本数据在提问方式上与所述第一样本数据相同；

12、将所述加噪的文本数据输入所述网络模型，生成第二文本数据；所述第二文本数据在提问方式上与所述加噪的文本数据相同；

13、基于所述第一文本数据和所述第二文本数据确定所述第一损失函数值。

14、上述方案中，所述对所述第一样本数据进行加噪处理，得到加噪的文本数据，包括：

15、基于机器翻译模型对所述第一样本数据进行回译，得到回译文本数据；

16、确定所述第一样本数据对应领域的高频词；

17、将所述第一样本数据中的高频词进行替换，得到替换文本数据；所述加噪的文本数据包括所述回译文本数据和/或替换文本数据。

18、上述方案中，所述将所述第一样本数据中的高频词进行替换，得到替换文本数据，包括：

19、基于深度预训练模型对所述第一样本数据对应领域的同义词进行训练，得到替换词名单；所述替换词名单包括不能作为替换词的敏感词和不能被替换的专有名词；

20、基于所述替换词名单对所述第一样本数据中的高频词进行替换，得到替换文本数据。

21、上述方案中，所述第二样本数据包括第一部分数据和第二部分数据；所述第一部分数据在文本含义上与所述第二部分数据相同；所述基于所述第二样本数据网络模型进行有监督训练，并确定第二损失函数值，包括：

22、将所述第一部分数据输入所述网络模型，生成第三文本数据；所述第三文本数据在提问方式上与所述第一部分数据相同；

23、基于所述第三文本数据和所述第二部分数据确定所述第二损失函数值。

24、上述方案中，所述方法还包括：

25、将所述第一文本数据和所述第二文本数据中小于散度阈值的文本数据，补充至所述第二部分数据。

26、上述方案中，所述基于所述第一损失函数值和所述第二损失函数值，对所述网络模型的参数进行调整，得到训练后的网络模型，包括：

27、基于所述第一损失函数值和所述第二损失函数值，确定所述无监督训练的第一权值和所述有监督训练的第二权值；

28、基于所述第一权值、所述第一损失函数值、所述第二权值和所述第二损失函数值，对所述网络模型的参数进行调整，得到所述训练后的网络模型。

29、一种数据增强装置，所述数据增强装置包括：

30、获取单元，用于获取第一样本数据和第二样本数据；所述第一样本数据集包括未标记的文本数据；所述第二样本数据包括已标记的文本数据；

31、第一确定单元，用于基于所述第一样本数据对网络模型进行无监督训练，并确定第一损失函数值；

32、第二确定单元，用于基于所述第二样本数据对所述网络模型进行有监督训练，并确定第二损失函数值；

33、处理单元，用于基于所述第一损失函数值和所述第二损失函数值，对所述网络模型的参数进行调整，得到训练后的网络模型；

34、所述处理单元，还用于基于所述训练后的网络模型进行文本数据增强。

35、一种电子设备，其特征在于，所述电子设备包括：

36、存储器，用于存储可执行指令；

37、处理器，用于执行所述存储器中存储的可执行指令时，实现如上述任一项所述数据增强方法中的步骤。

38、一种存储介质，所述存储介质中存储有计算机可执行指令，该计算机可执行指令配置为执行上述任一项提供的数据增强方法。

39、一种计算机产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述数据增强方法中的步骤。

40、本申请的实施例所提供的数据增强方法、装置、设备和存储介质，获取第一样本数据和第二样本数据；所述第一样本数据集包括未标记的文本数据；所述第二样本数据包括已标记的文本数据；基于所述第一样本数据对网络模型进行无监督训练，并确定第一损失函数值；基于所述第二样本数据对所述网络模型进行有监督训练，并确定第二损失函数值；基于所述第一损失函数值和所述第二损失函数值，对所述网络模型的参数进行调整，得到训练后的网络模型；基于所述训练后的网络模型进行文本数据增强。也就是说，本申请实施例中利用第一样本数据对网络模型进行无监督训练，利用第二样本数据对网络模型进行有监督训练，得到一个可以较好生成文本数据的网络模型，通过训练后的网络模型进行数据增强，解决了深度学习模型训练在冷启动过程中数据量少的问题，实现了数据的自动扩充。

技术特征：

1.一种数据增强方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一样本数据对网络模型进行无监督训练，并确定第一损失函数值，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述第一样本数据进行加噪处理，得到加噪的文本数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述第一样本数据中的高频词进行替换，得到替换文本数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述第二样本数据包括第一部分数据和第二部分数据；所述第一部分数据在文本含义上与所述第二部分数据相同；所述基于所述第二样本数据网络模型进行有监督训练，并确定第二损失函数值，包括：

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述第一损失函数值和所述第二损失函数值，对所述网络模型的参数进行调整，得到训练后的网络模型，包括：

8.一种数据增强装置，其特征在于，所述数据增强装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种存储介质，所述存储介质中存储有计算机可执行指令，该计算机可执行指令配置为执行上述权利要求1至7中任一项提供的数据增强方法。

技术总结
本发明公开一种数据增强方法、装置、设备和存储介质；所述方法包括：获取第一样本数据和第二样本数据；所述第一样本数据集包括未标记的文本数据；所述第二样本数据包括已标记的文本数据；基于所述第一样本数据对网络模型进行无监督训练，并确定第一损失函数值；基于所述第二样本数据对所述网络模型进行有监督训练，并确定第二损失函数值；基于所述第一损失函数值和所述第二损失函数值，对所述网络模型的参数进行调整，得到训练后的网络模型；基于所述训练后的网络模型进行文本数据增强。

技术研发人员：殷丹平,孟繁宇
受保护的技术使用者：中国移动通信有限公司研究院
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-27661.html

专利

最新回复(0)