本发明属于有监督的深度学习,特别涉及一种基于动态调整多采样区域的低维k中心数据遴选方法及系统,本发明结合不确定性和代表性混合采样的主动学习方法,旨在通过从庞大的训练数据集中有效地选择一个训练子集来提高模型的训练效率和维持模型的性能。
背景技术:
1、在有监督深度学习的研究和应用中,高质量的训练数据是确保模型性能和训练效率的关键,特别是在无人驾驶、医疗图像分析和工业瑕疵检测等领域。虽然这些领域拥有海量训练数据,但直接用于训练却面临数据冗余、存在噪声数据以及高昂的标注成本等挑战,这些问题阻碍了模型训练的进行。因此,如何从这些庞大的数据集中筛选出一个有效的训练子集对于提升模型的训练效率和性能至关重要。
2、针对从海量数据中筛选出有效的训练子集,研发人员提出了主动学习方案。主动学习根据模型的训练轨迹,通过选择最有助于提高模型性能的样本来提高模型的学习效率。主动学习方法主要通过不确定性和代表性选择样本。不确定性采样的方法通过模型对样本预测不确定性的反馈,优先挑选不确定性最大的样本。由于这些样本包含的信息量较大,优先选择这些样本可以快速的提高模型的性能,从而提升训练子集的有效性。代表性采样的方法通过度量样本特征的相似性,选择既能代表整个数据集又具有多样化特征表示的样本。确保训练子集能覆盖更广泛的数据空间,从而提高训练子集样本特征的多样性和差异性。
3、不确定性采样的方法容易导致模型反馈偏向性,因为它倾向于选择那些模型当前预测最不确定的样本。这种方法可能导致模型选择非典型的噪声样本和过度集中于特定类型样本,从而忽略了数据集中的其他重要特征,限制了模型的整体学习和泛化能力。代表性采样的方法容易忽略决策边界,因为它选取在特征空间中分布广泛的样本,而不是重点关注位于不同类别决策边界附近的样本。决策边界附近的样本通常具有较高的不确定性,对模型的判别能力和泛化能力至关重要。
4、目前研究人员提出了一种结合不确定性和代表性混合采样的策略,旨在同时利用两种方法的优点:基于不确定性方法的信息增益性和基于特征多样性方法的广泛覆盖能力。尽管结合不确定性和代表性混合采样的方法在一定程度上减少了基于不确定性的方法容易导致模型反馈偏向性和基于特征多样性方法容易忽略决策边界的问题,但由于固定关注不确定性最大的采样区域,无法根据模型的训练轨迹选择不确定性大小与之匹配的采样区域,忽略了其他潜在采样区域内样本的代表性。仅在模型预测不确定性最大的采样区域进行代表性的选择容易导致只关注了局部区域的代表性而忽略了其他潜在采样区域内样本的代表性,从而导致模型不能充分学习及适应整个数据集的分布。
技术实现思路
1、针对现有技术的上述现状,本发明成功地解决了传统数据选择方法中只能固定的关注不确定性最大的采样区域,无法根据模型的训练轨迹选择不确定性大小与之匹配的采样区域,忽略了其他采样区域内样本的代表性的问题,提供了一种基于动态调整多采样区域低维k中心数据遴选的方法及系统,本发明引入动态调整多采样区域模块和多采样区域内的低维k中心贪婪采样。动态调整多采样区域低维k中心数据遴选策略能够根据模型训练轨迹和样本不确定性灵活调整采样区域,确保不同阶段选择的样本具有高代表性和多样性。多采样区域内的低维k中心贪婪采样方法利用稀疏随机投影技术在低维空间中进行样本选择,减少数据冗余,提升训练子集的多样性和代表性。为从庞大的训练数据集中有效地选择一个训练子集提供了一种更精准、灵活的解决方案。
2、为了达到上述发明目的,本发明采用以下技术方案:
3、基于动态调整多采样区域的低维k中心数据遴选的方法,包括如下步骤:
4、s1、根据损失预测网络度量未选择训练数据集中样本不确定性;
5、s2、根据样本的不确定性对未选择的训练数据集中的样本进行排序;
6、s3、根据排序后的结果,将未选择训练数据集中样本按不确定性划分为不确定性最大和不确定性渐进多个采样区域;
7、s4、迭代过程中动态调整区域权重来调整不确定性最大和不确定性渐进的采样区域的大小;
8、s5、将多个采样区域内样本特征投影到低维空间;
9、s6、在低维空间中执行k中心贪婪采样,选择出具有代表性(即符合设定条件)的样本添加到训练子集;
10、s7、根据s6中的训练子集训练目标模型和损失预测网络,并根据训练后的损失预测网络,执行s1到s6的遴选过程,直到训练子集样本数量达到预先设定个数时停止迭代。
11、作为优选,步骤s1中:通过引入一个损失预测网络来预测未选择样本集中每个样本uj(uj∈ui)的预测损失具体地,预测损失集合表示为:
12、
13、作为优选,步骤s2中:根据预测损失集合ui,l中每个样本的不确定性对未选择样本集ui中的样本排序得到一个不确定性从低到高排列的有序的未选择样本集
14、作为优选,步骤s3包括以下步骤:
15、s31、不确定性最大的采样区域起始样本的不确定性是通过选择当前未选择样本集中最高不确定性的样本来确定的。具体而言,可以表示为:
16、
17、其中,是向上取整操作,而|ui|代表未选择样本集ui的大小。
18、s32、设定采样区域的大小不确定性最大的采样区域的大小的确定方法是通过区域权重α(t)确定的。具体公式为:
19、
20、其中,每次迭代的样本选择预算为k,m是一个超参数,α(t)是一个区域权重。
21、s33、给定所有样本的不确定性度量集合ui,l和数据集ui,不确定性最大的采样区域则可以表示为:
22、
23、这里,包含在不确定性最高的个样本中。
24、s34、在迭代过程中,不确定性渐进区域是指随着迭代的进行,不确定性逐步从小到大增加的区域。在每一轮迭代中,不确定性渐进的采样区域起始样本的不确定性逐步增大,从低不确定性向高不确定性过渡。不确定性渐进的采样区域起始样本的不确定性可以通过以下公式表示:
25、
26、其中,分位数τ=t/t的计算依赖于当前迭代的轮次t(t=1,2,…,t)和总计划的迭代轮次t。
27、s35、不确定性渐进的采样区域的采样窗口大小的确定方法同样基于动态调节权重α(t),其公式为:
28、
29、s36、给定所有样本的不确定性度量集合ui,l和数据集ui,渐进不确定性渐进的区域可以用以下公式表示:
30、
31、作为优选,步骤s4中:迭代过程中,区域权重a(t)会在每轮迭代中进行动态调整,以调节不确定性最大和不确定性渐进的采样区域的大小。该步骤通过逐步调整采样区域的权重,实现对低不确定性和高不确定性样本之间的平衡。具体的调整公式如下:
32、
33、其中,t是当前迭代的轮次(t=1,2,…,t),t是总计划的迭代轮次,nselected代表已经选择的样本数量,ntotal是数据集中总样本数。astart是动态权重的初始值,而aend是动态权重的最终值。
34、作为优选,步骤s5包括以下步骤:
35、s51、稀疏矩阵投影的原理基于johnson-lindenstrauss(jl)引理。假设有一个高维空间中的点集合,希望将其映射到低维空间中,同时保持点与点之间距离的相对误差不超过∈(一个很小的正数)。假设区域d中包含n个点的点集{x1,x2,…,xn}在高维空间(d为区域d的点集中每个点xi的维度数),存在一个映射f:其中低维空间的维度可以确保以下不等式对于任意的1≤p,q≤n以高概率成立:
36、
37、为了实现这样的映射f,通常使用一个稀疏随机投影矩阵的尺寸为k×d。
38、s52、多采样区域和中的元素为uj,要通过稀疏矩阵投影完成降维,稀疏随机投影矩阵接下来,对于每个样本计算降维后的样本:
39、
40、这里,vj是映射后在低维空间的点。
41、作为优选,步骤s6包括以下步骤:
42、s61、从低维空间中的样本集v中随机选择一个样本点v1,并将其添加到空的核心集c中。此时,c={v1}。
43、s62、通过迭代选择剩下的(k-1)个新的样本。具体而言,对于v中每一个尚未被选入核心集的样本点vj,即vj∈v\c,其中,v\c表示样本集v中移除选入核心集c的样本点后剩余样本点的集合,计算其与核心集c中每个样本点的欧式距离,并找到其中的最小距离,记为dmin(vj,c)。具体公式为:
44、dmin(vj,c)=mind(vj,c),c∈c (11)
45、其中,d(vj,c)是点vj与点c之间的欧氏距离。
46、s62、通过这种计算,能够得到当前数据集中与已选中心集距离最近的样本点。在所有尚未被选入核心集的样本点中,选择到核心集c的最小距离最大的样本点vmax,并将其添加到核心集c中。具体公式为:
47、vmax=arg maxv∈v\c dmin(vj,c)(12)
48、将vmax添加到c中,并从v中移除vmax,即c=c∪{vmax},v=v\{vmax}。
49、s63、进一步地,为了减少选择中高密度区域内过多重复样本的可能性,可以选择删除那些与c中样本距离很近的样本点。通常是通过找到与c中样本的距离最小的样本点vmin,并将其从v中移除来实现的。具体公式为:
50、vmin=arg minv∈v\c dmin(vj,c)(13)
51、从v中移除vmin,即v=v\{vmin}。
52、s63、当核心集c中的样本数量达到样本选择预算k时,停止本次选择,将核心集c中的样本添加到训练子集li(l0为空,不包含任何样本)中,更新训练子集为li+1。
53、作为优选,步骤s7中:根据s6中的训练子集li+1训练目标模型和损失预测网络并根据训练后的损失预测网络执行s1到s6的遴选过程,直到训练子集样本数量达到预先设定个数时,停止迭代。
54、本发明还公开了一种基于动态调整多采样区域的低维k中心数据遴选的系统,基于上述方法,包括如下模块:
55、度量样本不确定性模块:根据损失预测网络度量未选择训练数据集中样本不确定性;
56、样本不确定性排序模块:根据样本的不确定性对未选择的训练数据集进行排序;
57、划分多采样区域模块:根据未选择训练数据集中样本不确定性划分为不确定性最大和不确定性渐进多个采样区域;
58、调整采样区域模块:迭代过程中动态调整区域权重调整不确定性最大和不确定性渐进的采样区域的大小;
59、低维空间投影模块:将多采样区域内样本特征投影到进行低维空间;
60、k中心贪婪采样模块:在低维空间中执行k中心贪婪采样,选择具有代表性(即符合设定条件)的样本添加到训练子集。
61、模型更新再遴选模块:根据训练子集训练目标模型和损失预测网络,根据更新后的损失预测网络再次执行遴选过程。
62、迭代模块:迭代重复遴选过程直至训练子集的样本数量达到预先设定的个数,停止迭代,数据遴选完成。
63、与现有技术相比,本发明具体如下有益效果:
64、(1)本发明引入了一种渐进式学习策略,该策略能够根据模型的训练轨迹选择与之不确定性大小匹配的采样区域,具体来说,在模型训练的初期选择不确定性小的采样区域,然后随着模型训练过程的推进,逐步增加关注的采样区域的不确定性。
65、(2)本发明通过动态调整多采样区域的区域权重来实现对样本选择的精细控制。在训练的不同阶段,通过调整区域权重,能够有效地在模型已有知识的稳固性(低不确定性样本)和新知识的探索性(高不确定性样本)之间做出平衡。
66、(3)本发明引入了稀疏随机投影技术,通过在低维空间进行数据投影,有效减少了数据的维度,同时保持了数据结构的核心特征,这使得在降维后的空间中进行数据遴选成为可能,同时提升遴选效率。
67、(4)本发明结合密度平衡策略和低维k中心贪婪采样,从高密度区域删除样本以降低新中心选择的计算量。这不仅加速了k中心贪婪采样过程,而且有效地减少了数据冗余,提升了样本的选择速度。
1.基于动态调整多采样区域的低维k中心数据遴选的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于动态调整多采样区域的低维k中心数据遴选的方法,其特征在于,步骤s1中:通过引入一个损失预测网络来预测未选择样本集ui={u1,u2,…,u|ui|}中每个样本uj的预测损失为预测损失集合表示为:
3.根据权利要求2所述的基于动态调整多采样区域的低维k中心数据遴选的方法,其特征在于,步骤s2中:根据预测损失集合ui,l中每个样本的不确定性,对未选择样本集ui中的样本排序,得到一个不确定性从低到高排列的有序的未选择样本集
4.根据权利要求3所述的基于动态调整多采样区域的低维k中心数据遴选的方法,其特征在于,步骤s3包括以下步骤:
5.根据权利要求4所述的基于动态调整多采样区域的低维k中心数据遴选的方法,其特征在于,步骤s4中:迭代过程中,区域权重α(t)会在每轮迭代中进行动态调整,以调节不确定性最大和不确定性渐进的采样区域的大小,公式如下:
6.根据权利要求5所述的基于动态调整多采样区域的低维k中心数据遴选的方法,其特征在于,步骤s5包括以下步骤:
7.根据权利要求6所述的基于动态调整多采样区域的低维k中心数据遴选的方法,其特征在于,步骤s6包括以下步骤:
8.根据权利要求7所述的基于动态调整多采样区域的低维k中心数据遴选的方法,其特征在于,步骤s7中:根据步骤s6的训练子集li+1训练目标模型mtiask和损失预测网络并根据训练后的损失预测网络执行步骤s1到步骤s6的遴选过程,直到训练子集样本数量达到预先设定b个时,停止迭代。
9.基于动态调整多采样区域的低维k中心数据遴选的系统,基于权利要求1-8任一项所述的方法,其特征在于,包括如下模块: