一种用于模式识别的深度学习网络训练方法及系统

    技术2024-11-29  15


    本发明涉及深度学习,具体涉及一种用于模式识别的深度学习网络训练方法及系统。


    背景技术:

    1、模式识别相关技术广泛应用于安防、身份验证、智能设备用户交互、人们的日常生活等。随着深度学习的迅猛发展,卷积神经网络(cnn)因其强大的特征学习能力成为模式识别的主流方法之一。cnn识别模型通常使用归一化指数(softmax)交叉熵损失函数以及中心损失(centerloss)函数等,此类损失函数缺乏类间信息,无法扩大类间差异,限制了识别模型判别特征提取能力。

    2、在现有技术中,模式识别方法主要依赖于特征提取和分类算法的结合。传统的特征提取方法包括手工设计的特征和自动学习的特征两类。手工设计的特征如尺度不变特征转换(sift)、方向梯度直方图(hog)等,需要结合领域知识精心设计,十分繁琐,此类人工设计的特征逐渐被深度神经网络模型代替。自动学习的特征,如卷积神经网络(cnn)提取的特征,具有更强的表达能力和适应性。然而,现有的损失函数在处理类间相似性问题方面存在不足;softmax、centerloss等交叉熵损失函数主要通过最小化类内差异获取特征,不具有类间信息,无法获取类间判别特征。

    3、即在传统的深度学习模型中,softmax、centerloss等交叉熵损失函数主要关注类内紧缩,无类间信息,缺乏判别特征提取能力,从而限制了分类模型在处理相似类别时的性能。


    技术实现思路

    1、本发明目的在于提供一种用于模式识别的深度学习网络训练方法及系统,在softmax交叉熵损失函数基础上,通过最小化训练样本与该训练样本所属类的类均值之间距离,同时最大化训练样本与该训练样本最近对手类类均值之间距离,有效获取判别特征,进而提高深度卷积神经网络模型的识别精度。

    2、为达成上述目的,本发明提出如下技术方案:

    3、第一方面,提出一种用于模式识别的深度学习网络训练方法,包括:

    4、获取数据并进行预处理获得训练数据,构建训练数据集,并划分为训练集和验证集;其中,所述训练数据包括特征数据、标签和均值点数据;

    5、构建用于模式识别的深度卷积神经网络模型,配置类内分类损失函数和类间分类损失函数提取判别特征;其中,所述深度卷积神经网络模型采用多层卷积神经网络架构,包括多个卷积层、批量规范化层、激活函数、残差模块、全局平均池化层和全连接层;

    6、根据所述训练集,采用前向传播算法训练所述深度卷积神经网络模型,评估用于所述判别特征提取的损失函数的性能;

    7、根据所述损失函数的性能的评估结果,采用反向传播算法,基于损失函数计算参数梯度,更新所述深度卷积神经网络模型的参数;

    8、根据所述验证集,计算所述深度卷积神经网络模型的分类准确率,评估所述深度卷积神经网络模型的性能;

    9、根据所述深度卷积神经网络模型的评估结果,优化所述深度卷积神经网络模型的配置和训练策略。

    10、进一步的,所述类内分类损失函数通过最小化样本特征与其对应类别均值之间的欧几里得距离,使得类内特征紧凑;

    11、所述类内分类损失函数的具体公式为:

    12、

    13、其中,xi表示第i个训练样本的特征向量,表示第yi类的均值向量,m为训练样本总数。

    14、进一步的,所述类内分类损失函数的实现步骤如下:

    15、初始化每个类别的所有训练样本的均值向量;

    16、在每次模型训练过程中,计算每个训练样本的样本特征与其对应类别均值向量之间的欧几里得距离;

    17、通过反向传播优化均值向量和样本特征,使得特征距离最小化;

    18、更新均值向量。

    19、进一步的,所述类间分类损失函数通过比较训练样本与其最近的对手类的均值向量之间的距离,增加类间特征的差异性;

    20、所述类间分类损失函数的具体公式为:

    21、

    22、其中,xi表示第i个训练样本的特征向量,cni表示与xi最近的对手类的均值向量,m为训练样本总数。

    23、进一步的,所述类间分类损失函数的实现步骤如下:

    24、对每个训练样本,通过所述深度卷积神经网络模型计算其分类概率,确定其最近的对手类;

    25、对任一训练样本,计算该训练样本的样本特征与其最近的对手类均值向量之间的距离;

    26、在总损失函数中引入所述距离,通过反向传播最小化该距离的差异,使得不同类别的特征在特征空间中分离。

    27、进一步的,所述深度卷积神经网络模型的总损失函数由类内分类损失函数和类间分类损失函数共同组成,通过调整权重参数,平衡分类准确率和特征分布的优化;

    28、所述总损失函数l的具体公式为:

    29、l=lsoftmax+λ1lc-λ2lr

    30、其中,lsoftmax表示传统的softmax函数损失,lc表示类内分类损失,lr表示类间分类损失,λ1和λ2为权重参数,并且权重参数λ1和λ2的值通过交叉验证确定。

    31、进一步的,所述均值向量的更新策略为采用滑动平均动态更新策略,实现步骤如下:

    32、在模型训练开始时,随机初始化类别均值向量;

    33、在每个训练批次中,计算当前批次训练样本的特征均值,将其作为类别均值的更新值;

    34、在每次迭代中,通过滑动平均的方法,平滑地更新该类别的均值向量;其中,所述均值向量更新公式如下:

    35、

    36、其中,m为训练样本总数,α为更新权重,α取值范围为0.01至1。

    37、第二方面,提出一种用于模式识别的深度学习网络训练系统,包括:

    38、获取构建模块,用于获取数据并进行预处理获得训练数据,构建训练数据集,并划分为训练集和验证集;其中,所述训练数据包括特征数据、标签和均值点数据;

    39、构建配置模块,用于构建用于模式识别的深度卷积神经网络模型,配置类内分类损失函数和类间分类损失函数提取判别特征;其中,所述深度卷积神经网络模型采用多层卷积神经网络架构,包括多个卷积层、批量规范化层、激活函数、残差模块、全局平均池化层和全连接层;

    40、训练计算模块,用于根据所述训练集,采用前向传播算法训练所述深度卷积神经网络模型,评估用于所述判别特征提取的损失函数的性能;

    41、更新模块,用于根据所述损失函数的性能的评估结果,采用反向传播算法,基于损失函数计算参数梯度,更新所述深度卷积神经网络模型的参数;

    42、计算评估模块,用于根据所述验证集,计算所述深度卷积神经网络模型的分类准确率,评估所述深度卷积神经网络模型的性能;

    43、优化模块,用于根据所述深度卷积神经网络模型的评估结果,优化所述深度卷积神经网络模型的配置和训练策略。

    44、进一步的,所述深度学习网络训练系统中深度卷积神经网络模型的总损失函数由类内分类损失函数和类间分类损失函数共同组成,通过调整权重参数,平衡分类准确率和特征分布的优化;

    45、所述总损失函数l的具体公式为:

    46、l=lsoftmax+λ1lc-λ2lr

    47、其中,lsoftmax表示传统的softmax函数损失,lc表示类内分类损失,lr表示类间分类损失,λ1和λ2为权重参数,并且权重参数λ1和λ2的值通过交叉验证确定。

    48、第三方面,提出一种电子设备,包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从所述计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行上述的用于模式识别的深度学习网络训练方法的步骤。

    49、由以上技术方案可知,本发明的技术方案获得了如下有益效果:

    50、本发明公开的用于模式识别的深度学习网络训练方法及系统,其方法包括数据准备、模型初始化、前向传播、损失计算、反向传播、参数更新、模型评估和结果分析步骤,进行损失计算时一方面引入最近对手类类差异度策略,通过扩大样本特征与其最近的非真实类均值之间的距离,增加类间特征的差异性;另一方面对于每个训练样本,找到其分类概率第二高的类别,并计算该样本特征与该类别均值向量之间的距离,通过最大化该距离的差异,使得不同类别的特征在特征空间中更加分离,从而提高分类的准确性。

    51、本发明提出的用于模式识别的深度学习网络训练方法能够有效提高模型的判别能力,模型能够更好地捕捉数据中的判别特征,提高分类和识别的准确率;并且,本发明方法易于实现和集成,可以结合现有的深度学习框架进行应用和扩展,为深度学习领域的研究和应用提供了一个新的方向和思路,具有重要的理论意义和实际应用价值。实验结果表明,本发明的训练方法在模式识别任务中表现出显著的性能提升,尤其在处理复杂、多样化的数据时,具有明显优势;本方案可以广泛应用于图像识别、人脸识别、语音识别等领域,为提高深度学习模型的精度和稳定性提供了一种新的技术途径。

    52、应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。

    53、结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。


    技术特征:

    1.一种用于模式识别的深度学习网络训练方法,其特征在于,包括:

    2.根据权利要求1所述的用于模式识别的深度学习网络训练方法,其特征在于,所述类内分类损失函数通过最小化样本特征与其对应类别均值之间的欧几里得距离,使得类内特征紧凑;

    3.根据权利要求2所述的用于模式识别的深度学习网络训练方法,其特征在于,所述类内分类损失函数的实现步骤如下:

    4.根据权利要求1所述的用于模式识别的深度学习网络训练方法,其特征在于,所述类间分类损失函数通过比较训练样本与其最近的对手类的均值向量之间的距离,增加类间特征的差异性;

    5.根据权利要求4所述的用于模式识别的深度学习网络训练方法,其特征在于,所述类间分类损失函数的实现步骤如下:

    6.根据权利要求1所述的用于模式识别的深度学习网络训练方法,其特征在于,所述深度卷积神经网络模型的总损失函数由类内分类损失函数和类间分类损失函数共同组成,通过调整权重参数,平衡分类准确率和特征分布的优化;

    7.根据权利要求3所述的用于模式识别的深度学习网络训练方法,其特征在于,所述均值向量的更新策略为采用滑动平均动态更新策略,实现步骤如下:

    8.一种用于模式识别的深度学习网络训练系统,其特征在于,包括:

    9.根据权利要求8所述的用于模式识别的深度学习网络训练系统,其特征在于,所述深度卷积神经网络模型的总损失函数由类内分类损失函数和类间分类损失函数共同组成,通过调整权重参数,平衡分类准确率和特征分布的优化;

    10.一种电子设备,包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从所述计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行以实现权利要求1~7中任一项所述的用于模式识别的深度学习网络训练方法的步骤。


    技术总结
    本发明提供一种用于模式识别的深度学习网络训练方法及系统,涉及深度学习领域;方法包括数据准备阶段、模型初始化阶段、前向传播阶段、损失计算阶段、反向传播阶段、模型评估阶段和结果分析阶段,损失计算阶段通过计算类内分类损失、最小化训练样本与类均值之间类内损失和最近对手类类间损失、最大化样本与最近对手类间损失,优化类内距离和类间距离;本方案解决现有深度神经网络特征提取时缺乏获取判别特征的能力,显著提升用于模式识别的深度卷积神经网络模型的判别特征提取能力。

    技术研发人员:屈喜文,邓虎,陈锋,程泽凯
    受保护的技术使用者:安徽工业大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-22749.html

    最新回复(0)