本申请涉及图像识别,尤其是涉及一种训练行人识别模型或识别行人的方法及装置、设备、介质。
背景技术:
1、随着视频监控技术的不断发展,监控摄像头的数量也在不断增加,从而产生了海量的监控视频数据,通过行人再识别技术可以帮助技术人员从这些监控视频数据中快速检索出特定行人的信息。相关技术中,通常先对监控图片进行标注,将带有标注的图片输入预设的网络模型中进行训练,再利用训练好的模型对需要识别的图片进行识别,以获得特定行人的信息。但是,由于不同摄像头之间的清晰度和参数设置等不同,导致同一行人在不同摄像头下呈现的外观颜色等不同,使得行人再识别的标注非常困难,进而使得通过该方式训练识别行人的模型也较为困难。
2、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
2、本申请实施例提供了一种训练行人识别模型或识别行人的方法及装置、设备、介质,以简便获取行人识别模型。
3、本申请实施例提供了一种训练行人识别模型的方法,包括:获取多个行人数据集和行人身份描述信息;所述行人数据集中包括同一个行人的多张图像;利用预设的扩散模型提取表征所述行人数据集的第一目标特征向量;利用预设的语言模型提取表征所述行人身份描述信息的第二目标特征向量;根据所述第一目标特征向量和所述第二目标特征向量更新所述扩散模型的参数;所述语言模型和优化参数后的所述扩散模型作为行人识别模型。
4、在上述实施方式中,通过扩散模型和语言模型构建行人识别模型,能够在仅利用行人数据集和行人身份描述信息的情况下,即可训练获得能够识别特定行人的行人识别模型。不需要利用带有标注的图片进行模型训练,能够缩小标注图片带来的成本,从而简便获取行人识别模型。同时,由于扩散模型可以很好的提取图片中行人的全局特征来帮助判断不同图片中的行人是否为同一个行人,能够加强行人识别模型的鲁棒性使其泛化性加强。
5、可选地,利用预设的扩散模型提取表征所述行人数据集的第一目标特征向量,包括:利用预设的编码器对所述行人数据集进行编码,获得第一向量;将所述第一向量和预设噪声输入所述扩散模型,获得第二向量;所述第二向量作为所述第一目标特征向量。
6、在上述实施方式中,通过在第一向量中增加噪声,可以生成与原始数据相似但略有不同的数据,从而增加生成的数据的多样性,使得扩散模型在学习时能够学习到更加泛化的特征,而不是过度依赖于特定的图像数据样本。进而有利于使得训练好的行人识别模型在未见过的图像数据上也能表现出良好的性能。
7、可选地,获得第二向量后,训练行人识别模型的方法还包括:利用所述第二向量和第一预设损失函数计算第一损失值;利用所述第一损失值更新所述编码器的参数;利用预设的解码器对所述第二向量进行解码,获得备选行人数据集;利用更新了参数的编码器对所述备选行人数据集进行编码,获得第三向量;将所述第三向量和预设噪声输入所述扩散模型,获得第四向量作为第二向量。
8、在上述实施方式中,损失函数是评估模型预测结果与真实结果之间差异或误差的数值评估指标。通过损失函数更新编码器的参数,能够提高编码器对图像的编码能力,进而有助于提高行人识别模型的预测准确性和泛化能力。
9、可选地,利用预设的语言模型提取表征所述行人身份描述信息的第二目标特征向量,包括:对所述行人身份描述信息进行分词,获得各单词;将各所述单词输入所述语言模型中,获得表征所述行人身份描述信息的第二目标特征向量。
10、在上述实施方式中,一个词在不同的上下文中可能存在不同的含义,通过分词能够区分不同词语的含义,以便于语言模型正确理解词语含义,从而生成正确的特征向量。
11、可选地,利用预设的语言模型提取表征所述行人身份描述信息的第二目标特征向量,包括:获取参数更新次数;在所述更新次数小于第一预设次数的情况下,冻结所述语言模型的预设参数,利用冻结后的所述语言模型提取表征所述行人身份描述信息的第二目标特征向量;在所述更新次数大于第一预设次数的情况下,利用所述语言模型提取表征所述行人身份描述信息的第二目标特征向量。
12、在上述实施方式中,通过冻结语言模型的权重,能够减少计算资源和时间的需求。
13、可选地,根据所述第一目标特征向量和所述第二目标特征向量更新所述扩散模型的参数,包括:根据所述第一目标特征向量、所述第二目标特征向量和第二预设损失函数计算第二损失值;根据所述第二损失值利用预设的第一优化算法优化所述扩散模型的参数。
14、在上述实施方式中,通过损失函数来优化扩散模型的参数,能够让模型更加准确地拟合参与模型训练的数据。同时通过损失函数对模型参数不断的迭代和优化,模型参数会逐渐收敛到一个稳定的解,以提高模型的稳定性和可靠性。
15、本申请实施例提供了一种识别行人的方法,包括:获取行人身份描述信息和多张待处理图片;将所述行人身份描述信息和多张所述待处理图片输入预设的行人识别模型中,获得所述待处理图片中符合所述行人身份描述信息的行人。
16、在上述实施方式中,通过利用预先训练好的行人识别模型,能够自动准确的在多张待处理图片中识别特定的行人,而不需要用户人工判断,能够提高识别特定行人的效率。
17、本申请实施例提供了一种训练行人识别模型的装置,包括:第一获取模块,用于获取多个行人数据集和行人身份描述信息;所述行人数据集中包括同一个行人的多张图像;第一向量确定模块,用于利用预设的扩散模型提取表征所述行人数据集的第一目标特征向量;第二向量确定模块,用于利用预设的语言模型提取表征所述行人身份描述信息的第二目标特征向量;参数优化模块,用于根据所述第一目标特征向量和所述第二目标特征向量更新所述扩散模型的参数;所述语言模型和优化参数后的所述扩散模型作为行人识别模型。
18、本申请实施例提供了一种识别行人的装置,包括:第二获取模块,用于获取行人身份描述信息和多张待处理图片;识别模块,用于将所述行人身份描述信息和多张所述待处理图片输入预设的行人识别模型中,获得所述待处理图片中符合所述行人身份描述信息的行人。
19、本申请实施例提供了一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述训练行人识别模型的方法或识别行人的方法。
20、在一些实施例中,所述存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令使得处理器实现上述训练行人识别模型的方法或识别行人的方法。
21、以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
1.一种训练行人识别模型的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,利用预设的扩散模型提取表征所述行人数据集的第一目标特征向量,包括:
3.根据权利要求2所述的方法,其特征在于,获得第二向量后,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,利用预设的语言模型提取表征所述行人身份描述信息的第二目标特征向量,包括:
5.根据权利要求1所述的方法,其特征在于,利用预设的语言模型提取表征所述行人身份描述信息的第二目标特征向量,包括:
6.根据权利要求1至5任一项所述的方法,其特征在于,根据所述第一目标特征向量和所述第二目标特征向量更新所述扩散模型的参数,包括:
7.一种识别行人的方法,其特征在于,包括:
8.一种训练行人识别模型的装置,其特征在于,包括:
9.一种识别行人的装置,其特征在于,包括:
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至6任一项所述的训练行人识别模型的方法,或权利要求7所述的识别行人的方法。
11.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令使得处理器实现权利要求1至6任一项所述的训练行人识别模型的方法,或权利要求7所述的识别行人的方法。