一种基于强化终点对齐改进VLN-BERT的视觉语言导航方法

    技术2024-12-24  52


    本发明属于深度学习和机器人控制,具体的说是一种基于强化终点对齐改进vln-bert的视觉语言导航方法,用于机器人的视觉语言导航任务。


    背景技术:

    1、人工智能的一个长期目标是创造一个能够通过视觉信息感知环境、使用自然语言与人类进行沟通交流、在真实环境中自由行动并执行复杂任务的智能体;随着深度学习在计算机视觉、自然语言处理、机器人控制与决策等领域都取得了重大进展,视觉语言导航作为实现这一目标的基础任务被提出。

    2、智能体在理解人类自然语言的基础上,根据环境中的视觉信息和人类提供的自然语言指令在真实环境中行动,最终完成导航任务;例如,对于自然语言指令“离开卧室,沿着挂在墙上的照片的相反方向穿过厨房,在长长的白色柜台处右转,当你走过那两把椅子时停下来”,智能体首先需要知道自己在卧室,并从卧室中走出去;接着需要识别出挂在墙上的照片,并沿着相反方向穿过厨房;然后要识别出长长的白色柜台,并右转;最后需要识别出两把椅子并在合适的位置停下;在上述过程中,智能体需要时刻将周围的视觉信息与自然语言指令进行对比,区分已完成的指令和未完成的指令,并根据当前视觉信息和未完成的指令进行决策;然而,将视觉和语言这两个不同模态的信息进行对齐和融合并在复杂的环境下进行决策和导航对于智能体来说存在很大挑战;vln-bert模型提出使用从互联网获取的丰富的图像-文本对来学习视觉基础,通过增强模型的多模态信息处理能力来提高模型性能;

    3、近年来,以transformer架构和类似bert的自监督学习目标为基础的视觉语言预训练(vi s ion-and-language pretrai n i ng,vlp)模型取得了重大进展;因此,许多vln模型都将预训练好的视觉语言模型作为基础模型,再经过微调后用来提取视觉语言特征。

    4、现有背景技术中仍有以下不足之处:

    5、1.vln需要海量的数据来微调预训练模型,从而提高模型在复杂多变的真实环境下的泛化能力。然而,由于3d环境的渲染和数据的标注需要耗费大量成本,所以关于视觉语言导航的数据集较为稀缺;因此,高效利用现有数据对于提升视觉语言导航模型的性能具有十分重要的作用;一些预训练任务被提出用于帮助模型适应视觉语言导航任务;指令轨迹匹配用于提高模型将全景图序列与自然语言指令对齐的能力;动作预测用于帮助模型根据当前视觉语言信息预测动作;洗牌损失用于提升模型的时序推理能力;还有一些方法被提出用于增强模型的空间感知能力。

    6、2.上述预训练任务并没有额外关注vln中路径终点和其在自然语言指令中所对应的文本的对齐;在实际导航任务中,人类对终点的重视程度更大的,在大多数情况下,人类对于智能体走错一些中间路径但正确到达终点的结果是可以接受的,但一般很难接受智能体未能正确到达终点的结果;vln中的自然语言指令详细描述了智能体如何一步一步从起点到达终点,如果智能体不能准确到达终点,那么导航一定是失败的,前面所有精确的描述也就都是无效的;因此,对于vln任务,模型对路径终点和其对应文本对齐的权重应当大于对其他视点和其对应文本对齐的权重,对智能体未能正确到达终点的惩罚应当大于对智能体走错中间路径但正确到达终点的惩罚。


    技术实现思路

    1、为了解决上述技术问题,本发明提供一种基于强化终点对齐改进vln-bert的视觉语言导航方法,以解决现有技术中的问题。

    2、本发明技术方案如下:

    3、一种基于强化终点对齐改进vln-bert的视觉语言导航方法,基于vln-bert模型实现,包括以下几个步骤:

    4、步骤1:进行数据预处理;首先从vln数据集中提取路径-指令对,并分别将路径中的全景图序列和自然语言指令进行嵌入操作,得到预处理后的数据集;

    5、步骤2:数据交互;对预处理后数据通过co-trm交互,co-trm采用两个transformer编码器结构用来实现数据的交互;

    6、步骤3:进行四阶段预训练;在vln-bert原有的三阶段通用语言基础、视觉基础和动作基础的预训练基础上增加第四个阶段,第四阶段为强化终点对齐的任务预训练模型,用于强化模型对路径终点的视觉语言对齐;预训练顺序为通用语言基础、视觉基础、动作基础、强化终点对齐;

    7、步骤4:利用路径选择任务对模型进行微调;通过路径选择任务来微调经过四阶段预训练的模型,使模型具备路径选择的能力。

    8、步骤5:进行路径导航与终点确认;使用微调后的模型进行实际的路径导航。并在导航过程中持续与实际环境进行交互和验证。

    9、进一步的,步骤1当中在对模型进行预训练和微调前,需要首先对vln数据集中的信息进行预处理;vln数据集通常由许多路径-指令对组成,其中路径由全景图序列表示;信息的预处理方式包括语言信息处理和视觉信息处理。

    10、进一步的,步骤1中语言信息处理方式如下:

    11、给定一条自然语言指令x=[x1,x2,...,xl],它首先通过词嵌入和位置嵌入被转换为嵌入向量ω=[[cls],ω1,ω2,...,ωl,[sep]];

    12、其中[cls]和[sep]是两个特殊的标记,分别用于表示全局信息和分隔不同的句子,ω是嵌入向量内每条自然语言指令x中对应的单词;然后,嵌入向量被输入到transformer编码器中进行注意力计算。

    13、进一步的,步骤1中视觉信息处理方式如下:

    14、每一条路径t=[p1,p2,...,pm]包含m个全景图像;vln-bert首先使用一个预训练好的fasterr-cnn来提取每一个全景图中的区域特征ri=[r1,r2,...,rk];然后,对于每一个全景图,vln-bert嵌入全景图索引和每个区域的空间信息;最后,将这些嵌入合并,得到每个区域的视觉嵌入:

    15、

    16、其中,是全景图索引嵌入,为区域的空间信息,ws将区域的空间信息映射到高维空间;[img]作为一个特殊的标记被添加到每张全景图特征前,用于提取全局视觉信息;最终的视觉信息为:

    17、

    18、进一步的,步骤2中详细过程如下:

    19、本方法的模型结构与vln-bert相同,经过预处理后的视觉信息和语言信息通过co-trm进行交互;co-trm采用两个transformer编码器结构分别用来处理视觉信息和语言信息;

    20、与transformer编码器不同的是,co-trm在计算视觉流的多头注意力时,采用视觉编码器计算的查询向量和语言编码器计算的键向量和值向量;在计算语言流的多头注意力时,采用语言编码器计算的查询向量和视觉编码器计算的键向量和值向量;通过交换视觉编码器和语言编码器各自的键向量和值向量,co-trm实现了视觉信息和语言信息的交互,计算过程如下:

    21、

    22、其中,q,k,v分别代表查询向量、键向量和值向量,dk代表键向量的维度;本方法将在co-trm中输入[img],[cls]对应的输出作为全局信息,并将其进行矩阵点积后输入到线性映射层,最终输出相似度分数:

    23、

    24、进一步的,步骤3中通用语言基础预训练为:

    25、使用从wi k iped ia提取的文本信息和bookcorpus来预训练语言流模型,使得模型具有通用语言基础,其中预训练方式与bert相同,为掩码语言模型mlm和预测下一句nsp任务;mlm先随机掩盖文本中的部分单词,然后根据上下文信息预测被掩盖的单词,最后通过真实值和预测值的交叉熵损失来预训练模型;

    26、其中,每个序列中15%的单词被随机掩盖,其中80%的单词使用[mask]标记代替,10%的单词使用随机单词来替换,10%的单词不作任何改变;nsp通过选择两个句子来让模型判断二者是否具有上下句关系,其中,这两个句子有50%的概率是上下句关系,另外50%的概率为通过随机选择产生。

    27、进一步的,步骤3中视觉基础预训练为:

    28、从互联网自动获取的包含约330万个图像文本对的conceptua l capt ions数据集预训练模型,让模型从种类丰富的互联网数据中学习视觉基础,为掩码多模态建模mmm和多模态对齐预测map;mmm先随机掩盖部分单词和图像区域,然后同时根据视觉和语言上下文来预测被掩盖的单词和图像区域,最后通过各自的损失函数来预训练模型;

    29、在预测被掩盖的图像区域时,mmm并不直接预测该区域的特征值,而是预测该区域的语义分布,通过最小化真实分布和预测分布的kl散度来预训练模型;而在预测被掩盖的单词时,mmm则采用与mlm相同的损失函数;在map中,正样本为正确的图像-文本对,负样本通过将正样本的图像或文本进行随机替换而形成;本方法先将视觉流的输出和语言流的输出进行矩阵点积,然后通过线性映射输出一个二值变量作为最终结果,即图像和文本是否对齐。

    30、进一步的,步骤3中动作基础预训练为:

    31、使用vln数据集中的路径-指令对来学习动作基础,让模型学习视觉语言导航中常用的动作,包括但不限于“向前走”、“右转”和“停下”,其中预训练方式为mmm。

    32、进一步的,步骤3中强化终点对齐预训练模型为:

    33、使用强化终点对齐任务,通过强化对终点全景图和指令末端文本的对齐来提高模型对终点的重视程度;对于每一个路径-指令对,强化终点对齐任务都创建出三条错误的路径,其中,第一条错误路径在正确路径的基础上删除了终点,第二条错误路径在正确路径的基础上使用其他视点随机替换了终点,第三条错误路径在正确路径的终点后随机添加了一个视点;基于一条正确路径和三条错误路径,强化终点对齐任务利用已经经过三阶段预训练的模型根据自然语言指令对其进行评分,最后通过交叉熵损失来强化模型对路径终点的视觉语言对齐;强化终点对齐任务的实现方式如下:

    34、

    35、

    36、loss=-logp[0]

    37、其中,t为导航路径,p为所在视点的全景图;

    38、score由式进行计算,p为一个向量,loss为强化终点对齐任务的损失函数。

    39、进一步的,步骤4中路径选择微调方法如下:

    40、四阶段预训练过程后,模型具备了通用语言基础和动作基础,并强化了对路径终点的对齐;因此,与vln-bert相同,本方法从波束搜索生成的路径中采样一个正确的路径和三个错误的路径,并通过交叉熵损失来监督模型选择正确的路径。

    41、与现有技术相比,本发明具有如下有益效果:

    42、1、本发明通过预训练数据集,得到了关于视觉和语言导航的数据集,并基于强化终点对齐改进vln-bert的视觉语言导航方法提升了智能体在真实环境中的导航成功率;将vln-bert作为基础模型,还使模型具备了通用语言基础和动作基础。

    43、2、本发明通过将强化终点对齐任务加入到vln-bert的三阶段预训练过程中,形成了四阶段预训练过程,强化了模型对路径终点的视觉语言对齐,提高了智能体在真实环境中的导航成功率;因此,新的模型可以更好地在真实环境中完成导航任务。


    技术特征:

    1.一种基于强化终点对齐改进vln-bert的视觉语言导航方法,基于vln-bert模型实现,其特征在于,包括以下几个步骤;

    2.如权利要求1所述一种基于强化终点对齐改进vln-bert的视觉语言导航方法,其特征在于:所述步骤1当中在对模型进行预训练和微调前,需要首先对vln数据集中的信息进行预处理;vln数据集通常由许多路径-指令对组成,其中路径由全景图序列表示;信息的预处理方式包括语言信息处理和视觉信息处理。

    3.如权利要求2所述一种基于强化终点对齐改进vln-bert的视觉语言导航方法,其特征在于,所述步骤1中语言信息处理方式如下:

    4.如权利要求2所述一种基于强化终点对齐改进vln-bert的视觉语言导航方法,其特征在于,所述步骤1中视觉信息处理方式如下:

    5.如权利要求1所述一种基于强化终点对齐改进vln-bert的视觉语言导航方法,其特征在于,所述步骤2中详细过程如下:

    6.如权利要求1所述一种基于强化终点对齐改进vln-bert的视觉语言导航方法,其特征在于,所述步骤3中通用语言基础预训练为:

    7.如权利要求1所述一种基于强化终点对齐改进vln-bert的视觉语言导航方法,其特征在于,所述步骤3中视觉基础预训练为:

    8.如权利要求1所述一种基于强化终点对齐改进vln-bert的视觉语言导航方法,其特征在于,所述步骤3中动作基础预训练为:

    9.如权利要求1所述一种基于强化终点对齐改进vln-bert的视觉语言导航方法,其特征在于,所述步骤3中强化终点对齐预训练模型为:

    10.如权利要求1所述一种基于强化终点对齐改进vln-bert的视觉语言导航方法,其特征在于,所述步骤4中路径选择微调方法如下:


    技术总结
    本发明属于深度学习和机器人控制技术领域,提供了一种基于强化终点对齐改进VLN‑BERT的视觉语言导航方法,用于机器人的视觉语言导航任务;首先从VLN数据集中提取路径‑指令对,并分别将路径中的全景图序列和自然语言指令进行嵌入操作,得到预处理后的数据集;在VLN‑BERT三阶段预训练的基础上通过强化终点对齐任务预训练模型,强化模型对路径终点的视觉语言对齐,预训练顺序为通用语言基础、视觉基础、动作基础、强化终点对齐;通过路径选择任务来微调经过四阶段预训练的模型,使模型具备路径选择的能力;本发明通过将强化终点对齐任务加入到VLN‑BERT的三阶段预训练过程中,强化了模型对路径终点的视觉语言对齐,提高了智能体在真实环境中的导航成功率。

    技术研发人员:杨博渊,金川,刘若楠,张卫东
    受保护的技术使用者:南京大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-24184.html

    最新回复(0)