本发明涉及自动驾驶,尤其涉及基于驾驶意图和深度强化学习的智能汽车决策方法。
背景技术:
1、决策系统是智能驾驶系统中承上启下的一环,面对日益复杂的交通环境,能够极大地帮助驾驶员在各种复杂工况下进行决策,提高行驶效率,可以避免驾驶员操作失误导致的事故,并能够在一定程度上缓解交通压力。因此,构建一种可靠、高效的决策模型变得至关重要。传统的基于规则或基于优化等非学习模型的决策方法通常需要针对场景手动设计驾驶策略,在复杂任务中无法很好地发挥作用,存在一定缺陷。而近年来基于深度强化学习的决策方法迅速发展,在复杂环境下拥有较强的决策能力,而在一些不确定性环境下,通常需要通过一些辅助学习的手段引导其更好地完成决策任务。
2、面对一些车流密集车流行驶缓慢的强交互场景,由于周围驾驶员行为的不确定性,大大提高了其决策难度,这些不确定的行为特征无法直接观测得到,且不同类型车辆之间的行为表现也不同,如果仅仅利用单独的强化学习通过交互数据进行学习很难获得一个较好的决策表现,甚至会出现机器人冻结的情况,学习效率低下。
3、通过车辆行车数据能够提前判断出该驾驶员的驾驶意图,通过其驾驶意图可以推断其未来不确定的行为,而从车辆的类型与转向信号也可以作为判断其驾驶行为走向的依据,从而获得其驾驶意图。通过驾驶意图辅助决策能够大大提高强化学习的学习效率与决策的安全性、高效性。
技术实现思路
1、鉴于上述现有存在的问题,提出了本发明。
2、因此,本发明提供了基于驾驶意图和深度强化学习的智能汽车决策方法,能够解决方法由于周围驾驶员驾驶行为的不确定性,很难在这些场景中学习到一个优异的驾驶策略,学习效率低下,甚至无法收敛的问题。
3、利用神经网络搭建意图推理模型,设置驾驶员模型并获取自动驾驶汽车行驶时周围车辆历史感知信息以及驾驶员意图分类,制作数据集;
4、通过初始化意图推理神经网络参数,对神经网络训练超参数进行设定,基于数据集进行数据处理并输入至意图推理神经网络中进行训练,获得收敛的意图推理模型;
5、面向自动驾驶汽车基于强化学习rainbowdqn算法,利用神经网络搭建不同驾驶场景下的强化学习决策模型,并进行随机初始化,针对不同驾驶场景设计不同的奖励函数与状态空间;
6、获取智能汽车和周围车辆的当前车辆状态与历史感知信息,利用意图推理模型推理周围驾驶员的驾驶意图,将周围车辆类型与转向信号进行标签化作为辅助驾驶意图辨别;
7、对于不同的驾驶场景调用对应收敛的强化学习决策模型,获取自动驾驶汽车的实时交通状态并作为强化学习决策模型的输入,决策模型从动作空间中选择出最佳决策动作,由底层规划控制模块负责动作执行。
8、作为本发明所述的基于驾驶意图和深度强化学习的智能汽车决策方法的一种优选方案,其中:所述驾驶员模型包括,利用智能驾驶模型idm调整周围车辆驾驶的激进与保守程度,自动驾驶汽车并道时激进车辆需无视换道行为,而保守车辆需屈服让行,原理如下式所示:
9、
10、式中,为期望车速,g表示车辆间的车头间距,和分别表示速度与加速度,g0为堵塞距离,t为期望时距,a表示最大加速度,b表示期望减速度,δ表示加速度指数,是两车相对车速;
11、其中,保守驾驶员在自动驾驶车辆开始合并时将自车检测为前车,而激进驾驶员在自动驾驶车辆进入本车道后才会将自车检测为前车。
12、作为本发明所述的基于驾驶意图和深度强化学习的智能汽车决策方法的一种优选方案,其中:所述驾驶员模型还包括,在车道合并场景中收集周围车辆的历史感知信息与设定的激进与保守驾驶意图分类信息,将每个周期所收集的数据按照先后顺序,以1s为一组进行划分并制作数据集;使用lstm网络、全连接网络与卷积神经网络组合成图结构网络搭建意图推理模型,并利用自注意力机制对信息进行筛选。
13、作为本发明所述的基于驾驶意图和深度强化学习的智能汽车决策方法的一种优选方案,其中:所述驾驶员模型还包括,利用潜在状态的推理来辅助强化学习决策,且只考虑自车周围五辆车的潜在状态,潜在状态推理的目标是学习观测到潜在状态的映射,即其中是自车到时间t的历史观测,用表示第i辆车的潜在状态,是推理网络的参数,假设周围驾驶员的真实潜在状态在训练时已知,利用监督学习训练潜在状态推理网络,在测试时利用推理网络得到推理后的潜在状态代替真实潜在状态,潜在状态推理网络以最大化对数似然目标:
14、
15、式中,d表示全局的历史观测,即车辆的所有历史观测信息,表示在d的范围内对求期望;
16、所收集车辆的观测状态信息如下所示:
17、
18、式中,t表示获取信息的时刻,x,y,vx,vy分别表示所收集车辆的横纵向位置与速度,i则表示车辆的编号,i=0时表示为自车;
19、利用图结构表示每辆车在时间和空间上的交互关系,图结构中的节点为每一辆车观测信息,每辆车与其他车辆之间的相对位置和运动状态设置为空间边,而同一辆车在不同时间点上的状态和行为设置为时间边,合并场景中以自车为中心进行图结构的构建,公式表示为gt=(nveh,espa,etem),其中nveh表示周围车辆的节点,espa表示空间边,etem表示各自车辆在时间点上的时间边,时空交互特征用于建立车辆之间的关系图,在时刻t,车辆i与车辆j之间的空间边如下式所示:
20、
21、式中,和表示车辆i相对于车辆j的横纵向距离,则表示车辆i相对于车辆j的速度差,通过这个公式可以计算出车辆i与车辆j在时刻t的空间交互特征在时刻t,车辆i的时间边由下式所示:
22、
23、其中,表示在时刻t,车辆i在时间维度上的交互特征,由前一时刻和当前时刻的特征来计算得到;所有图结构中的节点与边输入至lstm网络进行编码,并各自分配一个独立的lstm层,在编码过程中,除了自车特征外,所有车辆的相同特征类型共享lstm参数,利用标准化层进行层标准化;lstm的输出用作gt中对应车辆节点的初始嵌入,将不同车辆的信息进行聚合后通过卷积神经网络更新节点嵌入,将来自卷积网络的更新嵌入馈送到相应的顶层lstm;
24、在时间边etem与空间边espa经过编码整合处理后,利用软自注意力机制自动学习关注重点和权重分配,筛选每个车辆的交互特征,通过对观测数据的处理分析,捕捉每辆车的驾驶行为特征,推测驾驶意图,并直接拓展状态空间,辅助驾驶意图辨别。
25、作为本发明所述的基于驾驶意图和深度强化学习的智能汽车决策方法的一种优选方案,其中:所述初始化意图推理神经网络参数包括,随机初始化意图推理模型的神经网络参数,并设置其优化器为adam,学习率为0.0001,在训练回合数为200回合,损失函数为交叉熵,训练过程中每50回合学习率降低为原来的一半;
26、将数据集中的车辆历史序列信息分为整理为车辆位置和速度信息、空间上车辆之间的相对位置和速度信息以及每个车辆在时间上的相对速度信息,分别对应意图推理网络中图结构网络的点与两个边,并将处理后的数据集输入至意图推理模型中进行训练,获得收敛的意图推理模型。
27、作为本发明所述的基于驾驶意图和深度强化学习的智能汽车决策方法的一种优选方案,其中:所述搭建不同驾驶场景下的强化学习决策模型包括,根据场景将主车与周围车辆的当前状态与相对位置、速度以及通过意图推理模型获取的车辆驾驶意图与利用感知信息中所获取的车辆类型与转向灯信号的标签化信息分别拓展状态空间,输入至强化学习算法的神经网络中,同时搭建主网络和目标网络,每隔一定回合利用主网络参数对目标网络进行更新,借助目标网络得到所需要的td误差的值,计算公式如下:
28、δrainbowdqn=rt+1+γ(1-d)maxa'qθ-(s',a')-qθ(s,a)
29、式中,δ表示td误差;rt+1表示第t+1时刻的奖赏值;γ表示折扣因子;d为样本终止的标志符,若d的值取为1,则表示样本达到终止,否则d的值取为0;θ和θ-分别表示主网络和目标网络的参数;q表示动作值函数;s表示状态信息;a表示动作,qθ(s,a)表示主网络在状态动作对为(s,a)时输出的动作值,s',a'表示下一时刻的(s,a);
30、利用经验回放的方法,将训练过程中所得到的交互样本数据存放在经验池,随机选取一个批次样本对主网络进行训练,同时损失函数通过td误差获得,用梯度下降法对主网络的参数进行更新,公式如下:
31、
32、式中,n表示一个批次的样本数量,di表示第i时刻的标识符。
33、作为本发明所述的基于驾驶意图和深度强化学习的智能汽车决策方法的一种优选方案,其中:所述搭建不同驾驶场景下的强化学习决策模型还包括,根据场景设置奖励函数,针对不同行为进行有效引导,具体奖励设计如下所示:
34、速度奖励:
35、
36、其中vego表示自动驾驶汽车当前的速度,vdes表示自动驾驶汽车的期望速度,根据车流下车辆的平均速度,取为7m/s,当自动驾驶车辆速度高于期望速度越高,奖励越高;
37、舒适度奖励:
38、
39、其中,rlc为换道奖励,为惩罚频繁换道行为;
40、终止奖励:
41、
42、综合奖励表达式如下所示:
43、rtotal=rv+rlc+rg
44、强化学习算法输出决策动作并由底层规划控制模块执行,将决策周期内的当前状态、动作、奖励、下一状态以及是否终止的信息以马尔科夫决策信息链si,ai,ri,si+1,di)的形式存储,作为强化学习训练优先批量采样的经验池。
45、作为本发明所述的基于驾驶意图和深度强化学习的智能汽车决策方法的一种优选方案,其中:所述意图推理模型包括,初始化强化学习中神经网络参数,设置强化学习超参数,加载收敛的意图推理网络模型参数,初始化场景、车辆状态,根据场景选择收集历史感知信息并使用意图推理模型获得车辆驾驶意图或直接获取车辆类型与转向信号进行标签化拓展状态空间,根据当前状态si,利用rainbowdqn中的噪声网络的特性选取动作ai;
46、车辆在当前状态si采取的动作ai执行,并转移到下一状态si+1,根据设定的奖励函数对当前采取的动作ai进行评估,获得当前状态与动作对应的奖励值ri,其中的当前状态、动作、奖励、下一状态以及是否终止的信息以马尔科夫决策信息链(si,ai,ri,si+1,di)的形式按照计算的损失权重存储在优先采样经验池中,在优先采样经验池中根据所设定的批量数按照损失权重进行优先经验采样,利用损失函数计算每个批次的偏差进行梯度反向传播,拟合最优决策方案,优化强化学习中神经网络参数;自动驾驶车辆发生碰撞、到达目标点或到达限定时间即为回合终止,并开始新回合的训练;重复上述步骤至强化学习模型收敛,获得收敛的强化学习模型;
47、所述强化学习决策模型包括,根据场景调用意图推理模型或对车辆类型与转向信号进行标签化,具体为利用不同数值对应不同驾驶意图标签与类别标签,通过神经网络进行辨别,并调用当前场景对应的收敛的强化学习决策模型,根据场景获取自动驾驶汽车与周围车辆的实时交互状态与历史感知信息,选择通过意图推理模型或车辆标签化获取周围车辆驾驶意图拓展状态空间并输入至强化学习决策模型,强化学习决策模型选择动作空间中的最佳决策动作,并输入至底层规划控制模型执行,车辆状态更新选择出最佳决策动作;重复上述步骤,完成自动驾驶汽车决策。
48、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现基于驾驶意图和深度强化学习的智能汽车决策方法的步骤。
49、一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现基于驾驶意图和深度强化学习的智能汽车决策方法的步骤。
50、本发明的有益效果:本发明基于idm的拓展模型设置激进与保守驾驶员,并设计车流密集的强交互场景进行数据集采取,利用神经网络搭建意图推理模型,通过自采数据集进行训练,获得能够准确推理周围驾驶员驾驶意图的意图推理模型。通过感知信息直接获取车辆类型与车辆转向灯信号,并进行标签化处理,强化学习从中获取周围驾驶员的驾驶意图。
51、本发明通过利用直接利用驾驶意图作为额外的先验知识拓展强化学习状态空间,在训练过程中对强化学习进行引导,提高模型的探索效率与收敛速度,解决了单独的强化学习在面对车辆密集复杂场景时难以收敛的问题。本发明的初始验证结果表明了所提出的基于驾驶意图和深度强化学习的智能汽车决策方法较单独的强化学习方法在决策安全性、效率性上有较大提升。
52、本发明采用离散强化学习算法rainbowdqn构建决策模型,是一种以dqn算法为基础的变种算法,同时集合了六种dqn变种算法的优势,相较于其他的dqn变种算法在模型收敛速度、收敛效果上有着更加优异的表现,其输出离散动作可以为底层规控模块提供决策引导,从而避免了端到端的强化学习方法从感知端到执行端进行大跨度决策的低应用性和低安全性问题。
1.基于驾驶意图和深度强化学习的智能汽车决策方法,其特征在于:包括,
2.如权利要求1所述的基于驾驶意图和深度强化学习的智能汽车决策方法,其特征在于:所述驾驶员模型包括,利用智能驾驶模型idm调整周围车辆驾驶的激进与保守程度,自动驾驶汽车并道时激进车辆需无视换道行为,而保守车辆需屈服让行,原理如下式所示:
3.如权利要求2所述的基于驾驶意图和深度强化学习的智能汽车决策方法,其特征在于:所述驾驶员模型还包括,在车道合并场景中收集周围车辆的历史感知信息与设定的激进与保守驾驶意图分类信息,将每个周期所收集的数据按照先后顺序,以1s为一组进行划分并制作数据集;使用lstm网络、全连接网络与卷积神经网络组合成图结构网络搭建意图推理模型,并利用自注意力机制对信息进行筛选。
4.如权利要求3所述的基于驾驶意图和深度强化学习的智能汽车决策方法,其特征在于:所述驾驶员模型还包括,利用潜在状态的推理来辅助强化学习决策,且只考虑自车周围五辆车的潜在状态,潜在状态推理的目标是学习观测到潜在状态的映射,即其中是自车到时间t的历史观测,用表示第i辆车的潜在状态,是推理网络的参数,假设周围驾驶员的真实潜在状态在训练时已知,利用监督学习训练潜在状态推理网络,在测试时利用推理网络得到推理后的潜在状态代替真实潜在状态,潜在状态推理网络以最大化对数似然目标:
5.如权利要求4所述的基于驾驶意图和深度强化学习的智能汽车决策方法,其特征在于:所述初始化意图推理神经网络参数包括,随机初始化意图推理模型的神经网络参数,并设置其优化器为adam,学习率为0.0001,在训练回合数为200回合,损失函数为交叉熵,训练过程中每50回合学习率降低为原来的一半;
6.如权利要求5所述的基于驾驶意图和深度强化学习的智能汽车决策方法,其特征在于:所述搭建不同驾驶场景下的强化学习决策模型包括,根据场景将主车与周围车辆的当前状态与相对位置、速度以及通过意图推理模型获取的车辆驾驶意图与利用感知信息中所获取的车辆类型与转向灯信号的标签化信息分别拓展状态空间,输入至强化学习算法的神经网络中,同时搭建主网络和目标网络,每隔一定回合利用主网络参数对目标网络进行更新,借助目标网络得到所需要的td误差的值,计算公式如下:
7.如权利要求6所述的基于驾驶意图和深度强化学习的智能汽车决策方法,其特征在于:所述搭建不同驾驶场景下的强化学习决策模型还包括,根据场景设置奖励函数,针对不同行为进行有效引导,具体奖励设计如下所示:
8.如权利要求7所述的基于驾驶意图和深度强化学习的智能汽车决策方法,其特征在于:所述意图推理模型包括,初始化强化学习中神经网络参数,设置强化学习超参数,加载收敛的意图推理网络模型参数,初始化场景、车辆状态,根据场景选择收集历史感知信息并使用意图推理模型获得车辆驾驶意图或直接获取车辆类型与转向信号进行标签化拓展状态空间,根据当前状态si,利用rainbowdqn中的噪声网络的特性选取动作ai;
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
