本技术涉及车辆,具体而言涉及一种车辆控制方法、车辆控制系统、电子设备及车辆。
背景技术:
1、随着人工智能技术的发展,智能驾驶已经成为了计算机视觉和控制系统中的一个活跃的研究领域。自动驾驶系统包含多个感知级别任务,如车道检测、目标检测、场景理解、深度估计等,以及多个决策级别任务,如轨迹规划、运动控制、行为预测等。这些任务涉及到高维状态空间和连续动作空间的复杂优化问题,需要精细的控制和鲁棒的学习能力。
2、相关技术中,一般固定地通过预定规则来实现控制,无法根据不同的场景与需求来自适应地调整控制策略。而能够自适应地调整控制策略的智能驾驶系统,也往往只关注车辆在行驶过程中的某一特定方面进行控制,控制范围较窄,并且可能会因为盲目追求某一方面的参数而导致其他方面出现问题,进而导致出现安全隐患,降低行驶效率。
技术实现思路
1、在
技术实现要素:
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本技术的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
2、针对目前存在的问题,本技术一方面提供一种车辆控制方法,所述方法包括:获取车辆的状态输入参数,所述状态输入参数包括运动控制参数、舒适度参数与安全度参数;基于所述状态输入参数、目标函数与深度强化学习模型,得到总控制指令;基于所述控制指令控制所述车辆。
3、示例性地,还包括:基于所述状态输入参数、所述目标函数与所述深度强化学习模型,得到总奖励值;基于所述总奖励值更新所述深度强化学习模型的参数。
4、示例性地,所述运动控制参数包括所述车辆采集的图像。
5、示例性地,所述舒适度参数包括以下中的至少一项:所述车辆的内部的温度、湿度、二氧化碳浓度以及所述车辆的颠簸程度。
6、示例性地,所述安全度参数包括以下中的至少一项:所述车辆的周围环境的能见度、降水量以及风速。
7、示例性地,基于所述状态输入参数、目标函数与深度强化学习模型,得到总控制指令,包括:基于所述状态输入参数与所述深度强化学习模型,在卷积神经网络中得到运动控制指令,在全连接层中得到舒适度指令与安全度指令;基于所述运动控制指令、所述舒适度指令、所述安全度指令与所述深度强化学习模型,在自注意力层中得到状态表示向量;基于所述状态表示向量、所述目标函数与所述深度强化学习模型,在多头注意力层中得到运动控制注意力权重、舒适度注意力权重与安全度注意力权重;基于所述运动控制指令与所述运动控制注意力权重、所述舒适度指令与所述舒适度注意力权重、所述安全度指令与所述安全度注意力权重,在加权求和层中得到所述总控制指令。
8、示例性地,基于所述状态输入参数、所述目标函数与所述深度强化学习模型,得到总奖励值,包括:基于所述状态输入参数与所述深度强化学习模型,得到运动控制子奖励值、舒适度子奖励值与安全度子奖励值,在卷积神经网络中得到运动控制指令,在全连接层中得到舒适度指令与安全度指令;基于所述运动控制指令、所述舒适度指令、所述安全度指令与所述深度强化学习模型,在自注意力层中得到状态表示向量;基于所述状态表示向量、所述目标函数与所述深度强化学习模型,在多头注意力层中得到运动控制注意力权重、舒适度注意力权重与安全度注意力权重;基于所述运动控制注意力权重与所述运动控制子奖励值、所述舒适度注意力权重与所述舒适度子奖励值、所述安全度注意力权重与所述安全度子奖励值,在加权求和层中得到所述总奖励值。
9、示例性地,基于所述状态输入参数与所述深度强化学习模型,在卷积神经网络中得到运动控制指令,在全连接层中得到舒适度指令与安全度指令,包括:对所述状态输入参数执行卷积操作,得到特征图;对所述特征图进行归一化处理,得到归一化特征图;对所述归一化特征图进行非线性变换,得到已激活特征图;将所述状态输入参数与所述已激活特征图相加,得到残差特征图;重复上述步骤,直至达到预设网络深度,得到所述运动控制指令、所述舒适度指令与所述安全度指令。
10、本技术另一方面提供一种车辆控制系统,包括:检测模块,用于获取车辆的状态输入参数,所述状态输入参数包括运动控制参数、舒适度参数与安全度参数;深度强化学习模块,用于基于所述状态输入参数、目标函数与深度强化学习模型,得到总控制指令;执行模块,用于基于所述总控制指令控制所述车辆。
11、示例性地,所述深度强化学习模块还用于基于所述状态输入参数、所述目标函数与所述深度强化学习模型,得到总奖励值,并基于所述总奖励值更新所述深度强化学习模型的参数。
12、示例性地,所述运动控制参数包括所述车辆采集的图像。
13、示例性地,所述舒适度参数包括以下中的至少一项:所述车辆的内部的温度、湿度、二氧化碳浓度以及所述车辆的颠簸程度。
14、示例性地,所述安全度参数包括以下中的至少一项:所述车辆的周围环境的能见度、降水量以及风速。
15、示例性地,所述深度强化学习模块包括卷积神经网络、全连接层、自注意力层、多头注意力层与加权求和层,所述深度强化学习模块基于所述状态输入参数、目标函数与深度强化学习模型,得到总控制指令,包括:基于所述状态输入参数与所述深度强化学习模型,在卷积神经网络中得到运动控制指令,在全连接层中得到舒适度指令与安全度指令;基于所述运动控制指令、所述舒适度指令、所述安全度指令与所述深度强化学习模型,在自注意力层中得到状态表示向量;基于所述状态表示向量、所述目标函数与所述深度强化学习模型,在多头注意力层中得到运动控制注意力权重、舒适度注意力权重与安全度注意力权重;基于所述运动控制指令与所述运动控制注意力权重、所述舒适度指令与所述舒适度注意力权重、所述安全度指令与所述安全度注意力权重,在加权求和层中得到总控制指令。
16、示例性地,所述深度强化学习模块包括卷积神经网络、全连接层、自注意力层、多头注意力层与加权求和层,所述深度强化学习模块基于所述状态输入参数、所述目标函数与所述深度强化学习模型,得到总奖励值,包括:基于所述状态输入参数与所述深度强化学习模型,得到运动控制子奖励值、舒适度子奖励值与安全度子奖励值,在卷积神经网络中得到运动控制指令,在全连接层中得到舒适度指令与安全度指令;基于所述运动控制指令、所述舒适度指令、所述安全度指令与所述深度强化学习模型,在自注意力层中得到状态表示向量;基于所述状态表示向量、所述目标函数与所述深度强化学习模型,在多头注意力层中得到运动控制注意力权重、舒适度注意力权重与安全度注意力权重;基于所述运动控制注意力权重与所述运动控制子奖励值、所述舒适度注意力权重与所述舒适度子奖励值、所述安全度注意力权重与所述安全度子奖励值,在加权求和层中得到所述总奖励值。
17、示例性地,其特征在于,所述卷积神经网络与所述全连接层包括残差网络,所述残差网络包括卷积层、批归一化层、激活层与跳跃连接,基于所述状态输入参数与所述深度强化学习模型,在卷积神经网络中得到运动控制指令,在全连接层中得到舒适度指令与安全度指令,包括:通过所述卷积层对所述状态输入参数执行卷积操作,得到特征图;通过所述批归一化层对所述特征图进行归一化处理,得到归一化特征图;通过所述激活层对所述归一化特征图进行非线性变换,得到已激活特征图;通过所述跳跃连接将所述状态输入参数与所述已激活特征图相加,得到残差特征图;重复上述步骤,直至达到预设网络深度,得到所述运动控制指令、所述舒适度指令与所述安全度指令。
18、本技术再一方面提供一种电子设备,包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器运行时,使得所述处理器执行上述的车辆控制方法。
19、本技术又一方面提供一种车辆,其特征在于,所述车辆包括上述的车辆控制系统,或者,包括上述的电子设备。
20、本技术的车辆控制方法、车辆控制系统、电子设备及车辆,能够分别获取运动控制参数、舒适度参数与安全度参数作为输入,并通过目标函数与深度强化学习模型输出总控制指令,进而能够进行多模态、多方面的融合控制,更加全面合理。
1.一种车辆控制方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,还包括:
3.根据权利要求1所述的车辆控制方法,其特征在于,所述运动控制参数包括所述车辆采集的图像。
4.根据权利要求1所述的车辆控制方法,其特征在于,所述舒适度参数包括以下中的至少一项:
5.根据权利要求1所述的车辆控制方法,其特征在于,所述安全度参数包括以下中的至少一项:
6.根据权利要求1所述的车辆控制方法,其特征在于,基于所述状态输入参数、目标函数与深度强化学习模型,得到总控制指令,包括:
7.根据权利要求2所述的车辆控制方法,其特征在于,基于所述状态输入参数、所述目标函数与所述深度强化学习模型,得到总奖励值,包括:
8.根据权利要求6或7所述的车辆控制方法,其特征在于,基于所述状态输入参数与所述深度强化学习模型,在卷积神经网络中得到运动控制指令,在全连接层中得到舒适度指令与安全度指令,包括:
9.一种车辆控制系统,其特征在于,包括:
10.根据权利要求9所述的车辆控制系统,其特征在于,所述深度强化学习模块还用于基于所述状态输入参数、所述目标函数与所述深度强化学习模型,得到总奖励值,并基于所述总奖励值更新所述深度强化学习模型的参数。
11.根据权利要求9所述的车辆控制系统,其特征在于,所述运动控制参数包括所述车辆采集的图像。
12.根据权利要求9所述的车辆控制系统,其特征在于,所述舒适度参数包括以下中的至少一项:
13.根据权利要求9所述的车辆控制系统,其特征在于,所述安全度参数包括以下中的至少一项:
14.根据权利要求9所述的车辆控制系统,其特征在于,所述深度强化学习模块包括卷积神经网络、全连接层、自注意力层、多头注意力层与加权求和层,所述深度强化学习模块基于所述状态输入参数、目标函数与深度强化学习模型,得到总控制指令,包括:
15.根据权利要求10所述的车辆控制系统,其特征在于,所述深度强化学习模块包括卷积神经网络、全连接层、自注意力层、多头注意力层与加权求和层,所述深度强化学习模块基于所述状态输入参数、所述目标函数与所述深度强化学习模型,得到总奖励值,包括:
16.根据权利要求14或15所述的车辆控制系统,其特征在于,所述卷积神经网络与所述全连接层包括残差网络,所述残差网络包括卷积层、批归一化层、激活层与跳跃连接,基于所述状态输入参数与所述深度强化学习模型,在卷积神经网络中得到运动控制指令,在全连接层中得到舒适度指令与安全度指令,包括:
17.一种电子设备,其特征在于,包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器运行时,使得所述处理器执行权利要求1-8中的任一项所述的车辆控制方法。
18.一种车辆,其特征在于,所述车辆包括权利要求9-16中的任一项所述的车辆控制系统,或者,包括权利要求17所述的电子设备。