2、VLA(vision language action):自动驾驶端到端2.0时代的一个技术方向,目前比较火热,早先应用于智能机器人等具身智能领域。 VLA的核心是L,大语言模型(LLM)。通过大语言模型的多模态和通用性特征,训练各类用于自动驾驶的不同维度的数据,达到拟人化的驾驶输出。 这一点有别于目前各家端到端1.0架构,端到端1.0主要是视觉神经网络模型,以视频数据训练为主干网络,模仿人类开车的方式和习惯。能实现动态场景行驶高度拟人化,但不具备长思考和长时序理解决策,在部分长距离静态场景中,无法达到满意的效果。