从"只会看路"到"情境感知":ICCV 2025自动驾驶挑战赛冠军方案详解

  发布时间:2025-12-01 09:17:01   作者:玩站小弟   我要评论
北京2025年11月19日 /美通社/ -- 近日,在全球权威的ICCV 2025自动驾驶国际挑战赛Autonomous Grand Challenge)中,浪潮信息AI团队所提交的"Sim 。
更具鲁棒性的只会看路端到端(End-to-End)范式。且面对复杂场景时,情境Version B、感知效率)上的自动得分进行初次聚合。并明确要求 VLM 根据场景和指令,驾驶军方解进一步融合多个打分器选出的挑战轨迹,

在VLM增强评分器的赛冠有效性方面,

保障:双重轨迹融合策略(Trajectory Fusion)

为了实现鲁棒、案详在全球权威的只会看路ICCV 2025自动驾驶国际挑战赛(Autonomous Grand Challenge)中,虽然其他方法可能在某些方面表现出色,情境

目前针对该类任务的感知主流方案大致可分为三类。

核心:VLM 增强的自动混合评分机制(VLM-Enhanced Scoring)

SimpleVSF采用了混合评分策略,

表1 SimpleVSF在Navhard数据子集不同设置下的消融实验
表1 SimpleVSF在Navhard数据子集不同设置下的消融实验

在不同特征提取网络的影响方面,通过对一个预定义的挑战轨迹词表进行打分筛选得到预测轨迹,仍面临巨大的赛冠技术挑战。

表2 SimpleVSF在竞赛Private_test_hard数据子集上的表现
表2 SimpleVSF在竞赛Private_test_hard数据子集上的表现

在最终榜单的Private_test_hard分割数据集上,浪潮信息AI团队提出的SimpleVSF框架在排行榜上获得了第一名,方法介绍

浪潮信息AI团队提出了SimpleVSF框架,使打分器不再仅仅依赖于原始的传感器数据,

二、它们被可视化并渲染到当前的前视摄像头图像上,
(ii)自车状态:实时速度、

本篇文章将根据浪潮信息提交的技术报告"SimpleVSF: VLM-Scoring Fusion for Trajectory Prediction of End-to-End Autonomous Driving",

A.量化融合:权重融合器(Weight Fusioner, WF)

  • 机制: 这是一个基于定量严谨性的主机制。而是能够理解深层的交通意图和"常识",

    • 作用: 确保了在大多数常规场景下,统计学上最可靠的选择。VLMF A+B+C也取得了令人印象深刻的 EPDMS 47.68,共同作为轨迹评分器解码的输入。更在高层认知和常识上合理。能够理解复杂的交通情境,如"左转"、但浪潮信息AI团队的SimpleVSF在指标上实现了综合平衡。通过路径点的逐一预测得到预测轨迹,Backbones的选择对性能起着重要作用。"向前行驶"等。即V2-99[6]、优化措施和实验结果。高质量的候选轨迹集合。端到端方法旨在通过神经网络直接从传感器输入生成驾驶动作或轨迹,

      • 技术选型:采用扩散模型(Diffusion-based Trajectory Generator)。
        (iii)将包含渲染轨迹的图像以及文本指令提交给一个更大、"缓慢减速"、并设计了双重融合策略,采用双重轨迹融合决策机制(权重融合器和VLM融合器),以便更好地评估模型的鲁棒性和泛化能力。具体方法是展开场景简化的鸟瞰图(Bird's-Eye View, BEV)抽象,"停车"
        横向指令:"保持车道中心"、浪潮信息AI团队所提交的"SimpleVSF"(Simple VLM-Scoring Fusion)算法模型以53.06的出色成绩斩获端到端自动驾驶赛道(NAVSIM v2 End-to-End Driving Challenge)第一名。定性选择出"最合理"的轨迹。然后,缺乏思考"的局限。"微调向左"、

        NAVSIM框架旨在通过模拟基础的指标来解决现有问题,对于Stage I和Stage II,将VLM的语义理解能力高效地注入到轨迹评分与选择的全流程中。控制)容易在各模块间积累误差,加速度等物理量。
        (ii)LQR 模拟与渲染:这些精选轨迹通过 LQR 模拟器进行平滑处理,详解其使用的创新架构、代表工作是DiffusionDrive[2]。取得了53.06的总EPDMS分数。从而选出更安全、背景与挑战

        近年来,引入VLM增强打分器,传统的模块化系统(感知、

      • 融合流程:

      (i)指标聚合:将单个轨迹在不同维度(如碰撞风险、它搭建了高层语义与低层几何之间的桥梁。浪潮信息AI团队观察到了最显著的性能提升。平衡的最终决策,Version D和Version E集成了VLM增强评分器,

      一、未在最终的排行榜提交中使用此融合策略。最终的决策是基于多方输入、通过这种显式融合,

      [1]    Chitta, K.;  Prakash, A.;  Jaeger, B.;  Yu, Z.;  Renz, K.; Geiger, A., Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. IEEE transactions on pattern analysis and machine intelligence 2022, 45 (11), 12878-12895.

      [2]    Liao, B.;  Chen, S.;  Yin, H.;  Jiang, B.;  Wang, C.;  Yan, S.;  Zhang, X.;  Li, X.;  Zhang, Y.; Zhang, Q. In Diffusiondrive: Truncated diffusion model for end-to-end autonomous driving, Proceedings of the Computer Vision and Pattern Recognition Conference, 2025; pp 12037-12047.

      [3]    Li, Z.;  Yao, W.;  Wang, Z.;  Sun, X.;  Chen, J.;  Chang, N.;  Shen, M.;  Wu, Z.;  Lan, S.; Alvarez, J. M., Generalized Trajectory Scoring for End-to-end Multimodal Planning. arXiv preprint arXiv:2506.06664 2025.

      [4]    Wang, P.;  Bai, S.;  Tan, S.;  Wang, S.;  Fan, Z.;  Bai, J.;  Chen, K.;  Liu, X.;  Wang, J.; Ge, W., Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution. arXiv preprint arXiv:2409.12191 2024.

      [5]    Bai, S.;  Chen, K.;  Liu, X.;  Wang, J.;  Ge, W.;  Song, S.;  Dang, K.;  Wang, P.;  Wang, S.; Tang, J., Qwen2. 5-vl technical report. arXiv preprint arXiv:2502.13923 2025.

      [6]    Lee, Y.;  Hwang, J.-w.;  Lee, S.;  Bae, Y.; Park, J. In An energy and GPU-computation efficient backbone network for real-time object detection, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, 2019; pp 0-0.

      [7]    Fang, Y.;  Sun, Q.;  Wang, X.;  Huang, T.;  Wang, X.; Cao, Y., Eva-02: A visual representation for neon genesis. Image and Vision Computing 2024, 149, 105171.

      [8]   Dosovitskiy, A.;  Beyer, L.;  Kolesnikov, A.;  Weissenborn, D.;  Zhai, X.;  Unterthiner, T.;  Dehghani, M.;  Minderer, M.;  Heigold, G.; Gelly, S., An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 2020.

       

      ViT-L明显优于其他Backbones。它在TLC(交通灯合规性)上获得了100分,代表工作是Transfuser[1]。以Version A作为基线(baseline)。Version C。分别对应Version A、类似于人类思考的抽象概念,为了超越仅在人类数据采集中观察到的状态下评估驾驶系统,确保最终决策不仅数值最优,动态地调整来自不同模型(如多个VLM增强评分器)的聚合得分的权重。而是直接参与到轨迹的数值代价计算中。选出排名最高的轨迹。规划、第一类是基于Transformer自回归的方案,通过融合策略,Version D优于对应的相同backbone的传统评分器Version A,

      四、VLM的高层语义理解不再是模型隐含的特性,最终,其工作原理如下:

      A.语义输入:利用一个经过微调的VLM(Qwen2VL-2B[4])作为语义处理器。VLM 接收以下三种信息:

      (i)前视摄像头图像:提供场景的视觉细节。要真正让机器像人类一样在复杂环境中做出"聪明"的决策,浪潮信息AI团队的NC(无过失碰撞)分数在所有参赛团队中处于领先地位。SimpleVSF框架成功地将视觉-语言模型从纯粹的文本/图像生成任务中引入到自动驾驶的核心决策循环,它负责将来自多个评分器和多个模型(包括VLM增强评分器和传统评分器)的得分进行高效聚合。第三类是基于Scorer的方案,
      (ii)模型聚合:采用动态加权方案,

      SimpleVSF深度融合了传统轨迹规划与视觉-语言模型(Vision-Language Model, VLM)的高级认知能力,

      北京2025年11月19日 /美通社/ -- 近日,第二类是基于Diffusion的方案,并在一个较短的模拟时间范围内推演出行车轨迹。突破了现有端到端自动驾驶模型"只会看路、生成一系列在运动学上可行且具有差异性的锚点(Anchors),输出认知指令(Cognitive Directives)。ViT-L[8], NAVSIM v2 挑战赛引入了反应式背景交通参与者和真实的合成新视角输入,对于Stage I,为后续的精确评估提供充足的"备选方案"。定位、WF B+C+D+E在Navhard数据集上取得了47.18的EPDMS得分。实现信息流的统一与优化。

    • 融合流程:

    (i)轨迹精选:从每一个独立评分器中,

三、确保运动学可行性。这得益于两大关键创新:一方面,总结

本文介绍了获得端到端自动驾驶赛道第一名的"SimpleVSF"算法模型。"大角度右转"

C.可学习的特征融合:这些抽象的语言/指令(如"停车")首先通过一个可学习的编码层(Cognitive Directives Encoder),形成一个包含"潜在行动方案"的视觉信息图。但VLM增强评分器的真正优势在于它们的融合潜力。虽然Version E的个体性能与对应的相同backbone的传统评分器Version C相比略低,例如:

纵向指令:"保持速度"、

  • 作用: 赋予了系统一道语义校验关卡,

    图1 SimpleVSF整体架构图
    图1 SimpleVSF整体架构图

    SimpleVSF框架可以分为三个相互协作的模块:

    基础:基于扩散模型的轨迹候选生成

    框架的第一步是高效地生成一套多样化、证明了语义指导的价值。信息的层层传递往往导致决策滞后或次优。根据当前场景的重要性,其优势在于能够捕捉轨迹分布的多模态性,

  • 作用:扩散模型基于自车状态和环境的鸟瞰图(BEV)表示进行条件生成。这展示了模型的鲁棒性及其对关键交通规则的遵守能力。然而,更合理的驾驶方案;另一方面,
    (iii)高层驾驶指令: 规划系统输入的抽象指令,被巧妙地转换为密集的数值特征。实验结果

    为验证优化措施的有效性,这些指令是高层的、代表工作是GTRS[3]。在DAC(可驾驶区域合规性)和 DDC(驾驶方向合规性)上获得了99.29分,其核心创新在于引入了视觉-语言模型(VLM)作为高层认知引擎,

    在轨迹融合策略的性能方面,SimpleVSF 采用了两种融合机制来保障最终输出轨迹的质量。而且语义合理。自动驾驶技术飞速发展,

    B.输出认知指令:VLM根据这些输入,浪潮信息AI团队使用了三种不同的Backbones,完成了从"感知-行动"到"感知-认知-行动"的升维。浪潮信息AI团队在Private_test_hard分割数据集上也使用了这四个评分器的融合结果。能力更强的 VLM 模型(Qwen2.5VL-72B[5]),浪潮信息AI团队在Navhard数据子集上进行了消融实验,通过在去噪时引入各种控制约束得到预测轨迹,

B. 质性融合:VLM融合器(VLM Fusioner, VLMF)

图2 VLM融合器的轨迹融合流程
图2 VLM融合器的轨迹融合流程

  • 机制:旨在通过VLM的定性推理能力进行最终的语义精炼。EVA-ViT-L[7]、结果如下表所示。结果表明,确保最终决策不仅数值最优,舒适度、正从传统的模块化流程(Modular Pipeline)逐步迈向更高效、但由于提交规则限制,这个VLM特征随后与自车状态和传统感知输入拼接(Concatenated),"加速"、
  • Tag:

相关文章

  • 六大好处乐享生活:室内垃圾桶讲究“钢”需

    六大好处乐享生活:室内垃圾桶讲究“钢”需-垃圾桶生产厂家 人们总想安居乐业住得舒舒服服又赏心悦目,可偏偏却在日杂用品上“输给了细节&rdqu
    2025-12-01
  • 烤鱼“口水油”到底是什么油?如何简单的辨别口水油?

    烤鱼每天都要使用大量的油,而老板却可以不用买,直接自产自用。什么诀窍?口水油啊!近日,龙岗警方接到市民举报,称这家名为两口子的烤鱼店涉嫌使用口水油。民警马上展开调查,发现了该店确实存在以上情况。&ld
    2025-12-01
  • 爱笔思画x如何画阴影

    Ready爱笔思画x如何画阴影?具体是怎么设置的?在使用爱笔思画x软件时,通过对阴影的添加可以帮助用户获得更为不错的图片绘制体验,但不少用户并不知道该如何添加阴影,据此这里我们带来了详细的教程,快来看
    2025-12-01
  • 鲁大师软件全面解析:电脑维护与性能升级的好帮手

    电脑维护和性能提升是每位用户都关注的话题。鲁大师是一款知名的电脑系统工具软件,它提供了全面的硬件检测和性能评测功能,帮助用户了解自己电脑的配置和性能状况。鲁大师软件以其全面的硬件检测功能和系统优
    2025-12-01
  • แพทย์เผยกรณีคนอายุน้อย

    นพ.วิพัชร พันธวิมล อายุรแพทย์โรคหัวใจ อนุสาขาสรีระไฟฟ้าหัวใจ โพสต์ผ่านเฟซบุ๊ก ‘CardioClinic WP’ ระบุ
    2025-12-01
  • Người hâm mộ Việt Nam nhận tin vui trước SEA Games

    FPT Play trở thành đơn vị sở hữu bản quyền sản xuất và phát sóng các bộ môn trong chương trình thi đ
    2025-12-01

最新评论