自动驾驶端到端模型,正在被一个“隐形的天花板”卡住。模型越来越大,数据越喂越多,但规划轨迹总在复杂场景里出现诡异漂移。问题不在规划头,而在视觉信息传递的“咽喉要道”—— 场景 token 瓶颈。
我们拆解这篇技术工作,看看它如何用一个巧妙的训练信号,逼着紧凑的场景 token 记住更多关键信息,在 Waymo 和 NavSim 榜单上跑出 SOTA,甚至部署到了实车上。
核心痛点:你的场景 token 在“摸鱼”
感知无关的端到端自动驾驶,主流玩法是用 ViT 把多视角图像打成密密麻麻的 patch token,再压缩成一小撮“场景 token”(scene token)喂给规划器。这本质上是一个多对一的极限压缩 —— 几百上千个 patch token,挤进 16 个场景 token 里,然后让规划器仅凭这点信息输出未来轨迹。
问题来了:谁来监督这个压缩过程?现有方法只靠轨迹回归损失和候选评分损失来间接约束。这就好比只告诉一个快递分拣员“最后包裹要准时送到”,却不告诉他哪些包裹里的东西易碎、哪些需要冷链。分拣员很快学会偷懒 —— 把所有包裹都堆在一起,反正都能送到。
图 1
图 1
图:场景 token 行为诊断。左侧 baseline 的 token 注意力高度重叠,相似度矩阵一片“全黄”;右侧 NTR 在语义监督下,token 各自聚焦不同结构化元素,相似度矩阵呈现丰富的多样化模式。
这是这篇工作最精彩的开场。左侧 (baseline) 的场景 token,注意力区域高度重叠 —— 好几个 token 盯着同一块地方,相似度矩阵几乎是均匀高相似的全黄色。这意味着 16 个 token 里可能只有 2-3 个在真正干活,其余都在输出冗余信息。右侧 NTR 方法下,每个 token 开始“术业有专攻”:有的盯车道线,有的盯前车,有的盯交通标志。相似度矩阵从“黄色暖昧”变成“蓝绿黄相间的冷静距离感”—— 表征多样性显著提升。
这不是架构问题,是训练信号问题。 没有直接约束压缩过程,token 自然会坍缩成最简单的冗余编码。
原理拆解:如何让 token“卷”起来?
整体框架:训练时塞进一个“信息审计”
NTR 的核心思路很朴素:既然规划损失太稀疏,那就给场景 token 再加一个密集的重建监督。 但注意,它不是重建原始图像,而是重建被 mask 掉的教师模型特征 —— 一种潜在空间的自蒸馏。而且整个重建分支只在训练时存在,推理时原封不动去掉,零额外开销。
看整体架构就一目了然
图 2
图:NTR 整体框架。(a) 紧凑场景 token 规划器将多视图 patch 压缩为场景 token,驱动轨迹生成与打分;(b) 神经 token 重建仅以场景 token 为记忆,重建被 mask 的教师特征;(c) 基于提示的语义先验利用基础模型生成语义掩码,引导重建目标聚焦驾驶关键区域。
框架分三块:
(a) 就是标准的 DrivoR 风格规划器:多视图 → patch token → 场景 token → 轨迹生成 + 评分。这是不变的基底。
(b) 是 NTR 的核心插入 —— 一个仅在训练时激活的重建解码器。它的输入只有场景 token 和 mask 位置的位置编码,必须仅凭这些信息重建对应位置的教师模型特征。
**(c)** 是语义先验模块:用预训练的 SAM3 跑一遍图像,得到车辆、行人、车道、交通灯等驾驶关键区域的 mask,指导重建位置的选择。关键设计:重建解码器只通过交叉注意力访问场景 token,不能直接看在线编码器的密集 patch 输出。 这意味着重建损失的回传梯度必须经过场景 token 瓶颈,相当于给瓶颈装了一个“信息审计系统”:如果你没保留足够细节,就别想重建出来。
潜变量重建:为什么重建教师特征而非原始像素?
这里有一个精妙的设计选择。NTR 不重建 RGB 像素,而是重建教师 ViT 输出的潜变量特征。
教师模型是在线编码器的 EMA(指数移动平均)副本,参数缓慢跟随在线模型,提供稳定的、高质量的“参考答案”。在线模型处理 mask 后的图像,它的场景 token 必须重建出这些被 mask 位置的教师特征。
为什么选潜变量而非像素?两个理由:
1、像素重建是低级视觉任务,大量监督信号会浪费在背景纹理、天空渐变上。潜变量特征已经过 ViT 编码,更侧重语义和结构信息。
2、EMA 教师提供自适应目标。冻结的教师模型可能很快被在线模型超越,而 EMA 教师始终处于“略微超前”的状态,如同一个不断进步的教练。
公式上,重建损失用 L1 范数:
语义先验:让重建预算花在刀刃上
均匀 mask 重建有个问题:自动驾驶图像里,大面积天空、远处模糊背景占据了许多 patch。重建这些区域既浪费计算,又可能引入噪声。
NTR 的解决方案很巧妙:用预训练 SAM3 给图像做弱语义标注,生成前景 mask,优先选择包含车辆、行人、可行驶区域、交通灯等元素的 patch 作为重建目标。这不等于引入显式感知头。SAM3 是冻结的、只在预处理阶段运行一次的基础模型,不参与端到端训练,也不部署到车上。它只是说:“训练时多关注这些区域”。
具体实现:
· 用文本 prompt 集(“vehicle”“pedestrian”“traffic light”“road”等)驱动 SAM3 生成逐类别 mask
· 将 mask 池化到规划器的 patch 网格
· 按类别权重加权,加上小量高斯噪声(τ=0.4)增加探索
· 按重建比例 ρ_rec=0.3,选 Top-m 得分位置作为重建目标这个“聚焦前景”的策略,本质是用弱语义信号引导信息保留的优先级。比起让 token 自己猜哪些重要,直接告诉它“人和车最关键”效率高得多。
实验验证:数据说真话
SOTA 对比:三项基准全面领先
先看 Waymo 端到端驾驶排行榜的结果。这是端到端模型绕不开的试金石:
表 1
* 表 1:Waymo Open Dataset Challenge 视觉端到端驾驶排行榜。NTR 单模型 RFS 7.9982,集成模型 8.0461,均位列最优;ADE@5s 和 ADE@3s 同样最佳。*
NTR 不只在 RFS(人类评分反馈,越高越好)上拿了最优,在 ADE(平均位移误差,越低越好)上也同步提升。这意味着改进不只体现在“人类觉得更好看”,而是实实在在的轨迹精度提升。单模型 7.998 vs 之前方法,差距清晰可见。
再看 NavSim V1 的 navtest split:
表 2
* 表 2:NavSim v1 navtest 性能对比。NTR 在 PDMS(94.1)和 EP(90.8)上取得最优,NC(99.1)与 RAP 并列第一。*
PDMS、EP 这些是基于驾驶规则的闭环指标,更像“考官打分”。NTR 在这里的一致性领先,说明它学到的不是特定场景的取巧,而是更泛化的驾驶能力。
以及在 NavSim V2 扩展指标下的表现 —— 更多维度的评估:
表 3
* 表 3:NavSim v2 主实验结果。NTR 在 NC、DAC、DDC、TTC 及综合指标 EPDMS 上均取得最优,显著超越现有 SOTA 方法。*
三张表互不矛盾,趋势高度一致:NTR 带来的提升是系统性的,不是某个指标上的偶然波动。从人类评价到规则评估,从单一维度到扩展指标,NTR 都在排头位置。
定性分析:极端场景见真章
数值好看,路上到底刹不刹得住?看两个硬核场景:
图 3
图:白天施工区域(上)与夜晚雨天(下)场景的规划轨迹对比。橙色 NTR 轨迹更贴近绿色真值,蓝色 Baseline 出现明显偏移。
上图是一个白天施工区,左前方有锥桶和施工车辆。Baseline 的轨迹(蓝)偏保守,向右侧漂移,而 NTR(橙)紧贴真值轨迹(绿),对施工区域的绕行意图更清晰。下图是夜晚雨天,视线差、路面反光 —— 这是感知极易失效的场景。Baseline 的轨迹明显偏左,几乎要压到对向车道线,而 NTR 稳稳居中。
这些图告诉我们:NTR 学到的不只是“看得更清”,而是“记住更有用的东西”。 施工区的锥桶、雨夜的车道线,这些结构化元素正是语义先验强调的重建目标。
消融实验:拆开每个组件的贡献
技术文章不拆组件就失去了灵魂。NTR 做了精细的消融实验:
表 4
* 表 4:NTR 核心模块消融实验。逐步添加潜变量重建、EMA 教师目标、语义先验选择,RFS 从 7.652 提升至 7.974,ADE@5s 从 2.565 降至 2.146。*
· 仅加随机 mask 潜变量重建:RFS 从 7.652 提到 7.754。纯靠密度更高的监督信号,已经生效。
· 换上 EMA 教师:RFS 继续到 7.817。自适应更新的教师比冻结版本更有效。
· 加入语义先验引导选择:EMA+ 语义先验组合达到 7.974,ADE@5s 降到 2.146。信息选择的位置确实关键。
· 完整 NTR:所有组件协同,改进幅度约 0.32 RFS,误差降低约 16%。消融表很干净,没有“鸡肋组件”—— 每加一项都有正向贡献,语义先验的边际收益在 EMA 教师支持时最大。
Token 诊断:用数据证明“不摸鱼了”
这是整篇论文最漂亮的实验设计之一。如何量化 token 的“勤奋程度”?他们用了两个指标:相似度(越低越好)和有效秩(越高越好)。
表 5
* 表 5:场景 token 预算诊断。不同 token 数量下,NTR 的相似度始终低于 Baseline,有效秩持续更高,且在 token=16 附近出现效率权衡点。*
在 token 数从 1 到 32 的变化中:
· NTR 的相似度始终明显低于 Baseline,意味着 token 之间信息重叠更少。
· NTR 的有效秩全面领先,尤其在 16 个 token 时接近饱和 —— 再多 token 收益递减,说明 16 是个不错的预算平衡点。
· Base 方法增加 token 反而可能出现性能波动,说明冗余 token 有时会引入混乱而非帮助。这套诊断直接把“token 在摸鱼”从感觉变成了可测量的数据。相似度下降 + 有效秩上升 = token 开始各自承担不同信息角色。 这正是 NTR 设计目标的直接验证。
局限性:坦诚比完美更重要
作者诚实地指出了 NTR 的边界:
1、作用于瓶颈而非 Backbone。NTR 优化的是“压缩 → 规划”的信息传递,不改变 ViT 本身的特征提取质量。它与 MAE、iBOT 这类 Backbone 预训练方法是互补关系,把两者的结合留作未来工作。
2、依赖基础模型生成语义先验。SAM3 虽然强大,但在域外场景(如极端天气、罕见国家街道)可能产生不准确的 mask,影响先验质量。但这部分只在训练时使用,不部署到车上,至少安全上无隐患。
3、训练开销增加。额外的教师模型前向、重建解码器、语义先验预处理都会增加训练成本。在公开基准上这是可接受的代价,但大规模量产场景可能需要优化管线。
价值升华:我们的场景 token 终于有人管了
这篇工作解决了一个被大多数人忽略但极其关键的问题:信息压缩的质量,决定了规划的上限。 过去大家沉迷于堆更多 token、换更大 backbone、设计更花哨的规划头,却没人直接追问 —— 压缩过程中到底丢了什么?
NTR 的价值不只在一个 SOTA 分数,更在于提供了一种可插拔、零推理开销、有理论直觉的瓶颈监督范式:
如果你在做端到端自动驾驶:这个框架可以嫁接到大多数 token 压缩规划器上,训练时多跑一个重建分支,推理时完全不影响部署。
如果你关注表征学习:它展示了一种“用重建梯度约束信息瓶颈”的通用思路,不限于自动驾驶。
如果你在追求落地部署:NTR 已经在真实车辆规划栈中集成验证,论文附录里有实车部署视频和私有大规模数据集实验 —— 这比纯粹刷榜多了一层说服力。
