端到端自动驾驶的"Token危机" | 黑芝麻智能用一张"重建面具"，把Waymo榜一打穿了

自动驾驶端到端模型，正在被一个“隐形的天花板”卡住。模型越来越大，数据越喂越多，但规划轨迹总在复杂场景里出现诡异漂移。问题不在规划头，而在视觉信息传递的“咽喉要道”—— 场景 token 瓶颈。

我们拆解这篇技术工作，看看它如何用一个巧妙的训练信号，逼着紧凑的场景 token 记住更多关键信息，在 Waymo 和 NavSim 榜单上跑出 SOTA，甚至部署到了实车上。

核心痛点：你的场景 token 在“摸鱼”

感知无关的端到端自动驾驶，主流玩法是用 ViT 把多视角图像打成密密麻麻的 patch token，再压缩成一小撮“场景 token”（scene token）喂给规划器。这本质上是一个多对一的极限压缩 —— 几百上千个 patch token，挤进 16 个场景 token 里，然后让规划器仅凭这点信息输出未来轨迹。

问题来了：谁来监督这个压缩过程？现有方法只靠轨迹回归损失和候选评分损失来间接约束。这就好比只告诉一个快递分拣员“最后包裹要准时送到”，却不告诉他哪些包裹里的东西易碎、哪些需要冷链。分拣员很快学会偷懒 —— 把所有包裹都堆在一起，反正都能送到。

图 1

图：场景 token 行为诊断。左侧 baseline 的 token 注意力高度重叠，相似度矩阵一片“全黄”；右侧 NTR 在语义监督下，token 各自聚焦不同结构化元素，相似度矩阵呈现丰富的多样化模式。

这是这篇工作最精彩的开场。左侧 (baseline) 的场景 token，注意力区域高度重叠 —— 好几个 token 盯着同一块地方，相似度矩阵几乎是均匀高相似的全黄色。这意味着 16 个 token 里可能只有 2-3 个在真正干活，其余都在输出冗余信息。右侧 NTR 方法下，每个 token 开始“术业有专攻”：有的盯车道线，有的盯前车，有的盯交通标志。相似度矩阵从“黄色暖昧”变成“蓝绿黄相间的冷静距离感”—— 表征多样性显著提升。

这不是架构问题，是训练信号问题。没有直接约束压缩过程，token 自然会坍缩成最简单的冗余编码。

原理拆解：如何让 token“卷”起来？

整体框架：训练时塞进一个“信息审计”

NTR 的核心思路很朴素：既然规划损失太稀疏，那就给场景 token 再加一个密集的重建监督。但注意，它不是重建原始图像，而是重建被 mask 掉的教师模型特征 —— 一种潜在空间的自蒸馏。而且整个重建分支只在训练时存在，推理时原封不动去掉，零额外开销。

看整体架构就一目了然

图 2

图：NTR 整体框架。(a) 紧凑场景 token 规划器将多视图 patch 压缩为场景 token，驱动轨迹生成与打分；(b) 神经 token 重建仅以场景 token 为记忆，重建被 mask 的教师特征；(c) 基于提示的语义先验利用基础模型生成语义掩码，引导重建目标聚焦驾驶关键区域。

框架分三块：

(a) 就是标准的 DrivoR 风格规划器：多视图 → patch token → 场景 token → 轨迹生成 + 评分。这是不变的基底。

(b) 是 NTR 的核心插入 —— 一个仅在训练时激活的重建解码器。它的输入只有场景 token 和 mask 位置的位置编码，必须仅凭这些信息重建对应位置的教师模型特征。

**(c)** 是语义先验模块：用预训练的 SAM3 跑一遍图像，得到车辆、行人、车道、交通灯等驾驶关键区域的 mask，指导重建位置的选择。关键设计：重建解码器只通过交叉注意力访问场景 token，不能直接看在线编码器的密集 patch 输出。这意味着重建损失的回传梯度必须经过场景 token 瓶颈，相当于给瓶颈装了一个“信息审计系统”：如果你没保留足够细节，就别想重建出来。

潜变量重建：为什么重建教师特征而非原始像素？

这里有一个精妙的设计选择。NTR 不重建 RGB 像素，而是重建教师 ViT 输出的潜变量特征。

教师模型是在线编码器的 EMA（指数移动平均）副本，参数缓慢跟随在线模型，提供稳定的、高质量的“参考答案”。在线模型处理 mask 后的图像，它的场景 token 必须重建出这些被 mask 位置的教师特征。

为什么选潜变量而非像素？两个理由：

1、像素重建是低级视觉任务，大量监督信号会浪费在背景纹理、天空渐变上。潜变量特征已经过 ViT 编码，更侧重语义和结构信息。

2、EMA 教师提供自适应目标。冻结的教师模型可能很快被在线模型超越，而 EMA 教师始终处于“略微超前”的状态，如同一个不断进步的教练。

公式上，重建损失用 L1 范数：

语义先验：让重建预算花在刀刃上

均匀 mask 重建有个问题：自动驾驶图像里，大面积天空、远处模糊背景占据了许多 patch。重建这些区域既浪费计算，又可能引入噪声。

NTR 的解决方案很巧妙：用预训练 SAM3 给图像做弱语义标注，生成前景 mask，优先选择包含车辆、行人、可行驶区域、交通灯等元素的 patch 作为重建目标。这不等于引入显式感知头。SAM3 是冻结的、只在预处理阶段运行一次的基础模型，不参与端到端训练，也不部署到车上。它只是说：“训练时多关注这些区域”。

具体实现：

· 用文本 prompt 集（“vehicle”“pedestrian”“traffic light”“road”等）驱动 SAM3 生成逐类别 mask

· 将 mask 池化到规划器的 patch 网格

· 按类别权重加权，加上小量高斯噪声（τ=0.4）增加探索

· 按重建比例 ρ_rec=0.3，选 Top-m 得分位置作为重建目标这个“聚焦前景”的策略，本质是用弱语义信号引导信息保留的优先级。比起让 token 自己猜哪些重要，直接告诉它“人和车最关键”效率高得多。

实验验证：数据说真话

SOTA 对比：三项基准全面领先

先看 Waymo 端到端驾驶排行榜的结果。这是端到端模型绕不开的试金石：

表 1

* 表 1：Waymo Open Dataset Challenge 视觉端到端驾驶排行榜。NTR 单模型 RFS 7.9982，集成模型 8.0461，均位列最优；ADE@5s 和 ADE@3s 同样最佳。*

NTR 不只在 RFS（人类评分反馈，越高越好）上拿了最优，在 ADE（平均位移误差，越低越好）上也同步提升。这意味着改进不只体现在“人类觉得更好看”，而是实实在在的轨迹精度提升。单模型 7.998 vs 之前方法，差距清晰可见。

再看 NavSim V1 的 navtest split：

表 2

* 表 2：NavSim v1 navtest 性能对比。NTR 在 PDMS（94.1）和 EP（90.8）上取得最优，NC（99.1）与 RAP 并列第一。*

PDMS、EP 这些是基于驾驶规则的闭环指标，更像“考官打分”。NTR 在这里的一致性领先，说明它学到的不是特定场景的取巧，而是更泛化的驾驶能力。

以及在 NavSim V2 扩展指标下的表现 —— 更多维度的评估：

表 3

* 表 3：NavSim v2 主实验结果。NTR 在 NC、DAC、DDC、TTC 及综合指标 EPDMS 上均取得最优，显著超越现有 SOTA 方法。*

三张表互不矛盾，趋势高度一致：NTR 带来的提升是系统性的，不是某个指标上的偶然波动。从人类评价到规则评估，从单一维度到扩展指标，NTR 都在排头位置。

定性分析：极端场景见真章

数值好看，路上到底刹不刹得住？看两个硬核场景：

图 3

图：白天施工区域（上）与夜晚雨天（下）场景的规划轨迹对比。橙色 NTR 轨迹更贴近绿色真值，蓝色 Baseline 出现明显偏移。

上图是一个白天施工区，左前方有锥桶和施工车辆。Baseline 的轨迹（蓝）偏保守，向右侧漂移，而 NTR（橙）紧贴真值轨迹（绿），对施工区域的绕行意图更清晰。下图是夜晚雨天，视线差、路面反光 —— 这是感知极易失效的场景。Baseline 的轨迹明显偏左，几乎要压到对向车道线，而 NTR 稳稳居中。

这些图告诉我们：NTR 学到的不只是“看得更清”，而是“记住更有用的东西”。施工区的锥桶、雨夜的车道线，这些结构化元素正是语义先验强调的重建目标。

消融实验：拆开每个组件的贡献

技术文章不拆组件就失去了灵魂。NTR 做了精细的消融实验：

表 4

* 表 4：NTR 核心模块消融实验。逐步添加潜变量重建、EMA 教师目标、语义先验选择，RFS 从 7.652 提升至 7.974，ADE@5s 从 2.565 降至 2.146。*

· 仅加随机 mask 潜变量重建：RFS 从 7.652 提到 7.754。纯靠密度更高的监督信号，已经生效。

· 换上 EMA 教师：RFS 继续到 7.817。自适应更新的教师比冻结版本更有效。

· 加入语义先验引导选择：EMA+ 语义先验组合达到 7.974，ADE@5s 降到 2.146。信息选择的位置确实关键。

· 完整 NTR：所有组件协同，改进幅度约 0.32 RFS，误差降低约 16%。消融表很干净，没有“鸡肋组件”—— 每加一项都有正向贡献，语义先验的边际收益在 EMA 教师支持时最大。

Token 诊断：用数据证明“不摸鱼了”

这是整篇论文最漂亮的实验设计之一。如何量化 token 的“勤奋程度”？他们用了两个指标：相似度（越低越好）和有效秩（越高越好）。

表 5

* 表 5：场景 token 预算诊断。不同 token 数量下，NTR 的相似度始终低于 Baseline，有效秩持续更高，且在 token=16 附近出现效率权衡点。*

在 token 数从 1 到 32 的变化中：

· NTR 的相似度始终明显低于 Baseline，意味着 token 之间信息重叠更少。

· NTR 的有效秩全面领先，尤其在 16 个 token 时接近饱和 —— 再多 token 收益递减，说明 16 是个不错的预算平衡点。

· Base 方法增加 token 反而可能出现性能波动，说明冗余 token 有时会引入混乱而非帮助。这套诊断直接把“token 在摸鱼”从感觉变成了可测量的数据。相似度下降 + 有效秩上升 = token 开始各自承担不同信息角色。这正是 NTR 设计目标的直接验证。

局限性：坦诚比完美更重要

作者诚实地指出了 NTR 的边界：

1、作用于瓶颈而非 Backbone。NTR 优化的是“压缩 → 规划”的信息传递，不改变 ViT 本身的特征提取质量。它与 MAE、iBOT 这类 Backbone 预训练方法是互补关系，把两者的结合留作未来工作。

2、依赖基础模型生成语义先验。SAM3 虽然强大，但在域外场景（如极端天气、罕见国家街道）可能产生不准确的 mask，影响先验质量。但这部分只在训练时使用，不部署到车上，至少安全上无隐患。

3、训练开销增加。额外的教师模型前向、重建解码器、语义先验预处理都会增加训练成本。在公开基准上这是可接受的代价，但大规模量产场景可能需要优化管线。

价值升华：我们的场景 token 终于有人管了

这篇工作解决了一个被大多数人忽略但极其关键的问题：信息压缩的质量，决定了规划的上限。过去大家沉迷于堆更多 token、换更大 backbone、设计更花哨的规划头，却没人直接追问 —— 压缩过程中到底丢了什么？

NTR 的价值不只在一个 SOTA 分数，更在于提供了一种可插拔、零推理开销、有理论直觉的瓶颈监督范式：

如果你在做端到端自动驾驶：这个框架可以嫁接到大多数 token 压缩规划器上，训练时多跑一个重建分支，推理时完全不影响部署。

如果你关注表征学习：它展示了一种“用重建梯度约束信息瓶颈”的通用思路，不限于自动驾驶。

如果你在追求落地部署：NTR 已经在真实车辆规划栈中集成验证，论文附录里有实车部署视频和私有大规模数据集实验 —— 这比纯粹刷榜多了一层说服力。