理想汽车12篇论文入选CVPR 2026，引领具身智能技术创新

近日，CVPR 2026（国际计算机视觉与模式识别会议）召开，理想汽车（LI）共有12篇论文入选。CVPR是计算机视觉与模式识别领域的顶级学术会议，与ICCV（国际计算机视觉大会）、ECCV（欧洲计算机视觉国际会议）并称为计算机视觉领域三大顶级会议。

理想汽车（LI）此次入选12篇论文，涵盖多模态感知、端到端规划、世界模型等多个核心领域，系统性展现了理想汽车（LI）持续深耕具身智能技术领域的研究实力。

01 感知与规划：看得更准、想得更清

感知能力是具身智能的认知起点。在多模态感知领域，我们让车更会“看”。理想汽车（LI）SparseWorld-TC论文被收录为Oral（大会口头报告），该架构突破了传统方法依赖鸟瞰图投影和离散化token表示的双重瓶颈，直接从原始图像特征端到端预测多帧未来三维场景占据情况，做到车辆提前预测未来1到3秒内，周围整个三维空间会发生怎样的变化。

在端到端规划领域，要让车像人类一样思考。理想汽车（LI）提出SGDrive框架，将驾驶理解分解为“场景-交通参与体-目标”三个层级，这与人类驾驶的认知方式高度一致：先感知整体环境，再锁定周围车辆及行人，最后判断下一步怎么开，这有效弥补了通用视觉语言模型在驾驶场景中的认知空缺，在NAVSIM基准上的纯视觉方案中取得当前最优性能。

在强化学习领域，理想汽车（LI）提出PlannerRFT框架，解决了一个核心难题：如何让AI规划器在面对不同路况时，都能生成灵活、贴合场景的行驶轨迹。同时，AI学会开车，离不开大量模拟练习。为此，理想汽车（LI）同步开发了nuMax仿真器，其轨迹推演速度较原生nuPlan提升10倍，让强化学习训练效率大幅跃升。

02 世界模型四项突破：夯实仿真与安全底座

距离判断更精准：InfiniDepth论文针对行业缺少精准的稠密深度估计模型的问题，创新性地将深度建模为神经隐式场，突破了传统方法的分辨率上限，能连续、细腻地感知周围物体的远近，在精细细节区域和度量深度估计上的表现大幅提升。

仿真素材自动生成：Unposed-to-3D论文提出两阶段框架，能够从真实驾驶图像中直接重建出高精度3D车辆模型，不再依赖昂贵的手工标注数据，显著降低仿真资产的生产门槛。得益于专门构建的高质量3D训练数据集，其生成效果相比行业方法有大幅提升。

构建更贴近真实驾驶的AI评测基准：DriveCombo论文揭示了当前多模态大语言模型在复杂交通规则理解上的真实能力边界。现有评测基准只覆盖单一规则场景，无法反映真实驾驶中多规则并发、甚至互相冲突的推理难度——这意味着模型在测试中表现不错，但上路后可能是另一回事。为此，理想汽车（LI）构建了一套更全面的双模态基准，覆盖从单规则理解到规则冲突消解的完整链路，并对14个主流模型进行了评估，验证了该基准对提升下游规划能力的实际价值。

提升世界模型输出奖励反馈的准确性：AD-R1入选CVPR Findings，该论文致力于解决将强化学习应用于端到端辅助驾驶时的核心障碍，世界模型因为只在“安全驾驶数据”上训练，遇到危险操作时，它反而倾向于预测为“安全”。为此，理想汽车（LI）提出反事实合成流水线，将世界模型训练为更公正的因果预测器，并将其作为危险感知模块整合进闭环强化学习框架，有效降低仿真场景中的安全违规率。

03 认知、语言与视觉智能：让推理更准更快

在认知模型领域，当前基于视觉语言模型的方法每一帧都在独立决策，缺乏对前后状态的连贯记忆，导致驾驶行为出现抖动和不一致。CogDriver论文提出认知惯性机制，让AI记住历史驾驶状态，结合时空知识蒸馏显式训练决策一致性，在Bench2Drive和nuScenes基准上，驾驶得分提升22%，轨迹误差降低21%。

LInkVLA论文则让AI理解语音指令的准确率和效率都大幅提升。该研究通过将语言和动作特征统一编码，从底层对齐“理解”和“执行”之间的偏差，并以两步解码替代传统的逐步生成方式提升效率。闭环自动驾驶基准测试表明，LInkVLA在提升指令遵循准确性和驾驶性能的同时，推理延迟降低86%。

在语言智能领域，多模态大模型能力强，但计算开销大、部署成本高，一直是行业痛点。FastMMoE入选CVPR Findings，该论文提出一套无需重新训练的加速优化框架，通过精简MoE（混合专家）架构中的冗余计算，在不牺牲核心能力的前提下大幅提升部署效率。

让图像和文字真正对应，是多模态模型的基础能力，但做到既准又快并不容易。CoV-ALIgn论文提出“内聚视觉语义优先”策略，先通过视觉信息自主聚合语义一致的图像区域，再进行区域—单词对齐，避免了对文本引导的依赖。根据评测，CoV-ALIgn取得当前最优性能，推理速度较前沿基线方法提升3至5倍。

在视觉智能领域，Switch-KD入选CVPR Findings，它用一套跨模态知识新蒸馏范式以小博大，让0.5B的小模型拥有了逼近1.5B模型的多模态理解力。该方法突破传统瓶颈，从“各管一段”的模态分离监督，转向统一概率空间蒸馏，为车端边缘计算、智能座舱（886059）等轻量化部署场景提供了关键技术支撑。

理想汽车（LI）始终将基础研究视为支撑长期发展的核心动力。截至2026年一季度末，理想汽车（LI）已连续5个季度保持30亿元左右的高强度研发投入，2025年全年研发费用达到113亿元，创历史新高。近5年，理想汽车（LI）围绕多模态感知、端到端、认知模型等核心技术方向，在CVPR、ICCV、ECCV等顶级学术会议和期刊上发表近百篇论文。

理想汽车（LI）的每一项研究成果和技术突破都指向同一个目标：以更强的技术积累给车和家赋予生命，让每个家庭都能享受到智能科技带来的便利。未来，理想汽车（LI）将持续加大基础研究与应用创新的投入，以扎实的技术积累和开放的生态理念，迈向全球领先的具身智能企业。

理想汽车12篇论文入选CVPR 2026，引领具身智能技术创新

问财摘要

01

感知与规划：看得更准、想得更清

02

世界模型四项突破：夯实仿真与安全底座

03

认知、语言与视觉智能：让推理更准更快