新开普AI事业部研究成果入选CVPR 2026：在多模态大模型方向取得新进展

新开普

以卓越的ICT服务

构建智慧校园助力智慧企业贡献智慧中国

近日，新开普（300248）AI事业部研究成果《GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding》被CVPR 2026接收。该研究围绕视频大模型中的细粒度时序理解问题展开，提出了一种由文本问题引导的视觉token采样方法，为视频内容理解和关键事件定位提供了新的技术思路。

CVPR是什么？

CVPR（全称为IEEE/CVF Conference on Computer Vision and Pattern Recognition）是计算机视觉与模式识别领域具有重要影响力的国际会议。CVPR官方将其定义为该领域的年度旗舰会议，中国计算机学会（CCF）也将其列为人工智能（885728）领域A类会议，具有较高学术认可度和行业影响力。

此次论文入选CVPR 2026，体现了新开普（300248）在多模态智能、视频内容理解等方向的持续投入与技术积累，也展现了团队坚持“前沿技术研究+产业应用落地”双轮驱动的战略成果。

论文聚焦

视频大模型，为什么还不够“会看”？

当前的多模态大模型虽具备基础视频理解能力，但在某些需要“精准抓取”的任务中——比如“根据一句话，准确找出这件事发生在视频的哪一段时间”，表现仍不尽如人意。这类任务在学界通常被称为Video Temporal Grounding（视频时序定位）。

问题的关键在于，现有视频大模型大多采用均匀采样的方式处理视频内容，不论哪些片段更重要，模型都会平均分配注意力。这样做虽然简单，但当真正关键的动作只发生在少数瞬间时，模型就可能错过重要线索；而当输入中包含大量无关画面时，又容易受到干扰，影响判断精度。如何让模型学会“有的放矢”，聚焦真正有用的画面？正是本次论文研究的出发点。

核心创新-GroundVTS

让模型围绕问题，聚焦关键片段

针对上述问题，新开普（300248）AI事业部提出GroundVTS架构：不再让模型死板地均匀采样，而是根据用户的提问来动态筛选视频信息。

GroundVTS是如何做到的？

GroundVTS的核心是Visual Token Sampling（VTS）模块。它会先评估视频中不同视觉tokens与文本问题之间的相关性，再选择性保留高价值信息，形成更贴合时序理解需求的非均匀采样方式。与此同时，论文还设计了三阶段渐进式优化策略，使这种新的采样机制，稳定适配现有视频大模型。

这不仅是为了压缩输入或减少计算，更重要的是让模型学会：面对一个具体问题时，应该重点看哪里、忽略哪里。

实验结果

多项任务表现领先，效率与精度兼得

整体来看，GroundVTS在Charades-STA、ActivityNet-Captions、QVHighlights等主流数据集上均取得了领先表现。在时刻检索（Moment Retrieval）和高光检测（Highlight Detection）两项关键任务上，超越同量级基础模型（如Qwen2.5VL-7B、InternVL3.5-8B）10个点以上，部分指标提升达数十点；相比现有代表性方法，最高实现 mIoU提升7.7 个点，mAP提升 12.0 个点，充分验证了其在细粒度视频内容理解上的有效性和竞争力。

除了更高的精度，GroundVTS 在更低的视觉 token 预算下依然保持较强性能与稳定性。在仅使用一半视觉token预算的情况下，GroundVTS 的表现依然超过了均匀采样基线在满预算下的结果；即使在更激进的压缩设置下，优势仍然显著。这表明GroundVTS不仅提升了定位准确率，也大幅增强了视频信息的利用效率。这意味着：看得更准，同时看得更精。

落地展望

赋能智慧校园与行业应用

新开普（300248）始终致力于前沿AI技术与真实场景需求的深度融合，GroundVTS所代表的细粒度视频理解能力，在智慧校园及更多行业应用场景中具有广阔应用前景，让技术真正看得见、用得上：

校园安全场景：快速定位监控视频中的特定异常事件，提升事件检索与应急响应效率。

教学资源检索：帮助师生从海量教学视频中，精准定位知识点讲解片段。

实训教学场景：在技能实训中，精准定位操作错误时刻、提取关键操作片段，助力实训过程复盘与评估，让教学更具针对性，提升学习效果。

此次研究成果入选CVPR 2026，既是新开普（300248）AI事业部在多模态视频理解方向上的研究积累，也为相关能力在教育及更多行业场景中的规模化落地进一步夯实了技术基础。

从顶会论文成果发表，到核心技术突破创新，再到千行百业场景落地探索，新开普（300248）AI事业部始终聚焦大模型、智能体、多模态理解与生成等关键方向持续深化探索，加速前沿技术与行业应用场景的深度耦合，让AI能力更懂场景，切实服务于教育数字化与行业智能化的升级进程。

欢迎持续关注新开普（300248）AI事业部的最新进展，与我们共同见证技术赋能未来的每一步。

关于新开普AI事业部

作为公司推进AI技术创新、产品建设与场景落地的核心引擎，新开普（300248）AI事业部紧密围绕智慧校园与行业数字化核心需求，持续推动前沿技术与业务场景的融合发展。

一方面，聚焦多模态大模型、自然语言处理、计算机视觉、智能体协同等关键技术方向，筑牢核心技术底座；另一方面，面向校园管理、服务与教学等核心场景，打造校园AI助手、AI 中台、数据智能体、智能教学装备与智能终端等产品建设和落地应用，推动AI能力从技术研究向可用、可交付、可持续运营的产品体系全面迈进。