近日,在全球计算机视觉领域顶级学术会议CVPR 2026期间,由传音控股(688036)TEX AI联合复旦大学、上海财经大学、哈佛大学、浙江大学等国内外知名高校和研究机构共同组织的第五届真实世界像素级视频理解研讨会(The 5th Pixel-level Video Understanding in the Wild Workshop,PVUW 2026)成功举办。
作为本届Workshop的重要组织方和赞助单位,传音TEX AI深度参与研讨会议题设计、挑战赛组织以及学术交流活动,与全球顶尖学者和研究团队共同探讨视频理解、多模态学习、具身智能等前沿方向的发展趋势,持续强化传音在国际人工智能(885728)学术生态中的参与度与影响力。开幕环节中,主办方特别感谢传音对挑战赛和研讨会的支持,并表示产业界的积极参与对于推动前沿技术创新和应用落地具有重要意义。
共探多模态智能未来
CVPR(Conference on Computer Vision and Pattern Recognition)是全球计算机视觉领域最具影响力的国际学术会议之一,被誉为计算机视觉领域“三大顶会”之首,每年汇聚来自全球高校、科研机构和科技企业的顶尖研究力量,共同展示人工智能(885728)领域最前沿的创新成果。 而PVUW Workshop自2021年创办以来,已连续举办五届,聚焦开放世界场景下的像素级视频理解研究,逐步发展为连接学术研究与产业应用的重要交流平台。
本届PVUW Workshop以“Towards More Diverse Modalities in Pixel-Level Understanding”为主题,重点关注视觉、文本、音频等多模态信息融合下的像素级理解能力,研究方向覆盖开放世界视频分割、多模态感知、智能体推理以及具身智能等热点领域,与未来智能终端的发展需求高度契合。
研讨会中,来自ETH Zurich、UIUC、EPFL等高校及研究机构的多位国际学者围绕开放世界视觉理解、多模态学习、视频理解及具身智能等方向分享最新研究进展。与会专家普遍认为,多模态感知、世界模型和智能体能力正逐步成为下一代人工智能(885728)的重要基础能力,而视频理解则是连接真实世界感知与智能决策的关键桥梁。
围绕这些前沿议题, 作为PVUW的重要组成部分,本届PVUW Workshop挑战赛吸引全球135余支研究团队参与,围绕复杂场景视频目标分割、基于文本的指向性视频分割以及基于音频的指向性视频分割等任务展开技术比拼。本届赛事新增的音频赛道,进一步推动了视频理解从单一视觉模态向视觉、文本、音频协同理解发展,为更加自然的人机交互方式提供了新的研究方向。整体来看,挑战赛中涌现出的创新方案充分展现了全球研究社区在多模态智能方向的快速发展,也为未来智能终端视觉理解能力演进提供了重要参考。
深化产学研协同
加速AI技术成果转化
近年来,传音持续加强与国内外高校及科研机构的合作交流,与复旦大学等高校保持长期稳定的合作关系,围绕计算机视觉、多模态智能、视频理解等前沿方向开展联合研究与人才培养,共同推动前沿技术创新与产业应用落地。
依托高校在基础研究领域的学术优势,以及企业在真实场景、产品落地和全球用户服务方面的实践经验,传音持续加强在计算机视觉、多模态智能、大模型及AI Agent等关键技术突破,并将研究成果加速转化为面向全球用户的创新能力,打通“基础研究—技术创新—产品应用”的创新链条。
此次参与CVPR Workshop组织工作,不仅体现了传音在视频理解与视觉智能领域的技术积累,也展现了公司通过产学研协同创新深度参与国际学术生态建设的能力。当前,人工智能(885728)正加速迈向多模态智能与智能体时代,产业界与学术界协同创新的重要性愈发凸显。未来,传音将坚持开放创新理念,深化与国内外高校及科研机构的产学研合作,持续探索视觉理解、多模态交互与终端智能等前沿技术方向,推动人工智能(885728)能力与全球新兴市场真实需求深度融合,为用户提供更加智能、普惠的AI体验。
