6月12日至13日,第八届智源大会在北京举行。作为人工智能(885728)领域最具影响力的学术盛会之一,本届大会汇聚了两位图灵奖得主——数字安全奠基人Whitfield Diffie与强化学习奠基人Andrew Barto,以及200余位顶尖学者、40余位AI企业CEO与首席科学家,围绕Agent、世界模型、具身智能、多模态等前沿议题展开深入探讨。
13日,昆仑万维(300418)旗下Skywork首席科学家成宇在多模态论坛上,以《从SkyReels V4到Mureka V9:天工AI的AIGC多模态布局》为题发表主题演讲,系统阐述了昆仑万维(300418)在AI视频与AI音乐两大赛道的技术路径与产品战略。
2026年昆仑万维(300418)发布了“4+3”AGI战略,搭建全模态模型底座,依托“视频模型、音乐音频模型、世界模型、基座文本与多模态模型”四大SOTA技术底座,支撑“AI短剧、AI音乐、AI游戏(881275)”三大AI原生娱乐经济体,探索AI Native平台经济全新模式。从2023年探索6个方向,到如今聚焦4个SOTA大模型底座、赋能3大AI原生内容经济体,昆仑万维(300418)已完成从技术单点突破到系统性AI平台化布局的战略演进,形成了独特的技术护城河。
1
SkyReels V4:重构视听创作逻辑
成宇提出,天工AI在视频领域的核心主张,不是在做一个生成工具,而是在推动一场视听创作逻辑的重构。“真正成熟的AI视频生成技术,是一套重构视听创作逻辑的全新范式,是下一代视听产业的核心基础设施。”
他从社会与产业两个维度拆解了AI视频的渗透路径:对普通用户而言,旅行纪念、家庭影像、工作汇报等场景的创作门槛大幅降低,AI剧情短片已成为社交媒体上的新型“社交货币”,超六成用户每周主动观看AI视频内容;对产业创作者,AI视频正在重构影视工业流程与创作者工作流,并成为电商、教育、广告等行业低成本内容生产的核心引擎。
过去一年多,SkyReels团队致力于将 “生成专业、好用、有感染力的视听内容”,变成可复现、可控制、可迭代的系统能力。SkyReels历经V1开源、V2引入扩散强迫框架、V3支持多主体视频生成,到2026年3月V4正式登顶全球第一——在Artificial Analysis全球视频生成模型评测中,V4拿下Text to Video(With Audio)与Image to Video(With Audio)双赛道全球第一,Text to Video(No Audio)赛道全球第二,超越Veo 3.1、Sora 2等主流模型,实现中国在该领域的技术引领。
在这一演进基础上,成宇重点介绍了V4的四大核心技术突破。
音画一体双流联合生成架构——终结音画不同步顽疾
传统视频生成普遍采用“先生成画面,再匹配音频”的分离式流程,视频和音频如同两个独立团队在黑暗中各自演奏,生成的结果始终存在“口型漂移、动作与音效错位”等难以回避的顽疾。SkyReels V4自研双流MMDiT架构,视频分支与音频分支从任务开始就并肩工作,共享同一MLLM文本编码器,通过双向交叉注意力机制达到毫秒级音画精准对齐,从底层架构上实现端到端统一。
双流MMDiT 架构示意图
全模态理解和精准控制——万物可参考,所想即所得
现实创作中,用户的需求往往是多模态的——给一张图、一段视频参考、一个运动轨迹,甚至要擦除某个多余人物、替换主体服装颜色。而现有工具通常只能覆盖其中一部分,要么能做多模态参考却没有音频输出,要么能做编辑却不支持复杂参考。SkyReels V4将生成、编辑、处理等任务整合在统一框架里,提出通道拼接与时序拼接相结合的统一范式,支持多帧参考、多图片参考、运动参考、视频编辑等多种控制方式,大幅减少用户在不同工具间来回切换的繁琐体验。
全模态强化学习体系——从“像素工匠”进化为“创作艺术家”
传统视频生成模型存在一个核心痛点:极其注重画面中每一帧的清晰度和纹理细节,却经常忽略整段视频的逻辑连贯性——“像素完美,逻辑混乱”。成宇用一个直观的例子说明:当提示词是“一个演员在雨中奔跑,情绪从紧张到释然,最后停下抬头微笑”,过去的模型大概率会出现前后情绪不连贯、动作跳跃等明显不合逻辑的问题。
全模态强化前后GSP评比结果
为了解决这个问题,一方面搭建全模态语义Reward模型,以“上帝视角”扮演“首席监制”,覆盖文生视频(T2V)、图生视频(I2V)、视频编辑与参考、音视频对齐全场景,为生成提供全局精准的实时反馈,全方位优化生成效果;另一方面采用阶梯式课程强化学习路径,从分辨率与时长、任务复杂度、数据难度三个维度,让模型由简入繁掌握复杂能力。通过这套体系,V4实现了跨任务泛化能力的显著提升,让AI真正开始“理解”整个视频的逻辑与叙事结构。
突破四:攻克电影级画质与高效生成的平衡难题——1080p、15秒量产专业级视频
高分辨率长视频生成一直是行业计算瓶颈:直接扩散生成1080p、15秒的多镜头视频,会导致难以承受的显存和时间成本。SkyReels V4采用“低分辨率全序列+高分辨率关键帧”联合生成策略,模型先快速生成低分辨率完整视频和高分辨率关键帧,再通过专用超分辨率和帧插值模块重构高质量视频。结合VSA稀疏注意力机制大幅降低高分辨率长视频带来的二次方计算复杂度,将生成、修复、编辑三大功能整合进单一框架,稳定输出1080p、32FPS影院级画质,视频时长达15秒,实现专业级AI视频的高效量产。
技术原理:联合生成策略
成宇强调,这四大突破不是孤立的单点技术优化,而是一套系统性解决方案的有机组合:双流MMDiT从架构上解决音画同步,统一多模态控制框架让创作意图得到精准响应,全模态强化学习让视频不仅有像素更要有逻辑,高效联合生成策略让高质量创作不再被算力卡脖子。四条技术路径相互协同,共同推动视频生成从“拼画面”跨越到“讲故事”的新阶段。
成宇表示,SkyReels的目标不是自己做内容,而是“去中心化赋能”——将核心能力嵌入到每一个有需求的场景中,开放文生视频、图生视频、视频编辑、音画生成等全链路API,赋能短剧平台、电商平台、在线教育(885480)、影视行业和广告行业等不同客户群体。
昆仑万维(300418)已经陆续发布并开源多个SkyReels模型,包括SkyReels V1、SkyReels V2、SkyReels V3、SkyReels V4,以及SkyReels A1、SkyReels A2和SkyReels A3。欢迎开源社区、AI机构组织、科研学者等AI从业者和开发者下载使用 SkyReels 系列模型:https://huggingface.co/Skywork。
2
Mureka V9:把好听做成一种系统能力
Mureka 的前身是SkyMusic,自2024年2月内测起步,先后经历了SkyMusic 1.0/2.0、2024年8月以 Mureka 4.0独立上线、2025年7月Mureka7.0 引入MusiCoT思维链技术建立闭环进化轨道,到2026年1 月V8登顶 Artificial Analysis人声与器乐双赛道全球第一,再到2026年3月 Mureka V9在精准控制、录音室级混音、生成多样性等方面实现全面升级。Mureka团队一直在做同一件事:把好听变成一种系统能力。
成宇介绍,Mureka V9的升级重点聚焦于“创作意图的可控表达”——不仅生成得更快、更清晰,更能准确理解创作者在歌词段落中的具体表达诉求。
MusiCoT音乐思维链:给AI装上“全局视野”。传统AI音乐模型的生成方式是“下一个Token预测”——模型写完第一个音符,根据概率猜第二个,一路猜到结尾,如同盲人摸象、走一步看一步,前奏惊艳,一到副歌就结构崩塌;Mureka引入的MusiCoT技术,让AI在写第一个音符之前先在脑海中画好“全局建筑图纸”:规划歌词段落在哪里切分、每段歌词的语义重心落在哪个词、音乐结构如何对应、声音表达如何配合情绪走向,将音乐生成从“逐个音符猜”升级为“先规划后执行”的推理式创作。
五项核心升级叠加,实现“生成即可发布”。段落级文本控制让歌词的情绪重心能准确落在目标位置,不再是“唱出来了”而是“在对的段落被准确表达了”;混音与音质实现人声和伴奏清晰分离,接近母带级别;人声表达减少莫名其妙的飙高音和杂音,听起来像真人在唱;推理链路优化后生成效率大幅提升,企业不用反复抽卡;同一创作指令下能输出多种差异化版本,避免“生成五首差不多的歌”。Mureka的产品矩阵围绕“意图→生成→编辑→二创→分发→表达”,形成完整链路构建。
在横向评测中,Mureka V9在音乐旋律性(7.25)、音乐表现力(6.89)、编配编曲(6.98)三个维度均位列第一,在精准控制维度(7.24)排名第二,全面对标国际顶级模型。
此外,成宇还介绍了Mureka两大特色产品功能,Mureka Studio及Remix功能。Mureka Studio是一款AI-native DAW(数字音频工作站),支持多轨编辑、音频修复、人声/节奏/合成器分轨提取,将AI生成能力直接嵌入专业制作流程。Remix功能打通消费(883434)、版本化与传播的循环,用户在浏览内容时可一键对已有歌曲进行风格切换、歌词替换、旋律改写等操作,生成新版本后继续参与社交传播,形成内容的裂变增长飞轮。
这些产品能力的落地,让Mureka率先通过了“生产可用门槛”。 北美增长型AI音乐公司Sondo从Suno全量切换至Mureka API后,合作体量增长超70%,音乐核心业务翻倍。从技术指标到商业验证,Mureka已证明自身不仅是全球顶尖的AI音乐技术平台,更是成熟的商业化产品。
3
结语
演讲最后,成宇以一句话收尾:“我们希望用最顶尖的技术,打破创作的门槛,让每一个创意都能被轻松实现,让每一个有表达欲的人都能拥有属于自己的视听话语权。”
这也是昆仑万维(300418)对“AI视听时代技术灯塔”这一品牌愿景的注脚——SkyReels要做的是下一代视听产业的核心基础设施,Mureka要做的是新一代音乐创意表达的底层操作系统,二者共同构成昆仑万维(300418)在AIGC多模态赛道上最坚实的技术底座。从技术底座到原生应用,从视频到音乐再到游戏(881275)世界,昆仑万维(300418)正以“4+3”战略为锚点,推动AI在全场景内容创作的深度变革。
