Skywork首席科学家成宇：AI视听正在重构创作逻辑

6月12日至13日，第八届智源大会在北京举行。作为人工智能（885728）领域最具影响力的学术盛会之一，本届大会汇聚了两位图灵奖得主——数字安全奠基人Whitfield Diffie与强化学习奠基人Andrew Barto，以及200余位顶尖学者、40余位AI企业CEO与首席科学家，围绕Agent、世界模型、具身智能、多模态等前沿议题展开深入探讨。

13日，昆仑万维（300418）旗下Skywork首席科学家成宇在多模态论坛上，以《从SkyReels V4到Mureka V9：天工AI的AIGC多模态布局》为题发表主题演讲，系统阐述了昆仑万维（300418）在AI视频与AI音乐两大赛道的技术路径与产品战略。

2026年昆仑万维（300418）发布了“4+3”AGI战略，搭建全模态模型底座，依托“视频模型、音乐音频模型、世界模型、基座文本与多模态模型”四大SOTA技术底座，支撑“AI短剧、AI音乐、AI游戏（881275）”三大AI原生娱乐经济体，探索AI Native平台经济全新模式。从2023年探索6个方向，到如今聚焦4个SOTA大模型底座、赋能3大AI原生内容经济体，昆仑万维（300418）已完成从技术单点突破到系统性AI平台化布局的战略演进，形成了独特的技术护城河。

1 SkyReels V4：重构视听创作逻辑

成宇提出，天工AI在视频领域的核心主张，不是在做一个生成工具，而是在推动一场视听创作逻辑的重构。“真正成熟的AI视频生成技术，是一套重构视听创作逻辑的全新范式，是下一代视听产业的核心基础设施。”

他从社会与产业两个维度拆解了AI视频的渗透路径：对普通用户而言，旅行纪念、家庭影像、工作汇报等场景的创作门槛大幅降低，AI剧情短片已成为社交媒体上的新型“社交货币”，超六成用户每周主动观看AI视频内容；对产业创作者，AI视频正在重构影视工业流程与创作者工作流，并成为电商、教育、广告等行业低成本内容生产的核心引擎。

过去一年多，SkyReels团队致力于将 “生成专业、好用、有感染力的视听内容”，变成可复现、可控制、可迭代的系统能力。SkyReels历经V1开源、V2引入扩散强迫框架、V3支持多主体视频生成，到2026年3月V4正式登顶全球第一——在Artificial Analysis全球视频生成模型评测中，V4拿下Text to Video（With Audio）与Image to Video（With Audio）双赛道全球第一，Text to Video（No Audio）赛道全球第二，超越Veo 3.1、Sora 2等主流模型，实现中国在该领域的技术引领。

在这一演进基础上，成宇重点介绍了V4的四大核心技术突破。

音画一体双流联合生成架构——终结音画不同步顽疾

传统视频生成普遍采用“先生成画面，再匹配音频”的分离式流程，视频和音频如同两个独立团队在黑暗中各自演奏，生成的结果始终存在“口型漂移、动作与音效错位”等难以回避的顽疾。SkyReels V4自研双流MMDiT架构，视频分支与音频分支从任务开始就并肩工作，共享同一MLLM文本编码器，通过双向交叉注意力机制达到毫秒级音画精准对齐，从底层架构上实现端到端统一。

双流MMDiT 架构示意图

全模态理解和精准控制——万物可参考，所想即所得

现实创作中，用户的需求往往是多模态的——给一张图、一段视频参考、一个运动轨迹，甚至要擦除某个多余人物、替换主体服装颜色。而现有工具通常只能覆盖其中一部分，要么能做多模态参考却没有音频输出，要么能做编辑却不支持复杂参考。SkyReels V4将生成、编辑、处理等任务整合在统一框架里，提出通道拼接与时序拼接相结合的统一范式，支持多帧参考、多图片参考、运动参考、视频编辑等多种控制方式，大幅减少用户在不同工具间来回切换的繁琐体验。

全模态强化学习体系——从“像素工匠”进化为“创作艺术家”

传统视频生成模型存在一个核心痛点：极其注重画面中每一帧的清晰度和纹理细节，却经常忽略整段视频的逻辑连贯性——“像素完美，逻辑混乱”。成宇用一个直观的例子说明：当提示词是“一个演员在雨中奔跑，情绪从紧张到释然，最后停下抬头微笑”，过去的模型大概率会出现前后情绪不连贯、动作跳跃等明显不合逻辑的问题。

全模态强化前后GSP评比结果

为了解决这个问题，一方面搭建全模态语义Reward模型，以“上帝视角”扮演“首席监制”，覆盖文生视频(T2V)、图生视频(I2V)、视频编辑与参考、音视频对齐全场景，为生成提供全局精准的实时反馈，全方位优化生成效果；另一方面采用阶梯式课程强化学习路径，从分辨率与时长、任务复杂度、数据难度三个维度，让模型由简入繁掌握复杂能力。通过这套体系，V4实现了跨任务泛化能力的显著提升，让AI真正开始“理解”整个视频的逻辑与叙事结构。

突破四：攻克电影级画质与高效生成的平衡难题——1080p、15秒量产专业级视频

高分辨率长视频生成一直是行业计算瓶颈：直接扩散生成1080p、15秒的多镜头视频，会导致难以承受的显存和时间成本。SkyReels V4采用“低分辨率全序列+高分辨率关键帧”联合生成策略，模型先快速生成低分辨率完整视频和高分辨率关键帧，再通过专用超分辨率和帧插值模块重构高质量视频。结合VSA稀疏注意力机制大幅降低高分辨率长视频带来的二次方计算复杂度，将生成、修复、编辑三大功能整合进单一框架，稳定输出1080p、32FPS影院级画质，视频时长达15秒，实现专业级AI视频的高效量产。

技术原理：联合生成策略

成宇强调，这四大突破不是孤立的单点技术优化，而是一套系统性解决方案的有机组合：双流MMDiT从架构上解决音画同步，统一多模态控制框架让创作意图得到精准响应，全模态强化学习让视频不仅有像素更要有逻辑，高效联合生成策略让高质量创作不再被算力卡脖子。四条技术路径相互协同，共同推动视频生成从“拼画面”跨越到“讲故事”的新阶段。

成宇表示，SkyReels的目标不是自己做内容，而是“去中心化赋能”——将核心能力嵌入到每一个有需求的场景中，开放文生视频、图生视频、视频编辑、音画生成等全链路API，赋能短剧平台、电商平台、在线教育（885480）、影视行业和广告行业等不同客户群体。

昆仑万维（300418）已经陆续发布并开源多个SkyReels模型，包括SkyReels V1、SkyReels V2、SkyReels V3、SkyReels V4，以及SkyReels A1、SkyReels A2和SkyReels A3。欢迎开源社区、AI机构组织、科研学者等AI从业者和开发者下载使用 SkyReels 系列模型：https://huggingface.co/Skywork。

2 Mureka V9：把好听做成一种系统能力

Mureka 的前身是SkyMusic，自2024年2月内测起步，先后经历了SkyMusic 1.0/2.0、2024年8月以 Mureka 4.0独立上线、2025年7月Mureka7.0 引入MusiCoT思维链技术建立闭环进化轨道，到2026年1 月V8登顶 Artificial Analysis人声与器乐双赛道全球第一，再到2026年3月 Mureka V9在精准控制、录音室级混音、生成多样性等方面实现全面升级。Mureka团队一直在做同一件事：把好听变成一种系统能力。

成宇介绍，Mureka V9的升级重点聚焦于“创作意图的可控表达”——不仅生成得更快、更清晰，更能准确理解创作者在歌词段落中的具体表达诉求。

MusiCoT音乐思维链：给AI装上“全局视野”。传统AI音乐模型的生成方式是“下一个Token预测”——模型写完第一个音符，根据概率猜第二个，一路猜到结尾，如同盲人摸象、走一步看一步，前奏惊艳，一到副歌就结构崩塌；Mureka引入的MusiCoT技术，让AI在写第一个音符之前先在脑海中画好“全局建筑图纸”：规划歌词段落在哪里切分、每段歌词的语义重心落在哪个词、音乐结构如何对应、声音表达如何配合情绪走向，将音乐生成从“逐个音符猜”升级为“先规划后执行”的推理式创作。

五项核心升级叠加，实现“生成即可发布”。段落级文本控制让歌词的情绪重心能准确落在目标位置，不再是“唱出来了”而是“在对的段落被准确表达了”；混音与音质实现人声和伴奏清晰分离，接近母带级别；人声表达减少莫名其妙的飙高音和杂音，听起来像真人在唱；推理链路优化后生成效率大幅提升，企业不用反复抽卡；同一创作指令下能输出多种差异化版本，避免“生成五首差不多的歌”。Mureka的产品矩阵围绕“意图→生成→编辑→二创→分发→表达”，形成完整链路构建。

在横向评测中，Mureka V9在音乐旋律性（7.25）、音乐表现力（6.89）、编配编曲（6.98）三个维度均位列第一，在精准控制维度（7.24）排名第二，全面对标国际顶级模型。

此外，成宇还介绍了Mureka两大特色产品功能，Mureka Studio及Remix功能。Mureka Studio是一款AI-native DAW（数字音频工作站），支持多轨编辑、音频修复、人声/节奏/合成器分轨提取，将AI生成能力直接嵌入专业制作流程。Remix功能打通消费（883434）、版本化与传播的循环，用户在浏览内容时可一键对已有歌曲进行风格切换、歌词替换、旋律改写等操作，生成新版本后继续参与社交传播，形成内容的裂变增长飞轮。

这些产品能力的落地，让Mureka率先通过了“生产可用门槛”。北美增长型AI音乐公司Sondo从Suno全量切换至Mureka API后，合作体量增长超70%，音乐核心业务翻倍。从技术指标到商业验证，Mureka已证明自身不仅是全球顶尖的AI音乐技术平台，更是成熟的商业化产品。

3 结语

演讲最后，成宇以一句话收尾：“我们希望用最顶尖的技术，打破创作的门槛，让每一个创意都能被轻松实现，让每一个有表达欲的人都能拥有属于自己的视听话语权。”

这也是昆仑万维（300418）对“AI视听时代技术灯塔”这一品牌愿景的注脚——SkyReels要做的是下一代视听产业的核心基础设施，Mureka要做的是新一代音乐创意表达的底层操作系统，二者共同构成昆仑万维（300418）在AIGC多模态赛道上最坚实的技术底座。从技术底座到原生应用，从视频到音乐再到游戏（881275）世界，昆仑万维（300418）正以“4+3”战略为锚点，推动AI在全场景内容创作的深度变革。