解码「天工 SkyMusic」,填补 AI 音乐领域技术空白

2024-04-12 15:14:59 来源: IT之家

  这几周,全球无不对 AI 音乐大模型那”以假乱真“的音乐创作能力感到惊奇不已,甚至有人认为“AI 将革新音乐产业”。

  而位居这场革新风暴中心的,正是昆仑万维300418)推出的国内唯一公开可用的 AI 音乐生成大模型 ——「天工 SkyMusic」。

  自开启邀测以来,「天工 SkyMusic」已经在互联网上刷爆了存在感,成为网友们改编、二创音乐的新晋网红神器。

  迟迟等不到的“音乐 ChatGPT”时刻

  相信大家在体验「天工 SkyMusic」时,都会有一个疑问:隔壁 AI 视频生成大模型都开始辅助创作了,为什么「天工 SkyMusic」这类 AI 音乐生成大模型才才崭露头角?

  原因在于构建生成高质量音乐的 AI 大模型,所面临的复杂度远超想象。

  一方面是技术路线的选择,AI 音乐生成大模型有两种主流技术路线,符号音乐生成和大模型音乐音频生成。前者以 MIDI 为主要流派,其本身不包含音频文件,而是记录音乐演奏的指令,比如哪个音符被播放、音量是多少、音符持续的时间等,不能生成直接听的音乐。

  学术与产业界在符号派的 AI 音乐生成上投入了大量研究,但是始终效果不佳。

  相反,深度学习大规模音频数据则通过大模型端对端的方案,直接生成包含乐器、人声、旋律等音乐元素的完整音频作品。它需要模型具备极高的模拟精确度、大规模的高品质音频数据集、庞大的算力支撑……

  这是一条预期效果更好,但是难度非常高的技术路径,业内只有很少玩家展开研究。

  同时,鉴于歌声在音乐审美中的核心地位,AI 对人声歌唱逼真模拟的研究也尤为关键。遗憾的是,受限于技术发展,以往 AI 音乐生成模型更关注无人声演唱的背景音乐(Background Music,BGM)领域,而非包含人声演唱的 Song 领域,因此行业内缺乏有效的解决方案。

  因此在 AI 音乐生成领域,无论是 OpenAI 的 JukeBox、Meta 的 MusicGen,还是 Google 的 MusicLM,它们虽然逐步解决了 AI 音乐生成中的痛点,但距离生成高品质且类型丰富的音乐作品还有一定距离。

  「天工 SkyMusic」自研发阶段即确立目标,要开发一款辅助用户创作高质量音乐的工具。团队毅然选择了 AI 音乐生成大模型的道路,并决定重点攻克人声歌唱难题,勇敢涉足 AI 音乐制作领域内两个最具挑战的无人区。

  「天工 SkyMusic」架构诞生记

  面对大模型音乐音频生成 + 人声 Song 这两个近乎空白的技术领域,昆仑万维倾注了海量研发资源和算力算法投入,不断试错,终于自主研发出一套音乐音频领域的大模型架构。

  这是一套类似 Sora 的 DiT 大模型架构,采用 LLM+Diffusion 的核心模块组成。

  其中,用户输入的参考音乐会被拆解为不同的 Music Patches,由 Large-scale Transformer 负责谱曲,来学习 Music Patches 的上下文依赖关系,同时完成音乐可控性。

  同时,Diffusion Transformer 将负责大模型的“演唱”部分,通过 LDM(Latent Diffusion Model)扩散模型让 Music Patches 被还原成成 44.1KHz 的高品质立体声的音频。

  昆仑万维这套高效、灵活且具有情感表达能力的音乐生成模型架构,填补了音频生成 + 人声 Song 这两技术领域的空白,堪称 AI 音乐生成领域的一大技术飞跃,也让昆仑万维公开「天工 SkyMusic」技术原理图的举措更让人敬佩,它不仅打破了行业内的封闭状态,更为更是为整个产业铺垫了一条可复现的技术路径,大大降低整个 AI 音乐生成产业的研发风险。

  AI 音乐破晓:「天工 SkyMusic」的中国式突破

  从「天工 SkyMusic」的技术分析中我们可以看到,昆仑万维在研发过程中克服了诸多技术难题,为我们打造出一个真正意义上,能高效创作高品质音乐的 AI 音乐生成大模型。在这里,我们可以生成时长 80 秒,采样率 44.1KHz 的双声道立体声歌曲,还可以通过歌词控制歌曲的情绪变化,精确区分不同音乐结构间的情感起伏,也可完成各种复杂歌唱技巧。

  而且较之国外同类产品,「天工 SkyMusic」最明显的差异是在中文人声歌唱上发音纯正清晰,无明显机械痕迹,效果逼真的程度足以“以假乱真”。这不仅让中文歌词韵味和情感表达更为出色,也在表达中国文化特有的意境与情感内涵时,更加贴合国人的审美习惯与情感认同,形成独有的差异化优势。

  情感 AGI 待放:天工 SkyMusic」引领情感创作变革

  「天工 SkyMusic」作为昆仑万维“All in AGI 和 AIGC”战略下在音乐领域的先锋之作,填补了传统 AGI 侧重于智力拓展而忽视情感维度的空白,标志着昆仑万维在情感 AGI 研究中取得的重大突破。

  如今,「天工 SkyMusic」不仅降低音乐创作门槛,让更多普通用户能够借助这款全民音乐创作工具的力量,更好地通过音乐这一媒介,表达自己的情感和创意。未来,随着昆仑万维在情感 AGI 技术上不断的突破,「天工 SkyMusic」将具备更多令人惊叹的创作能力,亦有望成为辅助专业音乐创作者的利器。

关注同花顺财经(ths518),获取更多机会

0

+1
小牛诊股诊断日期:2024-04-30
昆仑万维
击败了48%的股票
短期趋势前期的强势行情已经结束,投资者及时卖出股票为为宜。
中期趋势
长期趋势已有415家主力机构披露2023-12-31报告期持股数据,持仓量总计3.33亿股,占流通A股30.11%
综合诊断:近期的平均成本为40.50元。该股资金方面受到市场关注,多方势头较强。该公司运营状况尚可,多数机构认为该股长期投资价值较高,投资者可加强关注。