DeepSeek-R1启发下,小米大模型团队登顶音频推理MMAU榜
小米技术官微今日(3 月 17 日)发文称,小米大模型团队在音频推理领域取得突破性进展。
受 DeepSeek-R1 启发,团队率先将强化学习算法应用于多模态音频理解任务,仅用一周时间便以 64.5% 的 SOTA 准确率登顶国际权威的 MMAU 音频理解评测榜首,现同步开源。
DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法,让模型仅通过"试错-奖励"机制就能使自主进化,涌现出类似人类的反思、多步验证等推理能力。
该团队尝试将 DeepSeek-R1 的 GRPO 算法迁移到 Qwen2-Audio-7B 模型上。
在仅使用 AVQA 的 3.8 万条训练样本的情况下,强化学习微调后的模型在 MMAU 评测集上实现了 64.5% 的准确率,这一成绩比目前榜单上第一名的商业闭源模型 GPT-4o 有近 10 个百分点的优势。
尽管当前准确率已突破 64%,但距离人类专家 82% 的水平仍有差距。
有趣的是,官方提供的交互 demo 中,默认分析的便是雷总 2015 年“R U OK”的视频。
285人
- 每日推荐
- 股票频道
- 要闻频道
- 港股频道


- 上海传重磅!重组潜力股名单出炉!
- 与小米合作推出新一代AI眼镜?歌尔股份回应:不便透露客户信息
- 离“不卖就禁”只剩两个多月!特朗普团队:将兑现承诺,拯救TikTok
- 涨停复盘:创业板指探底回升收涨1.11% AI应用方向集体走强
- 春节8天 2025年法定节假日安排来了
- 沪深 300 相对成长指数报3474.62点,前十大权重包含贵州茅台等
- 沪深 300 相对价值指数报4285.61点,前十大权重包含中国平安等
- 机构论市:目前指数上行的趋势并没有改变
- 【机会挖掘】低空经济政策频发 相关产业有望受益