阿里云通义千问大模型迎新进展 “通义听悟”正式公测聚焦音视频赛道
继史无前例的大降价后,阿里云再次送出人人都能用上的AI“大礼包”。6月1日,在阿里云峰会·粤港澳大湾区分会场,阿里云公布了通义大模型的进展,聚焦音视频内容的AI新品“通义听悟”正式上线,成为国内首个开放公测的大模型应用产品。
“换一种方式,让音视频可以被轻松阅读、整理和分享。”阿里云CTO周靖人介绍,通义听悟是一款工作学习AI助手,它瞄准具有高知识附加值的音视频内容场景,比如开会、上课、访谈、培训、面试、直播、看视频、听播客等,能通过大模型等最新AI技术快速提炼和沉淀知识。
据了解,通义听悟接入了通义千问大模型的理解与摘要能力,可高效完成对音视频内容的转写、检索、摘要和整理,比如,用大模型自动做笔记、整理访谈、提取PPT等。
根据现场演示,通义听悟可高准确度生成会议记录、区分不同发言人,还可以在一秒内给音视频划分章节并形成摘要、总结全文及每个发言人的观点、整理关注重点和待办事项。此外,大模型一键提取PPT、针对多个音视频内容向AI提问、概括特定段落等功能也将于近期上线。
针对一些细分场景,通义听悟还设置了不少“宝藏功能”:打开Chrome插件,外语学习者和听障人士可以借助双语悬浮字幕条随时随地看无字幕视频;日程冲突时,通义听悟还可成为职场人士的“开会替身”,在静音情况下入会AI可代为记录会议、整理要点;转写结果可下载为字幕文件,方便新媒体从业者视频后期制作;通义听悟梳理的问答回顾可以让记者、分析师、律师、HR等群体整理访谈更高效。
通义听悟另一显著优势是,与阿里云盘打通,一键就能转写云盘上的音视频内容,公测期间注册的用户后续还将获得更大的阿里云盘存储空间,在云盘内在线播放视频时可自动出字幕。
周靖人介绍,通义听悟集成了阿里最先进的语音和语言技术。其内置阿里新一代工业级语音识别模型,识别准确率在多个权威中文数据集上名列第一;融合自研语音语义多模态说话人算法,能对10人以上说话场景进行角色区分;接入通义千问大模型后,能够对上万字的音视频内容进行摘要总结,事实准确性与要点完备性在国内领先,支持跨多音视频内容的精准问答理解。
值得一提的是,公测期间,阿里云官方微博、微信及各大平台社区还会发放大量20小时转写口令码,用户获得的福利权益可累加,一年内有效,免费时长达100小时以上。
据了解,通义听悟听悟除个人版本外,还有企业级应用。此前,通义听悟企业版已在阿里集团内部广泛使用,帮助使用者减少了大量会议记录和整理的工作,广受好评。同时,通义听悟的能力也可嵌进各类音视频平台,形成实时字幕、智能摘要等,钉钉的“钉闪记”就是集成了通义听悟的功能。未来,通义听悟还将在夸克APP、阿里云盘等端口提供服务。
931人
- 每日推荐
- 股票频道
- 要闻频道
- 港股频道


- 上海传重磅!重组潜力股名单出炉!
- 与小米合作推出新一代AI眼镜?歌尔股份回应:不便透露客户信息
- 离“不卖就禁”只剩两个多月!特朗普团队:将兑现承诺,拯救TikTok
- 涨停复盘:创业板指探底回升收涨1.11% AI应用方向集体走强
- 春节8天 2025年法定节假日安排来了
- 沪深 300 相对成长指数报3474.62点,前十大权重包含贵州茅台等
- 沪深 300 相对价值指数报4285.61点,前十大权重包含中国平安等
- 机构论市:目前指数上行的趋势并没有改变
- 【机会挖掘】低空经济政策频发 相关产业有望受益