通义千问实现“全尺寸、全模态”开源
记者 陈奇杰 12月1日,阿里云宣布通义千问720亿参数模型Qwen-72B开源,一同开源的还有18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。加上之前开源的70亿、140亿参数的2款大语言模型,以及视觉理解模型Qwen-VL,通义千问实现了“全尺寸、全模态”开源。
“开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为‘AI时代最开放的大模型’,与伙伴们共同促进大模型生态建设。”阿里云CTO周靖人说道。
阿里云方面表示,此前中国大模型市场还没出现足以对标国外Llama 2-70B的优质开源模型,Qwen-72B抬升了开源大模型的尺寸和性能,是业界最强开源模型,填补了国内空白。基于Qwen-72B,大中型企业可开发商业应用,高校、科研院所可开展AI for Science等科研工作。
据周靖人称,8月以来开源的大模型Qwen-7B(70亿参数)、Qwen-14B(140亿参数)和视觉理解模型Qwen-VL得到中小企业和个人开发者的青睐,累计下载量超过150万,催生出150多款新模型、新应用。
本次开源的Qwen-72B性能更胜一筹,在10个权威基准测评中夺得开源模型最优成绩,在部分测评中超越闭源的GPT-3.5和GPT-4。据悉,Qwen-72B可以处理最多32k的长文本输入,在长文本理解测试集LEval上取得了超越ChatGPT-3.5-16k的效果。研发团队优化了Qwen-72B的指令遵循、工具使用等技能,使之能更好地被下游应用集成。
用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API(应用程序接口),或基于阿里云百炼平台定制大模型应用。阿里云人工智能平台PAI针对通义千问全系列模型进行深度适配,推出了轻量级微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。
另外,发布会上的另一开源模型Qwen-1.8B则“向下探底”,成为中国尺寸最小的开源大模型,推理2K长度文本内容仅需3G显存,可在消费级终端部署。
周靖人还提到,通义千问闭源模型也在持续进化,一个月前发布的通义千问2.0版闭源模型,最近已进阶至2.1版,上下文窗口长度扩展到32k,代码理解生成能力、数学推理能力、中英文百科知识、幻觉诱导抵抗能力分别提升30%、10%、近5%和14%,用户可以在通义千问APP免费体验最新版本的闭源模型。
0人
- 每日推荐
- 股票频道
- 要闻频道
- 港股频道
![](http://u.thsi.cn/imgsrc/flashcms/659633220_c689b3e310d88d17ae8332396be16c90.png)
![](http://u.thsi.cn/imgsrc/flashcms/659633220_6fc88dd6c2a123499cf86370e443f489.png)
- 两部门:加力支持大规模设备更新
- 沪深交易所宣布!8月19日起调整沪深港通交易信息披露机制
- 中证金融公司:暂停转融券两周以来,转融券规模下降30.67%
- “AI+游戏”潮起 厂商发力辐射价值
- 美国GDP增速超预期 软着陆稳了?
- “我们尝到了甜头!” AI“一夜春风”吹暖上市公司半年报
- 中证800原材料主题指数报2492.61点,前十大权重包含紫金矿业等
- 中华交易服务中国海外民企指数报4175.08点,前十大权重包含阿里巴巴等
- 24家上市公司触发股价稳定措施启动条件!其中三家为年内二次触发