阿里云宣布通义千问开源720亿参数模型
记者白杨 北京报道
12月1日,阿里云宣布开源通义千问720亿参数模型Qwen-72B、18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。
此前,通义千问已经开源了Qwen-7B、Qwen-14B和视觉理解模型Qwen-VL。据阿里云CTO周靖人介绍,这几款模型的累计下载量已超过150万,并催生出150多款新模型、新应用。
随着这次又新开源(300109)三款大模型,通义千问的开源大模型矩阵也扩展到18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,真正实现了“全尺寸、全模态”开源。
周靖人在发布会上表示,开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为“AI时代最开放的大模型”。
在这次新开源的大模型中,最值得关注的是Qwen-72B。在此之前,中国大模型市场还没出现足以对标Llama 2-70B的优质开源模型,而Qwen-72B填补了国内空白。
据悉,Qwen-72B基于3T tokens高质量数据训练,可以处理最多32k的长文本输入,在10个权威基准测评中夺得开源模型最优成绩,在部分测评中超越闭源的GPT-3.5和GPT-4。
周靖人介绍称,阿里云研发团队优化了Qwen-72B的指令遵循、工具使用等技能,使之能更好地被下游应用集成。比如,Qwen-72B搭载的系统指令(System Prompt)能力,让用户用一句提示词就可定制AI助手,并要求大模型扮演某个角色或者执行特定的回复任务。
Qwen-72B的开源,也为业界提供了一款不亚于商业闭源大模型的选择。而除了Qwen-72B,这次开源的Qwen-1.8B也是目前尺寸最小的中国开源大模型。周靖人表示,“这款可推理2K长度文本内容,显存仅需3G的大模型,主要是面向消费级终端。”
发布会上,阿里云还披露了通义千问闭源模型的最新进展。据悉,一个月前发布的通义千问2.0版闭源模型最近已迭代至2.1版,其上下文窗口长度已扩展到32k,代码理解生成能力、数学推理能力、中英文百科知识、幻觉诱导抵抗能力也分别提升了30%、10%、近5%和14%。
0人
- 每日推荐
- 股票频道
- 要闻频道
- 港股频道
![](http://u.thsi.cn/imgsrc/flashcms/659633220_c689b3e310d88d17ae8332396be16c90.png)
![](http://u.thsi.cn/imgsrc/flashcms/659633220_6fc88dd6c2a123499cf86370e443f489.png)
- 两部门:加力支持大规模设备更新
- 沪深交易所宣布!8月19日起调整沪深港通交易信息披露机制
- 中证金融公司:暂停转融券两周以来,转融券规模下降30.67%
- “AI+游戏”潮起 厂商发力辐射价值
- 美国GDP增速超预期 软着陆稳了?
- “我们尝到了甜头!” AI“一夜春风”吹暖上市公司半年报
- 中证800原材料主题指数报2492.61点,前十大权重包含紫金矿业等
- 中华交易服务中国海外民企指数报4175.08点,前十大权重包含阿里巴巴等
- 24家上市公司触发股价稳定措施启动条件!其中三家为年内二次触发