阿里云宣布通义千问开源720亿参数模型

2023-12-01 23:33:46 来源： 21世纪经济报道

　　记者白杨北京报道

　　12月1日，阿里云宣布开源通义千问720亿参数模型Qwen-72B、18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。

　　此前，通义千问已经开源了Qwen-7B、Qwen-14B和视觉理解模型Qwen-VL。据阿里云CTO周靖人介绍，这几款模型的累计下载量已超过150万，并催生出150多款新模型、新应用。

　　随着这次又新开源（300109）三款大模型，通义千问的开源大模型矩阵也扩展到18亿、70亿、140亿、720亿参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型，真正实现了“全尺寸、全模态”开源。

　　周靖人在发布会上表示，开源生态对促进中国大模型的技术进步与应用落地至关重要，通义千问将持续投入开源，希望成为“AI时代最开放的大模型”。

　　在这次新开源的大模型中，最值得关注的是Qwen-72B。在此之前，中国大模型市场还没出现足以对标Llama 2-70B的优质开源模型，而Qwen-72B填补了国内空白。

　　据悉，Qwen-72B基于3T tokens高质量数据训练，可以处理最多32k的长文本输入，在10个权威基准测评中夺得开源模型最优成绩，在部分测评中超越闭源的GPT-3.5和GPT-4。

　　周靖人介绍称，阿里云研发团队优化了Qwen-72B的指令遵循、工具使用等技能，使之能更好地被下游应用集成。比如，Qwen-72B搭载的系统指令（System Prompt）能力，让用户用一句提示词就可定制AI助手，并要求大模型扮演某个角色或者执行特定的回复任务。

　　Qwen-72B的开源，也为业界提供了一款不亚于商业闭源大模型的选择。而除了Qwen-72B，这次开源的Qwen-1.8B也是目前尺寸最小的中国开源大模型。周靖人表示，“这款可推理2K长度文本内容，显存仅需3G的大模型，主要是面向消费级终端。”

　　发布会上，阿里云还披露了通义千问闭源模型的最新进展。据悉，一个月前发布的通义千问2.0版闭源模型最近已迭代至2.1版，其上下文窗口长度已扩展到32k，代码理解生成能力、数学推理能力、中英文百科知识、幻觉诱导抵抗能力也分别提升了30%、10%、近5%和14%。

0人

代码\|股票名称	最新	涨跌幅

扫描添加同花顺财经官方微信号

扫描添加手机同花顺财经

扫描添加专业炒股利器

扫描添加同花顺爱基金

不良信息举报电话：(0571)88933003 举报邮箱：jubao@myhexin.com 增值电信业务经营许可证：B2-20090237

网站备案号：浙ICP备10056399号-3 证券投资咨询服务提供：浙江同花顺云软件有限公司（中国证监会核发证书编号：ZX0050）

不良信息举报

浙公网安备 33011002011820号

浙江市场监管

网站地图