DeepSeek新模型MODEL1曝光 代码库更新显示其与V3.2架构分离

来源: 财经观察

  事实观察

  截至2026年1月21日,人工智能公司DeepSeek在其官方GitHub代码仓库中更新了FlashMLA优化库,一项未公开的模型架构标识“MODEL1”在代码中被发现。该标识在总计114个文件中被提及28至31次,并被置于与当前旗舰模型DeepSeek-V3.2(代码中标识为V32)完全独立的平行分支中。代码显示MODEL1是FlashMLA库支持的两个主要模型架构之一。

  据新浪报道,在架构层面,MODEL1的head_dim参数被设定为512维,而DeepSeek V3系列模型曾采用576维设计。此外,代码库中出现了针对英伟达最新算力硬件NVIDIA Blackwell B200(SM100架构)的专用接口。此前有消息称DeepSeek计划在2026年2月中旬春节前后发布下一代旗舰模型。

  概念百科

  FlashMLA是一个针对大语言模型推理阶段进行优化的计算库,通常由人工智能公司开发,用于提升模型在特定硬件上的运行效率。其核心功能在于优化注意力机制的计算过程,通过算法和内存访问模式的改进,减少计算延迟和内存占用。这类优化库通常包含针对不同硬件架构(如GPU)的定制化内核实现,旨在充分利用硬件算力,实现更快的推理速度和更低的部署成本。DeepSeek的FlashMLA库支持其自研模型的推理加速。

  价值逻辑

  本次事件主体DeepSeek属于人工智能行业中的基础大模型研发与提供商环节,处于产业链的上游。其产品大语言模型作为生成式人工智能应用的核心引擎,物理用途是为下游的聊天机器人、代码助手、内容创作等各类AI应用提供底层能力支持。模型架构的迭代升级属于公司研发活动,相关投入在财务报表中体现为研发费用,是一项成本项。除了基础大模型,DeepSeek公司还涉及AI推理优化工具、相关学术研究等关联业务。

  行业相关今日个股

  昆仑万维300418)的今日最高价为54.300元,最低价为52.300元,最新价为53.920。成交量与成交金额分别为36712666与1962076800.00。

  原文:

  DeepSeek新模型MODEL1曝光 代码预示新架构(来源:格隆汇)

  DeepSeek新模型曝光 Model1核心演进方向揭晓(来源:新浪)

  DeepSeek新模型MODEL1曝光(来源:新浪财经)

  DeepSeek新模型MODEL1曝光!代码预示新架构(来源:圈内小八哥)

  DeepSeek更新GitHub仓库,新模型“MODEL1”曝光(来源:腾讯科技)

关注同花顺财经(ths518),获取更多机会

0

+1
  • 北信源
  • 兆易创新
  • 科森科技
  • 卓翼科技
  • 天融信
  • 吉视传媒
  • 御银股份
  • 中油资本
  • 代码|股票名称 最新 涨跌幅