DeepSeek发布梁文锋署名新论文 开源记忆模块

来源: 洞见股市

  2026年1月13日,DeepSeek与北京大学合作发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,创始人梁文锋为合著作者之一。论文提出条件记忆(conditional memory)概念,通过可扩展查找结构解决大语言模型知识检索效率低下的问题。同日,团队开源实现该技术的Engram模块。

  实验数据显示,在27B参数规模模型中,将部分混合专家(MoE)参数重新分配给Engram记忆表后,模型在知识调用、推理及数学任务上的表现均获提升。该技术通过N-Gram切片和哈希映射实现常数时间检索,其成本与模型规模无关。

  流形约束超连接(mHC)是DeepSeek提出的神经网络架构,旨在解决超连接技术导致的训练不稳定问题。该技术通过约束残差连接空间恢复恒等映射特性,由解振达、韦毅轩、曹焕琪担任第一作者,梁文锋参与署名。

  条件记忆指通过外部存储结构实现高效知识检索的机制。Engram作为其实现方案,采用静态记忆表存储N-Gram切片,通过哈希映射实现快速查询。该技术为大模型提供了独立于计算的稀疏化维度,与MoE形成互补。

  DeepSeek主营业务涵盖大语言模型研发及相关技术探索。Engram模块属于模型架构优化领域,直接影响推理效率这一核心成本项。mHC架构则属于训练框架优化范畴,涉及模型开发的基础设施环节。两项技术分别针对模型推理和训练阶段。

关注同花顺财经(ths518),获取更多机会

0

+1
  • 北信源
  • 兆易创新
  • 科森科技
  • 卓翼科技
  • 天融信
  • 吉视传媒
  • 御银股份
  • 中油资本
  • 代码|股票名称 最新 涨跌幅