DeepSeek“开源周”启动

来源: 上海证券报·中国证券网

  上证报中国证券网讯(记者谭镕)2月24日,DeepSeek启动“开源周”,开源了首个代码库FlashMLA。

   DeepSeek称,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000GB/s的内存带宽以及580TFLOPS的计算性能。”DeepSeek表示。

  据介绍,MLA(Multi-Layer Attention,多层注意力机制)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列时的效率和性能。MLA通过多个头(head)的并行计算,让模型能够同时关注文本中不同位置和不同语义层面的信息,从而更全面、更深入地捕捉长距离依赖关系和复杂语义结构。

关注同花顺财经(ths518),获取更多机会

0

+1
  • 黑芝麻
  • 欧菲光
  • 君正集团
  • 晶方科技
  • 有研新材
  • 英洛华
  • 供销大集
  • 天汽模
  • 代码|股票名称 最新 涨跌幅