星环 + 海光 = 国产化大模型智能体运营平台

行业痛点

2026伊始，大模型技术进入爆发期：上下文长度从128K 跃升至 1M+，不论是开源还是闭源模型的代码推理准确率均得到明显提升，但能力提升的背后是模型参数量的指数级增长 —— 原先 30B 的轻量代码模型，现已迭代为 350B甚至 700B以上的超大规模模型。

随着模型能力的提升，出现了现象级的智能体——OpenClaw，而OpenClaw的大火，带来了LLM大模型算力资源紧张以及超长上下文的首字延迟高的问题，于是高频使用的上下文缓存问题，重复计算，算力紧张问题成为行业痛点，具体表现在 “技术性能” 与 “企业运营” 两大维度：

技术性能痛点：算力资源紧张与延迟问题凸显

算力消耗激增：部署750B模型，需占用 16 张 80GB显存的 GPU卡，仅能支持 10-20 路长上下文并发，企业若服务 100 名用户需部署 160张GPU 卡，占用巨大算力资源；

首字延迟高：超长上下文（1M）场景下，智能体首字输出延迟达10秒以上，远超用户可接受的 2-5 秒阈值；

重复计算浪费：高频使用的上下文未有效缓存，模型在每次推理时都需要将完整的上下文（包含海量的企业知识、过往的多轮对话历史、系统指令等）重新进行编码和计算，尽管这些信息在相邻对话轮次中大部分是重复且静态的。约30%的高昂计算资源并非用于生成新的创造性内容，而是被消耗在这种对已知、高频、稳定上下文信息的重复编码过程中。这造成了显著的资源浪费和经济成本压力，尤其在需要长期记忆和复杂任务分解的场景下，问题更为突出；

海量数据（603138）的容量扩展瓶颈：大模型业务的不断增加，带来繁杂的数据集和TB级的模型权重文件。随着训练和推理的不断进行，还会呈指数级增长；

后端高性能的支持：多业务多用户进行加载、调用推理模型，对后端的传输能力要求极高，后端存储性能在不断增长的算力面前，也在接受严峻的IO吞吐考验。

企业运营痛点：全生命周期管理能力缺失

环境适配难：智能体与企业现有 IT 流程串联效率低，接口开发周期（883436）平均达 3-4 周；

运营能力不足：缺乏算力调度、数据治理、技能安全管控的一体化平台，约 60% 企业需组建 5 人以上专职团队维护；

AI资产积累慢：缺乏统一的平台，进行数据、知识、模型、技能等AI原生资产的积累，无法为帮助企业实现量变到质变的AI转型；

国产化合规风险：部分企业采用海外 GPU（如 NVIDIA A100），在政务、金融等领域面临安全合规限制。

趋势洞察

大模型智能体发展的三大核心方向：

模型规模与算力需求持续攀升

参数量增长：2026 年主流大模型参数量将突破 1T，对算力、显存、带宽的要求呈 “三级跳”—— 算力需求从 FP16 的 10PFlops 升至 FP8 的 50PFlops，显存需求从 80GB / 卡升至 144GB / 卡，节点间带宽需达 200Gbps 以上；

优化方向转变：从“单纯增加硬件” 转向 “算力使用效率优化”，如模型压缩（量化、剪枝）、计算调度（批处理、动态负载）、缓存复用（上下文缓存、中间结果缓存）成为核心技术方向。

国产化算力底座成为刚需

政策驱动：《“十四五” 数字经济（885976）发展规划》明确要求，2026 年关键领域大模型算力底座国产化率需达70%以上，海光DCU等国产加速卡市场占比从2025年的 25% 升至 40%；

集群化趋势：企业从 “单节点部署” 转向 “国产化集群”，通过集群化实现算力弹性扩展（支持 10-1000 节点无缝扩容），同时满足安全合规与高可用性需求。

智能体运营平台化

从 “单一工具” 到 “平台化运营”：企业不再满足于智能体的基础能力，而是需要涵盖 “数据治理 - 算力调度 - 技能管控 - 效果监控” 的全生命周期（883436）平台；

一体化需求：85% 的受访企业希望解决方案能同时解决 “算力不足” 与 “运营复杂” 问题，避免多厂商对接的效率损耗（数据来源：星环科技（688031）企业调研）。

解决方案

星环 + 海光 = 国产化大模型智能体运营平台

基于上述痛点与趋势，星环科技（688031）联合海光信息（688041），推出以“星环LLMOps大模型平台 + 海光DCU算力底座”为核心的全栈国产化解决方案。依托海光DCU、海光CPU通算服务器构建高性能、全合规的国产化底座，完美适配各类Claw智能体的全场景需求。

解决方案架构图（核心模块）：

核心方案介绍

全栈国产化底座，满足合规需求

硬件层面：采用海光深算三号BW系列DCU加速卡（兼容国产C86指令集及CUDA生态）+ 海光C86-4G CPU服务器。单节点支持8张DCU卡，提供强劲的国产算力核心；

软件层面：星环LLMOps平台（自主研发，无开源依赖）与海光硬件深度适配优化，全栈符合《信息技术产品国产化评价规范》，满足政务、金融等领域最高安全合规要求。

LLMOps平台：大模型+智能体运营核心

数据治理模块：支持企业知识库自动清洗、分块、向量化，数据处理效率提升 3 倍，向量化精度达 98%；

推理加速模块：内置动态批处理、上下文缓存、模型量化（FP8）功能，结合对海光DCU底层架构的深度优化，智能体首字延迟从8秒降至1.5秒，并发量提升5倍；

算力管理模块：支持GPU/海光DCU混合调度，算力利用率从40%提升至75%，单用户算力成本降低47%（数据来源：海光DCU测试报告）；

智能体运行管理模块：提供企业级 Agent Runtime，支持多类型智能体应用开发/调试/部署和插件技能管理；

运营监控模块：实时监控智能体调用量、延迟、错误率，支持算力用量统计、成本分摊，告警响应时间 < 1 分钟。

分布式文件存储：高可靠数据支撑

本方案可灵活适配多种国产化存储。对于高性能场景，可无缝集成第三方国产分布式存储，或搭配星环科技（688031）推荐的国产企业级SSD存储，确保数据层的可靠与高效。

核心价值点

为企业降本、提效、合规

易用性突出：智能体调用企业工具，开发周期从3-4周缩短至1-2天；

端到端解决方案：覆盖“算力底座（海光）- 平台（星环）- 应用”全链路，部署周期（883436）从1个月缩短至2周；

兼容与灵活，保护投资：海光DCU兼容CUDA 生态，新模型可快速对接上线，且能与现有NVIDIA硬件统一管理调度，保护企业既有投资；

算力管理高效：算力利用率从30% 升至 75%，单月算力成本降低 47%（按 100 节点集群测算，月省成本约 20 万元）；

推理加速显著：结合LLMOps的KV-Cache能力及海光DCU大显存优势，平台能容纳更多上下文缓存，首字延迟明显降低，并发量显著提升；

集群运维便捷：星环LLMOps平台支持集群自动化部署、监控、故障自愈，运维人员减少50%。

问财摘要