01
行业痛点
2026伊始,大模型技术进入爆发期:上下文长度从128K 跃升至 1M+,不论是开源还是闭源模型的代码推理准确率均得到明显提升,但能力提升的背后是模型参数量的指数级增长 —— 原先 30B 的轻量代码模型,现已迭代为 350B甚至 700B以上的超大规模模型。
随着模型能力的提升,出现了现象级的智能体——OpenClaw,而OpenClaw的大火,带来了LLM大模型算力资源紧张以及超长上下文的首字延迟高的问题,于是高频使用的上下文缓存问题,重复计算,算力紧张问题成为行业痛点,具体表现在 “技术性能” 与 “企业运营” 两大维度:
技术性能痛点:算力资源紧张与延迟问题凸显
算力消耗激增:部署750B模型,需占用 16 张 80GB显存的 GPU卡,仅能支持 10-20 路长上下文并发,企业若服务 100 名用户需部署 160张GPU 卡,占用巨大算力资源;
首字延迟高:超长上下文(1M)场景下,智能体首字输出延迟达10秒以上,远超用户可接受的 2-5 秒阈值;
重复计算浪费:高频使用的上下文未有效缓存,模型在每次推理时都需要将完整的上下文(包含海量的企业知识、过往的多轮对话历史、系统指令等)重新进行编码和计算,尽管这些信息在相邻对话轮次中大部分是重复且静态的。约30%的高昂计算资源并非用于生成新的创造性内容,而是被消耗在这种对已知、高频、稳定上下文信息的重复编码过程中。这造成了显著的资源浪费和经济成本压力,尤其在需要长期记忆和复杂任务分解的场景下,问题更为突出;
海量数据(603138)的容量扩展瓶颈:大模型业务的不断增加,带来繁杂的数据集和TB级的模型权重文件。随着训练和推理的不断进行,还会呈指数级增长;
后端高性能的支持:多业务多用户进行加载、调用推理模型,对后端的传输能力要求极高,后端存储性能在不断增长的算力面前,也在接受严峻的IO吞吐考验。
企业运营痛点:全生命周期管理能力缺失
环境适配难:智能体与企业现有 IT 流程串联效率低,接口开发周期(883436)平均达 3-4 周;
运营能力不足:缺乏算力调度、数据治理、技能安全管控的一体化平台,约 60% 企业需组建 5 人以上专职团队维护;
AI资产积累慢:缺乏统一的平台,进行数据、知识、模型、技能等AI原生资产的积累,无法为帮助企业实现量变到质变的AI转型;
国产化合规风险:部分企业采用海外 GPU(如 NVIDIA A100),在政务、金融等领域面临安全合规限制。
02
趋势洞察
大模型智能体发展的三大核心方向:
模型规模与算力需求持续攀升
参数量增长:2026 年主流大模型参数量将突破 1T,对算力、显存、带宽的要求呈 “三级跳”—— 算力需求从 FP16 的 10PFlops 升至 FP8 的 50PFlops,显存需求从 80GB / 卡升至 144GB / 卡,节点间带宽需达 200Gbps 以上;
优化方向转变:从“单纯增加硬件” 转向 “算力使用效率优化”,如模型压缩(量化、剪枝)、计算调度(批处理、动态负载)、缓存复用(上下文缓存、中间结果缓存)成为核心技术方向。
国产化算力底座成为刚需
政策驱动:《“十四五” 数字经济(885976)发展规划》明确要求,2026 年关键领域大模型算力底座国产化率需达70%以上,海光DCU等国产加速卡市场占比从2025年的 25% 升至 40%;
集群化趋势:企业从 “单节点部署” 转向 “国产化集群”,通过集群化实现算力弹性扩展(支持 10-1000 节点无缝扩容),同时满足安全合规与高可用性需求。
智能体运营平台化
从 “单一工具” 到 “平台化运营”:企业不再满足于 智能体 的基础能力,而是需要涵盖 “数据治理 - 算力调度 - 技能管控 - 效果监控” 的全生命周期(883436)平台;
一体化需求:85% 的受访企业希望解决方案能同时解决 “算力不足” 与 “运营复杂” 问题,避免多厂商对接的效率损耗(数据来源:星环科技(688031)企业调研)。
03
解决方案
星环 + 海光 = 国产化大模型智能体运营平台
基于上述痛点与趋势,星环科技(688031)联合海光信息(688041),推出以“星环LLMOps大模型平台 + 海光DCU算力底座”为核心的全栈国产化解决方案。依托海光DCU、海光CPU通算服务器构建高性能、全合规的国产化底座,完美适配各类Claw智能体的全场景需求。
解决方案架构图(核心模块):
核心方案介绍
全栈国产化底座,满足合规需求
硬件层面:采用海光深算三号BW系列DCU加速卡(兼容国产C86指令集及CUDA生态)+ 海光C86-4G CPU服务器。单节点支持8张DCU卡,提供强劲的国产算力核心;
软件层面:星环LLMOps平台(自主研发,无开源依赖)与海光硬件深度适配优化,全栈符合《信息技术产品国产化评价规范》,满足政务、金融等领域最高安全合规要求。
LLMOps平台:大模型+智能体运营核心
数据治理模块:支持企业知识库自动清洗、分块、向量化,数据处理效率提升 3 倍,向量化精度达 98%;
推理加速模块:内置动态批处理、上下文缓存、模型量化(FP8)功能,结合对海光DCU底层架构的深度优化,智能体首字延迟从8秒降至1.5秒,并发量提升5倍;
算力管理模块:支持GPU/海光DCU混合调度,算力利用率从40%提升至75%,单用户算力成本降低47%(数据来源:海光DCU测试报告);
智能体运行管理模块:提供企业级 Agent Runtime,支持多类型智能体应用开发/调试/部署和插件技能管理;
运营监控模块:实时监控智能体调用量、延迟、错误率,支持算力用量统计、成本分摊,告警响应时间 < 1 分钟。
分布式文件存储:高可靠数据支撑
本方案可灵活适配多种国产化存储。对于高性能场景,可无缝集成第三方国产分布式存储,或搭配星环科技(688031)推荐的国产企业级SSD存储,确保数据层的可靠与高效。
04
核心价值点
为企业降本、提效、合规
易用性突出:智能体调用企业工具,开发周期从3-4周缩短至1-2天;
端到端解决方案:覆盖“算力底座(海光)- 平台(星环)- 应用”全链路,部署周期(883436)从1个月缩短至2周;
兼容与灵活,保护投资:海光DCU兼容CUDA 生态,新模型可快速对接上线,且能与现有NVIDIA硬件统一管理调度,保护企业既有投资;
算力管理高效:算力利用率从30% 升至 75%,单月算力成本降低 47%(按 100 节点集群测算,月省成本约 20 万元);
推理加速显著:结合LLMOps的KV-Cache能力及海光DCU大显存优势,平台能容纳更多上下文缓存,首字延迟明显降低,并发量显著提升;
集群运维便捷:星环LLMOps平台支持集群自动化部署、监控、故障自愈,运维人员减少50%。
