同花顺 Logo
AIME助手
问财助手
星环 + 海光 = 国产化大模型智能体运营平台
2026-04-23 17:41:05
分享
AIME

问财摘要

1、2026年,大模型技术进入爆发期,模型参数量呈指数级增长。智能体OpenClaw带来算力资源紧张和首字延迟高的问题,高频使用的上下文缓存、重复计算和算力紧张成为行业痛点。 2、星环科技联合海光信息,推出以“星环LLMOps大模型平台 + 海光DCU算力底座”为核心的全栈国产化解决方案,解决企业降本、提效、合规问题。
免责声明 内容由AI生成
文章提及标的
海量数据--
周期--
数字经济--
海光信息--
星环科技-U--

01

行业痛点

2026伊始,大模型技术进入爆发期:上下文长度从128K 跃升至 1M+,不论是开源还是闭源模型的代码推理准确率均得到明显提升,但能力提升的背后是模型参数量的指数级增长 —— 原先 30B 的轻量代码模型,现已迭代为 350B甚至 700B以上的超大规模模型。

随着模型能力的提升,出现了现象级的智能体——OpenClaw,而OpenClaw的大火,带来了LLM大模型算力资源紧张以及超长上下文的首字延迟高的问题,于是高频使用的上下文缓存问题,重复计算,算力紧张问题成为行业痛点,具体表现在 “技术性能” 与 “企业运营” 两大维度:

技术性能痛点:算力资源紧张与延迟问题凸显

算力消耗激增:部署750B模型,需占用 16 张 80GB显存的 GPU卡,仅能支持 10-20 路长上下文并发,企业若服务 100 名用户需部署 160张GPU 卡,占用巨大算力资源;

首字延迟高:超长上下文(1M)场景下,智能体首字输出延迟达10秒以上,远超用户可接受的 2-5 秒阈值;

重复计算浪费:高频使用的上下文未有效缓存,模型在每次推理时都需要将完整的上下文(包含海量的企业知识、过往的多轮对话历史、系统指令等)重新进行编码和计算,尽管这些信息在相邻对话轮次中大部分是重复且静态的。约30%的高昂计算资源并非用于生成新的创造性内容,而是被消耗在这种对已知、高频、稳定上下文信息的重复编码过程中。这造成了显著的资源浪费和经济成本压力,尤其在需要长期记忆和复杂任务分解的场景下,问题更为突出;

海量数据(603138)的容量扩展瓶颈:大模型业务的不断增加,带来繁杂的数据集和TB级的模型权重文件。随着训练和推理的不断进行,还会呈指数级增长;

后端高性能的支持:多业务多用户进行加载、调用推理模型,对后端的传输能力要求极高,后端存储性能在不断增长的算力面前,也在接受严峻的IO吞吐考验。

企业运营痛点:全生命周期管理能力缺失

环境适配难:智能体与企业现有 IT 流程串联效率低,接口开发周期(883436)平均达 3-4 周;

运营能力不足:缺乏算力调度、数据治理、技能安全管控的一体化平台,约 60% 企业需组建 5 人以上专职团队维护;

AI资产积累慢:缺乏统一的平台,进行数据、知识、模型、技能等AI原生资产的积累,无法为帮助企业实现量变到质变的AI转型;

国产化合规风险:部分企业采用海外 GPU(如 NVIDIA A100),在政务、金融等领域面临安全合规限制。

02

趋势洞察

大模型智能体发展的三大核心方向:

模型规模与算力需求持续攀升

参数量增长:2026 年主流大模型参数量将突破 1T,对算力、显存、带宽的要求呈 “三级跳”—— 算力需求从 FP16 的 10PFlops 升至 FP8 的 50PFlops,显存需求从 80GB / 卡升至 144GB / 卡,节点间带宽需达 200Gbps 以上;

优化方向转变:从“单纯增加硬件” 转向 “算力使用效率优化”,如模型压缩(量化、剪枝)、计算调度(批处理、动态负载)、缓存复用(上下文缓存、中间结果缓存)成为核心技术方向。

国产化算力底座成为刚需

政策驱动:《“十四五” 数字经济(885976)发展规划》明确要求,2026 年关键领域大模型算力底座国产化率需达70%以上,海光DCU等国产加速卡市场占比从2025年的 25% 升至 40%;

集群化趋势:企业从 “单节点部署” 转向 “国产化集群”,通过集群化实现算力弹性扩展(支持 10-1000 节点无缝扩容),同时满足安全合规与高可用性需求。

智能体运营平台化

从 “单一工具” 到 “平台化运营”:企业不再满足于 智能体 的基础能力,而是需要涵盖 “数据治理 - 算力调度 - 技能管控 - 效果监控” 的全生命周期(883436)平台;

一体化需求:85% 的受访企业希望解决方案能同时解决 “算力不足” 与 “运营复杂” 问题,避免多厂商对接的效率损耗(数据来源:星环科技(688031)企业调研)。

03

解决方案

星环 + 海光 = 国产化大模型智能体运营平台

基于上述痛点与趋势,星环科技(688031)联合海光信息(688041),推出以“星环LLMOps大模型平台 + 海光DCU算力底座”为核心的全栈国产化解决方案。依托海光DCU、海光CPU通算服务器构建高性能、全合规的国产化底座,完美适配各类Claw智能体的全场景需求。

解决方案架构图(核心模块):

核心方案介绍

全栈国产化底座,满足合规需求

硬件层面:采用海光深算三号BW系列DCU加速卡(兼容国产C86指令集及CUDA生态)+ 海光C86-4G CPU服务器。单节点支持8张DCU卡,提供强劲的国产算力核心;

软件层面:星环LLMOps平台(自主研发,无开源依赖)与海光硬件深度适配优化,全栈符合《信息技术产品国产化评价规范》,满足政务、金融等领域最高安全合规要求。

LLMOps平台:大模型+智能体运营核心

数据治理模块:支持企业知识库自动清洗、分块、向量化,数据处理效率提升 3 倍,向量化精度达 98%;

推理加速模块:内置动态批处理、上下文缓存、模型量化(FP8)功能,结合对海光DCU底层架构的深度优化,智能体首字延迟从8秒降至1.5秒,并发量提升5倍;

算力管理模块:支持GPU/海光DCU混合调度,算力利用率从40%提升至75%,单用户算力成本降低47%(数据来源:海光DCU测试报告);

智能体运行管理模块:提供企业级 Agent Runtime,支持多类型智能体应用开发/调试/部署和插件技能管理;

运营监控模块:实时监控智能体调用量、延迟、错误率,支持算力用量统计、成本分摊,告警响应时间 < 1 分钟。

分布式文件存储:高可靠数据支撑

本方案可灵活适配多种国产化存储。对于高性能场景,可无缝集成第三方国产分布式存储,或搭配星环科技(688031)推荐的国产企业级SSD存储,确保数据层的可靠与高效。

04

核心价值点

为企业降本、提效、合规

易用性突出:智能体调用企业工具,开发周期从3-4周缩短至1-2天;

端到端解决方案:覆盖“算力底座(海光)- 平台(星环)- 应用”全链路,部署周期(883436)从1个月缩短至2周;

兼容与灵活,保护投资:海光DCU兼容CUDA 生态,新模型可快速对接上线,且能与现有NVIDIA硬件统一管理调度,保护企业既有投资;

算力管理高效:算力利用率从30% 升至 75%,单月算力成本降低 47%(按 100 节点集群测算,月省成本约 20 万元);

推理加速显著:结合LLMOps的KV-Cache能力及海光DCU大显存优势,平台能容纳更多上下文缓存,首字延迟明显降低,并发量显著提升;

集群运维便捷:星环LLMOps平台支持集群自动化部署、监控、故障自愈,运维人员减少50%。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号-4
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈