在AI大模型持续演进的今天,数据中心正迎来一次底层架构级的变革。
在TechWeek上海站《液冷2.0:废热资产化与算点协同创新》论坛上,优刻得(688158)架构师徐智宇围绕“液冷技术在数据中心的应用与实践”进行了系统分享,从行业趋势、技术路线到规模化部署经验,深入解析了液冷如何成为AI时代算力基础设施的关键能力。
过去,传统数据中心主要承载搜索、电商、社交等通用计算业务,CPU是核心算力单元,单机柜功率密度普遍在6-8kW,风冷足以满足散热需求。
但进入大模型时代后,一切都发生了变化。
当前主流高性能GPU单芯片功耗已达到700W-1400W,8卡AI服务器整机功耗突破14kW,单机柜功率密度快速迈向50kW、100kW甚至更高。与此同时,“东数西算”等政策持续推进数据中心节能降碳,新建大型数据中心PUE被要求降至1.25以下。
这意味着,传统风冷体系已经越来越难支撑下一代智算中心的发展需求。
AI时代,为什么液冷成为“必选项”?
AI大模型带来的,不只是算力需求增长,更是热密度的指数级攀升。
以当前主流GPU服务器为例,单台设备功耗已经接近甚至超过传统单机柜的设计上限。对于大量部署GPU集群的智算中心而言,散热能力正在成为制约算力释放的核心瓶颈。
与此同时,风冷方案也面临三大现实挑战:
散热能力接近物理极限:传统风冷机柜经济散热上限普遍在15-30kW,难以满足高密度AI集群需求
能耗与PUE压力持续增加:风冷数据中心PUE通常在1.45以上,而液冷可进一步降低至1.2以内
空间与运维成本上升:风冷需要大量风道与空调(884113)空间,同时高噪音、高振动、高灰尘环境也会影响设备稳定性
相比之下,液冷通过液体直接带走热量,大幅提升换热效率,可有效降低能耗、提升部署密度,并显著改善设备长期可靠性。
液冷已经不再是锦上添花的优化选项,而是高密度算力部署的核心基础设施能力。
液冷技术路线,正在走向分层演进
目前行业主流液冷方案主要包括两大方向:冷板式液冷与浸没式液冷。其中,冷板式液冷是当前产业的主流。
其核心原理是在CPU、GPU等核心发热芯片顶部部署冷板,通过液体循环直接带走大部分热量,兼顾高效散热与现有服务器架构兼容性。由于改造成本较低、部署成熟度高,目前已成为多数智算中心优先采用的方案。
而浸没式液冷,则代表着更高密度场景下的未来方向。
通过将服务器整体浸泡于绝缘冷却液中,浸没式液冷可以实现全域均匀散热,进一步突破高功率密度限制。其中,相变浸没式液冷甚至可将PUE降至1.08以下,成为超高密度算力场景的重要探索方向。
不过,技术路线并不存在“绝对先进”。
不同方案需要结合实际业务密度、建设预算、运维体系等综合评估:
冷板式液冷:更适合当前大规模商业化部署
浸没式液冷:更适用于100kW以上超高密度场景
液冷真正的挑战,不只是“散热”
随着液冷从实验室走向规模化落地,行业关注点也正在从“能不能做”转向“如何稳定运营”。
在实际部署过程中,液冷系统不仅涉及散热本身,更牵涉到供冷架构、运维体系、安全管理等一整套系统工程。
例如:
如何降低漏液风险
如何实现冷却液长期稳定运行
如何完成CDU冗余与供冷切换
如何解决浸没式液冷下的设备吊装、吹干与维护流程
如何进行复杂的水力平衡设计
这些问题,都决定了液冷项目能否真正实现长期稳定运行。
因此,液冷能力比拼的核心,已经不仅是单一产品能力,而是从方案设计、交付实施到长期运营管理的全生命周期(883436)能力。
液冷的未来,不止于“降温”
在徐智宇看来,未来3-5年,液冷行业将迎来三大趋势:
1、液冷与芯片进一步深度融合
未来冷却液将更接近芯片本体,甚至直接进入芯片内部微流道,实现更高效率散热,为下一代超高密度算力打开空间。
2、国产化供应链持续成熟
随着国产冷却液、快接头、液冷泵等核心部件能力提升,液冷整体成本正在快速下降,行业有望迎来规模化普及拐点。
3、数据中心向能源节点演进
液冷系统可输出40-60℃稳定热水,为城市供暖、工业余热回收等场景提供可能。未来,数据中心不仅是“算力中心”,也可能成为城市能源(850101)系统的重要组成部分。
优刻得:面向AI时代的液冷智算基础设施
作为国内较早布局AI基础设施与智算中心能力的云厂商之一,优刻得(688158)持续推进液冷技术与智算基础设施融合演进。
优刻得(688158)自建的位于上海青浦、内蒙古乌兰察布新一代智算中心,全面按照液冷标准进行规划设计,覆盖冷板式与浸没式液冷等多种部署能力。(浸没式液冷详情:优刻得(688158)全浸没液冷:打造静冷、高密、绿色的新一代智算底座)重点面向大模型训练、AI推理、高性能计算等场景,提供高密度、高能效的新型算力基础设施能力。
在此基础上,优刻得(688158)也逐步沉淀并形成了面向高密度智算集群建设的一体化服务体系,将自身在液冷智算中心建设与运营中的实践经验,输出为可规模化复制的体系化能力,包括:
液冷数据中心整体架构设计
高密度GPU集群部署与调优
智算网络与高性能存储优化
AI训练与推理平台支撑
智算中心全生命周期运维管理
通过从基础设施、算力集群到平台运维的全链路能力整合,优刻得(688158)能够为企业客户提供更稳定、更高效、更具扩展性的高密度智算集群建设方案,助力AI业务快速落地与规模化发展。
