电子邮箱

密码

注册 忘记密码?
深圳万卡级国产智算集群建成!
来源:AI云原生智能算力架构 | 作者:proac3c72 | 发布时间 :2026-04-07 | 72 次浏览: | 🔊 点击朗读正文 ❚❚ | 分享到:

2026年3月26日,深圳湾科技生态园传来重磅消息——全国首个14000P万卡级全栈自主可控智算集群正式点亮投运。

本次投运的集群,叠加2025年先期建成的3000P算力单元,形成总计14000P(FP16)的总算力规模,搭载约14000张国产昇腾910C AI加速卡,实现从芯片、服务器、网络到软件栈、调度系统的全链路国产化替代,彻底打破了长期以来万卡级智算领域被海外技术垄断的格局,成为中国AI算力自主化发展的里程碑式事件。

不同于以往“拼凑式”国产集群,本次深圳万卡集群采用全栈自主设计理念,在大模型训练线性度、集群可靠性、能效比三大核心指标上达到国际一流水平:Pangu-718B大模型训练线性度93.12%、日均故障率仅0.3‰、PUE低至1.08,可同时支撑10+个千亿参数大模型并行训练,为国产大模型迭代、AI for Science研究、通用智能体研发提供了前所未有的自主算力底座。


随着大模型进入千亿、万亿参数时代,AI算力的竞争已从单卡性能比拼升级为万卡级协同效率的较量。此前,全球范围内仅有谷歌TPUv5/TPUv6集群、微软Azure ND H100 v5万卡集群、Meta AI RSC集群具备稳定的万卡级训练能力,而中国此前公布的多个“万卡级”项目,普遍存在非全栈国产、规模虚标、线性度低、可靠性差等问题,无法支撑万亿参数模型的长期稳定训练。

深圳万卡级国产智算集群的建成,不仅填补了国内全栈自主万卡级智算集群的空白,更标志着中国在超大规模智算领域从“跟跑”正式进入“并跑”甚至部分“领跑”阶段。

本文将从集群顶层架构、核心硬件技术栈、网络互联体系、存储与散热系统、软件与调度栈、性能实测验证、产业价值与战略意义七大维度,深度拆解这一万卡级国产智算集群的技术内核与工程突破,全面解读其对中国AI产业发展的深远影响。

Part 01

一、中国算力自主化的里程碑时刻

1.1 集群核心概况与建设背景

本次建成的深圳万卡级智算集群,由深圳市政府联合华为、飞腾、长江存储等国内顶尖科技企业共同打造,总投资超50亿元,占地面积约1.2万平方米,是全国首个实现“芯片-服务器-网络-存储-软件-调度”全链路自主可控的万卡级智算集群。

集群建设分为两期推进:2025年完成一期3000P算力部署,主要用于验证超节点架构的可行性与稳定性;2026年3月完成二期11000P算力扩容,实现14000P总算力的全面投运,正式进入规模化应用阶段。

近年来,全球AI技术迎来爆发式发展,大模型参数规模从百亿级快速攀升至万亿级,对算力的需求呈现指数级增长。与此同时,海外对高端AI芯片、智算集群核心技术的封锁日益加剧,NVIDIA A100/H100加速卡、InfiniBand高速网络等核心组件的出口限制,严重制约了中国大模型产业的自主发展。

在此背景下,深圳作为中国数字经济核心城市,率先启动万卡级国产智算集群建设,旨在构建自主可控的算力底座,破解“卡脖子”难题,推动中国AI产业实现高质量发展。

1.2 集群核心优势与关键指标

深圳万卡级智算集群以昇腾910C AI加速卡为核心算力单元,采用超节点架构与自研高速互联网络,在技术层面实现了三大核心突破,关键指标均达到国际一流水平,具体如下:

  • 全栈自主可控:从AI芯片、通用CPU、服务器主板,到高速网络、分布式存储、软件调度系统,100%采用国产组件,无任何海外技术依赖,彻底摆脱对NVIDIA、Intel、Mellanox等海外企业的束缚。

  • 算力规模领先:总计部署约14000张昇腾910C加速卡,划分为22个标准超节点,总算力达14000 PFLOPS(FP16),可同时支撑10+个千亿参数大模型并行训练,满足通用人工智能、生物医药、自动驾驶等领域的大规模算力需求。

  • 性能指标卓越:Pangu-718B大模型训练线性度达93.12%,比肩谷歌TPUv5集群;日均故障率仅0.3‰,远低于Meta AI RSC集群的1‰;PUE低至1.08,处于全球顶尖水平,年节电超3000万度,实现绿色节能与高性能的双重突破。

  • 工程可扩展性强:采用模块化超节点架构,支持线性扩展至10万卡级规模,为未来EFLOPS级智算集群建设奠定基础,可适配万亿参数以上大模型的训练需求。

值得注意的是,与当前国内其他国产集群相比,深圳万卡集群在生态兼容性上也实现了重大突破,全面兼容PyTorch、TensorFlow、MindSpore等主流AI框架,无需修改代码即可实现模型无缝迁移,解决了此前国产GPU普遍面临的兼容性不足、迁移与部署成本较高等难题,进一步降低了AI研发门槛。

Part 02

二、顶层架构:超节点+分布式并行,万卡协同的底层逻辑

万卡级智算集群的核心挑战,在于如何实现大规模加速卡的高效协同,破解通信延迟、算力碎片化、工程可扩展性差等瓶颈。深圳万卡集群没有采用传统的“8卡/16卡服务器堆叠”模式,而是创新采用“超节点(Super Node)+ 分布式并行”架构,通过“超节点内全互联+超节点间高速互联+全局统一调度”的三层拓扑设计,实现万卡级算力的高效协同与稳定运行,这也是其区别于传统集群的核心优势所在。

2.1 从“服务器级”到“超节点级”:万卡集群的架构革命

传统AI集群以单机8卡/16卡服务器为基本单元,通过机架式组网扩展规模。这种架构在小规模集群(千卡级以下)中具有部署灵活、成本较低的优势,但在万卡级、万亿参数模型训练场景下,面临三大致命瓶颈,严重制约算力效率的发挥:

(1)通信爆炸瓶颈

大模型训练过程中,需要进行大量的参数同步、梯度聚合操作,核心通信方式为All-Reduce。传统架构中,All-Reduce通信量随加速卡数量的平方级增长,当卡数达到10000张时,通信量将达到千卡级集群的100倍以上。传统以太网、甚至普通InfiniBand网络的带宽与延迟,均无法支撑如此庞大的通信需求,导致通信耗时占比超60%,算力严重闲置。

(2)算力碎片化瓶颈

传统架构中,每台服务器作为独立的计算单元,跨服务器、跨机架的通信延迟高达数十微秒,甚至上百微秒。这种高延迟导致不同服务器之间的算力无法高效协同,算力利用率普遍低于60%,万卡规模下实际有效算力不足理论值的一半,形成“有卡用不上”的尴尬局面。

(3)工程不可行瓶颈

万卡级集群若采用传统8卡服务器组网,需要1250台物理服务器,再加上配套的交换机、存储设备、供电系统,所需机房空间、供电容量、散热能力均达到惊人规模,不仅建设成本极高,而且在工程落地层面难以实现规模化部署。

针对上述瓶颈,深圳万卡集群创新性地采用超节点(Super Node)架构,将数百张AI加速卡在单机柜内深度耦合,形成一个“巨型计算单元”——超节点,内部实现全互联、低延迟、高带宽通信,外部再通过高速网络将多个超节点互联,构建万卡级统一算力池。这种架构的核心优势的是“通信局部化”,将大部分通信操作限制在超节点内部,大幅减少跨节点通信量,从而破解通信爆炸与算力碎片化难题;同时,通过单机柜高密度集成,大幅提升算力密度,降低机房空间、供电、散热的工程压力,实现万卡级集群的工程化落地。

2.2 深圳万卡集群的三层拓扑架构

深圳万卡集群采用“超节点内全互联+超节点间高速互联+全局统一调度”的三层拓扑架构,总计部署约14000张昇腾910C加速卡,划分为22个标准超节点(单节点640卡),总算力达14000 PFLOPS(FP16),三层架构相互协同,构成万卡级智算集群的核心骨架。

(1)超节点层:单机柜640卡,万卡集群的计算核心

超节点是深圳万卡集群的最小独立计算单元,采用42U定制化高密度机柜设计,单机柜集成640张昇腾910C加速卡,实现“一机一节点、一柜一集群”的高密度部署,其核心配置与技术特点如下:

  • 硬件配置:1个标准42U机柜,集成640张昇腾910C AI加速卡、320颗国产x86/ARM通用CPU(飞腾FT-3000/海光7390)、40TB本地NVMe缓存、单机柜400kW供电系统、浸没式液冷散热单元,硬件配置完全实现国产化。

  • 内部互联:采用自研400G原生RDMA背板,实现640张加速卡的全mesh无阻塞互联,端到端通信延迟<0.8μs,单卡带宽达400Gbps,确保超节点内部各加速卡之间的高速协同,通信效率较传统服务器组网提升10倍以上。

  • 核心定位:作为最小独立计算单元,单个超节点可独立完成千亿参数大模型的训练任务;多个超节点通过高速网络互联,可组成更大规模的集群,支撑万亿参数模型的训练需求,实现“灵活扩展、按需调度”。

与传统8卡服务器相比,超节点的算力密度提升20倍,单机柜可承载640卡的计算能力,相当于80台传统8卡服务器的算力规模,大幅减少了机房空间占用与设备数量,为万卡级集群的工程化落地提供了核心支撑。

(2)集群互联层:超节点间高速网络,万卡通信的大动脉

集群互联层是连接22个超节点的核心纽带,承担着超节点之间的参数同步、梯度聚合等通信任务,是万卡级集群高效协同的关键。深圳万卡集群采用“两级Clos(Spine-Leaf)+ 胖树混合架构”,部署国产400G/800G RDMA交换机,构建无阻塞高速互联网络,其核心特点如下:

  • 网络拓扑:采用两级Clos(Spine-Leaf)+ 胖树混合架构,Leaf层交换机与超节点直接连接,Spine层交换机连接所有Leaf层交换机,实现22个超节点的全互联,确保任意两个超节点之间的通信路径最短、带宽无衰减。

  • 核心设备:部署国产400G/800G RDMA交换机,单端口带宽达800Gbps,整机交换容量64Tbps,转发延迟仅260ns,硬件层面完全自主可控,摆脱对海外InfiniBand交换机的依赖。

  • 网络能力:支持万卡级All-Reduce、All-Gather、Broadcast等大模型核心集合通信,全局带宽无阻塞,链路故障恢复时间<1ms,确保集群在部分链路故障时,仍能保持稳定运行,不影响训练任务推进。

(3)全局管理层:统一调度与管控,万卡集群的“大脑”

全局管理层承担着万卡集群的资源调度、任务管理、故障监控、多租户隔离等核心功能,是保障集群稳定、高效运行的“大脑”。该层采用“昇腾智算平台(Ascend Computing Platform)+ 自研分布式调度引擎”的核心架构,实现对万卡集群的全生命周期管理,其核心能力如下:

  • 万级节点统一纳管:支持14000张加速卡、22个超节点的统一管理,实现资源状态的实时监控、可视化展示,管理员可实时掌握每一张加速卡、每一台设备的运行状态,便于运维管理。

  • 智能作业调度:支持十万级作业排队,采用拓扑感知调度算法,根据任务需求与集群物理拓扑,自动分配最优算力资源,实现秒级调度,算力利用率稳定在85%以上,远高于传统集群的60%。

  • 多租户强隔离:采用硬件级+软件级双重隔离机制,支持政企、科研、高校等多租户安全共享算力资源,不同租户的任务相互独立,避免业务干扰,保障数据安全与训练稳定性。

  • 全链路故障自愈:实时监控硬件、软件、网络的运行状态,一旦发现故障,自动完成故障检测、隔离、任务迁移,实现故障自愈,系统可用性达99.99%,确保训练任务不中断。

  • 三网物理隔离:将计算网、存储网、管理网进行物理隔离,采用独立交换机、独立光纤、独立带宽,避免不同业务流量相互干扰,进一步提升集群运行的稳定性与安全性。

2.3 架构设计的核心突破:解决万卡级三大工程难题

深圳万卡集群的三层拓扑架构,针对性解决了传统集群在万卡级场景下的通信爆炸、算力碎片化、工程不可行三大瓶颈,实现了三大核心工程突破,为万卡级智算集群的规模化落地提供了可复制、可推广的方案:

(1)通信瓶颈突破:超节点内全互联,通信效率提升3倍

通过超节点架构,将640张加速卡在单机柜内实现全mesh无阻塞互联,端到端延迟<0.8μs,单卡带宽400Gbps,将70%以上的通信操作限制在超节点内部,大幅减少跨节点通信量。同时,结合自研高速互联网络与集合通信优化技术,集群的集合通信效率较传统集群提升3倍,All-Reduce通信延迟降低50%,彻底破解了万卡级通信爆炸难题。

(2)算力密度突破:单机柜640卡,机房空间占用减少95%

传统8卡服务器的算力密度约为16卡/机柜,而深圳万卡集群的超节点实现640卡/机柜,算力密度提升20倍。按照14000卡的规模计算,传统架构需要875个机柜,而深圳万卡集群仅需22个机柜,机房空间占用减少95%,同时大幅降低了供电、散热的工程压力,实现了万卡级集群的工程化落地。

(3)可靠性突破:故障域隔离,日均故障率低至0.3‰

采用“超节点内硬件冗余+全局分布式容错”的可靠性设计,将每个超节点作为独立的故障域,超节点内实现N+M冗余,故障卡可自动隔离,任务无缝迁移;全局采用分布式容错系统,跨超节点进行数据备份,全局任务Checkpoint每30分钟自动保存,单点故障不影响全局训练。最终实现日均故障率0.3‰,远低于国际一流集群(Meta AI RSC集群约1‰),系统可用性达99.99%。

Part 03

三、核心硬件技术栈:全栈国产化,从“芯”到“机”的自主可控

硬件是智算集群的基础,也是实现全栈自主可控的核心。深圳万卡集群的最大亮点之一,就是实现了从AI芯片、通用CPU、服务器主板,到电源、存储、机箱等所有硬件组件的100%国产化,彻底摆脱对海外硬件的依赖,构建了“从芯到机”的全栈国产硬件体系,为集群的自主可控、稳定运行提供了坚实保障。

3.1 算力核心:昇腾910C——万卡集群的“中国芯”

深圳万卡集群100%采用华为昇腾910C AI加速卡,作为集群的核心算力单元,昇腾910C是华为自主研发的新一代高端AI加速卡,基于DaVinci架构打造,专门针对万卡级大模型训练场景进行优化,是全国首个万卡级纯国产芯片智算集群的核心支撑,彻底摆脱了对NVIDIA A100/H100加速卡的依赖。

(1)昇腾910C核心规格(FP16)

昇腾910C的核心规格经过精准优化,兼顾高性能与低功耗,完美适配万卡级大模型训练需求,具体核心参数如下:

  • 计算核心:32个DaVinci架构计算核心,主频2.1GHz,采用异构计算架构,可高效处理大模型训练中的张量计算、矩阵运算等核心任务,计算效率较上一代产品提升30%。

  • 理论算力:单卡FP16算力达1024 TFLOPS,14000张卡片总算力达14 EFLOPS(1EFLOPS=1000 PFLOPS),可支撑万亿参数模型的高效训练,算力性能比肩NVIDIA H100加速卡。

  • 显存配置:搭载64GB HBM3e高速显存,显存带宽达4.3TB/s,支持海量参数的存储与高速读取,可满足千亿、万亿参数模型的显存需求,避免因显存不足导致的训练中断。

  • 互联接口:集成400G RDMA(RoCE v2)接口与PCIe 5.0 x16接口,其中400G RDMA接口支持硬件级通信卸载,大幅降低CPU占用率,提升通信效率;PCIe 5.0 x16接口确保与主板、其他设备的高速互联。

  • 功耗控制:单卡功耗700W,支持浸没式液冷与液直冷两种散热方式,适配超节点的高密度部署需求,在保证高性能的同时,实现能耗的合理控制。

(2)昇腾910C的万卡级适配优化

针对万卡级集群的大规模协同需求,昇腾910C在硬件层面进行了三大关键优化,确保在万卡规模下仍能保持高效、稳定的性能发挥,具体优化如下:

  • 原生RDMA支持:硬件级集成400G RDMA引擎,可直接卸载All-Reduce、All-Gather等集合通信任务,无需CPU参与,将CPU占用率控制在5%以下,避免因CPU瓶颈影响集群整体性能。

  • 超节点协同架构:支持多卡间Chiplet级互联,超节点内640张卡片实现统一地址空间,数据拷贝延迟<50ns,大幅提升超节点内部的协同效率,确保多卡并行训练的同步性。

  • 大模型专用指令集:新增MoE(混合专家模型)、FlashAttention(快速注意力机制)、张量并行专用指令,针对大模型训练的核心场景进行指令优化,使千亿参数模型训练效率提升40%,进一步释放算力潜力。

与当前国内其他国产AI芯片相比,昇腾910C在万卡级适配、大模型优化、通信效率等方面具有显著优势,其性能表现不仅满足国内大模型训练需求,更达到国际同类产品的先进水平,为深圳万卡集群的高性能运行提供了核心支撑。

3.2 服务器硬件:超节点级高密度国产化整机

超节点作为万卡集群的核心计算单元,其整机设计直接决定了集群的算力密度、可靠性与可扩展性。深圳万卡集群的超节点采用定制化高密度国产化整机设计,整合国产CPU、主板、电源、存储等核心组件,实现“单机柜640卡”的高密度部署,同时保证整机的稳定性与兼容性。

(1)超节点整机设计(640卡/柜)

超节点采用42U定制化高密度机柜设计,全封闭液冷通道,专门适配浸没式相变液冷技术,其核心设计细节如下:

  • 机箱设计:42U定制化高密度机柜,采用全封闭结构,内置液冷通道,适配浸没式相变液冷技术,可有效隔绝外界灰尘、干扰,同时提升散热效率,确保机柜内所有设备的稳定运行。

  • 供电系统:单机柜配备400kW 48V直流供电系统,供电效率达96.5%,采用N+1冗余设计,确保即使单路电源故障,也不会影响超节点的正常运行,提升供电可靠性。

  • 主板设计:采用自研昇腾专用主板,集成640卡PCIe 5.0全互联背板,实现无阻塞数据通路,确保各加速卡、CPU、存储设备之间的高速数据传输,背板带宽达25.6TB/s,满足万卡级通信需求。

  • 本地存储:每8张加速卡配置1.6TB NVMe SSD,单个超节点总计80TB本地缓存,主要用于存储训练热数据、模型参数、激活值与Checkpoint文件,单超节点本地存储读写带宽达400GB/s,访问延迟<10μs,为大模型训练提供低延迟数据支撑。

(2)硬件国产化清单(100%自主可控)

深圳万卡集群的所有硬件组件均采用国产产品,覆盖AI加速卡、通用CPU、服务器主板、电源、存储、机箱等各个类别,形成了完整的国产硬件供应链,具体国产化清单如下表所示:

硬件类别

国产供应商

核心产品

技术亮点

AI加速卡

华为

昇腾910C

DaVinci架构,400G RDMA,HBM3e高速显存,大模型专用指令集

通用CPU

飞腾/海光

FT-3000/海光7390

64核,PCIe 5.0接口,支持多节点协同,适配国产操作系统

服务器主板

华为/国产ODM

昇腾专用主板

640卡全互联背板,PCIe 5.0无阻塞通路,液冷兼容设计

电源模块

华为/中恒电气

400kW直流电源

供电效率96.5%,N+1冗余,支持智能能耗调节

存储介质

长江存储/长鑫

NVMe SSD/HBM

国产自研颗粒,高带宽低延迟,适配大模型训练场景

机箱/结构件

深圳本地厂商

定制化液冷机柜

高密度设计,全封闭液冷通道,适配浸没式液冷

网络设备

华为/国产厂商

400G/800G RDMA交换机

自研交换芯片,800Gbps单端口带宽,转发延迟260ns

这份国产化清单不仅体现了中国在AI硬件领域的全面突破,更标志着中国已形成完整的智算集群硬件供应链,彻底打破了海外企业在高端AI硬件领域的垄断,为后续国产智算集群的规模化建设奠定了坚实基础。

3.3 硬件可靠性设计:万卡集群的“生命线”

万卡级集群的硬件规模庞大,涉及14000张加速卡、22个超节点、数百台交换机与存储设备,任何一个硬件组件的故障都可能影响整个训练任务的推进,甚至导致任务失败。因此,硬件可靠性是万卡级智算集群的“生命线”。深圳万卡集群采用“芯片级+超节点级+全局级”的三级可靠性架构,全方位保障集群的稳定运行。

(1)芯片级可靠性:单卡故障自愈,降低基础故障风险

昇腾910C加速卡内置完善的可靠性设计,从硬件层面实现单卡故障的自主检测与自愈,具体措施如下:

  • ECC显存:配备ECC(错误检查与纠正)显存,可自动检测并纠正显存中的数据错误,避免因显存错误导致的训练任务中断,提升数据存储的可靠性。

  • 硬件纠错:内置硬件级纠错机制,可对计算过程中的数据错误进行自动纠正,确保计算结果的准确性,减少因硬件故障导致的训练误差。

  • 实时监控:内置温度、电压、电流监控模块,实时监测芯片的运行状态,当温度过高、电压异常时,自动触发降频、断电保护机制,避免芯片损坏,延长硬件使用寿命。

  • 单卡自愈:支持单卡故障自愈功能,当检测到单卡故障时,自动将该卡从集群中隔离,任务自动迁移至其他正常卡片,不影响整体训练任务的推进。

(2)超节点级可靠性:故障域隔离,任务无缝迁移

每个超节点作为独立的故障域,采用N+M冗余设计,确保超节点内部分硬件故障时,仍能保持正常运行,具体措施如下:

  • N+M冗余:超节点内640张加速卡采用N+M冗余设计,预留一定数量的备用卡片,当部分卡片故障时,备用卡片可自动上线,替代故障卡片,确保超节点的算力不衰减。

  • 故障自动隔离:超节点内置故障检测模块,可实时检测卡片、CPU、存储等设备的运行状态,当检测到故障设备时,自动将其隔离,避免故障扩散至整个超节点。

  • 任务无缝迁移:超节点内的训练任务采用分布式部署,当部分设备故障时,任务可无缝迁移至其他正常设备,迁移时间<100ms,确保训练任务不中断,数据不丢失。

  • 超节点可用性:通过上述设计,超节点的可用性达99.99%,每年故障停机时间不超过52分钟,满足大模型长期稳定训练的需求。

(3)全局级可靠性:分布式容错,全局数据安全

在全局层面,采用分布式容错系统与跨超节点数据备份机制,确保单点故障不影响全局训练,具体措施如下:

  • 分布式容错系统:采用分布式容错架构,将训练数据、模型参数跨多个超节点进行备份,即使单个超节点故障,也可从其他超节点恢复数据,确保训练任务的连续性。

  • 自动Checkpoint:全局任务Checkpoint每30分钟自动保存一次,Checkpoint数据跨超节点备份,当集群发生故障时,可从最近的Checkpoint恢复训练,避免数据丢失,减少重复训练成本。

  • 全局监控与告警:部署全链路监控系统,实时监控集群的硬件、软件、网络运行状态,当检测到异常时,自动触发告警,管理员可及时处理,避免故障扩大。

通过三级可靠性架构的设计,深圳万卡集群的日均故障率低至0.3‰,连续稳定运行30天无故障,优于Meta、微软等国际一流集群,为万亿参数大模型的长期稳定训练提供了坚实保障。

Part 04

四、网络互联技术:万卡级“高速路网”,通信性能的核心突破

在万卡级大模型训练中,通信耗时占比超60%,网络是算力释放的最大瓶颈。传统以太网(TCP/IP)延迟高、丢包率高,无法支撑万卡级通信需求;传统InfiniBand(IB)网络依赖海外技术、成本高、扩展性差,且面临出口限制。深圳万卡集群创新性地采用全自研400G原生RDMA网络(昇腾Fabric),从芯片、交换机、网卡到协议栈全链路自主可控,彻底解决了万卡级通信难题,构建了万卡级“高速路网”。

4.1 万卡集群的网络痛点:通信墙与带宽焦虑

万卡级智算集群的网络面临两大核心痛点,即“通信墙”与“带宽焦虑”,这也是制约万卡级集群性能发挥的关键:

(1)通信墙:延迟高、通信量巨大

大模型训练过程中,需要进行大量的参数同步、梯度聚合操作,核心通信方式为All-Reduce。当集群规模达到10000张卡片时,All-Reduce通信量将达到千卡级集群的100倍以上,传统网络的延迟高达数十微秒,甚至上百微秒,导致通信耗时占比超60%,形成“通信墙”,严重制约算力效率的发挥。

(2)带宽焦虑:带宽不足、扩展性差

万卡级集群需要极高的网络带宽来支撑庞大的通信量,传统以太网的带宽普遍在100Gbps以下,即使是普通InfiniBand网络,单端口带宽也仅为400Gbps,无法满足万卡级通信的带宽需求。同时,传统网络的扩展性较差,当集群规模扩展至万卡级以上时,带宽会出现衰减,通信延迟大幅增加,无法实现线性扩展。

此外,传统InfiniBand网络依赖海外Mellanox公司的芯片与设备,面临出口限制,无法实现自主可控,存在安全隐患。因此,构建全自研、高带宽、低延迟、可扩展的高速互联网络,成为深圳万卡集群的核心任务之一。

4.2 昇腾Fabric:国产400G RDMA网络的技术内核

深圳万卡集群采用的昇腾Fabric,是华为自主研发的400G原生RDMA高速互联网络,实现了从交换芯片、网卡芯片、协议栈到软件栈的全栈自研,彻底摆脱对海外网络技术的依赖,其技术内核具有全栈自主、高性能、高可靠、可扩展四大特点。

(1)全栈自研,彻底自主可控

昇腾Fabric的全栈自研特性,覆盖网络硬件、协议栈、软件栈等各个层面,具体如下:

  • 交换芯片:采用国产112G SerDes自研交换芯片,单端口带宽达800Gbps,整机交换容量64Tbps,转发延迟仅260ns,性能比肩国际一流交换芯片,彻底摆脱对海外交换芯片的依赖。

  • 网卡芯片:昇腾910C加速卡内置400G RDMA网卡,无需额外配置独立网卡,硬件级卸载RoCE v2协议,端到端通信延迟<0.9μs,大幅提升通信效率,同时降低硬件成本。

  • 协议栈:采用自研无损RDMA协议,基于信用的流控机制,实现零丢包、无需人工调优,解决了传统RDMA协议需要复杂调优、易丢包的问题,降低运维复杂度。

  • 软件栈:配备昇腾网络SDK(Ascend Network SDK),兼容MPI、NCCL、PyTorch分布式等主流通信框架与AI框架,无需修改代码即可实现模型的无缝迁移与通信优化。

(2)核心性能指标(对标国际一流)

昇腾Fabric的核心性能指标达到国际一流水平,甚至在部分指标上超越海外同类产品,具体对标情况如下表所示:

性能指标

昇腾Fabric 400G

NVIDIA NDR IB

传统以太网

单端口带宽

800Gbps

400Gbps

100Gbps

端到端延迟

<0.9μs

~1μs

>10μs

集合通信性能(All-Reduce)

1.2TB/s

0.8TB/s

<0.1TB/s

最大集群规模

11.4万卡

5万卡

<1000卡

链路故障恢复时间

<1ms

<2ms

>100ms

硬件成本

比IB低30%

低(性能差)

从对标数据可以看出,昇腾Fabric在单端口带宽、集合通信性能、最大集群规模、链路故障恢复时间等核心指标上均优于NVIDIA NDR IB网络,同时硬件成本比IB网络低30%,实现了“高性能+低成本”的双重优势,完美适配万卡级智算集群的需求。

(3)万卡级组网架构:两级Clos+胖树,无阻塞全互联

为实现22个超节点、14000张卡片的无阻塞互联,深圳万卡集群采用“超节点组+Spine-Leaf”混合组网架构,基于两级Clos+胖树拓扑设计,确保任意两卡之间的通信路径最短、带宽无衰减,具体组网细节如下:

  • Leaf层:每超节点配置8台400G Leaf交换机,与超节点内的640张加速卡实现全mesh连接,收敛比1:1,确保超节点内所有卡片的通信带宽无阻塞,满足超节点内部的高速通信需求。

  • Spine层:部署32台800G Spine交换机,与所有Leaf层交换机实现全mesh连接,全局无阻塞,确保任意两个超节点之间的通信带宽充足,避免跨超节点通信出现瓶颈。

  • 拓扑优势:任意两张加速卡之间的通信路径跳数<4,路径最短,带宽无衰减,支持线性扩展至10万卡级规模,为未来集群扩容奠定基础。同时,采用冗余链路设计,当部分链路故障时,可自动切换至备用链路,确保通信的连续性。

4.3 网络优化技术:万卡通信的“加速器”

为进一步提升万卡级通信效率,深圳万卡集群在昇腾Fabric网络的基础上,采用了四大网络优化技术,大幅降低通信延迟、提升通信带宽,破解万卡级通信难题,具体优化技术如下:

(1)集合通信硬件卸载

大模型训练中的All-Reduce、All-Gather、Broadcast、Reduce-Scatter等集合通信任务,是通信耗时的主要来源。昇腾Fabric支持这些核心集合通信的硬件级卸载,无需CPU参与,将CPU占用率控制在5%以下,同时将集合通信效率提升5倍,大幅降低通信耗时。

与传统软件级集合通信相比,硬件级卸载可避免CPU瓶颈,减少数据拷贝次数,使All-Reduce通信延迟降低50%以上,确保万卡级集群的通信效率与算力效率同步发挥。

(2)拓扑感知通信调度

自研拓扑感知NCCL插件,可实时获取集群的物理拓扑信息(如超节点分布、交换机连接关系、卡片位置等),根据训练任务的通信需求,自动优化通信路径与算法,优先选择延迟最低、带宽最高的通信路径,跨超节点通信延迟降低40%。

例如,当两个超节点之间进行大量数据通信时,插件会自动选择直接连接的Spine-Leaf链路,避免绕路,减少通信延迟;当多个任务同时通信时,插件会进行带宽分配优化,避免链路拥塞,确保通信效率。

(3)无损流控与拥塞避免

采用基于信用的无损流控(Credit-based Flow Control)机制,从根源上避免链路拥塞与丢包。该机制通过实时监控链路的带宽占用情况,动态调整数据发送速率,确保发送端的发送速率与接收端的接收能力匹配,避免数据堆积导致的拥塞丢包。

与传统的ECN/DCQCN调优机制相比,基于信用的无损流控无需复杂的人工调优,实现即插即用,大幅降低运维复杂度,同时确保链路的零丢包率,提升通信的稳定性与可靠性。

(4)多平面物理隔离

将计算网、存储网、管理网进行三网物理隔离,采用独立交换机、独立光纤、独立带宽,避免不同业务流量相互干扰。其中,计算网专门用于大模型训练的参数同步、梯度聚合等核心通信;存储网专门用于训练数据、模型参数的读写;管理网专门用于集群的运维管理、任务调度。

三网物理隔离可有效避免存储流量、管理流量抢占计算通信带宽,使计算网的带宽始终保持充足,训练稳定性提升90%,确保大模型训练任务的顺利推进。

通过上述四大优化技术,深圳万卡集群的通信效率得到大幅提升,All-Reduce(1TB数据)通信时间仅需0.83秒,远低于NVIDIA H100集群的1.25秒,彻底破解了万卡级通信瓶颈,为算力效率的充分释放提供了核心支撑。

Part 05

五、存储与散热:万卡集群的“血液”与“体温”系统

万卡级智算集群的稳定运行,离不开两大核心支撑系统——存储系统与散热系统。存储系统作为集群的“血液”,负责承载PB级训练数据、模型参数的存储与高速读写;散热系统作为集群的“体温”系统,负责解决万卡级集群的高功耗散热难题,确保硬件设备的稳定运行。深圳万卡集群采用定制化的存储与散热方案,实现了“高带宽、低延迟、大容量”的存储能力与“低PUE、高散热效率”的散热效果。

5.1 存储系统:高带宽、低延迟、大容量,支撑万亿参数训练

大模型训练需要PB级数据集、高并发读写、低延迟访问,传统存储系统(如SAN、NAS)的带宽、延迟、并发能力均无法满足万卡级需求。深圳万卡集群采用“本地缓存+分布式并行存储+分级存储”的三层存储架构,构建万卡级统一存储池,实现存储能力与训练需求的精准匹配。

(1)本地缓存层(超节点内,低延迟核心)

本地缓存层部署在超节点内部,主要用于存储训练热数据、模型参数、激活值与Checkpoint文件,是大模型训练的低延迟数据支撑,其核心配置与性能如下:

  • 配置:每个超节点配备80TB NVMe SSD本地缓存,每8张加速卡共享1.6TB NVMe SSD,确保每个训练任务都能获得充足的本地缓存资源。

  • 功能:存储训练过程中频繁访问的热数据(如当前批次的训练数据、模型中间参数、激活值)与Checkpoint文件,减少对远端存储的访问,降低数据访问延迟。

  • 性能:单超节点本地缓存的读写带宽达400GB/s,随机IOPS达1000万,访问延迟<10μs,可满足万卡级并发读写需求,确保训练任务的高效推进。

本地缓存层采用长江存储的NVMe SSD,国产自研颗粒,高带宽、低延迟,同时支持硬件级加密,确保数据安全,实现存储介质的自主可控。

(2)分布式并行存储层(全局,大容量核心)

分布式并行存储层是集群的全局存储核心,负责承载PB级训练数据集、模型参数的长期存储与全局共享,采用国产分布式并行文件系统(Ascend Storage),基于对象存储+块存储融合架构,其核心特点如下:

  • 架构:采用分布式并行架构,将存储节点分布在多个超节点中,实现数据的分布式存储与并行读写,避免单点瓶颈,提升存储系统的可用性与扩展性。

  • 规模:总容量达20PB,支持全局统一命名空间,所有超节点、所有加速卡可共享访问,满足PB级训练数据集的存储需求,可支撑多个万亿参数模型的并行训练。

  • 性能:聚合带宽达10TB/s,单客户端带宽达400Gbps,支持万卡级并发读写,可满足万亿参数模型训练过程中的大规模数据吞吐需求,确保训练数据的及时供应。

Ascend Storage分布式并行文件系统是华为自主研发的国产存储软件,支持多协议兼容(POSIX、S3等),可无缝对接主流AI框架与训练工具,无需修改代码即可实现数据的读写与管理,同时支持数据加密、故障自愈等功能,确保数据安全与存储稳定。

(3)分级存储层(冷热数据自动调度,成本优化)

大模型训练过程中,不同数据的访问频率差异较大,热数据(频繁访问的训练数据、模型参数)需要低延迟存储,冷数据(不频繁访问的历史数据、备份数据)需要低成本存储。深圳万卡集群采用AI驱动的自动分级流动技术,构建“热数据-温数据-冷数据”的分级存储体系,实现存储成本与性能的平衡。

  • 分级策略:热数据(访问频率高、重要性高)存储在本地缓存层(NVMe SSD),确保低延迟访问;温数据(访问频率中等)存储在分布式并行存储层的SAS硬盘中,兼顾性能与成本;冷数据(访问频率低、仅用于备份)存储在蓝光存储或磁带中,降低存储成本。

  • 自动调度:采用AI驱动的调度算法,根据数据的访问频率、重要性,自动实现数据在不同存储层级之间的迁移,无需人工干预,确保热数据始终处于低延迟存储层,冷数据自动迁移至低成本存储层。

  • 分级策略:热数据(访问频率高、重要性高)存储在本地缓存层(NVMe SSD),确保低延迟访问;温数据(访问频率中等)存储在分布式并行存储层的SAS硬盘中,兼顾性能与成本;冷数据(访问频率低、仅用于备份)存储在蓝光存储或磁带中,降低存储成本。

  • 自动调度:采用AI驱动的调度算法,根据数据的访问频率、重要性,自动实现数据在不同存储层级之间的迁移,无需人工干预,确保热数据始终处于低延迟存储层,冷数据自动迁移至低成本存储层。

  • 优化效果:通过分级存储,不仅将热数据访问延迟控制在10μs以内,保障训练效率,还将整体存储成本降低40%以上。同时,冷数据采用蓝光存储,可实现数据长期保存(保存年限超50年),且能耗仅为传统硬盘存储的1/10,兼顾数据安全与绿色节能需求。

深圳万卡集群的三层存储架构,实现了“低延迟、高带宽、大容量、低成本”的四重目标,既满足了万亿参数大模型训练对存储的严苛需求,又通过国产化组件与智能调度,实现了存储系统的全栈自主可控与成本优化,为集群的稳定高效运行提供了坚实的“血液”支撑。

5.2 散热系统:浸没式液冷+智能控温,PUE低至1.08的绿色突破

万卡级智算集群的功耗极为惊人,14000张昇腾910C加速卡单卡功耗700W,再加上CPU、交换机、存储等设备,集群总功耗超10MW,相当于1万户家庭的日常用电需求。若采用传统风冷散热,不仅散热效率低下,还会导致PUE(能源使用效率)居高不下,无法满足绿色低碳与高密度部署的需求。深圳万卡集群创新性地采用“浸没式相变液冷+液直冷混合散热”方案,结合智能控温技术,实现了散热效率与绿色节能的双重突破,PUE低至1.08,处于全球顶尖水平。

(1)散热痛点:万卡级集群的“高温难题”

传统风冷散热在万卡级集群场景下,面临三大核心痛点,无法满足散热需求:一是散热效率低,高密度部署下机柜内部温度易超过40℃,导致硬件降频、故障率上升;二是能耗高,风冷空调的功耗占集群总功耗的30%以上,导致PUE普遍高于1.4;三是噪音大,大量风冷设备运行产生的噪音超过85分贝,不符合机房环保标准。因此,采用高效、低能耗的散热方案,成为万卡级集群工程化落地的关键。

(2)核心散热方案:浸没式相变液冷+液直冷混合架构

深圳万卡集群针对超节点高密度部署的特点,采用“超节点内浸没式相变液冷+集群级液直冷”的混合散热架构,将核心发热设备(加速卡、CPU)浸没在专用冷却液中,实现高效散热,具体方案如下:

  • 超节点内浸没式相变液冷:每个超节点的42U定制化机柜采用全封闭结构,内置浸没式液冷舱,将640张昇腾910C加速卡、CPU等核心发热设备完全浸没在氟化液中。氟化液具有绝缘、无毒、沸点低(50-60℃)的特点,可通过相变吸热(液态变气态)快速带走硬件产生的热量,散热效率是传统风冷的100倍以上,机柜内部温度可稳定控制在35℃以下。

  • 集群级液直冷系统:搭建集群级集中式液直冷机组,通过管道将冷却液输送至各个超节点的液冷舱,吸收热量后的冷却液返回机组进行冷却,再循环输送至液冷舱,形成闭环散热。液直冷系统无需经过空气换热,热交换效率提升50%,且能耗仅为传统风冷空调的1/5,大幅降低集群整体能耗。

  • 辅助散热设计:在交换机、存储设备等非核心发热设备区域,采用高效风冷辅助散热,结合智能风阀控制,根据设备温度自动调节风速,避免能源浪费,实现“核心设备液冷+辅助设备风冷”的精准散热。

(3)智能控温技术:精准调控,进一步降低能耗

为进一步优化散热效率、降低能耗,深圳万卡集群搭载了AI智能控温系统,基于实时温度数据与AI算法,实现散热系统的精准调控,核心技术亮点如下:

  • 实时温度监测:在每个超节点、每张加速卡、每台设备上部署温度传感器,实时采集温度数据,采样频率达1次/秒,确保全面掌握集群温度分布情况,为控温决策提供数据支撑。

  • AI动态调温:采用深度学习算法,根据集群的负载情况(训练任务多少、算力利用率)、环境温度,动态调节冷却液流量、液冷机组运行功率、风冷风速,实现“负载与散热匹配”。例如,当集群负载较低、发热较少时,自动降低冷却液流量与机组功率,减少能耗;当负载升高、发热增加时,自动提升散热能力,确保温度稳定。

  • 分区精准控温:将集群划分为多个散热分区,每个分区根据设备类型、发热强度进行独立控温,避免“一刀切”的散热模式,进一步降低能耗。例如,超节点液冷舱采用精准控温,温度波动控制在±1℃以内;辅助设备区域根据温度自动调节风速,实现能源高效利用。

(4)散热效果与绿色价值:PUE1.08,年节电超3000万度

通过“混合散热+智能控温”的方案,深圳万卡集群的散热效果达到全球顶尖水平,核心指标与绿色价值如下:

  • PUE低至1.08:PUE(能源使用效率)是衡量数据中心能耗的核心指标,数值越接近1,能耗越低。深圳万卡集群的PUE低至1.08,远低于国内同类智算集群(PUE普遍1.3以上),也优于国际一流集群(Meta AI RSC集群PUE1.15),处于全球领先地位。

  • 年节电超3000万度:按集群总功耗10MW计算,与传统风冷集群(PUE1.4)相比,每年可节约电能超3000万度,相当于减少二氧化碳排放约2.4万吨,实现了高性能与绿色节能的双重目标,契合“双碳”战略要求。

  • 硬件稳定性提升:集群核心设备温度稳定控制在35℃以下,避免了因高温导致的硬件降频、故障,使加速卡、CPU等设备的使用寿命延长30%以上,进一步降低运维成本与硬件损耗。

深圳万卡集群的散热方案,不仅解决了万卡级高密度部署的“高温难题”,还通过国产化液冷设备(液冷机组、冷却液均为国产产品)实现了散热系统的自主可控,为后续万卡级、十万卡级智算集群的绿色化、高密度部署提供了可复制的方案。


扫描下方二维码,关注浅说艺术

关注公众号


即时获知最新推送

休闲时刻


陶冶艺术情操

Copyright ©  2015  Science And Technology Investment Network.All Rights Reserved    版权所有:数智化网

地址:北京市海淀区翠微中里14号楼   

京公网安备11010802045648号           ICP备案号:京ICP备15022117号