深圳万卡级国产智算集群建成！

2026年3月26日，深圳湾科技生态园传来重磅消息——全国首个14000P万卡级全栈自主可控智算集群正式点亮投运。

本次投运的集群，叠加2025年先期建成的3000P算力单元，形成总计14000P（FP16）的总算力规模，搭载约14000张国产昇腾910C AI加速卡，实现从芯片、服务器、网络到软件栈、调度系统的全链路国产化替代，彻底打破了长期以来万卡级智算领域被海外技术垄断的格局，成为中国AI算力自主化发展的里程碑式事件。

不同于以往“拼凑式”国产集群，本次深圳万卡集群采用全栈自主设计理念，在大模型训练线性度、集群可靠性、能效比三大核心指标上达到国际一流水平：Pangu-718B大模型训练线性度93.12%、日均故障率仅0.3‰、PUE低至1.08，可同时支撑10+个千亿参数大模型并行训练，为国产大模型迭代、AI for Science研究、通用智能体研发提供了前所未有的自主算力底座。

随着大模型进入千亿、万亿参数时代，AI算力的竞争已从单卡性能比拼升级为万卡级协同效率的较量。此前，全球范围内仅有谷歌TPUv5/TPUv6集群、微软Azure ND H100 v5万卡集群、Meta AI RSC集群具备稳定的万卡级训练能力，而中国此前公布的多个“万卡级”项目，普遍存在非全栈国产、规模虚标、线性度低、可靠性差等问题，无法支撑万亿参数模型的长期稳定训练。

深圳万卡级国产智算集群的建成，不仅填补了国内全栈自主万卡级智算集群的空白，更标志着中国在超大规模智算领域从“跟跑”正式进入“并跑”甚至部分“领跑”阶段。

本文将从集群顶层架构、核心硬件技术栈、网络互联体系、存储与散热系统、软件与调度栈、性能实测验证、产业价值与战略意义七大维度，深度拆解这一万卡级国产智算集群的技术内核与工程突破，全面解读其对中国AI产业发展的深远影响。

Part 01

一、中国算力自主化的里程碑时刻

1.1 集群核心概况与建设背景

本次建成的深圳万卡级智算集群，由深圳市政府联合华为、飞腾、长江存储等国内顶尖科技企业共同打造，总投资超50亿元，占地面积约1.2万平方米，是全国首个实现“芯片-服务器-网络-存储-软件-调度”全链路自主可控的万卡级智算集群。

集群建设分为两期推进：2025年完成一期3000P算力部署，主要用于验证超节点架构的可行性与稳定性；2026年3月完成二期11000P算力扩容，实现14000P总算力的全面投运，正式进入规模化应用阶段。

近年来，全球AI技术迎来爆发式发展，大模型参数规模从百亿级快速攀升至万亿级，对算力的需求呈现指数级增长。与此同时，海外对高端AI芯片、智算集群核心技术的封锁日益加剧，NVIDIA A100/H100加速卡、InfiniBand高速网络等核心组件的出口限制，严重制约了中国大模型产业的自主发展。

在此背景下，深圳作为中国数字经济核心城市，率先启动万卡级国产智算集群建设，旨在构建自主可控的算力底座，破解“卡脖子”难题，推动中国AI产业实现高质量发展。

1.2 集群核心优势与关键指标

深圳万卡级智算集群以昇腾910C AI加速卡为核心算力单元，采用超节点架构与自研高速互联网络，在技术层面实现了三大核心突破，关键指标均达到国际一流水平，具体如下：

全栈自主可控：从AI芯片、通用CPU、服务器主板，到高速网络、分布式存储、软件调度系统，100%采用国产组件，无任何海外技术依赖，彻底摆脱对NVIDIA、Intel、Mellanox等海外企业的束缚。
算力规模领先：总计部署约14000张昇腾910C加速卡，划分为22个标准超节点，总算力达14000 PFLOPS（FP16），可同时支撑10+个千亿参数大模型并行训练，满足通用人工智能、生物医药、自动驾驶等领域的大规模算力需求。
性能指标卓越：Pangu-718B大模型训练线性度达93.12%，比肩谷歌TPUv5集群；日均故障率仅0.3‰，远低于Meta AI RSC集群的1‰；PUE低至1.08，处于全球顶尖水平，年节电超3000万度，实现绿色节能与高性能的双重突破。
工程可扩展性强：采用模块化超节点架构，支持线性扩展至10万卡级规模，为未来EFLOPS级智算集群建设奠定基础，可适配万亿参数以上大模型的训练需求。

值得注意的是，与当前国内其他国产集群相比，深圳万卡集群在生态兼容性上也实现了重大突破，全面兼容PyTorch、TensorFlow、MindSpore等主流AI框架，无需修改代码即可实现模型无缝迁移，解决了此前国产GPU普遍面临的兼容性不足、迁移与部署成本较高等难题，进一步降低了AI研发门槛。

Part 02

二、顶层架构：超节点+分布式并行，万卡协同的底层逻辑

万卡级智算集群的核心挑战，在于如何实现大规模加速卡的高效协同，破解通信延迟、算力碎片化、工程可扩展性差等瓶颈。深圳万卡集群没有采用传统的“8卡/16卡服务器堆叠”模式，而是创新采用“超节点（Super Node）+ 分布式并行”架构，通过“超节点内全互联+超节点间高速互联+全局统一调度”的三层拓扑设计，实现万卡级算力的高效协同与稳定运行，这也是其区别于传统集群的核心优势所在。

2.1 从“服务器级”到“超节点级”：万卡集群的架构革命

传统AI集群以单机8卡/16卡服务器为基本单元，通过机架式组网扩展规模。这种架构在小规模集群（千卡级以下）中具有部署灵活、成本较低的优势，但在万卡级、万亿参数模型训练场景下，面临三大致命瓶颈，严重制约算力效率的发挥：

（1）通信爆炸瓶颈

大模型训练过程中，需要进行大量的参数同步、梯度聚合操作，核心通信方式为All-Reduce。传统架构中，All-Reduce通信量随加速卡数量的平方级增长，当卡数达到10000张时，通信量将达到千卡级集群的100倍以上。传统以太网、甚至普通InfiniBand网络的带宽与延迟，均无法支撑如此庞大的通信需求，导致通信耗时占比超60%，算力严重闲置。

（2）算力碎片化瓶颈

传统架构中，每台服务器作为独立的计算单元，跨服务器、跨机架的通信延迟高达数十微秒，甚至上百微秒。这种高延迟导致不同服务器之间的算力无法高效协同，算力利用率普遍低于60%，万卡规模下实际有效算力不足理论值的一半，形成“有卡用不上”的尴尬局面。

（3）工程不可行瓶颈

万卡级集群若采用传统8卡服务器组网，需要1250台物理服务器，再加上配套的交换机、存储设备、供电系统，所需机房空间、供电容量、散热能力均达到惊人规模，不仅建设成本极高，而且在工程落地层面难以实现规模化部署。

针对上述瓶颈，深圳万卡集群创新性地采用超节点（Super Node）架构，将数百张AI加速卡在单机柜内深度耦合，形成一个“巨型计算单元”——超节点，内部实现全互联、低延迟、高带宽通信，外部再通过高速网络将多个超节点互联，构建万卡级统一算力池。这种架构的核心优势的是“通信局部化”，将大部分通信操作限制在超节点内部，大幅减少跨节点通信量，从而破解通信爆炸与算力碎片化难题；同时，通过单机柜高密度集成，大幅提升算力密度，降低机房空间、供电、散热的工程压力，实现万卡级集群的工程化落地。

2.2 深圳万卡集群的三层拓扑架构

深圳万卡集群采用“超节点内全互联+超节点间高速互联+全局统一调度”的三层拓扑架构，总计部署约14000张昇腾910C加速卡，划分为22个标准超节点（单节点640卡），总算力达14000 PFLOPS（FP16），三层架构相互协同，构成万卡级智算集群的核心骨架。

（1）超节点层：单机柜640卡，万卡集群的计算核心

超节点是深圳万卡集群的最小独立计算单元，采用42U定制化高密度机柜设计，单机柜集成640张昇腾910C加速卡，实现“一机一节点、一柜一集群”的高密度部署，其核心配置与技术特点如下：

硬件配置：1个标准42U机柜，集成640张昇腾910C AI加速卡、320颗国产x86/ARM通用CPU（飞腾FT-3000/海光7390）、40TB本地NVMe缓存、单机柜400kW供电系统、浸没式液冷散热单元，硬件配置完全实现国产化。
内部互联：采用自研400G原生RDMA背板，实现640张加速卡的全mesh无阻塞互联，端到端通信延迟<0.8μs，单卡带宽达400Gbps，确保超节点内部各加速卡之间的高速协同，通信效率较传统服务器组网提升10倍以上。
核心定位：作为最小独立计算单元，单个超节点可独立完成千亿参数大模型的训练任务；多个超节点通过高速网络互联，可组成更大规模的集群，支撑万亿参数模型的训练需求，实现“灵活扩展、按需调度”。

与传统8卡服务器相比，超节点的算力密度提升20倍，单机柜可承载640卡的计算能力，相当于80台传统8卡服务器的算力规模，大幅减少了机房空间占用与设备数量，为万卡级集群的工程化落地提供了核心支撑。

（2）集群互联层：超节点间高速网络，万卡通信的大动脉

集群互联层是连接22个超节点的核心纽带，承担着超节点之间的参数同步、梯度聚合等通信任务，是万卡级集群高效协同的关键。深圳万卡集群采用“两级Clos（Spine-Leaf）+ 胖树混合架构”，部署国产400G/800G RDMA交换机，构建无阻塞高速互联网络，其核心特点如下：

网络拓扑：采用两级Clos（Spine-Leaf）+ 胖树混合架构，Leaf层交换机与超节点直接连接，Spine层交换机连接所有Leaf层交换机，实现22个超节点的全互联，确保任意两个超节点之间的通信路径最短、带宽无衰减。
核心设备：部署国产400G/800G RDMA交换机，单端口带宽达800Gbps，整机交换容量64Tbps，转发延迟仅260ns，硬件层面完全自主可控，摆脱对海外InfiniBand交换机的依赖。
网络能力：支持万卡级All-Reduce、All-Gather、Broadcast等大模型核心集合通信，全局带宽无阻塞，链路故障恢复时间<1ms，确保集群在部分链路故障时，仍能保持稳定运行，不影响训练任务推进。

（3）全局管理层：统一调度与管控，万卡集群的“大脑”

全局管理层承担着万卡集群的资源调度、任务管理、故障监控、多租户隔离等核心功能，是保障集群稳定、高效运行的“大脑”。该层采用“昇腾智算平台（Ascend Computing Platform）+ 自研分布式调度引擎”的核心架构，实现对万卡集群的全生命周期管理，其核心能力如下：

万级节点统一纳管：支持14000张加速卡、22个超节点的统一管理，实现资源状态的实时监控、可视化展示，管理员可实时掌握每一张加速卡、每一台设备的运行状态，便于运维管理。
智能作业调度：支持十万级作业排队，采用拓扑感知调度算法，根据任务需求与集群物理拓扑，自动分配最优算力资源，实现秒级调度，算力利用率稳定在85%以上，远高于传统集群的60%。
多租户强隔离：采用硬件级+软件级双重隔离机制，支持政企、科研、高校等多租户安全共享算力资源，不同租户的任务相互独立，避免业务干扰，保障数据安全与训练稳定性。
全链路故障自愈：实时监控硬件、软件、网络的运行状态，一旦发现故障，自动完成故障检测、隔离、任务迁移，实现故障自愈，系统可用性达99.99%，确保训练任务不中断。
三网物理隔离：将计算网、存储网、管理网进行物理隔离，采用独立交换机、独立光纤、独立带宽，避免不同业务流量相互干扰，进一步提升集群运行的稳定性与安全性。

2.3 架构设计的核心突破：解决万卡级三大工程难题

深圳万卡集群的三层拓扑架构，针对性解决了传统集群在万卡级场景下的通信爆炸、算力碎片化、工程不可行三大瓶颈，实现了三大核心工程突破，为万卡级智算集群的规模化落地提供了可复制、可推广的方案：

（1）通信瓶颈突破：超节点内全互联，通信效率提升3倍

通过超节点架构，将640张加速卡在单机柜内实现全mesh无阻塞互联，端到端延迟<0.8μs，单卡带宽400Gbps，将70%以上的通信操作限制在超节点内部，大幅减少跨节点通信量。同时，结合自研高速互联网络与集合通信优化技术，集群的集合通信效率较传统集群提升3倍，All-Reduce通信延迟降低50%，彻底破解了万卡级通信爆炸难题。

（2）算力密度突破：单机柜640卡，机房空间占用减少95%

传统8卡服务器的算力密度约为16卡/机柜，而深圳万卡集群的超节点实现640卡/机柜，算力密度提升20倍。按照14000卡的规模计算，传统架构需要875个机柜，而深圳万卡集群仅需22个机柜，机房空间占用减少95%，同时大幅降低了供电、散热的工程压力，实现了万卡级集群的工程化落地。

（3）可靠性突破：故障域隔离，日均故障率低至0.3‰

采用“超节点内硬件冗余+全局分布式容错”的可靠性设计，将每个超节点作为独立的故障域，超节点内实现N+M冗余，故障卡可自动隔离，任务无缝迁移；全局采用分布式容错系统，跨超节点进行数据备份，全局任务Checkpoint每30分钟自动保存，单点故障不影响全局训练。最终实现日均故障率0.3‰，远低于国际一流集群（Meta AI RSC集群约1‰），系统可用性达99.99%。

Part 03

三、核心硬件技术栈：全栈国产化，从“芯”到“机”的自主可控

硬件是智算集群的基础，也是实现全栈自主可控的核心。深圳万卡集群的最大亮点之一，就是实现了从AI芯片、通用CPU、服务器主板，到电源、存储、机箱等所有硬件组件的100%国产化，彻底摆脱对海外硬件的依赖，构建了“从芯到机”的全栈国产硬件体系，为集群的自主可控、稳定运行提供了坚实保障。

3.1 算力核心：昇腾910C——万卡集群的“中国芯”

深圳万卡集群100%采用华为昇腾910C AI加速卡，作为集群的核心算力单元，昇腾910C是华为自主研发的新一代高端AI加速卡，基于DaVinci架构打造，专门针对万卡级大模型训练场景进行优化，是全国首个万卡级纯国产芯片智算集群的核心支撑，彻底摆脱了对NVIDIA A100/H100加速卡的依赖。

（1）昇腾910C核心规格（FP16）

昇腾910C的核心规格经过精准优化，兼顾高性能与低功耗，完美适配万卡级大模型训练需求，具体核心参数如下：

计算核心：32个DaVinci架构计算核心，主频2.1GHz，采用异构计算架构，可高效处理大模型训练中的张量计算、矩阵运算等核心任务，计算效率较上一代产品提升30%。
理论算力：单卡FP16算力达1024 TFLOPS，14000张卡片总算力达14 EFLOPS（1EFLOPS=1000 PFLOPS），可支撑万亿参数模型的高效训练，算力性能比肩NVIDIA H100加速卡。
显存配置：搭载64GB HBM3e高速显存，显存带宽达4.3TB/s，支持海量参数的存储与高速读取，可满足千亿、万亿参数模型的显存需求，避免因显存不足导致的训练中断。
互联接口：集成400G RDMA（RoCE v2）接口与PCIe 5.0 x16接口，其中400G RDMA接口支持硬件级通信卸载，大幅降低CPU占用率，提升通信效率；PCIe 5.0 x16接口确保与主板、其他设备的高速互联。
功耗控制：单卡功耗700W，支持浸没式液冷与液直冷两种散热方式，适配超节点的高密度部署需求，在保证高性能的同时，实现能耗的合理控制。

（2）昇腾910C的万卡级适配优化

针对万卡级集群的大规模协同需求，昇腾910C在硬件层面进行了三大关键优化，确保在万卡规模下仍能保持高效、稳定的性能发挥，具体优化如下：

原生RDMA支持：硬件级集成400G RDMA引擎，可直接卸载All-Reduce、All-Gather等集合通信任务，无需CPU参与，将CPU占用率控制在5%以下，避免因CPU瓶颈影响集群整体性能。
超节点协同架构：支持多卡间Chiplet级互联，超节点内640张卡片实现统一地址空间，数据拷贝延迟<50ns，大幅提升超节点内部的协同效率，确保多卡并行训练的同步性。
大模型专用指令集：新增MoE（混合专家模型）、FlashAttention（快速注意力机制）、张量并行专用指令，针对大模型训练的核心场景进行指令优化，使千亿参数模型训练效率提升40%，进一步释放算力潜力。

与当前国内其他国产AI芯片相比，昇腾910C在万卡级适配、大模型优化、通信效率等方面具有显著优势，其性能表现不仅满足国内大模型训练需求，更达到国际同类产品的先进水平，为深圳万卡集群的高性能运行提供了核心支撑。

3.2 服务器硬件：超节点级高密度国产化整机

超节点作为万卡集群的核心计算单元，其整机设计直接决定了集群的算力密度、可靠性与可扩展性。深圳万卡集群的超节点采用定制化高密度国产化整机设计，整合国产CPU、主板、电源、存储等核心组件，实现“单机柜640卡”的高密度部署，同时保证整机的稳定性与兼容性。

（1）超节点整机设计（640卡/柜）

超节点采用42U定制化高密度机柜设计，全封闭液冷通道，专门适配浸没式相变液冷技术，其核心设计细节如下：

机箱设计：42U定制化高密度机柜，采用全封闭结构，内置液冷通道，适配浸没式相变液冷技术，可有效隔绝外界灰尘、干扰，同时提升散热效率，确保机柜内所有设备的稳定运行。
供电系统：单机柜配备400kW 48V直流供电系统，供电效率达96.5%，采用N+1冗余设计，确保即使单路电源故障，也不会影响超节点的正常运行，提升供电可靠性。
主板设计：采用自研昇腾专用主板，集成640卡PCIe 5.0全互联背板，实现无阻塞数据通路，确保各加速卡、CPU、存储设备之间的高速数据传输，背板带宽达25.6TB/s，满足万卡级通信需求。
本地存储：每8张加速卡配置1.6TB NVMe SSD，单个超节点总计80TB本地缓存，主要用于存储训练热数据、模型参数、激活值与Checkpoint文件，单超节点本地存储读写带宽达400GB/s，访问延迟<10μs，为大模型训练提供低延迟数据支撑。

（2）硬件国产化清单（100%自主可控）

深圳万卡集群的所有硬件组件均采用国产产品，覆盖AI加速卡、通用CPU、服务器主板、电源、存储、机箱等各个类别，形成了完整的国产硬件供应链，具体国产化清单如下表所示：

硬件类别	国产供应商	核心产品	技术亮点
AI加速卡	华为	昇腾910C	DaVinci架构，400G RDMA，HBM3e高速显存，大模型专用指令集
通用CPU	飞腾/海光	FT-3000/海光7390	64核，PCIe 5.0接口，支持多节点协同，适配国产操作系统
服务器主板	华为/国产ODM	昇腾专用主板	640卡全互联背板，PCIe 5.0无阻塞通路，液冷兼容设计
电源模块	华为/中恒电气	400kW直流电源	供电效率96.5%，N+1冗余，支持智能能耗调节
存储介质	长江存储/长鑫	NVMe SSD/HBM	国产自研颗粒，高带宽低延迟，适配大模型训练场景
机箱/结构件	深圳本地厂商	定制化液冷机柜	高密度设计，全封闭液冷通道，适配浸没式液冷
网络设备	华为/国产厂商	400G/800G RDMA交换机	自研交换芯片，800Gbps单端口带宽，转发延迟260ns

这份国产化清单不仅体现了中国在AI硬件领域的全面突破，更标志着中国已形成完整的智算集群硬件供应链，彻底打破了海外企业在高端AI硬件领域的垄断，为后续国产智算集群的规模化建设奠定了坚实基础。

3.3 硬件可靠性设计：万卡集群的“生命线”

万卡级集群的硬件规模庞大，涉及14000张加速卡、22个超节点、数百台交换机与存储设备，任何一个硬件组件的故障都可能影响整个训练任务的推进，甚至导致任务失败。因此，硬件可靠性是万卡级智算集群的“生命线”。深圳万卡集群采用“芯片级+超节点级+全局级”的三级可靠性架构，全方位保障集群的稳定运行。

（1）芯片级可靠性：单卡故障自愈，降低基础故障风险

昇腾910C加速卡内置完善的可靠性设计，从硬件层面实现单卡故障的自主检测与自愈，具体措施如下：

ECC显存：配备ECC（错误检查与纠正）显存，可自动检测并纠正显存中的数据错误，避免因显存错误导致的训练任务中断，提升数据存储的可靠性。
硬件纠错：内置硬件级纠错机制，可对计算过程中的数据错误进行自动纠正，确保计算结果的准确性，减少因硬件故障导致的训练误差。
实时监控：内置温度、电压、电流监控模块，实时监测芯片的运行状态，当温度过高、电压异常时，自动触发降频、断电保护机制，避免芯片损坏，延长硬件使用寿命。
单卡自愈：支持单卡故障自愈功能，当检测到单卡故障时，自动将该卡从集群中隔离，任务自动迁移至其他正常卡片，不影响整体训练任务的推进。

（2）超节点级可靠性：故障域隔离，任务无缝迁移

每个超节点作为独立的故障域，采用N+M冗余设计，确保超节点内部分硬件故障时，仍能保持正常运行，具体措施如下：

N+M冗余：超节点内640张加速卡采用N+M冗余设计，预留一定数量的备用卡片，当部分卡片故障时，备用卡片可自动上线，替代故障卡片，确保超节点的算力不衰减。
故障自动隔离：超节点内置故障检测模块，可实时检测卡片、CPU、存储等设备的运行状态，当检测到故障设备时，自动将其隔离，避免故障扩散至整个超节点。
任务无缝迁移：超节点内的训练任务采用分布式部署，当部分设备故障时，任务可无缝迁移至其他正常设备，迁移时间<100ms，确保训练任务不中断，数据不丢失。
超节点可用性：通过上述设计，超节点的可用性达99.99%，每年故障停机时间不超过52分钟，满足大模型长期稳定训练的需求。

（3）全局级可靠性：分布式容错，全局数据安全

在全局层面，采用分布式容错系统与跨超节点数据备份机制，确保单点故障不影响全局训练，具体措施如下：

分布式容错系统：采用分布式容错架构，将训练数据、模型参数跨多个超节点进行备份，即使单个超节点故障，也可从其他超节点恢复数据，确保训练任务的连续性。
自动Checkpoint：全局任务Checkpoint每30分钟自动保存一次，Checkpoint数据跨超节点备份，当集群发生故障时，可从最近的Checkpoint恢复训练，避免数据丢失，减少重复训练成本。
全局监控与告警：部署全链路监控系统，实时监控集群的硬件、软件、网络运行状态，当检测到异常时，自动触发告警，管理员可及时处理，避免故障扩大。

通过三级可靠性架构的设计，深圳万卡集群的日均故障率低至0.3‰，连续稳定运行30天无故障，优于Meta、微软等国际一流集群，为万亿参数大模型的长期稳定训练提供了坚实保障。

Part 04

四、网络互联技术：万卡级“高速路网”，通信性能的核心突破

在万卡级大模型训练中，通信耗时占比超60%，网络是算力释放的最大瓶颈。传统以太网（TCP/IP）延迟高、丢包率高，无法支撑万卡级通信需求；传统InfiniBand（IB）网络依赖海外技术、成本高、扩展性差，且面临出口限制。深圳万卡集群创新性地采用全自研400G原生RDMA网络（昇腾Fabric），从芯片、交换机、网卡到协议栈全链路自主可控，彻底解决了万卡级通信难题，构建了万卡级“高速路网”。

4.1 万卡集群的网络痛点：通信墙与带宽焦虑

万卡级智算集群的网络面临两大核心痛点，即“通信墙”与“带宽焦虑”，这也是制约万卡级集群性能发挥的关键：

（1）通信墙：延迟高、通信量巨大

大模型训练过程中，需要进行大量的参数同步、梯度聚合操作，核心通信方式为All-Reduce。当集群规模达到10000张卡片时，All-Reduce通信量将达到千卡级集群的100倍以上，传统网络的延迟高达数十微秒，甚至上百微秒，导致通信耗时占比超60%，形成“通信墙”，严重制约算力效率的发挥。

（2）带宽焦虑：带宽不足、扩展性差

万卡级集群需要极高的网络带宽来支撑庞大的通信量，传统以太网的带宽普遍在100Gbps以下，即使是普通InfiniBand网络，单端口带宽也仅为400Gbps，无法满足万卡级通信的带宽需求。同时，传统网络的扩展性较差，当集群规模扩展至万卡级以上时，带宽会出现衰减，通信延迟大幅增加，无法实现线性扩展。

此外，传统InfiniBand网络依赖海外Mellanox公司的芯片与设备，面临出口限制，无法实现自主可控，存在安全隐患。因此，构建全自研、高带宽、低延迟、可扩展的高速互联网络，成为深圳万卡集群的核心任务之一。

4.2 昇腾Fabric：国产400G RDMA网络的技术内核

深圳万卡集群采用的昇腾Fabric，是华为自主研发的400G原生RDMA高速互联网络，实现了从交换芯片、网卡芯片、协议栈到软件栈的全栈自研，彻底摆脱对海外网络技术的依赖，其技术内核具有全栈自主、高性能、高可靠、可扩展四大特点。

（1）全栈自研，彻底自主可控

昇腾Fabric的全栈自研特性，覆盖网络硬件、协议栈、软件栈等各个层面，具体如下：

交换芯片：采用国产112G SerDes自研交换芯片，单端口带宽达800Gbps，整机交换容量64Tbps，转发延迟仅260ns，性能比肩国际一流交换芯片，彻底摆脱对海外交换芯片的依赖。
网卡芯片：昇腾910C加速卡内置400G RDMA网卡，无需额外配置独立网卡，硬件级卸载RoCE v2协议，端到端通信延迟<0.9μs，大幅提升通信效率，同时降低硬件成本。
协议栈：采用自研无损RDMA协议，基于信用的流控机制，实现零丢包、无需人工调优，解决了传统RDMA协议需要复杂调优、易丢包的问题，降低运维复杂度。
软件栈：配备昇腾网络SDK（Ascend Network SDK），兼容MPI、NCCL、PyTorch分布式等主流通信框架与AI框架，无需修改代码即可实现模型的无缝迁移与通信优化。

（2）核心性能指标（对标国际一流）

昇腾Fabric的核心性能指标达到国际一流水平，甚至在部分指标上超越海外同类产品，具体对标情况如下表所示：

性能指标	昇腾Fabric 400G	NVIDIA NDR IB	传统以太网
单端口带宽	800Gbps	400Gbps	100Gbps
端到端延迟	<0.9μs	~1μs	>10μs
集合通信性能（All-Reduce）	1.2TB/s	0.8TB/s	<0.1TB/s
最大集群规模	11.4万卡	5万卡	<1000卡
链路故障恢复时间	<1ms	<2ms	>100ms
硬件成本	比IB低30%	高	低（性能差）

从对标数据可以看出，昇腾Fabric在单端口带宽、集合通信性能、最大集群规模、链路故障恢复时间等核心指标上均优于NVIDIA NDR IB网络，同时硬件成本比IB网络低30%，实现了“高性能+低成本”的双重优势，完美适配万卡级智算集群的需求。

（3）万卡级组网架构：两级Clos+胖树，无阻塞全互联

为实现22个超节点、14000张卡片的无阻塞互联，深圳万卡集群采用“超节点组+Spine-Leaf”混合组网架构，基于两级Clos+胖树拓扑设计，确保任意两卡之间的通信路径最短、带宽无衰减，具体组网细节如下：

Leaf层：每超节点配置8台400G Leaf交换机，与超节点内的640张加速卡实现全mesh连接，收敛比1:1，确保超节点内所有卡片的通信带宽无阻塞，满足超节点内部的高速通信需求。
Spine层：部署32台800G Spine交换机，与所有Leaf层交换机实现全mesh连接，全局无阻塞，确保任意两个超节点之间的通信带宽充足，避免跨超节点通信出现瓶颈。
拓扑优势：任意两张加速卡之间的通信路径跳数<4，路径最短，带宽无衰减，支持线性扩展至10万卡级规模，为未来集群扩容奠定基础。同时，采用冗余链路设计，当部分链路故障时，可自动切换至备用链路，确保通信的连续性。

4.3 网络优化技术：万卡通信的“加速器”

为进一步提升万卡级通信效率，深圳万卡集群在昇腾Fabric网络的基础上，采用了四大网络优化技术，大幅降低通信延迟、提升通信带宽，破解万卡级通信难题，具体优化技术如下：

（1）集合通信硬件卸载

大模型训练中的All-Reduce、All-Gather、Broadcast、Reduce-Scatter等集合通信任务，是通信耗时的主要来源。昇腾Fabric支持这些核心集合通信的硬件级卸载，无需CPU参与，将CPU占用率控制在5%以下，同时将集合通信效率提升5倍，大幅降低通信耗时。

与传统软件级集合通信相比，硬件级卸载可避免CPU瓶颈，减少数据拷贝次数，使All-Reduce通信延迟降低50%以上，确保万卡级集群的通信效率与算力效率同步发挥。

（2）拓扑感知通信调度

自研拓扑感知NCCL插件，可实时获取集群的物理拓扑信息（如超节点分布、交换机连接关系、卡片位置等），根据训练任务的通信需求，自动优化通信路径与算法，优先选择延迟最低、带宽最高的通信路径，跨超节点通信延迟降低40%。

例如，当两个超节点之间进行大量数据通信时，插件会自动选择直接连接的Spine-Leaf链路，避免绕路，减少通信延迟；当多个任务同时通信时，插件会进行带宽分配优化，避免链路拥塞，确保通信效率。

（3）无损流控与拥塞避免

采用基于信用的无损流控（Credit-based Flow Control）机制，从根源上避免链路拥塞与丢包。该机制通过实时监控链路的带宽占用情况，动态调整数据发送速率，确保发送端的发送速率与接收端的接收能力匹配，避免数据堆积导致的拥塞丢包。

与传统的ECN/DCQCN调优机制相比，基于信用的无损流控无需复杂的人工调优，实现即插即用，大幅降低运维复杂度，同时确保链路的零丢包率，提升通信的稳定性与可靠性。

（4）多平面物理隔离

将计算网、存储网、管理网进行三网物理隔离，采用独立交换机、独立光纤、独立带宽，避免不同业务流量相互干扰。其中，计算网专门用于大模型训练的参数同步、梯度聚合等核心通信；存储网专门用于训练数据、模型参数的读写；管理网专门用于集群的运维管理、任务调度。

三网物理隔离可有效避免存储流量、管理流量抢占计算通信带宽，使计算网的带宽始终保持充足，训练稳定性提升90%，确保大模型训练任务的顺利推进。

通过上述四大优化技术，深圳万卡集群的通信效率得到大幅提升，All-Reduce（1TB数据）通信时间仅需0.83秒，远低于NVIDIA H100集群的1.25秒，彻底破解了万卡级通信瓶颈，为算力效率的充分释放提供了核心支撑。

Part 05

五、存储与散热：万卡集群的“血液”与“体温”系统

万卡级智算集群的稳定运行，离不开两大核心支撑系统——存储系统与散热系统。存储系统作为集群的“血液”，负责承载PB级训练数据、模型参数的存储与高速读写；散热系统作为集群的“体温”系统，负责解决万卡级集群的高功耗散热难题，确保硬件设备的稳定运行。深圳万卡集群采用定制化的存储与散热方案，实现了“高带宽、低延迟、大容量”的存储能力与“低PUE、高散热效率”的散热效果。

5.1 存储系统：高带宽、低延迟、大容量，支撑万亿参数训练

大模型训练需要PB级数据集、高并发读写、低延迟访问，传统存储系统（如SAN、NAS）的带宽、延迟、并发能力均无法满足万卡级需求。深圳万卡集群采用“本地缓存+分布式并行存储+分级存储”的三层存储架构，构建万卡级统一存储池，实现存储能力与训练需求的精准匹配。

（1）本地缓存层（超节点内，低延迟核心）

本地缓存层部署在超节点内部，主要用于存储训练热数据、模型参数、激活值与Checkpoint文件，是大模型训练的低延迟数据支撑，其核心配置与性能如下：

配置：每个超节点配备80TB NVMe SSD本地缓存，每8张加速卡共享1.6TB NVMe SSD，确保每个训练任务都能获得充足的本地缓存资源。
功能：存储训练过程中频繁访问的热数据（如当前批次的训练数据、模型中间参数、激活值）与Checkpoint文件，减少对远端存储的访问，降低数据访问延迟。
性能：单超节点本地缓存的读写带宽达400GB/s，随机IOPS达1000万，访问延迟<10μs，可满足万卡级并发读写需求，确保训练任务的高效推进。

本地缓存层采用长江存储的NVMe SSD，国产自研颗粒，高带宽、低延迟，同时支持硬件级加密，确保数据安全，实现存储介质的自主可控。

（2）分布式并行存储层（全局，大容量核心）

分布式并行存储层是集群的全局存储核心，负责承载PB级训练数据集、模型参数的长期存储与全局共享，采用国产分布式并行文件系统（Ascend Storage），基于对象存储+块存储融合架构，其核心特点如下：

架构：采用分布式并行架构，将存储节点分布在多个超节点中，实现数据的分布式存储与并行读写，避免单点瓶颈，提升存储系统的可用性与扩展性。
规模：总容量达20PB，支持全局统一命名空间，所有超节点、所有加速卡可共享访问，满足PB级训练数据集的存储需求，可支撑多个万亿参数模型的并行训练。
性能：聚合带宽达10TB/s，单客户端带宽达400Gbps，支持万卡级并发读写，可满足万亿参数模型训练过程中的大规模数据吞吐需求，确保训练数据的及时供应。

Ascend Storage分布式并行文件系统是华为自主研发的国产存储软件，支持多协议兼容（POSIX、S3等），可无缝对接主流AI框架与训练工具，无需修改代码即可实现数据的读写与管理，同时支持数据加密、故障自愈等功能，确保数据安全与存储稳定。

（3）分级存储层（冷热数据自动调度，成本优化）

大模型训练过程中，不同数据的访问频率差异较大，热数据（频繁访问的训练数据、模型参数）需要低延迟存储，冷数据（不频繁访问的历史数据、备份数据）需要低成本存储。深圳万卡集群采用AI驱动的自动分级流动技术，构建“热数据-温数据-冷数据”的分级存储体系，实现存储成本与性能的平衡。

分级策略：热数据（访问频率高、重要性高）存储在本地缓存层（NVMe SSD），确保低延迟访问；温数据（访问频率中等）存储在分布式并行存储层的SAS硬盘中，兼顾性能与成本；冷数据（访问频率低、仅用于备份）存储在蓝光存储或磁带中，降低存储成本。
自动调度：采用AI驱动的调度算法，根据数据的访问频率、重要性，自动实现数据在不同存储层级之间的迁移，无需人工干预，确保热数据始终处于低延迟存储层，冷数据自动迁移至低成本存储层。
分级策略：热数据（访问频率高、重要性高）存储在本地缓存层（NVMe SSD），确保低延迟访问；温数据（访问频率中等）存储在分布式并行存储层的SAS硬盘中，兼顾性能与成本；冷数据（访问频率低、仅用于备份）存储在蓝光存储或磁带中，降低存储成本。
自动调度：采用AI驱动的调度算法，根据数据的访问频率、重要性，自动实现数据在不同存储层级之间的迁移，无需人工干预，确保热数据始终处于低延迟存储层，冷数据自动迁移至低成本存储层。
优化效果：通过分级存储，不仅将热数据访问延迟控制在10μs以内，保障训练效率，还将整体存储成本降低40%以上。同时，冷数据采用蓝光存储，可实现数据长期保存（保存年限超50年），且能耗仅为传统硬盘存储的1/10，兼顾数据安全与绿色节能需求。

深圳万卡集群的三层存储架构，实现了“低延迟、高带宽、大容量、低成本”的四重目标，既满足了万亿参数大模型训练对存储的严苛需求，又通过国产化组件与智能调度，实现了存储系统的全栈自主可控与成本优化，为集群的稳定高效运行提供了坚实的“血液”支撑。

5.2 散热系统：浸没式液冷+智能控温，PUE低至1.08的绿色突破

万卡级智算集群的功耗极为惊人，14000张昇腾910C加速卡单卡功耗700W，再加上CPU、交换机、存储等设备，集群总功耗超10MW，相当于1万户家庭的日常用电需求。若采用传统风冷散热，不仅散热效率低下，还会导致PUE（能源使用效率）居高不下，无法满足绿色低碳与高密度部署的需求。深圳万卡集群创新性地采用“浸没式相变液冷+液直冷混合散热”方案，结合智能控温技术，实现了散热效率与绿色节能的双重突破，PUE低至1.08，处于全球顶尖水平。

（1）散热痛点：万卡级集群的“高温难题”

传统风冷散热在万卡级集群场景下，面临三大核心痛点，无法满足散热需求：一是散热效率低，高密度部署下机柜内部温度易超过40℃，导致硬件降频、故障率上升；二是能耗高，风冷空调的功耗占集群总功耗的30%以上，导致PUE普遍高于1.4；三是噪音大，大量风冷设备运行产生的噪音超过85分贝，不符合机房环保标准。因此，采用高效、低能耗的散热方案，成为万卡级集群工程化落地的关键。

（2）核心散热方案：浸没式相变液冷+液直冷混合架构

深圳万卡集群针对超节点高密度部署的特点，采用“超节点内浸没式相变液冷+集群级液直冷”的混合散热架构，将核心发热设备（加速卡、CPU）浸没在专用冷却液中，实现高效散热，具体方案如下：

超节点内浸没式相变液冷：每个超节点的42U定制化机柜采用全封闭结构，内置浸没式液冷舱，将640张昇腾910C加速卡、CPU等核心发热设备完全浸没在氟化液中。氟化液具有绝缘、无毒、沸点低（50-60℃）的特点，可通过相变吸热（液态变气态）快速带走硬件产生的热量，散热效率是传统风冷的100倍以上，机柜内部温度可稳定控制在35℃以下。
集群级液直冷系统：搭建集群级集中式液直冷机组，通过管道将冷却液输送至各个超节点的液冷舱，吸收热量后的冷却液返回机组进行冷却，再循环输送至液冷舱，形成闭环散热。液直冷系统无需经过空气换热，热交换效率提升50%，且能耗仅为传统风冷空调的1/5，大幅降低集群整体能耗。
辅助散热设计：在交换机、存储设备等非核心发热设备区域，采用高效风冷辅助散热，结合智能风阀控制，根据设备温度自动调节风速，避免能源浪费，实现“核心设备液冷+辅助设备风冷”的精准散热。

（3）智能控温技术：精准调控，进一步降低能耗

为进一步优化散热效率、降低能耗，深圳万卡集群搭载了AI智能控温系统，基于实时温度数据与AI算法，实现散热系统的精准调控，核心技术亮点如下：

实时温度监测：在每个超节点、每张加速卡、每台设备上部署温度传感器，实时采集温度数据，采样频率达1次/秒，确保全面掌握集群温度分布情况，为控温决策提供数据支撑。
AI动态调温：采用深度学习算法，根据集群的负载情况（训练任务多少、算力利用率）、环境温度，动态调节冷却液流量、液冷机组运行功率、风冷风速，实现“负载与散热匹配”。例如，当集群负载较低、发热较少时，自动降低冷却液流量与机组功率，减少能耗；当负载升高、发热增加时，自动提升散热能力，确保温度稳定。
分区精准控温：将集群划分为多个散热分区，每个分区根据设备类型、发热强度进行独立控温，避免“一刀切”的散热模式，进一步降低能耗。例如，超节点液冷舱采用精准控温，温度波动控制在±1℃以内；辅助设备区域根据温度自动调节风速，实现能源高效利用。

（4）散热效果与绿色价值：PUE1.08，年节电超3000万度

通过“混合散热+智能控温”的方案，深圳万卡集群的散热效果达到全球顶尖水平，核心指标与绿色价值如下：

PUE低至1.08：PUE（能源使用效率）是衡量数据中心能耗的核心指标，数值越接近1，能耗越低。深圳万卡集群的PUE低至1.08，远低于国内同类智算集群（PUE普遍1.3以上），也优于国际一流集群（Meta AI RSC集群PUE1.15），处于全球领先地位。
年节电超3000万度：按集群总功耗10MW计算，与传统风冷集群（PUE1.4）相比，每年可节约电能超3000万度，相当于减少二氧化碳排放约2.4万吨，实现了高性能与绿色节能的双重目标，契合“双碳”战略要求。
硬件稳定性提升：集群核心设备温度稳定控制在35℃以下，避免了因高温导致的硬件降频、故障，使加速卡、CPU等设备的使用寿命延长30%以上，进一步降低运维成本与硬件损耗。

深圳万卡集群的散热方案，不仅解决了万卡级高密度部署的“高温难题”，还通过国产化液冷设备（液冷机组、冷却液均为国产产品）实现了散热系统的自主可控，为后续万卡级、十万卡级智算集群的绿色化、高密度部署提供了可复制的方案。

上一篇：光芯片，重要突破

下一篇： “龙虾”安全事件的爆......

扫描下方二维码，关注浅说艺术

关注公众号

即时获知最新推送

休闲时刻

陶冶艺术情操

地址：北京市海淀区翠微中里14号楼

京公网安备11010802045648号 ICP备案号：京ICP备15022117号

电子邮箱

密码