关于ZAKER 合作
科创板日报 5小时前

华为徐直军:到 2027 年昇腾超节点集群规模将达到百万卡级

《科创板日报》9 月 18 讯(记者 黄心怡)在华为全联接大会 2025 上,华为轮值董事长徐直军分享了昇腾芯片的规划路线,并推出全球最强超节点和集群。

他透露,未来三年,直至 2028 年,华为开发和规划了三个系列,分别是 Ascend(昇腾)950 系列,包括两颗芯片:Ascend950PR 和 Ascend 950DT,以及 Ascend 960、Ascend 970 系列,更多具体芯片还在规划中。

结合已经推出或正在研发中的昇腾芯片,华为将带来更多超节点和集群产品。包括 Atlas 950 超节点和 Atlas 960 超节点,分别支持 8192 张和 15488 张的昇腾卡。并将在 2027 年第四季度,基于 Atlas 960 超节点同步推出 Atlas 960 SuperCluster,集群规模提升到百万卡级。

以下为徐直军针对昇腾芯片、超节点和集群的演讲内容,经过《科创板日报》删减和整理:

算力的基础是芯片,昇腾芯片是华为 AI 算力战略的基础。未来 3 年,至 2028 年,我们在开发和规划了三个系列,分别是 Ascend 950 系列,包括两颗芯片:Ascend 950PR 和 Ascend 950DT,以及 Ascend 960、Ascend 970 系列,更多具体芯片还在规划中。

目前正在开发、且即将推出的芯片叫 Ascend 950 系列,包括 Ascend 950 PR 和 Ascend 950 DT。

与前一代昇腾芯片相比,Ascend 950 在以下几个方面实现了根本性提升。

第一,新增支持业界标准 FP8/MXFP8/MXFP4 等低数值精度数据格式,算力分别达到 1P 和 2P,提升训练效率和推理吞吐。并特别支持华为自研的 HiF8,在保持 FP8 的高效的同时,精度非常接近 FP16。

第二,大幅度提升了向量算力。这主要通过三个方面实现:其一,提升向量算力占比;其二,采用创新的新同构设计,即支持 SIMD/SIMT 双编程模型,SIMD 能够像流水线一样处理 " 大块 " 向量,而 SIMT 便于灵活处理 " 碎片化 " 数据;其三,把内存访问颗粒度从 512 字节减少到 128 字节,内存访问更精细,从而更好地支持了离散且不连续的内存访问。

第三,互联带宽相比 Ascend 910C 提升了 2.5 倍,达到 2TB/s。

第四,结合推理不同阶段对于算力、内存、访存带宽及推荐、训练的需求不同,我们自研了两种 HBM,分别是:HiBL 1.0 和 HiZQ 2.0。不同的自研 HBM 与 Ascend 950 Die 合封,分别构成芯片 Ascend 950PR:面向 Prefill 和推荐场景,以及 Ascend 950DT:面向 Decode 和训练场景。

其中,Ascend 950PR 主要面向推理 Prefill 阶段和推荐业务场景,将在 2026 年一季度推出,首先支持的产品形态是标卡和超节点服务器。

Ascend 950DT,更注重推理 Decode 阶段和训练场景。由于推理 Decode 阶段和训练对互联带宽和访存带宽要求高,华为开发了 HiZQ 2.0,使内存容量达到 144GB,内存访问带宽达到 4TB/s。同时把互联带宽提升到了 2TB/s。其次,支持了 FP8/MXFP8/MXFP4/HiF8 数据格式。Ascend 950DT 将在 2026 年 Q4 推出。

第三颗是在规划中的芯片 Ascend 960,在算力、内存访问带宽、内存容量、互联端口数等各种规格上相比 Ascend 950 翻倍,大幅度提升训练、推理等场景的性能;同时还支持华为自研的 HiF4 数据格式。它是目前业界最优的 4bit 精度实现,能进一步提升推理吞吐,并且比业界 FP4 方案的推理精度更优。Ascend 960 将在 2027 年四季度推出。

最后一颗是在规划中的 Ascend 970,这颗芯片的一些规格还在讨论中。总体方向是,在各项指标上大幅度升级,全面升级训练和推理性能。目前的初步考虑是,相比 Ascend 960,Ascend 970 的 FP4 算力、FP8 算力、互联带宽要全面翻倍,内存访问带宽至少增加 1.5 倍。Ascend 970 计划在 2028 年四季度推出。

总体上,我们将以几乎一年一代算力翻倍的速度,同时围绕更易用,更多数据格式、更高带宽等方向持续演进,持续满足 AI 算力不断增长的需求

可以看到,相比 Ascend 910B/910C,从 Ascend 950 开始的主要变化包括:

引入 SIMD/SIMT 新同构,提升编程易用性;

支持更加丰富的数据格式,包括 FP32 /HF32 /FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4 等;

支持更大的互联带宽,其中 950 系列为 2TB/s,970 系列提升到 4TB/s;

支持更大的算力,FP8 算力从 950 系列的 1 PFLOPS 提升到 960 的 2 PFLOPS、970 的 4 PFLOPS;FP4 算力从 950 的 2 PFLOPS 提升到 960 的 4 PFLOPS、970 的 8 PFLOPS;

内存容量逐渐加倍,而内存访问带宽将翻两番。

从大型 AI 算力基础设施建设的技术方向看,超节点已经成为主导性产品形态,并正在成为 AI 基础设施建设的新常态。超节点事实上就是一台能学习、思考、推理的计算机,物理上由多台机器组成,但逻辑上以一台机器学习、思考、推理。

今年 3 月份,华为正式推出了 Atlas 900 超节点,满配支持 384 卡,最大算力可达 300 PFLOPS。CloudMatrix384 超节点,则是华为云基于 Atlas 900 超节点构建的云服务实例。Atlas 900 超节点自上市以来,已经累计部署超过 300 套,服务 20 多个客户,涵盖互联网、电信、制造等多个行业。

结合已经推出或正在研发中的昇腾芯片,将带来更多超节点和集群产品。今天发布的第一款产品—— Atlas 950 超节点,是基于 Ascend 950DT 打造。

Atlas 950 超节点支持 8192 张基于 Ascend 950DT 的昇腾卡,是 Atlas 900 超节点的 20 多倍,我们习惯称呼的昇腾卡,每张卡对应一颗 Ascend 950DT 芯片,8192 张昇腾卡等同于 8192 颗 Ascend 950DT 芯片。

Atlas 950 超节点满配包括由 128 个计算柜、32 个互联柜,共计 160 个机柜组成,占地面积 1000 平方米左右,柜间采用全光互联。总算力大幅度提升,其中,FP8 算力达到 8E FLOPS,FP4 算力达到 16E FLOPS。互联带宽达到 16PB/s,这个数字意味着,Atlas 950 一个产品的总互联带宽,已经超过今天全球互联网峰值带宽的 10 倍有余。

Atlas 950 超节点的上市时间是:2026 年四季度。

我们很自豪的看到,Atlas 950 超节点,至少在未来多年都将保持是全球最强算力的超节点,并且在各项主要能力上都远超业界主要产品。其中,相比英伟达同样将在明年下半年上市的 NVL144,Atlas 950 超节点卡的规模是其 56.8 倍,总算力是其 6.7 倍,内存容量是其 15 倍,达到 1152TB;互联带宽是其 62 倍,达到 16.3PB/s。即使是与英伟达计划 2027 年上市的 NVL576 相比,Atlas 950 超节点在各方面依然是领先的。

算力、内存容量、内存访问速度、互联带宽等能力的大幅度增强,为大模型训练性能和推理吞吐带来显著提升。相比华为已经推出的 Atlas 900 超节点,Atlas 950 超节点的训练性能提升 17 倍,达到 4.91M TPS。通过支持 FP4 数据格式,Atlas 950 超节点的推理性能提升达 26.5 倍,达到 19.6M TPS。

8192 卡超节点并不是终点。今天发布的第二款超节点产品 Atlas 960 超节点,其基于 Ascend 960,最大可支持 15488 卡。Atlas 960 超节点由 176 个计算柜,44 个互联柜,共 220 个机柜,占地面积约 2200 平方米。

Atlas 960 超节点的上市时间是:2027 年四季度。

基于 Ascend 960,Atlas 960 超节点总算力、内存容量、互联带宽在 Atlas 950 基础上再翻倍。其中,FP8 总算力将达到 30E FLOPS,而 FP4 总算力将达到 60 EFLOPS;内存容量达到 4460TB,互联带宽达到 34PB/s。大模型训练和推理的性能相比 Atlas 950 超节点,将分别提升 3 倍和 4 倍以上,达到 15.9M TPS 和 80.5M TPS。

在通用计算领域,我们同样认为,超节点技术能够带来很大的价值。TaiShan 950 超节点,基于 Kunpeng 950 打造,全球首个通用计算超节点,其最大支持 16 节点,32 个处理器,最大内存 48TB,同时支持内存、SSD、DPU 池化。

超节点的价值,不仅仅体现在智算和通算传统业务领域。互联网产业广泛应用的推荐系统,正在从传统推荐算法向生成式推荐系统演进。我们可以基于 TaiShan 950 和 Atlas 950 打造成混合超节点,为下一代生成式推荐系统打开全新架构方向。

一方面,通过超大带宽、超低时延互联以及超大内存,混合超节点构成超大共享内存池,支持 PB 级推荐系统嵌入表,从而支撑超高维度用户特征;另一方面,混合超节点的超大 AI 算力,能够支持超低时延推理和特征检索。因此,混合超节点是面向下一代生成式推荐系统的解决方案的全新选择。

为了达成 Atlas 950/960 超节点对互联的技术要求,为了实现万卡超节点还能是一台计算机,华为开创了超节点架构并开创了新型的互联协议,能够支撑万卡级超节点架构。基于这个互联协议的超节点架构的核心价值主张是:万卡超节点,一台计算机,也就是说,通过该互联协议,把数万规模的计算卡,联接成一个超节点,能够像一台计算机一样工作、学习、思考、推理。

万卡级超节点架构应该具备 6 大特征,分别是总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性。我们为这个面向超节点的新型互联协议取名 " 灵衢 ",英文名称:UB,UnifiedBus。今天,我们正式发布灵衢 UnifiedBus,一个面向超节点的互联协议。

同时,华为将开放灵衢 2.0 技术规范,欢迎产业界伙伴基于灵衢研发相关产品和部件,共建灵衢开放生态。

接下来带来两个集群产品:首先是 Atlas 950 SuperCluster 50 万卡集群。

Atlas 950 SuperCluster 集群由 64 个 Atlas 950 超节点互联组成,把 1 万多机柜中的 52 万多片昇腾 950DT 组成为一个整体,FP8 总算力可达 524 EFLOPS。上市时间与 Atlas 950 超节点同步,即 2026 年 Q4。

在集群组网上,我们同时支持 UBoE 与 RoCE 两种协议,UBoE 是把 UB 协议承载在以太网上,让客户能够利用现有以太交换机。相比传统 RoCE,UBoE 组网的静态时延更低、可靠性更高,交换机和光模块数量都更节省,所以,我们推荐 UBoE。

Atlas 950 SuperCluster 集群,相比当前世界上最大的集群 xAI Colossus,规模是其 2.5 倍,算力是其 1.3 倍,是当之无愧的全世界最强算力集群!无论是当下主流的千亿稠密、稀疏大模型训练任务,还是未来的万亿、十万亿大模型训练,超节点集群都可以成为性能强悍的算力底座,高效稳定地支持人工智能持续创新。

在 2027 年 Q4,我们还将基于 Atlas 960 超节点,同步推出 Atlas 960 SuperCluster,集群规模进一步提升到百万卡级,FP8 总算力达到 2 ZFLOPS,FP4 总算力达到 4 ZFLOPS。并且,它同样也支持 UBoE 与 RoCE 两种协议,在 UBoE 协议加持下,性能与可靠性同样更优,并且,静态时延和网络无故障时间优势进一步扩大,因此继续推荐 UBoE 组网。通过 Atlas 960 SuperCluster,我们将持续加速客户应用创新,探索智能水平新高。

相关标签
科创板日报

科创板日报

上交所科创板电报,股市行情报道

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容