关于ZAKER Skills 合作
钛媒体 16分钟前

统治 AI 十年的英伟达,要被谷歌 NPU 掀桌子了?

文 | 硅基象限

不是替代,是重构,NPU 让 AI 算力进入 " 乐高时代 "。

过去十年,AI 算力的叙事几乎被一家公司定义—— NVIDIA(英伟达)。

从 A100 到 H100,再到 H200,GPU 像一条不断扩展的算力工业流水线,把深度学习从实验室推向大模型时代。

但一个被长期忽视的问题是:GPU 最初并不是为 AI 而生,是为图形渲染而生。

这意味着它从一开始就是 " 通用并行计算架构 ",而不是 "AI 原生架构 "。

于是,一个更底层的趋势开始出现:

当 AI 计算规模指数级增长时,GPU 的边际效率开始下降。

产业开始向另一个方向转型,重新设计计算范式,一种依靠专用计算芯片设计逻辑(ASIC)的算力芯片—— NPU 诞生了!

美国时间 4 月 22 日,在 Google Cloud Next 活动上,谷歌推出两款第八代 NPU 芯片,TPU8t、TPU8i 分别用于 AI 训练和 AI 推理。TPU8t 每瓦性能上比前代产品提升 124%,TPU8i 提升 117% ,TPU8i 的每美元性能提升 80%。业内评论," 其如果对外出售,或将取代英伟达 "。

云服务厂搞芯片,并非是谷歌的独特路线。

全球云服务市场的 " 老大 " 亚马逊,在 2018 年发布首款用于推理的 NPU — Inferentia1,并在 2023 年推出了第二代 Inferentia2,并在去年底发布用于训练的 NPU,Trainium3排名第二微软也在2023发布了首款云端NPUMaia 100),并在今年初发布了 Maia 200。

国内亦如此。阿里在 2019 年发布首款 NPU(含光 800),专注云端推理和视觉计算;2018 年开始百度发布基于 ASIC 逻辑的自研 AI 芯片昆仑 1,并已迭代至昆仑芯 3 代。

2026 年,算力芯片的大客户,字节跳动也将对 NPU 下手。外媒透露字节跳动已开始与三星洽谈自研 NPU 芯片,代号 SeedChip,专为 AI 推理任务设计,预计 2026 年 3 月底前交付首批样品。

2026 年的趋势是芯片不再是一整块,谷歌、字节、阿里们想在英伟达的平台上," 拼 " 入自己的专用模块。

云厂商自研 NPU,或将改变 AI 成本结构、能耗曲线,甚至商业模式。

什么是 NPU?

谷歌 TPU、阿里含光 800 等本质是一种 NPU 形态。

NPU(Neural Processing Unit)芯片,英文直接翻译过来就是神经网络处理芯片。

要理解 NPU 和 GPU 的差别,可以先从它们的底层逻辑开始,NPU 广义上属于专用处理芯片(ASIC),而 GPU 属于通用处理芯片。

芯片按设计逻辑可以被分为三类,通用计算芯片、FPGA(可重构硬件)和 ASIC (专用处理芯片)。

第一是通用计算芯片,诸如 CPU 和 GPU,一条指令驱动成百上千线程并行执行,非常擅长处理大规模并行计算,通常不改变硬件,而是通过软件(CUDA)改变 " 任务调度 "。这就是为什么大家都说英伟达其实是一家软件公司,GPU 核心特征是高度可编程、适配所有计算任务、架构复杂(需要很多缓存)。但代价是通用性越强,效率越低。

第二类是 ASIC(专用定制芯片),它是为了某一个特定任务(比如识别图像、处理语音)而专门定制的,数据流固定、能效极高,是一种 " 把算法固化进硅片 " 的设计方法。缺点是一旦电路压印在硅片上,功能就无法更改,不够灵活。ASIC 的本质是把 AI 计算从 " 软件问题 " 变成 " 物理问题 ",但它也意味着灵活性最低、更新周期长。

第三类是 FPGA(可重构硬件),其可以通过 " 重新布线 " 改变芯片硬件布局和改变软件代码,来改变芯片功能,像一套 " 乐高积木 ",它介于通用和专用之间,常用于算法迭代快的原型开发或边缘计算。

GPU 功能强大,可以并行做很多事,要是把这些能力都用上,可以无比强大,但是单价更高,也更费电,而 NPU 只做一件事或一类事,功能单一,但是单价低也更省电。

不卖芯片,只做更具性价比的云

云服务商并不卖芯片,而是想要提供更具性价比的算力。

在 2015 年,谷歌就开始研究 NPU,当时,谷歌发现一个问题:其数据中心中,神经网络推理需求暴涨,但 GPU 效率不足。

于是,谷歌内部启动了 TPU 项目。2015 年第一代仅用于数据推理的 TPU 诞生,2018 年对外开放 Google Cloud TPU,2020 – 2024 年开始进入 " 训练 + 推理一体化 " 阶段。

2026 年,随着 TPU 8 发布,谷歌首次明确分成两条路线:用于训练的 TPU 8t 和用于推理的 TPU 8i,这背后反映的是一个更大的趋势:AI 算力的重心,正在从训练转向推理。

行业机构预计,到 2030 年,75%-80% 的 AI 算力将用于推理。这意味着 GPT 训练一次,推理运行数亿次。因此,谁能把 1 分钱的推理成本压到 0.1 分,谁就是 未来的算力王者。

谷歌的两款芯片分别由两个合作方设计,TPU8t 由博通设计, TPU8i 由联发科设计,两颗都或将基于台积电 2nm 工艺,预计 2027 年底量产。TPU 8 最核心变化在于试图解决 " 内存墙 " 问题,通过更高带宽 HBM、更密集的片间互联。

据悉,此次 TPU8 对比上一代 Ironwood 产品,TPU 8i 推理芯片 HBM 容量从 216GB 增到 288GB,带宽从 6528 提到 8601GB/s,片上 SRAM 提升三倍达 384M。集群规模从数万颗扩到 13.4 万颗,最多可连 100 万颗。

NPU 并不是谷歌独角戏,亚马逊、微软等都有 NPU 产品,而国内华为昇腾(Ascend)、寒武纪、地平线等也有类似产品发布。

以前云厂商买英伟达的 " 全家桶 ",现在他们想买英伟达的 " 地基 ",自己盖 " 房子 "。

掌握算力时代主动权

TPU 8 系列发布背后,是一个非常清晰的战略:去英伟达化。

如果 TPU 成功,AI 算力将从 "GPU 垄断 " 变成 " 多架构竞争 "。

但取代 " 英伟达 ",却并不容易。

最重要的问题是生态,英伟达的 CUDA 仍然是行业标准,CUDA 有 400 万开发者。另一方面,TPU 功能太过单一,GPU 可以用于 AI 训练和推理、图形处理和渲染,但是 TPU 的功能单一。

业内人士普遍认为,NPU 的意义不是 " 替代 GPU",而是重新定义 AI 算力结构。未来可能出现,GPU 作为通用算力底座、TPU/NPU 作为 AI 专用加速层。

英伟达也看到了这个趋势,在 2025 年底,英伟达斥资 200 亿美元对 Groq 进行收购,Groq 研发的 LPU ( Language Processing Unit ) ,在运行大模型(LLM)时,其速度是传统 GPU 的 10 倍以上。

这就像是过去十年,大多手机厂商的竞争。当手机里最重要的 Soc 芯片已经被高通、联发科垄断,具备强大的护城河,自研 Soc 芯片需要付出很大的成本且面临高风险。

那么,想要有独特优势、在市场上更具竞争力,大多数手机企业不会选择自研 Soc 芯片,而是针对 Soc 芯片的局部功能做优化。

此前,三星、vivo、OPPO 等手机厂商都选择自研用于提升拍照能力的 NPU 芯片,实现差异化,比如 vivo 蓝图影像芯片、OPPO 马里亚纳 MariSilicon 芯片。

云厂商的算力竞争也接近白热化,越来越多用于训练和推理的 NPU 将会出现,并不断提升能力。

未来真正的算力产业分水岭将是:谁能把 AI 推理成本压到极致,谁就掌握下一代算力时代主动权。

相关标签

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容