谷歌正将其自研芯片业务推向新的竞争前沿。其计划推出专为 AI 推理任务打造的定制芯片,在已与 Meta 和 Anthropic 相继达成大规模合作协议之后,进一步向英伟达的市场主导地位发起挑战。
据彭博,谷歌计划在本周于拉斯维加斯举行的 Google Cloud Next 大会上发布新一代张量处理单元(TPU)。
谷歌首席科学家 Jeff Dean 在接受采访时表示,随着对 AI 查询快速处理需求的上升," 针对训练或推理工作负载对芯片进行更专门化的设计,现在已经是合理之举。"
这一布局正值 AI 芯片市场格局加速演变之际。英伟达 GPU 目前仍是 AI 领域、尤其是模型训练环节的行业标杆,但推理市场的争夺正日趋激烈。
市场研究机构 Gartner 分析师 Chirag Dekate 指出," 战场正向推理方向转移,而在这一战场上,谷歌拥有基础设施优势。"
谷歌的芯片制造历经逾十年的积累。这段历程始于一个实际问题:谷歌需要为语言翻译和语音识别服务提供算力支撑,但市面上可用的芯片和硬件根本无法在可承受的成本下实现这一目标。
TPU 背后的核心理念,据 Vahdat 描述,是 " 解决一小部分问题,但这些问题所需的计算量是巨大的 "。彼时的主流观点是不值得为此专门开发定制硬件,谷歌选择了逆势而为。
在这一阶段,谷歌的芯片研发与其 AI 模型工作始终保持着紧密的协同演进关系。2017 年那篇催生了当代大语言模型的里程碑式研究论文,推动 TPU 团队将重心转向服务于更大规模 AI 系统训练的芯片设计。
此后,谷歌 DeepMind 与芯片团队又注意到,TPU 在执行强化学习任务时存在大量闲置浪费,并据此调整了芯片之间的网络互联方式,以加快数据流转、避免算力空转。
这种内部反馈机制也带来了对 " 硬件级错误 " 更强的把控能力。
谷歌科学家、Gemini 基础设施团队联合负责人 Paul Barham 透露,当 AI 加速芯片在处理海量数学运算时,一个细微的故障都可能蔓延并导致模型 " 彻底崩溃 "。" 现在我们能在 10 秒内完成对数十万枚加速芯片的排查," 他说。
大客户接连入场,商业势能持续积聚
谷歌芯片业务的商业突破同样来得迅猛。去年 10 月,Anthropic 宣布扩大与谷歌的合作协议,将获取多达 100 万枚 TPU;随后谷歌发布的 Gemini 模型获得广泛好评,该模型正是基于 TPU 进行训练和运行。
此后,需求持续扩大。Meta 已签署一项价值数十亿美元、为期数年的 TPU 云服务协议。Meta 基础设施负责人 Santosh Janardhan 表示," 看起来在推理方面可能存在优势 ",但同时指出 " 新平台免不了有门槛和学习曲线 "。
对冲基金公司 Citadel Securities 计划在本次谷歌大会上分享其借助 TPU 实现比此前 GPU 方案更快模型训练速度的经验。
阿布扎比科技集团 G42 旗下云业务 Core42 的临时 CEO Talal Al Kaissi 表示,已与谷歌就 TPU 使用进行 " 多轮磋商 ",并对此持乐观态度。
软件生态的补强也在同步推进。谷歌已允许 TPU 客户使用 PyTorch 等外部工具及第三方调度软件,不再要求完全依赖谷歌自有产品;与此同时,谷歌还在测试允许 Anthropic 等合作方将部分 TPU 部署于自有数据中心而非谷歌设施。
英伟达的强势应战与市场格局的再平衡
面对谷歌的进逼,英伟达并非毫无回应。上月,英伟达推出了一款基于其收购自 Groq 的技术所开发的推理芯片。黄仁勋强调其芯片的多用途优势,表示能够完成 " 大量 TPU 无法胜任的应用 "。
谷歌自身在实际部署中也同时依赖 TPU 与 GPU 两种芯片。谷歌 DeepMind CEO Demis Hassabis 指出,顶尖 AI 实验室对 TPU 的兴趣尤为浓厚," 很多人希望同时在两种平台上运行 "。
谷歌的优势在于兼具十余年芯片设计经验、充裕资金以及对 AI 模型的第一手洞察。在顶级 AI 开发商中,谷歌是唯一一家大规模自研芯片的公司,这使其能够在硬件与模型团队之间形成高效的双向反馈。
Gimlet Labs 联合创始人 Natalie Serrino 表示,现有 TPU 已非常适合处理新兴 AI 智能体的工作负载," 对于正在爆发的这类任务来说,它们是很好的工具 "。
三年研发周期与 AI 快速迭代的深层矛盾
谷歌芯片的制约因素在于,芯片从研发到量产需要约三年时间,而 AI 模型的演进速度远超于此,这使得精准预判未来客户需求变得极为困难。
Barham 则对硬件与模型团队之间过于紧密的反馈循环表达了另一层担忧——这种循环可能导致团队只优化当前软硬件的契合度,而错失更具突破性的新思路。
为在两者之间寻求平衡,TPU 团队有时选择将芯片设计为 " 足够好 " 以应对多种使用场景,而非针对某一用途极致优化;另一种策略是并行推进两套不同设计方案,视具体需求决定最终落地。
Vahdat 的一段话或许最能概括谷歌在芯片战略上的长远考量:
" 只为谷歌生产 TPU 有其好处,但也有显著的弊端。最终你会困在一座我们所说的 ' 技术孤岛 ' 上。它或许是一座美丽的孤岛,但居民有限,多样性也有限,最终可能反而发展受阻。"
