关于ZAKER 合作
虎嗅APP 18小时前

英伟达的“狙击者”

出品|虎嗅科技组

作者|陈伊凡

编辑|苗正卿

头图|视觉中国

在 AI 芯片领域,英伟达凭借强大的训练芯片性能牢牢占据市场霸主地位,短期内难逢敌手。然而,随着 AI 推理市场的爆发式增长,这块利润惊人的 " 蛋糕 " 吸引了众多科技巨头与初创公司入局。

Rivos 是其中一个。8 月 13 日,这家位于美国加州的初创公司被曝正在寻求一笔 4 亿美元到 5 亿美元的融资。如果这笔融资敲定,那么 Rivos 自其 2021 年成立以来,融资总金额将超过 8.7 亿美元,也是迄今为止尚未大规模量产,却获得最大融资额的芯片初创公司之一。而这家芯片公司的背后投资者之一,是英特尔首席执行官陈立武。

这些初创公司和科技巨头,为何选择从推理侧狙击英伟达?它们又如何凭借差异化技术与成本优势撕开垄断缺口?

推理需求暴涨

在人工智能的世界里,训练与推理犹如驱动行业发展的双引擎,共同塑造着技术演进与市场竞争的格局。

训练,堪称 AI 系统的 " 启蒙教育 " 阶段。它如同培育一个懵懂孩童,通过海量数据投喂与高强度的算法训练,让 AI 模型从一无所知成长为能够应对复杂任务的 " 智能体 "。这一过程不仅成本高昂,往往需要强大的算力支撑与巨额资金投入。这个过程耗时漫长,一次完整的训练周期可能长达数月甚至数年。更关键的是,它具有明显的一次性特征,每一次训练都是全新的探索,难以复用。

而推理,则是 AI 技术的 " 实战应用 " 环节。当 AI 模型完成训练、积累了足够的知识后,推理便负责将这些知识转化为实际生产力,用于解决现实世界中的各类问题。

在生成式 AI 时代,技术架构迎来重大变革。以 Transformer 为代表的 AI 架构,让基础模型训练趋向稳定和固化。就像搭建好一座坚固的大厦,后续只需进行局部修缮与优化,无需频繁重建,极大降低了重复训练的成本。在这种情况下,推理成为持续创造价值的关键,如同永不停歇的生产线,不断调用模型能力,满足不同的场景和服务。

从商业视角看,训练阶段如同高风险的 " 资本赌局 "。巨额的研发投入与漫长的回报周期,使得只有少数科技巨头具备入场资格,且投入产出比充满不确定性。

而推理阶段则摇身一变,成为 AI 产业的 " 现金印钞机 "。广为人知的 AI 应用,无一不是通过向用户收取推理服务费实现盈利。

根据第三方机构 Verified Market Research 的数据,AI 推理芯片市场正在经历爆发式增长,2023 年市场规模为 158 亿美元,预计到 2030 年规模将达到 906 亿美元。

市场需求与商业收入在此形成良性循环,推理需求越旺盛,企业营收越高,进而吸引更多资源投入,推动技术迭代升级。这也不难理解,为何英伟达数据中心 40% 的收入都源自推理业务。

推理成本的大幅下降是市场增长的最主要驱动力之一,根据斯坦福大学 2025 年 AI 指数报告,在短短 18 个月内,AI 推理成本从每百万 token 20 美元暴跌至 0.07 美元,下降了 280 倍。硬件层面,企业 AI 硬件成本每年下降 30%,能源效率每年提高 40%。

算法优化技术如量化、稀疏化和蒸馏等显著降低了模型的计算复杂度和内存需求。有资深投资人就曾向虎嗅表示,现在有效的互联网数据存量已经被使用得差不多了,它的更新是有限的,最终的增长肯定是推理,推理是要把训练好的模型应用到不同的场景。再加上 MOE(专家混合模型架构)出现,对于新的信息,只需要局部训练。所以最终爆发的市场肯定是推理,推理是要把训练好的模型应用到不同的场景。

推理市场利润惊人、巨头争抢

摩根士丹利近期发布的一份深度报告,通过构建精细的财务模型,揭示 AI 推理工厂的惊人利润,将 AI 推理工厂的盈利密码层层解开。

以 100 兆瓦电力消耗为标尺,涵盖基建、硬件与运营的全成本核算显示,无论采用哪家巨头的芯片方案,AI 推理工厂的平均利润率竟普遍突破 50%。其中,英伟达 GB200 以 77.6% 的 " 恐怖 " 利润率笑傲群雄,尽管其搭载 72 颗 GB200 芯片和 NVL72 系统售价高达 300 万美元,但超高的利润回报,仍让科技巨头们 " 眼红 "。

" 生成式 AI 时代,只有英伟达赚到钱了。" 一位算法人士告诉虎嗅。

推理,是一份可以测算得出来的生意。当训练端已被英伟达铜墙铁壁牢牢稳住,推理,反而具备了突破英伟达的可能性。推理对生态和性能的要求没有训练苛刻,重点是性价比,也就是成本低,关键的是推理的暴利。

" 天下苦英伟达已久。" 主要来自对英伟达 CUDA 生态的依赖,但推理对于 CUDA 生态系统的依赖通常比训练小一些。原因是,部署灵活性,因为推理阶段可以使用更多样化的硬件和软件平台,包括 CPU、边缘设备、WebGPU 等,而不一定需要英伟达的 CUDA 环境,另外,训练过程需要大量的矩阵运算、梯度计算和反向传播,这些操作在 CUDA 上有高度优化的实现;而推理只需要前向传播,计算量相对较小。

因此,科技巨头选择在推理端逐渐渗透英伟达雄霸的市场。

比如说,根据 The Information 报道,为了减少对英伟达的依赖,AWS 向其客户推销租用自研推理芯片—— Trainium 提供支持的服务器,并提供了 25% 的折扣,这个服务器提供的计算能力与英伟达的 H100 芯片相当。

虎嗅从硅谷科技公司人士、AWS 的客户处获知,目前这款服务还没有在 AWS 的客户中广泛推广,主要是针对 Anthropic,2023 年亚马逊宣布向这家人工智能初创公司投资 40 亿美元并获得部分股权。Anthropic 发布 Claude 系列模型,使其跻身全球头部领先模型公司行列。

今年 6 月,OpenAI 也开始通过租用谷歌的 TPU,降低推理计算的成本以及在推理侧对英伟达的依赖。

尽管,业内人士表示这并不是一蹴而就的过程,甚至现阶段这个举动从外界看来只是 " 隔靴搔痒 ",生态依然是最大的问题,这涉及背后一整个软件栈的适配,但对于这些科技巨头而言,这确实不得不开始做的一件事——没人希望自己的钱都被英伟达挣了。

初创公司的 " 蚕食 "

在 AI 推理市场的利润盛宴中,科技巨头的博弈只是冰山一角,一众初创公司更是摩拳擦掌,试图分一杯羹。

随着人工智能推理迈入高级学习和决策阶段,对算力的需求呈现出多元化、精细化的特点,通用 GPU 的灵活性优势不再是唯一选择,新兴的芯片初创公司另辟蹊径,聚焦 AI 专用芯片(ASIC)的研发。相较于通用 GPU,ASIC 以更低的成本实现高效运算,尽管应用场景相对单一,但其在特定推理任务中的卓越性能,成为初创公司撬动市场的支点。

在这场初创势力的突围战中,Rivos 无疑是备受瞩目的 " 黑马 "。从戴尔、台积电到英特尔、联发科,众多行业巨头纷纷为其注资。据 The Information 援引知情人士的话,Rivos 正在开发软件,该软件可以将英伟达的 CUDA 软件代码,翻译成在 Rivos 的语言,在其芯片上高效运转。这意味着其芯片可无缝承接英伟达生态的软件资源,极大降低用户迁移成本。

除了 Rivos,另一家英伟达的挑战者 Groq 也在筹集资金。

虎嗅根据公开信息以及 The Information 上公布的人工智能芯片初创公司的名单,25 家英伟达的挑战者,一共从投资者那里筹集了超过 70 亿美元的资金,总估值达到 290 亿美元。

初创芯片公司 Groq 由前谷歌 TPU 团队成员成立,开发了独特的语言处理单元 ( Language Processing Unit ) 架构,这是其最大的技术差异化优势,专门针对 AI 推理任务进行了优化,号称能提供 " 世界最快推理 " 性能。Groq 提供了远低于传统 GPU 的 token 处理成本的解决方案,这使其在推理市场具有明显的经济优势。如今,Groq 已从贝莱德、思科、三星等处累计筹集超过 10 亿美元,并与沙特阿拉伯达成了价值 15 亿美元的芯片合作协议,在英伟达渗透率还不算高的中东市场开始拓展自己的芯片生意。

Groq 的 CEO 在一次播客采访中也表示,英伟达可以制造他们原本要制造的每一个 GPU,并将其用于高利润的训练业务,而他们则可以接手低利润但高体量的推理业务。

还有的地方是英伟达的视线尚未看到的微小角落——比如一些边缘侧,小型分散的推理需求正悄然爆发。例如从智能家居设备到智能穿戴产品,AI 智能硬件的广泛应用催生海量边缘推理场景。

此外,一些新型算法架构以及与之相结合所开发的芯片正在诞生。在过去几年里,英伟达是 " 算力越大越好 "(Scaling Law)叙事下,最大的受益者,其依靠这套暴力美学,兜售其 GPU。

只是 Scaling Law 到底是不是真正通往通用人工智能的道路?并没有定论,起码 Meta 首席人工智能科学家杨立昆 ( Yann LeCun ) ,并不这么认为," 我们不能使用像 ChatGPT 或 GPT4 这样的技术来训练机器人清理桌子或者填满洗碗机,即使这对一个孩子来说是一件微不足道的任务,我们还是做不到。"

对于在生成式 AI 时代处于绝对垄断地位的英伟达而言,GPU 的 " 越多算力越好 " 的故事还能说多久,不好说,科技界永远在上演颠覆与被颠覆的故事。

相关阅读

最新评论

没有更多评论了