关于ZAKER 合作
钛媒体 26分钟前

走出 ICU 的“ AI 三小龙”,究竟做对了什么?

文 | 最话 FunTalk,作者 | 林书,编辑 / 刘宇翔

Anthropic 终于忍不住 " 龙虾打洞 " 了。

美国时间 4 月 4 日 15:00(北京时间 4 月 5 日 03:00),Anthropic 旗下 Claude Code 负责人 Boris Cherny 宣布 Claude 订阅(Pro/Max)不再覆盖 OpenClaw 等第三方平台,用户只能使用额外套餐或 Claude API 密钥使用这些工具。

这意味着企业、初创团队、开发者都无法再利用 OpenClaw 去近乎无限量套利 Claude 订阅服务,被迫转入更为昂贵的按量计费模式。

简而言之就是,基于人类使用习惯模式的 Anthropic 的订阅服务,被 OpenClaw 变成了 7 × 24 小时自动运行的算力消耗,给系统带来了 "disproportionate stress"(不成比例的压力),收入与成本倒挂。Anthropic 的商业模式被挖得千疮百孔,不堪重负。

此外,Anthropic 还有一点不能忍的是,OpenClaw 迟早会将 Anthropic" 供应商化 "。

OpenClaw 最新版更新支持多模型自动 / 手动切换,从之前的 Claude 单点依赖(此前 60% 会话跑在 Claude 上)转向 " 模型池 "(model pool)架构,用户可以在 Claude、GPT-5.4、Gemini 以及中国国产模型(如智谱、MiniMax)之间自由切换,不再锁定单一供应商。

表面上看,这次更新是对 Anthropic 和 Google 的封禁的回应,通过多模型冗余确保服务连续性,避免过于依赖单一模型,受制于模型厂商的政策变动。但其实,即使没有这次 Anthropic 的封禁,加入 Open AI 后,OpenClaw 创始人 Peter Steinberger 也迟早会采取 " 模型池 " 模式。

因为一旦习惯使用 OpenClaw 后,用户就在不知不觉中不会再在意用的是哪家的模型,更在意结果,OpenClaw 成了 AI 超级入口,而模型厂商则成了 OpenClaw 背后的 " 供应商 "。

显然,这对于有着长远目标的 Anthropic 来说,是没法接受的,与其坐以待毙,不如主动重拳出击。

对于智谱、MiniMax 等中国国产模型来说,Anthropic" 封杀 "OpenClaw,以及 OpenClaw 的多模型切换功能,却是一个重大机会。当 Claude API 成本过高时,开发者可能会切换配置到智谱、MiniMax ,甚至不排除当作为主力模型使用,以规避订阅转 API 的高昂成本。

毕竟,智谱、MiniMax 的 Token 价格相对于 Anthropic 的,要便宜得多。

但 Token 便宜,并不是它们最大的优势。

01 三强的崛起

2026 年 4 月 1 日,智谱发布上市后的第一份年报,CEO 张鹏在业绩会上反复强调了两个字:Token 量。

这背后是一系列亮眼的表现:智谱 2025 年全年营收 7.24 亿元,同比增长 132%,是国内收入最大的独立大模型公司;MaaS 开放平台的年度经常性收入(ARR)达到 17 亿元,12 个月暴涨 60 倍;API 价格上调 83% 之后,调用量反而继续攀升。

张鹏把这种罕见的 " 涨价放量 " 归结为一个公式:AGI 商业价值 = 智能上界 × Token 消耗规模。

模型的智能上限,决定你敢不敢涨价;Token 消耗规模,决定涨价之后有没有人买单。智谱两个都做到了。

月之暗面的故事更具戏剧性。2026 年 1 月 27 日,Kimi K2.5 发布,仅仅一个月后,ARR 突破 1 亿美元,20 天的收入超过 2025 年全年。3 月中旬,公司完成新一轮融资,估值从 43 亿美元飙升至 180 亿美元——三个月翻了四倍。

更耐人寻味的是,Kimi 的海外收入已经反超国内,海外 API 收入增长 4 倍,而杨植麟站上了英伟达 GTC 大会的演讲台,成为该会议上唯一一位中国大模型创始人,这无疑成了 Kimi 的高光时刻。

同样地,MiniMax 则用另一种方式证明了自己的存在感。2025 年全年收入 7904 万美元,同比增长 159%。但真正让行业侧目的,是 2026 年前两个月 M2 系列的 API 调用量——达到去年 12 月的六倍,其中来自 " 龙虾 "OpenClaw 编程场景的 Token 消耗增长超过 10 倍。M2.5 模型在 SWE-Bench 上拿到 80.2% 的得分,与 Anthropic 的 Claude Opus 4.6 几乎持平,而价格仅为后者的十分之一。

如果把时钟拨回两年前,这三家公司正挤在同一间 "ICU" 里。2024 年下半年,"AI 六小龙 " 集体陷入困境,融资收紧、商业化遥遥无期、大厂环伺、" 六小龙不如一条虫 " 的嘲讽不绝于耳。彼时的 DeepSeek 刚刚凭借 V3 和 R1 震惊世界,风头一时无两,相比之下,智谱、Kimi 和 MiniMax 更像是被大时代抛在身后的配角。

可短短一年之后,剧本完全翻转。

这种翻转归功于 " 龙虾 " 热潮—— 2026 年春节前后,OpenClaw 作为开源 AI Agent 框架引爆了全球开发者社区,全球 AI Token 消耗从每周 5.6 万亿暴增到 14.8 万亿,三强恰好成了最大的 " 饲料供应商 "。

与传统单次对话不同,OpenClaw 执行一个任务往往需要数十轮 API 调用,Token 消耗成倍放大,这就意味着使用费用也急剧提高。Token 货币化的结果就是,用户迫切寻找更便宜的模型。而在 OpenRouter 平台上,MiniMax 和智谱的收费仅为海外竞品如 Claude Opus 的 1/16(输入 100 万 Token 约 0.3 vs 5),这吸引了大量海外开发者。

所以自今年 2 月起,OpenClaw 热潮推动下,全球最大 API 聚合平台 OpenRouter 上中国模型调用量三周大涨 127%,首次超越美国模型(5.16 万亿 vs 2.7 万亿 Token),其中 2026 年 Q1 智谱的 API 调用量增长 400%,就部分归因于 OpenClaw 生态的放量。而 MiniMax M2.5 在 OpenRouter 平台上曾连续两周蝉联全球调用量榜首,周调用量达 1.63 万亿 Token。

但仅仅把智谱、MiniMax 的翻盘全归因于 OpenClaw 也并不公允,智谱和 MiniMax 的增长还得益于模型能力突破,智谱 GLM-5 在多项基准测试中登顶开源模型榜首,Coding 和 Agent 能力突出;MiniMax M2 专为编码与智能体任务优化,也契合了 Agent 工作流需求。

旺盛的需求和模型能力提高,使得它们在一定程度上拥有了再定价权,今年 3 月智谱将 API 价格上调 83%,但调用量依然供不应求增长 400%,就说明了这点。

但同样面对龙虾的风口,六小龙中的另外几条龙,表现又怎样?

零一万物已经放弃了通用大模型,宣布不再做单一大模型,而是采用模型开放策略,转型做企业级部署服务,核心技术团队在 DeepSeek 冲击后分崩离析。百川智能的创始人王小川经历了他所谓的 " 至暗时刻 " ——业务线收缩、高管离职、目标摇摆,最终押注 AI 医疗这个垂直赛道,基本退出了通用大模型的竞争。

同一个风口,有人飞升,有人坠落。差距出在哪?

答案藏在一个更深层的逻辑里:龙虾的风口不是谁都能追,它考的是你的底模够不够强、工具链够不够深、开发者生态够不够厚。

而六小龙中的三强,恰恰是在龙虾来临之前,就已经在这三个维度上默默积累了足够的势能。

问题是:为什么偏偏是他们?

02 范式的转变

要回答这个问题,必须先理解一件在 2024 年底悄然发生、却深刻改变了整个行业走向的事—— Ilya Sutskever 在 NeurIPS 2024 上的那场演讲。

这位 OpenAI 的联合创始人、被尊为 "AI 宗师 " 的人物,在那场罕见的公开露面中说了一句话:我们所知道的预训练,将毫无疑问地终结,我们已经触及了数据的顶峰,不会再有更多了。

这句话在业界引发了一场深刻的路线分裂。

一派认为 Scaling Law 没有撞墙,只是需要 Scaling 的对象变了——从互联网原始数据转向合成数据、推理轨迹、以及推理时的计算量。另一派则认为 Transformer 架构本身已触及天花板,大模型需要一场从底层数学结构开始的架构革命。

对此,六小龙中的三强给出了自己的答案:都不选。或者说,两个都选。

这就是所谓的 " 第三条路 " ——不是纯粹地继续堆数据、堆算力(老路已经走到头了),也不是推倒重来搞一个全新架构(风险太大、周期太长),而是用架构层面的精准创新,去撬动新形式的 Scaling。

Kimi 从大模型底层三大模块——优化器、注意力机制、残差连接同时突破。

其 MuonClip 优化器引入二阶梯度信息,通过牛顿 - 舒尔茨迭代和 QK-Clip 机制解决 "Logits 爆炸 " 问题,实现同等算力下更高模型质量或同等质量下大幅降低算力需求,提升 Scaling 效率。

Attention Residuals 论文获马斯克点赞,因为其用 softmax 注意力实现 " 选择性回忆 ",使 48B 模型达到 60B 效果。

MiniMax 路径不同但信仰一致:创始人闫俊杰坚信 Scaling Law 及模态等价性,这构成其技术战略的第一性原理。

MiniMax 在各模态独立验证 Scaling 规律:语言模型侧将线性注意力推进至工业级,使百万长文本算力消耗降至传统方案几百分之一;多模态侧发现 Visual Tokenizer 的 Scaling Law,解决视频生成投入产出问题,获得结构性效率优势。

作为这一策略的错过,M2.5 的 230B 总参数仅激活 10B 推理,SWE-Bench 得分 80.2%,价格为 Claude Opus 4.6 的十分之一,这源于 MoE 架构与推理优化带来的成本优势。

智谱走的路子,表面上是涨价后不跌反升的 " 飞轮验证 ",2026 年一季度价格涨了 83%,Token 调用量却增长 400%。但真正的秘密在于三个维度的同时强化,形成了一个 " 多角形飞轮 ",很难被竞争对手同时追赶。

在模型方面,GLM-5 在编程、长文本、多模态上的突破,让它成了 Agent 开发者的必选项。与此同时,智谱完成了与华为昇腾、摩尔线程等七大国产芯片的算子级优化,让部署成本直接降低 50%。这意味着国产芯片选择智谱,从可选变成了必须,转换成本有形化了。

而在数据闭环上,智谱不像大厂的数据分散在各处,开发者用 GLM 完成一个 Agent 任务,推理轨迹、纠错过程全部被记录,这种 " 真实任务数据 " 的价值,远高于互联网爬虫或合成数据。模型越强,用户越多,飞轮就这样转起来了。

三家公司的路径各有不同,但有一个共同的底层逻辑:" 第三条路 " 带来的不仅仅是极致的性价比,而是在 Token 消耗量爆炸式增长后,仍然能维持任务质量的稳定。

龙虾场景下,一个稍复杂的编程任务平均消耗 350 万 Token ——是普通对话的数百倍。在这种级别的负载下,模型的推理稳定性、长上下文下的性能衰减控制、以及端到端的延迟管理,才是开发者选择谁的真正标准。

换句话说,便宜只是入场券,稳定才是留下来的理由。

03 DeepSeek 最大的挑战

如果三强的崛起,代表了 " 第三条路 " 的胜利,那么另一个更尖锐的问题是:为什么与三强同为大模型企业出身的 DeepSeek,没有率先实现这样的突破?

坦白说,DeepSeek 在大模型 1.0 时代创造的成就,至今仍令人敬佩。

V3 和 R1 以极低的训练成本实现了 SOTA 级别的性能,MLA(多头潜在注意力)和混合专家架构的组合,在当时堪称惊艳。梁文锋以极致的、勇猛的工程学思维,把每一块 GPU 的性价比压榨到了极致——这种 " 力出一孔 " 的能力,正是大模型 1.0 时代最重要的竞争力。

但 1.0 时代的竞争逻辑,和 2.0 时代有根本的不同。

到了 2.0 时代,问题变了。当 Ilya 宣告 " 我们所知道的预训练将要终结 " 之后,行业面临的不再是 " 怎么把模型做得更大 ",而是 " 下一步往哪走?"

是继续 Scaling 别的东西,还是彻底换架构?这是一个充满不确定性的岔路口。

在这个岔路口上,DeepSeek(以下简称 DS)遇到了两个结构性的困难。

第一个困难来自商业化的缺失,导致其无法持续地 Scaling。

DS 至今没有系统性的商业化运营,其 API 虽然被大量使用,但因为 DS 是开源的,因此大量企业把 DS 权重下载下来,私有化部署在自己的服务器上,这部分用户的数据完全在企业内网里,DS 的母体一个字也收不到,同时还有大量开发者通过阿里云、腾讯云、百度云等第三方平台调用 DS,数据留在了云厂商那里。

更关键的地方在于:DS 免费或超低价的 API 定价,难以支撑数据工程的运转成本,这意味着 DS 用户越多越亏,用户翻倍,亏损也翻倍,这使其无法像三强那样,在龙虾实战中不断迭代。

第二个困难更加微妙,也是制约 DS 架构创新的瓶颈。

DeepSeek 的团队至今不到 140 人,平均年龄只有 28 岁,成员几乎清一色来自国内顶尖高校的应届毕业生和在读博士生。这个选择并非无意为之,梁文锋曾公开表达过他的人才哲学:" 经验并不意味着能力,反而可能限制创新。"

但这里有一个隐患,在 2.0 时代的架构创新需求下,架构层面的真正突破,往往需要的不只是聪明的年轻人,还需要见过不同范式的人之间的知识碰撞。

杨植麟在 Google Brain 见过 Transformer 如何从论文变成工业级系统;智谱创始人唐杰的团队,不仅有着扎根清华的学术背景,也带领 KEG 实验室深耕了近二十年,发表了超过 500 篇顶尖论文。

这种 " 多层代际、多种背景 " 的知识密度,才使得架构革命与创新成为了可能。

从唯物主义的角度上说,技术创新的必要条件,不是只是天才的 " 灵光一闪 ",更需要看知识、人才的密度、多样性是否达到了一定的阈值和丰度。

说到底,DS 的问题不是 " 技术不够强 ",而是它不能再用大模型 1.0 的思维打 2.0 的仗。

很多人都喜欢把训练大模型叫做 " 炼丹 ",这不是段子,而是一种精准的隐喻。

大模型训练的本质,就是把海量数据(原料)投入神经网络(炉子),经过漫长的参数调整(火候),最终期待涌现出一种难以预测的 " 智能 "。你事先并不完全知道产出会是什么——调一下学习率,改一下 Batch Size,模型的表现就可能陡然提升,这种高度依赖经验与直觉的摸索过程,和古人在丹炉前的反复试探如出一辙。

1.0 时代更讲究 " 炼丹师 " 的个人洞见,一个天才型的创始人,带着一小群精英,在丹炉前反复实验,直到炼出惊世骇俗的成果。这在很长一段时间里是有效的。

但 2.0 时代需要的,更可能是 " 制药厂 " 式的体系化创新。

什么叫制药厂?它不依赖任何一个药剂师的灵感,而是靠可复制的研发流程、可量化的质量标准、和持续不断的临床反馈来稳定地产出新药。

在大模型 2.0 时代,持续的体系化创新能力,比任何一次单点技术突破都重要得多。谁能把 " 创新 " 从个人英雄主义变成组织级的稳定产出,谁就能在这个充满不确定性的时代里掌握主动权。

以 Kimi 为例,3 月 16 日,Kimi 发布 Attention Residuals 论文,被马斯克点赞,之后 Reddit 上已有开发者在复现。这背后反映的,实际上是其一种系统化、团队化的知识积累体系。

绝大多数公司,从论文到产品的路径是:核心论文→模型训练→产品发布→用户反馈→下一个核心论文。但 Kimi 打破了这个模式,Kimi 3 月 16 日论文发表后,从论文 idea 到学术发表到产品实现到开源代码,只用了不到 3 天的迭代周期。

这说明,Kimi 把论文看作一个可视化的思想工具,用来快速获得全球反馈的中间产品,而非要等到论文或产品完美后,再等待反馈。

论文的作者组成,还暴露了一个秘密:Guangyu Chen(陈广宇)和其他作者加起来,一共 35 人,其中还有一位 17 岁的高中生,这在大模型论文里很罕见。

通常情况下,即使是 OpenAI、DeepSeek 发表的论文,作者也大多只有十几到 20 位。

这说明 Kimi 的文不是 " 精英研究团队的产物 ",而是 " 整个公司在这个方向上的集体知识总结 "。

三强之所以能走出 ICU,不是因为它们拥有比 DeepSeek 更聪明的工程师,而是因为其建立了一种更快的迭代速度、更密集的知识流转、更体系化的创新机制。

大模型 1.0 时代属于炼丹师,那是一个凭借个人洞见和技术魄力就能改变格局的英雄时代。但 2.0 时代,属于制药厂,属于那些把创新变成流水线、把突破变成日常、把个人能力沉淀为组织能力的企业。

六小龙中的三强,正在做同样的事。

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容