关于ZAKER 合作
钛媒体 23小时前

大模型厂商,是时候告别 Token 狂欢了

文 | 伯虎财经(bohuFN),作者 | 楷楷

" 低价卖 Token 并对第三方开放,看起来很友好,但那是一个陷阱。"

近日,小米集团 MiMo 负责人罗福莉在 X 平台发文,将 Token 价格战比喻为 " 陷阱 ",提醒大模型公司不应该盲目参与价格战。

几天之前,Anthropic 突然宣布切断第三方工具对 Claude 订阅的访问权限,这也是罗福莉发文讨论 Token 定价逻辑的契机。

在这场全民 " 养龙虾 " 的 Token 狂欢中,罗福莉的公开信和 Anthropic 的 " 封杀令 ",成为行业中罕见的 " 不同声音 ",给这股热潮泼下了冷水。

但问题是,大模型厂商当真算不清这笔成本账?还是说,这只是行业一场心照不宣的博弈,用狂烧的 Token 换取一张通往未来的入场券,赌的是 AGI 的未来。

如果是这样的话,谁还能叫醒一个正在装睡的人。

01 Anthropic 撑不住了

几天前,Anthropic 向所有用户发送邮件,宣布自当地时间 4 月 4 日下午 3 点起,Claude Pro 和 Max 订阅将不再覆盖 OpenClaw 等第三方工具的使用。

事出突然,Anthropic 给用户送了一笔一次性补贴,金额刚好等于一个月订阅费。但相较于从前花 200 美元月费就能无限量调用 Claude 的好日子,这笔补贴显然只是杯水车薪。

消息一出,社交媒体瞬间炸锅,用户们破口大骂,铺天盖地都是 " 过河拆桥 " 的论调,因为 OpenClaw 创始人彼得 · 斯坦伯格跟 Anthropic 的恩怨早已有之。

OpenClaw 最初上线时命名为 Clawdbot,由于名字跟 Anthropic 旗下的 Claude 高度相似,被 Anthropic 一份律师函要求改名,梁子算是结下了。

更重要的是,在 OpenClaw 验证了市场对开源智能体的需求后,Anthropic 随即推出了 Claude Cowork,除了安全考量之外,这也被认为是想用自家产品取代 OpenClaw。

但这些都不足以解释 " 封杀令 " 的全部,真正让 Anthropic 下决心动刀的,是成本问题。

Anthropic 在用户信中提到," 第三方工具对系统造成了过大的压力,我们必须优先保障使用我们核心产品的用户体验。"

外媒称明星独角兽 Cursor 曾在去年进行估算,发现每月 200 美元的 Claude Code 订阅可能消耗高达 2000 美元的计算资源,说明 Anthropic 一直在进行巨额补贴;也有其他分析师指出,Anthropic 订阅制实际消耗的算力成本或高达 5000 美元。

这意味着,大模型曾经的订阅收费模式,在 Agent 时代恐怕难以跑通。

一方面,在 Agent 模式下,Token 使用量正以几何级增长速度膨胀。

当大模型还停留在对话层面时,单轮对话大约消耗 1000-3000 个 Token,平台只要统计出一个代表大部分用户的用量均值,就可以跑通订阅制。

但在 Agent 场景中,一个用户背后可能同时跑着 10 个甚至 100 个 Agent,每个 Agent 都在

7 × 24 小时地执行任务,每次任务都会触发多次模型推理,随着交互次数不断增多,就形成了 " 滚雪球式 " 的 Token 消耗,靠 " 少用 " 补贴 " 多用 " 的订阅制也就失去了平衡。

作为参考,一个普通 ChatGPT 用户即使天天聊天,月消耗也不过百万级;而一个重度 " 养虾 " 用户,日均消耗 Token 则在 3000 万 -1 亿之间。

但另一方面,大模型企业的成本并没有随着用量暴增而自然下降,反而越走越高。

斯坦福大学的《2025 年人工智能指数报告》指出,在高效小模型的驱动下,GPT-3.5 级别的模型推理成本已在过去两年间下降到了原来的 1/280,硬件成本每年下降 30%。

只是,推理成本虽然下降了,但训练成本却依然惊人。更重要的是,全球算力依然处于紧缺阶段,越多用户扎堆使用 Agent,越推高了企业的运营成本。

以 OpenAI 为例,其对投资者表示,预计到 2028 年算力支出将达到 1210 亿美元,届时亏损可能会达到 850 亿美元,或将超越已有上市公司的亏损记录。

虽然 Anthropic 的训练成本没那么高,约为 OpenAI 的 40% 左右,但当下也依然处于烧钱状态,其自然不想再被第三方工具白薅羊毛。

(图:OpenAI 与 Anthropic 训练成本对比)

02 卷 Token 价格是陷阱

Anthropic 撑不住了,国产大模型企业又如何呢?

罗福莉可能是最能共鸣 Anthropic 的同行,她在社交平台发文,称 Claude Code 大概率不赚钱,甚至可能在亏损,因为 Claude Code 的定价逻辑要成立,前提是用户必须用 Anthropic 自己的框架,否则就会出问题。

她以 OpenClaw 作为案例,指出接入第三方框架可能带来的问题:

" 我观察过 OpenClaw 的上下文管理,很糟糕。在单次用户查询里,它会触发多轮低价值工具调用,每次都是携带长上下文的独立 API 请求,往往超过 10 万 Token。"

简单来说,同一件事,OpenClaw 会比 Claude Code 原生框架多跑几遍,实际成本会达到订阅价格的数十倍。在成本结构上,即便是使用 OpenClaw 的轻度用户,也等同于重度用户。

因此,低价售卖 Token 并对第三方开放看似对用户友好,实则是陷阱。企业为了控制成本,只能降低算力或用更便宜的低智模型;用户在低智模型上反复碰壁,使用体验也并不好。

可是,罗福莉这番发言却是国内大模型行业中 " 少数的声音 "。至少在当下,大部分大厂及大模型企业还是将 Token 吞吐量视为衡量实力的重要指标。

全球大模型聚合路由平台 OpenRouter 数据显示,中国大模型的单周调用量已连续一个月超过海外模型,调用量位于前列的都是国产模型,比如小米、阶跃星辰、Minimax 等。

全球科技大厂也在推波助澜,比如鼓励员工多使用 AI 工具,Meta 甚至列出了 Token 消耗量排行榜,这已成为科技大厂的隐性 KPI。

因此,Token 之所以贵,不仅仅在于居高不下的成本,更因为这是一场暂时还看不到尽头的消耗战,当所有人都在拼命消耗更多 Token,算力便永远追不上被制造出来的需求。

况且,比起 Token 消耗到底是不是虚假繁荣这个问题,大模型企业,更难抵御的是真金白银的诱惑——在短短 3 个月里,Anthropic 的年化收入便从 90 亿美元飙升至 300 亿美元。

卷 Token 价格或许是 " 陷阱 ",但在全球大模型厂商 " 你追我赶 " 之际,谁都不愿意先踩下 " 刹车 "。

对于阿里、字节、腾讯等一线科技公司而言,大家围绕 AI 超级入口争夺已久,但还是无法摆脱 " 烧钱换流量 " 的互联网打法,发红包、增投流能激活 DAU,可一旦没有了 " 钞能力 ",用户也会快速流失。

" 龙虾 " 则成为了新的契机。用户完成部署后,就相当于将自己的 " 智能体助手 " 嵌入了某个云平台,不仅会产生源源不断的 Token 消耗,个人数据也会沉淀在生态体系内,迁移成本将变得越来越高,大厂自然不会放过这个新的 " 生态入口 "。

对于 Kimi、智谱等二线厂商而言," 龙虾 " 的出现带动了算力需求,让它们的模型能够被调用起来,API 增长也有故事可讲,这足以驱动它们更卖力地销售 API。

从逻辑上来讲,罗福莉对于 Token 的评价是对的," 价格内卷 " 不可能一直持续。但对于因为 " 龙虾 " 而跑通增长叙事的大模型厂商而言,大家或许还想再 " 装睡 " 一会儿。

03 效率比价格更重要

谁也无法叫醒一个装睡的人,但现实或许可以——越来越高的 Token 消耗量并没有带来相应的利润增长,这也是大模型企业无法回避的问题。

以全面对标 Anthropic 的智谱为例,其在 2025 年交出了一份 " 高增长、高亏损 " 的成绩单:全年总收入 7.24 亿元,同比大增 131.9%;全年亏损 47.18 亿元,同比扩大 59.5%。

智谱创始人张鹏曾表示,智谱要成为 Anthropic 的平替,甚至开玩笑称 Anthropic 卖 200 美元,我们就卖 200 元人民币。今年 3 月,智谱发布了一键安装的 AutoClaw,个人版 39 元 / 月 /3500 万 Tokens,99 元 / 月 /1 亿 Tokens,门槛确实不高。

但背后的账单也非常沉重。2025 年,智谱的研发开支为 31.8 亿元,同比增长 44.9%;没有基础设施的智谱,还需要给第三方算力供应商支付高额的采购费,从 2022 年的 1463 万元飙升至 2025 年上半年的 11.45 亿元。

面对无法绕开两大刚性支出——研发投入与算力成本,进入 2026 年以来,国内外云厂商陆续对 AI 算力、存储等相关产品进行调价,但国内模型相较于海外模型而言,依然便宜。

根据民银证券 2025 年 12 月发布的研报,国内大模型 API 平均价格约为 3.88 元 / 百万 Tokens,而海外模型约为 20.46 元 / 百万 Tokens,是国内模型 API 价格的 5 倍以上。

价格优势带来了规模需求,在这一背景下,国内大模型厂商恐怕暂时还不会摆脱价格战。但在 Token 消耗大于供给的当下,逐渐收紧免费额度和补贴也是大势所趋。

罗福莉提到,大模型行业的出路不是更便宜的 Token,而是 " 更高 token 效率的 Agent 框架 " 叠加 " 更强大高效的模型 ",Agent 时代不属于烧算力最多的人,而是用算力最聪明的人。

这将推动大模型厂商往两个方向发展:

一方面,从 " 算力规模 " 转向 " 工程效率 " 的竞争,单纯卖 API 的企业将面临越来越近的天花板,要将模型层跟智能硬件、应用产品等深度结合起来,才能为商业模式注入更多可能性。

另一方面,推动 Token 收费的分层定价。当下,主流大模型的计费方式基本上涵盖了订阅制、按量计费以及 Token Plan 套餐,即超额后再按量付费。

长远来看,Token 定价除了简单地 " 按量分层 ",还可以按推理能力、任务数量等维度推出更精细化的付费体系,既能让平台缓解算力峰值的压力,也能进一步增加收入。

比如 DeepSeek 悄悄上线了 " 快速模式 " 和 " 专家模式 " 两个入口,被认为是分成模式的一种全新探索;火山引擎谭待表示,未来可能会孵化出垂直领域的智能体,按回答问题的数量收费。

当下,Token 狂欢或许还会持续一段时间,但对整个大模型来说,Token 成本已经成为每一个企业和用户都无法忽视的成本因素。

说到底,大模型从来不是一门纯粹的技术生意,而是一场关于效率与价值的博弈。大模型企业想做长久的生意,自然也要学会算账,只有脚踏实地,才能更好仰望星空。

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容