文 | 新立场 Pro
今天,OpenAI 发布 GPT-5.5,DeepSeekV4 预览版亮相并开源。
OpenAI 发布 GPT-5.5,官方公告的第一句话是:我们最智能的模型。在所有能力维度里,OpenAI 选择重点强调 Agentic Coding:在测试复杂命令行工作流的 Terminal-Bench 2.0 上达到 82.7%,在测试真实 GitHub 问题解决能力的 SWE-Bench Pro 上达到 58.6%。

巧合背后,是 AI 行业用一年的时间,完成了从 " 什么都做 " 到 " 重点做 Coding" 的路径收窄。大多数对这场竞赛的分析,停留在 " 编程市场大 "" 开发者付费意愿强 " 这类表层叙述,但这不足以解释为什么 OpenAI 与 DeepSeek 会在同一天用 Agentic Coding 来定义各自的旗舰产品。
《新立场》认为,Coding 之所以能成为共识赛道,是因为 Agent 的本质就是代码理解、代码生成和程序综合。一个在代码任务上表现优秀的模型,天然具备了分解复杂任务、调用工具、处理异常的推理能力,而这些能力在非编程的 Agent 场景里同样是核心要素。
在 Coding 赛道上建立的技术优势,会自动转化为在整个 Agent 生态中的优势。这个技术前提,也解释了为什么商业模式层面的矛盾会在这个时间节点集中引爆。Coding Plan 最初是为 Chatbot 时代的使用强度设计的,而 Agent 时代的调用模式让这套定价逻辑从根本上失效。
3 月 23 日,MiniMax 率先宣布将自己的 Coding Plan 升级为 Token Plan,此后,阿里云 Coding Plan 入口从百炼平台消失;智谱的无周限额老套餐宣告停止续订;GitHub 宣布暂停 Copilot Pro 系列计划的新用户注册并从 Pro 中移除 Claude Opus。

从 Coding Plan 到 Token Plan 的切换,表面上是从补贴换用户到按量收费,实质上是整个行业从 " 烧钱抢入口 " 进入 " 建立可持续商业模型 " 的转变。对云厂商而言,这是回到自己最熟悉的生意;对整个行业而言,这一轮 AI Coding 竞争在商业模式层面完成了自己的第一次洗牌。
Coding 为何成为 Agent 时代的制高点
视频生成曾被视为 AI 最具想象力的应用方向,但算力最终没有为想象力买单。3 月,OpenAI 宣布关停 Sora,终止了与迪士尼价值 10 亿美元的战略合作。同一时期,谷歌联合创始人谢尔盖 · 布林紧急组建了一支专门针对 AI Coding 的内部突击队,要求团队 " 必须果断转向 "。
据 The Information 披露,这支队伍的成员名单里甚至包括 DeepMind CTO,目标只有一个,那就是夺回 AI Coding 的制高点。4 月 21 日,马斯克的 SpaceX 宣布以 600 亿美元收购 Cursor。
互联网时代的价值创造逻辑是流量、转化率、ARPU,终点是广告费或订阅费,天花板是用户总时长和广告预算。Agent 时代的逻辑截然不同,任务价值、完成率、take rate,终点是替代的人力成本,天花板是全球白领工资总额。两套逻辑之间的差距,直接驱动资源向 Coding 集中。
Coding 是极少数同时满足 " 高频 " 和 " 高复杂度 " 两个条件的应用场景。大多数 AI 产品面临的现实是,用户用一次觉得新鲜,但不会每天用,场景频率决定了粘性上限。编程不同。职业 Coder 每天在 IDE 里工作八小时,调试、重构、文档、代码审查,每一个环节都是潜在的 AI 介入点,调用频率天然极高。
此外,代码的价值可以被精确衡量。一段代码跑通了还是没跑通,功能实现了还是没实现,这些是二进制的结果,没有 " 差不多 " 的模糊地带。这意味着开发者愿意为 AI 编程工具支付远高于其他 AI 产品的价格,因为它替代的是可量化的工时成本,ROI 计算对企业来说直接且透明。
正如百度秒哒产品总经理朱广翔去年曾讲到的,Chatbot 的价值在于回答和交流,而 Coding 直接生成最终的应用和方案,与研、产、供、销、服全部相关," 是生产力环节,能创造新的需求价值和需求空间,所以空间更大 "。
不过,在《新立场》看来,AI Coding 的战略价值在于 Coding 赛道上建立的技术优势,会自动在整个 Agent 生态中产生乘数效应。一个 Agent 在执行复杂任务时,实质上是在持续调度和生成代码,无论是调用工具 API、处理文件系统、协调并行子任务,还是验证结果和处理异常,这些操作的底层都是代码理解与代码生成。
《晚点 latepost》曾报道,字节在引进郭达雅时的内部定位,正是把他放在 Agent 和 Coding 能力的组织整合核心位置,而非只是一个 Coding 模型的技术负责人。
而这轮 "Coding 热 " 的始作俑者 Anthropic,让这个判断从理论变成了可以被资本定价的事实。Claude Code 去年 5 月才正式上线,到 2026 年 2 月 ARR 已达 25 亿美元,增速超过了 Salesforce 和 Slack 的早期阶段,也在不到一年内超越了 Cursor 花两年多才达到的收入规模。

更有说服力的是公司层面的对比:2025 年底,Anthropic 全年收入 90 亿美元,OpenAI 已经 214 亿美元,差距超过一倍。但仅仅四个月后,Anthropic 的 ARR 暴涨到 300 亿美元,超过 OpenAI 在 2 月份披露的 250 亿 ARR。
在国内,这个认知的扩散经历了一个明显的时间差。一批大模型创业公司比大厂更早、更灵敏地做出了押注。Claude Code 诞生两个月后,Kimi K2 发布并开源,把 Coding 加 Agent 立为模型主轴,智谱同样如此。
到 2026 年初,这批早行者的先发优势开始显现。智谱从发布 GLM-5 后已连续三次涨价,尽管如此,市场依然供不应求,CEO 张鹏在业绩说明会上表示调用量增长 400%。月之暗面旗下 K2.5 大模型发布不到一个月,累计收入超过 2025 年全年总额。
大厂的转变来得晚,但幅度更大。《晚点 LatePost》报道,接近字节相关团队的员工表示,今年年 1 月底,CEO 梁汝波在全员会上明确表态,2026 年的重中之重是 AI 模型能力做到行业前列。随即,字节从 DeepSeek 挖来了郭达雅。
郭达雅是代码智能与大模型推理方向的顶尖人才。他在 DeepSeek 期间深度参与了 V3、R1 以及 Coder、Math 等模型的研究,并与团队在 DeepSeek-Math 中提出了 GRPO 算法,后来被应用到 DeepSeek R1 的训练中。他选择离开 DeepSeek 的原因之一,是当时在 DeepSeek 内部 Agent 的优先级不高,而他本人非常看好这个方向。
伴随郭达雅的加入,Seed 内部正启动针对 Agent 和 Coding 的组织整合。这个动作的意义,不仅是公开地宣告自己对 Coding 加 Agent 方向的战略承诺。也是字节在用人才结构表明自己对下一代竞争维度的判断。
走向失控是 Coding Plan 的必然
Coding Plan 的崩溃,是一个在设计之初就内嵌了矛盾的商业模型,在 Agent 改变消耗结构之后被迫显形。
订阅制的基础假设是平台的真实成本远低于标价,因为大多数用户会付费但不会充分使用服务,轻度用户的订阅收入覆盖了重度用户的服务成本,整体算下来毛利可控。这套逻辑在 SaaS 时代是成立的,因为软件的边际交付成本接近于零,用户增加不会显著增加成本。
Coding Plan 延续了 SaaS 的定价逻辑,但应用到了一个底层经济学完全不同的场景。当使用模式还停留在 " 代码补全 " 的阶段,这个矛盾是可以被忽略的。传统代码补全是单次请求,用户输入几个字符,模型返回一段补全,Token 消耗可控。
Agent 模式完全不同,一个复杂任务包含规划、拆解、多步执行、并行子任务、结果验证和错误重试,串起来 Token 消耗是传统补全的几十倍甚至几百倍。GitHub 在其官方博客里写得很直白:长时运行的并行化 Agent 会话,远超原有计划架构所能支撑的资源上限。
此外,Coding Plan 还有一个被低估的成本问题,OpenClaw 等 Agent 框架的接入,系统性地破坏了云端的缓存命中。在正常的编程使用场景中,因为上下文高度连贯,缓存命中率通常能达到 85% 至 90% 以上,Claude Code 很多用户的命中率甚至能稳定在 90% 以上。缓存命中的价格通常只有正常输入的十分之一,实际计算成本远低于按全额输入价格估算的数字。
OpenClaw 类框架的调用模式不同,框架发出的请求前缀因版本号、构建时间和 A/B 测试变量的持续变化而高度不稳定,缓存命中率大幅下降。结果是,所有用户支付的是相同的固定月费,但 Coding Plan 的实际成本因接入框架类型的不同产生了剧烈差异。
智谱的应对轨迹,清晰展示了这个矛盾从可控走向失控的过程。GLM Coding Plan 的无周限额老套餐宣布于 4 月 30 日停止自动续订,平台公告中承认:随着使用规模的持续增长,老套餐原有的供给方式已难以支撑长期稳定的服务。并为受影响的早期订阅用户赠送了两个月的新套餐权益。

这一轮集体收紧的速度,超过了大多数人的预判。来自这个行业的一个亲历者描述说," 一个季度之内,从补贴抢人到集体收紧,速度比我预想的快得多。"
OpenAI 在这一轮竞争中选择了不同的策略,Sam Altman 在 4 月初宣布 Codex 达到 300 万周活用户,随即重置了所有套餐的用量限制,并承诺每新增 100 万用户就再重置一次。社区用户反馈 10 天内经历了 4 次额度重置。Plus 用户享受促销期 10 倍用量,Pro 用户享受 2 倍用量,但促销截止 5 月 31 日,之后的策略如何调整尚未可知。
Codex 负责人 Tibo 在 X 上表示,OpenAI 拥有足够的算力和厉害的模型来支持 Codex 的运作。这与《新立场》此前在此前《阿里字节 " 围猎 " 智谱、MiniMax:Token 到底该由谁来定价?》一文中的分析吻合:OpenAI 的心态是奥特曼总能筹集到更多资金支持算力规模扩展,这与 Anthropic 强调训练和运行效率的路径形成了鲜明对比。
字节火山引擎的 Coding Plan 在多家同类产品中保持了相对稳定的运营状态。但这一例外有其背景,字节的自有算力基础设施与智谱等初创厂商不在同一基准线,且根据《晚点 LatePost》的报道,火山引擎很早就通过与企业客户的协作计划意识到,B 端客户有大量 Agentic Coding 的需求,这些真实使用数据反向推动了字节模型能力的演进。
Coding Plan 对火山引擎而言,同时承担着锁定开发者生态和获取训练数据的战略功能,短期的成本压力被更长期的数据资产价值对冲。但这是大规模算力基础设施持有者的特殊处境,不是行业可以普遍复制的路径。
终局是按结果付费
用 Token Plan 来取代 Coding Plan,只是这场竞争的中场哨声。
Coding Plan 的最大矛盾是收入固定而成本浮动,一旦模型能力迭代或用户习惯改变,成本可能在收入不变的前提下飙升。Token Plan 是消除这个矛盾的最好方式,即平台的毛利率由 Token 单价与推理成本之间的差值决定,两者都可以被精确控制和预测。
在商业化角度看,Coding Plan 本质上是一种补贴策略,用低于成本的价格换取用户习惯养成和训练数据积累。在这个时间节点上切换到 Token Plan,意味着行业认为补贴换市场的阶段已经结束,用户的支付意愿和实际使用价值之间存在足够的空间来支撑可持续的商业模型。
罗福莉在这个过程中扮演了一次行业定价 " 吹哨人 " 的角色,其主张在弄清楚如何在不造成资金流失的情况下为 Coding 方案定价之前,不要盲目地竞相压低价格,以极低的价格出售 Token,同时对第三方敞开大门。这看起来对用户很有吸引力," 但这是一个陷阱,Anthropic 刚刚摆脱的那个陷阱 "。
据《腾讯科技》报道,小米 MiMo 大模型的 Token Plan,是这个趋势的一个典型案例。据《腾讯科技》报道,两周免费推广期间,MiMo-V2-Pro 在 OpenRouter 上单周 Token 消耗量突破 4 万亿,编程领域市占率一度超过 30%。但免费期结束后,周调用量从高峰下滑,印证了从免费到付费的转换率,是所有大模型公司面临的共同难题。
雷军在 MiMo-V2-Pro 发布当天亲自官宣了 Max 档 659 元 / 月、国际定价 100 美元 / 月的订阅方案,直接锚定 Anthropic Claude Max 5x 套餐。罗福莉在随后的公开发声中解释了这套设计的逻辑:Token Plan 支持第三方框架接入,但按 Token 配额计费,用户用多少付多少,不会出现订阅制下 " 薅羊毛式 " 的成本倒挂。
对阿里云为首的云厂商而言,这次切换还有另一层意义:回到自己最熟悉的生意。维护一个经济模型持续承压的订阅服务,需要不断通过运营手段弥补结构性亏损,这是云厂商的非专业地带。对比之下,腾讯云和阿里云已经销售了十几年的计算资源包、存储资源包和 CDN 流量包,有完整的计量计费系统、预付费后付费结算和用量管理权限控制的基础设施。现在只需要把计量单位从 "CPU 核时 " 或 "GPU 小时 " 换成 "Token",整套体系就可以无缝接入。

目前舆论对 Token Plan 的讨论有一些针对转变本身的困惑,但这本质上是时间产生的问题,而非方向问题。Cursor 作为 Coding Agent 早期玩家,其转变比大多数中国厂商早了大约一年,Cursor 去年就从按次计费转成了按量计费,今年又推出了 Ultra 档位(200 美元 / 月)。印证了随着 Agent 使用强度上升,定价模式演变是必然走向。
对中国市场来说,OpenClaw 在本地的爆火将这个时间节点大幅压缩,这场原本可能用两年完成的行业过渡,被压缩在了几个季度内。这种压缩的代价,是很多厂商来不及设计过渡方案,只能被动应对,导致老用户体验出现波折,如阿里、智谱的套餐迁移附带了用户补偿方案。就是这个代价的具体表现。
不过,在《新立场》看来,从更长的时间维度出发,Token Plan 也只能算是 AI Coding 竞争的中间形态,而不是终态。未来理想的模式是按结果付费,就像打车不需要关心汽油消耗了多少升,用 AI 解决问题也不应该需要关心消耗了多少 Token。
当前按 Token 计费的本质,是对 " 算力使用权 " 的定价,买的是让模型替用户 " 想 " 一次的机会,至于想得多深、想得多好、最终有没有解决问题,不在这个价格的承诺范围内。正如第一章所述,在 AI Coding 场景下," 结果 " 是可以被精确定义的:代码跑通了没有,Bug 修了没有,功能实现了没有。一旦能够可靠衡量这些结果,按结果定价就在技术上是可行的。
届时,"Token 效率 " 将成为模型能力的正式评价维度,因为完成同等结果消耗的 Token 更少,意味着在固定的结果定价下,毛利率更高。GPT-5.5 的发布数据在这里提供了一个前瞻性的参照。OpenAI 在公告中强调,GPT-5.5 在完成同等 Codex 任务时使用的 Token 数量更少,这被列为核心能力之一,与 " 更高的准确率 " 并列。
DeepSeek V4 公告同样提到,新的注意力机制 " 相比于传统方法大幅降低了对计算和显存的需求 "。两家同日发布的最强模型,都把计算效率作为旗舰能力进行宣传,重新定义了 " 更好的模型 " 的标准。
未来的 Coding Agent 竞争,效率与能力将是同一张成绩单上的两个指标。