关于ZAKER Skills 合作
钛媒体 28分钟前

DeepSeek 不需要永远强,它只需证明这条路走得通

文 | 最话 FunTalk,作者 | 林书,编辑 | 刘宇翔

才发布没两天,DeepSeek 就大降价。

4 月 25 日晚,DeepSeek 宣布对 V4-Pro 模型 API 开启限时 2.5 折价格优惠。26 日晚,DeepSeek 又宣布 V4 全系列 API 服务的输入缓存命中价格降至原有价格的 1/10。其中,Pro 模型在今年 5 月 5 日前叠加 2.5 折限时优惠。最新调价后,DeepSeek-V4-Flash 每百万 tokens 输入缓存命中价格为 0.02 元,DeepSeek-V4-Pro 为 0.025 元。

这一价格不但比国外大模型,就是比国内其他大模型都有很大价格优势。在 DeepSeek 首次官宣降价的第二天,DeepSeek-V4-Flash 的调用量为 814 亿 Token,较前日环比增长 62.2%;DeepSeek-V4-Pro 的调用量为 96 亿 Token。

虽然,完成整个任务还涉及到任务类型、模型效率、推理长度、模型输出 Token 数等因素,最终账单不仅取决于输入价格,但大降价后,开发者们仍有望用 V4 跑通商业模式。

难怪有人说,"DeepSeek 归来,梁文锋杀疯了。"

在 V4 发布前的一年多里,这家曾让硅谷侧目的公司,在绝大多数时间里是自我隐匿的,外界只能通过它发布的论文来推测其进度。期间,DeepSeek 团队成员的不断流失,至少 5 名核心研发成员确认离职:第一代大模型核心作者王炳宣去了腾讯,V3 核心贡献者罗福莉被雷军以千万年薪挖走,R1 核心作者郭达雅转投字节跳动,多模态核心研究员阮翀加盟了自动驾驶公司元戎启行。

同时,从 2025 年 1 月 R1 爆红到 2026 年 4 月 V4 发布,DeepSeek 整整 15 个月没有发布大模型新版本。同期,OpenAI 连推 GPT-4.5、GPT-5 和多个推理变体,Anthropic 迭代了三代 Claude,字节豆包月活冲至 3.31 亿,智谱和 MiniMax 也陆续发布了 GLM-5 和 MniMax-2.7 等新一代模型。

这 " 空白 " 的 15 个月,相当于 DeepSeek 在全球大模型竞赛中隐匿了一个代际。而今,DeepSeek V4 从地平线的远方归来,最终掀开了面纱。

从性能上看,在世界知识、推理以及 Agent 能力方面,DeepSeek-V4 均实现国内与开源领域的领先,甚至接近了 Claude-0pus-4.6 等顶尖大模型。

在 Agentic Coding 评测中,V4-Pro 已达到当前开源模型最佳水平,并在其他 Agent 相关评测中同样表现优异。

在架构层面,V4 完成了三重关键突破:一是首创 CSA+HCA 混合注意力机制,通过双重压缩将长上下文计算量降低 73%、显存占用减少 90%,让百万上下文不再是昂贵的附加功能,而是默认基础设施;二是引入 mHC 流形约束超连接,以不到 7% 的微小开销解决了超深网络的信号衰减难题;三是全面切换至 Muon 优化器,在训练效率和收敛稳定性上实现了代际跃升。

这样的突破,让 DeepSeek 终究不负众望,但此次 V4 最让人期待的重要突破是对国产算力的适配,将底层代码全面迁移至华为的 CANN 生态,让 V4 的推理能运行在昇腾 950PR 芯片。

这需要经历一次艰难的适配过程,可以看作是国产 AI 的 " 探月工程 ",需要从 DeepSeek 到华为再到半导体设备厂商等整个链条的配合。

这不是一个轻松的技术决策,这是一场赌上公司乃至整个国产大模型业界未来命运的架构豪赌。

而理解这场豪赌,需要先看清一个正在吞噬整个 AI 行业的结构性困境。

必然与偶然

2026 年的 AI 行业,正在经历一场教科书级别的杰文斯悖论。

1865 年,英国经济学家威廉 · 杰文斯观察到一个反直觉现象:蒸汽机的效率越高,英国的煤炭消耗总量反而越大。效率提升不会减少资源消耗,反而会因为使用门槛降低而刺激更大的需求。160 年后,同样的剧情正在 AI 推理算力上重演。

根据清华大学最新发布的《Token 经济学全景报告》,过去三年,模型推理成本下降了 280 倍,但企业的 AI 总支出反而增长了 2.4 倍。

同样地,36 氪对企业支出的调查统计也显示:AI 推理成本在 18 个月内下跌超过 80%,但中国三大云厂商却在同一周宣布涨价。越便宜,烧得越凶。推理成本变得愈发昂贵,这是整个行业的结构性宿命。

最先被这个宿命击中的,是硅谷的标杆企业 Anthropic。

2026 年,Anthropic 仅推理成本一项预计就将达到 141 亿美元,比 2025 年增长 68%。公司 2025 年全年现金消耗约 85 亿美元,2026 年预计全年亏损 140 亿。CEO Dario Amodei 在播客中说了一句让整个行业倒吸冷气的话:" 如果我的收入无法达到 1 万亿美元……一旦我购买了那么多的算力,地球上没有任何力量能阻止我破产。"

这是行业的 " 大必然 " ——使用成本边际降低,需求快速上升,推理总算力需求会快速反噬 AI 企业的利润,没有人能幸免。

而在这个大必然之下,出现了一个 " 小偶然 "。

3 月初,用户发现 Claude Opus 4.6 的性能出现了明显下降。编程能力断崖式滑坡,推理深度崩塌 67%,第三方测试排名从前 2 跌至第 7。但 Token 消耗反而增加了——降智的同时还在变相涨价。

Anthropic 官方的解释是 " 自适应思考模式优化 ",但业界心知肚明:这是算力告急的征兆。

此前 Anthropic CEO Dario Amodei 在自己的公开播客采访表示,到年底,公司需要超过 5GW 的算力才能满足推理和训练需求,但因为此前采购过于保守,公司已经面临 " 不得不接受更高价格 " 的局面。

这场算力危机,并不只是 Anthropic 一家的噩梦。

同期的 OpenAI 同样焦头烂额。GPU 租赁价格在 60 天内暴涨 48%,英伟达 Blackwell 芯片供应全面告急;2026 年美国原计划上线的 AI 数据中心,有将近一半因为电网瓶颈和建设延期被推迟或取消,形成了高达 7GW 的算力缺口。

但需要指出的是,这样的算力 " 短缺 " 其实是一种『贵族的饥饿』——硅谷目前仍然掌握着全球最大的算力池,在绝对算力上碾压中国,只是这个池子,现在暂时填不满它们 AGI 野心的胃口。

但尽管如此,V4 仍然获得了一个难得的突围 " 窗口期 ":那就是在硅谷巨头算力高攀不下时,从成本结构上,对其实施 " 突袭 "。

国产算力的 " 突袭 "

可能有人会问:这样的 " 突袭 ",究竟意味着什么?是指 V4 趁 Anthropic 算力短缺、模型降智之时,以较低成本杀入编程领域,实现对开发者群体的抢占吗?

很遗憾,这样的想象在现实中并不成立。

说实话,V4 发布后,笔者第一时间与技术社区的开发者进行了讨论,但相当一部分开发者表示,即使 V4 在价格上,与 Opus 相比有较大优势,他们也不会将其当成实际工作中的首选。

为什么?因为在一线开发者和程序员看来,编程工具,往往只有最优,没有次优。甚至可以直接说,在 AI coding 领域,第一名会赢家通吃。

根据某一线开发者反馈,实际用的时候,国产模型便宜的那点钱,在多轮出错的场景下,其实贵的要死,开发者使用 Opus 或 codex 交互,能实现一遍过,成本可能是 1 美元,而某些国内模型,可能需要 5 轮才过,成本是 2 美元。

如果 V4 在编程和复杂推理上无法匹敌 Opus 的巅峰状态,多数人不会轻易切换。这是现实,不必回避。

因此,真正能让 V4 实现 " 突袭 " 的,可能是另一个战场。

此次 V4 发布,除了百万上下文、全栈国产化算力适配(如华为昇腾、寒武纪等)、以及混合注意力架构(CSA + HCA)与流形学习优化等底层技术创新之外,更重要的升级,就是 DeepSeek 在 Agent 方向上的突破。

其在 Agentic Coding 评测中成为开源最佳,内部使用体验已优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,并针对 Claude Code、OpenClaw、CodeBuddy 等主流 Agent 框架做了专项优化,明确将自身定位为 Agent 基础设施。

而 Agent 能力,之所以当下变得如此重要,是因为目前的 AI 竞争,已经进入到了一个新阶段。

2026 年第一季度,一个数字震动了整个 AI 行业:中国大模型 Token 日均调用量首次超越美国。国家数据局的曲线近乎垂直:从 2024 年初的约 1000 亿,到 2025 年中突破 30 万亿,到 2026 年 2 月达到 180 万亿。两年涨了 1800 倍。

而驱动这最后一段最陡峭增长的,恰恰是 OpenClaw 生态的高频调用需求。

然而,就在这关键的档口,Anthropic 却主动将大量中低端用户 " 推向 " 了中国。

当 OpenClaw 在全球扩散后,Anthropic 很快发现一个问题:一个每月付 49 美元 Claude Max 订阅费的用户,如果用 OpenClaw 跑一个 7 × 24 小时的自主 Agent 实例,消耗的算力相当于几百个普通对话用户一个月的总量。

订阅制定价根本无法在 Agent 时代维持盈利。于是 Anthropic 宣布:通过个人订阅账号的 OAuth 令牌接入第三方工具,属于违规行为,发现即封号,无缓冲期。

之后,中国模型的调用量开始在 Agent 方向持续疯涨。

根据 OpenRouter 平台 2026 年 4 月第一周的最新统计数据显示,中国 AI 大模型周调用量高达 12.96 万亿 Token,连续五周超越美国。

这就是 Agent 时代竞争维度的切换:在对话式 AI 时代,模型的质量上限决定一切;在 Agent 时代,成本、稳定性、对高频调用的支持程度,首次跑到了质量前面。

这个维度的切换,恰好是中国 AI 的优势区间。

所以这场 " 突袭 " 的实质是:DeepSeek V4 这类中国 AI,以不俗的性能 + 低廉的国产算力,在 Agent 的中间层场景里,用成本和稳定性切走了一块原本属于他们的蛋糕。

这样的不对称优势,就是规则转换期的机会窗口。

杯子壁的高度

如果按照某种模型迭代的推演逻辑,在未来,随着国产模型不断地迭代、进步,在 Agent 这个赛道上,国产大模型的能力,最终会达到大多数常规任务的上限,毕竟,常规任务就像一只容量有限的 " 杯子 ",往里倒再多的智能,最终的结果也只能是 " 溢出 "。

到了那时,在 Agent 场景下,性能与 Opus 已无太大区别的国产 AI,将通过国产算力的低成本,取得进一步优势;

昇腾 950PR 定价 7 万元,英伟达同级别 H200 在中国市场报价高达 25 万元,这相当于是便宜了三分之二的价格。

然而,现实终归是复杂的、有灰度的,真实情况也许远比这更诡谲。

在 Anthropic 自己发布的《2026 Agentic Coding Trends Report》中,其将现在的 Agent 任务分成了三层:

底层(高频、低风险):代码补全、单元测试生成、文档注释、格式规范化、简单 Bug 修复。这类任务占企业 Agent 调用量的约 65%;

中层(中频、中风险):跨文件重构、API 集成、数据库查询优化、报告生成、合同条款提取。占约 28%;

顶层(低频、高风险):生产级系统架构决策、安全漏洞审计、复杂财务建模、多步骤法律合规分析。占约 7%;

底层那 65%," 杯子溢出 " 论完全成立。代码补全到了正确就是正确,你用 Opus 4.7 还是用 DeepSeek V4,最终的单元测试通不通过是客观事实,没有 " 更通过 " 这个说法。

但顶层那 7%,才是真正拉开差距的地方。

SWE-bench Pro 是目前最接近真实生产环境的代码基准——它用的是真实企业代码库里的真实工单,而非精心设计的题目。

而在这个区间,Anthropic 最新的 Claude Opus 4.7 已经达到了 64.3% 的水准,而国产模型在该区间的差距被放大到 6-12 个百分点。

这 6-12 个百分点,就是 " 杯子壁 " 的高度。

然而,Anthropic 自己也没有解决 " 简单任务满分、复杂任务崩塌 " 的问题。目前在 SWE-bench Pro 测试集上,还没有模型能够突破 60% 的区间。

是的,在真实场景下,模型之间的差距,远不止是 " 填更高的杯子 " 那么简单。

因为就现状来看,Anthropic 没有在追更高的任务,而是在把同一层任务做得更深、更可靠、更难以替代。

例如其门下的 Claude Code Channels,把同样的高价值 Agent 能力,从 IDE 延伸到 Discord 和 Telegram,让非技术团队也能用——背后的思路,是用可靠性和深度集成,不断抬高企业的切换成本。

对 V4 这类后起之秀来说,这反而是比 " 换杯子 " 更危险的竞争策略——因为后者可以被追赶,前者构建的是一堵越来越厚的墙,而不是一个越来越高的杆。

鲶鱼的使命

此次 V4 的发布,可以说精准地踩中了 " 天时地利人和 " 的每一步。

当 OpenAI、Anthropic 等硅谷巨头纷纷面临算力短缺,而老黄的地位也在被谷歌的第七代 TPU、亚马逊大规模上量的 Trainium 3,甚至特斯拉自建晶圆厂等多元力量挑战的当下,V4 恰逢其时地挟国产算力杀出,就像一个冲锋的尖兵,趁敌军阵脚混乱的时刻,突破了重重围困,杀出了一条生路。

但实事求是地说,这样的 " 突袭 ",时间窗口是有限的,前景也不见得完全明朗。

那照这么看,V4 此次发布的历史使命,究竟是什么?

答案或许是:V4 真正的历史使命,从来就不是超越或打败 Opus 这样的怪物,而是当一条永远不安分的鲶鱼。通过一次次范式、算法和架构上的创新,搅动整个国内 AI 行业。

而在这一次次搅动中,中国的 AI 企业,能从那些 " 大厂思维 " 看不到的角落里汲取灵感,不断进行着进化与蜕变。

Kimi K2.6 就是一个鲜活的例子。这款基于 1 万亿总参数、32B 激活参数的 MoE 架构模型,在 LiveCodeBench 基准测试中取得了 85% 的高分,多 Agent 并发不限流,23 个 Agent 同时运行仍能稳定完成开发全流程。而它的架构思路,很大程度上受到了 DeepSeek 此前在 MoE 和推理优化方面的启发。

这就是鲶鱼效应的传导链条:DeepSeek 的架构创新,倒逼月之暗面、智谱、MiniMax 跟进优化;这些公司的竞争,又反过来推高了整个国产模型生态的水位线。不是某一条鱼在游,是整个池子的水被搅活了。

而 DeepSeek-V4 最新的刺激是它在公告标题里写的 " 迈入百万上下文普惠时代 "。业界人士博主玄感 X 介绍,V4 戏剧性地把百万 token 上下文的 KV Cache 降低到了传统方案的 2%。V4 在训练时就早早地开始扩展上下文长度,训练数据量和 V3 比翻倍,还特别重视长文档整理,带来了更原生更强的长上下文性能。

在百万 token 测评项的榜单里,DeepSeek-V4 落后于 Opus 4.6,但超越了 Gemini 3.1。该人士认为 V4 的核心优化是 CSA 和 HCA 两种 attention 机制,CSA 负责抓重点,把 100 万 token 的 KV Cache 压缩成 25 万条,再挑出最有用的部分计算 attention;HCA 负责全局,把 100 万 token 压成 7800 条后做完整 attention。两种机制交替,使得 V4-Pro 推理计算量比 V3.2 降低到 27%,KV Cache 降低到 10%;轻量版 V4-Flash 更夸张,计算量 10%,KV Cache 仅 7%,且性能全面提升。

" 这种极致降本是 DeepSeek 的老手艺,从 V2 的 MLA(KV Cache 降低 93%),到 V3、V4 的沿用,再到 NSA 对 attention 的改造(64K 上下文取得 11.6 倍加速),以及 V3.2 的进一步落地,最终通向 V4。它还把百万 token 上下文的价格打了 2.5 折,折后价格约是御三家的 5%,在国内同级别大模型里属最便宜的一档。"

正因为有了足够便宜的百万 token 上下文能力,V4 才能在昇腾 950PR 并未大规模铺货时,就敢大降价,这使得各种推理模型、agent 和复杂任务就有了更大的想象空间。

这可以看作是一次对算力的极限测试,V4 这条鲶鱼开始在国产算力的方向搅动了。而这次 " 搅动 ",势必会改变产业链的下注逻辑。

在 V4 发布之前,华为昇腾的生态推广面临一个死结:没有顶级模型愿意第一个吃螃蟹,因为迁移成本极高、风险极大;但没有顶级模型背书,下游的云厂商、企业客户就不敢大规模采购昇腾。V4 的发布,直接切断了这个死结——阿里、字节、腾讯已经开始大批量采购昇腾 950PR。

据业界调研,目前,三大厂商合计采购量超 46 万颗,占昇腾 950PR 全年预计出货量(75 万颗)的 60% 以上,不是因为它比 H100 更好,而是因为它被证明够用了。" 够用 " 二字,在产业链里价值连城。

或许,过了半年或一年后,Anthropic 的算力危机终将缓解,Opus 终将满血回归,硅谷的融资机器终将重新轰鸣。但那又怎样呢?

当一种技术路线被验证可行后,只要这个国家的工业体系、人才储备、资本意愿还在,它就会以 " 接力赛 " 而非 " 马拉松 " 的形式持续下去。DeepSeek 跑第一棒,Kimi 跑第二棒,后面可能还有阿里、字节、甚至某个现在还没成立的小团队跑第三棒、第四棒。

每一棒都可能摔倒,但只要下一棒有人接着跑,Opus、英伟达的领先距离就会被不断压缩。而大量中国产开源大模型奔跑在国产算力芯片上," 开源模型 + 国产芯片 " 的组合,不仅为全球开发者提供了除美国闭源体系外的关键技术选项,也动摇了传统算力供应链的垄断结构。

即使 DeepSeek 某天掉出了第一梯队,它的人才、它的技术路线、它的开源权重,已经被整个行业吸收了。

换句话说,在全球 AI 大博弈中,DeepSeek 不需要永远 " 强 " 下去,它只需要证明 " 这条路能走通 ",那就是开启了一个 AI 大航海时代。

相关标签

相关阅读

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容