关于ZAKER Skills 合作
硅星人 1小时前

16 个月后,DeepSeek 已不是孤身走暗巷

原本预计在 2026 年春节上演的中国 AI 大戏,延迟到了五一假期前。

这周五,DeepSeek V4 千呼万唤始出来。

同样在这周,Qwen、Kimi、小米、腾讯都不约而同拿出了自己最新的代表作。

从 Artificial Analysis 最新放榜的开源模型智能指数看,开源模型的前几名已经都是中国模型。

其中,TOP2 都是这周发布的。他们也是这几天 OpenRouter 真实调用量上挤入全球 TOP5 的两家公司。

这已经不是 DeepSeek 和 Kimi 这么默契了。往回看看前面几次。

2025 年 1 月,DeepSeek R1 和 Kimi K1.5 前后两个小时内发布,都把目标指向 OpenAI o1。

一个月后,DeepSeek NSA 和 Kimi MoBA 几乎同时出现,都在改造 Transformer 最核心的注意力机制。

2025 年 4 月,Kimi 的 Kimina Prover Preview 和 DeepSeek-Prover-V2 先后发布,都在向形式化数学推理和定理证明方向推进。

时隔一年,现在,又一次,Kimi K2.6 和 DeepSeek V4 在同一周先后发布,两个万亿参数的开源模型,前后脚摆到了桌面上。

发力相同的技术方向,几乎同时到达同一个路口。这已经不像巧合了。

这次又撞了什么

先看这一轮各自拿出了什么。

DeepSeek V4 是一个 1.6 万亿参数的 MoE 模型,49B 激活参数,原生支持 100 万 token 上下文。它的核心叙事是效率革命,相比上一代 V3.2,单 token 推理算力需求下降了 73%,KV cache 压缩到原来的十分之一。

简单说,同样的硬件能处理多得多的请求,同样长度的文本花的钱少得多。

与此同时,V4 完成了对华为昇腾芯片的深度适配,从英伟达 CUDA 生态向华为 CANN 架构做了底层代码迁移,也让这一轮发布多了一层国产算力迁移的意味。

Kimi K2.6 是一个万亿参数的 MoE 多模态模型,32B 激活参数,256K 上下文。它的核心叙事不是更大或更便宜,而是更持久。

在测试中,K2.6 可以不间断编码 13 小时,处理超过 4000 次工具调用,修改 4000 多行代码,完成一个接近性能极限的开源金融撮合引擎的深度重构。

这不是普通的 " 代码能力提升 ",而是在测试模型能不能从一次性回答,进入长时间、多工具、多 Agent 协作的工作状态。

K2.6 还引入了 Agent 集群架构,支持 300 个子 Agent 并行协作。月之暗面的 RL 基础设施团队已经用 K2.6 驱动的 Agent 连续自主运行了 5 天,负责监控、故障响应和系统运维。

它们总在同一个路口相遇,但开出去的方向并不一样。至少在这一轮,一个更像是在重写模型基础设施的成本结构,另一个更像是在验证模型能否进入更长周期的真实任务。方向不同,但在同一周发布这件事本身,已经足够让人截图发群了。

但两家也有高度一致的选择,万亿参数的 MoE 架构、开源、继续相信 Scaling Law。截至目前,它们也是中国仅有的两个已开源的万亿参数模型。

比撞车更有意思的事

多次撞车是一个好段子,但它背后有一个更值得注意的现象,两家的技术路线正在相互启发。

上一次,是 Kimi K2 借鉴了 DeepSeek V3 带火的 MLA 注意力机制。MLA 是一种压缩注意力计算和 KV 缓存以提升效率的方案,DeepSeek V3 让它成为中国开源模型技术栈里的显性选项。

这一次,是 DeepSeek V4 把 Muon 优化器作为模型架构层的三大更新之一。Muon 是一种二阶优化器,解决的是训练阶段参数更新的效率和稳定性问题,用来取代已经用了 10 年的 Adam。Kimi 是最早把 Muon 系优化器推到万亿参数级训练并系统公开经验的团队之一,杨植麟在 GTC 2026 演讲中称其可以带来 2 倍的 token 效率提升。而 V4 也跟进使用 Muon 优化器,用来提升收敛效率和训练稳定性。

换句话说,MLA 省的是推理时的钱,Muon 省的是训练时的路。而这两条路,已经在两家之间来回走了一遍。

这就让 " 撞车 " 不再只是发布时间上的巧合,而变成了技术栈层面的回声。更像是两家公司一边竞争,一边把对方探索过的技术思路变成自己下一轮实验的参考坐标。

这种相互启发还在继续延伸。在注意力机制上,DeepSeek 探索的是稀疏注意力,Kimi 下一代模型探索的是线性注意力,路径不同但要回答的问题一致,都是长上下文怎么不被全注意力的计算复杂度拖垮。

在残差连接上,DeepSeek 做 mHC,Kimi 做注意力残差,同样是不同方案指向同一个目标,让模型变深之后训练依然稳定。

这件事之所以值得说,是因为放在更大的行业背景里看,它其实是反常的。硅谷头部公司正在变得越来越封闭,OpenAI 早已不再公开训练细节,Anthropic 和 Google 的核心方法同样讳莫如深,社区只能靠猜测和拼凑来推断它们的技术路线。连在舞台上握手都不太可能了

而在 Kimi 和 DeepSeek 之间,技术报告和开源代码的可见度让技术扩散的链条明显缩短了。多次撞车之所以能被看到、被讨论、被放在一起比较,前提恰恰是两家都选择了把东西摊在桌面上。

中国开源模型的技术扩散速度,正在变得比过去快得多。这可能才是频繁撞车真正说明的事情。

全球技术圈都在看它们撞车

这种 " 撞车 " 的叙事,最早当然是中文科技圈的发明。但海外开发者社区也在用自己的方式确认这件事。

K2.6 发布后,AI 领域最有影响力的 newsletter 之一 Latent Space 直接把 Kimi 放进了 "DeepSeek 沉默期后中国开源模型实验室领跑者 " 的位置。几天后 V4 发布,海外开发者社区又立刻把 V4、K2.6、GLM 5.1 放到同一张表格里比较参数、价格、上下文长度和 Agent 能力。

英伟达 GTC 2026 上用来展示下一代芯片推理性能的中国模型,是这两家。

在海外开发者社区里,当人们讨论中国开源模型时,Kimi 和 DeepSeek 的确越来越频繁地被放进同一张表里。

它们撞上的不是彼此

这也让 DeepSeek 和 Kimi 的关系变得有点微妙。它们当然是竞争对手,但在更大的模型生态里,又共同把中国开源模型推到了一个更难被忽视的位置。

它们对闭源模型的压力,不只来自某一次 benchmark,而来自成本、可部署性、开源权重和技术扩散速度这些更慢、更底层的变量。

所以,Kimi 到底有没有在故意撞车 DeepSeek?

大概率没有。万亿参数的 MoE 要做,长上下文的注意力机制要改,训练效率的优化器要换,国产芯片的适配要啃,开源要开得真诚而不是做防御性姿态。这些不是 " 选项 ",而是 " 必经之路 "。

两家公司都在认真地做底层技术,也都选择把关键进展放到公开语境里,于是就一次又一次地在同一个十字路口碰面。

不是它们太默契,是路太窄了。

至于下一次 " 撞车 ",大概已经在路上了。

如果没猜错的话,Kimi 让大模型的文本和视觉能力齐头并进的技术方案,将启发更多中国开源纯文本模型长出 " 眼睛 ",一起看到更远、更大的世界。

相关标签
硅星人

硅星人

硅是创造未来的基础,欢迎登陆硅星球。

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容