文 | 孙永杰
进入到 2026 年,DeepSeek V4 的发布窗口一再推迟,却意外点燃了全球 AI 圈对 " 去 CUDA 化 " 的讨论。而从多家媒体的报道看,这款预计参数规模达万亿级、支持百万 token 上下文的多模态开源模型,正全力适配华为昇腾芯片,并通过 CANN 框架完成核心代码重写。
如果上述最终成为现实,这将是中国 AI 体系第一次在真实生产环境中,系统性探索在非 CUDA 平台上承载核心模型能力的可能性。换言之,这不仅是一款模型的发布,更像是一场底层技术路线的 " 压力测试 "。
然而,正如 DeepSeek 创始人梁文峰在内部沟通中强调的,这只是 " 万里长征的第一步 "。未来风险与机遇并存,兼容与自立之间的平衡,甚至取舍,将决定中国 AI 能否真正走出属于自己的发展之路。
DeepSeek V4 延期,基础 AI 计算平台转换的必然代价
如前述,原计划在今年农历新年或 2 — 3 月发布的 V4,一再错过窗口,直至 4 月初相关媒体确认 " 数周内发布 ",究其原因,是推理端与采用华为昇腾芯片的深度适配。但问题在于,这条路径远比想象中复杂。而要理解这种复杂性,首先需要回到 DeepSeek V4 本身的技术特征。
众所周知,进入 2026 年,大模型参数规模已经跨越 " 万亿 " 门槛,向数万亿级迈进。在这一背景下,虽然 V4 采用更为激进的 MoE(专家混合)架构,在理论上通过 " 按需激活专家 " 降低单次推理计算量,但代价则是对包括内存带宽、芯片间互联(Interconnect)以及 KV Cache 管理等的系统能力提出了更极端的要求。

例如基于 H100 或 B200,通过 NVLink 与 NVSwitch 构建的高带宽互联,其单节点 GPU 间带宽可达 TB/s 级别,形成近似 " 全连通 " 的计算网络,数据在芯片间流动如同高速公路,延迟与同步成本被极大压缩。但当 DeepSeek 试图将这套精密体系迁移至华为昇腾平台时,面对的却是完全不同的硬件拓扑。
不可否认,昇腾芯片近年来进步显著,但在超大规模集群的 " 全连通能力 " 上,与英伟达仍存在物理层差距。例如,受制于制程与 SerDes IP 能力,昇腾更多依赖光模块进行跨节点扩展,这种 " 以空间换带宽 " 的方案虽然可行,但也引入了更长的物理链路,从而带来信号延迟、同步开销以及功耗与散热管理等的复杂性。
与此同时,软件层面的差距同样不可忽视。昇腾的 CANN 框架在算子覆盖、自动并行、内核融合以及分布式通信调度等方面,整体成熟度仍落后于 CUDA 生态。这意味着,DeepSeek 工程团队需要在大量底层细节上进行针对性优化,甚至手动重写关键算子。
更棘手的是,这种落后往往不是线性,而是系统性的。具体表现为一个算子的性能下降,可能影响整条计算链路;一次通信效率的降低,可能导致整体吞吐大幅波动。最终的结果可能就是模型尚能运行,但距离稳定、高效、可规模化还有很长的距离。
从这个角度看,DeepSeek V4 的延期,并非简单的产品节奏问题,而是中国顶尖算法团队与国产芯片体系之间深度磨合的必然代价。虽然过程艰难,却意义重大。
更重要的是,这一过程释放出一个清晰信号,即 AI 竞争,正在从 " 模型能力比拼 ",转向 " 系统工程能力比拼 "。而在这一阶段,谁能更快把模型 " 跑起来、跑稳定、跑便宜 ",谁才真正接近产业级优势。
CUDA 垄断难破,CANN 无奈妥协
如果说上述 DeepSeek V4 在推理侧的适配困难,揭示的是工程层面的现实瓶颈,那么顺着这个问题往下追问,一个更本质的疑问也随之浮现:为什么只是把模型从一个算力平台迁移到另一个平台,会变得如此困难?
回看 PC 时代的 Wintel 联盟,微软与英特尔虽然联手垄断,但两家公司之间存在利益博弈,这为后来 Linux、AMD 乃至苹果系统的崛起预留了空间。然而,英伟达在 AI 领域建立的是一种 " 单体垂直垄断 ",即微软与英特尔的合体。
具体体现为,硬件层面上,英伟达定义了 SM(流式多处理器)的物理结构和 Tensor Core 的计算逻辑;软件层面上,CUDA 提供了与之 1:1 完美契合的 cuBLAS、cuDNN 等闭源库。二者叠加导致了一个极其恐怖的现实:全球 600 万 + 的开发者围绕 cuBLAS、cuDNN、NVLink/NVSwitch 优化算法、框架(PyTorch、TensorFlow)优先 CUDA 实现,甚至 AWS Trainium+Cerebras WSE 的 " 反 NVIDIA" 异构集群,在 KV 缓存迁移时仍需 NVIDIA NIXL 软件和 AWS EFA。

在上述背景下,作为其最强有力竞争者的华为 CANN 最初确实试图走一条相对独立的路线,但随着大模型时代的到来,这种路径逐渐显露出问题,例如开发者不愿迁移,企业不敢承担风险,生态增长缓慢。加之时间(例如大模型的快速迭代)的压力,完全自立的路径开始变得不再现实。
基于此,CANN 逐步引入类似 CUDA 的抽象层设计,例如在 CANN Next 中尝试对标 cuBLAS、cuDNN 接口,实现高比例兼容,使模型迁移成本从 " 数周甚至数月 " 压缩至 " 小时级 ";在架构层面,新近发布的 950PR 异构架构(预填充 / 解码解耦)也刻意模仿英伟达解耦式服务,而非谷歌 TPU 的彻底异构路线。
我们必须承认,这种近似于 " 兼容优先 " 的策略在短期内是成功的,它降低了门槛,使昇腾迅速在国内市场获得应用基础,并让像 DeepSeek、腾讯、字节跳动等这样的公司能够以较低的门槛尝试国产算力。例如 CANN Next 通过 SIMT 编程模型实现高达 95% 以上的 CUDA 兼容性,已帮助多家企业将迁移时间大幅缩短至小时级,加速了实际落地。
但随之而来的挑战是,一旦涉及前沿创新,兼容层就会变成 " 天花板 "。
例如当开发者真正深入使用昇腾平台时会发现,虽然常见路径已经被铺平,但一旦涉及一些冷门、创新的底层算子,CANN 的支持度就会下降,性能抖动剧烈。而 DeepSeek V4 在适配过程中遇到的诸如在尝试引入 SSM(状态空间模型)或 Mamba 这类非 Transformer 结构的混合架构时,发现 CANN 的底层优化仍主要向矩阵乘法(GEMM)倾斜的所谓困难,很大程度上是因为其在尝试一些超越常规的算法优化时,撞到了 CANN 兼容层的 " 边界 "。
而更深层的问题在于,一旦选择兼容,就意味着默认 CUDA 仍然是隐形标准,你可以替换硬件,但在软件语义和开发范式上,仍然在沿用对方定义的规则。这既是捷径,也是限制。
兼容存隐患挑战,未来机遇仍需真正自立
如前述,在 CUDA 生态形成事实标准的现实下,华为选择 " 类兼容 " 路径几乎是必然结果,但同时也将整个中国 AI 产业推到了一个关键性的选择节点:是继续兼容 CUDA,还是逐步走向真正独立的生态体系?
从短期来看,答案几乎没有悬念,那就是必须兼容,这是效率与现实的选择。但从长期来看,这条路径则隐藏着不容忽视的风险。
众所周知,当一个系统(如 CANN)为了兼容另一个系统(如 CUDA)而设计时,它不可避免地会继承对方的局限性。
事实是,目前全球大部分开源算法都是围绕英伟达架构开发的,如果为了利用这些存量资产而一味追求 1:1 兼容,那么我们就会在硬件设计上陷入 " 模仿者陷阱 ",并表现为一旦英伟达的硬件架构在未来某个节点面临范式转型,例如从 Transformer 转向某种不需要大规模矩阵乘法、而是更依赖异步逻辑的新架构时,那么一直处于 " 影子状态 " 的国产算力栈可能会面临瞬间的技术断层,而这种 "Bug 对 Bug 兼容 " 的死胡同,无疑让我们的底层创新始终笼罩在别人的阴影之下。
而更深层的风险在于 " 时间差 "。根据伯恩斯坦和 Epoch AI 的统计数据,虽然华为在国内份额激增,但在全球 AI 算力总量中,国产芯片的占比仅为 5%,仍属相对有限。而正是这种绝对规模的差距,导致了严重的 " 研发效率摩擦 "。


需要说明的是,上述时间上的错位,在瞬息万变的 AI 时代会被无限放大。当我们的人才还在忙于 " 填坑 " 时,对手可能已经完成了模型能力的指数级复利,导致对手一年模型的领先,演变为我们在模型能力、数据飞轮、安全对齐均呈指数复合增长叠加后,与对手形成不止一年的鸿沟。
当然,挑战往往蕴含着机遇。DeepSeek V4 若成功发布,将证明 " 国产全栈 " 可行性,加速 CANN 生态成熟,吸引更多开发者跟进,加之全球 " 天下苦英伟达久矣 " 的情绪,业内对 CANN 的支持或将超出预期。而华为昇腾等后续芯片若达 H100 的 80% — 90% 推理性能,叠加 CANN Next 的兼容红利,中国 AI 供应链临界规模有望在 1 — 2 年内形成。
但需要清醒认识的是,兼容只能解决 " 活下来 " 的问题,真正的自立,才能决定 " 走多远 "。而未来 3-5 年,将是一个关键窗口期。如果我们能够在保持兼容的同时,逐步建立独立的编程模型、算子体系与系统架构,中国 AI 生态仍有机会实现从跟随到定义规则的跃迁。否则中国 AI 或将陷入 " 粗糙复制列车 " 的轨道。
写在最后:DeepSeek V4 的延期发布,看似偶然的 " 跳票 ",实则揭示了一个更深层的现实,即 AI 竞争早已不只是模型之争,而是底层生态与系统能力的全面较量。兼容 CUDA 固然是通往现实的最短路径,但若止步于此,也可能锁定未来的天花板。
所以真正的挑战,不在于能否替代一套技术,而在于能否摆脱对既有范式的依赖,构建属于自己的规则体系。而接下来的 3-5 年,将决定中国 AI 是成为全球生态中的重要一极,还是长期停留在 " 高水平跟随 " 的位置。当然,在追求自立的同时,也需警惕封闭生态可能对全球开发者吸引力的潜在影响,以确保生态的开放性和长期国际竞争力。