在练习时长一年半后,今天中午,DeepSeek 终于端上了新模型 DeepSeek V4,还在文章里直接把压力给到华为和寒武纪。。。

但在开源模型里基本也够了,属于是站在一个开源领先,能和顶尖闭源模型一战的地位上。
现在,大家可以直接去官网上免费试用。直接打开对话框,不用任何操作就是 V4。


DeepSeek-V4-Pro 百万 token 输出大概 24 块钱,Claude Sonnet 4.6 差不多要 100 块。性能差不多,价格直接打到四分之一左右,这就很 DeepSeek。
当然,DeepSeek 还给大家画了个饼,说这次模型的涨价只是暂时的。
等过段时间华为的卡到货了,模型的价格还会给大家直接打下来。
小字最有用的一集

在性能上就不说了,V4 Pro 能和 Claude Opus 4.6、GPT 5.4、Gemini 3.1 Pro 这些闭源顶尖模型打个五五开。



这玩意有啥用呢?
这两个月,什么小龙虾,爱马仕这类的 Agent 工具是层出不穷。在 Agent 的工作环境里,每次对话时所消耗的上下文是个天文数字。
而模型的上下文长度越长,就意味着干活的时候能记住更多的细节。
之前 Meta 的安全总监就翻过车,因为用的模型上下文长度不够,触发了 OpenClaw 的自动记忆压缩功能。
但一压缩,就把一些关键命令给忘掉了,结果就导致了这个安全总监的邮件给 AI 删了一大半。

这就意味着他俩干活的能力都很强。
我们也简单试了一下,给本红楼梦里随便贴了一段三体的科幻小说内容,然后丢给 DeepSeek V4 让它找。
结果用不着几秒,DeepSeek 就找到了异常。

DeepSeek 的百万上下文还非常省钱。
大家都知道现在的大模型用的都是 transformer 架构,对话越长,KV Cache(临时缓存) 就越大,推理成本也越高,模型也就越花钱。
但这次,DeepSeek V4 直接变成了超级省钱冠军。
同样带着 100 万 token 的上下文干活,V4-Pro 每生成一个 token,背后的计算量差不多只要原来的四分之一。
模型用来记住前文的 KV Cache,也只剩原来的十分之一。

Hybrid Attention。

前者相当于是一本书写目录,后者相当于是给这个目录里的章节来写摘要。
有了目录和摘要辅助记忆之后,模型在干活的时候,真正需要计算的压力就降了不少。
同时,他们还用上了去年搓出来的 mHC 来保证长文本的稳定性,用了 Muon 优化器来让模型的参数更稳定。。。


不过可惜的是唯一的缺点就是,目前的 DeepSeek 虽然很强很便宜,但这次的 V4 还是不支持多模态,也就是还是看不懂图片。
这块很有可能是它们下一代的目标。

比如说在提到 Agent 能力的时候,除了给 Claude Code、OpenClaw 这些名声在外的产品做了优化,还提到了腾讯的 CodeBuddy 这个突兀的小资历。

还有在测试对比友商的时候,Kimi K2.6 和智谱 GLM-5.1 的一些能力,DeepSeek 的人没测上,因为友商的 API 繁忙了。。。



最后,可以说 DeepSeek 这些日子,是受到了不少的讨论和非议的。
人才流失、国产芯片适配失败、各种传闻真看得人挺揪心的。

而 " DeepSeek 新版本下周更新 " 的消息,也都快成了和贾会计下周回国一样,成了科技圈的笑话。
甚至还有网友做了 AI 梗图,说梁文锋是因为要玩原神,才耽误了 DeepSeek V4。。。。

和华为等国产芯片厂商的合作,也让人看到了咱们在 AI 领域打破垄断的决心和实力。
去年 DeepSeek R1 的开源,给全球的大模型带来了大推理时代。
而今年的 DeepSeek V4,则是通过和华为等国产芯片厂商的合作,让人看到了咱们在 AI 领域打破垄断的决心和实力。
" 不诱于誉,不恐于诽,率道而行,端然正己 " 这是 DeepSeek 官方今天提到的 16 字真言。

撰文:早起 & 江江
编辑:江江 & 面线
美编:焕妍
图片、资料来源:
DeepSeek 官网


