APP下载

关于ZAKER

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

Skills 合作

差评 38分钟前

DeepSeek 憋了一年半，终于交作业了。

在练习时长一年半后，今天中午，DeepSeek 终于端上了新模型 DeepSeek V4，还在文章里直接把压力给到华为和寒武纪。。。

这一次的更新，在性能上其实没太出乎大家的意料，要说吊打 GPT，脚踢 Gemini 也不太可能。

但在开源模型里基本也够了，属于是站在一个开源领先，能和顶尖闭源模型一战的地位上。

现在，大家可以直接去官网上免费试用。直接打开对话框，不用任何操作就是 V4。

而且如果你想氪金，不管是便宜量大的 DeepSeek-V4-Flash，还是价格直接涨了 8 倍的 V4-Pro，都可以直接用上开发者 API。

不过即使涨价了，它炸了我都夸他响。因为和同等性能的友商比，这价格依旧太香了。

DeepSeek-V4-Pro 百万 token 输出大概 24 块钱，Claude Sonnet 4.6 差不多要 100 块。性能差不多，价格直接打到四分之一左右，这就很 DeepSeek。

当然，DeepSeek 还给大家画了个饼，说这次模型的涨价只是暂时的。

等过段时间华为的卡到货了，模型的价格还会给大家直接打下来。

小字最有用的一集

总的来说，这两个模型，基本上把 DeepSeek 过去一年半里攒的几个大招，一口气全都给端出来了。

在性能上就不说了，V4 Pro 能和 Claude Opus 4.6、GPT 5.4、Gemini 3.1 Pro 这些闭源顶尖模型打个五五开。

在写代码的生产力测试的环境中，V4 Pro 的能力也处于大于 Sonnet 4.5 ，但是小于 Opus 4.6 的阶段。

在知识库的丰富程度，推理能力上也都能够大幅度领先其他开源模型，同时比肩世界顶级闭源模型。

同时更重要的是，这次 DeepSeek 发出来的两个模型，都能支持 100 万 token 的上下文长度。

这玩意有啥用呢？

这两个月，什么小龙虾，爱马仕这类的 Agent 工具是层出不穷。在 Agent 的工作环境里，每次对话时所消耗的上下文是个天文数字。

而模型的上下文长度越长，就意味着干活的时候能记住更多的细节。

之前 Meta 的安全总监就翻过车，因为用的模型上下文长度不够，触发了 OpenClaw 的自动记忆压缩功能。

但一压缩，就把一些关键命令给忘掉了，结果就导致了这个安全总监的邮件给 AI 删了一大半。

而现在，DeepSeek 把百万上下文变成了模型的标配，新模型不管是 Pro 还是 flash，都能支持百万上下文长度。

这就意味着他俩干活的能力都很强。

我们也简单试了一下，给本红楼梦里随便贴了一段三体的科幻小说内容，然后丢给 DeepSeek V4 让它找。

结果用不着几秒，DeepSeek 就找到了异常。

同时和其他模型不太一样的是。

DeepSeek 的百万上下文还非常省钱。

大家都知道现在的大模型用的都是 transformer 架构，对话越长，KV Cache（临时缓存）就越大，推理成本也越高，模型也就越花钱。

但这次，DeepSeek V4 直接变成了超级省钱冠军。

同样带着 100 万 token 的上下文干活，V4-Pro 每生成一个 token，背后的计算量差不多只要原来的四分之一。

模型用来记住前文的 KV Cache，也只剩原来的十分之一。

而这次 DeepSeek 之所以能把成本给打下来，靠的是一套全新的注意力机制。

Hybrid Attention。

它把过去的 CSA（压缩稀疏注意力）和 HCA（重度压缩注意力）这两种技术结合了起来。

前者相当于是一本书写目录，后者相当于是给这个目录里的章节来写摘要。

有了目录和摘要辅助记忆之后，模型在干活的时候，真正需要计算的压力就降了不少。

同时，他们还用上了去年搓出来的 mHC 来保证长文本的稳定性，用了 Muon 优化器来让模型的参数更稳定。。。

在底层和显卡的适配优化上也下了一大堆功夫，在英伟达和华为的卡上都测试了自己做的 fine-grained EP，能让模型的推理速度提升 1.50 到 1.73 倍。

而且还用上了之前北大开源的 TileLang（Tile Language），让模型变得没有那么依赖老黄的 CUDA。

不过可惜的是唯一的缺点就是，目前的 DeepSeek 虽然很强很便宜，但这次的 V4 还是不支持多模态，也就是还是看不懂图片。

这块很有可能是它们下一代的目标。

另外，除了在小字催华为的卡之外，咱们还发现了 DeepSeek V4 的其他一些小彩蛋。

比如说在提到 Agent 能力的时候，除了给 Claude Code、OpenClaw 这些名声在外的产品做了优化，还提到了腾讯的 CodeBuddy 这个突兀的小资历。

这或许和前段时间，腾讯、阿里正在洽谈投资 DeepSeek 的消息，有一定关联。

还有在测试对比友商的时候，Kimi K2.6 和智谱 GLM-5.1 的一些能力，DeepSeek 的人没测上，因为友商的 API 繁忙了。。。

智谱官方在不久前，也友好地回应了：哥们你如果想要，咱们绝对支持，高速率账号安排上。

对了， DeepSeek 还给造卡的硬件厂商们，提了个建议，那就是别瞎堆带宽，要算好 " 算力与通信 " 的比例，这样才更省电省钱。

并且，DeeSeek 官方也很坦诚，直言目前和世界最先进的闭源旗舰模型，能力上还是有 3 到 6 个月的差距。

最后，可以说 DeepSeek 这些日子，是受到了不少的讨论和非议的。

人才流失、国产芯片适配失败、各种传闻真看得人挺揪心的。

有人说它们是江郎才尽、昙花一现。

而 " DeepSeek 新版本下周更新 " 的消息，也都快成了和贾会计下周回国一样，成了科技圈的笑话。

甚至还有网友做了 AI 梗图，说梁文锋是因为要玩原神，才耽误了 DeepSeek V4。。。。

但玩归玩，笑归笑，别拿你 D 老师开玩笑，DeepSeek 用实力证明，它依旧是那个开源的源神。

和华为等国产芯片厂商的合作，也让人看到了咱们在 AI 领域打破垄断的决心和实力。

去年 DeepSeek R1 的开源，给全球的大模型带来了大推理时代。

而今年的 DeepSeek V4，则是通过和华为等国产芯片厂商的合作，让人看到了咱们在 AI 领域打破垄断的决心和实力。

" 不诱于誉，不恐于诽，率道而行，端然正己 " 这是 DeepSeek 官方今天提到的 16 字真言。

而他们，也确实做到了。

撰文：早起 & 江江

编辑：江江 & 面线

美编：焕妍

图片、资料来源：

DeepSeek 官网

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

华为 ai

相关阅读

Windows 95老电脑跑最新Linux：开发者耗时6年做到了！

数码测评 1小时前

有爱一幕！前荣耀CEO赵明现身小米汽车展台耐心听讲解

数码测评 1小时前

新加速卡性能近3倍于H20、支持FP4！华为：昇腾超节点系列产品全面支持DeepSeek V4

数码测评 3小时前

天孚通信赴港IPO，光模块产业链上游深度绑定英伟达

钛媒体 19分钟前

12万转高速马达！小米米家高速水离子吹风机Pro开售：799元

快科技 2小时前

从零训练一个原生大脑，自变量选择入驻真实家庭“实习”

钛媒体 3小时前

希捷推出系列存储新品，应对消费端数据爆发式增长

快科技 3小时前

SpaceX又一“IPO重磅炸弹”

财联社 3小时前

蛋白质设计赛道竞速：AI+自动化实验如何构建研发新基建？

21世纪经济报道 4小时前

地平线连放「三把火」，英伟达的好日子到头了？

极客公园 4小时前

刚刚，GPT-5.5 发布！Claude Code 连夜治好降智，「奥特曼瘫倒」喜提续集

爱范儿 5小时前

马斯克要造自研GPU了！1.75万亿美元IPO文件曝光

数码测评 7小时前

终于来了！全新系列模型DeepSeek-V4官宣上线

快科技 6小时前

英特尔版MacBook Neo来了！Wildcat Lake笔记本首曝：主打入门平价定位

快科技 6小时前

GPT-5.5发布黄仁勋放话：英伟达全员都要用Codex编程

快科技 6小时前

最新评论

没有更多评论了

差评

订阅

觉得文章不错，微信扫描分享好友

扫码分享

热门推荐

企业资讯

查看更多内容

Blockchain News