要说这一年来,最难等到的大模型迭代。
无疑是新年期间扔出王炸、刷屏全网,让硅谷一众科技大厂股价暴跌的 DeepSeek 了。
眼看这一两年间。
国产大模型们迭代速度快如闪电、模型能力一节比一节强。
什么多模态、什么 Agent 特化模型搞得飞起。
但这小鲸鱼完全没有大动静,偶尔有点更新,也只是缝缝补补。
比如上个 DeepSeek V3.2 给用户解解馋,又或是开源个 OCR 模型,折腾别的技术方向。

有报道表示:
DeepSeek 创始人梁文锋近日在内部沟通中透露,DeepSeek 新一代旗舰大模型 DeepSeek V4 将于 4 月下旬正式发布。
然后机哥看了眼日期。
这个月只剩二十多天,再怎么跳票,也不可能跳到猴年马月吧。

分为快速模式和专家模式。
快速模式咱都很熟悉了,主要负责日常知识问答。
专家模式则负责解决复杂问题,但模型应该还不是 V4。

一个是优化底层架构。
这也让它拥有动态推理和静态记忆能力,有效减少 GPU 压力,让长文本处理起来更优雅精准。
另一个是流形约束超连接(mHC)。
主要是用来解决,超长上下文的记忆和逻辑关联出错问题。
当然模型参数肯定能达到万亿级别,并且支持原生多模态能力,能真正理解图片、视频和音频了。

就 ... 非常老派的做法。

有消息表示。
DeepSeek V4 在前期测试阶段,把早期访问和训练权限,优先提供给包括华为在内的芯片厂商。

英伟达和 AMD 的显卡算力更高,大模型厂商在正式开源发布之前,都会把模型放到这俩平台上测试。
但很显然,DeepSeek 选择了更 NB 的打法。

包括阿里、字节跳动和腾讯等科技大厂,也提前预定了一大批高算力 AI 芯片,做足准备。
等 DeepSeek V4 正式上线后,就能快速把新模型集成到自家 AI 产品上。
至于国产芯片大厂和大模型大厂们,最终会搞出什么火花。
静待四月,揭晓谜底。
图片来自网络