DeepSeek 塞进苹果本儿，分币不花实现“龙虾自由”

文 | 字母 AI

在 agent 时代最贵的是什么？是 token。

一些重度 agent 使用者，一个月用掉几亿 token，账单小几万块钱也是常有的事。

然而现在开始，有这么一个开发者他开源了一个本地方案，一台苹果笔记本就能部署，也就是说，你从此实现了 " 龙虾自由 "，跑再多任务，也不会再为 token 付出一分钱了。最关键的是，他用的还是 DeeSeek V4 Falsh。

几天前，antirez 在 GitHub 上发布了一个项目，叫 ds4。

这是一个专门为 DeepSeek V4 Flash 写的推理引擎。一共几千行 C 代码，可以让 DeepSeek V4 Flash 这个模型在 128G 内存的苹果电脑上跑起来。

开发者 antirez，本名 Salvatore Sanfilippo，是意大利程序员，同时他也是开源数据库 Redis 的原作者。Redis 后来成为全球互联网基础设施里最常用的内存数据库之一。

往好的方面去想，DeepSeek 影响力足够大，吸引到了圈内顶流的程序员，但是坏的方面是，DeepSeek 这回真的免费了。

任何开发者都可以用 ds4，去把 DeepSeek V4 Flash 装进自己的 MacBook Pro 里，本地跑代码、本地读上下文、本地做 agent 任务，而这一切的一切，不需要给 DeepSeek 付 1 分钱。

虽然 DeepSeek V4 Flash 本身开源，可 FP16 精度的原始模型要吃掉 284G 内存，显存需求更是高达 160G。

因此，想运行它，你至少得有两张英伟达 A100 80GB、一条 512GB DDR5 ECC 内存，以及一个 4TB NVMe SSD。总成本 50 万人民币。

而现在，一台 3 万块钱的 MacBook Pro 就能跑。

那 antirez 为什么偏偏选中 DeepSeek V4 Flash 呢？

原因是 DeepSeek 最适合被 " 塞进本地电脑 "。

它有 284B 总参数，足够大；但每次推理只激活 13B 参数，又不像传统大模型那样沉重。

它支持 100 万 token 上下文，适合编程助手这种长任务；同时 KV cache 压缩得足够狠，给本地内存和 SSD 留下了操作空间。

DeepSeek V4 Flash 刚好站在了这样一个神奇的平衡点上，既大到值得折腾，又小到能被塞进苹果笔记本里。

YC 的 CEO Garry Tan 在 X 上转了这条消息，只打了一行字：正在下载…… 100 万 token 上下文窗口，可用的编程助手能力，全在一台 128GB 的 MacBook Pro 上，太疯狂了。

ds4 究竟是什么？

先说结论，ds4 不是一个模型，它是一台 " 专用发动机 "。DeepSeek V4 Flash 是车，苹果电脑是路，ds4 负责把这辆原本更适合跑在云端的大车，改到本地机器上能跑、能接 API、还能被 coding agent 调用。

过去大家想在自己电脑上跑大模型，普遍用的都是 llama.cpp 这个工具。它的好处是什么模型都能跑，Llama、Qwen、DeepSeek 全都支持。

可问题就是，什么都能跑，就意味着什么都跑不到最快。为了照顾所有模型，llama.cpp 必须做很多妥协，性能上不可能做到极致。

antirez 的想法正好相反，他才不管别的模型死活，他就专门伺候 DeepSeek V4 Flash 这一个，把它优化到极限。

他一共做了 3 件事。

第一件事，是不对称的 2-bit 量化。

DeepSeek V4 Flash 的架构是 MoE（Mixture of Experts），284B 总参数里，每次推理只激活 13B，这 13B 是路由挑出来的若干个专家子网络。

就像一个工具箱里有 284 把工具，每次只拿出 13 把来用。这 284B 里面，有一大堆 " 备选专家 " 占了 90% 以上的空间，但它们不是每次都用，只是候补。

antirez 的做法是，只对这批 routed experts 做激进的 2-bit 量化，up 和 gate 矩阵用 IQ2_XXS，down 矩阵用 Q2_K，而模型里所有关键路径上的组件，包括 shared experts、projections、routing 网络，全部保持原始精度不动。

也就是说，antirez 把这些 " 候补专家 " 狠狠压缩，压到只剩原来 1/4 的大小，但那些每次都要用的核心组件，一点都不动，保持原样。

这是一种不对称的压缩策略，砍掉体积大头，保住质量命脉。

第二件事，是把 KV Cache 搬到 SSD 上。

DeepSeek V4 Flash 支持 100 万 token 的上下文，这相当于你可以把一整本小说扔给它，它能全记住。

但这么长的上下文，意味着 AI 在工作时要不停地回头翻看前面的内容。为了让这个 " 回头翻看 " 的动作不至于慢到卡死，AI 需要把这些内容暂存在一个叫 " 缓存 " 的地方，方便随时调用。

以前的做法是把这个缓存放在内存里。内存速度快，AI 每次生成一个字都要频繁查这个缓存，所以必须放内存。

但问题是，如果让 128GB 内存的 MacBook Pro 跑 DeepSeek-V4 Flash，光缓存就能把内存吃光，模型本身都没地方放了。

所以 antirez 的做法是直接把缓存扔到硬盘（SSD）上。ds4 把一部分 KV 状态做成可落盘、可恢复的缓存，让长提示词和 agent 反复续写时，不必每次从头处理。

这听起来有点离谱，因为硬盘比内存慢多了。

然而现代 Mac SSD 足够快，适合做 KV 缓存持久化和恢复。加上 DeepSeek V4 Flash 本身对缓存做过压缩，读写量不大，所以硬盘完全顶得住。

结果就是内存省出来了，100 万 token 的超长对话真的在一台 MacBook 上跑起来了。

不过这不等于 128GB MacBook 可以毫无压力地把 100 万 token 全部拉满。

按照 ds4 自己的说明，2-bit 模型本身已经要占掉大约 80GB 级别的内存，真正日常使用时，100k 到 300k 上下文会更现实一点。

第三件事，是纯 Metal 原生路径。

antirez 把所有优化都押在苹果电脑的 GPU 上。

因此他专门为苹果芯片写了一套代码，让 DeepSeek V4 Flash 能在苹果电脑上跑得飞快。

至于 CPU，并不是这个项目的重点。README 里也写得很直白，CPU 模式目前还不稳定，甚至可能触发系统崩溃。antirez 进一步表示，如果有人真想走这条路，后续大概还得靠社区来补救。

在 M3 Max 128GB 的 MacBook Pro 上，实测速度是每秒能生成 26 个字左右。M3 Ultra 512GB 的 Mac Studio 上能跑到每秒 36 个字。

不算快，但写代码、调试这些日常工作完全够用。

更有意思的是，antirez 是独自一人通过 GPT-5.5 完成的整个这个项目。

利好 DeepSeek

根据外媒报道，DeepSeek 目前正在寻求高达 73.5 亿美元的融资，梁文锋现在就处在这个关键的转折点上，用商业叙事取代 DeepSeek 过往的技术叙事。

那投资人看什么？不只是看模型跑分，不只是看 API 调用量，更看生态位和不可替代性。

一个海外知名开发大佬，愿意为你的模型写专用引擎，这本身就说明 DeepSeek 在海外有着一定的生态地位。

过去一年，中国开源模型的出海叙事里，主流衡量标准是 benchmark，MMLU、HumanEval、SWE-bench，一串又一串的数字。

但有人愿意围绕你做二次工程，才代表你的模型被认可了。Anthropic 用千问做实验，Cursor 蒸馏 Kimi，这种认可比分数更值钱。

antirez 不是 AI 圈里那种什么新模型都要试一遍的博主

他选一个模型，然后还要花几周的时间去写专用推理引擎、做特制量化、搭 HTTP 服务层、做 agent 集成测试，显然是他认为 DeepSeek 值得。

这就变相等于，一个有信誉的第三方，在用自己的时间和名声给 DeepSeek-V4 背书。

说到国产模型出海，目前我能想到的路有两条。

一条是 API 被调用。你提供服务，别人付费使用，你是 service provider，客户是 consumer。

这条路很直接，也很现实，别人可以随时切换，你无时无刻都得对抗你的竞品，从性能到价格。

另一条是模型被改造。有人把你的权重拿走，做量化、做蒸馏、做专用 runtime、做本地部署、做 agent 工具链。在这条路里，你的模型成了材料。

材料和服务的区别在于，材料会被嵌入到别人的工具链里，然后就很难被换掉了。

举个例子，某个开发者把 ds4 集成到自己的 coding agent 里，写了一堆配置文件、调试脚本、自动化流程。他的团队成员也都习惯了这套工具，公司的代码库里到处都是基于 DeepSeek 本地推理的调用。

这时候如果要换成别的模型，就不是 " 改个 API key" 那么简单了，而是要重新适配引擎、重写脚本、重新培训团队习惯。成本太高，大概率就不换了。

这就是 " 被嵌入 " 的粘性。

ds4 把 DeepSeek V4 Flash 嵌进了 Metal 原生本地推理这个场景。截至发稿，Hugging Face 上 antirez 那个 deepseek-v4-gguf 仓库，就已经有 25000 次下载了。

每一次下载，都意味着有人在自己的机器上跑起了 DeepSeek，粘性也就这么一点一点的建立起来了。

更值得注意的是连锁效应。

Hacker News 上有这样一条高赞评论，他说如果以后针对精确的 GPU 加模型组合构建超优化推理引擎会怎样？GPU 越来越贵，抽象层去掉得越多，优化空间就越大。

这个方向一旦被验证，意味着每一代有分量的开源模型发布时，都会有人跳出来给它做专属引擎、专属量化、专属 agent 接入。

相当于是每一代模型都应该有一个自己的 "antirez"，开发出一个自己的 "ds4"。

DeepSeek V4 Flash 正好踩在了这个起点上。

如果这套逻辑成立，那么后续每个 V4 Flash 的小版本迭代，都会天然地被嵌入到这个 " 一代模型配一个专用引擎 " 的循环里。

梁文锋成了第一个吃螃蟹的人。

DeepSeek 也从一个模型品牌，变成海外开发者手里的基础设施材料。

对于现阶段的 DeepSeek 来说，这种 " 升维 " 非常重要。

焉知非福

讲完了利好，必须讲另一面。

目前来看，DeepSeek 的核心商业化路径是 API。开发者调用，按 token 付费，薄利多销。

这是 DeepSeek 最擅长的打法。

但 ds4 这种项目，本质上是在 " 劝退 " 一部分 API 用户。

你可以这么来理解，一个独立开发者或者小团队，过去用 Claude Code 或者 DeepSeek 的 API 跑 coding agent。coding agent 是高 token 消耗场景，长上下文、多轮对话、频繁工具调用、反复重试。

按 token 计费的话，一个重度 agent 的开发者每个月可能要花几千块钱的 token 费用。

然而现在他面前出现了另一个选项。

花几万块钱买一台 128GB 的 MacBook Pro，然后跑 ds4。

前期投入一次，之后推理没有边际成本，数据不出本地，延迟完全可控。

外网论坛上有个开发者分享了他的方法：日常写代码、改 bug 这些简单任务，全扔给本地的 ds4 跑，不花钱。只有遇到复杂的架构设计问题，才切换到云端的 DeepSeek V4-Pro 或者 Claude Opus。

高 token 消耗的部分被本地化了，只有少量高价值调用还留在云端。

相当于一分钱没有给到 DeepSeek，却在绝大多数时间都在使用 DeepSeek。

同时，antirez 采用的量化方法也是有 " 坑 " 的。

即使是不对称量化策略，只压 MoE 专家不压关键路径，也不可能完全没有质量损失。

外网论坛上已经有人发出了测试结果，ds4 本地量化版本在超 2000 行代码的文件里偶尔丢失变量作用域，幻觉略多，MoE 路由层对量化噪声尤其敏感。

这就引出了另一个更麻烦的问题，叫做体验解释权。

就像 DeepSeek 服务器崩了，我不知道是为什么崩的，我只会觉得是 DeepSeek 不行。

用户调用 DeepSeek 官方 API，如果效果不好，他大概率会认为是 DeepSeek 自己的问题。但用户在本地跑 ds4 时，面对的是 2-bit 量化、Metal runtime、SSD KV cache、上下文截断、agent 配置等一整套变量。

这里面任何一个环节出问题，最后往往被归因到 "DeepSeek 不行 "。

别人帮你扩散模型，但他并不会帮你去维护口碑，主要是人家也没这义务。

更深一层看，" 成为材料 " 和 " 成为平台 " 是完全不同的两件事，梁文锋更想要的是后者，可是 ds4 却让 DeepSeek 成为了前者。

材料只会被嵌入别人的工具链，不能为 DeepSeek 提供商业闭环，只有平台才掌握分发、计费、账户、数据、开发者关系和升级节奏。

DeepSeek 如果只是提供权重，被 antirez、Cursor、各种本地 agent 和第三方 runtime 拿去改造，它当然获得了名声。不过真正能留住用户的人，可能是那些工具链的开发者。

这就是开源模型的悖论。

模型越成功，越容易成为别人的底层能力；但底层能力如果没有抓住开发者的入口，就有可能被上层产品吃掉大部分商业价值。

所以 ds4 对 DeepSeek 不是简单的好消息，也不是坏消息。

可以肯定的是，对于 DeepSeek 来说，他们又有故事可以讲给投资人听了。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

DeepSeek 塞进苹果本儿，分币不花实现“龙虾自由”

宙世代

一起剪

相关阅读

“养虾人”自述：我为什么卸载龙虾？

2026年第18周国内手机市场排名：华为第一 苹果第五

华为Sound X5开售 搭载全新小艺AI 采用18K镀金工艺

苹果预计更新四款Mac产品 含MacBook Ultra及M5芯片机型

苹果AI挂件五大特征曝光 仅AirTag大小 或需配合iPhone使用

华为Pura 90标准版上市 256GB版售4699元 支持红枫影像

英特尔与苹果达成代工协议

多平台优化规则：美团取消骑手超时扣款，滴滴下调抽成上限

获高秉强、蓝驰领投数千万融资，浙大00后创业者从远景观测切入AI智能影像

行业首创自动制冰配件！米家冰箱Pro至尊版开售：3994.15元起

黄仁勋怒批AI创业者：有些CEO总喜欢装上帝 制造恐慌有害无益

OSMO Pocket 4P，是大疆自己打响的「云台相机下半场」第一枪

腾讯京东撑腰，年成交155亿，二手车“新王”淘车车冲刺IPO

Kimi、智谱背后的“隐形冠军”藏不住了！AI Infra抢跑者开始重写资本坐标

国家网信办、国家发改委、工信部联合印发！事关智能体

最新评论

钛媒体

热门推荐

企业资讯

2026年第18周国内手机市场排名：华为第一苹果第五

华为Sound X5开售搭载全新小艺AI 采用18K镀金工艺

苹果预计更新四款Mac产品含MacBook Ultra及M5芯片机型

苹果AI挂件五大特征曝光仅AirTag大小或需配合iPhone使用

华为Pura 90标准版上市 256GB版售4699元支持红枫影像

黄仁勋怒批AI创业者：有些CEO总喜欢装上帝制造恐慌有害无益