扎克伯格重开一局

文 | 强调 Next

这是过去一年里 Meta 最需要一个好消息的时刻。Llama4 的基准造假丑闻让开发者社区彻底寒了心，旗舰项目 Behemoth 迟迟没有下文，与此同时 OpenAI、Anthropic 和 Google 的军备竞赛越打越猛。

扎克伯格今天把 Muse Spark 推到了台前。

这是 Meta 超级智能实验室（MSL）交出的第一份答卷，也是汪韬（Alexandr Wang）加入 Meta 九个月后，第一次向外界证明这笔 143 亿美元的赌注没有白下。发布当日，Meta 股价盘中最高涨超 10%，收涨约 9%，市场给出了它想看到的那个答案。

一、九个月，从废墟里盖起来

要理解 Muse Spark，先得理解它是怎么来的。

去年夏天，Llama4 的基准测试被抓了现行：Meta 承认拿了针对特定任务微调的专用版本去刷分，普通用户能用到的那个，跟公布的数据压根对不上。这件事对 Meta AI 的品牌伤害不小，但更深的问题在于，就算没有造假，Llama4 也没能在前沿模型序列里站稳脚跟。

扎克伯格再次推倒重来。

他找来了时年 29 岁的 Scale AI 联合创始人汪韬，花 143 亿美元买下 Scale AI 49% 的非投票股权，把汪韬塞进 Meta 首席 AI 官的位置，同时成立 Meta 超级智能实验室，从 OpenAI、Anthropic、Google 高薪挖人，据报道部分研究员的薪酬包含股权在内达到数亿美元。

然后是整整九个月的沉默。

汪韬在 X 上写道：" 九个月前，我们从零开始重建了 AI 技术栈。新的基础设施、新的架构、新的数据流水线。" 不是在原有基础上打补丁，是字面意义上的重头来过。

结果就是 Muse Spark。内部代号 Avocado，是 Meta 新 Muse 系列的首个型号，定位轻量、快速，但具备完整的推理能力。

二、" 思维压缩 "：效率才是真正的护城河

Muse Spark 最让人意外的数字，不是某个基准测试的排名，而是计算效率。

Meta 声称，Muse Spark 达到 Llama4 Maverick 同等性能水平所需的计算量，减少了十倍以上。背后是一种叫做 " 思维压缩（Thought Compression）" 的训练技术：在强化学习阶段，对模型过度思考的行为施加惩罚，迫使它用更少的推理 token 解决同样的问题，同时不牺牲准确率。

这件事的战略意义比表面看起来大得多。

AI 军备竞赛进入 2026 年，算力成本依然是最核心的约束之一。Meta 今年的 AI 基础设施支出上限调至 1350 亿美元，比上年几乎翻倍。但光砸钱不够，烧得更高效才是差异点。如果十分之一的计算量能跑出同等智力水平，那意味着同样的预算可以跑更多次实验、迭代更多代模型。

从这个角度看，" 思维压缩 " 不只是一个技术细节，它意味着这套新架构是可以规模化的。

三、偏科的 " 视觉天才 "

评估一个新模型，先看它的长板和短板分别在哪里。Muse Spark 的性格相当鲜明。

长板：多模态与健康

第三方机构 Artificial Analysis 的独立评测，给 Muse Spark 打出了 52 分（满分参照系中），在 Intelligence Indexv 4.0 排名第四，位列 Gemini3.1 Pro（57）、GPT-5.4（57）和 Claude Opus4.6（53）之后。

但在具体科目上，Muse Spark 的多模态能力是真实的强项。视觉理解（MMMU-Pro）排名第二，得 80.5，仅次于 Gemini 3.1 Pro 的 82.4。图表推理（CharXiv Reasoning）得 86.4，力压 Gemini 的 80.2 和 GPT-5.4 的 82.8，全场第一。

Health Bench Hard 上，Muse Spark 拿了 42.8，超过 GPT-5.4 的 40.1，把 Gemini 3.1 Pro 的 20.6 甩开一大截。Meta 号称与超过 1000 名医生合作，专门为健康场景定制了训练数据。

短板：逻辑推理与代码

然后是短板，同样明显。

ARCAGI 2（抽象推理）：Muse Spark 得 42.5，而 Gemini 3.1 Pro 得 76.5，GPT-5.4 得 76.1。差距将近一倍，这个分布不像是追分的问题，更像是架构层面的结构性缺口。

终端编程（Terminal-Bench2.0）：Muse Spark 得 59.0，GPT-5.4 是 75.1，Gemini 是 68.5。Meta 自己的技术博客里也直接承认，" 长程 agentic 系统和代码工作流 " 是当前的重点投入方向。

三级推理模式

模型提供三种模式：Instant（即时）、Thinking（思考）、Contemplating（沉思）。Contemplating 模式最有意思——它并行启动多个子智能体，分头处理任务再综合结论。Meta 宣称在这个模式下，HLE（人类最后考试）得分达到 58%，Frontier Science Research 达到 38%，能跟 Gemini DeepThink 和 GPT Pro 在同一个场上竞争。

值得一提的是，Muse Spark 的 token 效率也很出色。在 Intelligence Index 测评中使用了约 5800 万输出 token，与 Gemini 3.1 Pro 相当，远低于 Claude Opus4.6 的 1.57 亿。

四、深水炸弹：这对 DeepSeek 意味着什么？

Muse Spark 走向闭源，不仅是 Meta 的转型，更是全球 AI 生态的一次大洗牌。首当其冲的，就是一直以 " 开源高效率 " 著称的 DeepSeek。

DeepSeek 此前凭借极致的算力利用率在开源界封神，但 Muse Spark 提出的 " 思维压缩 " 直接在闭源侧把效率拉到了新高度。如果闭源模型不仅智力更强，连推理成本都下探到开源模型的水平，DeepSeek 这种 " 平替 " 的性价比优势将被大幅削弱。

当然，Meta 撤出开源，意味着开源界失去了一根定海神针。这给 DeepSeek 留下了巨大的市场空间去接管那些 " 被背叛 " 的开发者，但同时也让 DeepSeek 陷入了孤军奋战。没有了 Llama 作为行业标准，DeepSeek 必须独自面对闭源巨头们更厚的技术壁垒。

不过，汪韬主导的这次重建，在多模态融合和推理效率上的思路，与 DeepSeek 追求的方向高度重合。这意味着接下来的竞赛将不再是 " 开源 vs 闭源 " 的意识形态之争，而是纯粹的、关于 " 谁能用更少的卡跑出更强的智力 " 的终极对决。

五、最大的新闻：开源时代结束了

从 2023 年开始，Llama 系列是硅谷 " 开源 AI" 的精神图腾。开发者靠 Llama 做了无数应用，学术界用它做研究，初创公司用它起家，甚至竞争对手也拿它作为参照系。Meta 在这件事上赚到的品牌资产，是其 AI 业务最重要的护城河之一。

Muse Spark 放弃了这个护城河。

官方说法很温和：" 我们希望未来版本能够开源。" 但没有时间表，没有承诺，没有框架。当下这个版本，只能通过 MetaAI 应用、meta.ai 网站使用，部分合作伙伴可以申请 API 私测资格。架构和权重不公开。

这是彻底的闭源。

从商业逻辑上不难理解。Meta 今年 AI 基础设施支出上限 1350 亿美元，这个数字需要收入来支撑，单靠开源的生态声望显然不够用。当竞争对手的每一代模型都在拉开能力差距时，把最先进的架构创新保持私密，是避免自己的研发成果直接养肥对手的理性选择。

但从开发者社区的视角，这是一次背叛。Llama 之所以有价值，恰恰因为它可以被下载、被修改、被本地部署。Muse Spark 做不到这些。开发者失去的不只是一个可用的模型，而是一整套建立在 Meta 开放性信誉上的工作流。

汪韬在 X 上说得很直白：" 这是第一步，更大的模型已经在开发中。" 言下之意，Muse Spark 只是 Muse 系列的起点，后面的 Muse 才是真正的重头戏。这个表述在技术上可能是真的，但对那些已经依赖 Llama 生态的开发者来说，这个 " 未来的承诺 " 能不能兑现不好说。

六、扎克伯格真正在下的那盘棋

把 Muse Spark 放在产品层面看，它有点像今天的字节。

个人超级智能，这是扎克伯格在 Facebook 帖子里用的词。Muse Spark 将直接驱动 Facebook、Instagram、WhatsApp、Messenger 上的 MetaAI 助手，以及 Ray-BanMetaAI 眼镜。超过 35 亿人的触点，这是 OpenAI 和 Anthropic 没有的分发优势。

购物模式最能说明问题。MetaAI 识别用户在 Instagram 上看到的穿搭或家具，结合用户的兴趣数据和行为信号，直接推荐商品并完成购买。这不只是个好用的功能，这是 Meta 的社交图谱和用户数据，第一次被系统性地接入 AI 推理链条。

健康场景的布局同样值得注意。与 1000 名医生合作定制训练数据，这是 Meta 试图在医疗健康信息领域占据位置的明确信号。这个场景的黏性高、用户需求真实，但同时也意味着隐私风险极高——用户需要用 Facebook 或 Instagram 账号登录才能使用 Muse Spark，而 Meta 的隐私政策对于如何使用这些健康查询数据，措辞相当模糊。

从竞争格局来看，Muse Spark 的发布时机很有意思。就在前一天，Anthropic 刚刚公布了 Claude Mythos，初始仅向少数企业客户开放，重点指向网络安全防御。中国的 Z.AI 本周也在代码基准 SWE-BenchPro 上刷了新高。前沿 AI 的战线越来越宽，入局的玩家越来越多。

在这个背景下，Muse Spark 想做的事，是把 Meta 重新钉回顶层牌桌——不一定是最强，但得够格参与对话。

七、Llama4 的幽灵还在

最后还有一个问题，没有人能假装忘掉 Llama 4 的基准造假。

那次事件之后，Meta 对所有自己公布的测试数据都欠下了一笔信誉债。Muse Spark 发布时附上了大量基准数字，Artificial Analysis 也拿到了早期测试资格并独立评测。

但这个问题始终存在，你怎么知道这次是真实的？

Muse Spark 的 Contemplating 模式，是所有用户都能用到的那个，还是又是一个专为基准测试微调的特供版本？

Meta 说 Contemplating 模式会 " 逐步推出 "，这个措辞留了太多解释空间。

结语

Muse Spark 是一张入场券，不是终点。

它证明汪韬主导的九个月重建是有产出的，证明 " 思维压缩 " 这个新技术能跑出比 Llama4 Maverick 高得多的效率，也证明 Meta 在多模态和健康领域找到了真实的差异化空间。

但它同时也是一个信号：Meta 放弃了它在 AI 领域最独特的定位。Llama 时代，Meta 是那个把尖端模型免费开放给所有人的硅谷巨头，这件事让它在开发者心中的地位跟 OpenAI 和 Anthropic 完全不同。现在这个定位没了。

接下来 Muse 系列会涌出更强大的模型。更大的基建，更多的工程师，更高的算力密度。扎克伯格说得很清楚，这场赌局还在中场。

但有一件事已经确定：开源的 Meta，结束了。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

扎克伯格重开一局

宙世代

一起剪

相关阅读

荣耀谈张雪机车下一站还能不能夺冠：无论如何输赢 都是中国荣耀

吴泳铭的“手术刀”与阿里的“输不起”

GPT-6要来了，但AI行业早不跟 OpenAI玩了

SK海力士首发全球最多321层闪存的SSD！QLC要不要?

DDR5太贵！微星华硕双双跳过Arrow Lake Refresh新主板：转攻DDR4市场

脉脉发布80家隐形大厂名单：平均月薪近7万 口碑薪资双在线

超过Seedance的黑马，是“精心设计”的爆款？

水军团伙专黑理想、小米等车企 牟利上百万元！理想汽车回应

快乐马锁定下一个热门AI，阿里和字节哪个压力大?

小米18系列首发高通骁龙8E6稳了！小米最强数字旗舰 正式开启2nm时代

iPhone Air等换机必备！中国联通推出eSIM手机绑定号码数量查询功能

REDMI K90 Max推高温购机补贴：回收发热手机 最高补贴1200元

Mac运行49.7天必崩！macOS曝出定时炸弹Bug：所有版本无一幸免

真霸道！美国FCC拟全面禁止中国实验室测试美国电子产品

淘天一年卖了上千亿，年轻人为什么要靠玩具潮玩 “续命”？

最新评论

钛媒体

热门推荐

企业资讯

热门订阅 换一批

中保新知

GMIF创新观察

医线Insight

银莕财经

局市

挖贝网

荣耀谈张雪机车下一站还能不能夺冠：无论如何输赢都是中国荣耀

脉脉发布80家隐形大厂名单：平均月薪近7万口碑薪资双在线

水军团伙专黑理想、小米等车企牟利上百万元！理想汽车回应

小米18系列首发高通骁龙8E6稳了！小米最强数字旗舰正式开启2nm时代

REDMI K90 Max推高温购机补贴：回收发热手机最高补贴1200元

热门订阅换一批