
作者 | 陈骏达
编辑 | 云鹏
Meta 的 " 牛油果 " 模型,终于熟了!
智东西 4 月 9 日报道,今天,在成立 9 个月后,Meta 超级智能实验室(MSL)发布了其首款模型 Muse Spark(内部代号牛油果)。这是一个原生的多模态推理模型,支持工具使用、视觉思维链和多智能体编排。
在大模型测评平台 Artificial Analysis 上,Muse Spark 的智能指数直接从 Llama 4 Maverick 的 18 分,跳到了 52 分,介于 Claude Sonnet 4.6 和 Claude Opus 4.6 之间,算是进入第一梯队了。





汪滔称,Meta 在过去 9 个月从零开始打造 AI 技术栈,基础设施、架构、数据管线都是全新的,Muse Spark 正是这些努力的成果。
加入 Meta 的不少华人 AI 大牛纷纷转发了这一成果,包括赵晟佳、毕树超、余家辉、Jason Wei 等等。值得一提的是,MSL 团队的华人浓度很高,在转发新模型的 Meta 研究员中,从领导到基层员工,许多都是华人。



体验链接:meta.ai
一、多模态、医疗健康表现突出,智能体和编程仍是短板
从基准测试结果来看,Muse Spark 在多模态感知、推理、医疗健康和智能体等领域的表现处于行业第一梯队。不过,MSL 承认这一模型在长程智能体系统和编程工作流方面性能尚有差距。
以下是 Muse Spark 完整的基准测试成绩。需要注意的是,Meta 在这里采用了一些有 " 图表诈骗 " 嫌疑的数据呈现方式。乍一看,Muse Spark 的所有成绩都被标蓝,似乎全面领先,但实际上这一模型在图中的 20 项基准测试中,拿到的 SOTA 数量为 4 个。

作为一款将部署于 Meta 旗下众多社交媒体、面向广大个人用户的模型,Muse Spark 在用户高频关注的医疗健康领域同样没有掉队。在 HealthBench Hard 与 MedXpertQA(多模态)两项评测中均斩获 SOTA,显然对此进行了重点优化。
Muse Spark 本次还发布了 " 沉思模式(Contemplating mode)",该模式可协调多个智能体并行推理。这使得 Muse Spark 能够与 Gemini Deep Think 和 GPT Pro 等前沿模型的极限推理模式相媲美。
开启 " 沉思模式 " 后,Muse Spark 在复杂任务中的能力得以提升,比如它在 HLE" 人类最后的考试 " 基准测试中,取得了 58% 的正确率,在 " 前沿科学研究 " 基准测试中取得了 38% 的正确率。

跑分之外,这一模型的新定位和背后技术,也值得关注。
Meta 称,Muse Spark 是迈向个人超级智能的第一步,它能够理解用户所处的世界,多模态能力和医疗健康就是当前的两个重点。
Muse Spark 从底层架构层面,整合了跨领域和工具的视觉信息,在识别、定位方面的能力不错。这些功能结合起来,可以实现各种交互式体验。
例如,用户可以上传一张游戏画面截图,然后让 Muse Spark 把它变成一个能真正互动的游戏。

Meta 在博客中分享的 demo 也仅仅涉及多模态和医疗健康领域,这或许意味着 Muse 系列模型最终的用途,仍然是服务于扎克伯格的个人超级智能愿景,而不是单纯地追求智能上限。
在技术方面,MSL 大幅度提升了算力利用率,与之前的模型 Llama 4 Maverick 相比,Muse Spark 用少一个数量级以上的计算资源就能达到相同的性能。


Muse Spark 发布后,我们进行了更多实测。
Muse Spark 的多模态能力确实不错,我们上传了一个啤酒瓶的照片,让它分析热量。Muse Spark 一眼就看出了啤酒的品牌、大小,甚至连原图中肉眼都难以分辨的酒精度都准确识别出来了。


这一网页的完成度不错,直接给 Meta 设计出了一款搭载 Muse Spark 的新品 AI 眼镜。模型还自夸道,这是一个旗舰级的官网,不是普通的落地页,是按 Apple Vision Pro 发布会标准做的。
Muse Spark 还可用于购物推荐。我们试着让它搜索一款汽车雨刮器,几秒钟就拿到了好几个选项,并且有对每款产品优势劣势的分析和最终购买建议。
结语:牛油果熟了,但 Meta 的 " 个人超级智能 " 仍需耐心
作为 Meta 超级智能实验室的首秀,Muse Spark 已经展现出跻身第一梯队的水准,足够让人期待未来的 Muse 系列后续产品。
不过,扎克伯格想要的 " 个人超级智能 ",目前还停留在医疗健康问答、网页复刻、购物推荐这些相对可控的场景里。距离真正改变数亿用户的交互方式,还有很长的路要走。

作者 | 陈骏达
编辑 | 云鹏
Meta 的 " 牛油果 " 模型,终于熟了!
智东西 4 月 9 日报道,今天,在成立 9 个月后,Meta 超级智能实验室(MSL)发布了其首款模型 Muse Spark(内部代号牛油果)。这是一个原生的多模态推理模型,支持工具使用、视觉思维链和多智能体编排。
在大模型测评平台 Artificial Analysis 上,Muse Spark 的智能指数直接从 Llama 4 Maverick 的 18 分,跳到了 52 分,介于 Claude Sonnet 4.6 和 Claude Opus 4.6 之间,算是进入第一梯队了。





汪滔称,Meta 在过去 9 个月从零开始打造 AI 技术栈,基础设施、架构、数据管线都是全新的,Muse Spark 正是这些努力的成果。
加入 Meta 的不少华人 AI 大牛纷纷转发了这一成果,包括赵晟佳、毕树超、余家辉、Jason Wei 等等。值得一提的是,MSL 团队的华人浓度很高,在转发新模型的 Meta 研究员中,从领导到基层员工,许多都是华人。



体验链接:meta.ai
一、多模态、医疗健康表现突出,智能体和编程仍是短板
从基准测试结果来看,Muse Spark 在多模态感知、推理、医疗健康和智能体等领域的表现处于行业第一梯队。不过,MSL 承认这一模型在长程智能体系统和编程工作流方面性能尚有差距。
以下是 Muse Spark 完整的基准测试成绩。需要注意的是,Meta 在这里采用了一些有 " 图表诈骗 " 嫌疑的数据呈现方式。乍一看,Muse Spark 的所有成绩都被标蓝,似乎全面领先,但实际上这一模型在图中的 20 项基准测试中,拿到的 SOTA 数量为 4 个。

作为一款将部署于 Meta 旗下众多社交媒体、面向广大个人用户的模型,Muse Spark 在用户高频关注的医疗健康领域同样没有掉队。在 HealthBench Hard 与 MedXpertQA(多模态)两项评测中均斩获 SOTA,显然对此进行了重点优化。
Muse Spark 本次还发布了 " 沉思模式(Contemplating mode)",该模式可协调多个智能体并行推理。这使得 Muse Spark 能够与 Gemini Deep Think 和 GPT Pro 等前沿模型的极限推理模式相媲美。
开启 " 沉思模式 " 后,Muse Spark 在复杂任务中的能力得以提升,比如它在 HLE" 人类最后的考试 " 基准测试中,取得了 58% 的正确率,在 " 前沿科学研究 " 基准测试中取得了 38% 的正确率。

跑分之外,这一模型的新定位和背后技术,也值得关注。
Meta 称,Muse Spark 是迈向个人超级智能的第一步,它能够理解用户所处的世界,多模态能力和医疗健康就是当前的两个重点。
Muse Spark 从底层架构层面,整合了跨领域和工具的视觉信息,在识别、定位方面的能力不错。这些功能结合起来,可以实现各种交互式体验。
例如,用户可以上传一张游戏画面截图,然后让 Muse Spark 把它变成一个能真正互动的游戏。

Meta 在博客中分享的 demo 也仅仅涉及多模态和医疗健康领域,这或许意味着 Muse 系列模型最终的用途,仍然是服务于扎克伯格的个人超级智能愿景,而不是单纯地追求智能上限。
在技术方面,MSL 大幅度提升了算力利用率,与之前的模型 Llama 4 Maverick 相比,Muse Spark 用少一个数量级以上的计算资源就能达到相同的性能。


Muse Spark 发布后,我们进行了更多实测。
Muse Spark 的多模态能力确实不错,我们上传了一个啤酒瓶的照片,让它分析热量。Muse Spark 一眼就看出了啤酒的品牌、大小,甚至连原图中肉眼都难以分辨的酒精度都准确识别出来了。


这一网页的完成度不错,直接给 Meta 设计出了一款搭载 Muse Spark 的新品 AI 眼镜。模型还自夸道,这是一个旗舰级的官网,不是普通的落地页,是按 Apple Vision Pro 发布会标准做的。
Muse Spark 还可用于购物推荐。我们试着让它搜索一款汽车雨刮器,几秒钟就拿到了好几个选项,并且有对每款产品优势劣势的分析和最终购买建议。
结语:牛油果熟了,但 Meta 的 " 个人超级智能 " 仍需耐心
作为 Meta 超级智能实验室的首秀,Muse Spark 已经展现出跻身第一梯队的水准,足够让人期待未来的 Muse 系列后续产品。
不过,扎克伯格想要的 " 个人超级智能 ",目前还停留在医疗健康问答、网页复刻、购物推荐这些相对可控的场景里。距离真正改变数亿用户的交互方式,还有很长的路要走。