关于ZAKER 合作
智东西 14小时前

我用 Meta “华人天团”打造的新模型,一张图复刻了一个“豆包 App ”

智东西

作者 | 陈骏达

编辑 | 云鹏

Meta 的 " 牛油果 " 模型,终于熟了!

智东西 4 月 9 日报道,今天,在成立 9 个月后,Meta 超级智能实验室(MSL)发布了其首款模型 Muse Spark(内部代号牛油果)。这是一个原生的多模态推理模型,支持工具使用、视觉思维链和多智能体编排。

在大模型测评平台 Artificial Analysis 上,Muse Spark 的智能指数直接从 Llama 4 Maverick 的 18 分,跳到了 52 分,介于 Claude Sonnet 4.6 和 Claude Opus 4.6 之间,算是进入第一梯队了。

我们第一时间对模型做了体验,上传了一张豆包 App 的截图,要求 Muse Spark 复刻。可以看到 Muse Spark 的回复风格比较口语化,甚至有一股 " 豆包味儿 ",这可能是因为这一模型主要面向 C 端用户。

Muse Spark 的生成速度很快,效果也不错,基本 1:1 复刻了豆包的页面,连图像都还原了。

Muse Spark 还通过了小球弹跳测试。有网友感叹道,时隔 1 年多,Meta 终于发了一款能通过六边形小球弹跳测试的大模型,这一历史性时刻值得记录。

Muse Spark 是 ScaleAI 创始人、Meta 首席 AI 官汪滔(Alexandr Wang)加入 Meta 10 个月后,交出的首份答卷。

这一结果来的并不容易,此前,在 Llama 4 遭遇史诗级滑铁卢后,Meta 大刀阔斧地重组了 AI 团队,唱衰大语言模型的杨立昆也最终离开。

汪滔称,Meta 在过去 9 个月从零开始打造 AI 技术栈,基础设施、架构、数据管线都是全新的,Muse Spark 正是这些努力的成果。

加入 Meta 的不少华人 AI 大牛纷纷转发了这一成果,包括赵晟佳、毕树超、余家辉、Jason Wei 等等。值得一提的是,MSL 团队的华人浓度很高,在转发新模型的 Meta 研究员中,从领导到基层员工,许多都是华人。

另据 Top 华人科创社的报道,Meta 还迎来了一位新的华人大牛,前蚂蚁集团 RL 实验室首席科学家吴翼加盟了 Meta MSL,直接向 Meta 副总裁和 MSL 联合负责人 Nat Friedman 汇报。

Muse Spark 是 MSL Muse 系列模型中的首款,未来还会有更多该系列模型发布。目前 Muse Spark 已开始逐步推送至 Meta 旗下的应用和 Meta.ai 网页端,不过仍有用户反映自己使用的模型仍是 Llama 3。

同时," 开源 " 两个字在相关博客中,一次也未被提及。

体验链接:meta.ai

一、多模态、医疗健康表现突出,智能体和编程仍是短板

从基准测试结果来看,Muse Spark 在多模态感知、推理、医疗健康和智能体等领域的表现处于行业第一梯队。不过,MSL 承认这一模型在长程智能体系统和编程工作流方面性能尚有差距。

以下是 Muse Spark 完整的基准测试成绩。需要注意的是,Meta 在这里采用了一些有 " 图表诈骗 " 嫌疑的数据呈现方式。乍一看,Muse Spark 的所有成绩都被标蓝,似乎全面领先,但实际上这一模型在图中的 20 项基准测试中,拿到的 SOTA 数量为 4 个。

在多模态能力维度,Muse Spark 的表现较有竞争力,在美国大模型圈没有被拉开明显代差,基本和 GPT-5.4 处在同一水平线上。Muse Spark 的表现也符合其原生多模态大模型的定位。

作为一款将部署于 Meta 旗下众多社交媒体、面向广大个人用户的模型,Muse Spark 在用户高频关注的医疗健康领域同样没有掉队。在 HealthBench Hard 与 MedXpertQA(多模态)两项评测中均斩获 SOTA,显然对此进行了重点优化。

Muse Spark 本次还发布了 " 沉思模式(Contemplating mode)",该模式可协调多个智能体并行推理。这使得 Muse Spark 能够与 Gemini Deep Think 和 GPT Pro 等前沿模型的极限推理模式相媲美。

开启 " 沉思模式 " 后,Muse Spark 在复杂任务中的能力得以提升,比如它在 HLE" 人类最后的考试 " 基准测试中,取得了 58% 的正确率,在 " 前沿科学研究 " 基准测试中取得了 38% 的正确率。

二、所需算力资源比 Llama 4 少一个量级,采用新型强化学习技术栈

跑分之外,这一模型的新定位和背后技术,也值得关注。

Meta 称,Muse Spark 是迈向个人超级智能的第一步,它能够理解用户所处的世界,多模态能力和医疗健康就是当前的两个重点。

Muse Spark 从底层架构层面,整合了跨领域和工具的视觉信息,在识别、定位方面的能力不错。这些功能结合起来,可以实现各种交互式体验。

例如,用户可以上传一张游戏画面截图,然后让 Muse Spark 把它变成一个能真正互动的游戏。

或是告知 Muse Spark 自己有高胆固醇的问题,并让 Muse Spark 基于多模态能力和医疗知识,做一个动态的食物推荐页面。

Meta 在博客中分享的 demo 也仅仅涉及多模态和医疗健康领域,这或许意味着 Muse 系列模型最终的用途,仍然是服务于扎克伯格的个人超级智能愿景,而不是单纯地追求智能上限。

在技术方面,MSL 大幅度提升了算力利用率,与之前的模型 Llama 4 Maverick 相比,Muse Spark 用少一个数量级以上的计算资源就能达到相同的性能。

同时,MSL 还在强化学习阶段采用了新技术栈,在大规模强化学习中带来平稳、可预测的性能提升。

三、一手实测:精准识别食物热量,还给 Meta AI 眼镜造了个新品

Muse Spark 发布后,我们进行了更多实测。

Muse Spark 的多模态能力确实不错,我们上传了一个啤酒瓶的照片,让它分析热量。Muse Spark 一眼就看出了啤酒的品牌、大小,甚至连原图中肉眼都难以分辨的酒精度都准确识别出来了。

它对于热量的分析则来自搜索,还把热量转换成了我们日常吃的食物,并给出要消耗这些热量对应的运动量,是比较实用的。

我们紧接着让 Muse Spark 给 Meta 的 AI 眼镜做一个宣传网页,没给任何参考。可以看到,在思考过程中 Muse Spark 主动调用 AI 生图模型打造了对应的产品图片,然后编写完整页面代码,整个过程耗时 2 分钟左右,效果如下:

这一网页的完成度不错,直接给 Meta 设计出了一款搭载 Muse Spark 的新品 AI 眼镜。模型还自夸道,这是一个旗舰级的官网,不是普通的落地页,是按 Apple Vision Pro 发布会标准做的。

Muse Spark 还可用于购物推荐。我们试着让它搜索一款汽车雨刮器,几秒钟就拿到了好几个选项,并且有对每款产品优势劣势的分析和最终购买建议。

结语:牛油果熟了,但 Meta 的 " 个人超级智能 " 仍需耐心

作为 Meta 超级智能实验室的首秀,Muse Spark 已经展现出跻身第一梯队的水准,足够让人期待未来的 Muse 系列后续产品。

不过,扎克伯格想要的 " 个人超级智能 ",目前还停留在医疗健康问答、网页复刻、购物推荐这些相对可控的场景里。距离真正改变数亿用户的交互方式,还有很长的路要走。

智东西

作者 | 陈骏达

编辑 | 云鹏

Meta 的 " 牛油果 " 模型,终于熟了!

智东西 4 月 9 日报道,今天,在成立 9 个月后,Meta 超级智能实验室(MSL)发布了其首款模型 Muse Spark(内部代号牛油果)。这是一个原生的多模态推理模型,支持工具使用、视觉思维链和多智能体编排。

在大模型测评平台 Artificial Analysis 上,Muse Spark 的智能指数直接从 Llama 4 Maverick 的 18 分,跳到了 52 分,介于 Claude Sonnet 4.6 和 Claude Opus 4.6 之间,算是进入第一梯队了。

我们第一时间对模型做了体验,上传了一张豆包 App 的截图,要求 Muse Spark 复刻。可以看到 Muse Spark 的回复风格比较口语化,甚至有一股 " 豆包味儿 ",这可能是因为这一模型主要面向 C 端用户。

Muse Spark 的生成速度很快,效果也不错,基本 1:1 复刻了豆包的页面,连图像都还原了。

Muse Spark 还通过了小球弹跳测试。有网友感叹道,时隔 1 年多,Meta 终于发了一款能通过六边形小球弹跳测试的大模型,这一历史性时刻值得记录。

Muse Spark 是 ScaleAI 创始人、Meta 首席 AI 官汪滔(Alexandr Wang)加入 Meta 10 个月后,交出的首份答卷。

这一结果来的并不容易,此前,在 Llama 4 遭遇史诗级滑铁卢后,Meta 大刀阔斧地重组了 AI 团队,唱衰大语言模型的杨立昆也最终离开。

汪滔称,Meta 在过去 9 个月从零开始打造 AI 技术栈,基础设施、架构、数据管线都是全新的,Muse Spark 正是这些努力的成果。

加入 Meta 的不少华人 AI 大牛纷纷转发了这一成果,包括赵晟佳、毕树超、余家辉、Jason Wei 等等。值得一提的是,MSL 团队的华人浓度很高,在转发新模型的 Meta 研究员中,从领导到基层员工,许多都是华人。

另据 Top 华人科创社的报道,Meta 还迎来了一位新的华人大牛,前蚂蚁集团 RL 实验室首席科学家吴翼加盟了 Meta MSL,直接向 Meta 副总裁和 MSL 联合负责人 Nat Friedman 汇报。

Muse Spark 是 MSL Muse 系列模型中的首款,未来还会有更多该系列模型发布。目前 Muse Spark 已开始逐步推送至 Meta 旗下的应用和 Meta.ai 网页端,不过仍有用户反映自己使用的模型仍是 Llama 3。

同时," 开源 " 两个字在相关博客中,一次也未被提及。

体验链接:meta.ai

一、多模态、医疗健康表现突出,智能体和编程仍是短板

从基准测试结果来看,Muse Spark 在多模态感知、推理、医疗健康和智能体等领域的表现处于行业第一梯队。不过,MSL 承认这一模型在长程智能体系统和编程工作流方面性能尚有差距。

以下是 Muse Spark 完整的基准测试成绩。需要注意的是,Meta 在这里采用了一些有 " 图表诈骗 " 嫌疑的数据呈现方式。乍一看,Muse Spark 的所有成绩都被标蓝,似乎全面领先,但实际上这一模型在图中的 20 项基准测试中,拿到的 SOTA 数量为 4 个。

在多模态能力维度,Muse Spark 的表现较有竞争力,在美国大模型圈没有被拉开明显代差,基本和 GPT-5.4 处在同一水平线上。Muse Spark 的表现也符合其原生多模态大模型的定位。

作为一款将部署于 Meta 旗下众多社交媒体、面向广大个人用户的模型,Muse Spark 在用户高频关注的医疗健康领域同样没有掉队。在 HealthBench Hard 与 MedXpertQA(多模态)两项评测中均斩获 SOTA,显然对此进行了重点优化。

Muse Spark 本次还发布了 " 沉思模式(Contemplating mode)",该模式可协调多个智能体并行推理。这使得 Muse Spark 能够与 Gemini Deep Think 和 GPT Pro 等前沿模型的极限推理模式相媲美。

开启 " 沉思模式 " 后,Muse Spark 在复杂任务中的能力得以提升,比如它在 HLE" 人类最后的考试 " 基准测试中,取得了 58% 的正确率,在 " 前沿科学研究 " 基准测试中取得了 38% 的正确率。

二、所需算力资源比 Llama 4 少一个量级,采用新型强化学习技术栈

跑分之外,这一模型的新定位和背后技术,也值得关注。

Meta 称,Muse Spark 是迈向个人超级智能的第一步,它能够理解用户所处的世界,多模态能力和医疗健康就是当前的两个重点。

Muse Spark 从底层架构层面,整合了跨领域和工具的视觉信息,在识别、定位方面的能力不错。这些功能结合起来,可以实现各种交互式体验。

例如,用户可以上传一张游戏画面截图,然后让 Muse Spark 把它变成一个能真正互动的游戏。

或是告知 Muse Spark 自己有高胆固醇的问题,并让 Muse Spark 基于多模态能力和医疗知识,做一个动态的食物推荐页面。

Meta 在博客中分享的 demo 也仅仅涉及多模态和医疗健康领域,这或许意味着 Muse 系列模型最终的用途,仍然是服务于扎克伯格的个人超级智能愿景,而不是单纯地追求智能上限。

在技术方面,MSL 大幅度提升了算力利用率,与之前的模型 Llama 4 Maverick 相比,Muse Spark 用少一个数量级以上的计算资源就能达到相同的性能。

同时,MSL 还在强化学习阶段采用了新技术栈,在大规模强化学习中带来平稳、可预测的性能提升。

三、一手实测:精准识别食物热量,还给 Meta AI 眼镜造了个新品

Muse Spark 发布后,我们进行了更多实测。

Muse Spark 的多模态能力确实不错,我们上传了一个啤酒瓶的照片,让它分析热量。Muse Spark 一眼就看出了啤酒的品牌、大小,甚至连原图中肉眼都难以分辨的酒精度都准确识别出来了。

它对于热量的分析则来自搜索,还把热量转换成了我们日常吃的食物,并给出要消耗这些热量对应的运动量,是比较实用的。

我们紧接着让 Muse Spark 给 Meta 的 AI 眼镜做一个宣传网页,没给任何参考。可以看到,在思考过程中 Muse Spark 主动调用 AI 生图模型打造了对应的产品图片,然后编写完整页面代码,整个过程耗时 2 分钟左右,效果如下:

这一网页的完成度不错,直接给 Meta 设计出了一款搭载 Muse Spark 的新品 AI 眼镜。模型还自夸道,这是一个旗舰级的官网,不是普通的落地页,是按 Apple Vision Pro 发布会标准做的。

Muse Spark 还可用于购物推荐。我们试着让它搜索一款汽车雨刮器,几秒钟就拿到了好几个选项,并且有对每款产品优势劣势的分析和最终购买建议。

结语:牛油果熟了,但 Meta 的 " 个人超级智能 " 仍需耐心

作为 Meta 超级智能实验室的首秀,Muse Spark 已经展现出跻身第一梯队的水准,足够让人期待未来的 Muse 系列后续产品。

不过,扎克伯格想要的 " 个人超级智能 ",目前还停留在医疗健康问答、网页复刻、购物推荐这些相对可控的场景里。距离真正改变数亿用户的交互方式,还有很长的路要走。

相关标签