关于ZAKER 合作
钛媒体 39分钟前

汪滔的第一款大模型,让 Meta 终于重新上桌了

文 | 字母 AI

从汪滔(Alexandr Wang)加入 Meta 算起,已经过去大约十个月了,世界眼瞅着就要从一个夏天走到另一个夏天,Meta 的 " 牛油果 " 终于熟了。

当地时间 4 月 8 日,Meta 官宣发布 Muse 系列的第一款模型 Spark。这也是 Meta 吸纳汪滔并建立 " 超级智能实验室(MSL)" 之后端上来的第一盘菜。

汪滔在 X 上连发数条消息介绍新模型,表示:" 九个月前,我们从零开始重建了人工智能技术栈,包括全新的基础设施、架构和数据管道。Muse Spark 正是这项工作的成果。"

就连之前传闻与汪滔不和的 Meta 前首席科学家杨立昆(Yann LeCun)都赶来恭喜,气氛一片祥和。

Meta 官方强调,Spark 的设计初衷是 " 小巧快速 ",用这样一个模型打头阵,而不是 " 憋大招 " 直接发布碾压态势的模型,Meta 也清楚时间不等人。

目前来看这一招奏效了,Meta 的股价在当日一度上涨约 9%。

01 新模型 Muse Spark

首先,让我们来看看 Meta 发了个什么模型。

新模型名叫 Muse Spark,其中 Muse 是模型系列的名称。这个名字也挺有意思的,Muse 即 " 缪斯 ",Spark 是 " 火花 "。

Meta 表示,Muse Spark 是 Meta 迄今为止功能最强大的模型。它目前为 Meta AI 应用和网站提供支持,并将于未来几周内陆续登陆 WhatsApp、Instagram、Facebook、Messenger 和 AI 眼镜。Meta 还将通过 API 向部分合作伙伴提供该模型的私有预览版。

很明显,Meta 想要充分发挥自己的平台优势,明确表示 Muse Spark 是专为 Meta 的产品而打造的。

它将为 Meta AI 提供更智能、更快速的支持,并随着时间的推移解锁新功能,这些功能可以引用用户在 Instagram、Facebook 和 Threads 上分享的推荐内容和信息。

" 我们正朝着个人超级智能的目标迈进:打造一款能够随时随地帮助任何人处理他们最关心之事的智能助手。"

Muse Spark 的设计初衷是小巧快速,却足以应对科学、数学和健康领域的复杂问题,其核心是一个原生多模态推理模型。

与以往将视觉和文本 " 拼接 " 在一起的版本不同,Muse Spark 从底层架构开始重建,将视觉信息整合到其内部逻辑中。这种架构转变实现了 " 视觉思维链 ",使模型能够标注动态环境——例如识别复杂咖啡机的组件,或通过并排视频分析纠正用户的瑜伽姿势。

然而,最重要的技术飞跃是新增的 " 思考 " 模式。

Meta 声称,该功能协调多个子智能体并行推理,使 Meta 能够与谷歌的 Gemini Deep Think 和 OpenAI 的 GPT-5.4 Pro 等极端推理模型相媲美。

单模型测试结果来看。

Meta 的新模型 Muse Spark 在综合智能指数上表现亮眼。它在 Artificial Analysis Intelligence Index(一个涵盖多维度基准的综合智能评分)上拿到了 52 分,位列全球第 4 名。排在前面的分别是 Gemini 3.1 Pro 和 GPT-5.4(均为约 57 分),以及 Claude Opus 4.6(约 53 分)。

相比去年 Llama 4 Maverick 的仅 18 分,这已经是巨大的进步,显示 Meta 在前沿模型上明显追赶了回来。

具体强项和弱项:

. PhD 级科学推理(GPQA Diamond):Muse Spark 达到了 89.5% 的准确率,表现相当强劲,但仍略微落后于 Gemini 3.1 Pro(94.3%)、GPT-5.4(92.8%)和 Claude Opus 4.6(92.7%)。

. 图表与视觉理解(CharXiv Reasoning,在 Contemplating 模式下):得分 86.4,在这项多模态视觉推理任务上明显优于竞品——超过了 Gemini 3.1 Pro(80.2)、GPT-5.4(82.8)和 Claude Opus 4.6(65.3)。视觉理解和图表推理是 Muse Spark 的突出优势之一。

. 医疗硬推理(HealthBench Hard):得分 42.8%,大幅领先所有主要竞品,包括 GPT-5.4(40.1%)、Gemini 3.1 Pro(20.6%)和 Claude Opus 4.6(14.8%)。Meta 表示,这得益于他们与超过 1000 名医生合作进行的针对性训练,医疗相关能力是它的亮点。

. 软件工程与编码(SWE-Bench Verified):得分 77.4%,落后于 Claude Opus 4.6(80.8%)和 Gemini 3.1 Pro(80.6%)。Meta 自己也坦承,在长时程多步自主任务(agentic tasks)和复杂编码工作流上还有差距,需要继续投入。

. 多模态多学科理解(MMMU Pro):得分约 80.4 – 80.5%,仅次于 Gemini 3.1 Pro(83.9%),在视觉多模态任务中排名第二。

总体来看,Muse Spark 在视觉多模态推理、医疗领域和高效推理上表现突出,尤其适合 Meta 自己的社交、内容和健康生态;但在纯编码和长链条自主任务上仍有追赶空间。

02 推迟数次的 " 牛油果 "

在 X 上,发生了一个有趣的小插曲。

作为 Meta 如今的 AI 掌舵手,汪滔(Alexandr Wang)在 X 上咣咣发布消息宣传新模型。

这个时候,有人指出,Meta 给出的 benchmark 图表太混淆视听," 简直是犯罪 "。在这张图表中,Muse Spark 的分数排在第一列并且全部标成突出高亮色,乍一看,感觉是全面领先,但是细看便知其实有些分数是较低的。

在图表上玩花样,其实并不新鲜,OpenAI 此前已经多次因此受到指责。

有意思的是,汪滔这次选择了立刻 " 滑跪 ",回复该质疑:

" 抱歉,我们并非有意暗示我们的得分最高。恰恰相反,大多数评估结果表明,我们的模型还有很多需要改进的地方。我们不会再犯同样的错误。"

不难看出,Meta 也并非要让 Muse Spark 达到全面碾压之势,而是要回到 AI 的竞争行列当中。

从种种迹象来看,Muse 系列应该就是 Meta 此前内部代号 " 牛油果(Avocado)" 的项目。

牛油果已经跳票太久,Meta 如今采取了 " 先小后大 " 的策略。Meta 在官方博文中强调,Spark 主打快速小巧,这只是个开始:

" 我们的模型正在按预期发展。Muse Spark 是我们发展历程中的一个早期数据点,我们正在开发更大规模的模型。"

这和 AI 行业(尤其是头部玩家)习惯于 " 炸场 "" 惊世骇俗 " 的节奏不同,但是 Meta 确实也没时间慢慢来了。

去年初,Meta 发布 Llama 4 系列后,模型表现未达预期(尤其是 Behemoth 大模型性能提升不足),随后暂停了 Llama 系列的进一步开源研发。

到了去年夏天,Meta 斥资 143 亿美元投资 Scale AI(持股 49%),并直接挖来 Scale AI 创始人兼 CEO、28 岁的汪滔(Alexandr Wang)担任首席 AI 官,正式成立 Meta Superintelligence Labs(MSL)。

同时 Meta 展开疯狂挖角,从 OpenAI、Google 等公司高薪招募数十名顶尖研究员,部分 offer 达到数百万至上亿美元。

成本方面,Meta2025 年全年 AI 相关资本支出达 722.2 亿美元;2026 年 1 月财报指引显示,这一数字将大幅提升至 1150 亿— 1350 亿美元,几乎翻倍,主要用于 MSL 的模型训练和数据中心扩建。

过去这十个月的时间里,Meta 以及扎克伯格、Meta 的 AI 一把手汪滔身上,都压力山大。人们迫切地想看到汪滔加入、Meta 重组之后,究竟会端上来一盘什么菜。

至少从市场的第一时间反馈来看,Meta 放弃 " 憋大招 " 转而先上小菜的策略是奏效的,Meta 股价当日一度大涨近 9%,创下自今年 1 月以来最大单日涨幅。截至收盘,Meta 收涨 6.5%。

一个值得注意的信息是,过去外界一直认为 " 牛油果 " 将完全转向闭源,但 Meta 这次却没有把话说死。未来,Meta 可能走开源与闭源并行的混合策略,将旗舰模型和独家技术保留在内部的同时保持新鲜模型对广泛开发者群体的开源可用性。

Meta 总算把 " 牛油果 " 端上桌了,但这还远远不是终点。对汪滔和扎克伯格来说,Muse Spark 更像是一声发令枪,未来如何,还要看 " 越来越强 " 的承诺能不能兑现。

相关标签

相关阅读

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容