关于ZAKER 合作
虎嗅APP 44分钟前

Meta 憋了 9 个月的大招揭晓了

出品|虎嗅科技组

作者|赵致格

编辑|苗正卿

头图|视觉中国

在大模型赛道沉寂已久的 Meta 终于冒头了。

4 月 9 日,Meta 旗下的超级智能实验室(Meta Superintelligence Labs, MSL)突然官宣了首款自研大模型 Muse Spark。目前,这款模型已在 meta.ai 网站和 Meta AI App 上线,API 预览版向部分用户开放。受到这一好消息的提振,Meta 股价当日一度大涨近 9%,创下自今年 1 月以来最大单日涨幅。截至收盘,Meta 股价收涨 6.5%。

Meta 在博客文章中表示:" 过去九个月,MSL 从零重建了我们的 AI 技术体系,开发速度超越以往任何周期。这款初始模型设计小巧、运行高效,却足以推演科学、数学与健康领域的复杂问题。它是强大的基础,下一代模型已在研发中。"

一年之前,Meta 的开源大模型 Llama4 一经发布就迅速陷入造假争议。网友实测后发现 Llama4 的性能远不如官方给出的数据。在几个月后离职的 Meta 前首席科学家杨立昆(LeCun)也对媒体曝光了内幕,称 Llama4 团队在不同测试中换上了不同版本的模型来凑数。

而被骗的扎克伯格则开始了对 AI 团队的大破大立,一边对原团队大幅度裁员,一边为新成立的超级智能实验室启动科技史上堪称最激进的人才招募计划,不惜一切代价挖掘行业领袖,收购技术精英团队。

其中最引人瞩目的一笔支出无疑是 Meta 斥资 143 亿美元收购数据标注公司 Scale AI 近 49% 股权,并任命其联合创始人汪滔(Alexandr Wang)为首席人工智能官,负责领导 MSL 的工作。

Meta 在同时期延揽的技术精英还包括前苹果基础模型团队(AFM)负责人庞若明,来自 OpenAI 的大型语言模型专家 Trapit Bansal、强化学习权威 Shuchao Bi,从事多模态 AI 研发的 Allan Jabri 和 Lu Liu;来自 DeepMind 的机器学习先驱 Jack Rae 和图像生成顶尖专家 Huiwen Chang;还有 Claude 核心开发者 Anton Bakhtin 和推理系统专家 Joel Pobar 等等。

Meta 显然是不差人也不差钱,但在此前的 9 个月里,Meta 自研大模型的进度一直在云里雾里。只有在 Meta 财报会议和扎克伯格的部分采访中,人们才知道了这个代号牛油果的新模型的少量消息。今年 3 月,一度有传言称汪滔因为大模型进度迟缓而离职,但 Meta 很快进行了辟谣。

一边是其他科技大厂以稳健的姿态高频进行着大模型的版本更新,一边是 MSL 团队在长达 9 个月的时间里闭门炼丹,汪滔和他的团队显然承担了不小的压力。

随着 Muse Spark 的空降发布,汪滔看上去心情无比释放,先是在 X 上连发 8 条消息介绍 Muse Spark,并将其在 BenchMark 上的各项分数置顶,随后又转发了 50 多条消息,其中有团队成员的感言,有科技媒体的报道,也有不少普通网友的夸赞。

如果要总结这个让 Meta 基本满意的新模型水平,可以说它终于摆脱了 Llama4" 遥遥落后 " 的局面,综合表现挤进了全球大模型的第一梯队。

第三方评测机构 Artificial Analysis 给 Muse Spark 综合智能指数的打分是 52 分,低于 57 分的 Gemini3.1、57 分的 GPT5.4 和 53 分的 Claude Opus4.6,排名全球第四。而此前 Llama4 的评分仅为 18 分。

如果分开看 Muse Spark 在不同领域的评分,可以看出 Muse Spark 在考验高难度专业知识的 Humanity ’ s Last Exam with tools(HLE,人类最后的考试)中分数仅为 50.4,在五个主流前沿大模型中排名最末。

Muse Spark 在考察 AI 的纯视觉抽象推理的 ARC AGI 2 中同样表现较差,分数为 42.5,而在这一测试中表现最好的 Gemini3.1Pro 的分数为 76.5,两者差距明显。

Muse Spark 另一个相对而言的短板是编程能力,这一点 Meta 也在博客中承认,称 Muse Spark 在长时序 agentic 系统和编程工作流方面仍有差距 "。在 LiveCodeBench Pro 中,Muse Spark 80 分的成绩远低于 GPT-6.4 的 87.5;在接近实战的 Terminal-Bench 2.0(终端编程)中,Muse Spark 的 59 分低于 GPT5.4 的 75.1。

Muse Spark 也有一些优势明显的领域。在在 HealthBench Hard(开放式健康问答)的测试中,Muse Spark 得分 42.8,大幅领先于 GPT-5.4 的 40.1、Gemini 3.1 Pro 的 20.6 和 Opus 4.6 的 14.8。Meta 在博文中也特意提到了其新模型在医疗领域具有较强应用潜力。Meta 称自己与超过 1000 名医生合作,对模型进行训练以生成有关营养和运动等主题的更详细回答。可以说,健康是 Meta AI 团队当下押注的方向。

在 CharXiv Reasoning(图表科学推理)测试中,Muse Spark 以 86.4 分同样领先其他 4 位竞争对手,这显示其强大的多模态信息提取与逻辑推理能力,尤其擅长处理科学论文图表等复杂信息。

除了不错的综合表现,人们关注另一个点是,曾经把 Llama 系列向开发者全面开放的 Meta 此次选择了闭源。很多人评论称 Meta 已经背离了其 " 开放科学 " 的初衷。

汪滔在 X 上对此进行了回应,称 " 九个月前我们从零开始重写了 AI 技术栈,全新基础设施、全新架构、全新数据 pipeline ……这只是第一步,更大模型已在研发中,未来版本计划开源。"

我们不知道汪滔承诺的 " 未来会开源 " 是否能兑现。但前期为大模型研发投入巨资的 Meta 显然已经在探索 AI 模型的营利方式了。

目前,仅未具名的 " 特定合作伙伴 " 可使用 Muse Spark 的 " 私有 API 预览版 ",但 Meta 计划未来向更广泛用户提供付费 API 访问。此外,Meta 称该模型是 " 为全产品生态量身打造 ",未来几周将接入 Meta 旗下的 Facebook、Instagram、WhatsApp 以及智能硬件。

此外,Meta 还宣布将会推出 Muse Spark 的购物模式,大模型可以根据用户在 Instagram、Facebook 上关注的内容和品牌偏好做个性化的购物推荐。

或许 Meta 当下的核心思路是,相较于开源赚的声誉,用大模型盈利以及用大模型更好地服务自己的 30 亿用户更重要。9 个月前,Meta 在 MSL 实验室成立时还在聊 AGI 的理想,现在的 Meta 更关心如何让大模型渗透进社交、购物、医疗、硬件等真实场景。

相关标签

相关阅读

最新评论

没有更多评论了
读览精华

读览精华

精致阅读,品味生活

订阅

觉得文章不错,微信扫描分享好友

扫码分享