APP下载

关于ZAKER

合作

虎嗅APP 44分钟前

Meta 憋了 9 个月的大招揭晓了

出品｜虎嗅科技组

作者｜赵致格

编辑｜苗正卿

头图｜视觉中国

在大模型赛道沉寂已久的 Meta 终于冒头了。

4 月 9 日，Meta 旗下的超级智能实验室（Meta Superintelligence Labs, MSL）突然官宣了首款自研大模型 Muse Spark。目前，这款模型已在 meta.ai 网站和 Meta AI App 上线，API 预览版向部分用户开放。受到这一好消息的提振，Meta 股价当日一度大涨近 9%，创下自今年 1 月以来最大单日涨幅。截至收盘，Meta 股价收涨 6.5%。

Meta 在博客文章中表示：" 过去九个月，MSL 从零重建了我们的 AI 技术体系，开发速度超越以往任何周期。这款初始模型设计小巧、运行高效，却足以推演科学、数学与健康领域的复杂问题。它是强大的基础，下一代模型已在研发中。"

一年之前，Meta 的开源大模型 Llama4 一经发布就迅速陷入造假争议。网友实测后发现 Llama4 的性能远不如官方给出的数据。在几个月后离职的 Meta 前首席科学家杨立昆（LeCun）也对媒体曝光了内幕，称 Llama4 团队在不同测试中换上了不同版本的模型来凑数。

而被骗的扎克伯格则开始了对 AI 团队的大破大立，一边对原团队大幅度裁员，一边为新成立的超级智能实验室启动科技史上堪称最激进的人才招募计划，不惜一切代价挖掘行业领袖，收购技术精英团队。

其中最引人瞩目的一笔支出无疑是 Meta 斥资 143 亿美元收购数据标注公司 Scale AI 近 49% 股权，并任命其联合创始人汪滔（Alexandr Wang）为首席人工智能官，负责领导 MSL 的工作。

Meta 在同时期延揽的技术精英还包括前苹果基础模型团队（AFM）负责人庞若明，来自 OpenAI 的大型语言模型专家 Trapit Bansal、强化学习权威 Shuchao Bi，从事多模态 AI 研发的 Allan Jabri 和 Lu Liu；来自 DeepMind 的机器学习先驱 Jack Rae 和图像生成顶尖专家 Huiwen Chang；还有 Claude 核心开发者 Anton Bakhtin 和推理系统专家 Joel Pobar 等等。

Meta 显然是不差人也不差钱，但在此前的 9 个月里，Meta 自研大模型的进度一直在云里雾里。只有在 Meta 财报会议和扎克伯格的部分采访中，人们才知道了这个代号牛油果的新模型的少量消息。今年 3 月，一度有传言称汪滔因为大模型进度迟缓而离职，但 Meta 很快进行了辟谣。

一边是其他科技大厂以稳健的姿态高频进行着大模型的版本更新，一边是 MSL 团队在长达 9 个月的时间里闭门炼丹，汪滔和他的团队显然承担了不小的压力。

随着 Muse Spark 的空降发布，汪滔看上去心情无比释放，先是在 X 上连发 8 条消息介绍 Muse Spark，并将其在 BenchMark 上的各项分数置顶，随后又转发了 50 多条消息，其中有团队成员的感言，有科技媒体的报道，也有不少普通网友的夸赞。

如果要总结这个让 Meta 基本满意的新模型水平，可以说它终于摆脱了 Llama4" 遥遥落后 " 的局面，综合表现挤进了全球大模型的第一梯队。

第三方评测机构 Artificial Analysis 给 Muse Spark 综合智能指数的打分是 52 分，低于 57 分的 Gemini3.1、57 分的 GPT5.4 和 53 分的 Claude Opus4.6，排名全球第四。而此前 Llama4 的评分仅为 18 分。

如果分开看 Muse Spark 在不同领域的评分，可以看出 Muse Spark 在考验高难度专业知识的 Humanity ’ s Last Exam with tools（HLE，人类最后的考试）中分数仅为 50.4，在五个主流前沿大模型中排名最末。

Muse Spark 在考察 AI 的纯视觉抽象推理的 ARC AGI 2 中同样表现较差，分数为 42.5，而在这一测试中表现最好的 Gemini3.1Pro 的分数为 76.5，两者差距明显。

Muse Spark 另一个相对而言的短板是编程能力，这一点 Meta 也在博客中承认，称 Muse Spark 在长时序 agentic 系统和编程工作流方面仍有差距 "。在 LiveCodeBench Pro 中，Muse Spark 80 分的成绩远低于 GPT-6.4 的 87.5；在接近实战的 Terminal-Bench 2.0（终端编程）中，Muse Spark 的 59 分低于 GPT5.4 的 75.1。

Muse Spark 也有一些优势明显的领域。在在 HealthBench Hard（开放式健康问答）的测试中，Muse Spark 得分 42.8，大幅领先于 GPT-5.4 的 40.1、Gemini 3.1 Pro 的 20.6 和 Opus 4.6 的 14.8。Meta 在博文中也特意提到了其新模型在医疗领域具有较强应用潜力。Meta 称自己与超过 1000 名医生合作，对模型进行训练以生成有关营养和运动等主题的更详细回答。可以说，健康是 Meta AI 团队当下押注的方向。

在 CharXiv Reasoning（图表科学推理）测试中，Muse Spark 以 86.4 分同样领先其他 4 位竞争对手，这显示其强大的多模态信息提取与逻辑推理能力，尤其擅长处理科学论文图表等复杂信息。

除了不错的综合表现，人们关注另一个点是，曾经把 Llama 系列向开发者全面开放的 Meta 此次选择了闭源。很多人评论称 Meta 已经背离了其 " 开放科学 " 的初衷。

汪滔在 X 上对此进行了回应，称 " 九个月前我们从零开始重写了 AI 技术栈，全新基础设施、全新架构、全新数据 pipeline ……这只是第一步，更大模型已在研发中，未来版本计划开源。"

我们不知道汪滔承诺的 " 未来会开源 " 是否能兑现。但前期为大模型研发投入巨资的 Meta 显然已经在探索 AI 模型的营利方式了。

目前，仅未具名的 " 特定合作伙伴 " 可使用 Muse Spark 的 " 私有 API 预览版 "，但 Meta 计划未来向更广泛用户提供付费 API 访问。此外，Meta 称该模型是 " 为全产品生态量身打造 "，未来几周将接入 Meta 旗下的 Facebook、Instagram、WhatsApp 以及智能硬件。

此外，Meta 还宣布将会推出 Muse Spark 的购物模式，大模型可以根据用户在 Instagram、Facebook 上关注的内容和品牌偏好做个性化的购物推荐。

或许 Meta 当下的核心思路是，相较于开源赚的声誉，用大模型盈利以及用大模型更好地服务自己的 30 亿用户更重要。9 个月前，Meta 在 MSL 实验室成立时还在聊 AGI 的理想，现在的 Meta 更关心如何让大模型渗透进社交、购物、医疗、硬件等真实场景。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

Meta 憋了 9 个月的大招揭晓了

宙世代

一起剪

相关阅读

女子靠转弯让直行疯狂碰瓷30余起：最终被刑拘

埃菲尔铁塔原装楼梯将拍卖

维修返利暗藏陷阱 多地曝光车险新型欺诈手段

云南发现5.54亿年前化石 破解百年达尔文困惑

我国电池容量最大新能源机车投运 1.5小时快速充满

粤港共建中药贸易平台，打造国际“正药”交易市场

抖音通报：共有50余人被移送司法机关处理

两部门：用3年左右时间集中力量支持30个左右城市（群）实施新一轮国家综合货运枢纽补链强链提升行动

商务部：希望欧盟与中方相向而行，以开放合作代替“筑墙设垒”

一位退伍老兵，怎样通过种田模拟游戏改变人生？

林峯重溫當年嬴政大喊場面,演技青澀：睇返都有啲尷尬

女孩玩“拼豆”不幸触电离世！这种加热设备一定别用

星巴克「千店千面」战略启动，产品更重要了，门店依旧是星巴克的核心竞争力

爆特种部队“黑料”，美军前女雇员被控泄露“保密国防信息”，违反反间谍法

正義女神｜劉展霆飾演「目中無人」串爆少年犯，與鍾柔美一吻成名

最新评论

读览精华

热门推荐

热门订阅 换一批

医线Insight

银莕财经

挖贝网

局市

中保新知

GMIF创新观察

维修返利暗藏陷阱多地曝光车险新型欺诈手段

云南发现5.54亿年前化石破解百年达尔文困惑

热门订阅换一批