APP下载

关于ZAKER

合作

虎嗅APP 10小时前

能力太强，Mythos 被 Anthropic “冻结”

出品｜虎嗅科技组

作者｜赵致格

编辑｜苗正卿

头图｜视觉中国

4 月 8 日，关注 AI 圈动态的极客们收到了一个好消息和一个坏消息。好消息是 Anthropic 那个被传得神乎其神的新模型 Claude Mythos 终于发布了预览版，而各种公开的数据也显示出 Mythos 确实全方面碾压了 Opus4.6。

但坏消息是，因为相关防护机制尚未成熟，Mythos 当前不对公众开放，Anthropic 还为其定制了一个安全项目玻璃墙计划（Project Glasswing）。根据这一安全项目，仅有 12 家机构能访问 Mythos。与此同时，Anthropic 还承诺提供最高 1 亿美元的模型使用额度，用于防御性网络安全研究。

过去一段时间，关于 Mythos 的传闻一直在满天飞。早在 3 月 26 日，Anthropic 的一个内容管理系统出现了错误，曝光了一篇还没有正式发布的草稿。这篇草稿称 Mythos 是 " 史上最强大的模型 "。

X 上同样有人爆料称，某家实验室完成了迄今为止最大的一次成功训练，而新模型的表现远远超过内部预期，也超过了大家根据模型缩放定律（scaling law）能预测的水平。

虽然普通人无法亲自体会这个传说中的又一次 "GPT 时刻 "，但 Anthropic 公布的一系列数据确实显示出 Mythos 强得可怕。

在专业漏洞复现测试 CyberGym 上，Mythos 的得分是 83.1%，而此前 Anthropic 的最强模型 Opus4.6 的分数是 66.6%。

在编程能力方面，Mythos 在 SWE-bench Pro、Terminal-Bench 2.0、SWE-bench Multimodal ( internal implementation ) 、SWE-bench Multilingual、SWE-bench Verified 中的测试分数均显著高于 Opus4.6。Anthropic 称，新模型的能力已经达到 " 可以与最顶尖人类安全专家竞争 " 的水平。

在考验计算机操作能力的 BrowseComp 和 OSWorld-Verified 测试中，Mythos 取得了 86.9% 和 79.6% 的高分并超过了 Opus4.6。

Mythos 不仅是在编程能力上表现强悍。在研究生水平科学问答测试（GPQA Diamond）测试中，Mythos 以 94.6% 的分数超过 Opus4.6 的 91.3%；在 Humanity ‘ s Last Exam 的有工具和无工具测试中，Mythos 56.8% 和 64.7% 的分数均超过 Opus4.6 十个百分点。

不过，上述维护的优异表现并不是 Anthropic 不敢上线 Mythos 的原因。Mythos 真正的可怕之处在它突破软件安全防线的能力太强了。

理论上，所有软件都可能会有漏洞，但是 Mythos 在发现并攻击漏洞上的能力远超人类水平。根据 Anthropic 的博文介绍，Mythos 已经在在操作系统、网络浏览器和其他软件中发现了 " 几千个 " 重大漏洞，其中包括 OpenBSD 中一个存在 27 年的错误，以及 FFmpeg 中一个存在 16 年、在自动测试工具运行 500 万次后仍未被检测到的漏洞。

可以说，全世界所有的软件和系统在 Mythos 面前都显得漏洞百出，脆弱不堪。假如 Mythos 的能力在当下被黑客掌握，无疑会有无数数字基础设施会遭殃。

Anthropic 的 CEO 达里奥 · 阿莫迪（Dario Amodei）Mythos 发布的同时也在 X 上表达了自己的担忧和信心。他表示：" 网络安全是前沿 AI 模型带来的首个明确且现实的危险，但绝不会是最后一个。若我们能共同迎接挑战、应对这一风险，这或将成为一份蓝图，用以解决未来更为艰巨的挑战。"

达里奥随后又进一步解释：" 一旦应对失误，其危险显而易见；但倘若应对得当，我们将真正迎来机遇：建造一个比 AI 网络安全能力出现之前更加安全的互联网与世界。"

面对 AI 发展带来的危险和机遇，Anthropic 提出的应对方法是发起玻璃翼计划（Project Glasswing）。这个项目将向特定组织开放其未公开发布的通用 AI 模型 "Claude Mythos 预览版 "，用于防御性网络安全工作。12 个合作伙伴包括亚马逊、微软、苹果、谷歌、英伟达、CrowdStrike 和 Palo Alto Networks 等科技与网络安全公司。

这 12 家公司覆盖了云计算、浏览器、芯片、金融基础设施、操作系统等各个领域的巨头。可以说，全球数字基础设施的核心参与者都在其中了。而这些参与者将作为防守方抢先一步用上顶级的 AI 模型，补上现有的系统漏洞。

一直以来，Anthropic 都被认为是最重视安全的 AI 的科技公司，不过与之伴随的也有不少争议，很多人认为 Anthropic 只是说说漂亮话，真实目的是想通过提升 AI 安全标准来提升中小公司的入场门槛。

但就此次的玻璃翼计划（Project Glasswing）而言，Anthropic 的行动无疑是值得人们赞许的。在研发出了最强模型后，Anthropic 没有将它第一时间推向市场谋取最大曝光，而是先让全球信息基础设施来完善自己，为全球软件安全筑起新一代屏障，也为为未来高风险 AI 治理提供了可复制的蓝图。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

能力太强，Mythos 被 Anthropic “冻结”

宙世代

一起剪

相关阅读

华为畅享90m Plus来了！麒麟8000芯片、预装鸿蒙OS 6

厚度仅0.94毫米！超薄仿生相机能实现140°超宽视角

还有比它更强的OEM固态吗！长江存储PC550 1TB评测：不用散热片也能满速的PCIe 5.0 SSD

上线华为云！智谱最新模型GLM-5.1：支持8小时自主长程任务 多产品体验

通义升级事业部、三大CTO入阵：阿里巴巴为AI拆藩篱？

索赔千亿美元！马斯克诉OpenAI案升级：要求罢免奥特曼职务

你的快递更快了 2025年平均2.13天即可送达

「敢不敢」胜过「能不能」，万字解析可灵 AI 的「非典型」突围路

华为之外第一！深开鸿开源鸿蒙社区代码贡献量超800万行

手机均价500元，闯关港股的酷赛智能，难逃存储芯片涨价劫？

黄仁勋想不到！中国寻求突破NVIDIA CUDA护城河：一种前所未有的新方式

高通骁龙X2 Elite笔记本刚开卖 直接涨价2400！

红果免费短剧APP月活突破3亿大关：两年半用户暴增30倍

年薪1.24亿！优必选天价招人，却被指路子走偏了

最新评论

虎嗅APP

热门推荐

企业资讯

热门订阅 换一批

局市

中保新知

GMIF创新观察

挖贝网

医线Insight

银莕财经

上线华为云！智谱最新模型GLM-5.1：支持8小时自主长程任务多产品体验

高通骁龙X2 Elite笔记本刚开卖直接涨价2400！

热门订阅换一批