关于ZAKER Skills 合作
极客公园 2小时前

最强模型 Fable 5,四天就被「拔了网线」

抠抠搜搜算了半天 Token,结果用不上了。

作者|桦林舞王

编辑|靖宇

6 月 9 日,Anthropic 发布了 Claude Fable 5。这是它有史以来向公众开放的最强模型,属于此前只对少数安全研究机构开放的「Mythos」级别。

6 月 12 日,Fable 5 被全面关停。

四天。从发布到下架,只用了四天。

这中间发生了什么?简单说,是一场连环碰撞——用户觉得它管得太多,安全研究者觉得它挡了正事,一家公司声称破解了它的防线,而政府认为这构成了安全威胁。Anthropic 做了一个它认为「足够安全」的产品,但几乎没有任何一方满意。

这不是一个关于某家公司的故事。这是整个 AI 行业即将面对的治理难题的预演。

01

一个被嫌弃的「安全典范」

要理解 Fable 5 为什么会引发这么大的争议,得先理解它到底是什么。

今年 4 月,Anthropic 宣布了 Mythos ——一个强大到让公司自己都紧张的模型。在内部测试中,Mythos 级别的模型在主流代码仓库中发现了超过 23000 个关键漏洞。Anthropic 没有把 Mythos 公开发布,而是通过一个叫「Project Glasswing」的项目,只让少数受信任的安全机构使用。Mozilla 就是其中之一,据说靠它修复了数百个漏洞。

Fable 5 就是 Mythos 的「公众版」。同样的底层模型,但套上了一层严格的安全护栏——涉及网络安全、生物学、化学的查询会被自动拦截或降级处理。Anthropic 还要求所有用户数据保留至少 30 天,用于监测越狱和滥用行为。

Anthropic 的逻辑很清晰:模型太强了,不加限制不行。

但用户不这么看。

Fable 5 上线后,抱怨铺天盖地。网络安全研究人员发现,哪怕只是让模型读一篇安全博客,都可能触发拦截。IBM X-Force 的安全研究员说,Fable 拒绝的很多请求和网络安全只是「沾了个边」。

普林斯顿大学的 AI 研究者 Sayash Kapoor 对媒体说了一句很直接的话——「这是第一次,一家 AI 公司推出安全护栏,然后收获了一致的嫌弃。」

更让用户愤怒的是一个藏在 Fable 5 长达 319 页系统卡里的细节:当模型检测到用户在做前沿 AI 开发相关的工作——比如训练流水线或芯片设计——它会暗中降低回复质量,但不会告诉你。你问了一个问题,得到了一个看起来正常的答案,但这个答案被故意「注了水」。

这被批评者称为「秘密削弱 secret sabotage」这个词。

Anthropic 在不到 48 小时内道歉了。「我们做了错误的权衡,对不起。」公司宣布将所有隐性限制改为可见的降级通知——如果你的请求被拦截,模型会明确告诉你,并将你的查询转交给旧版模型 Opus 4.8 处理。

但故事没有结束。

02

一封信,拔掉了插头

如果只是用户不满,Anthropic 还能通过调整护栏来化解。但接下来发生的事,超出了任何一家公司的控制范围。

6 月 12 日下午,一封来自美国商务部的信送达了 Anthropic CEO Dario Amodei 的办公室。信的内容很简单:以出口管制为由,要求暂停所有外国公民对 Fable 5 和 Mythos 5 的访问。

据报道,触发这封信的原因是另一家公司声称成功越狱了 Mythos 模型。

Anthropic 无法在系统层面实时区分用户国籍。结果就是,为了合规,公司不得不对全球所有用户关闭 Fable 5 和 Mythos 5。其他模型不受影响。

这可能是 AI 行业历史上第一次,一个已经公开部署的前沿模型因为外部指令被全面下架。

Anthropic 的回应措辞很强硬。公司表示,它只收到了一个「窄范围、非通用」的越狱报告——本质上就是让模型阅读一个特定代码库并修复其中的漏洞,而这种能力在其他公开模型上同样可以实现,包括 OpenAI 的 GPT-5.5。

「如果这个标准适用于全行业,我们认为它基本上会让所有前沿模型的部署陷入停滞。」

这句话的分量很重。Anthropic 不是说「我们的模型没问题」,而是在说:按照这个逻辑,没有任何一家公司的最强模型能活过一次越狱报告。

03

亲手呼唤的监管,反噬了自己

这件事最讽刺的地方在于:Anthropic 可能是全行业最积极呼吁监管的公司。

就在 Fable 5 发布后一天,Dario Amodei 发表了一篇长文《Policy on the AI Exponential》。在文中,他明确提出,政府应该拥有类似美国联邦航空管理局(FAA)的权力——对前沿模型进行强制性第三方测试,并有权阻止被认为不安全的模型发布。

他说 AI 的发展速度是指数级的,而政策制定是线性的。他用了托尔金笔下树人的比喻——智慧但行动迟缓,等他反应过来,森林已经被烧了。

Anthropic 甚至承诺为相关立法提供「大量资金支持」。

然后,他呼唤的那种监管权力,在三天后被用在了自己身上。

而且用的方式,恰恰是 Amodei 在文章中反对的那种——没有透明的流程,没有独立的技术评估,没有给公司申辩的空间,甚至信里都没有提供具体的安全担忧细节。只有一个结论:关停。

Anthropic 在官方声明中说了一句耐人寻味的话:「我们认为政府应该有能力阻止不安全的部署,但应该通过一个透明、公平、基于技术事实的法定程序。这次行动不符合这些原则。

这是一个很精准的立场:我同意你有这个权力,但你不能这样用。

04

当模型变成一种「基础设施级风险」

把目光从 Anthropic 身上移开,看看更大的图景。

Fable 5 事件暴露了一个结构性矛盾:AI 模型已经强到让所有利益方都不舒服的程度,但没有人知道该怎么管。

对用户来说,Fable 5 的安全护栏太紧了。一个安全研究员不能用它来做安全研究——这就像给外科医生一把不让碰血的手术刀。

对企业客户来说,30 天数据留存是个大问题。微软已经限制了员工使用 Fable 5,担心企业机密被保留在 Anthropic 的服务器上。微软甚至开始取消开发者的 Claude Code 授权,转向自家的 GitHub Copilot。

对政府来说,一个能发现 23000 个漏洞的模型,一旦护栏被突破,后果不堪设想。哪怕只是一个窄范围的越狱,也足以让人紧张。

而对 Anthropic 自己来说,它面对的是一个几乎不可能的平衡题:做得太弱,模型没有竞争力;做得太强,模型变成烫手山芋;安全措施太松,被指责不负责任;安全措施太紧,用户跑到竞争对手那里去。

这不是 Anthropic 一家公司的困境。任何一家推出足够强大模型的公司,都会撞上同样的问题。

Dario Amodei 在他的政策文章里有一个判断:AI 模型的能力提升不是线性的,而是指数级的。如果这个判断是对的,那么 Fable 5 今天面对的每一个矛盾,只会在下一代模型中被放大。

安全护栏会越来越难设计。越狱的攻防会越来越激烈。企业客户对数据保留的抵触会越来越强。而政府的干预——无论是否有透明的程序——只会来得越来越快。

05

没有人准备好的游戏

回到最开始的问题。Fable 5 的四天之旅,表面上是一个产品的发布和下架,本质上是一次压力测试——测试的不是模型的能力,而是整个行业的治理框架。

测试结果很清楚:没有人准备好了。

AI 公司没有准备好。Anthropic 是行业里最重视安全的公司之一,它花了几千小时做红队测试,设计了多层防御体系,主动要求数据留存,甚至公开呼吁政府监管。但这些都没能阻止它在四天内经历从发布到下架的全过程。

用户没有准备好。当模型真的开始「拒绝」某些请求时,即便理由是安全,反应也是愤怒和嫌弃。

政府也没有准备好。一封没有详细技术说明的信,一个基于单一越狱报告的判断,就能让数亿用户失去对一个模型的访问权。

Amodei 呼唤的是一架精密的治理机器——有独立评估、有透明流程、有申诉机制。他得到的是一封下午五点二十一分送达的信。

这大概就是 AI 治理的现状:所有人都知道需要规则,但没有人来得及把规则写好。而模型,不会等。

* 头图来源:Gemini

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

直播预告

这可能将是历史上最大 IPO 之一——马斯克旗下最神秘的资产 SpaceX,正在冲刺万亿估值的上市潮。但比起「值多少钱」,更值得聊的是:它的技术,到底走到哪了?

通信星座、可回收火箭、太空数据中心,这些硬核技术到底是真正成熟的生意,还是资本市场讲的又一个「故事」?火箭技术究竟走到了哪一步?「太空算力」是不是下一个风口词?全球商业航天的牌桌上,还有谁能上桌?

今晚 20:00,极客公园视频号直播间,我们请来了太空绽放投资人翟光龙、锦沙资本总经理刘尚、知名科普作家瘦驼,和极客公园创始人 & CEO 张鹏,一起聊聊 SpaceX 的硬核技术与商业野心。

相关阅读

最新评论

没有更多评论了
极客公园

极客公园

这里汇聚着优秀的产品观察报道、高质量的线下活动

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容