文 | 舒书
OpenAI、Anthropic、谷歌,三家在 AI 赛道上激烈竞争的对手,罕见地站在了同一战线上。
它们正通过前沿模型论坛共享信息,联手打击所谓的 " 对抗性蒸馏 "。Anthropic 发布报告称,有迹象表明部分流量来自与深度求索(DeepSeek ) 、稀宇科技(MiniMax)和月之暗面(Kimi)相关的账户,并指控其进行了总计超 1600 万次的对抗性交互。被指控方回应,在服务器上部署开源模型自动调用是行业普遍行为,仅凭 API 调用模式就断言 " 蓄意蒸馏 ",证据链并不完整。
这起事件涉及技术、法律、商业、安全、地缘政治的多重博弈。核心判断:护城河焦虑是本质,安全防卫是合理化外衣。
一、厘清概念:1600 万次交互不等于蒸馏
讨论这件事,首先需要区分几个关键概念:
对抗性交互:通过高频、自动化的 API 调用,诱导模型输出特定内容(包括绕过安全护栏、提取模型能力或大规模采集输出数据)。
对抗性蒸馏:用对抗性交互产生的数据训练自己的模型。
Anthropic 指控的核心是对抗性交互,但将 1600 万次交互等同于 " 蓄意蒸馏 ",存在逻辑跳跃——交互是行为,蒸馏是目的。即便存在大量对抗性交互,也不能直接证明这些数据被用于训练其他模型。被指控方完全可能是在做安全研究、模型能力边界测试。
API 服务条款的复杂性:不同厂商、不同时期的 API 条款差异较大。有的明确禁止将输出内容用于模型训练,有的仅限制商业滥用,学术研究、个人测试是否违规存在灰色地带。
二、大厂的焦虑:安全护栏与商业护城河
大厂对外宣称的打击理由,核心是安全。
Anthropic 强调,对抗性交互会剥离模型的安全护栏——比如防止生成生物武器配方、规避仇恨言论限制。这些绕过护栏的数据如果被用于训练其他模型,相当于把没有刹车的车开上了路。
从数据看,大厂在安全对齐上的投入是真实的。据 Anthropic 公开信息,其宪法 AI 安全训练耗资数千万美元,OpenAI 的 RLHF 团队规模超过百人。如果这些安全机制可以被低成本绕过,确实存在风险。
但问题的另一面是商业护城河。
美国官员预计,未经授权的蒸馏行为每年给硅谷实验室造成数十亿美元利润损失。大厂真正担心的,不仅是安全护栏被剥离,更是技术领先的叙事被打破。当竞争对手可以用 1% 的成本复制 80% 的能力,大厂的定价权、市场份额、估值逻辑都将受到冲击。
因此,将这场行动完全定义为安全防卫,忽略其商业护城河焦虑,是不完整的。更准确的判断是:安全是切入点,护城河是落脚点。
三、被指控方的辩护:行业惯例与证据链
被指控方提出了合理的辩护逻辑。
第一,API 调用的行业普遍性。在服务器上部署开源模型自动调用 API、生成数据,是行业通行做法。个人开发者做测试、学术机构做研究、企业做能力评估——都会产生大量 API 调用。仅凭调用模式就断言 " 蓄意蒸馏 ",需要更直接的证据(如资金链、IP 地址指向、模型权重相似度分析)。
第二,开源调用的技术合理性。开源模型的自动调用与商业公司的蓄意蒸馏存在本质区别。前者是开放的、可追溯的、符合学术伦理的;后者是封闭的、商业化的、可能违反条款的。Anthropic 的指控将两者混为一谈,有扩大化打击之嫌。
第三,被指控方的学术背书。深度求索的 R1 论文通过《Nature》同行评审,历经 7 个月审核、8 位外部专家评审,审稿文件达 64 页。论文明确表示训练数据仅来自普通网页和电子书,不包含任何合成数据。如果其模型严重依赖蒸馏,很难通过如此严格的学术审查。
四、蒸馏的技术局限:威胁被高估了
从技术角度看,蒸馏的威胁被一定程度高估了。
蒸馏类型的难度差异:
蒸馏类型 | 目标 | 难度 | 可复制性 |
知识蒸馏 | 学习输出分布 | 较低 | 较高,只能学到表层知识 |
指令蒸馏 | 学习指令跟随 | 中等 | 有限,复杂指令理解困难 |
对齐蒸馏 | 学习安全护栏 | 极高 | 极低,几乎无法复制 |
如果说知识蒸馏是抄作业——学生模型学习老师模型的答案分布;那么对齐蒸馏就是试图抄学霸的三观——学习老师模型的安全护栏、价值判断、拒绝有害请求的能力。Anthropic 的研究发现,即便训练数据表面干净,学生模型也会继承教师模型的隐藏偏差。更重要的是,对齐能力几乎无法被蒸馏——安全护栏、价值对齐、拒绝有害请求的能力,是经过复杂的 RLHF、宪法 AI 等训练获得的,单纯靠 API 调用很难复制。
大厂的反制手段:
动态输出干扰:每次返回结果略有差异,增加蒸馏难度
差异化返回:不同用户看到不同内容,防止批量采集
异常调用检测:高频调用、异常模式自动触发限流或封禁
这些技术手段可以有效识别和阻断恶意蒸馏行为。因此,更准确的判断是:蒸馏对模型表层能力的威胁是真实存在的,但对安全对齐和持续进化能力的威胁有限。
五、监管窗口期:时间线的巧合
2026 年是美国 AI 监管的关键节点。科罗拉多州 AI 法案将于 6 月 30 日全面生效,加州《前沿 AI 模型透明度法案》已于 1 月 1 日实施,NIST 的 AI 风险管理框架正在成为联邦 contractors 的准入标配。在监管强压的窗口期,企业需要在安全立场上有明确表态。
据行业分析,Anthropic 选择此时高调指控,与和美国国防部在模型使用条款上的谈判时间点重合。当时近 2 亿美元的订单悬而未决。将蒸馏定义为攻击,把商业纠纷抬进国家安全叙事,可以争取政策支持。
前沿模型论坛的性质也需要关注。该论坛由 OpenAI、Anthropic、谷歌、微软于 2023 年共同成立,名义上是行业自律组织,实则形成了一个事实上的闭源联盟。三巨头联手打击蒸馏,正是这个联盟发挥作用的具体体现——用行业组织的形式,替代单一公司的法律诉讼,降低单边行动的风险。
六、中美 AI 模式的结构性差异
这场争议的背后,是中美 AI 发展模式的根本性差异。
维度 | 美国模式 | 中国模式 |
技术路线 | 闭源为主,API 盈利 | 开源为主,生态闭环 |
核心逻辑 | 模型是核心资产,严加看管 | 模型是基础设施,开源普惠 |
商业模式 | API 调用收费,按 Token 计费 | 场景落地收费,按解决方案定价 |
安全治理 | 政府背书 + 企业自控 | 开源社区审查 + 政府监管 |
合规成本 | 年度合规支出约为中国同行的 2-3 倍 | 相对较低 |
数据来源 | 互联网抓取 + 版权争议 | 合规数据 + 场景数据 |
注 1:数据来源为斯坦福 HAI 2025 年报告。
注 2:可复制性越高,对大厂商业护城河的威胁越大。上表中,美国模式的可复制性(蒸馏成本低)显著高于中国模式(需要场景适配)。
美国模式的优势在于:技术领先、利润率高、资本回报清晰。挑战在于:合规成本高、数据争议多、技术扩散受限。
中国模式的优势在于:技术普惠、生态扩张快、场景落地深。挑战在于:商业变现路径曲折、安全治理更复杂、国际认可度有待提升。
两种模式没有绝对的对错,但存在根本性的利益冲突。Anthropic 的蒸馏指控,本质上是闭源阵营对开源崛起的防御反应。当开源模型以更低的成本、更快的速度追赶上来,闭源巨头技术领先的叙事就面临挑战。
七、开源的安全治理:被回避的问题
在分析大厂双重标准的同时,也需要正视开源模型的安全挑战。
据斯坦福大学基础模型研究中心 2025 年数据,开源模型在恶意用途(虚假信息生成、深度伪造、越狱攻击)中的使用比例是闭源 API 的 3-5 倍。当模型权重被公开下载,没有任何机构能阻止其被滥用。2025 年,某开源模型因无内置安全护栏,被犯罪团伙用于批量生成诈骗视频,涉案金额超 2 亿元——这是开源安全治理缺失的典型案例。Anthropic 担心的安全护栏被剥离,在开源模型上确实是真实风险。
这不是开源不好,而是开源需要治理。目前行业对此的讨论还远远不够。大厂用安全作为竞争壁垒,固然值得商榷;但开源社区对安全问题的回避,同样需要反思。
真正的出路,不是 " 封闭 vs 开放 " 的二元对立,而是混合生态。
八、结论:护城河焦虑是核心,安全是外衣
大厂真正担心的是:技术领先的叙事被打破,商业模式受到冲击。当开源模型以更低的成本、更快的速度追赶上来,闭源巨头的定价权和市场份额都将承压。安全叙事是一个更有力的大棒,可以用来争取政策支持、筑起竞争壁垒。
但这并不意味着安全议题不重要。开源模型的安全治理,是行业必须面对的长期挑战。大厂的双重标准需要客观看待,但开源社区的安全回避同样需要反思。
未来展望:混合生态是主流
" 权重开源 + 商业闭源 " 将成为未来主流路径:大厂开源基础模型(如 Meta 的 Llama、阿里的 Qwen),让全球开发者参与生态建设;但核心能力层(安全对齐、企业级服务、垂直场景优化)保持闭源,构建商业壁垒。智谱的 " 开源开放 + 商业闭环 " 策略已经验证了这一路径——通过开源降低获客成本,通过商业版实现盈利。
未来的 AI 生态,大概率是:基础模型层百花齐放(开源),安全与对齐层形成行业标准(多方参与),应用层充分竞争。这不是谁消灭谁,而是谁能在 " 安全、开放、创新 " 之间找到最佳平衡点。