关于ZAKER 合作
钛媒体 30分钟前

赛博脑白金,能治好 AI 的失忆症吗?

文 | 字母 AI

小时候有个魔性广告,叫 " 今年过节不收礼,收礼只收脑白金 "。

于是经历过那个年代的人,通常把 " 补脑 " 和 " 脑白金 " 绑定在了一起。至于这玩意儿到底有没有用?这我不好说。

20 多年过去了,AI 时代到来,我突然发现,现在的 AI 也开始吃 " 脑白金 " 了。

你有没有类似的经历。比如说跟某个 AI 聊到第 30 轮,它突然 " 失忆 " 了。你前面刚说过的需求,它转头就忘得一干二净。你用 Claude 写了一下午代码,第二天重新打开,它对昨天的任务毫无印象,你问它某个代码,它只能从头过一遍代码库再回答你。

整个 AI 行业,苦这个系统性 " 老年痴呆症 " 久矣。

于是,一个新兴产业诞生了。从外挂层、系统层、模型层给 AI 喂 " 赛博脑白金 "。

比如在 GitHub 上已经有 5 万多颗星的 Claude-Mem,还有 DeepSeek DSA、阿里的 Qwen3-Next 这样的底层架构优化,整个产业都在疯狂给 AI 增加记忆力。

AI 再聪明,记不住事儿也白搭。

那么 2026 年,到底都有哪些 " 赛博脑白金 " 在给 AI 补脑,它们各自的配方又是什么?

01 赛博脑白金产品图鉴

压缩式记忆管理是第一种思路,核心逻辑是把长篇大论变成 " 小作文 "。

当然和咱们贴吧论坛看到的那些小作文肯定不一样了,这种 " 小作文 " 是给大模型看的,只有上下文中的关键信息。

这类产品不是扩大 AI 的记忆容量,而是让同样的空间装下更多东西。就像你整理行李箱一样,你把衣服揉成团,你可能只塞得下几件衣服,但你要是叠好了再放进去,就能塞很多衣服。

Claude-Mem 是这个领域最火的产品。

这个项目在 2025 年底发布,到现在 GitHub 上已经有 5 万多颗星了。它专门为 Claude Code 设计,解决的就是记忆太短的问题。

Claude-Mem 的做法很巧妙,它通过 5 个生命周期钩子自动捕获你和 AI 的所有对话,然后用 AI 本身来压缩这些信息。会话开始时加载轻量级索引,需要时再展开详细内容,模仿人类记忆的工作方式。

这种 " 渐进式披露 " 的设计很聪明。

你不需要一次性把所有历史对话都塞进上下文窗口,而是先看个目录,需要哪部分再调出来。

它这个做法就像我写文章讲故事,你不能一上来就把事情都说了,你得先说个时间线,多少多少年间,然后再说那个时间段发生的事。

类似的技术还有 LongLLMLingua 和 Acon。

LongLLMLingua 通过提示词压缩实现高达 20 倍的压缩率,特别适合那些只能通过 API 调用、看不到内部结构的黑盒模型。

Acon 则更进一步,它在自然语言空间里做压缩优化,在 AppWorld 等基准测试中把内存使用降低了 26% 到 54%,同时基本不影响任务表现。

这些工具本质上都在做同一件事,用更少的 token 说更多的话。

但压缩终究有极限,你再怎么压缩,到最后至少得保留基本信息。

这时候就需要第二种思路,外挂式记忆系统。

如果说压缩是 " 节流 ",外挂记忆就是 " 开源 "。这类系统不再试图把所有东西塞进 AI 的上下文窗口,而是在模型外部建立一个独立的记忆仓库。

需要的时候,AI 可以主动去这个仓库里翻找相关信息。

Mem0 是这个方向的代表作品。它采用动态提取、整合和检索的架构,把对话中的关键信息存储到外部数据库。

需要时通过语义相似度检索相关记忆。实验数据显示,Mem0 在 LOCOMO 基准测试中比 OpenAI 的记忆系统提升了 26%,同时响应时间降低 91%, token 使用量减少 90% 以上。

LOCOMO 是目前较有代表性的长期对话记忆基准之一。

它包含单跳问题、时序问题、多跳问题和开放域问题四大类。单跳问题考验 AI 能否记住单个事实,多跳问题则要求 AI 综合多次对话中分散的信息。

Mem0 在多跳问题上的 F1 分数达到 28.64,J 分数 51.15,明显超过其他方案。

这说明它不只是能记住零散的事实,还能把这些事实串联起来。

更有意思的是 MemGPT,不过它现在已经改叫 Letta 了。它的工作原理是把 LLM 视为操作系统,实现类似计算机虚拟内存的分层管理。

跟苹果 Mac 用的储存技术原理一样,当物理内存不够用时,系统会把暂时不用的数据挪到硬盘上,需要时再调回来。

MemGPT 把这套逻辑搬到了 AI 记忆管理上。它通过显式的读写操作让模型自主管理内存,在工作记忆、短期记忆和长期记忆之间灵活调度。

这个设计的精妙之处在于,它不是人为规定什么该记什么该忘,而是让 AI 自己决定。AI 可以调用函数把当前不重要的信息写入外部存储,也可以在需要时把旧记忆读回上下文窗口。

这种自主管理能力让 AI 的记忆系统跟我们是一样的。

我们也不是把所有经历都时刻记在脑子里,而是需要时才努力回忆。

还有 Zep、Second Me、Cognee 等一系列产品,它们各有特色但殊途同归,都是在模型的固定上下文窗口之外构建可扩展的外部记忆层。

第三种思路叫做软提示编码。

这种方法不存储文本,而是把提示词编码成连续的可训练嵌入或键值对。像是 500xCompressor 这样的架构,能通过软提示编码实现了高达 480 倍的压缩率。

这个技术的本质是给 AI 发明一套 " 暗号 "。就像 " 今晚老地方 " 这句话一样,这是只有你和你朋友之间才懂的梗,一个眼神、一个词就能想到一块去。

软提示编码也是这样,用几个特殊 token 就能让模型回想起大段内容。这些特殊 token 在人类看来毫无意义,但对模型来说,它们是高度浓缩的信息载体。

这种方法的压缩率远超前两种,但也有明显的局限。

这些编码后的 " 暗号 " 只对训练过的特定模型有效,换个模型就不认识了。而且编码过程需要额外的训练成本,不像前两种方法那样即插即用。所以软提示编码更适合那些长期使用同一个模型、对压缩率要求极高的场景。

这三种外挂式的解决方案各有千秋。

压缩式记忆管理实现简单,成本低,但压缩率有上限。外挂式记忆系统容量几乎无限,但需要额外的数据库和检索机制。软提示编码压缩率最高,但灵活性最差。实际应用中,很多产品会把这几种方法结合起来,在不同场景下选择最合适的策略。

但这些终究是 " 打补丁 "。它们在模型外部做文章,没有触及问题的根源。真正的突破,需要从模型架构本身下手。

02 从架构层面动刀子

前面说的那些方案,它们能缓解记忆问题,却无法根治。因为问题的根源在 Transformer 架构本身是有缺陷的,注意力机制的计算复杂度是序列长度的平方。上下文窗口每扩大一倍,计算成本就翻四倍。

这不是工程优化能解决的,需要从数学原理上重新设计。

DeepSeek Sparse Attention(DSA)是这个方向的代表性突破。

DSA 在 2025 年随 DeepSeek-V3.2-Exp 一起发布,核心思想是 " 不是所有 token 都需要互相看 "。传统的全量注意力机制里,每个 token 都要和序列中的所有其他 token 计算注意力分数。

这在短序列里没问题,但当上下文窗口扩展到几十万 token 时,计算量就变得不可接受了。

DSA 采用两阶段设计:先用一个轻量级的 " 索引器 " 快速评估哪些 token 最相关,然后只对这些精选出来的 token 做完整的注意力计算。

核心注意力计算从对所有 token 做精算,变成只对 top-k 候选做精算;索引器仍要扫描候选历史,但用更轻量的低维 / 低精度方式降低成本。

关键在于,这种稀疏化是动态的、基于内容的。不像有些方法只看固定窗口内的 token 或随机采样,DSA 会根据实际内容决定哪些 token 重要。

说白了,就是让 AI 先快速扫一遍所有内容,找出跟当前问题最相关的那些部分,然后只仔细看这些重点。就像你看书找资料一样,你不可能逐字逐句读,你会先翻目录和关键词,定位到相关章节再去仔细阅读。

这让它在大幅降低计算量的同时,几乎不损失模型性能。在各种推理任务和智能体环境的测试中,DSA 的表现和全量注意力基本持平。

另一个重要方向是混合注意力架构。

这个思路认为,不是所有层都需要昂贵的全量注意力。大部分层可以用更便宜的线性注意力或状态空间模型,只在关键位置保留全量注意力。

阿里的 Qwen3-Next 在 2025 年 9 月发布,核心是 Hybrid Attention 机制。它用 Gated DeltaNet 加 Gated Attention 替代传统全量注意力,原生支持 256K 上下文,理论上可扩展到 100 万 token。

Gated DeltaNet 是一种线性注意力变体,计算复杂度从平方降到线性。但纯粹的线性注意力在某些任务上表现不如全量注意力,所以 Qwen3-Next 采用 3:1 的混合比例。每 3 层用 Gated DeltaNet,1 层用 Gated Attention。

这个设计很聪明。

线性注意力层负责处理大部分的上下文信息,成本低但能力稍弱。全量注意力层则在关键位置做精细的全局建模,成本高但效果好。两者配合,既保证了性能,又大幅降低了计算开销。

官方数据显示,Qwen3-Next-80B-A3B-Base 相比 Qwen3-32B-Base,在超过 32K 上下文时有 10 倍推理吞吐优势。

月之暗面的 Kimi Linear,采用 Kimi Delta Attention 加全局 MLA,也是 3:1 比例的混合架构。

Kimi Delta Attention 本质上是对 Gated DeltaNet 的改进。在 100 万 token 场景下,KV cache 最多减少 75%,解码吞吐最高提升 6 倍。

这些混合架构的共同点是,他们都把长上下文处理从 " 每个 token 都互相看一遍 " 改成 " 多数层用更便宜的记忆状态,少数层保留全局注意力 "。

换个说法,你开车得用导航吧?

大部分时间你只需要看着前方道路和路标往前走,这是 " 便宜的记忆状态 "。但到了复杂路口,有行人、有电摩托车、可能还有刚才发生追尾的事故车,这时候你就得抬头看整个路况、回忆来时的路、判断该往哪拐,因此你需要 " 全局注意力 "。

不是每一秒都要动用全部脑力,而是只在关键节点才全力思考。

这不是简单的性能妥协,这是在对注意力机制本质进行重新思考。AI 并不需要时刻记住所有细节,只需要在关键决策点做全局审视。

然而当下最流行的玩法,还得是硬件与算法协同优化。

再好的算法,如果硬件跟不上,也发挥不出全部威力。英伟达在 GTC 2026 上发布的 BlueField-4 CMX 平台就是这个方向最具代表性的产品。

这是一个专门为 " 百万级 token 上下文 " 时代设计的上下文记忆存储平台。

传统 GPU 的显存带宽虽然高,但容量有限。当上下文窗口扩展到几十万甚至上百万 token 时,KV cache 的大小会超过单张 GPU 的显存容量。BlueField-4 CMX 通过专用的内存扩展硬件,在保持高带宽的同时大幅扩展容量。

它采用分层存储架构,把热数据放在 GPU 显存,温数据放在扩展内存,冷数据放在系统内存或 SSD,通过智能调度实现大容量支持。

好比说 GPU 显存是你的工作台,它空间有限。

BlueField-4 CMX 就相当于在这个工作台旁边加了个置物架,常用的工具放台面,偶尔用的放第一层架子,不常用的放更远的柜子。

需要时系统自动帮你把东西拿过来,你感觉不到区别,但实际上能放的东西多了几十倍。

像亚马逊的 Trainium 芯片,谷歌的 TPU,现在 AI 芯片的开发商,都会和大模型厂商共同研发下一代芯片,其原因就在于能让芯片专业对口,满足模型的各项需求,进而达到更好的训练以及推理效果。

03 记忆,AGI 最后一块拼图

当前的 AI 记忆系统缺乏人类记忆的关键特征。

人类记忆有遗忘机制,不重要的细节会自然淡化。人类记忆有巩固过程,重要的经历会在睡眠中被强化。人类记忆有学习能力,相似的经验会被归纳成模式。人类记忆有压缩策略,我们不记得每顿饭吃了什么,但记得那次特别的生日宴会。

AI 的记忆系统没有这些玩意。

所有记忆都是 " 平的 ",3 个月前的随口一句话和昨天的重要决定被同等对待。

没有轻重缓急,没有遗忘更新,没有主动整理。

结果就是记忆越多,上下文反而越混乱。就像一个从不整理的仓库,堆的东西越多,越难找到需要的那一件。

奥特曼在 2025 年的采访中提到记忆是通往 AGI 很重要的一个板块,而这个判断也正在成为硅谷的新共识。

真正的智能不仅需要理解当下,更需要从过往经验中学习和积累。一个每天都 " 失忆 " 的 AI,无论单次对话多么聪明,也很难称得上真正的智能。

人类之所以聪明,很大程度上归功于记忆系统本身的运作机制。

我们能区分短期记忆和长期记忆,能根据情感强度和重要性为记忆打上不同标签,能在需要时快速检索相关经验,也能主动遗忘不重要的细节。

这套复杂的记忆机制,是几亿年进化的结果。AI 想要达到人类水平的智能,至少也需要类似复杂度的记忆系统。

从技术路径来看,未来可能会出现多种方案的融合。

应用层的外挂记忆系统提供灵活性和可控性,你可以随时查看 AI 记住了什么,也可以手动删除或添加记忆。架构层的优化提供效率和性能,让 AI 能够原生处理更长的上下文,不需要复杂的外部系统。认知科学启发的记忆机制设计则提供智能性,让 AI 知道什么该记,什么该忘,什么该巩固,什么该压缩。

这跟我们人类大脑是一样的。我们同时拥有海马体、前额叶皮层、杏仁核等多个记忆相关区域,它们分工合作,共同构成了完整的记忆系统。

海马体负责形成新记忆,前额叶皮层负责工作记忆和决策,杏仁核负责情绪记忆。未来的 AI 系统也可能需要多层次、多模态的记忆架构。

有些记忆需要快速访问,就放在类似工作记忆的地方。

有些记忆需要长期保存,就存入类似长期记忆的仓库。

有些记忆需要情感标签,就加上重要性权重。

有些记忆需要定期巩固,就设计主动回顾机制。这些不同类型的记忆,需要不同的存储和检索策略。

现在关于 AI 记忆的研究,还处于早期阶段。大部分方案都在解决 " 如何记住更多 " 的问题,很少考虑 " 如何聪明地遗忘 "。

但遗忘和记忆一样重要。一个记住所有细节的系统,未必比一个知道什么该记什么该忘的系统更智能。人类大脑每天都在主动遗忘,这不是缺陷,这是优秀的物种特性。

未来的 AI 记忆系统,可能需要学会遗忘。不是简单的删除旧数据,而是智能的信息衰减和压缩。不重要的细节逐渐模糊,但核心要点保留下来。

就像你记得童年的某个夏天很快乐,但不记得那天具体吃了什么、具体玩了哪款游戏。

这种有损压缩,反而让记忆更有价值。

赛博脑白金们的使命,就是在 AGI 到来之前,先帮 AI 把 " 记性 " 补上来。

相关标签

相关阅读

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容