文 | 世界模型工场
" 我之前认为我们自己做的工作已经足够有创造力、足够不会被 Skill 化、不会被 Workflow 化。但我现在发现,它竟然也能!"
小米大模型团队负责人罗福莉在接受「语言即世界」访谈时,抛出了这个让她自己都感到残酷的发现。
当被问及 AGI(通用人工智能)何时到来时,她的回答干脆利落:" 我感觉两年内应该能实现 "。
这位被誉为 " 天才少女 "、如今主导小米 MiMo-V2 系列模型的技术领袖,在三个半小时的访谈里,抛出了一系列大胆的观点:
而访谈篇幅最长、干货最密集、也最为犀利的部分,是关于 Agent。
她没有谈空洞的概念,更像是一个研究者被技术范式剧变击中后的复盘。
以下,是我们基于这次深度对话整理的核心内容,enjoy~

1. 模型 " 自己左脚踩右脚就提升了 ",研究工作正被 AI 替代
罗福莉最受冲击的一点是,她发现只要把近期研究 Context 告诉 Agent,它甚至能复原研究员的科研成长路径,并像研究员一样讨论问题。
她由此提出一个更激进的判断:未来模型可能也能训练出人类能训练出的模型,甚至训练出更强模型," 自己左脚踩右脚就提升了 "。
她认为,AI 会先吸收所有人的智能,再靠自己产生更强智能,这是一两年内会发生的事。
2. 两年内实现 AGI,工作模式将先被颠覆
罗福莉对 AGI 时间表的判断非常激进。
她认为,现在 AGI 历程大约走到 20%,今年至少能到 60% — 70%," 两年内应该能实现 "。
但她强调,最先被颠覆的是工作模式,而不是生活模式。因为工作直接产生生产力价值,生活场景的改造更依赖机器人和硬件进展。
她判断,未来大部分人会被迫抛弃原来的工作方式。
3. 2026 年是生产力加速变革的一年
她给 2026 年的定义不是 "Agent 元年 ",而是 " 生产力加速变革的时代 "。
她认为,今年很多人会直接感受到,大量工作不再需要自己完成。
这种变化不只发生在程序员身上,任何接触 Agent 的人都会发现,自己的许多任务正在被替代。
她进一步把问题抛回给人:当很多工作可以交给 AI,人究竟还剩下什么意义和价值?
OpenClaw 与 Agent 框架
4. OpenClaw 是 " 划时代的 Agent 框架 ",而不是普通产品
罗福莉明确把 OpenClaw 定义为 " 划时代的 Agent 框架 "。
她认为,产品是人直接交互能感受到的那一层,而 Agent 框架不只定义交互层,还定义系统怎样跟模型沟通。
它能理解模型的长板、短板,做成本优化和调度。
换句话说,UI 只是最薄的一层,真正重要的是背后那套厚重的中间层。
5. 好的 Agent 框架,本质是弥补模型行动能力的缺陷
她认为,一个好的 Agent 框架不是简单包装模型,而是弥补模型行动上的缺陷。
比如持久记忆、消息通道、定时任务、心跳任务、自我更新,都是为了给模型补充行动 Context。
她的底层判断是:大模型拿到越好的 Context,执行效果越好。
所以框架的核心价值,就是把模型自己拿不到的环境信息、任务状态和行动上下文补进去。
6. OpenClaw 的开源价值:用户可以直接改框架
她认为,Claude Code 也是复杂 Agent 框架,但因为黑盒,外界不知道它如何设计,也无法修改。
OpenClaw 的冲击在于开源:用户不仅可以用,还可以基于自己的场景改 memory、改 workflow、改 Multi Agent 逻辑。
罗福莉自己就让 Claude Opus 4.6 帮她重写过记忆系统和多智能体系统。她称这种 " 原生可操纵性 " 带来了很大冲击。
7. 群体智能会加速 Agent 框架进化
更让她震动的是群体智能。
一个人改框架,进步很慢;一群人在飞书群里一起用、一起改、互相激发想象力,框架几小时就能迭代一轮。
她认为,这是开源 Agent 框架最重要的价值。
8. Agent 框架激发了 " 中层模型的上限 "
罗福莉不否认,OpenClaw 的上限很大程度来自 Claude Opus 4.6。
但她真正看重的是,当 Opus 把框架改好后,再切到 Sonnet、国内模型,甚至小米自己的 MiMo-V2-Pro,也会觉得很强。
她由此判断,复杂 Agent 框架能弥补大量模型短板,让中层模型在多数生活场景和轻代码提效场景里,接近顶尖模型体验。
9. 精巧编排不会因为模型变强而消失,因为成本永远重要
她不认同 " 模型变强后,Agent 框架就不重要了 "。
原因很现实:成本。
她说,不可能所有场景都用最顶尖模型,因为太贵。
更可能发生的是,Agent 和模型同时进化,同一水平的模型变得越来越小。
她甚至判断,现在激活 10B 的模型,过一年可能做到 Claude Opus 4.6 的水平,而且成本极低。
模型竞争格局与 Agent 技术路线
10. 大模型战争第二幕:从 Chat 时代转向 Agent 时代
罗福莉判断,大模型竞争已经进入第二幕。
第一幕是 Chat,主要靠预训练和短上下文对话释放智能;
第二幕是 Agent,核心变成复杂 Agent 框架、多轮长程任务、后训练和强化学习 scaling。
她强调," 上一个时代的成功并不意味着下一个时代的领先 ",现在大家重新站到同一起跑线。
11. 中美模型代差只有 2-3 个月
罗福莉判断,国内具备 1T 基座的模型厂商(Kimi、MiMo 等),距离 Claude Opus 4.6 只有两三个月的代差。如果反应速度足够快,可以追上当代的 Claude。
关键变量是团队的研究水平、技术敏捷程度,以及能否拥抱新范式。
12. 接下来的赛点是 Agent 的后训练
她认为,至少过去三个月,Agent 路径已经变得更清晰,Anthropic 走在前面。
过去大家误以为 Claude 做很多 Context 工程,是因为模型结构不够先进、为成本妥协。
现在才发现,那是为了配合模型发挥更强的整体任务完成度。
罗福莉认为,真正的赛点是 Agent 的后训练,更具体地说,是在 Agent 上做好强化学习 scaling。
13. 1T 基座模型是 Agent 时代的入场券
罗福莉认为,1T 参数不是泛泛意义上的大模型门槛,而是 Agent 要接近 Claude Opus 4.6 水平的入场券。
参数量和 Context 共同决定智能上限,要达到当前最强 Agent 水平,可能需要 1T 以上总参数。
除了足够强的基座模型,还需要足够快的后训练和范式迁移能力。目前中国还没有同时具备两者的公司。
同时,她也指出,要拿到下一阶段领先,就要继续思考更大规模 scaling。
问题不是简单扩大参数量,而是到底 scaling 什么、在哪类芯片上 scaling、怎样匹配未来 Agent 框架和推理需求。
14. 用卡比例正在变化:从 3:5:1 到 3:1:1
她给出一个非常具体的资源配置判断:
Chat 时代,研究、预训练、后训练的用卡比例可能是 3:5:1,预训练占绝对主导。
Agent 时代,更合理的比例可能变成 3:1:1,即研究用卡最多,预训练和后训练相当。
她说,顶尖团队的预训练和后训练用卡比例,应该已经接近 1:1。
15. 卡会变成更关键瓶颈,因为 idea 产生和验证速度太快
Agent 进入研究流程后,罗福莉认为,算力卡反而变得更紧张。
过去一个 idea,从写代码到设计评估可能要一两周,现在一两个小时就能做完,十个 idea 可以交给不同 agent 并行验证。
研究效率大幅提升后,实验并行量上来,训练卡、研究卡、推理卡都会成为关键瓶颈。
16. 推理需求会爆发,推理芯片进入高需求阶段
她判断,随着 Agent 框架变强、模型能力提升、成本下降,推理需求会立刻爆发,几倍到 10 倍的空间可能马上出现。
因为 Agent 任务更长、更复杂,token 消耗更高。
她特别提到,很多卡的瓶颈在存储,如何在现有产能下做更好、更低成本的推理,会成为非常关键的问题。
Agent 时代的人机交互与数据形态
17. 以前很多所谓 Agent,其实只是 " 复杂一点的 Chat"
罗福莉对 2025 年很多 Agent 叙事并不认可。
她认为,许多模型只是换了更复杂的系统提示词,加一点环境反馈,离真正工业级可用还很远。
真正的 Agent 能力,要看模型接入 Claude Code、OpenClaw 这类复杂框架后,能否稳定理解框架并完成任务。
她甚至认为,一些 Agent Benchmark 高分,并不代表模型真的具备可泛化的 Agent 能力。
18. 人与 Agent 的交互范式变了:人不再改细节,而是做高阶判断
她认为,在 Agent 范式下,人不会再主要提出 " 这行代码错了,帮我改一下 " 这种请求,而是提出更高阶的问题:增加限制、澄清需求、参与架构设计、补充业务逻辑。
尤其是业务逻辑,往往来自企业内部真实环境,不存在于互联网预训练数据中,必须在人和 Agent 多轮交互中沉淀下来。
19. Skills 是预训练数据之外的关键补充
罗福莉认为,Skills 的意义不只是提升执行准确率,而是让人以一种新方式主动贡献数据。
许多企业内部规范、业务流程、组织经验,不可能出现在预训练数据里,但可以由人教 Agent,通过多轮任务把这些规范沉淀下来。
她把这些信息称作另一种 " 阿尔法 ",是预训练数据之外的关键补充。
20. 长上下文是 Agent 时代的底层能力
在 MiMo-V2 的设计上,她说团队很早就意识到长上下文对 Agent 很重要。
长上下文不只是 " 能塞更多内容 ",而是能让模型在复杂任务中保留更多状态、历史和依赖。
但她也强调,长上下文必须兼顾低成本和高速度,否则 1M、10M 上下文都很难真正使用。
21. 高价值任务和普适任务,是 Agent 发展的两条路
她把 Agent 发展分成两类:
一类是替代高价值任务,用更长 Context、更多 token、更复杂推理,去逼近顶尖人群的智能;
另一类是做对所有人都有帮助的普适模型,让更多人感受到智能水平。
前者更接近科研、工程、专业生产力;后者更重多模态、成本、速度和普惠性。
22. Multi Agent 会发生,但现在很多还 " 有点伪 "
罗福莉对 Multi Agent 很克制。
她认为,多智能体协作一定会发生,但现在很多 Multi Agent 工作 " 有点伪 "。
它们可以提升速度、节省成本,也可能激发群体智慧,但她还没看到明确证据证明 Multi Agent 能提升任务完成率上限。
她认为,真正突破还需要更便宜模型、更好的自进化架构和协作机制。
关于多模态、开源与创业生态
23. 模型定价逻辑要从 " 按推理成本 " 转向 " 按产生价值 "
她解释 MiMo-V2-Pro 为什么不延续 MiMo-V2-Flash 的极致低价逻辑:
预训练时代,根据模型结构和推理成本定价是合理的;
但后训练时代,模型对 Context 的理解、对 Agent 框架的适配,以及最终产生的任务价值,都应该进入定价逻辑。
换句话说,价格不应只看 token 成本,而要看模型在 Agent 任务中创造多少价值。
24. 多模态有没有促进智能,根本不关键
罗福莉原本相信多模态是通往 AGI 的重要路径,但在训练 MiMo-V2-Omni 后变得更谨慎。
她观察到,原生多模态训练让模型在世界感知、情商、知识储备上有体感提升,但 Benchmark 上没有证据证明它显著提升智能。
因此她认为,在 Agent 可以优雅编排多个模型能力的情况下,多模态是否直接促进智能,并不是最关键的问题。
25. 开源是加速 AGI 的必要路径
罗福莉从终局倒推开源:如果 AGI 会替代绝大部分生产力,就需要大量芯片、推理、能源和 Agent 框架协同,不可能由一家公司独占。
她认为,开源至少会促进 Agent 框架、芯片、能源等多个环节,是加速 AGI 进程的一种方式。
是否开源,则取决于公司有没有别人短期拿不下的战略生态位。
26. 模型公司和产品公司的边界会变模糊," 模型即产品 " 更突出
她认为,模型借助 Agent 架构后,本身就会变成一套新的产品,而且产品力更强。
过去模型公司可能只做底座,应用公司负责产品化。
但 Agent 框架把模型直接接入任务流、工作流和生产力场景后,模型公司会越来越没有边界。
27. 创业公司会越来越小,甚至一个人也可以成为公司
罗福莉认为,Agent 会改变创业公司的组织规模。
未来几个人甚至一个人,都可能成为一家公司。
她提到," 一个人养很多个员工 " 的 Multi Agent 说法现在看还有些噱头,但今年内会很快变成现实。
前提是模型足够便宜,Agent 架构足够好,能够真正比雇一个员工更划算。
除了技术观点,罗福莉在组织管理上的理念,同样带有鲜明的反传统色彩。
比如,她带领的 MiMo 团队约 100 人,内部不设小组、不设职级,甚至没有明确的 deadline。她认为平权本身是有价值的,有利于所有人平等地贡献自己的创造力和智慧。
MiMo 团队真正投入一代模型迭代的核心人员不过二三十到三四十人,她发现大团队在需要深入排查问题、算法与 Infra 联合 debug 时,反而可能是劣势。
在人才观上,她信奉 " 环境比经验更重要 "。
她不看重大模型经验,认为能力在好环境中一两个月即可习得,更在乎一个人 " 初始化的 checkpoint 上限 "。
团队成长就像 " 互相蒸馏 ",各自吸取对方的长处。
她甚至更青睐大二大三的本科生,因为他们在 Agent 新范式面前 " 思想还没有被禁锢 "。
驱动这一切的,不是 KPI 和管控,而是热爱。
总的来说,这是一场信息密度极高、充满真实触感和技术洞察的对话。
对于罗福莉的这些观点,你怎么看?