关于ZAKER Skills 合作
雷锋网 22小时前

1B 参数跑出 2B 性能?面壁 MiniCPM5-1B 用 AI 自进化,提速 AGI 进程

AI" 自造 " 时代开启,端侧算力迎来 " 工业母机 "。

作者丨高允毅

编辑丨岑峰 马晓宁

在万亿参数的军备竞赛中,全球 AI 行业正陷入算力受制、高质量数据枯竭、电力成本飙升的资源消耗战。当北美巨头们斥资数十亿美元狂赌超算中心时,中国的一支 AI " 特种部队 " 正绕开物理瓶颈,切入另一条决定胜负的岔路。

在资源有限的背景下,想让大模型的能力继续狂飙,唯一的解法就是从底层改变研发模式,大幅压缩每一代模型的迭代成本与周期。基于这一共识,"AI 制造 AI" 的技术路径应运而生。

面壁智能发现,大模型进化速度,正面临一个隐形的天花板,即 " 碳基程序员 " 手写代码的生理极限。如果底层的训练框架持续依赖人工迭代,智能的进化速度就会被永远锁死。

正如 AI 大神 Andrej Karpathy 提出的 " 自动研究员 " 设想,行业的底层共识正在发生根本性转移:破局的关键不再是盲目堆砌算力,而是让 AI 接管编码,激活 " 递归自我改进 " 的速率爆发。一旦 "AI 研发 AI 的速度 " 超越了 " 人类研发 AI 的速度 ",人类距离 AGI 的时间将被大幅缩短。

2026 年 5 月 25 日,面壁智能正式交出答卷——全球首个由 "AI 创造 AI" 孕育而生的基座模型 MiniCPM5-1B 震撼发布。

01

MiniCPM5-1B 的越级性能与端侧革命

作为 "AI 创造 AI" 的时代首作,MiniCPM5-1B 一登场,就让人眼前一亮。

首先是堪比行业标杆的 " 越级性能 "。作为一款参数量极小的 1B 模型,它在综合知识储备、逻辑推理与工具调用等长板能力上,展现出了极高的参数利用率。在国际权威第三方评测机构 Artificial Analysis ( AA ) 最新发布的榜单中,MiniCPM5-1B 综合分位列「小尺寸模型」榜单第一,成为了全球 2B 参数规模以内最强的开源基座模型。

这一跨代级的性能飞跃,在对比中尤为显著,它仅凭一半的参数量,便超越了 3 个月前的主流 2B 级别模型,用事实有力地验证了面壁 " 智能密度约每 3.5 个月翻一番 " 的行业定律。

图注:MiniCPM5-1B 在 Artificial Analysis 智能指数轻量级大模型性能排行第一

图注:MiniCPM5-1B 在 Artificial Analysis " 模型智能与输出 Token 消耗量 " 对比图

在衡量 " 奥赛级 " 代码能力的 LCB-Pro 25Q2 ( Easy ) 测评中,它以 22.68 的高分遥遥领先,而在奥林匹克竞赛级数学推理测试 AIME-2025/2026 中,它同样斩获了 40.42 的高分。

图注:MiniCPM5-1B 与同体量模型评测结果对比图

其次,是释放应用潜能的 " 极致压缩比 "。与云端那些动辄需要千卡集群支撑、高不可攀的 API 不同,MiniCPM5-1B 天生具备极强的 " 生存能力 ",支持 CPU 和浏览器运行,日常设备都能轻松驾驭。

在 FP16 高精度下,它仅占约 2GB 内存;而在极限的 INT4/Q4 量化下,更是被压缩至惊人的 0.5GB 且几乎无损。

图注:MiniCPM5-1B 在不同精度下的权重体积与推荐部署场景

这极大降低了开发者的部署门槛,让 " 人人拥有一个聪明的赛博桌宠 " 与端侧全能助手成为现实。

图注:MiniCPM5-1B 落地端侧应用,低载、常驻 " 赛博桌宠 " 演示

项目地址:https://github.com/OpenBMB/MiniCPM-Desk-Pet

(本项目基于 clawd-on-desk 项目二次开发)

最后,是模型表现出的均衡能力。在与同等体量的模型对比中,MiniCPM5-1B 在七个评估维度中名列前茅,展现了 " 六边形战士 " 般的整体实力。其中,在智能体和代码编程领域大幅领先,在逻辑推理、数学推理、综合知识方面也优势明显。

图注:MiniCPM5-1B 与同体量模型各领域能力维度对比图

那么问题来了:为什么一个体量如此小巧的模型,却能打破 " 小参数 = 低智能 " 的魔咒?这并非单纯的参数微调,而是源于面壁智能重构的一套由 " 模型、框架、数据 " 并驾齐驱的全新自进化范式。

02

模型、框架、数据:面壁 AI 自进化范式三驾马车

MiniCPM5-1B之所以表现惊艳,根源在于其底层采用了面壁智能提出的全新软件工程范式,"Forge Engineering"(锻造工程)。

它让 "AI 制造 AI" 从前沿的实验室概念,真正落地为了可复用的工业化流水线。

放眼全球,"AI 制造 AI" 的探索正在快速推进。从 Anthropic 用智能体编写 C 编译器,到 OpenAI 的 Harness 规约工程,再到 Andrej Karpathy 提出的 " 自动研究员 " 构想,这些尝试都在不同方向上验证了 AI 自主编程的可行性。

然而,在难度最高、架构最复杂的 " 完整训练框架 " 这一粒度上,已有尝试大多停留在研究原型或局部工具链层面。例如,英伟达的 VibeTensor 官方明确标注为 " 研究级系统 ",不适合生产使用;Anthropic 的 C 编译器规模较小;OpenAI 的 Harness 更侧重于规约方法论而非完整框架。 相比之下,面壁发布的 ForgeTrain,是目前已知首个完全由 AI 编写、并已成功训练出工业生产级模型(MiniCPM5-1B)的大模型训练框架。

ForgeTrain,可以被理解为 "AI 版 Megatron"。

Megatron 是过去几年大模型训练领域最具影响力的工业标准之一,而 ForgeTrain 背后的 Forge Engineering 范式,则重构了传统软件工程的核心逻辑:

当 AI 生成代码的成本趋近于零时,行业不再需要长期维护臃肿的通用框架。面对新的硬件或模型,Forge Engineering 可以让 AI 直接 " 按需生成 " 专用的极致优化代码。

可以说,面壁率先在业内跑通了 "AI 制造 AI" 任务中这个由算法(模型)、算力(Infra/ 框架)、数据三驾马车环环相扣凑成的递归闭环。参照行业对 "AI 制造 AI" 进化能力的 L1-L5 梯度划分,面壁正向自改进的 L4 阶段发起全面冲锋。

在算力/Infra 层,打造动力澎湃的发动机:AI 彻底告别了人类手写代码的局限,能够针对特定硬件,动态地 " 现场锻造 " 出专属的最优算子与分布式策略。

ForgeTrain 提供了一套由 AI 生成训练框架的工程实现。 在实际使用中,人类设定目标,例如 " 在昇腾 910B 上训练 1B 模型 ",后续的代码生成、测试与调优均在 AI 主导的闭环中完成。ForgeTrain 是该范式下的首个训练框架实例,在一定条件下实现了针对特定场景的定制化生成,部分缓解了通用框架在效率与适配之间的权衡问题。

在数据层,提炼高纯度的燃油:优秀的模型离不开高质量的数据。ForgeTrain 解决了 " 怎么训 " 的效率问题,而面壁的分级数据治理与大规模合成数据(超 1T Tokens,中文部分开源最大)则解决了 " 用什么训 " 的质量问题。两者结合,才造就了 MiniCPM5-1B 的惊艳表现。

面对高质量数据日益枯竭的行业痛点,面壁与清华、OpenBMB 联合推出了 L0-L4 模型驱动分层数据管理框架。这套体系摒弃了传统的粗放式清洗,通过 " 人类定义标准、AI 执行操作 " 的逻辑将数据精准分级,将数据从原始资源到结构化知识精准分为五级。

图注:面壁智能与清华、OpenBMB 联合提出 L0 – L4 分级数据治理框架

其中,L1 阶段通过工程化方法完成基础清洗和去重,L2 阶段针对特定任务或领域筛选出相关数据,构建模型的基础语言与逻辑能力。

而在关键的 L3 阶段,面壁让 AI " 自主择数 ",对海量网页与数学语料进行系统性编辑与合成,识别出更接近第一性原理的数据。

而 L4 则转化为可验证的结构化知识,为 RAG 系统提供事实支撑。

实验效果是十分惊人的,在相同的训练算力下,使用 L3 数据训练的模型比使用传统 L1 数据的模型,数学能力提升了 7.06pp,而这种提升还能跨域迁移到英文、中文和代码任务上,通用推理能力平均提升超过 3pp。

此外,分级管理也彻底重塑了训练策略。当采用 " 先 L1 筑基、再 L2 强化、最后 L3 拔高 " 的分级训练策略时,同样 120B Tokens 的数据量,整体性能比传统混合训练提升了 1.49pp,后期训练效率更是达到了混合策略的 1.7 倍。

高质量合成数据不仅可以替代天然数据,在很多方面甚至优于天然数据,这将为解决数据枯竭问题提供系统性方案。 基于这一流程,团队开源了 Ultra-Fineweb-zh-L3 数据集,包含超过 1T Tokens(其中中文约 410B Tokens),不仅服务于面壁自身的模型训练,也将这套数据提纯能力开放出来,反哺社区生态。

这也是目前开源社区中规模最大的中文预训练合成数据集之一。

在算法 / 模型层,驱动自进化飞轮:AI 编写的框架加上 AI 提纯的高质量数据,最终孕育出了更强大的基座模型(MiniCPM5-1B)。

一个更聪明的基座模型,本身也具备更强的代码生成能力与数据理解能力。这意味着,它可以用 ForgeTrain 同样的方法,生成比当前版本更优的训练框架,也可以从海量语料中筛选出比当前 L3 数据集更高质量的训练数据。 用新框架 + 新数据,又能训练出下一代更强的模型。如此循环往复,形成一个 " 模型越强 → 框架与数据越优 → 下一代模型更强 " 的自进化飞轮。这正是面壁 "AI 制造 AI" 闭环能够加速运转的核心机制。

在这套体系的全面落地中,ForgeTrain 交出了实质性的工程数据:

在 " 零人工代码介入 " 的硬约束下,面对国产算力,它仅耗时 3-5 天便跑通华为昇腾系列,跨越了底层适配的周期长考;在顶尖算力端,其生成的纯 AI 代码在英伟达 H100 上的训练速度超越标杆 Megatron 10%,直接等效降低 10% 算力成本。

ForgeTrain 在华为昇腾上预训练 MiniCPM5-1B,相比昇腾的 MindSpeed 框架也有 10% 的加速。而基于该框架训练的 MiniCPM5-1B 性能反超同级基准。

这背后的商业价值不言而喻:当企业需要为某款芯片(比如国产芯片)或某个端侧场景做模型时,不需要请专门的技术团队花几个月去手动调优。只要告诉系统需求,AI 就能在几天内为特定端侧设备 " 现场锻造 " 一套最契合的专属模型和专属训练 / 推理框架,真正将模型训练从 " 手工作坊 " 带进了 " 工业流水线 " 时代。

03

重塑国产算力的底层软件栈

在国际地缘博弈的背景下,英伟达万亿市值的真正护城河,并不在于 GPU 硬件本身,而在于其背后经过十几年积累、由百万开发者共同构建的 CUDA 软件生态。

正如创始人黄仁勋自己所承认的:" 英伟达本质上是一家软件公司。" 确实,如果没有这套涵盖算法库、编译器、开发工具在内的完整生态系统,再强大的芯片也无法高效运行客户的业务。

当前,以华为昇腾为代表的国产异构芯片在硬件算力与架构创新上发展迅猛,展现出强大的硬件潜力。然而,随着新算法与新芯片层出不穷,异构计算的 " 组爆炸 " 已成为全行业的适配难题。从手机里的异构芯片,到驱动万亿参数大模型的上万张加速卡集群,问题的本质没有变,只是复杂度呈指数级放大。

面对这一底层困局,整个高性能计算(HPC)行业苦苦摸索了近十年。

行业曾尝试通过传统编译器抹平异构差异,但传统编译器极度依赖人类专家提前写好优化规则。但面对如今海量的硬件和算法组合,人力根本无法覆盖所有可能性。这导致生成的代码性能,通常只能触及人类手写极致代码的 70%-80%。

另一种方法是行业尝试让 AI 自动写底层代码,结果却变成了 " 盲拼乐高 ",AI 往往只能做好局部的单个功能,一旦要把这些功能组装成一个大系统,接口之间就会互相冲突,最终导致系统崩溃。

在人类试图用规则掌控硬件的时代,顶级科学家陈天奇主导的 TVM,成为了那个时代最引人瞩目的突破;而到了 AI 自动生成软件的新时代,NVIDIA 实验室推出的 VibeTensor,用 AI 完整写出深度学习系统软件,更是为行业后续探索铺平了道路。而面壁智能今天的突破,正是站在了前人的肩膀上,补齐了工业级落地的最后一块拼图。

VibeTensor 和 ForgeTrain 的故事,生动地演示了在 AI 生成软件的新时代中,仅靠模型本身的能力是远远不够的。成功的关键,在于如何设计一套能有效约束和引导 AI 的 " 游戏规则 "。

ForgeTrain 通过在限定范围、明确目标、自动验证的工程范式下取得了成功,而 VibeTensor 则在更广阔、更模糊的空间里,为我们揭示了未来的挑战,同样意义重大。它们分别代表了 AI 在软件工程领域的两种探索路径,共同推动着这个领域的进步。

通过 ForgeTrain 的范式创新,国产芯片终于不必再去痛苦地像素级模仿、追赶英伟达的 CUDA 生态,也不必在传统编译器的死胡同里耗尽心血。

随着这一技术有望彻底重写昇腾的底层软件栈,它不仅将实质性解决 " 国产卡难用 " 的工程瓶颈,更在战略层面上,为中国 AI 产业提供了一条绕过英伟达 CUDA 生态壁垒、实现底层软件解耦的非线性突围路径。

04

" 端侧大模型开源状元 " 的坚持

2024 年,面壁智能提出大模型 " 密度定律 "(Densing Law ):大模型的最大智能密度,大约每 100 天就会翻一倍。在 " 密度定律 " 的指引下,面壁智能自然而然地选择了一条与北美巨头完全不同、追求极致智能密度的道路。

回顾面壁智能的探索史,从 2024 年初的 MiniCPM 1.0 开始,这支 " 小钢炮 " 家族就在不断刷新大模型 " 以小博大 " 的物理极限。凭借极小的参数量,先后越级超越 Llama2-13B 与 GPT-3.5,并将端侧推理速度一路提升至最高 600 Token/s 的行业巅峰。

凭借在端侧模型上毫无保留的贡献,面壁智能毫无疑问是 " 中国端侧大模型开源状元 "。

今天,MiniCPM5-1B 的发布,不仅仅是一个好用的小模型问世,其背后的 Forge Engineering 就是这种思维的延续,更是一种全新 AI 生产力范式的宣告。

当大模型能够自主锻造底层框架,研发与适配的软件成本被 AI 压缩到接近于零时,大模型将真正蜕变为全行业都能低成本接入、每一台日常设备都能被智能点亮的普惠事业。

当算力资源逐步向巨头集中,面壁智能不仅坚持把强大的大模型压缩到每个普通人的手机、电脑里,更试图将制造大模型的 " 铁锤 " 交还给 AI 自己。在通往 AGI 的道路上,一条无视算力封锁、属于中国大模型的自我进化飞轮已然开启,属于大模型自我进化的复利时代,已经到来。

ForgeTrain 开源链接:https://github.com/OpenBMB/ForgeTrain(5.26 晚后上线)雷峰网

相关标签
雷峰网

雷峰网

读懂智能&未来

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容