关于ZAKER Skills 合作
钛媒体 9小时前

砍掉独立编码器:Gemma 4 12B 推翻多模态 " 拼接设计 "

文 | AI 唱反调

一个 12B 模型,凭什么让 26B MoE 紧张?

2026 年 6 月 4 日,Google 发布 Gemma 4 12B。官方定位很克制:介于 E4B 与 26B MoE 之间的中端型号,能跑 16GB 笔记本,Apache 2.0 开源。

DeepMind 科学家 Michael Tschannen 的推文泄露了另一层意图。" 过去几年我的研究重点是统一跨模态的模型和训练范式。今天发布的 Gemma 4 12B,直接处理原始文本、图像和音频输入。"

关键词是 " 直接 "。" 支持 "" 融合 " 都不准,只有一个词能概括:直接。

绝大多数科技自媒体只盯着 16G 笔记本、开源免费两个噱头,完全无视这次发布真正颠覆多模态行业的底层架构革新。这也是 12B 能威胁 26B MoE 的核心密码。

多数报道把 " 无编码器 " 解读为减法:用 35M 轻量嵌入替代数百兆的 ViT,显存从 15GB 压到 9GB,刚好塞进消费级笔记本。这个解读没错,但漏掉了更底层的东西。

若仅以降低显存为目标,Google 完全能通过量化蒸馏改造现有 26B MoE,没必要从零重构整套多模态架构。Gemma 4 12B 是重新设计的,它要做的不是把模型做小,而是让原始音画无损直通 LLM。

传统多模态的巴别塔困境:编码器翻译必然损耗信息

过去三年,主流多模态模型,LLaVA、GPT-4V、甚至 Gemma 4 26B,本质上都是拼接怪。内部结构大同小异:

ViT 编码器(通常 12-24 层)把图像切成 patch,提取特征向量;Conformer 或 Whisper 编码器把声波转成梅尔频谱,提取声学特征。然后两者分别经过对齐层,投影到 LLM 的文本向量空间。最后,语言模型才开始处理这些被转换过的信息。

这个架构能工作,但有一个结构性缺陷:信息在到达 LLM 之前,已经过至少一次压缩和转换。 ViT 输出的是高维特征向量,原始像素已经不存在;Conformer 输出的是声学特征表示,原始声波已经不存在。LLM 拿到的是经过压缩提炼的高层特征,丢失大量原始画面的空间细节和音频的时序纹理。

三种模态的优化目标也相互割裂。ViT 学图像分类,Conformer 学语音识别,LLM 学文本预测。拼接时需要用额外训练弥合差异," 学了看图忘了说话 " 的灾难性遗忘反复出现。

编码器本身没做错什么。错的是 " 必须分层转译 " 的架构规则。压缩转换一旦发生,信息损耗就不可逆。

Gemma 4 12B 没打算修这条管道,它直接把管道拆了。

视觉抛弃了传统 ViT 编码器,改用 35M 轻量嵌入模块。单次矩阵乘法 + 2D 坐标嵌入 + 归一化,图像块直接映射到与文本 Token 相同的向量空间,然后进入 Transformer 主干的注意力计算。提取特征变成了直接投影。

音频更彻底。彻底移除音频编码器,原始音频信号直接投影到文本 Token 的向量空间。不做频谱转换,不做声学特征提取,原始声波直接进模型。

传统架构是 " 分别处理再拼接 ",Gemma 4 12B 是 " 混合 Token 序列统一处理 "。图像 Token、音频 Token、文本 Token 按顺序排列,进入统一的 Transformer 主干后,由同一套注意力机制处理,共享主干网络的权重和推理逻辑。

投影层本身因模态特性而异。视觉需 2D 坐标嵌入,音频需时序切片。但进入主干后,三种模态的表征空间和计算逻辑完全统一。

这就是 Tschannen 说的 " 统一 "。功能层面的 " 支持多模态 " 太浅了。架构层面的 " 所有模态共享同一套表征空间 " 才是。

实测逼近 26B MoE:架构效率正在改写游戏规则

atomic.chat 的实测数据很能说明问题:RTX 4090 上,12B 生成 8.9k Token 的物理模拟代码,显存仅 9GB,性能逼近 26B MoE 的 15GB 配置。二者参数差距高达 140 亿,12B 用不到一半的显存,跑出了旗舰模型超半数的速度,代码生成质量、物理逻辑推理能力几乎无差距。

过往大厂内卷思路永远是堆 MoE、堆参数量抬升性能,而 Gemma 4 12B 证明:优化架构同样能追平旗舰效果,直接动摇 " 靠堆参数取胜 " 的行业惯性研发思路。这才是 26B 级大模型路线倍感紧张的根源。

显存大幅缩减,无编码器设计是重要因素之一。没有独立编码器的额外内存开销,也没有编码器与主干之间的特征对齐损耗。但性能逼近 26B 是多重优化共同作用的结果,训练数据配比、架构效率提升都有贡献,不能单一归因。

真正的信号在于:Gemma 4 12B 证明了 " 无编码器统一架构 " 在中等规模模型上的量产可行性。

这个验证完成以后,事情开始往几个方向传导。

LoRA 等轻量微调方法可以直接作用于 Transformer 主干,理论上能同步优化全模态回路。不再需要分别维护编码器和主干,不再需要为对齐问题头疼。具体微调效果还得等独立验证,Google 自己也没发布官方消融实验。

硬件门槛的变化更直观。多模态推理从 " 双路工作站 " 降到了 " 单张消费级显卡 ",9GB 显存跑原生多模态,这个门槛直接决定了它能不能进入普通开发者的工作流。

生态层面也有想象空间。统一嵌入空间在架构理论上预留了扩展接口,新增模态理论上只需定制专属投影层即可接入主干。但 " 可接入 " 和 " 可用 " 是两回事,配套的训练数据、任务设计和专项调优缺一不可。" 零成本新增模态 " 是幻觉," 架构层面的可能性 " 才是准确的描述。

边界与分水岭:架构领先不等于全能,但方向已经确立

必须诚实交代:Gemma 4 12B 面对超过三步的复杂串联任务、多工具联动场景,仍会出现规划幻觉、路径偏移的问题。这不算否定它的理由,只说明它正处于从 " 能对话 " 到 " 能做事 " 的过渡期。

早期智能手机的触屏也不够灵敏,但方向已经确立。无编码器统一架构的验证已经完成,剩下的工程优化只是时间问题。

Gemma 4 12B 的发布很容易被淹没在 " 又发了一个模型 " 的信息噪音中。但把视线从参数表移开,看向架构图,会看到一个清晰的信号:

多模态 AI 的研发逻辑,正在从 " 为每种模态设计专用转换器再拼接 ",转向 " 所有模态共享同一套注意力机制 "。

12B 参数不是重点。它证明了,多模态的 " 大一统 " 不需要靠堆模块实现,统一表示空间就够了。

未来两年,当业界回顾 2026 年的多模态进展时,Gemma 4 26B 的基准分数会被遗忘,Gemma 4 12B 的架构选择会被反复引用。它是第一个在中等规模、可商用、可本地部署的模型上,验证了 " 无编码器统一架构 " 的量产可行性。

26B 打赢了当下的性能战,12B 改写了未来多模态的底层规则。

相关标签
ai

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容