APP下载

关于ZAKER

Skills 合作

钛媒体 9小时前

砍掉独立编码器：Gemma 4 12B 推翻多模态 " 拼接设计 "

文 | AI 唱反调

一个 12B 模型，凭什么让 26B MoE 紧张？

2026 年 6 月 4 日，Google 发布 Gemma 4 12B。官方定位很克制：介于 E4B 与 26B MoE 之间的中端型号，能跑 16GB 笔记本，Apache 2.0 开源。

DeepMind 科学家 Michael Tschannen 的推文泄露了另一层意图。" 过去几年我的研究重点是统一跨模态的模型和训练范式。今天发布的 Gemma 4 12B，直接处理原始文本、图像和音频输入。"

关键词是 " 直接 "。" 支持 "" 融合 " 都不准，只有一个词能概括：直接。

绝大多数科技自媒体只盯着 16G 笔记本、开源免费两个噱头，完全无视这次发布真正颠覆多模态行业的底层架构革新。这也是 12B 能威胁 26B MoE 的核心密码。

多数报道把 " 无编码器 " 解读为减法：用 35M 轻量嵌入替代数百兆的 ViT，显存从 15GB 压到 9GB，刚好塞进消费级笔记本。这个解读没错，但漏掉了更底层的东西。

若仅以降低显存为目标，Google 完全能通过量化蒸馏改造现有 26B MoE，没必要从零重构整套多模态架构。Gemma 4 12B 是重新设计的，它要做的不是把模型做小，而是让原始音画无损直通 LLM。

传统多模态的巴别塔困境：编码器翻译必然损耗信息

过去三年，主流多模态模型，LLaVA、GPT-4V、甚至 Gemma 4 26B，本质上都是拼接怪。内部结构大同小异：

ViT 编码器（通常 12-24 层）把图像切成 patch，提取特征向量；Conformer 或 Whisper 编码器把声波转成梅尔频谱，提取声学特征。然后两者分别经过对齐层，投影到 LLM 的文本向量空间。最后，语言模型才开始处理这些被转换过的信息。

这个架构能工作，但有一个结构性缺陷：信息在到达 LLM 之前，已经过至少一次压缩和转换。 ViT 输出的是高维特征向量，原始像素已经不存在；Conformer 输出的是声学特征表示，原始声波已经不存在。LLM 拿到的是经过压缩提炼的高层特征，丢失大量原始画面的空间细节和音频的时序纹理。

三种模态的优化目标也相互割裂。ViT 学图像分类，Conformer 学语音识别，LLM 学文本预测。拼接时需要用额外训练弥合差异，" 学了看图忘了说话 " 的灾难性遗忘反复出现。

编码器本身没做错什么。错的是 " 必须分层转译 " 的架构规则。压缩转换一旦发生，信息损耗就不可逆。

Gemma 4 12B 没打算修这条管道，它直接把管道拆了。

视觉抛弃了传统 ViT 编码器，改用 35M 轻量嵌入模块。单次矩阵乘法 + 2D 坐标嵌入 + 归一化，图像块直接映射到与文本 Token 相同的向量空间，然后进入 Transformer 主干的注意力计算。提取特征变成了直接投影。

音频更彻底。彻底移除音频编码器，原始音频信号直接投影到文本 Token 的向量空间。不做频谱转换，不做声学特征提取，原始声波直接进模型。

传统架构是 " 分别处理再拼接 "，Gemma 4 12B 是 " 混合 Token 序列统一处理 "。图像 Token、音频 Token、文本 Token 按顺序排列，进入统一的 Transformer 主干后，由同一套注意力机制处理，共享主干网络的权重和推理逻辑。

投影层本身因模态特性而异。视觉需 2D 坐标嵌入，音频需时序切片。但进入主干后，三种模态的表征空间和计算逻辑完全统一。

这就是 Tschannen 说的 " 统一 "。功能层面的 " 支持多模态 " 太浅了。架构层面的 " 所有模态共享同一套表征空间 " 才是。

实测逼近 26B MoE：架构效率正在改写游戏规则

atomic.chat 的实测数据很能说明问题：RTX 4090 上，12B 生成 8.9k Token 的物理模拟代码，显存仅 9GB，性能逼近 26B MoE 的 15GB 配置。二者参数差距高达 140 亿，12B 用不到一半的显存，跑出了旗舰模型超半数的速度，代码生成质量、物理逻辑推理能力几乎无差距。

过往大厂内卷思路永远是堆 MoE、堆参数量抬升性能，而 Gemma 4 12B 证明：优化架构同样能追平旗舰效果，直接动摇 " 靠堆参数取胜 " 的行业惯性研发思路。这才是 26B 级大模型路线倍感紧张的根源。

显存大幅缩减，无编码器设计是重要因素之一。没有独立编码器的额外内存开销，也没有编码器与主干之间的特征对齐损耗。但性能逼近 26B 是多重优化共同作用的结果，训练数据配比、架构效率提升都有贡献，不能单一归因。

真正的信号在于：Gemma 4 12B 证明了 " 无编码器统一架构 " 在中等规模模型上的量产可行性。

这个验证完成以后，事情开始往几个方向传导。

LoRA 等轻量微调方法可以直接作用于 Transformer 主干，理论上能同步优化全模态回路。不再需要分别维护编码器和主干，不再需要为对齐问题头疼。具体微调效果还得等独立验证，Google 自己也没发布官方消融实验。

硬件门槛的变化更直观。多模态推理从 " 双路工作站 " 降到了 " 单张消费级显卡 "，9GB 显存跑原生多模态，这个门槛直接决定了它能不能进入普通开发者的工作流。

生态层面也有想象空间。统一嵌入空间在架构理论上预留了扩展接口，新增模态理论上只需定制专属投影层即可接入主干。但 " 可接入 " 和 " 可用 " 是两回事，配套的训练数据、任务设计和专项调优缺一不可。" 零成本新增模态 " 是幻觉，" 架构层面的可能性 " 才是准确的描述。

边界与分水岭：架构领先不等于全能，但方向已经确立

必须诚实交代：Gemma 4 12B 面对超过三步的复杂串联任务、多工具联动场景，仍会出现规划幻觉、路径偏移的问题。这不算否定它的理由，只说明它正处于从 " 能对话 " 到 " 能做事 " 的过渡期。

早期智能手机的触屏也不够灵敏，但方向已经确立。无编码器统一架构的验证已经完成，剩下的工程优化只是时间问题。

Gemma 4 12B 的发布很容易被淹没在 " 又发了一个模型 " 的信息噪音中。但把视线从参数表移开，看向架构图，会看到一个清晰的信号：

多模态 AI 的研发逻辑，正在从 " 为每种模态设计专用转换器再拼接 "，转向 " 所有模态共享同一套注意力机制 "。

12B 参数不是重点。它证明了，多模态的 " 大一统 " 不需要靠堆模块实现，统一表示空间就够了。

未来两年，当业界回顾 2026 年的多模态进展时，Gemma 4 26B 的基准分数会被遗忘，Gemma 4 12B 的架构选择会被反复引用。它是第一个在中等规模、可商用、可本地部署的模型上，验证了 " 无编码器统一架构 " 的量产可行性。

26B 打赢了当下的性能战，12B 改写了未来多模态的底层规则。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

砍掉独立编码器：Gemma 4 12B 推翻多模态 " 拼接设计 "

宙世代

一起剪

相关阅读

128G超大内存！七彩虹灵创K16超级AI工作站图赏

黄仁勋和韩企三巨头掌舵人聚餐 饭后桌面亲笔留LOVE LOVE LOVE

拒绝当美国附庸！欧洲要科技独立：弃用Windows、谷歌等

美的方洪波：从没认定小米是最大竞争对手 任何品牌都不是我们的威胁

证监会主席吴清：坚决遏制概念炒作、复杂嵌套、过度投机、通道空转等伪创新、乱创新

算得更快更准！我国发布全球海洋现象智能预报大模型琅琊2.0

砍掉独立编码器：Gemma 4 12B推翻多模态"拼接设计"

姚顺雨，给出腾讯AI“隆中对”

酷冷至尊推出独立GPU Shield连接器：可检测电流不平衡并报警

姚顺雨才是腾讯AI最明星的产品

小米超高端手机下半年发布：玄戒芯片+OS+AI大模型大会师！全自研

欧洲议会弃用谷歌 转用法国搜索引擎

财联社创投通：一级市场本周122起融资环比增加8.93%，千寻智能完成15亿元A+轮融资

你一个月开几次机！电视正沦为背景音工具 纯粹就是听个响

万兴科技携万兴剧厂亮相华为云INSPIRE 2026

最新评论

钛媒体

热门推荐

企业资讯

黄仁勋和韩企三巨头掌舵人聚餐饭后桌面亲笔留LOVE LOVE LOVE

美的方洪波：从没认定小米是最大竞争对手任何品牌都不是我们的威胁

欧洲议会弃用谷歌转用法国搜索引擎

你一个月开几次机！电视正沦为背景音工具纯粹就是听个响