智源：FlagOS 完成 DeepSeekV4 八款芯片 Day0 适配，实现三重技术突破

雷峰网讯 DeepSeek 今日发布了 DeepSeek-V4-Pro 1.6T 旗舰模型 ( 1.86 万亿参数）及 DeepSeek-V4-Flash 284B 高效模型（2840 亿）。由智源研究院牵头研发的众智 FlagOS 第一时间对两个 " 巨无霸 " 模型进行全量适配，已经完成 DeepSeek-V4-Flash 在 8 款以上 AI 芯片上的全量适配与推理部署，包括海光、沐曦、华为昇腾、摩尔线程（FP8）、昆仑芯、平头哥真武、天数、英伟达（FP8）等芯片。FlagOS 同时正在推进 DeepSeek-V4-Pro 模型在多个芯片的迁移适配，后续即将开源。

首先完成在八款芯片适配的 DeepSeek-V4-Flash 是深度求索推出的 V4 系列两大模型之一，采用混合专家（MoE）架构，总参数量 284B，激活参数仅 13B，支持 100 万 token 上下文长度。该模型在架构上引入了混合注意力机制（结合压缩稀疏注意力 CSA 与高度压缩注意力 HCA，大幅提升长上下文效率）、流形约束超连接（mHC，增强跨层信号传播稳定性）以及 Muon 优化器（加速收敛、提升训练稳定性）。预训练数据超过 32Ttoken，后训练采用两阶段范式——先通过 SFT 和 GRPO 强化学习独立培养领域专家，再通过在线策略蒸馏将多领域能力统一整合到单一模型中。在最大推理力度模式（Flash-Max）下，给予更大思考预算使其推理能力可接近 Pro 版本水平；受限于参数规模，在纯知识类任务和最复杂的 Agent 工作流上略逊于 Pro。整体性能参考如下官方评测结果：

围绕 DeepSeek-V4-Flash 多芯适配，此次 FlagOS 系统软件技术栈突破了三大关键技术：FlagGems 全算子替代（实现多芯片统一适配）、为 o-group 采用独立张量并行策略解锁更多低显存场景、以及 "FP4+FP8 混合精度 " 的原生权重到 FP8/BF16 的精度路径转换。当下国内出货的 AI 芯片，都没有 FP4 的支持。英伟达也只有在 Blackwell 及之后的高端芯片才支持 FP4。这三项关键技术，使得 DeepSeekV4 能够在当前各种厂商的主流 AI 芯片上稳定运行，而非仅限于支持 FP4 和大显存的少数高端 AI 加速卡。

三大技术突破：为什么对支持多种 AI 芯片十分重要

突破一：FlagGems 提供支持 8 种以上芯片的全算子替代——真正意义上的跨芯方案

本次 DeepSeek-V4-Flash 的适配，FlagGems 实现了模型推理链路中全部算子的替代。这意味着什么？

彻底脱离 CUDA 算子依赖：DeepSeek-V4-Flash 的 MoE 专家调度、Attention 计算、RMSNorm、TopK 路由等全部核心计算模块，均由 FlagGems 基于 Triton/Triton-TLE 语言重新实现，不调用任何 cuDNN/cuBLAS 等 NVIDIA 私有库。

无需芯片厂商逐一适配：传统模式下，每款新模型上线，芯片厂商需要投入工程团队做算子适配。现在通过 FlagGems+FlagTree 编译器的组合，新模型的算子可以直接编译到多款芯片后端，芯片厂商不需要做任何额外工作。

新算子即时可用：DeepSeek-V4-Flash 引入的新计算模式（如 o-group 相关的分组路由机制），FlagGems 已经实现了对应的新算子，并通过 FlagTree 编译器统一编译到所有支持的芯片后端。

FlagGems 作为全球最大的 Triton 单一算子库，已拥有超过 400 个大模型常用算子，并已正式进入 PyTorch 基金会生态合作项目。在 40 个主流模型上，推理任务算子覆盖度达到 90%~100%，完整支持 DeepSeek-V4-Flash 的全部计算需求。

突破二：为 o-group 采用独立并行策略——解除张量并行最多单机 8 卡限制

DeepSeek-V4-Flash 为了进一步降低计算开销采用了分组输出投影技术（Grouped Output Projection），配置为 o-group=8，这导致在传统的张量并行时候，最多切 8 份。而当前一些主流国产芯片的单卡显存为 32GB 或 64GB，尤其在 BF16 格式情况下，需要张量并行大于 8 份才能放的下。为了解除这个限制，FlagOS 专门针对 o-groups 进行了单独张量并行策略设计和实现，确保 o-groups 切分不超过 8 份的前提下，能够让模型其他部分还采用经典的张量并行策略，并且实现超过 8 份的切分。通过不同的张量并行策略组合，能够实现多于 8 台设备的张量并行运行。

FlagOS 团队对 o-group 张量并行改动有：

独立的并行策略：独立于已有的张量并行通信组之外，为 o-group 单独构建所需要的张量并行通信组，确保其他模型结构张量并行切分超过 8 的情况下，o-group 的张量并行在 8 以内。

参数转换调整：对 o-group 相关的参数，也进行了对应单独的张量并行切分处理，以确保在新的独立张量并行策略下，也能够被正确加载。

覆盖面扩展：这一优化能够将 DeepSeek-V4-Flash 在单独采用张量并行策略下，将可运行芯片范围从 " 仅限单机 80GB 以上显存的个别高端卡 " 扩展到 " 多机 64GB/32GB 的更多主流国产芯片 "，包括海光、沐曦、天数智芯等厂商的主力产品线。

突破三：从 "FP4+FP8 混合精度 " 到 BF16 的精度转换——打通主流芯片的计算路径

DeepSeek-V4-Flash 模型发布时首次采用 FP4+FP8 混合精度，该精度只有在 Blackwell 及之后的英伟达最新硬件上才有支持，但当前所有国内非英伟达 AI 芯片都未能支持，只有摩尔线程原生支持了 FP8，其余依然以 BF16 为主。

FlagOS 完成了从 FP4 到 BF16 的完整精度转换：

权重反量化：将 FP4 量化权重转换为 BF16 格式。这不是简单的类型转换，而是需要根据 DeepSeek 的量化方案进行逆量化计算，确保数值精度。

计算路径重建：FP4 和 BF16 在底层计算上有本质差异—— FP4 的动态范围更窄，累加精度、溢出处理策略均不同。FlagOS 对推理链路中的 GEMM、Attention、MoE 路由等关键计算节点逐一适配了 BF16 路径。

精度对齐验证：经过标准评测集验证，BF16 版本与 FP4 原生版本在核心能力指标上保持对齐，确保精度转换不引入业务层面的效果损失。

本次，FlagOS 推出了 FP8 和 BF16 两种适配版本，让 DeepSeek-V4-Flash 不再是 " 只有最新 NVIDIA 卡才能跑 " 的模型，而是真正可以部署在 FP8 及 BF16 生态的主流国产芯片上。

FlagGems 开源高性能新算子全面支持 DeepSeek-V4-Flash

本次新发布的 DeepSeek-V4-Flash 共有大约 67 个算子，FlagGems 已全量支持。新支持了 Act Quant、hc_split_sinkhorn、FP8 MatMul、Sparse Attention、Hadamard Transform 等 5 个新算子，实现了对 DeepSeek-V4-Flash 的全面支持，也为跨芯适配打下重要基础。

FlagGems 支持 DeepSeek-V4-Flash 新算子的性能对比

为了支持更多 AI 芯片的使用，FlagOS 对 DeepSeek-V4-Flash 中使用的新算子使用 Triton 语言进行重新实现，基于 FlagTree 统一编译器，性能全部超过原生性能。

C++ Wrapper 技术是 FlagOS 技术社区专门为提升基于 Triton 语言的算子内核调用效率而打造的技术。目前已经支持了该技术的芯片包括华为昇腾、寒武纪、摩尔线程、平头哥真武、及英伟达等。使用了 C++ Wrapper 技术，在普通的 Transformers 框架下，可以显著提升使用了 Triton 算子的模型的端到端效率，实现跨芯普适、和高效推理的双重目标。通过端到端效果评测（NV H20，DeepSeek-V4-Flash FP8），C++ Wrapper + Triton 比 TileLang 快 11%，比 Python Wrapper 版快 39%。

开发者极致体验：" 发布即多芯 " + " 极简部署 "

1. 核心能力与原生版本对齐

经 GPQA_Diamond、AIME 等权威评测集验证，FlagOS 适配后的 DeepSeek-V4-Flash，在语言理解、复杂推理、代码生成、数学计算等核心能力上，与 CUDA 原生版本对齐，可放心应用于金融、教育、政企服务、代码开发等场景，无需担心适配导致业务效果折损。

评测数据：

注：本测试结果仅用于对迁移前（Nvidia-Origin）和迁移后（-FlagOS）版本的互相对齐验证，并不代表 DeepSeek 模型的官方性能，DeepSeek 模型的官方性能以 DeepSeek 官方公布数据为准。

2. 极简部署：开箱即用，底层优化无感知

FlagOS 将核心算子库、编译器等技术组件前置内置到 DeepSeek-V4-Flash 代码框架中，开发者加载模型时，底层优化代码自动生效，无需手动添加任何 FlagOS 初始化代码。同时，基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-Flash-FlagOS 模型版本，标准化 Docker 镜像 + 一键加速命令，解决了开发者最头疼的环境配置、效果对齐、性能优化等问题。

FlagOS 2.0 技术底座：从大模型到智能体时代的全栈升级

DeepSeek-V4-Flash 的三重突破，依托的是 FlagOS 2.0 统一多芯片系统软件栈的全链路能力。从算子层、编译层、框架层到工具层，全链路为大模型跨芯适配提供技术支撑，将原本数周的适配周期缩短至数天，真正实现极速落地。

FlagOS：面向多种 AI 芯片的系统软件栈

1. 高性能算子库 FlagGems：核心算子深度适配，释放硬件算力

FlagGems 作为 FlagOS 核心的高性能通用大模型算子库，基于 Triton 语言实现，针对 DeepSeek-V4-Flash 推理链路的核心算子进行了深度适配与优化，包括 MoE 专家调度、Attention 计算、RMSNorm 等关键计算模块，同时原生支持 NVIDIA、摩尔线程、沐曦、清微智能、天数等接近 20 家 AI 芯片。

2. 统一 AI 编译器 FlagTree：一次编写，多芯编译

FlagTree 是 FlagOS 面向多 AI 芯片后端的统一编译器，基于 Triton 深度定制，可将 DeepSeek-V4-Flash 的核心算子编译为英伟达、摩尔线程等十多种不同 AI 芯片后端可识别的指令，彻底解决不同芯片编译器生态割裂的问题，大幅降低算子跨芯片适配的开发成本。

3. 模型跨芯迁移发布工具 FlagRelease：半自动实现模型跨芯迁移与版本发布

依托 FlagOS 全栈技术能力，FlagRelease 已完成 DeepSeek-V4-Flash 在多种芯片上的模型迁移、精度对齐与版本发布，覆盖 HuggingFace、魔搭等开源社区平台。开发者可直接下载使用，无需自行迁移。截至本文发布，FlagRelease 已发布覆盖 10+ 家芯片厂商、12+ 款硬件、70+ 个开源模型实例的跨芯适配版本。

4. 统一多芯片接入插件 vLLM-plugin-FL：无缝兼容原生使用习惯

vLLM-plugin-FL 是 FlagOS 为 vLLM 推理服务框架打造的专属插件，基于 FlagOS 统一多芯片后端开发，在完全不改变 vLLM 原生接口与用户使用习惯的前提下，实现多芯片推理部署。目前 vLLM-plugin-FL 已经支持了英伟达、摩尔线程、海光、沐曦、平头哥真武、天数智芯、昆仑芯、华为等多家芯片。

开源共建：FlagOS 持续做开发者的 " 跨芯适配后盾 "

当下，" 异构算力协同、大模型普惠落地 " 已成为全球开源开发者社区的核心热点，打破硬件生态隔离、让大模型在不同算力平台高效低成本运行，是无数开发者的核心诉求。FlagOS 从诞生之初就将开源开放、众智共建刻入技术基因，始终以开发者为中心，通过全栈开源的统一系统软件栈，把复杂的 "M × N" 硬件适配问题降维为 "M+N"，做每一位开发者最可靠的跨芯适配后盾。

目前，FlagOS 已形成完整的开源技术体系，所有核心组件均已开源在 GitHub，同时开放了数十款最新的主流基础大模型、十多款 AI 芯片的适配方案与最佳实践，开发者可自由获取、深度定制：

四大核心技术库： FlagGems 通用大模型算子库、FlagTree 统一 AI 编译器、FlagScale 训练推理并行框架、FlagCX 统一通信库，覆盖算子开发、编译优化、并行计算、跨芯片通信全链路；

三大开源工具平台： FlagRelease 大模型自动迁移发版平台、KernelGen 算子自动生成工具、FlagPerf 多芯片评测工具，提供从模型适配、性能评测到工程落地的一站式工具链；

全场景扩展生态： vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架增强组件，以及 FlagOS-Robo 具身智能工具包，覆盖大模型训练、推理、应用全场景。

雷峰网文章

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

智源：FlagOS 完成 DeepSeekV4 八款芯片 Day0 适配，实现三重技术突破

宙世代

一起剪

相关阅读

谷歌据称拟最高投资400亿美元 加深与Anthropic的合作关系

上架秒光！华为万元旗舰Pura X Max全色售罄

腾讯大模型重回牌桌了吗？

抖音本地生活“断舍离”

麒麟9030 Pro加持 性能暴增30%！华为横向阔折叠屏手机Pura X Max开卖：10999元起

超频屠榜！华擎X870E OCF+9950X3D2横扫全球超频纪录

黄仁勋的预言仅9天就成真：DeepSeek若在华为芯片上首发对美国将是灾难

下载轻松5000Mbps以上！6G跟5G最大的区别是啥 你知道吗：亲测网速不只多了1G

伊士曼首次亮相北京车展 展示六大汽车玻璃中间膜技术方案

赋能汽车智能进化，商汤绝影舱驾一体全场景智能体产品亮相北京车展

北京车展首日！轻舟智航物理AI模型亮相，用超500TOPS智驾对标上千TOPS体验

地平线推舱驾融合芯片

《星期三》第3季移师巴黎，Netflix押注3大市场筹码

梁文锋，终于活成了 山姆·奥特曼的样子

GPT5.5深夜炸场，这次OpenAI又行了

最新评论

雷峰网

热门推荐

企业资讯

谷歌据称拟最高投资400亿美元加深与Anthropic的合作关系

麒麟9030 Pro加持性能暴增30%！华为横向阔折叠屏手机Pura X Max开卖：10999元起

下载轻松5000Mbps以上！6G跟5G最大的区别是啥你知道吗：亲测网速不只多了1G

伊士曼首次亮相北京车展展示六大汽车玻璃中间膜技术方案

梁文锋，终于活成了山姆·奥特曼的样子