关于ZAKER 合作
钛媒体 43分钟前

服务器 OS 迎来智能化升级时代,AI 如何“ for system ”?

AI 对各行业的重构已经是不争的事实,这点也体现在了服务器操作系统之上,操作系统上承各类模型应用,下接多元算力,是支撑大模型应用稳定运行的关键。在龙蜥社区技术委员会主席杨勇看来,AI 与服务器操作系统之间的影响是相互的,一方面,要实现 AI for System;另一方面,要推进 System for AI。

AI时代,服务器OS面临更多挑战

在 AI 大模型时代,异构计算需求的爆发式增长正在重塑服务器操作系统的底层逻辑。根据 IDC 预测,2025 年全球 AI 服务器市场规模将突破 1200 亿美元,而支撑这一算力洪流的操作系统,正从被动适配硬件的 " 工具 " 进化为主动定义算力的 " 中枢 "。在这场变革中,AI 原生服务器操作系统不仅是技术突破的试验场,更是全球科技产业争夺的战略制高点。

第一是,万亿参数模型需要跨 CPU、GPU、DPU、FPGA、ASIC 的协同算力,另一方面,数据隐私与算力效率成为天平两端的核心命题,操作系统已从单纯的资源管理者进化为智能算力中枢。

从需求上看,AI 时代对服务器操作系统提出了几大需求。首先,全架构兼容与动态资源调度的需求。AI 大模型训练需要同时调用 CPU、GPU、DPU、FPGA 等多元化算力,这对操作系统的硬件兼容性提出了前所未有的挑战。

第二是,性能瓶颈突破与集群稳定性。万亿参数模型训练面临 TB 级显存需求和万卡集群故障率累积问题。

第三是,AI 原生设计与自我进化。操作系统正从 " 工具 " 进化为 " 智能体 "。作为调取大模型、智能体的底层核心,操作系统正在从一个简单的系统软件,向着更智能化的时代迈进。

目前来看,业界有两个技术方向,一个是学术派提出的用大模型打造操作系统内核,对计算机系统的软硬件资源进行智能分配。杨勇认为,这种方式从理想上是可行的,但是短时间内落地商用的前景并不明朗," 因为大模型推理存在延迟性,业界领先的推理性能都基本处于 50 毫秒吞吐量左右,但操作系统内核需要达到微秒级,甚至亚微秒级的延迟响应,从目前大模型技术上看,短时间内是无法实现的。" 杨勇指出。

而且这种方式虽然理论上可行,但实践起来对于 Token 资源产生了极大的浪费,成本极高,这点也是目前没法商用落地的关键。

另一方向是,在原有的操作系统内核的基础上,通过 MCP 适配的方式,将操作系统进行智能化升级。杨勇认为,这个方向相对来说比较好实现。

第四是,数据隐私与全生命周期安全。医疗、金融等敏感领域的 AI 应用对数据安全提出严苛要求。目前大多数操作系统都在安全方面进行了一些布局。

第五是,软件、硬件生态统一。芯片厂商各自为政的 SDK 和驱动形成了严重的 " 软烟囱 "。对此,浪潮信息系统软件产品部总经理苏志远表示,从技术上来讲,多元算力对于操作系统提出的需求基本已经可以满足,目前来看,软硬件适配,甚至是生态的复杂度才是操作系统在 AI 时代面临的最大挑战。因为多元异构算力不仅需要用起来,还需要在此基础上,对异构算力之间进行优化和协同,这就对服务器操作系统对多元异构算力的调度、协同提出了更高的要求。

无独有偶,中国工程院院士陈纯也曾表示,在数智时代,操作系统的作用显得更为重要," 软硬件体系在不断地创新演变,需要通过操作系统连接多样化硬件与软件,为应用的稳定运行提供保障。例如云计算的调度与弹性,大模型的训练与推理,都离不开一个稳定、安全、高效的服务器操作系统。"

而无论是浪潮信息这样的系统厂商,还是阿里云这样的云服务商,都在考虑如何更高效利用 GPU 算力的同时,让 CPU 也能充分工作," 我们不希望 CPU 的算力闲着。而在 GPU 层面,显存调度优化,需要推进一些新的硬件协议," 苏志远指出," 我认为这方面也存在一些技术难点,不过更多的还是打通生态,解决适配性的痛点。"

服务器OS的智能化升级

面对如此多的挑战,服务器操作系统的智能化升级也迫在眉睫。在杨勇看来,企业如果想应用好 AI 大模型和智能体,操作系统是必不可少的一环," 企业通过 AI 原生的操作系统集成业内最好的推理应用部署框架,达到更便捷的部署需求," 杨勇展望未来 AI 智能体的发展趋势时指出," 未来,AI 应用会像微信、支付宝小程序一样,运行环境开发商会做更多事情,让企业更容易接入。当然包括云计算也有相应的门槛更低的集成方式。"

AI 原生操作系统的概念与云原生类似,需要服务商将原有的系统软件在 AI 的环境下,重构一遍。对此,杨勇表示,AI 与服务器 OS 的关系是 " 相辅相成 " 的,一方面要实现 "System for AI";另一方面,AI 也能反哺操作系统软件,实现 "AI for System"。

在 "System for AI" 方面,AI 原生操作系统首先需要解决的是异构算力调度问题,在硬件层面,实现从 " 单一适配 " 到 " 多元融合 " 的转变。比如,龙蜥操作系统实现了对各体系结构芯片的完善支持,提供了包括 x86、ARM、RISC-V 等在内最新芯片的支持。

在软件层面,AI 原生操作系统将成为算力的智能调度引擎,让算力从 " 静态分配 " 到 " 动态优化 "。总体来看,在 "System for AI" 层面,操作系统未来将不仅是算力的管理者,更将成为智能决策的中枢,进一步通过软硬协同实现效率突破,通过开源生态打破技术垄断。

在 "AI for System" 方面,服务器 OS 在为 AI 提供支撑的同时,也有越来越多的厂商尝试将 AI 的能力植入到服务器 OS 中,为服务器 OS 赋能。在杨勇看来,目前已经有很多操作系统的构建过程、管理过程可以通过智能体进行辅助," 目前来看,大多功能尚处于辅助阶段,仍需要有人进行接管," 杨勇表示。而从应用场景上看,如何将 AI 的能力融入操作系统之中,实现 "AI for System"(人工智能支持操作系统),成为国内操作系统研发方向之一。

目前来看,"AI for System" 的最佳应用场景就是智能的运维助手," 一般情况下,用户对服务器操作系统不会有感知,只有在宕机的时候才会感知到操作系统的存在," 杨勇指出," 如果能将 AI 的能力植入到操作系统运维工具中,让 AI 提供预警,以及自动化的运维操作,就能快速解决运维的问题,减少甚至避免掉很多宕机情况的发生,从而提升系统的稳定性和可用性。"

龙蜥社区已经在操作系统智能化方面进行了一些布局。日前,在 2025 开放计算技术大会期间,龙蜥社区成立了龙蜥智算基础设施联盟(以下简称 " 龙蜥智算联盟 "),该联盟成员包括了主流 AI 芯片厂商、服务器厂商、操作系统厂商、大模型以及 AI 应用开发商等 20+ 公司及机构。

在 AI 生态碎片化背景下,杨勇向笔者介绍了龙蜥智算联盟成立的初衷,他指出,联盟将以 " 开源开放 求同存异 " 为宗旨,以 " 打造 AI 原生操作系统、形成开放兼容的 AI 生态体系、增强国内 AI 产业链竞争力 " 为目标,联合产业链上下游企业,解决大模型等 AI 技术落地过程中的兼容适配、系统稳定性、人才培养以及 AI 安全等问题,打造通用的 AI 原生操作系统,持续推动 AI 技术发展创新。

具体来看,在芯片厂商层面,龙蜥智算联盟成立之后将建立系统兼容性测试基准,围绕 GPU 兼容性测试形成一致性标准规范,减少 GPU 与不同商业版适配工作量,同时还将构建统一的标准技术规范,提升 AI 基础设施可靠性;在服务器 OS 层面,联盟将进一步统一维护并更新社区主线版本 KABI 白名单,加强上游原生版本兼容能力," 总体来看,龙蜥智算联盟成立之后将建设开源 AI 框架与国内 AI 芯片的适配平台,做好系统全栈适配及性能优化。" 杨勇如是说。

在大模型、智能体快速发展的背景下,服务器操作系统不再是 " 沉默的后台 ",而是决定算力价值的核心变量。当龙蜥、OpenCloudOS 等国内开源操作系统及其相对应的开源社区,在异构兼容、智能运维、安全隔离等领域建立起更庞大的生态。未来,操作系统,将不仅是算力的管理者,更是 AI 时代生产力的底层语言。(本文首发于钛媒体 APP,作者|张申宇,编辑丨盖虹达)

相关标签

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享