关于ZAKER 合作
AI效率笔记 23小时前

腾讯阿里同日发布世界模型 ,AI 从 " 对话 " 进化到 " 造世界 "

世界模型是什么?为什么突然火了?腾讯 vs 阿里:两款世界模型有什么区别?腾讯混元 3D 世界模型 2.0:游戏开发者的福音阿里 Happy Oyster:实时交互的世界模拟器两款产品对比这东西能解决什么痛点?游戏开发:从月级到天级影视制作:实时预览不再是梦数字孪生:复刻真实世界从 " 对话 " 到 " 造世界 ":AI 能力的演进中国企业的机会写在最后

昨天刷到一条新闻,我愣了几秒——腾讯和阿里在同一天发布了世界模型。不是视频生成模型,不是 3D 建模工具,是世界模型。这玩意儿能干嘛?一句话,造世界。

我翻了十几篇报道,发现这事儿比想象中大。两家大厂选在同一天发新品,绝对不是巧合。世界模型这个赛道,正在成为 AI 的下一个战场。

先说个概念。世界模型(World Model)不是新词,但今年突然爆火。

简单说,世界模型能理解物理规律、预测动作后果。传统大模型只懂语言,不懂物理。你让它生成一个 " 杯子掉落 " 的视频,它可能让杯子穿模、悬浮,因为它不知道重力是什么。

世界模型不一样。它像人类大脑一样,理解空间、物理、因果。这是机器人、自动驾驶、具身智能的核心技术基础。

世界模型被视为通用人工智能 ( AGI ) 的 " 数字地基 ",它需像人类大脑一样理解物理规律、预测动作后果,是机器人、自动驾驶等具身智能应用的核心。

为什么现在火了?因为技术终于能落地了。以前世界模型只能生成视频,现在能生成可编辑的 3D 资产,能直接导入游戏引擎用。这才是真正的质变。

打个比方:传统大模型像只会说话的百科全书,你问什么它答什么。世界模型像会思考的物理学家,你给它一个场景,它能推演接下来会发生什么。杯子掉下来会碎、水会洒、球会弹起来——这些 " 常识 ",传统大模型根本不懂。

4 月 16 日这天,腾讯发了混元 3D 世界模型 2.0(HY-World 2.0),阿里发了 Happy Oyster(快乐生蚝)。两款产品定位不同,但目标一致:让 AI 从 " 对话 " 进化到 " 造世界 "。

腾讯这款产品的核心卖点很清晰:一句话生成可编辑的 3D 空间

我试了一下理解它的能力:输入 " 生成一个日式 RPG 风格的中世纪地牢 ",模型就能生成一个结构完整的 3D 空间。生成的资产可以直接导入 Unity、UE 等游戏引擎,进行二次编辑。

这跟之前的视频生成模型有本质区别。混元世界模型 1.5 只能生成视频文件,2.0 能生成 Mesh、3DGS、点云等多格式 3D 资产。从 " 看 " 到 " 用 ",这一步跨越了实用性的门槛。

技术架构上,腾讯用了 WorldMirror 2.0 和 HY-Pano-2.0 全景生成模型。简单说,它能从普通图片映射出 360 度全景空间,不需要精确的相机参数。这就像你拍一张照片,AI 能脑补出整个房间的样子——墙后面是什么、天花板长什么样、地板是什么材质,全部推理出来。

更厉害的是角色模式。生成的 3D 空间支持角色自由探索,有真实的物理碰撞。就像在游戏里一样,你操作角色走动,不会穿墙,不会掉进地板里。这意味着生成的不是 " 场景图片 ",是 " 可玩关卡 "。

阿里的产品走的是另一条路:实时构建和交互

Happy Oyster 有两个核心功能:Wander(漫游)和 Direct(导演)。

Wander 模式下,你输入一句话或一张图,它生成一个完整空间。你可以在里面自由移动,物体位置稳定,场景持久存在。支持 1 分钟连续实时位移。

Direct 模式是独家功能。你可以在视频的任意节点,通过文字、语音、图像改写剧情、调度角色。比如你看到场景里有个 NPC,可以说 " 让他走到窗边 ",画面就会实时响应。支持 3 分钟以上的 480p 或 720p 实时画面。

Happy Oyster 采用长时间跨度的世界演化建模方式,把 " 被动生成内容 " 转变为 " 主动模拟世界演化 "。

我试着想象了一下这个场景:你在做一个短片,主角在森林里走。突然你想让他遇到一只鹿,就说 " 加一只鹿从右边走过 "。画面里立刻出现一只鹿,光影、运动轨迹都对。这种实时创作能力,以前想都不敢想。

维度 : 核心能力 | 腾讯 HY-World 2.0: 生成可编辑 3D 资产 | 阿里 Happy Oyster: 实时交互世界模拟

维度 : 输出格式 | 腾讯 HY-World 2.0: Mesh/3DGS/ 点云 | 阿里 Happy Oyster: 实时视频流

维度 : 游戏引擎对接 | 腾讯 HY-World 2.0: Unity/UE | 阿里 Happy Oyster: 暂不支持

维度 : 实时交互 | 腾讯 HY-World 2.0: 生成后编辑 | 阿里 Happy Oyster: 流式生成

维度 : 导演模式 | 腾讯 HY-World 2.0: 不支持 | 阿里 Happy Oyster: 独家功能

维度 : 开源状态 | 腾讯 HY-World 2.0: 已开源 | 阿里 Happy Oyster: 内测中

维度 : 适用场景 | 腾讯 HY-World 2.0: 游戏开发、关卡设计 | 阿里 Happy Oyster: 影视制作、实时演绎

一句话总结:腾讯偏 " 生产工具 ",阿里偏 " 创作平台 "。腾讯解决的是 " 怎么快速造出能用的一关 ",阿里解决的是 " 怎么实时演绎一个故事 "。

说完了技术,聊聊实际价值。

传统游戏开发,一个关卡从概念到落地,少则几周,多则几个月。美术建模、场景搭建、碰撞测试,每个环节都是人力堆出来的。

我有个做独立游戏的朋友,他说一个简单的室内场景,从白模到成品,至少要两周。美术、关卡设计、程序,三个人配合才能搞定。如果用世界模型,可能一天就能出原型。

有了世界模型,情况变了。你输入 " 赛博朋克风格的地下城市 ",几秒钟生成一个可漫游的 3D 空间。导入引擎,加几个 NPC,调一下光照,一个关卡原型就出来了。

腾讯游戏相关人士表示,未来没有专业 3D 建模和编程基础的玩家或独立开发者,甚至仅凭文字或图像就能快速生成一个城市级别的场景。

这不是降本增效,这是生产力的质变。独立开发者一个人就能做以前需要团队才能完成的工作。

传统影视制作,概念验证和预可视化需要大量时间和成本。导演想看一个场景效果,得等美术出图、3D 建模、渲染。

Happy Oyster 的导演模式,让导演可以在生成过程中随时调整。说一句 " 把光照改成黄昏 ",画面实时响应。这把创意迭代周期从 " 天 " 压缩到 " 秒 "。

想象一下这个场景:导演在片场,突然想换一个镜头角度。以前得重新布光、重新走位,现在对着 AI 说一句就行。这不是科幻,这是正在发生的技术。

两款产品都支持复刻真实场景。输入一段空间视频或多视角图片,模型构建高精度数字孪生空间。

这能用在室内装修预览、城市规划、文化遗产保护。你拍一段故宫的视频,AI 就能生成一个可漫游的数字故宫。这比传统 3D 扫描便宜太多了。

传统 3D 扫描需要专业设备、专业团队,成本动辄几十万。现在一部手机、一段视频就能搞定。这是技术民主化的典型案例。

把视角拉远一点。

2023 年,AI 能对话。ChatGPT 让全世界见识了大语言模型的能力。

2024 年,AI 能画图。Midjourney、Stable Diffusion 让普通人也能创作高质量图像。

2025 年,AI 能生成视频。Sora、Runway 让视频创作门槛大幅降低。

2026 年,AI 开始造世界

这不是简单的功能叠加,是能力层级的跃迁。对话是语言理解,画图是视觉生成,造世界是空间理解和物理模拟

世界模型解决的是传统大模型 " 只懂语言、不懂物理 " 的根本问题。这是具身智能、机器人、自动驾驶的基础设施。没有世界模型,机器人永远只能在预设环境里干活;有了世界模型,机器人能在未知环境里理解、预测、决策。

这才是真正的 AGI 地基。

有意思的是,这次世界模型赛道,中国企业跑得很快。

WorldArena 评测平台显示,阿里高德的 ABot-PhysWorld 已经登顶榜首。这个模型能准确预见物体在复杂交互下的运动轨迹——滑动、倾倒、堆叠、流体变化。

腾讯这次开源混元 3D 世界模型 2.0,也是走开放路线。让开发者、企业都能用,这是在抢生态位。

中国企业第一次在世界模型这个前沿赛道,和谷歌、英伟达站在同一起跑线上。而且这次,我们跑得更快。

腾讯阿里同日发布世界模型,不是巧合,是信号。

世界模型赛道正在从 " 学术探索 " 走向 " 产业落地 "。谁能先做出 " 真能干活 " 的产品,谁就能在具身智能时代占据先机。

对我们普通人来说,这意味着创作门槛的又一次大幅降低。游戏开发、影视制作、数字孪生,这些曾经需要专业团队、大量资金的工作,正在变得触手可及。

你准备好用 AI 造一个世界了吗?

相关标签

相关阅读

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容