随手拍的一张图,就能秒变 3A 级游戏大作?!
刚刚,腾讯全新开源游戏视频生成框架Hunyuan-GameCraft,专为游戏环境设计,让任何人都能轻松搞定游戏制作。
无论是水墨风:
基于腾讯混元视频生成 HunyuanVideo 搭建,可以实时生成流畅画面。
操作也很 so easy,只需要:单张场景图 + 文字描述 + 动作指令 = 高清动态游戏视频。
实机演示
先来康康几个生成案例尝尝鲜:
首先做一个中世纪的乡村风格场景,画面流畅自然,镜头随第一视角动态移动。
Prompt:A picturesque village scene featuring quaint houses, a windmill, lush greenery, and a serene mountain backdrop under a bright blue sky.
或者试试多动作场景,可以在转换视角的同时完成行走动作。
Prompt:A sunlit courtyard features white adobe buildings with arched doorways and windows, surrounded by lush greenery and palm trees, creating a serene Mediterranean ambiance.
还能保持历史一致性,移开镜头回来之后,场景不会出现变形情况。
Prompt:A medieval stone castle stands tall under a dark sky, its glowing windows contrasting with the surrounding snow-covered landscape.
除了第一视角,也可以进行第三人称视角生成。
Prompt:A dark, sleek car is driving down a winding road at night, its headlights illuminating the path ahead.
除了视角切换、场景转换这类基础生成能力,例如动态天气(云层移动、雪花飘落)以及 NPC 互动等复杂内容,也能被 Hunyuan-GameCraft 一一实现。
那么具体是怎么做到的呢?
个人生产 3A 级动态内容
要知道,传统的游戏视频生成工具长期面临三大瓶颈:
动作僵硬、场景静态
角色移动机械单一,只能够简单的平移或转身,且二者不能同时完成,整个运动范围也都局限在非常小的区域。
场景依赖预渲染,一旦完成静态 3D 场景构建,再对其进行改动,后续场景将失去动态能力。
长期一致性差
在切换视角后,原来的场景会改变甚至消失,历史帧信息保留不足,缺乏记忆性。
生成成本高
由于使用人工建模完成,需要专业的 3D 人工建模团队以及高端显卡支持,成本昂贵,不利于普通消费者创作。
自由流畅:基于统一连续动作空间设计,支持高精度控制(如角度、速度),也能完成边跑动边转换视角的复杂操作,动态内容生成(例如 NPC 互动、天气变化、水流运动等)也不在话下,画面相当流畅自然。
记忆增强:借助混合历史条件建模,系统可以精准记忆历史帧,确保长视频内容一致性。
成本骤降:由于对推理步数进行压缩,且实现量化 13B 模型,该架构仅需消费级显卡 RTX 4090 即可运行,制作成本得以降低。另外相比现有的游戏模型闭源方案,其泛化能力更强。
Hunyuan-GameCraft 的低门槛和开放性,让它在各个领域都能广泛适用,无论你是想游戏开发、视频创作还是 3D 设计,自己一个人就能包圆整个 3A 级动态内容制作过程,而无需专业建模和渲染知识。
从离散用户动作到连贯游戏视频
Hunyuan-GameCraft 在架构搭建过程中,精选上百款 3A 级游戏,如《刺客信条》、《荒野大镖客:救赎》、《赛博朋克 2077》,作为游戏场景数据来源。
然后一方面对起始结束向量进行分层采样,另一方面进行时间反转增强,结合渲染数据微调,综合提升控制信号的泛化能力和训练稳定性。
交互信号统一与编码
模型将键盘(如 W/A/S/D 控制移动)和鼠标(如视角旋转)等操作,通过 6 自由度相机参数(位置、方向、视野)量化为动作信号,再经过多层感知器(MLP)编码,映射到共享的相机表示空间。
混合历史条件建模
选取最近的关键帧作为条件输入,保留场景细节(如物体位置、环境状态),同时通过自回归方式传递前序生成的隐向量,捕捉时间动态(如运动轨迹、速度变化)。
模型蒸馏与效率优化
采用知识蒸馏技术,以大模型(教师模型)的输出分布为监督,训练轻量级模型(学生模型),在减少参数量和计算量的同时,保持长时序一致性和生成质量。
扩散过程中的动作控制
将编码后的交互信号与文本特征、历史条件特征融合,通过交叉注意力机制注入每一时间步,确保生成的视频帧严格响应操作指令。
然后在大规模真实游戏数据集上预训练,再在合成数据集上微调,同时通过分布平衡策略优化数据分布。
将模型与当前视频生成领域的主流模型进行多维度性能对比,实验证明 Hunyuan-GameCraft 的光流一致性得分比次优模型高18.3%,动作响应延迟低至 87ms,PSNR/SSIM 则在复杂场景中领先 5%-12%。
主观评估中,其真实感和可控性评分分别达到4.2/5和4.1/5,显著高于其他模型(最高 3.5/5)," 愿意持续交互 " 的比例达 78%,是对比模型的 1.5-2 倍。
项目官网:https://hunyuan-gamecraft.github.io/
代码:https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0
技术报告:https://arxiv.org/abs/2506.17201
Hugging Face:https://huggingface.co/tencent/Hunyuan-GameCraft-1.0
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
希望了解 AI 产品最新趋势?
量子位智库「AI 100」2025 上半年
「旗舰产品榜」和「创新产品榜」
给出最新参考
点亮星标
科技前沿进展每日见