APP下载

关于ZAKER

合作

每日新闻摘录 10小时前

12 小时长视频生成破天花板 ! 字节 Seed 提出自回归生成训练新范式 LoL, 获 CVPR 2026 收录

4 月 22 日下午，Sand.ai 创始人 / 算法负责人李凌志，ModelTC 开源社区负责人龚睿昊，快手可灵实习研究员 /DreamID-Omni 一作郭旭等 6 位嘉宾将在 2026 中国生成式 AI 大会同期视频生成技术研讨会带来主题报告。

长视频生成的研究风向，正逐渐从双向模型向自回归模型转变。然而，这一路径虽带来了更长的时序建模能力，却也埋下了误差累积与长期连贯性衰减的隐患。为此，研究者引入注意力汇聚帧（attention sink frames）试图稳定生成过程，却不料催生出一种新的失效模式——汇聚坍缩（ sink-collapse）：画面不断回滚至初始帧，场景骤变、运动循环，仿佛陷入时间循环。

该问题源于旋转位置编码的周期结构与多头注意力机制间的内在冲突。为此，字节 Seed 研究团队联合提出一种轻量级免训练方法 LoL（Longer than Longer），通过多头旋转位置编码抖动打破头间注意力同质化，有效抑制坍缩。

实验表明，该方法在保持生成质量的同时缓解了汇聚坍缩。此工作首次在仅依赖 1.3B 参数模型及 KV 缓存的条件下，实现了质量衰减极小的实时无限流式生成。作为验证，研究生成了长达 12 小时的连续视频，为目前流式视频生成领域公开结果中最长之一。

针对提示词 " 电影级第三人称镜头，翼装飞行者疾速穿行于狭窄的山谷之间。飞行者俯冲而下，在嶙峋的崖壁与雪峰之间流畅穿梭 " 生成的流式超长视频（时长 12 小时）。

方法

汇聚坍缩源于 RoPE 位置编码的周期性。RoPE 在短上下文中能保持相对位置关系，但周期性的三角函数在长程生成中会导致相位重新对齐，使相隔较远的帧获得相似的嵌入表示。注意力机制因此过度聚焦于汇聚帧，最终使模型陷入重复生成。

鉴于汇聚坍缩发生在所有注意力头同时表现出与汇聚帧高度相似性之时（如图 1 所示），将不同注意力头的基频偏移一定幅度，称之为多头抖动，具体算法如下。

由于 RoPE 嵌入固有的周期性，引入的相位偏移能够打破头间的全局对齐，降低所有头同时发生相位重叠的可能性，从而有效缓解汇聚坍缩现象。

3. 无限流式生成

除汇聚坍缩外，超长视频生成还受到 RoPE 长度限制及 VAE 解码内存消耗的制约。实现无限生成主要得益于当前架构的两项设计：

因果 VAE：LongLive 与 Self-Forcing++ 均基于 Wan-2.1 的三维因果 VAE，其时间因果特性支持滑动窗口解码，大幅降低显存与计算开销。

局部注意力：两种模型均采用局部注意力机制，仅关注最近的 N 个潜在帧，以控制计算复杂度。两个 RoPE 嵌入的点积主要取决于它们的相对位置差。

基于上述设计，在汇聚坍缩问题得到解决后，模型可支持无限长度视频生成。流式生成时，初始噪声与 RoPE 均采用动态采样，相较于预生成方法，仅增加极小的额外开销。

评估

如表 1 所示，位置外推（PE）在两种模型上均导致严重汇聚坍缩；位置插值（PI）虽能缓解坍缩，却使视频运动近乎停滞；NTK 保持了较高动态性，但缓解坍缩能力有限；YARN 强力抑制坍缩，但大幅削弱动态性；RIFLEx 在双向模型中表现最优，且在自回归设置下能较好保持动态性，但因将重复归因于单一维度，未能有效解决汇聚坍缩，其坍缩分数与 PE 相当。

表 1 将所提方法应用于 LongLive 与 Self-Forcing++ 模型，在使用注意力汇聚帧生成 100 秒视频的场景下进行了实验。红色表示存在严重重复现象，绿色表示运动动态性显著降低。

所提方法 LoL 在汇聚坍缩的最大值与平均值上均实现显著缓解，达到与位置插值相近的水平，同时保持了与位置外推相当的运动动态性。因此，LoL 能够实现无限时长的流式视频生成且不发生坍缩，如图 2 所示。

图 2

不同位置外推扩展方法应用后的结果可视化。

表 2 给出了与其他自回归基线方法的对比结果，表明所提方法在有效解决汇聚坍缩问题的同时，不会对生成质量造成损害。

表 2 与其它自回归视频生成模型在 75 秒与 100 秒视频上的性能对比。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

12 小时长视频生成破天花板 ! 字节 Seed 提出自回归生成训练新范式 LoL, 获 CVPR 2026 收录

宙世代

一起剪

相关阅读

53条航线全部取消！整个3月中日航班取消率为49.6%

美绕月飞船四宇航员顺利出舱：NASA称用成功回应质疑！特朗普喊话向火星进军

霍尔木兹海峡仍处于极度险境，两只可能从中受益的油田服务类股票

阿尔忒弥斯2号成功溅落太平洋！美国载人绕月任务圆满成功

证监会发布立法工作计划 20件规章项目锚定资本市场高质量发展

标注AI生成绝非免责条款！网民造谣立交桥倒塌被拘6天

OpenAI连发两起安全事件！奥特曼住宅遭燃烧弹袭击：20岁男子扬言烧总部

借变道制造全责！网约车成碰瓷工具：46人被抓 骗局细节曝光

特朗普：24小时内见分晓

桑切斯今起访华，西班牙的外交“转弯”是什么信号？

伊朗开出两大条件

伊朗议长、外长抵达伊斯兰堡，谈判首日日程披露

Lucy Liu为一只Birkin跟Kim Cattrall＂干

逐玉：樊长玉寻妹军营偶遇陶太傅，谢征斗法水坝藏生死之秘！

八千里路云和月：直到妻子被玷污，张云魁才知，孟万福为何冒充他

最新评论

企业资讯

热门推荐

企业资讯

借变道制造全责！网约车成碰瓷工具：46人被抓骗局细节曝光