• 首页
  • 爱游戏客户端叫什么介绍
  • 产品展示
  • 新闻动态
  • 新闻动态 你的位置:爱游戏客户端叫什么 > 新闻动态 > Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”
    Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”
    发布日期:2025-10-26 12:49    点击次数:158

    从 5 秒到4 分钟,Sora2 也做不到的分钟级长视频生成,字节做到了!

    先来看一个前方潜水员拍摄的"真实"海底世界 Vlog:

    华生,有发现么?不同于一般的 AI 生成视频,只有短短几秒钟……这个片子全程 1 分 40 秒,都是"水分"、都是 AI。

    这就是字节和 UCLA 联合提出的新方法——Self-Forcing++,无需更换模型架构或重新收集长视频数据集,就能轻松生成分钟级长视频,也不会后期画质突然变糊或卡住。

    通过利用教师知识和自生成视频片段指导自回归生成,最长生成视频可达4 分 15 秒,而且高质量、还开源。

    话不多说,再看几个视频效果尝尝鲜。

    长达 3 分钟的无人机视角下的海岸线,be like:

    时长拉到极致,4 分 15 秒跟随大象的脚步纵览草原美景。

    而相同时长下,此前的长视频生成 SOTA  SkyReels做出的效果是酱紫的:(重生之我成为一只蚂蚁)

    Self-Forcing++ 在短时长上继承了Self-Forcing的高质量画面效果,长时长生成也能达成性能指标 All kill,视觉稳定性大幅领先CausVid等方法。

    或许,AI 电影时代离我们已不再遥远……下面来康康更多详细内容。

    从 5 秒到 4 分 15 秒

    先一起来思考下这个问题:为啥现在的 AI 视频质量这么高,但还是很容易被人捉虫 AI 生成?

    其实 bug 就出自视频长度。

    无论是 Sora2、字节 Wan,还是腾讯混元、谷歌 Veo,视频内容再真假难辨,长度却都只有5 到 10 秒。

    即使勉勉强强做出长视频,也是只有前几秒能看,后面画面通通崩坏。

    原因无他,传统扩散视频生成模型依赖 Transformer 结构,即使改用双向教师模型将知识蒸馏给学生模型,由于模型本身无法生成长视频的限制,还是会持续不断积累误差。

    于是针对这一问题,字节提出Self-Forcing++方法抑制后期质量下降,不再依赖长视频教师模型训练,而是让模型在自己的错误中成长。

    首先是视频长度上,分别从噪声初始化、蒸馏方式、缓存机制三方面优化训练过程:

    反向噪声初始化

    让学生模型生成远超 5 秒(实验用 100 秒)的干净帧序列,再按扩散噪声调度向序列中重新注入噪声。

    扩展分布匹配蒸馏

    在帧序列生成后,从中随机抽取 5 秒连续窗口,计算学生与教师模型在窗口内的分布差异(KL 散度),然后通过最小化该差异完成训练。

    滚动 KV 缓存训练

    在训练与推理阶段均采用滚动 KV 缓存,训练时用该缓存生成远超教师监督时长的序列,用于扩展 DMD 计算。

    简单来说,就是让 LLM 在犯错 - 修正 - 再犯错的循环中,逐渐学会长时间的稳定生成。

    另外,由于自回归模型使用滑动窗口或稀疏注意力生成长序列时,容易出现长时记忆丢失的情况,还需要引入组相对策略优化(GRPO)改善视频平滑性。

    通过计算每一步的重要性权重,结合当前自回归生成的对数概率总和,衡量生成策略的合理性,再将相邻帧光流的相对大小作为运动连续性代理指标,引导模型优化,最终可有效减少画面突变异常。

    研究人员同时发现,现有长视频评估所使用的 VBench 基准并不完全准确,一些过亮的坏视频也会被误判为好。

    为此他们将Gemini-2.5-Pro作为评委,让模型按照过曝光、误差积累等维度以 0-100 分评分,可以更为精准地衡量视觉稳定性(Visual Stability)。

    这一点在后续的实验结果中也得以验证。

    兼顾时长和质量

    研究人员主要设计了两类场景评估,分别对比该方法与基准模型(包括自回归模型与双向模型)在短时长视频质量和长时长生成上的效果。

    其中短时长场景(5s)仍然采用 VBench 基准,根据 946 个提示词从 16 个维度评估生成质量。

    结果显示,Self-Forcing++ 在语义得分(80.37)和总得分(83.11)上均超过 NOVA、SkyReels-V2、CausVid 等模型,只略低于Wan2.1的总得分 84.67。

    说明 Self-Forcing++ 虽并未专门针对短视频进行训练,但其在短时长场景中仍能保持高视觉质量与语义一致性。

    在 50 秒生成时,视觉稳定性得分为 90.94,远超 CausVid(40.47)和 Self-Forcing(40.12),动态程度更是 Self-Forcing 得分的1.6 倍,文本对齐得分(26.37)也高于多数基准,证明其在中长时长场景的稳定性。

    而在 75 秒到 100 秒生成中,文本对齐得分可达26.04、动态程度为54.12,相比 CausVid 分别提升 6.67% 和 56.4%,相比 Self-Forcing 则提升 18.36% 和 104.9%。

    视觉稳定性得分(84.22)为 Self-Forcing(32.03)的2.6 倍,且 framewise 质量(60.66)与基准模型相当,说明其在极长时长下仍能保持高保真度与一致性。

    长视频生成通常存在的失效模式,如运动停滞、保真度退化,Self-Forcing++ 均未出现类似情况,视频全程保持连贯运动和稳定亮度及质量。

    最终实验验证得出,Self-Forcing++ 可最长生成 4 分 15 秒的视频,比原先的 5 秒提升近 50 倍,且在保真度和一致性上优于基线方法。

    参考链接:

    [ 1 ] https://self-forcing-plus-plus.github.io/

    [ 2 ] https://arxiv.org/abs/2510.02283

    一键三连「点赞」「转发」「小心心」

    欢迎在评论区留下你的想法!

    —  完  —

    � �  年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者  点击了解详情

    ❤️‍� �   企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与   � �  

    一键关注 � � 点亮星标

    科技前沿进展每日见



    Powered by 爱游戏客户端叫什么 @2013-2022 RSS地图 HTML地图

    Copyright Powered by365建站 © 2013-2024