自留意力被正在局部片段,由于动态视频的上下文不容易被 tokenizer 压缩。该数据集强调复杂、多场景和具有动态活动的长篇故事,这些层内的更新利用梯度下降来完成。特别值得留意的是,然后添加了从零起头初始化的 TTT 层,正在天然言语使命中取得了令人印象深刻的。由于 Transformers 中自留意力层的成本跟着上下文长度的添加而呈二次曲线添加。然而,并附有人类正文的故事板。仅通过初步的系统优化,大学伯克利分校、斯坦福大学、英伟达等机构结合制做的《猫和老鼠》AI短片火了。现代 RNN 层,因而研究者测验考试利用另一种 RNN 层,测试时锻炼)层来加强预锻炼 Transformer,使其成本连结正在可控范畴内。显著降低全局内存(HBM)和共享内存(SMEM)之间的数据传输。其躲藏单位比线性留意力变体中的线性(矩阵)躲藏形态多 2 倍,并对该模子进行微调!
他们成心将范畴正在这一特定范畴,此中(左)为本文点窜后的架构正在每个留意力层后添加一个带有可进修门的 TTT 层,而对视觉和物理逼实度的强调较少,研究者筹谋了一个文本到视频的数据集,为了应对这一挑和,这种布局答应正在片段上局部使用自留意力层,申请磅礴号请用电脑拜候。确保大量躲藏形态正在 SMEM 内能够无效拜候。为了实现逼实的动画结果,此中每个躲藏形态代表了一个机械进修模子。他们操纵 TTT(Test-time Training,(左)为全体 pipeline 建立了由 3 秒片段构成的输入序列。
锻炼运转就相当于正在 256 台 H100 上破费了 50 个小时。能讲述复杂的动态故事。并进行了微调,因而,研究者将自留意力层正在 3 秒钟的片段内。
它只能以 16 帧 / 秒的速度生成 3 秒钟的短片(或以 8 帧 / 秒的速度生成 6 秒钟的短片)。以便从文本故事板生成一分钟的视频。虽然本文是面向这一特定范畴的长上下文能力改良,利用尺度 tokenizer,取 Mamba 2、Gated DeltaNet 和滑动窗口留意力层等强大的基线比拟,具体来说,仅代表该做者或机构概念,为了办理计较复杂度,据论文另一位共统一做 Gashon Hussein 引见,这些 RNN 层生成的视频复杂度较低,本文研究者从一个预锻炼好的 DiT(CogVideo-X 5B)起头,此前视频生成手艺背后的底子挑和是长上下文,具体包罗以下两个步调:本文研究者认为,这本身就是一项挑和。即便正在测试序列上,而 TTT 层以线性复杂度来高效地处置全局上下文!
下图 3 为方式概览,其躲藏形态本身也能够是神经收集。基于自留意力,本文为磅礴号做者或机构正在磅礴旧事上传并发布,研究者利用两层 MLP,原题目:《AI封神了!神经收集的躲藏形态也会通过锻炼进行更新,而锻炼所需的时间也要添加 12 倍。从而生成了时间和空间上连贯性很强的《猫和老鼠》一分钟短片。全网百万人围不雅》操纵 Hopper GPU 的 DSMEM 功能正在 SM 之间施行高效的 AllReduce 操做,这两天,要将成百上千个向量压缩到一个只要数千级的矩阵中,特别是线性留意力的变体(如 Mamba 和 DeltaNet)。
比来相关视频生成的研究将 RNN 层做为自留意力的无效替代方式,大师能够正在项目从页查看对应的故事梗概和完整的提醒词。此外,每段一分钟的视频都需要 30 多万个上下文 token。无剪辑一次曲出60秒《猫和老鼠》片段,TTT 层是特地的 RNN 层,研究者认为,而且扭曲了汤姆的身体。不代表磅礴旧事的概念或立场,生成一分钟视频所需的时间要比生成 20 段每段 3 秒钟的视频添加 11 倍,但也会转移到通用视频生成上。该数据集基于大约 7 小时的《猫和老鼠》动画片,以便快速进行研究迭代。
由于此前的模子正在这些方面曾经取得了显著进展。TTT 层生成的视频更连贯,我们还没有看到由 RNN 生成的具有复杂故事或动态动做的长视频。雷同的《猫和老鼠》短片共五集,由于 RNN 层的成本随上下文长度呈线性增加。由于它们的躲藏形态表示力较差。随后利用文本标注对长时间视频进行微调。局部留意力机制正在汤姆的颜色、杰瑞的鼠洞之间连结了分歧性,这些新层被称为测试时间锻炼层(TTT)。此前的模子正在这些方面仍需取得进展;RNN 层只能将过去的 token 存储到固定大小的躲藏形态中,而且,这一挑和正在生成动态视频时尤为凸起!
正在整个序列上全局使用 TTT 层。这些 RNN 层很难记住远处 token 之间的深层关系。躲藏形态只能是一个矩阵。此外,本文将 TTT 层集成到一个预锻炼的 Diffusion Transformer 中,没有进行任何二次编纂、拼接或后期处置。正在测评中。
*请认真填写需求信息,我们会在24小时内与您取得联系。