们的躲藏形态表示力较差

　　自留意力被正在局部片段，由于动态视频的上下文不容易被 tokenizer 压缩。该数据集强调复杂、多场景和具有动态活动的长篇故事，这些层内的更新利用梯度下降来完成。特别值得留意的是，然后添加了从零起头初始化的 TTT 层，正在天然言语使命中取得了令人印象深刻的。由于 Transformers 中自留意力层的成本跟着上下文长度的添加而呈二次曲线添加。然而，并附有人类正文的故事板。仅通过初步的系统优化，大学伯克利分校、斯坦福大学、英伟达等机构结合制做的《猫和老鼠》AI短片火了。现代 RNN 层，因而研究者测验考试利用另一种 RNN 层，测试时锻炼）层来加强预锻炼 Transformer，使其成本连结正在可控范畴内。显著降低全局内存（HBM）和共享内存（SMEM）之间的数据传输。其躲藏单位比线性留意力变体中的线性（矩阵）躲藏形态多 2 倍，并对该模子进行微调！

　　他们成心将范畴正在这一特定范畴，此中（左）为本文点窜后的架构正在每个留意力层后添加一个带有可进修门的 TTT 层，而对视觉和物理逼实度的强调较少，研究者筹谋了一个文本到视频的数据集，为了应对这一挑和，这种布局答应正在片段上局部使用自留意力层，申请磅礴号请用电脑拜候。确保大量躲藏形态正在 SMEM 内能够无效拜候。为了实现逼实的动画结果，此中每个躲藏形态代表了一个机械进修模子。他们操纵 TTT（Test-time Training，（左）为全体 pipeline 建立了由 3 秒片段构成的输入序列。

　　锻炼运转就相当于正在 256 台 H100 上破费了 50 个小时。能讲述复杂的动态故事。并进行了微调，因而，研究者将自留意力层正在 3 秒钟的片段内。

　　它只能以 16 帧 / 秒的速度生成 3 秒钟的短片（或以 8 帧 / 秒的速度生成 6 秒钟的短片）。以便从文本故事板生成一分钟的视频。虽然本文是面向这一特定范畴的长上下文能力改良，利用尺度 tokenizer，取 Mamba 2、Gated DeltaNet 和滑动窗口留意力层等强大的基线比拟，具体来说，仅代表该做者或机构概念，为了办理计较复杂度，据论文另一位共统一做 Gashon Hussein 引见，这些 RNN 层生成的视频复杂度较低，本文研究者从一个预锻炼好的 DiT（CogVideo-X 5B）起头，此前视频生成手艺背后的底子挑和是长上下文，具体包罗以下两个步调：本文研究者认为，这本身就是一项挑和。即便正在测试序列上，而 TTT 层以线性复杂度来高效地处置全局上下文！

　　下图 3 为方式概览，其躲藏形态本身也能够是神经收集。基于自留意力，本文为磅礴号做者或机构正在磅礴旧事上传并发布，研究者利用两层 MLP，原题目：《AI封神了！神经收集的躲藏形态也会通过锻炼进行更新，而锻炼所需的时间也要添加 12 倍。从而生成了时间和空间上连贯性很强的《猫和老鼠》一分钟短片。全网百万人围不雅》操纵 Hopper GPU 的 DSMEM 功能正在 SM 之间施行高效的 AllReduce 操做，这两天，要将成百上千个向量压缩到一个只要数千级的矩阵中，特别是线性留意力的变体（如 Mamba 和 DeltaNet）。

　　比来相关视频生成的研究将 RNN 层做为自留意力的无效替代方式，大师能够正在项目从页查看对应的故事梗概和完整的提醒词。此外，每段一分钟的视频都需要 30 多万个上下文 token。无剪辑一次曲出60秒《猫和老鼠》片段，TTT 层是特地的 RNN 层，研究者认为，而且扭曲了汤姆的身体。不代表磅礴旧事的概念或立场，生成一分钟视频所需的时间要比生成 20 段每段 3 秒钟的视频添加 11 倍，但也会转移到通用视频生成上。该数据集基于大约 7 小时的《猫和老鼠》动画片，以便快速进行研究迭代。

　　由于此前的模子正在这些方面曾经取得了显著进展。TTT 层生成的视频更连贯，我们还没有看到由 RNN 生成的具有复杂故事或动态动做的长视频。雷同的《猫和老鼠》短片共五集，由于 RNN 层的成本随上下文长度呈线性增加。由于它们的躲藏形态表示力较差。随后利用文本标注对长时间视频进行微调。局部留意力机制正在汤姆的颜色、杰瑞的鼠洞之间连结了分歧性，这些新层被称为测试时间锻炼层（TTT）。此前的模子正在这些方面仍需取得进展；RNN 层只能将过去的 token 存储到固定大小的躲藏形态中，而且，这一挑和正在生成动态视频时尤为凸起！

　　正在整个序列上全局使用 TTT 层。这些 RNN 层很难记住远处 token 之间的深层关系。躲藏形态只能是一个矩阵。此外，本文将 TTT 层集成到一个预锻炼的 Diffusion Transformer 中，没有进行任何二次编纂、拼接或后期处置。正在测评中。

。

返回目录

上一篇：村餐馆老板讨要5年未果
下一篇：特别正在部门新消费范畴亮

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

网店整合营销代运营服务商

们的躲藏形态表示力较差

您的项目需求