
启用 FlashAttention 的令牌压缩 "表象移动 "的工作原理和效果
三个要点
✔️ 提出了表征转移,并引入了一种通过标记表征变化量来衡量重要性的方法
✔️ 独立于注意力图谱,具有足够的通用性,可应用于 FlashAttention 和 CNN/SSM
✔️ 实验表明推理速度提高了 5.5 倍在实验中,推理速度最高提高了 5.5 倍,从而证明了推理的准确性和效率
Representation Shift: Unifying Token Compression with FlashAttention
written by Joonmyung Choi, Sanghyeok Lee, Byungoh Ko, Eunseo Kim, Jihyung Kil, Hyunwoo J. Kim
(Submitted on 1 Aug 2025)
Comments: International Conference on Computer Vision (ICCV), 2025
Subjects: Computer Vision and Pattern Recognition (cs.CV)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
摘要
本文提出了一种新方法来应对变压器模型计算成本增加的挑战。
近年来,变换器已被广泛应用于自然语言处理和图像/视频理解领域,但随着规模的扩大,处理效率已成为一个严重问题,因为自我注意机制的计算复杂度与输入词块数量的平方成正比增长。
传统上,人们试图从两个方向解决这一问题。
一种是以 FlashAttention 为代表的内存效率方法,另一种是基于标记压缩的计算量减少方法。
然而,标记压缩通常与 FlashAttention 等不建立注意力图谱的机制不兼容,因为它使用注意力图谱来估计标记的重要性。
因此,作者提出了一种新的指标--表征偏移。这可以衡量每个标记在通过各层时的表征发生了多大变化,也是定义重要性的一种方法。
该指标无需训练,与模型无关,可与 FlashAttention 结合使用。
实验结果表明,这种方法在效率和准确性方面都优于传统方法,推理速度提高了 5.5 倍。
建议的方法
所提出的方法 "表征偏移"(Representation Shift)可以测量每个标记在层的输入和输出中的嵌入表征之间的差异,从而量化标记在模型中被增强了多少信息。
具体来说,计算向量通过 MLP 层和注意力层前后的距离,并将此值作为重要性得分。L2 准则在测量距离方面表现最为稳定。
传统方法依赖于注意力图谱,而这种方法可以独立于注意力机制来估计标记的重要性,因此可以自然地与不构建注意力图谱的计算方法(如 FlashAttention)相结合。
该框架还具有足够的通用性,不仅适用于 Transformer,还适用于 CNN 和状态空间模型 (SSM)。
作者还详细研究了设计选择,如在哪一层测量表征偏移,以及基于哪种操作(注意力或 MLP)。
结果表明,使用 MLP 层的变化量最为有效。
这种设计可以将信息损失降到最低,同时消除标记冗余。
实验
作者对图像分类和视频理解任务进行了广泛的实验,以测试所提方法的有效性。
首先,在视频任务中,使用无掩码教师(UMT)对视频文本检索和视频质量保证进行了评估,每层标记减少了 20%。
结果表明,与现有的基于注意力分数的方法相比,表征转移与 FlashAttention 的结合更快、更准确,吞吐量最多提高了 5.5 倍。
与单纯的模型微型化相比,它还能更好地权衡速度/准确性。
接下来,使用 DeiT 序列在 ImageNet 上对图像分类进行了验证,与 FlashAttention 相结合,推理速度提高了 1.2 倍,同时准确率也高于传统的基于注意力的方法。
它还被应用于 CNN/SSM,如 ResNet 和 Vision Mamba,其有效性在这些非基于变换器的架构中得到了证实。
特别是,在 ResNet-50 上逐行标记剪枝的速度提高了 18% 以上,并在很大程度上保持了准确性。
这些实验表明,表征转换是一种通用而强大的标记压缩标准。
与本文相关的类别