会不会成为变压器规模化发展的突破口? 引进高效的改革者
3个要点
✔️ 将注意力计算从 O(n^2) 大幅减少到 O(n log n)
✔️ 大幅减少激活和其他功能的内存使用量
✔️ 在保持Transformer性能的前提下,显著提高了速度和内存的执行效率。
Reformer: The Efficient Transformer
written by Anonymous
(Submitted on 13 Jan 2020 (v1), last revised 18 Feb 2020 (this version, v2))
Comments: Accepted at ICLR2021
Subjects: Machine Learning (cs.LG); Computation and Language (cs.CL); Machine Learning (stat.ML)![]()
![]()
Official![]()
![]()
![]()
![]()
Comm
大规模应用支持变压器创纪录的成果
使用变压器的研究正在产生一个又一个最先进的成果,但其应用范围越来越大。然而,应用规模越来越大,这种规模化的趋势意味着在大型研究机构之外进行研究的难度越来越大。这是目前指出和讨论的一个问题。
那么,它的规模到底有多大?
- 需要2GB的内存(32位浮点)才能容纳一个变压器层(Trm)的0.5B(=500,000,000)参数。
- 当令牌长度为64000,Embedding大小为1024,批次大小为8时,Activation(前向传播的结果)也为64K×1K×8=0.5B,即2GB。
这些尺寸对实际计算是致命的。
- 如果Trm有12层,那么Activation为2GB×12=24GB,在训练过程中需要保持到回传。
- Attention的计算在计算量和内存上都是O(L^2),对于一个令牌长度L来说,也就是说,即使批量大小为1,如果L=64KB,64KB^2×4(32位浮点)=16GB。
在这种规模下,几个GPU配置根本不足以应付。
让我们来看看这种用途的一些具体例子。
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别