
Transformer的发展势不可挡!Transformer改进研究总结 Part3
3个要点:
✔️高效变压器模型的具体实例介绍。
✔️ 解释使用可学习模式、低阶因子化、内核和递归的方法。
✔️达到线性顺序O(N)的注意力最好。
高效变压器。调查
笔者 Yi Tay,Mostafa Dehghani,Dara Bahri,Donald Metzler
(2020年9月14日提交(v1),2020年9月16日最后一次修订(本版,v2))
评论:已被arXiv接受
学科。 机器学习(cs.LG);人工智能(cs.AI);计算和语言(cs.CL);计算机视觉和模式识别(cs.CV);信息检索(cs.IR)![]()
![]()
首先
通过改进变压器的算法,研究更高效的变压器(Efficient Transformers),现在非常活跃。 这个研究领域的进展非常快,已经有很多高效变压器被提出来了,要想掌握全局是非常困难的。在本文中,我们考虑到这一现实情况,为
。
根据这种情况,本文对高效变压器的改进进行了全面的说明。关于高效变压器的总体介绍、大致分类等基础知识,可以在本文中找到。在本文中,我们将对过去提出的高效变压器模型的架构和时间/空间计算复杂度进行更具体、更详细的解释。
本文介绍的模型将分为基于可学习模式(LP)、低秩因子化(LR)、内核(KR)和递归(RC)的方法。(4.5 - 4.8)
关于其他分类车型的解释,请看本文。
目录
1.关于变压器的计算量(另文解释)
2.高效变压器的分类(另文解释)
3.关于高效变压器的相关信息(另文解读
4.高效变压器的具体实例
4.1.基于固定模式(FP)(在另一条中解释)
内存压缩变压器
图像变换器
4.2.基于全局内存(M)(在另一篇文章中解释)
集变形金刚
4.3.FP的组合(在另一条中解释)
稀疏的变形金刚
轴向变压器
4.4.固定模式和全局记忆库(FP+M)的组合(在另一篇文章中描述)
长方体
ETC
大鸟
4.5.基于可学习模式(LP)
路由变压器
改革者
沉角变形金刚
4.6.基于低秩因式化(LR)的方法。
Linformer
合成器
4.7.基于内核(KR)
表演者
线性变压器
4.8.基于递归(RC)
Transformer-XL
抗压变压器
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别