BERT For The Poor:用简单的技术降低复杂模型的权重,用有限的资源实现性能最大化的技术!
三个要点:
✔️强大的NLP的架构,如BERT和XLNet,对于计算资源不足的研究人员来说是遥不可及的。
✔️提出了一种修剪方法,可以在保持原有性能高达98%的前提下,将模型的体积缩小40%。与DistilBERT相比,它的重量轻,性能高,它是通过蒸馏的BERT的轻量版。
✔️他们将BERT与XLNet进行了比较,结果显示XLNet的修剪能力更强。
Poor Man's BERT: Smaller and Faster Transformer Models
written by Hassan Sajjad, Fahim Dalvi, Nadir Durrani, Preslav Nakov
(Submitted on 8 Apr 2020)
Comments: Published by arXiv
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)
首先
在自然语言处理领域,基于Transformer的预训练模型,如BERT,已经非常成功。然而,这些模型由非常多的层数组成,并且有非常多的参数(数百万)。
因此将模型做得更深更大,可以带来更好的性能,但计算需要大量的GPU/TPU内存。例如,BERT-large由24个层级、3.35亿个参数组成,至少需要24GB的GPU内存。如此庞大的模型,推理时间会相当长,这对于需要实时处理的应用来说是很困难的。
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别