BERT还在不断发展! 更轻、更强的ALBERT来了!
三个关键点
✔️对BERT的结构进行了两次改进,使参数显著减少。
✔️改进了以前认为在BERT中无效的学习任务,从而获得了更多的语法捕捉学习。
✔️通过减少参数提高性能和速度。
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
written by Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut
(Submitted on 26 Sep 2019 (v1), last revised 9 Feb 2020 (this version, v6))
Comments: Published by ICLR 2020
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
介绍
目前自然语言处理的趋势之一是使用基于语言模型的预训练机制,如ELMo、BERT和XLNet,以提高各种任务的性能。我们一直顺应这一趋势,推出了BERT及其改进版,即ERNIE、XLNet和RoBERTa。
使用这样的方法进行预训练,有助于显著提高QA任务等任务的性能。另一方面,众所周知,基于BERT的模型有非常多的参数,并且需要大量的时间来训练。此外,BERT在结构上难以训练,其性能随着参数数量的增加而降低。此外,BERT训练中包含的下句预测(NSP)的必要性已经讨论了很久,因为它无助于性能的提高。
ALBERT(A Lite BERT)通过大幅减少参数数量,相应提高学习速度来解决这些问题。这些参数的减少也是对任务学习的约束,使BERT的学习效率更高,最终提高性能。此外,通过在NSP的基础上加入新的任务学习替代方案,更有效地实现了原本试图通过NSP学习的"对上下文一致性的理解"的获得。
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别