「貧者のためのBERT」：複雑なモデルを単純な手法で軽量化し、限られたリソースで最大限のパフォーマンスを発揮する技術！

Pruning 2020年05月23日

3つの要点
✔️ BERTやXLNetなどの強力なNLPのためのアーキテクチャは、計算リソースが十分でない研究者にとっては手が届かない。
✔️ モデルのサイズを最大40%削減しつつ、元の性能を最大98%維持できるプルーニング手法を提案。蒸留によってBERTを軽量化したDistilBERTに比べ軽量でハイパフォーマンスだった。
✔️ BERTとXLNetを比較し、XLNetの方がプルーニングに対して頑健であることを示した。

Poor Man's BERT: Smaller and Faster Transformer Models
written by Hassan Sajjad, Fahim Dalvi, Nadir Durrani, Preslav Nakov
(Submitted on 8 Apr 2020)
Comments: Published by arXiv
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)

はじめに

自然言語処理の分野では、BERTをはじめとするTransformerベースの事前学習モデルが非常に大きな成功を収めています。しかし、これらのモデルは非常に多くのレイヤーからなり、パラメータの数も数百万と非常に多くなっています。

このようにモデルを深く、大きくすることはパフォーマンスの向上に繋がるのですが、計算には多くのGPU/TPUメモリが要求されます。例えば、BERT-largeは24層で構成され3億3500万個のパラメータを持っており、最低でも24GBのGPUメモリが必要です。これほどサイズの大きいモデルだと、推論時間もそれなりにかかってしまうため、リアルタイム処理が必要なアプリケーションなどで困難が生じます。

続きを読むには

(5574文字画像11枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または