「貧者のためのBERT」:複雑なモデルを単純な手法で軽量化し、限られたリソースで最大限のパフォーマンスを発揮する技術!

「貧者のためのBERT」:複雑なモデルを単純な手法で軽量化し、限られたリソースで最大限のパフォーマンスを発揮する技術!

3つの要点
✔️ BERTやXLNetなどの強力なNLPのためのアーキテクチャは、計算リソースが十分でない研究者にとっては手が届かない。
✔️ モデルのサイズを最大40%削減しつつ、元の性能を最大98%維持できるプルーニング手法を提案。蒸留によってBERTを軽量化したDistilBERTに比べ軽量でハイパフォーマンスだった。 

✔️ BERTとXLNetを比較し、XLNetの方がプルーニングに対して頑健であることを示した。

Poor Man's BERT: Smaller and Faster Transformer Models
written by Hassan SajjadFahim DalviNadir DurraniPreslav Nakov
(Submitted on 8 Apr 2020)

Comments: Published by arXiv
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)

はじめに

自然言語処理の分野では、BERTをはじめとするTransformerベースの事前学習モデルが非常に大きな成功を収めています。しかし、これらのモデルは非常に多くのレイヤーからなり、パラメータの数も数百万と非常に多くなっています。

このようにモデルを深く、大きくすることはパフォーマンスの向上に繋がるのですが、計算には多くのGPU/TPUメモリが要求されます。例えば、BERT-largeは24層で構成され3億3500万個のパラメータを持っており、最低でも24GBのGPUメモリが必要です。これほどサイズの大きいモデルだと、推論時間もそれなりにかかってしまうため、リアルタイム処理が必要なアプリケーションなどで困難が生じます。

この記事をシェアする