「貧者のためのBERT」:複雑なモデルを単純な手法で軽量化し、限られたリソースで最大限のパフォーマンスを発揮する技術!
3つの要点
✔️ BERTやXLNetなどの強力なNLPのためのアーキテクチャは、計算リソースが十分でない研究者にとっては手が届かない。
✔️ モデルのサイズを最大40%削減しつつ、元の性能を最大98%維持できるプルーニング手法を提案。蒸留によってBERTを軽量化したDistilBERTに比べ軽量でハイパフォーマンスだった。
✔️ BERTとXLNetを比較し、XLNetの方がプルーニングに対して頑健であることを示した。
Poor Man's BERT: Smaller and Faster Transformer Models
written by Hassan Sajjad, Fahim Dalvi, Nadir Durrani, Preslav Nakov
(Submitted on 8 Apr 2020)
Comments: Published by arXiv
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)
自然言語処理の分野では、BERTをはじめとするTransformerベースの事前学習モデルが非常に大きな成功を収めています。しかし、これらのモデルは非常に多くのレイヤーからなり、パラメータの数も数百万と非常に多くなっています。
このようにモデルを深く、大きくすることはパフォーマンスの向上に繋がるのですが、計算には多くのGPU/TPUメモリが要求されます。例えば、BERT-largeは24層で構成され3億3500万個のパラメータを持っており、最低でも24GBのGPUメモリが必要です。これほどサイズの大きいモデルだと、推論時間もそれなりにかかってしまうため、リアルタイム処理が必要なアプリケーションなどで困難が生じます。
続きを読むには
(5574文字画像11枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー