BERTはまだまだ進化する!軽くて強いALBERTが登場!

BERTはまだまだ進化する!軽くて強いALBERTが登場!

3つの要点
✔️BERTの構造に2つの改善を施し、大幅なパラメーター削減を実現
✔️BERTで効果がないとされていた学習タスクを改善し、より文法を捉えた学習を実現
✔️パラメーター削減による速度の向上だけでなく、性能の向上をも実現

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
written by Zhenzhong LanMingda ChenSebastian GoodmanKevin GimpelPiyush SharmaRadu Soricut
(Submitted on 26 Sep 2019 (v1), last revised 9 Feb 2020 (this version, v6))

Comments: Published by ICLR 2020
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

はじめに

現在の自然言語処理のトレンドの一つとして、ELMoやBERT、XLNetのような言語モデルベースの機構を用いた事前学習により、様々なタスクの性能効能を目指すというものがあります。弊メディアでもこのトレンドを追いかけ、BERTやその改良版であるERNIEXLNetRoBERTaについて紹介してきました。

こうした手法を用いた事前学習は、QAタスクなどのタスクで大きな性能の向上に貢献します。一方で、BERTをベースとしたモデルはパラメーターが非常に多く、学習にも莫大な時間がかかることが知られています。また、BERTは構造的に学習が難しいため、パラメーターを増やしていくことで性能が下がってしまういう問題があります。さらにBERTの学習に盛り込まれているNext Sentence Prediction(NSP)は性能の向上に寄与しないと、かねてよりその必要性について議論されてきました。

ALBERT(A Lite BERT)ではこうした問題を解決するために、パラメーターの大幅な削減とそれに伴う学習速度の向上を実現しています。これらのパラメーター削減はタスク学習の制約としても機能するため、BERTの学習が効率的になり、最終的な性能の向上も報告されています。さらにNSPに代わる新たなタスク学習を盛り込むことで、本来NSPによって学習を試みていた「文脈の一貫性の理解」のより効果的な獲得を実現しました。

この記事をシェアする