「ELECTRA」新たな自然言語処理モデルが示したMLMの問題点とは！？

論文 2020年03月13日

3つの要点

✔️その１高速・高精度な自然言語処理モデルELECTRAが登場
✔️その２低精度なGeneratorにより入力を置換することで、文全体から効率的に学習を行う
✔️その３ RoBERTaの約1/4の学習量で同等の性能を発揮

ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS
written by Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning
(26 Sep 2019 (modified: 10 Mar 2020))
Comments: accepted by ICLR 2020
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)

はじめに

現在の自然言語処理では、BERT、XLNet、RoBERTa、ALBERTなどの事前学習モデルが猛威を振るっています。この分野は成長が著しく、時々刻々と新たなモデルが登場しています。

これらの言語モデルに共通する点として、入力文の一部をMASKトークンに置き換え、その部分を予測するMLM（Masked Language Model）という事前学習を行っていることが挙げられます（MLMについての詳細はBERTの記事で詳しく説明されています）。

本論文では、このMLMの問題点について指摘し、その問題を解決する新たな言語モデルELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)を提案しています。

ELECTRAは既存のMLMと異なる事前学習方式を採用しており、結果として高い精度と高速な学習を実現しています。自然言語処理のタスクにおいても、RoBERTaと同等以上の性能を発揮しています。