EXT5：転移学習のための極端なマルチタスクスケーリング

natural language processing 2022年05月25日

3つの要点
✔️ 大規模なマルチタスク学習が自然言語処理モデルにもたらす効果について検証
✔️ 多様なタスクセットであるEXMIXの提案
✔️ 教師付きマルチタスク事前学習と自己教師付き事前学習を組み合わせたEXT5モデルの提案

ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning
written by Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven Zheng, Sanket Vaibhav Mehta, Honglei Zhuang, Vinh Q. Tran, Dara Bahri, Jianmo Ni, Jai Gupta, Kai Hui, Sebastian Ruder, Donald Metzler
authors' websites ： Vamsi, Yi, and Donald
(Submitted on 22 Nov 2021 (v1), last revised 29 Jan 2022 (this version, v2))
Comments: ICLR 2022
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

現在、自然言語処理においてマルチタスク学習や転移学習は成功を収めていますが、事前学習におけるタスクがモデル性能にもたらす効果は明らかになっていません。

例えば、事前学習時のタスク数が多いほど下流タスクにおける性能が向上するのでしょうか？　それとも、特定の下流タスクで有効な性能を発揮するには、事前学習時のタスクを厳選する必要があるのでしょうか？

この記事で紹介する論文では、こうした疑問に取り組むため、107個の教師付き自然言語処理タスクからなるEXMIX(EXtreme MIXture)を導入し、マルチタスク事前学習の効果に関する多様な調査を行いました。また、EXMIXを利用したモデルであるEXT5を提案し、これは様々なタスクにてT5を超える優れた性能を示しました。

EXMIXについて

論文では、マルチタスク事前学習におけるタスク数等の効果を調べることが重要な目標となっています。

この目的のため、EXMIX(EXtreme MIXture)と呼ばれる、合計18Mの例を含む107個の多様な英語NLPタスクからなるコレクションを導入します。内訳は以下の表の通りです。

また、各データセットのサイズを昇順に並べた場合は以下の図のようになり、EXMIXからサンプリングを行う際には、各データセットサイズごとにサンプリング率が決められています。

なお、データセットサイズのバランスを取るため、最大で$3×10^5$の例になるようサンプリング率の上限が決定されています。

以下のセクションでは、このEXMIXを用いて、マルチタスク学習に関する多様な実験を行います。

マルチタスク学習に関する多様な実験

マルチタスク転移学習におけるEXMIXタスク間の関係

はじめに、EXMIXを用いて、マルチタスク事前学習におけるタスクと下流タスクの影響の調査を行います。

最終的な目標は、「下流タスク性能に悪影響を及ぼしうる(マルチタスク事前学習時に含めるべきではない)タスクがあるのか」、「より良い表現を得るために有効なEXMIX内のタスク集合はあるのか」といった疑問を解決することです。とはいえ、事前学習時と転移学習時のタスク集合の組み合わせを全て実験することは非現実的であるため、論文では様々な実験を行ってこの疑問に取り組んでいます。

はじめに、EXMIX内のタスクから8つのタスクファミリーを作成し、転移学習時のタスクファミリー間の関係について調査します。

そして、あるタスクファミリーでの性能が、その他のタスクファミリーと同時に学習を行うことにより性能が向上または低下するかについて検証します。このとき、タスクファミリーは以下の通りです。

このように、それぞれ3つの代表的なデータセットからなる8つのタスクファミリーについて、タスクファミリーのペアを選択し、それらに含まれる6つのデータセットに対して事前学習モデルのFine-Tuningを行ったモデルを作成し、その性能の調査を行います。

このとき、タスクファミリーペアのサンプリング比率は1:1に設定されており、合計で200kステップのFine-Tuningが行われます。結果は以下の通りです。

表の行$i$,列$j$の項目には、$i,j$のタスクファミリーペアで転移学習したモデルについて、$j$のタスクファミリーにおける平均性能を示しています。

一番右の列では、あるタスクファミリーが他のタスクファミリーと同時に学習した場合に性能をどれだけ向上させたかを示しています。

対角線上(単一のタスクファミリーで学習した場合)の性能は、100kステップ(データ予算が一定)の場合と200kステップ(計算予算が一定)の場合が示されています。実験の結果、特定のタスクファミリーペアでは性能が向上する場合がある(例えばNLIとその他の共同学習では性能が向上する場合が多い)ものの、全体としては性能が低下する場合が一般的であることがわかりました。

具体的には、単一タスクファミリーで学習した場合と比較して、データ予算が同じ場合は21/56、計算予算が同じ場合は38/56のパターンで性能が悪化していることがわかりました。また、要約(SUM)タスクファミリーは他のタスクファミリーの性能を低下させる場合が多いなど、タスクファミリーごとに異なる関係が存在していることもわかりました。

また、単一のタスクファミリー内の3つのデータセットについて、それぞれの相関は以下のようになりました。

図の通り、全体としては正の相関が見られるものの、一部の例では同一のタスクファミリーに属する場合でも負の相関が見られる場合があることがわかりました。これらの結果、事前学習済みモデルに対するマルチタスク転移学習は、必ずしも性能を向上させるとは限らないことがわかりました。

マルチタスク転移学習とマルチタスク事前学習の関係

次に、上記の実験で見られたFine-Tuning時のタスク間の関係が、マルチタスク事前学習における有効なタスク集合の探索に役立てられないかを考えます。先程の実験では、例えばNLIやCMNSなど、他のタスクファミリーと同時に学習させることで性能を向上に寄与したタスクファミリーがあることがわかりました(表の一番右の列を参照)。

ここで、他のタスク性能を向上させたNLI、CMNS、CLS、CBWAに分類される48個のタスクを選択し、これを事前学習に利用した場合について実験します。結果は以下の通りです。

実験の結果は表のBest-effortに示されていますが、ランダムにタスクを選択した場合の平均値(Random-55)やEXMIX(全タスク)の場合と比較して、良い結果を得ることはできませんでした。

よって、マルチタスク転移学習とマルチタスク事前学習は別の問題であり、マルチタスクの転移学習では負の影響が出る場合でも、事前学習時にはより多様なタスクが含まれる方が良い結果が得られることが示唆されています。

マルチタスク事前学習vs事前ファインチューニング

事前学習とファインチューニングの中間段階としてマルチタスク学習を活用する方法として、pre-finetuning(事前ファインチューニング)と呼ばれる手法も存在します。

ここで、標準的な事前学習済みT5チェックポイントをもとに、EXMIXでpre-finetuningを行い、その後SuperGLUEでfinetuningを行う場合について検討します。結果は以下の通りです。

結果として、全体の計算量(表のCompute:処理したトークンの層数)を踏まえても、マルチタスク事前学習のほうが有意に優れていることがわかりました。

ラベル付きデータと自己教師付き事前学習の混合について

次に、ラベル付きデータであるEXMIXと、T5モデルの自己教師付き事前学習に用いられたC4(Colossal Clean Crawled Corpus)を混合した場合の性能について実験します。結果は以下の通りです。

この図では、C4サンプルがEXMIXのR倍含まれる場合の結果について、ハイパーパラメータRを変化させた場合のEXT5モデル(詳細は後のセクション)の結果が示されています。

ここで、R→∞の場合はC4のみ(図の破線)、R=0の場合はEXMIXのみの結果となります。全体として、EXMIXと自己教師付き事前学習を混合することで性能を向上させられる場合があることがわかりました。

ただし、R=0の場合は著しく性能が悪化しており、自己教師付き学習の重要性も示されています。

事前学習時のタスク数は多いほど性能が向上するのか？

次に、マルチタスク事前学習時のタスク数によってモデル性能がどれだけ変化するかについて調査します。

ここで、30,55,80のランダムなタスクを選択して事前学習を行い、SuperGLUEでfine-tuningを行った場合の(3つのランダムシード)における平均性能は以下の通りです。

結果として、バッチサイズが大きい場合はタスク数が大きいほど良い結果が得られることがわかりました。

ただし、バッチサイズが小さい場合はこの傾向はあまり見られません。(マルチタスク学習がノイズとなる可能性によるものと思われます。)

EXMIXによるサンプル効率の向上

また、EXMIXによる事前学習のサンプル効率について調査します。

ここでは、SuperGLUE以外のEXMIXについて、200kステップの事前学習を行い、その途中でSuperGLUE上でのfine-tuningを行った場合の結果について調査を行いました。

このとき、EXT5とT5の比較結果は以下の通りです。

図の通り、大規模なマルチタスク学習は自己教師付き事前学習と比べてサンプル効率の改善に繋がることがわかりました。

EXT5モデル

最後に、T5モデルをベースに、EXMIXによるマルチタスク学習を組み合わせたモデルであるEXT5モデルについて取り上げます。

EXT5モデルの事前学習時には、(先述の実験でも取り上げられていましたが)ラベル付きデータであるEXMIXと、T5モデルの自己教師付き事前学習に用いられたC4(Colossal Clean Crawled Corpus)を組み合わせます。このとき、C4サンプルがEXMIXの$R$倍含まれるようにハイパーパラメータ$R$を制御します。

事前学習時の合計ステップ数はT5モデルと同じになっています。また、fine-tuning時には学習率を$10^{-4}$に設定されています(T5の場合は$10^{-3}$)。