低リソース言語への転移学習のためのメタ表現変換 : MetaXL

natural language processing 2021年05月27日

3つの要点
✔️ 学習データがほとんど無い言語への転移学習が可能
✔️ 言語表現を変換すると言うアイデア
✔️ 表現変換ネットワークを導入しメタ学習を行う

MetaXL: Meta Representation Transformation for Low-resource Cross-lingual Learning
written by Mengzhou Xia, Guoqing Zheng, Subhabrata Mukherjee, Milad Shokouhi, Graham Neubig, Ahmed Hassan Awadallah
(Submitted on 16 Apr 2021)
Comments: Accepted by NAACL 2021.
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)

code：

はじめに

多言語学習モデルの進歩により、幅広い自然言語処理タスクでの成功を収める事が出来るようになって来ましたが、一方でリソースが非常に少ない言語には簡単に移行出来ないと言う問題がも残されています。

例えば、多言語BERT(mBERT)はwikipediaで多くの記事がある104言語で、XLM-Rは100言語でpretrainingされています。しかし、これらのモデルはまだ200以上の言語を残しており、wikipediaのテキストが全く無い6700ほどの言語は言うまでもなく、利用できるデータがほとんどありません。

このような、非常にリソースが小さい言語への転移学習は、より良い情報アクセスのためには必要不可欠ですが、これまでは十分に研究されていませんでした。

pretrainモデルを使用した言語間転移学習の研究は、主に、学習データが十分にある言語間での転移に焦点を合わせているため、こういった少数言語ではデータが不十分なため、効果的なfine-tuningが出来ません。単語埋め込みを学習するだけでも、十分な量の単一言語コーパスが必要なのですが、これらのコーパスは前述のように取得する事が困難です。

さらに最新の研究によると、異なる言語の表現は近似した位置に存在するとは限らず、特にデータが少ない言語の場合、非常に離れた空間に位置する場合があります。メタ学習方法であるMetaXLを利用して、この表現のギャップを埋め、少量データ言語への効果的な言語間転送を可能にします。

MetaXL

言語モデルで標準的な転移学習の方法は、ソース言語とターゲット言語両方からのラベル付きデータを使用して、多言語言語モデルを共同でfine-tuningすることです。しかし今回の様な問題では、ターゲット言語では十分なラベル付きデータが利用出来ません。

提案手法の重要なアイデアは、ソース言語表現を変換することを明示的に学習することです。既存の多言語pretrainモデルに加えて、この変換を明示的にモデル化するために表現変換ネットワークと呼ばれる追加のネットワークを導入します。

ソース言語は、最初のTransformer層を通過し、表現変換ネットワーク(RTN)を通過し、残りのTransformer層を通過して、対応するソース言語ラベルからトレーニング損失を計算します。
トレーニング損失はTransformer層のみに逆伝播されますが、表現変換ネットワークは更新しません。
ターゲット言語データの出力とターゲット言語ラベルからメタ損失を計算し、表現変換ネットワークのみが更新されます。

表現変換ネットワークはd次元の言語表現を入力として、d次元の変換した表現を出力します。

ソース言語からターゲット言語に表現を適切に変換できる表現変換ネットワークがあるとした場合、ソースデータは、表現レベルのターゲットデータとほぼ同等に見なすことが出来ます。

アルゴリズム

pretrainモデルを使用してモデルパラメーターθを初期化し、表現変換ネットワークΦのパラメーターをランダムに初期化します。

Φ,θの更新式の意味ですが、

まず表現変換ネットワークΦがソース言語表現を効果的に変換する場合、そのような変換された表現f(x;Φ,θ)は、元の表現f(x;θ)よりもターゲット言語にとって有益であるはずです。

モデルは、ターゲット言語で損失を小さくしたいため、これは、2レベルの最適化問題として定式化できます。 (式(2))

L()は損失関数です。表現変換ネットワークのパラメーターΦはメタパラメーターであり、トレーニング時にのみ使用され、テスト時には破棄されます。

正確な解は、Φが更新されるたびに最適なθ*を解く必要があります。これはTransformer言語モデルのように複雑な場合、計算量が膨大になるため事実上不可能です。

このような最適化問題を含む既存の作業（）と同様に、任意のΦの最適なθ*を解く代わりに、特定のΦの最適な推定値として、θの確率的勾配降下更新法を採用します。

収束するまでθを式(3)で更新し、Φを式(4)で更新します。

学習・評価

Named Entity Recognition（NER）と感情分析分類タスクの2タスクで実験を行います。NERタスクには、言語をまたがるWikiannデータセットを使用します。言語毎のサイズは100～20kの範囲です。

感情分析タスクでは多言語アマゾンレビューコーパス（MARC）の英語部分200kと、テルグ語とペルシア語のコーパスを使用します。SentiPersは、デジタル製品に対するユーザーの意見26k文で構成されるペルシア語の感情コーパスです。Sentiraamaは、テルグ語（tel）の感情分析データセットです。

NERの結果を示します。ソース言語5kデータを利用した時のJT(Joint Training)との結果を比べています。

ターゲット言語のみの場合に比べソース言語も利用した方が大幅に精度が向上しますが、英語を利用するよりも、関連した言語の方が効果が大きい事が分かります。

感情分析ので1kデータの英語を利用した場合の精度比較を示します。

まとめ

提案手法のMetaXLは、データが豊富なソース言語からの効果的な転送を可能にし、多言語の表現のギャップを軽減する事が出来ます。今後の課題として、パフォーマンスをさらに向上させるために複数の言語からの転送を研究し、pretrainモデルの複数レイヤーに複数の表現変換ネットワークを配置する事等が考えられます。