BERTの位置埋め込みに望ましい特性は何か？

BERT 2021年03月09日

3つの要点
✔️ 位置埋め込みの性質・特性について広範に分析
✔️ 並進不変性、単調性、対称性の三つの指標から位置埋め込みを解析
✔️ 様々な下流タスクにおける位置埋め込みの有効性について実験・検証

On Position Embeddings in BERT
written by Benyou Wang, Lifeng Shang, Christina Lioma, Xin Jiang, Hao Yang, Qun Liu, Jakob Grue Simonsen
(Submitted on 29 Sept 2020 (modified: 02 Mar 2021))
Comments: Accepted to ICLR2021.
Subjects: Position Embedding, BERT, pretrained language model.

code：

はじめに

Transformerベースのモデルでは、入力トークンの位置情報を把握するために、位置埋め込み(Positional Embedding:PE)が用いられています。このPEには、絶対位置/相対位置、学習可能/固定などの様々な設定が存在します。

では、どのようなPEを利用するべきでしょうか？あるいは、どのような性質を持つPEが優れた性能を発揮するでしょうか？本記事で紹介する論文では、並進不変性、単調性、対称性という三つの特性を、PEの解析・解釈に有効な指標として提示しました。また、様々なPEの比較実験を行い、先の質問に対する解答を示しました。

位置エンコーディングの特性

位置エンコーディングの三つの特性として、元論文では以下の三つを提案しています。

・特性 1. Monotonicity(単調性)

はじめに、位置埋め込み間の近接度を計算する関数を$\phi(･,･)$とします(内積等が例として挙げられます)。このとき単調性は、二つの位置埋め込みが離れていれば離れているほど近接度が小さくなる性質にあたります。

$\forall x,m,n \in N: m＞n \Leftrightarrow \phi(\overset{\rightarrow}{x}, \overset{\longrightarrow}{x+m}) ＜ \phi(\overset{\rightarrow}{x}, \overset{\longrightarrow}{x+n})$

$\underset{x}{\rightarrow}$は位置$x$における位置埋め込みを表しています。

・特性 2. Translation invariance(並進不変性)

並進不変性は、相対的な位置関係が等しい二つの位置埋め込みの近接度が不変である性質にあたります。

$\forall x_1,...,x_n,m \in N: \phi(\overset{\rightarrow}{x_1}, \overset{\longrightarrow}{x_1+m}) = \phi(\overset{\rightarrow}{x_2}, \overset{\longrightarrow}{x_2+m}) = ... = \phi(\overset{\rightarrow}{x_n}, \overset{\longrightarrow}{x_n+m})$

・特性 3. Symmetry(対称性)

対称性は、二つの位置埋め込みの近接度が以下の性質を持つことにあたります。

$\forall x,y \in N: phi(\overset{\rightarrow}{x}, \overset{\rightarrow}{y})=phi(\overset{\rightarrow}{y}, \overset{\rightarrow}{x})$

これらの三つの特性をもとに、様々な位置埋め込みの調査を行っていきます。

特性をもとにした位置埋め込みの理解

・絶対/相対位置埋め込み(APE/RPE)

位置埋め込みには、絶対位置埋め込み(APE)、相対位置埋め込み(RPE)の二種類存在します。これらの間には、絶対位置($x \in N$)と相対位置($x-y, x,y \in N$)のどちらを表す埋め込みであるかという違いに加えて、以下に表されるようなAttention計算メカニズムの違いが存在します。

$WE_x$は単語埋め込みを、$P_x$は絶対位置埋め込みを、$P_{x-y}$は相対位置埋め込みを表しています。次に、以下に示す既存の四種類の位置埋め込みについて、それぞれ前述した特性をもとに検討を行います。

・正弦波位置埋め込みについて

正弦波PEの場合、二つの位置ベクトル間のドット積は以下のようになります。

正弦波PEの場合、内積は$x-y$にのみ関連しているため、特性2(並進不変性)と特性3(対称性)の両方を満たしています。一方特性1(単調性)は、写像$\psi(m)=\sum^{D/2}_{i=1}cos(\omega_i m)$の単調性と等価になります。これは、$\psi(m)$の微分$omega^{\prime}(m)=\sum^{D/2}_{i=1}-\omega_i sin(\omega_i m)$が符号を変えない区間で単調となります。

そのため、単調性は$\omega_i$の値によって成立する範囲が異なります。例えば$\omega_i=(1/10000)^{2i/D}$の場合、mが0～50の範囲では単調性が成り立ちますが、それを超える範囲では成り立ちません。そのため、この$\omega_i$を学習可能にすることで、単調性の範囲を適応的に調整することができるようになります。

・相対位置埋め込みについて

RPEでは、単語の絶対位置ではなく、相対距離をエンコードします。その性質上、特性2(並進不変性)が成り立つ($x_1-y_1=x_2-y_2$ならば$P_{x_1-y_1}=P_{x_2-y_2}$となるように定義される)ことがわかります。

特性3(対称性)については、forward/backwardで埋め込みが異なる場合($P_{i-j} \neq P_{j-i}$)は成立しなくなります。正弦波RPEの場合の特性1(単調性)は、正弦波APEと同様、$\omega$の値に応じて局所的な単調性を持ちます。ただし、正弦波RPEでは次元が各ヘッドの次元(BERTでは64)と同じであるのに対し、APEでは768となる点が異なります。正弦波RPEの場合、相対位置の絶対値が等しければ(前後に関係なく)埋め込みは同一となる点にも注意が必要です。

実験

はじめに、以下の表に示す6つの基本的な位置埋め込み(とその組み合わせ)の特性を調査します。

これらの位置埋め込みについて、先述した三つの特性の定量的評価は以下の通りです。

位置ベクトル間のドット積

APEとRPEについて、任意の二つの位置ベクトル間のドット積(近接度とみなせる)は以下の通りです。

・APEについて

APEでは、隣接する位置ベクトル(例えば(a)の左上から右下への対角線上)のドット積は大きくなります。この傾向は学習可能正弦波APE(c)の場合に特に顕著となっています。また、APEにRPEを追加した場合((b),(d))でも、全体としての傾向はあまり変化しないことがわかります。

・RPEについて

完全学習可能RPE((e),(f))では、垂直・水平方向に明るい部分が存在します。これは、相対位置の絶対値が小さい場合の位置埋め込みが、他の相対位置ベクトルと大きく異なる事を意味します。また、対角線方向に存在する暗い領域は、相対位置の絶対値が大きい場合の位置埋め込みは互いに類似していることを意味します。

つまり完全学習可能RPEは、相対位置の絶対値がごく小さい場合は区別できますが、大きい場合はあまり区別できないことになります。これは完全学習RPEが局所的な依存関係を特に重視しているとも考えられます。

ダウンストリームタスクにおけるPE

分類タスク・スパン予測タスクにおけるPEの性能の比較を行います。具体的には、ベンチマークとしてGLUEとSQuADを利用してfine-tuningを行い、各データセットごとに五回実行した場合の平均値を評価します。

・GLUEにおけるPE

GLUEベンチマークにおける結果は以下の通りです。

GLUE上では、完全学習可能APEがうまく動作しており、APE/RPEのどちらかのみを利用したその他の場合と比べて全体的に良好な結果を示しています。

APEとRPEを組み合わせた場合については、完全学習可能APE＋学習可能正弦波RPEが比較的良好です。また、APEとRPEを組み合わせれば必ずしも性能が高まるとは限らないこともわかりました。

・SQuADにおけるPE

SQuADベンチマークにおける結果は以下の通りです。

SQuAD上では、RPEを利用したほぼすべてのBERTモデルが、完全学習APEを有意に上回りました。SQuAD V1.1/V2.0における最も高性能なモデルは、どちらも完全学習可能RPEを利用したものとなりました。

GLUE・SQuADにおけるこのような違いは、分類タスク(GLUE)で重要な[CLS]トークンを扱う上では絶対位置埋め込み(APE)が比較的優位であることに起因するとみられます。また、全体として学習可能な正弦波APE/RPEは、固定正弦波APE/RPEを上回っており、$\omega$を柔軟に変化させることの効果を示しています。さらに、APEとRPEを組み合わせることにより、場合によっては性能が向上しうることが分かりました。

PE特性とタスクの関連性について

はじめに提示した三つの位置埋め込み特性と下流タスクとの関連性は以下の表に示されます。

数字が1(-1)に近いことは、タスクの性能が特性の違反とどれだけ正(負)に相関するかを示しています。

そのため、局所的な単調性や並進不変性(負の数値が多い)の違反は有害であり、対称性(正の数値が多い)の違反は有益であることがわかりました。対称性は、先行するトークンと後続のトークンとの区別が困難となることに繋がり、これは多くのタスクで望ましくない性質であるとみられます。

まとめ

本記事で紹介した論文では、位置埋め込みを解析するための三つの指標を定義し、様々な位置埋め込みについて比較実験を行いました。結果として、並進不変性・単調性を破ると下流タスク性能は低下し、対照性を破ると下流タスク性能が向上することが示されました。また、完全に学習可能な絶対位置埋め込みは、一般的に分類タスクの性能を向上させ、相対位置埋め込みは、スパン予測タスクの性能を向上させることがわかりました。

位置埋め込みは、大きな成功を収めているTransformerベースアーキテクチャにとって不可欠なものです。本研究は、位置埋め込みに関する有用な知見を提供する、非常に重要な研究であると言えるでしょう。