クロスドメイン・クロスタスク設定下での新たな転移性指標OTCE

転移学習 2021年12月15日

3つの要点
✔️ 異なるドメイン・タスク間の転移学習において，教師付き分類タスクの転移性の新しい指標を提案
✔️ 複数の異なるドメインから構成されているデータセットであるDomain NetとOffice31を用いた実験において，先行研究と比較して提案指標と精度との相関が平均で21%向上
✔️ 先行研究の指標と比べ，ソースモデル選択に有用であることを確認。

OTCE: A Transferability Metric for Cross-Domain Cross-Task Representations
written by Yang Tan, Yang Li, Shao-Lun Huang
(Submitted on 25 Mar 2021)
Comments: CVPR2021.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

一般的に機械学習において高精度な予測を行うためには、大量のデータを用いて学習する必要があります。しかしながら、十分な量のデータを集めることができないものも存在します。そこで注目を集めているのが事前学習済みモデルを再利用し、モデルが学習している特徴抽出能力を使用することで、必要な学習量を減らすことが可能となる転移学習という手法です。

転移学習では、事前学習済みモデルが学習したドメイン・タスクと新たにモデルが学習しようとしているドメイン・タスクが同じであると学習が効率的に行われることが知られています。一方で、異なるドメインや異なるタスク間での転移学習は、ドメインやタスクが同じである転移学習よりも一般的で困難な問題と言えます。

本論文では、このようなクロスドメイン、クロスタスクの転移学習において教師付き分類タスクの転移性を予測するために、Optimal Transport based ConditionalEntropy (OTCE)と呼ばれる転移性指標を提案しています。

OTCEは、転移性をドメイン差とタスク差の組み合わせとして特徴づけ、統一されたフレームワークでデータから明示的に評価します。
具体的には、最適輸送を用いて領域差を推定し、ソースとターゲットの分布間の最適な結合を推定して、ターゲットタスクの条件付きエントロピー（タスク差）を導いています。

輸送最適化問題

提案手法の説明に入る前に輸送最適化問題について解説します。
輸送最適化問題とは、1781年にフランスの数学者・工学者GaspardMonge(ガスパール・モンジュ)が論文の中で提唱した「ある砂山をそれと同じ体積の穴に移したい。砂の移動には移動距離に依存したコストがかかるとき、最適な移動のさせ方は何か」という問題が元になっています。

以下に一般的な輸送最適化問題の式を示します。コスト関数$c(x,y)$は現在地から目的地まで輸送するのにかかるコストを表します。また、カップリング行列は輸送する際、ある地点からどれぐらい輸送するかを表す行列です。
本論文では、輸送最適化問題を$\Pi(\alpha,\beta)$について解くことで、ある確率分布から異なる確率分布へ輸送する際に最小のコストで行うための最適カップリング行列を求めています。

提案手法

提案手法では、クロスドメイン・クロスタスク間の転移学習において転移性をドメイン差とタスク差に分けて検討しています。まず、ドメイン差$W_D$の部分について解説します。
初めに、以下に示す輸送最適化問題を解くことでソースドメイン$D_s$とターゲットドメイン$D_t$の最適カップリング行列$\pi(x,y)$を求めます。
ここで、$x^i_s$、$x^j_t$はそれぞれソースとターゲットの画像を、$\theta$は特徴抽出期を意味し、エントロピー正則化項は輸送最適化問題をシンクホーンアルゴリズムで解くために加算されています。

輸送最適化問題を解くことで得られた最適カップリング行列を用いて、以下の式でドメイン差を求めます。
転移学習では、一般的にソースモデルで学習された特徴抽出器を用いるため、$||\theta(x^i_s)-\theta(x^j_t)||^2_2$の値はターゲットの画像がソースのものと似ていた場合はドメイン差$W_D$は小さくなり、ターゲットの画像がソースと似ていない場合はドメイン差$W_D$が大きくなります。

次に、タスク差$W_T$の部分について解説していきます。
まず、最適カップリング行列$\pi(x,y)$を用いることで同時確率${\hat P}(y_s,y_t)$と${\hat P}(y_s)$の推定値を得ます。

こうして求めた同時確率${\hat P}(y_s,y_t)$と${\hat P}(y_s)$の推定値を用いてタスク差$W_T$を求めるための式を示します。
タスク差$W_T$は条件付きエントロピー$H(Y_t|Y_s)$を用いることで求めており、これは同時確率${\hat P}(y_s,y_t)$と${\hat P}(y_s)$を用いることで表すことができます。ここで、$Y_s$と$Y_t$はそれぞれソースラベル$y_s$とターゲットラベル$y_t$全体の集合を意味します。

エントロピーとは平均情報量を意味する言葉で、その情報源がどれだけ情報を出しているかを測る尺度のことです。情報に意外性があるほど情報としての価値が高く、エントロピーが大きくなります。
ここで用いられている条件付きエントロピー$H(Y_t|Y_s)$は、$Y_s$が解っている場合に$Y_t$を得た際の平均情報量を意味しており、この値が小さいとそれだけ似ていると言えます。
また、$H(Y_t|Y_s)$は同時確率${\hat P}(y_s,y_t)$と${\hat P}(y_s)$を用いることで表すことができます。

こうして求めたドメイン差$W_D$とタスク差$W_T$をそれぞれに対応する重み$\lambda_1$と$\lambda_2$をかけて足し合わせたものにバイアス項$b$を加えることでOTCEとなります。OTCEの値は大きいほど転移性が高いことを意味します。

使用データセット、実験設定

本論文で用いられたデータセットは以下に示す2つです。

この2つのデータセットを用いて異なるドメイン・タスク間の設定下で分類タスクの転移性推定問題について考えるため以下の実験設定に基づき実験を行いました。

1つのドメインをソースドメイン，その他をターゲットドメインとして転移学習
・Domain Netで44カテゴリ，Office31で15カテゴリの分類タスクをソースタスクとしてランダムに取得
・ソースタスクに対してDomain Netで5ドメイン，Office31で3ドメインの計8つのソースモデルを学習
・最適化手法:SGD、損失関数:クロスエントロピー
・実験結果を先行研究での転移性指標LEEP,NCE,H-scoreと比較
・転移性指標と精度(ソースモデルをターゲットデータで100エポック学習した後のテスト精度)の相関を調査するための実験
　1．基本設定
　2．マルチソース適用

実験結果

初めに、実験設定1の実験結果を紹介します。以下の表は、転移性指標とテスト時の精度の相関係数を表しています。それぞれの指標において平均の精度を比較すると、OTCE:92.6%、LEEP:88.3%、NCE:84.9%、H-score:73.0%となっておりOTCEがOTCE以外の指標と比較しても明らかに高い精度を示していることがわかります。

また、上の表の値をプロットしたのが以下の図です。この図は横軸が転移性指標、縦軸がテスト時の精度を表しています。それぞれの指標において、プロットした際の相関の値を比較すると、LEEP:0.886、NCE:0.812、H-score:0.858、OTCE:0.968となっており、プロットした図を見てもOTCEがOTCE以外の指標と比べてOTCEが転移性指標と精度の間に強い相関があることが確認できます。

次に、実験設定2の実験結果を紹介します。この実験では指定されたターゲットドメインに対して100個のターゲットタスクをランダムで選び、各ターゲットタスクに対して、他のドメインで事前に学習された4つのソースモデルを用意します。

この実験では、それぞれの転移性指標が最も良かったソースモデルを用いて、ターゲットタスクを行う際に最も高い精度を出すことができるかを評価しています。以下の表の値は予測成功率(転移性指標が最も良いソースモデルを用いた場合、他のソースモデルを用いた場合より精度が良かった回数/全体の試行回数)を示しています。

ここで、H-scoreは本実験において意味のある結果が得られなかったため、OTCE，LEEP，NCEの予測精度を比較しています。
それぞれの指標において平均の精度を比較すると、LEEP:52.2、NCE:67.5、OTCE:86.4となりOTCEがOTCE以外の指標と比べてソースモデル選択に有用であることが確認できます。

まとめ

本論文ではクロスドメイン・クロスタスクの転移学習という一般的な設定で転移性の推定問題を検討しました。
提案されたOTCEは転移性をドメインとタスクの違いに基づき特徴づけたもので、他の転移性指標(LEEP、NCE、H-score)と比べクロスドメイン・クロスタスクという設定下で転移性を捉えるのに適していることが確認できました。
また、OTCEはソースモデルの選択にも有用であることも示されており、今後さまざまな応用が考えられる指標であると感じました。