最新AI論文をキャッチアップ

SkySense: マルチモーダルなリモートセンシングFoundationモデル

SkySense: マルチモーダルなリモートセンシングFoundationモデル

CVPR

3つの要点
✔️ SkySenseと呼ばれる、様々なタスクやマルチモーダルデータに対応できる大規模リモートセンシングFoundationモデルを提案した。
✔️ SkySenseは、マルチモーダルな時系列データを処理するFactorized Multi-Modal Spatiotemporal Encoder、様々な粒度の特徴量を学習するMulti-Granularity Contrastive Learning、ジオコンテキスト情報を抽出するGeo-Context Prototype Learningから成る。
✔️ 既存の18個のリモートセンシングFoundationモデルと比較し、SOTAを更新した。

SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery 
written by Xin GuoJiangwei LaoBo DangYingying ZhangLei YuLixiang RuLiheng ZhongZiyuan HuangKang WuDingxiang HuHuimei HeJian WangJingdong ChenMing YangYongjun ZhangYansheng Li
(Submitted on 15 Dec 2023)
Comments: Accepted by CVPR2024
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

はじめに

地球観測リモートセンシング画像の解釈は、作物モニタリング、災害管理など様々なタスクで非常に重要です。しかしながら、これらのモデルはタスク毎に別々に作成する必要があります。近年、様々なダウンストリームタスクに利用できる学習済基盤モデルが注目され、RSFM (Remote Sensing Foundation Model)の研究が進んでいます。通常画像と異なり、リモートセンシング画像はマルチモーダル(光学センサやSARセンサ)であること、解像度が異なること、時系列や地理情報を持つことなどの特徴があります。従って、RSFMはそのようなジオコンテキスト情報を学ぶ必要があります。本論文では、既存のRSFMを改善し、20億個のパラメータを持つSkySenseと呼ばれるモデルを、2000万枚のマルチモーダルリモートセンシングデータセットで学習しました。 

データセット

事前学習データとして、World View-3,4, Sentinel-1, Sentinel-2など様々なセンサからマルチモーダルデータを作成しました。全体で2150万枚になり、SkySenseへのインプットは{$x_{HR}, x_{Ms}, x_{SAR}$}としました。ここで$x_{HR}$はWorld View, $x_{Ms}$はSentinel-2, $x_{SAR}$はSentinel-1です。

アーキテクチャ

アーキテクチャは下図のようになります。Factorized Multi-Modal Spatiotemporal Encoder

それぞれのモダリティから独立に空間特徴量を抽出し、融合します。$g$を空間エンコーダとして

$$F_i=g_i(x_i), i\in {HR, Ms, SAR},$$

$$F_T=Concat[F_{HR}, F_{Ms}, F_{SAR}]$$

次に、時間情報を加味した位置エンコーディング$P_{DTPE}[:,\bf{t},:]$を加え、さらにエクストラトークン$F_{\bf e}$を結合します。

$$F_T^{date}=F_T+P_{DTPE}[:,{\bf t},:],$$

$$F_T^{cat}=Concat[F_{\bf{e}}, F_T^{date}]$$

ここで${\bf t}$はバッチ内のすべての取得日を含むベクトルです。$F_T^{cat}$は複数のTransformerエンコーダレイヤーに入力され、マルチモーダルな時空間特徴量$F_{\bf fus}^{mm}$が得られます。

Attention Geo-Context Integration

リモートセンシング画像の地理情報は重要なジオコンテキストであるため、region-specific prototype set $\mathcal{P}$と呼ばれる、各エリアのプロトタイプ特徴量とのアテンションを組み合わせました。

$$F_{\bf fus}=Concat\left[F_{\bf fus}^{mm}, Softmax\left(\frac{QK^T}{\sqrt d}\right)V\right], Q=F_{\bf fus}^{mm}, K=V=\mathcal P_r$$

事前学習

Multi-Granularity Contrastive Learning

インプット{$x_{HR}, x_{Ms}, x_{SAR}$}に2種類のデータオーグメンテーションを行い、$\{u_i\}, \{v_i\}$とします。生徒、教師の空間エンコーダをそれぞれ$g_i, g'_i$として

$$F_i=g_i(u_i), F'_i=g'_i(v_i)\ i\in\{HR,Ms,SAR\}$$

様々なタスクと解像度に対応するため、ピクセルレベル・オブジェクトレベル・イメージレベルのcontrastive learningを導入しました。

$${\mathcal L}_{\bf pix}(F_i, F_i')=\frac{1}{N_ST_i}\sum_s \sum_t {\mathcal L}_{CL}(f_i^{\bf pix}, f_i^{\bf pix'})$$

ここで$N_S$は空間特徴量サイズ、$T_i$はシーケンスの長さ、$\mathcal L_{CL}$は学習loss、$f_i^{\bf pix}$は$F_i$のある時刻要素$F_i^{\bf pix}$から抽出した特徴量、$f_i^{\bf pix'}$は同一エリアで対応する特徴量です。

$${\mathcal L}_{\bf obj}(F_i, F_i')=\frac{1}{N_CT_i}\sum_s \sum_t {\mathcal L}_{CL}(f_i^{\bf obj}, f_i^{\bf obj'})$$

ここで$f_i^{\bf obj}$は$f_i^{\bf pix}$を教師なしクラスタリングした特徴量のクラスタ中心、$N_C$はクラスタ数です。

$${\mathcal L}_{\bf img}(F_i, F_i')=\frac{1}{T_i}\sum_t {\mathcal L}_{CL}(F_i^{\bf img}, F_i^{\bf img'})$$

ここで$F_i^{\bf img}$は$F_i^{\bf pix}$を平均プーリングしたものです。

最後に、上記のピクセルレベル・オブジェクトレベル・イメージレベルのcontrastive learning lossを足したものをfine-grained contrastive learning loss ${\mathcal L}_{FGCL}$として、Multi-Glanularity Contrastive Learning loss ${\mathcal L}_{MGCL}$は以下のようになります。

$${\mathcal L}_{MGCL}=\sum_{i\in \{HR,Ms,SAR\}}{\mathcal L}_{FGCL}(F_i,F_i')+{\mathcal L}_{FGCL}(F_{\bf fus}, F'_{\bf fus})$$

これにより、様々な空間情報、シングルモダリティ、マルチモダリティを学習することができます。

Unsupervised Geo-Context Prototype Learning

ジオコンテキストは重要な情報であるため、生徒モデルに導入しました。地球を$N_R$エリアに分け、各エリア毎にプロトタイプサブセット${\mathcal P}_r$を定義します。そして、$F_{\bf fus}^{mm}$とのコサイン類似度行列$\bf M$を計算します。シンクホーンアルゴリズムとEMA (https://arxiv.org/abs/1911.05722)を組み合わせ、次のように更新します。

$$\bar{{\mathcal P}_r}={\bf S}^TF_{fus}^{mm}, {\mathcal P}_r \leftarrow m{\mathcal P}_r+(1-m)\bar{{\mathcal P}_r}$$

ここで$\bf S$は$F_{\bf fus}^{mm}$とプロトタイプの最適割当行列、$m\in [0,1)$はモーメント係数です。これによりエリア考慮した特徴量を学習することができます。

結果

様々なデータセットおよびタスクに対する性能は下図のようになりました。既存モデルよりもほぼすべてに対してSOTAを更新していることが分かります。また、シングルモーダル・マルチモーダルそれぞれの異なるタスクでもSOTAを更新しました。

まとめ

本論文では、SkySenseと呼ばれる、大規模マルチモーダルなリモートセンシングFoundationモデルを提案しました。異なるシナリオを学ぶモジュールを導入することで、様々なタスクで精度を更新する一般化性能を示すことができました。将来研究として、言語モダリティを組み合わせ、より応用性能を持たせることなどがあります。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする