
SkySense:多模态遥感基础模型
三个要点
✔️ 提出了一个名为 SkySense 的大型遥感基础模型,它可以处理各种任务和多模态数据。
✔️ SkySense 是一个因子化多模态时空编码器,可处理多模态时间序列数据;多粒度对比学习可学习各种粒度的特征、地理上下文原型学习(Geo-Context Prototype Learning),包括提取地理上下文信息的地理上下文原型学习。
✔️ 通过与现有的 18 个遥感基础模型进行比较,对 SOTA 进行了更新。
SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery
written by Xin Guo, Jiangwei Lao, Bo Dang, Yingying Zhang, Lei Yu, Lixiang Ru, Liheng Zhong, Ziyuan Huang, Kang Wu, Dingxiang Hu, Huimei He, Jian Wang, Jingdong Chen, Ming Yang, Yongjun Zhang, Yansheng Li
(Submitted on 15 Dec 2023)
Comments: Accepted by CVPR2024
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
地球观测遥感图像的判读对于作物监测和灾害管理等各种任务非常重要。然而,这些模型需要为每项任务分别创建。最近,可用于各种下游任务的训练有素的基础模型引起了人们的关注,遥感基础模型(RSFM)的研究也取得了进展。与普通图像不同,遥感图像是多模态的(光学和合成孔径雷达传感器),具有不同的分辨率、时间序列和地理信息。因此,RSFM 需要学习这些地理背景信息。在本文中,我们改进了现有的 RSFM,并在一组 2,000 万个多模态遥感数据集上训练了一个拥有 20 亿个参数的名为 SkySense 的模型。
数据集
作为预训练数据,多模态数据来自不同的传感器,包括 World View-3、4、Sentinel-1 和 Sentinel-2。图像总数为 2150 万张,SkySense 的输入为 {$x_{HR},x_{Ms},x_{SAR}$}。其中,$x_{HR}$为世界景象, $x_{Ms}$为哨兵-2,$ x_{SAR}$为哨兵-1。
建筑学
结构如下图所示。 因式多模态时空编码器
从每种模式中独立提取和融合空间特征。让 $g$ 成为空间编码器。
$$F_i=g_i(x_i), i\in {HR, Ms, SAR},$$。
$$F_T=Concat[F_{HR}, F_{Ms}, F_{SAR}]$$
接着,加入考虑了时间信息的位置编码 $P_{DTPE}[:,\bf{t},:]$,并合并额外的标记 $F_{\bf e}$。
$$F_T^{date}=F_T+P_{DTPE}[:,{\bf t},:],$$
$$F_T^{cat}=Concat[F_{\bf{e}}, F_T^{date}]$$
其中,${\bf t}$是一个包含批次中所有采集日期的向量。$F_T^{cat}$ 输入到多个变换器编码层,产生多模态时空特征 $F_{\bf fus}^{mm}$ 。
注意地理语境集成
由于遥感图像中的地理信息是一个重要的地理背景,我们将注意力与每个地区的原型特征相结合,称为特定地区原型集 $/mathcal{P}$。
$$F_{\bf fus}=Concat\left[F_{\bf fus}^{mm}, Softmax\left(\frac{QK^T}\{sqrt d}\right)V\right], Q=F_{\bf fus}^{mm}, K=V=\mathcal P_r$$
先前学习
多粒度对比学习
输入{$x_{HR}, x_{Ms}, x_{SAR}$}上的两种数据增强分别为$\{u_i\}, \{v_i\}$。学生和教师的空间编码器分别为 $g_i、g'_i$。
$$F_i=g_i(u_i), F'_i=g'_i(v_i)/ i\in{HR,Ms,SAR\}$$
针对各种任务和分辨率,引入了像素级、对象级和图像级对比学习。
$${mathcal L}_{\bf pix}(F_i, F_i')=\frac{1}{N_ST_i}\sum_s \sum_t {mathcal L}_{CL}(f_i^{\bf pix}, f_i^{\bf pix'})$$
其中,$N_S$为空间特征大小,$T_i$为序列长度,$mathcal L_{CL}$为学习损失,$f_i^{\bf pix}$为从$F_i$的某个时间元素$F_i^{\bf pix}$中提取的特征,$f_i^{\bf pix'}$为从同一区域和位置提取的特征。对应的特征。
$${mathcal L}_{bf obj}(F_i, F_i')=\frac{1}{N_CT_i}\sum_s \sum_t {\mathcal L}_{CL}(f_i^{\bf obj}, f_i^{\bf obj'})$$
其中,$f_i^{\bf obj}$是$f_i^{\bf pix}$的无监督聚类特征的聚类中心,$N_C$是聚类的数量。
$${mathcal L}_{\bf img}(F_i, F_i')=\frac{1}{T_i}\sum_t {\mathcal L}_{CL}(F_i^{\bf img}, F_i^{\bf img'})$$
其中,$F_i^{/bf img}$是$F_i^{/bf pix}$ 的平均集合。
最后,将上述像素级、对象级和图像级对比度学习损失相加,即为细粒度对比度学习损失 ${\mathcal L}_{FGCL}$ 和多粒度对比度学习损失 ${\mathcal L}_{MGCL}$ 。Glanularity Contrastive Learning loss ${mathcal L}_{MGCL}$ 如下。
$${mathcal L}_{MGCL}=\sum_{i\in \{HR,Ms,SAR\}}{mathcal L}_{FGCL}(F_i,F_i')+{mathcal L}_{FGCL}(F_{\bf fus}, F'_{\bf fus})$$$
这样就可以学习不同的空间信息、单一模式和多模式。
无监督地理情境原型学习。
地理背景是一项重要信息,因此已被引入学生模型中。地球被划分为 $N_R$ 区域,每个区域定义一个原型子集 ${\mathcal P}_r$。然后计算 F_{\bf fus}^{mm}$ 的余弦相似性矩阵 $\bf M$。结合 Sinkhorn 算法和 EMA (https://arxiv.org/abs/1911.05722),我们将其更新如下。
$$bar{{mathcal P}_r}={\bf S}^TF_{fus}^{mm}, {\mathcal P}_r \leftarrow m\{mathcal P}_r+(1-m)\bar{{mathcal P}_r}$$
其中,$\bf S$ 是$F_{\bf fus}^{mm}$ 和原型的最优分配矩阵,$m\in [0,1)$ 是矩系数。这样就可以学习区域感知特征。
结果
各种数据集和任务的性能如下图所示。可以看出,与现有模型相比,SOTA 几乎在所有方面都得到了更新。它还更新了每种不同单模式和多模式任务的 SOTA。
摘要
本文提出了一个名为 SkySense 的大规模多模态遥感基础模型。通过引入模块来学习不同的场景,我们能够在各种任务中显示出更新准确性的泛化性能。未来的研究包括结合语言模态,以获得更多应用性能。
与本文相关的类别