UrbanSARFloods - 用于解决洪水探测难题的新数据集

数据集。 15/01/2025

三个要点
✔️建立涵盖城市和农村洪水的大型数据集 UrbanSARFloods
✔️ 利用合成孔径雷达数据评估洪水探测模型并确定面临的挑战
✔️ 利用 UrbanSARFloods 评估最先进的语义分割方法

UrbanSARFloods: Sentinel-1 SLC-Based Benchmark Dataset for Urban and Open-Area Flood Mapping
written by Jie Zhao, Zhitong Xiong, Xiao Xiang Zhu
(Submitted on 6 Jun 2024)
Comments: Accepted by CVPR 2024 EarthVision Workshop
Subjects: Computer Vision and Pattern Recognition (cs.CV); Image and Video Processing (eess.IV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

洪水是世界上最严重的自然灾害之一，影响着数十亿人。据报道，近年来，由于极端天气事件导致降雨量急剧增加，洪水发生的频率和规模也随之增加，因此需要对洪水进行预测、监测和绘图。

在此背景下，卫星数据已成为洪水测绘不可或缺的工具。特别是，利用光学卫星和合成孔径雷达（SAR）数据绘制大规模洪水地图比以往任何时候都受到更多关注。

虽然光学卫星数据可提供过去很长一段时间的数据，但在被云层或其他障碍物覆盖时，就无法获得这些信息。另一方面，合成孔径雷达数据则可用于绘制洪水地图，因为无论天气条件如何，也无论白天还是黑夜，都能获取数据。

然而，迄今为止，有关洪水测绘的研究主要集中在裸露土地和植被稀少的地区，对包括城市地区在内的更广阔区域的研究很少。在城市地区，建筑物和基础设施更容易受到洪水的影响，使得洪水预报变得更加困难。最近的研究提出了利用合成孔径雷达数据探测城市地区洪水的方法，并显示了其有效性，但这些方法还不具备足够的泛化性能。

此外，近年来备受关注的深度学习在利用合成孔径雷达数据绘制大规模城市洪水地图方面的应用还很有限。原因之一是缺乏基准数据集。虽然 ImageNet 等大型数据集极大地推动了计算机视觉领域的研究进展，但在城市洪水领域还不存在这样的数据集。

为了应对这些挑战，本文提出了一个名为 "UrbanSARFloods "的大规模洪水数据集。该数据集涵盖了城市地区及其周边地区的洪水，使用了来自 Sentinel-1 卫星的合成孔径雷达数据，并详细记录了洪水前后的情况（合成孔径雷达强度和 InSAR 相干性数据）。它由 8,879 幅 512 x 512 像素（20 米分辨率）的图像组成。它提供了广泛的地理覆盖范围，可用于评估深度学习模型在洪水探测方面的性能。

本文介绍了使用 UrbanSARFloods 数据集进行研究的结果，并强调了城市洪水探测的新可能性和挑战。

数据集概览

该数据集包含哨兵-1 号卫星观测到的 18 次城市洪水数据。详细信息见下表。

数据集包含八个波段，可捕捉洪水前后的情况。其中包括洪水前拍摄的两个波段的VV和VH 极化强度数据、洪水后拍摄的两个波段的VV和VH 极化强度数据，以及洪水前拍摄的两个波段的VV和VH 极化相干性数据和洪水期间拍摄的两个波段的VV和VH 极化强度数据。

培训、验证和测试数据概览

UrbanSARFloods 数据集的设计方式是对数据进行拆分，以适应现实世界中的各种洪水场景。除了简单地增加图像数量外，训练和验证数据还包括在不同地点和不同条件下发生的洪水，以确保涵盖各种情况。我们还使用不同地点的洪水数据作为测试数据，以便评估不同方法的灵活性。

特别是，选择了非洲、亚洲和欧洲有高分辨率光学数据的三场洪水作为测试数据，其他 15场洪水作为训练和验证数据。

对于用于训练和验证数据的 15幅洪水图像，所有图像都被分割成 512 x 512 的片段，包括不包含洪水的图像。这是因为非洪水数据也有助于提高洪水检测的准确性。特别是在绘制大洪水地图时，与洪水区域特征相似的非洪水区域可能会造成混淆。例如，索马里 Beledeweyne 周围的灌木丛可能会导致洪水检测模型出现误报。

洪水区域通常只占整个场景的一小部分，特别是在城市洪水中，数据不平衡现象更为明显。因此，在选择训练和验证数据时，会根据洪水案例进行分层抽样。

具体来说，所有瓦片（图像分割单元）都会根据是否存在洪水以及洪水的程度分为未淹没瓦片（NF）、淹没空旷区域瓦片（FO）和淹没城市区域瓦片（FU）。淹没瓦片根据淹没像素的百分比进一步细分，最终分为五个类别（NF、FO1、FO2、FU1 和 FU2）。然后将每个类别中 70% 的数据归入训练数据，剩余的归入验证数据。

该方法获得了 8,879 幅图像，覆盖面积达 807,500 平方公里，其中 2,408 幅图像来自三个洪水数据案例，用于测试，4,501 幅用于训练，1,970 幅用于验证。

此外，还分析了训练、验证和测试数据中土地覆被类别的分布情况。该分析使用了哥白尼 2019 年全球土地覆被图。下图显示，训练数据、验证数据和测试数据都包含一系列土地覆被分类，且其分布情况相似。

此外，下图还显示了每组数据中标签的分布情况，表明数据注释呈现 "长尾分布"。

这表明，与其他类别相比，某些类别（如洪涝区）的代表性非常低，说明存在严重的数据不平衡。这种不平衡的数据分布是洪水检测模型开发中的一个特殊挑战，人们也利用该数据集研究了克服这一挑战的方法。

实验结果

利用 UrbanSARFloods 数据集对九个语义分割模型进行了评估；评估了两个洪水等级模型的性能。

Unet.
Unet++.
MANet
链接网络
快速傅立叶变换近似正态分布
PSPNet
PAN
DeepLabV3.
DeeplabV3+.

首先，在卫辉和朱巴，水淹开阔地（FOs）的 F1 分数在 0.51 到 0.77 之间。这表明模型可能高估了 FOs。

在下图所示的卫辉示例中，FOs 显示为蓝色，城市内涝区（FUs）显示为红色。在事件发生前后的 RGB 综合强度图像中，FOs 显示为青色，FUs 显示为红色。在相干性的 RGB 图像中，FUs 显示为青色。

对这些数据的综合分析表明，对 FO 的高估大部分集中在 FO 的边界。然而，在新卡霍夫卡，FO F1 分数更低，精确度不到 0.2，这可能是由于未检测到洪水的农田和风吹波纹水面与 FO 具有相似的特征。

其次，对 FU 的定量评估结果很低，F1 分数和准确率均低于 0.1。这表明，许多像素被错误地归类为 FUs，而且模型不能很好地区分洪水淹没的城市像素和其他类似像素。

可以看出，与 FU 不明显相似的像素也会被错误分类，如下图（转载）中的黄色方框所示。

此外，还使用人工标注的数据对所有洪水地图进行了评估，结果发现模型性能没有明显差异。这些结果表明，所有模型性能不佳的原因不是半自动标注数据的质量问题，而是绘制大洪水地图应用中固有的困难。

摘要

利用深度学习绘制大规模城市洪水地图的一个挑战是缺乏合适的公开数据集。为了应对这一挑战，本文利用经过预处理的 Sentinel-1 数据集构建了 "UrbanSARFloods"，其中包含城市和农村洪水数据。

这一基准使其他研究人员更容易在此基础上开发新技术。我们希望，准确捕捉城市和农村洪水的通用模型的开发将提供全球洪水地图，并有助于解决社会问题。

与本文相关的类别

Takumu

UrbanSARFloods - 用于解决洪水探测难题的新数据集

概述

数据集概览

培训、验证和测试数据概览

实验结果

摘要

[InfiMM-WebMath-40B]利用由 24 亿数学文档组成的数据集提高 LLM 的数学性能！

[InfiMM-WebMath-40B]利用由 24 亿数学文档组成的 ...

[EDAT24]制造操作分类专用的基于事件的数据集

[EDAT24]制造操作分类专用的基于事件的数据集

在未来工厂平台上获取的模拟和多模态制造数据集

在未来工厂平台上获取的模拟和多模态制造数据集

OpenToM 是评估法律硕士是否具备 "思维理论 "的基准，现已推出！

OpenToM 是评估法律硕士是否具备 "思维理论 "的基准，现已推出 ...