洪水検出の課題を解決する新データセット「UrbanSARFloods」

Datasets 2025年01月15日

3つの要点
✔️ 都市部と農村部の洪水を網羅した大規模データセット「UrbanSARFloods」の構築
✔️ SARデータを用いた洪水検出モデルの評価と課題の明確化
✔️ UrbanSARFloodsを用いて、最先端のセマンティックセグメンテーション手法を評価

UrbanSARFloods: Sentinel-1 SLC-Based Benchmark Dataset for Urban and Open-Area Flood Mapping
written by Jie Zhao, Zhitong Xiong, Xiao Xiang Zhu
(Submitted on 6 Jun 2024)
Comments: Accepted by CVPR 2024 EarthVision Workshop
Subjects: Computer Vision and Pattern Recognition (cs.CV); Image and Video Processing (eess.IV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

洪水は、世界で最も深刻な自然災害の一つであり、数十億人もの人々に影響を及ぼしていると言われています。近年、異常気象による急激な降雨の増加によって、洪水の頻度や規模が増していることが報告されており、これに伴って、洪水を予測し、監視し、マップ化することが求められています。

こうした背景の中で、衛星データは洪水の状況を把握するために不可欠なツールとなっています。特に、光学衛星や合成開口レーダー（SAR）のデータを用いた大規模な洪水のマップ化は、これまで以上に注目を集めています。

光学衛星のデータは過去の長期間にわたるデータを提供する一方で、雲などの遮蔽物に覆われると情報が得られなくなるという課題があります。一方、SARデータは天候や昼夜に関わらずデータを取得できるため、洪水のマップ化に有用とされています。

しかし、これまでの洪水のマップ化に関する研究は、主に裸地や植生が少ない地域が多く、都市部を含む広範囲な地域に関する研究はほとんど行われていません。都市部では建物やインフラが、洪水による影響を受けやすく、洪水の予測がより難しくなります。最近の研究では、SARデータを利用して都市部での洪水を検出する方法が提案されており、その有効性が示されていますが、これらの手法はまだ十分な汎化性能があるとは言えません。

また、近年、注目を集めている深層学習が、SARデータを用いた大規模な都市洪水のマップ化においては、その適用は限られています。その理由の一つとして、ベンチマークのデータセットの不足が挙げられます。コンピュータビジョンの分野では、ImageNetのような大規模データセットが研究の進展に大きく貢献しましたが、都市洪水の分野ではそのようなデータセットがまだ存在していません。

これらの課題に対処するために、この論文では「UrbanSARFloods」という洪水の大規模データセットを提案しています。このデータセットは、都市部とその周辺地域の洪水を網羅し、Sentinel-1衛星から得られたSARデータを利用して、洪水前後の状況（SAR強度およびInSARコヒーレンスデータ）が詳細に記録されています。807,500 km²にわたる18の洪水のデータが含まれており、512×512ピクセル（20m解像度）の8,879枚の画像で構成されています。広範囲な地理的カバレッジを提供し、洪水検出のための深層学習モデルの性能評価に利用することができます。

この記事では、UrbanSARFloodsデータセットを活用した研究の成果を紹介し、都市部の洪水検出における新たな可能性と課題について紹介します。

データセットの概要

データセットには、Sentinel-1衛星が観測した18件の都市洪水のデータが含まれています。詳細な情報は下表に記載されています。

このデータセットには、洪水発生前後の様子を捉えた8つのバンドが含まれています。洪水前に取得されたVV偏波とVH偏波の強度データの2バンド、洪水後のVV偏波とVH偏波の強度データ2バンド、さらに洪水前のVV偏波とVH偏波のコヒーレンスデータの2バンド、そして洪水発生時のVV偏波とVH偏波の強度データの2バンドが含まれています。

学習データ、検証データ、テストデータの概要

UrbanSARFloodsデータセットでは、実際の様々な洪水に対応できるよう、データの分割方法に工夫しています。単に画像の量を増やすだけでなく、学習データと検証データには、さまざまな土地や条件で発生した洪水を含め、多様なシナリオに対応できるようにしています。また、テストデータには、異なる場所での洪水を特徴とするデータを使用し、異なる手法がどの程度柔軟に対応できるかを評価できるようにしています。

特に、高解像度の光学データが利用できるアフリカ、アジア、ヨーロッパの3件の洪水をテストデータとして選び、それ以外の15件の洪水を学習データと検証データに使用しています。

学習データと検証データに使用する15件の洪水では、すべての画像を512×512に分割し、洪水が含まれない画像も含めています。これは、洪水ではないデータも洪水の検出の精度向上に役立つと考えられるためです。特に大規模な洪水のマップ化では、洪水エリアと似た特徴を持つ非洪水エリアが混乱を招く可能性があります。例えば、ソマリアのBeledeweyne周辺の低木地帯などは、洪水検出モデルに誤認を引き起こす可能性があります。

洪水エリアは、シーン全体のほんの一部であることが多く、特に都市洪水ではデータの不均衡が顕著になっています。このため、学習データと検証データを選ぶ際には、洪水のケースに基づいた層化サンプリングを行っています。

具体的には、すべてのタイル（画像の分割単位）を、洪水の有無とその範囲に基づいて、非洪水タイル（NF）、浸水開放地域タイル（FO）、浸水都市部タイル（FU）に分類しています。さらに、浸水タイルは、洪水ピクセルの割合によってさらに細かく分類され、最終的に5つのカテゴリ（NF、FO1、FO2、FU1、FU2）に分類されています。その後、各カテゴリの70％を学習データに、残りを検証データに分類しています。

この手法によって、807,500 km²を網羅する8,879枚の画像で構成され、結果として、テスト用の3件の洪水データから2,408枚、学習用に4,501枚、検証用に1,970枚を含んでいます。

また、学習データ、検証データ、テストデータにおける土地被覆分類の分布も分析されています。この分析には、Copernicus Global Land Cover Map 2019が使用されています。下図では、学習データ、検証データ、テストデータのすべてにおいて、さまざまな土地被覆分類が含まれており、その分布がほぼ同様であることが示されています。

さらに、下図では、各セットにおけるラベルの分布も示されており、データのアノテーションが「ロングテール分布」に従っていることがわかります。

これは、特定のクラス（洪水地域など）が他のクラスに比べて非常に少ないということを表しており、深刻なデータの不均衡が存在することを示しています。このような不均衡なデータ分布は、洪水検出モデルの開発において特に重要な課題となりますが、それを克服するための手法もこのデータセットを活用することで研究されています。

実験結果

UrbanSARFloodsデータセットを使用して、9つのセマンティックセグメンテーションモデルを評価しています。2つの洪水クラスに対するモデルの性能を評価しています。

Unet
Unet++
MANet
Linknet
FPN
PSPNet
PAN
DeepLabV3
DeeplabV3+

まず、浸水した開放地域（FO）に対するF1スコアは、WeihuiとJubbaで0.51から0.77の範囲になっています。これは、モデルがFOを過大に評価している可能性を示しています。

下図に示されているWeihuiの例では、FOが青色、浸水した都市部（FU）が赤色で示されています。また、事前・事後のイベント強度を組み合わせたRGB画像では、FOはシアン、FUは赤色で表示されています。コヒーレンスのRGB画像では、FUがシアンで示されています。

このデータを組み合わせて解析すると、FOの過大評価の多くがFOの境界部分に集中していることがわかります。しかし、NovaKakhovkaではFOのF1スコアがさらに低く、精度は0.2未満となっており、これは洪水として検出されていない農地や風によって波立った水面がFOと似た特徴を持っていることが原因と考えられます。

次に、FUに関する定量的な評価では、F1スコアと精度が0.1未満と非常に低い結果となっています。これは、FUとして誤って分類されるピクセルが多く、モデルが浸水した都市ピクセルと他の類似ピクセルをうまく区別できていないことを示しています。

下図（再掲）の黄色い枠で示されているように、明らかにFUに似ていないピクセルも誤って分類されていることが確認できます。

さらに、すべての洪水マップは手動でアノテートされたデータを用いて評価されていますが、モデルの性能に有意な違いは見られませんでした。これらの結果から、すべてのモデルの性能が低い理由は、半自動ラベルのデータの質に問題があるわけではなく、大規模な洪水のマップ化というアプリケーションに特有の困難さに起因するものと考えられます。

まとめ

大規模な都市洪水のマッピングに深層学習を活用する際の課題は、適切な公開データセットが不足していることです。この課題を解決するために、この論文では、都市部と農村部の洪水データを含む前処理済みのSentinel-1データセットを用いて「UrbanSARFloods」を構築しています。

このベンチマークは、他の研究者が、この研究をもとに新しい技術を開発しやすくなっています。都市洪水と農村洪水を正確に捉えた汎用モデルの開発が進むことで、世界規模の洪水マップを提供され、社会問題の解決に貢献することが期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。