U-Net：生物医学画像セグメンテーションのための畳み込みネットワーク

Computer Vision 2023年12月29日

3つの要点
✔️ ディープネットワークのトレーニングを成功させるには、何千もの注釈付きトレーニングサンプルが必要です。
✔️ このアーキテクチャは、コンテキストをキャプチャするための縮小パスと、正確な位置特定を可能にする対称拡張パスで構成されています。
✔️ 電子顕微鏡スタック内の神経構造のセグメンテーションに関するISBIの課題において、これまでの最良の方法（スライディングウィンドウ畳み込みネットワーク）よりも優れたパフォーマンスを発揮することが示されました。

U-Net: Convolutional Networks for Biomedical Image Segmentation
written by Olaf Ronneberger, Philipp Fischer, Thomas Brox
(Submitted on 18 May 2015)
Comments: conditionally accepted at MICCAI 2015
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

この論文では、ディープニューラルネットワークのトレーニングにおいて、効率的なデータ利用を目指してデータ拡張を導入しました。提案されたアーキテクチャは、画像のコンテキストを捉える縮小パスと、正確な位置特定を可能にする対称拡張パスから構成されています。このネットワークはわずかな画像から学習し、電子顕微鏡スタック内の神経構造のセグメンテーションにおいて、従来の手法よりも優れたパフォーマンスを示しました。また、透過光顕微鏡画像でトレーニングされた同じネットワークは、ISBI細胞追跡チャレンジで優勝し、高速な処理速度も実現しています。

導入

この論文では、深層畳み込みネットワークの進化と、生物医学画像処理における課題に焦点を当てています。以前は限られた成功しか収めていなかった畳み込みネットワークが、大規模なトレーニングデータと複雑なネットワーク構造により、視覚認識タスクで優れた成果を上げています。著者は、生物医学的なセグメンテーションタスクに特化した「完全畳み込みネットワーク」を提案し、少数のトレーニング画像でも高い精度を実現しました。このアーキテクチャでは、通常の契約ネットワークを拡張し、アップサンプリング演算子を導入してセマンティックセグメンテーションを行います。最終的なネットワークは対称なU字型であり、高いコンテキスト情報を保持しつつピクセル単位での正確なセグメンテーションが可能です。

また、画像の境界領域のピクセルを予測するために、入力画像をミラーリングして欠落したコンテキストを外挿するタイリング戦略が重要であることが述べられています。また、トレーニングデータが限られているため、弾性変形を適用してネットワークにデータ拡張を導入し、変形に対する不変性を学習できるようにしています。これにより、生物医学セグメンテーションにおいて実際の変形に対処できます。さらに、同じクラスの接触しているオブジェクトを分離する課題にも焦点が当てられています。この目的のために、接触するセル間の分離する背景ラベルが損失関数で大きな重みを取得する重み付き損失の使用を提案します。

ネットワークアーキテクチャ

ここでは、セグメンテーション用のネットワークアーキテクチャを紹介しています。ネットワークは縮小パス（左側）と拡張パス（右側）から構成され、畳み込みやプーリングなどが組み合わさります。アップサンプリングと畳み込みの組み合わせを使って特徴を拡張し、最終的にセグメンテーションマップを生成します。ネットワークには合計23の畳み込み層があり、最後の層では1x1の畳み込みが使われてクラスにマッピングされます。セグメンテーションマップのシームレスなタイリングを実現するために、2x2の最大プーリング操作が均等なサイズのレイヤーに適用されるように入力タイルのサイズを選択することが重要です。

トレーニング

この論文では、Caffeの確率的勾配降下法を使用して、入力画像とそれに対応するセグメンテーションマップをトレーニングしています。畳み込みがパディングされていないため、出力イメージは入力よりも境界幅が小さくなります。GPUメモリの最大活用とオーバーヘッドの最小化のために、大きな入力タイルと高い運動量（0.99）を使用しています。これにより、効果的な学習とトレーニングが実現されます。

エネルギー関数は、クロスエントロピー損失関数と組み合わせた最終特徴マップに対するピクセル単位のソフトマックス関数によって計算されます。ソフトマックス関数は、

として定義されます。ここで、a_k(x) は、ピクセル位置 x ∈ Ω と Ω ⊂ Z ²における特徴チャネル k のアクティベーションを示します。 K はクラスの数、p_k(x) は近似最大関数です。つまり、最大活性化 a_k(x) を持つ k については p_k(x) ≈ 1、他のすべての k については p_k(x) ≈ 0 です。次に、クロスエントロピーは、以下を使用して、各位置で p_l(x) の 1 からの偏差にペナルティを課します。

ここで、l : Ω → {1, ... , K} は各ピクセルの真のラベルであり、w : Ω → R はトレーニングで一部のピクセルの重要性を高めるために導入した重みマップです。

各グラウンドトゥルースセグメンテーションのウェイトマップを事前に計算して、トレーニングデータセット内の特定のクラスからのピクセルの異なる周波数を補償し、接触するセル間に導入した小さな分離境界をネットワークに強制的に学習させます (図 3c を参照) 。

分離境界は形態学的演算を使用して計算されます。ウェイトマップは次のように計算されます。

ここでは、クラス頻度のバランスを取るための重みマップやセルの境界までの距離を利用して、深いネットワークの重みを適切に初期化する手法が紹介されています。特に、ネットワーク内の各特徴マップがほぼ単位分散を持つように初期重みを設定することが重要で、提案されたアーキテクチャでは標準偏差√2/Nのガウス分布から初期重みを取得しています。これにより、ネットワークの各部分が均等に寄与し、過度なアクティベーションが生じることを防ぎます。

データの拡張

トレーニングサンプルが不足している場合、データ拡張はネットワークに望ましい特性を教えるために重要です。顕微鏡画像では、主にシフトや回転の不変性、変形やグレー値変動への堅牢性が必要です。特に、ランダムな弾性変形は注釈付き画像が少ない場合にセグメンテーションネットワークを効果的にトレーニングするための重要な概念です。ランダムな変位ベクトルを使用して滑らかな変形を生成し、ドロップアウト層を使用してさらなるデータ拡張を実行します。

実験

u-netを使用して3つの異なるセグメンテーションタスクを紹介しています。最初のタスクは電子顕微鏡記録の神経構造のセグメント化で、ISBI 2012のEMセグメンテーションチャレンジのデータセットを使用しています。u-netは前処理や後処理なしに、ワーピング誤差0.0003529とランド誤差0.0382を達成しました。

u-netが異なるセグメンテーションタスクにおいて優れた結果を示しています。電子顕微鏡画像の神経構造セグメンテーションでは、Warping Errorが0.0003529、ランドエラーが0.0382で、これは以前の提案よりも優れています。光学顕微鏡画像の細胞セグメンテーションでも、平均IOUが92%で、競合アルゴリズムよりも大幅に優れています。

u-netは、微分干渉コントラスト (DIC) 顕微鏡法によって記録されたHeLa細胞のセグメンテーションタスクでも成功を収め、DIC-HeLaデータセットで平均IOUが77.5%を達成し、競合アルゴリズムよりも大幅に優れています。

結論

u-netアーキテクチャは異なる生物医学セグメンテーションタスクで優れたパフォーマンスを発揮します。弾性変形によるデータ拡張により、わずかな注釈付き画像で効果的にトレーニングが可能で、NVidia Titan GPUを使用してわずか10時間でトレーニングできます。完全なCaffeベースの実装と訓練済みネットワークが提供され、u-netはさらに多くのタスクに容易に適用できると述べられています。

生物医学の画像解析やセグメンテーションにおいて、U-Netは幅広い応用が期待されます。その利便性や高い柔軟性は、医学的な画像処理において革新的な進展をもたらす可能性があります。