ACC-UNet：2020年代に向けた完全畳み込みUNet

Neural Network 2024年04月17日

3つの要点
✔️ 従来のUNetに新しい畳み込みブロックとスキップ接続を導入して、新しい完全畳み込みUNetを提案
✔️ 提案するUNetはCNNの帰納バイアスとTransformerの大域特徴の抽出能力の両方を活用可能
✔️ 異なる５タスクでUNetの中で、SOTAの精度を達成

ACC-UNet: A Completely Convolutional UNet model for the 2020s
written by Nabil Ibtehaz, Daisuke Kihara
(Submitted on 25 Aug 2023)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

この十年は、コンピュータビジョン全般における根本的なパラダイムシフトであるビジョン・トランスフォーマーの導入によって特徴付けられています。同様のトレンドが医用画像でも見られ、最も影響力のあるアーキテクチャの一つであるUNetがトランスフォーマーと再設計されています。

最近では、ConvNextなどの画期的な作品によって、ビジョンにおける畳み込みモデルの有効性が再調査されています。このような動きに触発され、純粋な畳み込みUNetモデルを改善し、Swin-UnetやUCTransNetなどのトランスフォーマーに基づいたモデルと同等の性能を発揮できるようにすることを目指しています。

今回の解説論文では、トランスフォーマーに基づいたUNetモデルのいくつかの利点、主に大域特徴の抽出能力とクロスレベルのスキップ接続を検討しました。それらを畳み込み演算を通じてエミュレートし、両方の手法の良い点、つまり畳み込みの固有の帰納バイアスとトランスフォーマーの大域特徴の抽出能力を持ち込む完全畳み込みのUNetであるACC-UNetを提案します。

ACC-UNetは、5つの異なる医用画像セグメンテーションのベンチマークで評価され、一貫して畳み込みネット、トランスフォーマー、およびそのハイブリッドを上回る性能を発揮しました。特に注目すべきは、ACC-UNetは、最先端のモデルであるSwin-UnetとUCTransNetを、その数分の一のパラメータ（59 .26%と24 .24%）を使用しながら、ダイススコアの観点で、それぞれ2 .64 ± 2 .54%と0 .45 ± 1 .61%上回っていることです。

提案手法

ACC-UNetの概要

全体の概要は図1-Aに示されています。提案手法は従来のU-Netの畳み込みブロックを、Self-Attentionを導入したHANCブロックに置き換えました。また、従来の単純なスキップ接続を、異なるエンコーダーレベルの特徴マップを考慮したMLFCブロックで変更しました。次のサブセクションで、HANCブロックとMLFCブロックについて、詳しく解説します。

近隣コンテキストの階層的集約（HANC）

最初に、畳み込みブロックでの表現性の向上とともに長距離依存性を導入する方法を検討します。計算量を削減するために、ポイントごとの畳み込みと深度ごとの畳み込みのみを使用します。

表現能力を高めるために、畳み込みブロックに反転したボトルネックを含めることを提案します。これは、ポイントごとの畳み込みを使用して、チャンネル数をcinからcinv = cin∗invfに増やすことで実現できます。これらの追加チャンネルはモデルの複雑さを増すため、図1-Bに示したように、3x3の深度ごとの畳み込みを使用して計算量を削減します。

大域特徴の抽出能力を向上するために、畳み込みブロックでSelf-Attentionを模倣します。これは、ピクセルをその近傍の他のピクセルと比較することに焦点を当てています。近傍の平均値と最大値と比較することで、この比較を単純化できます。隣接するピクセルの特徴の平均値と最大値を追加することで、近傍の比較の近似概念を提供します。その後、連続したポイントごとの畳み込みは、これらを考慮し、対照的な視点を捉えます。階層的な解析は画像にとって有益であるため、複数のレベルでこの集約を階層的に計算します。たとえば、2k−1×2k−1のパッチです。

この提案されたHANCは、特徴マップx1 ∈ R cinv,n,mをx2 ∈ R cinv∗(2k−1),n,m（図1-B）として拡充します。 ||は、チャネル次元に沿った連結を示します。

次に、トランスフォーマーと同様に、勾配伝播を改善するために畳み込みブロックにショートカット接続を含めます。したがって、チャンネル数をcinに減らすために別のポイントごとの畳み込みを行い、入力特徴マップに追加します。したがって、x2 ∈ R cinv∗(2k−1),n,m は x3 ∈ R cin,n,m になります（図1-B）。

最後に、出力として、出力の数をc_outに変更します。これには、ポイントごとの畳み込みを使用します（図1-B）。

マルチレベルの特徴コンパイル（MLFC）

次に、トランスフォーマーをベースとしたUNetの利点のもう一つである、マルチレベルの特徴組み合わせの可能性を調査します。

トランスフォーマーをベースとしたスキップ接続は、エンコーダーレベルの特徴を効果的に融合し、個々のデコーダーでの特徴マップの適切なフィルタリングを実現しています。異なるレベルからのトークンを連結することで、これが達成されます。

本論文はこのアプローチに従って、異なるエンコーダーレベルから得られた畳み込み特徴マップを同じサイズにリサイズして連結します。これにより、さまざまな意味レベルの特徴マップを統合し、ポイントごとの畳み込み操作で要約します。その後、これを対応するエンコーダーの特徴マップと結合し、別の畳み込みを通じて情報を統合します。

4つの異なるレベルからの特徴x1、x2、x3、x4に対して、特徴マップは次の式のように、マルチレベル情報で豊かになります（図1-D）。

ここで、resizei(xj)はxjをxiのサイズにリサイズする操作であり、ctot = c1 + c2 + c3 + c4です。この操作は、すべての異なるレベルに対して個別に行われます。

実験

データセット

ACC-UNetの評価のために、異なるタスクとモダリティにわたる5つの公開データセットで実験を行いました。ISIC-2018（皮膚科学、2594枚の画像）、BUSI（乳房超音波、437枚の良性画像と210枚の悪性画像）、CVC-ClinicDB（大腸内視鏡、612枚の画像）、COVID（肺炎病変セグメンテーション、100枚の画像）、およびGlaS（腺セグメンテーション、85枚のトレーニング画像と80枚のテスト画像）。

すべての画像とマスクは224 × 224にリサイズされました。GlaSデータセットについては、テストデータとして元のテスト分割を考慮しました。他のデータセットでは、画像の20％をテストデータとしてランダムに選択しました。残りの60％と20％の画像は、トレーニングと検証に使用され、実験は異なるランダムなシャッフルで3回繰り返されました。

従来手法のSOTAとの比較

提案手法を、UNet、MultiResUNet、Swin-Unet、UCTransnet、SMESwin-Unetと比較しました。表1には、テストセットで得られたダイススコアが示されています。

比較的大規模なデータセット（ISIC-18）では、トランスフォーマーをベースとしたSwin-Unetが2番目に良い結果を示しました。一方、小規模なデータセット（GlaS）では、軽量な畳み込みモデル（MultiResUNet）が2番目に良いスコアを達成しました。その他のデータセットでは、ハイブリッドモデル（UCTransnet）が2番目に良い方法でした。SMESwin-Unetは、大量のパラメータを持っているにもかかわらず、すべてのケースで後れを取りました。

一方、ACC-UNetは、トランスフォーマーの設計原則と畳み込みニューラルネットワークの帰納的バイアスを組み合わせ、すべての異なるカテゴリーで最高のパフォーマンスを発揮しました。

5つのデータセットで、それぞれダイススコアが0.13％、0.10％、0.63％、0.90％、0.27％向上しました。したがって、ACC-UNetは高精度だけではなく、、比較的小さなパラメータを効果的に使用しています。FLOPsの点では、提案手法は畳み込みUNetsと同等であり、トランスフォーマベースのUNetsは、パッチ分割時に大規模なダウンサンプリングを行うため、FLOPsが小さくなります。

5つのデータセットでの定性的な評価

ACC-UNetは、より高いダイススコアを達成しただけでなく、明らかにより良い定性的結果を生成しました。

図２は、ACC-UNetと他のモデルとの定性的比較を示しています。図の各行には、各データセットから1つの例が含まれており、ACC-UNetによって予測されたセグメンテーションとグラウンドトゥルースマスクが右側の2列に表示されています。ISIC-18データセットの1番目の例では、モデルは過剰セグメンテーションせず、病変の境界に従いました。CVC-ClinicDBの2番目の例では、モデルは指をほぼ完璧にポリープから区別することができました。

次に、BUSIの3番目の例では、提案手法の予測は左側の明らかな結節領域をフィルタリングしましたが、他のすべてのモデルによって誤検出された腫瘍を除外しました。同様に、COVIDデータセットの4番目のサンプルでは、提案手法は左肺の凝固の隙間を視覚的により良くモデル化することができ、それにより2番目に良い方法よりも2.9％高いダイススコアが得られました。

最後の例であるGlaSデータセットから、提案手法は右下の隅にある腺を正確に予測するだけでなく、他のモデルによってほとんど見逃されたまたはマージされた左上の腺を個別に識別しました。

まとめ

本実験では、トランスフォーマーのさまざまなデザインパラダイムの利点を認識し、畳み込みUNetで同様のアイデアの適合性を調査しました。その結果、提案されたACC-UNetは、CNNの帰納バイアスを持ち、トランスフォーマーの長距離およびマルチレベルの特徴蓄積と融合したものとなりました。

実験では、この統合がUNetモデルを改善する潜在能力を実際に持っていることを示しています。提案手法の1つの制限は、連結操作からの遅延です、これは代替手法で解決できるかもしれません。さらに、トランスフォーマーによってもたらされるイノベーションは他にもあります、例えば、レイヤー正規化、GELU活性化、AdamWオプティマイザーなどがあります。これらの取り組みで、提案手法の有効性をさらに向上ということも期待できます。