最新AI論文をキャッチアップ

MVANet: 背景削除の最強モデル

MVANet: 背景削除の最強モデル

Neural Network

3つの要点
✔️ 前景抽出(背景削除)タスクの主な課題は、小さな領域で高解像度の詳細を捉え、大きな領域で精度を失わないようにすることです。
✔️ 
人間の視覚に触発されて、MVANet複数の角度から物体を見る問題として扱うことを提案します。
✔️ この新しい方法は、長距離の視覚的相互作用を改善し、細部に焦点を当てることで、DIS-5Kデータセットで現在のSOTAを精度と速度の両面で上回ります。

Multi-view Aggregation Network for Dichotomous Image Segmentation
written by Qian Yu, Xiaoqi Zhao, Youwei Pang, Lihe Zhang, Huchuan Lu
(Submitted on 
11 Apr 2024)
Comments: Accepted by CVPR2024 as Highlight

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:
 

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

はじめに

現代のコンピュータビジョンにおいて重要な課題の一つである前景抽出(背景削除)は、多岐にわたる応用分野でその重要性が増しています。画像編集やビデオ制作において背景を効果的に削除することは、エステティックな価値を高めるだけでなく、効率的な作業フローを実現します。また、医療画像解析や自動運転技術における物体認識など、精度が求められる分野でも背景削除は重要な役割を果たします。主な課題は、高解像度の画像で小さな領域の細かいディテールを捉えつつ、大きな領域でも精度を維持することです。これまでは、ディテールの再現性と大域的な精度を両立する手法が不足していました。しかし、MVANetという新たなアプローチは、この課題に対して革新的な解決策を提供します。

MVANetは、人間の視覚にインスパイアされた独自の手法を採用しています。人間が物体を複数の角度から観察するように、MVANetも複数の視点から物体を解析します。このアプローチにより、細部のディテールを失わずに全体の精度を向上させることが可能となりました。さらに、複数の視点からの統合により、従来の手法では難しかった長距離の視覚的相互作用も実現しています。

背景削除の技術は、マーケティング、エンターテインメント、ヘルスケア、セキュリティなど、様々な業界で需要が高まっています。オンラインショッピングでは、製品の前景を目立たせることで購買意欲を高める効果が期待されます。また、バーチャル背景を使用するビデオ会議アプリケーションや、映像制作におけるグリーンスクリーンの代替技術としても重要です。これらの応用が注目される中、前景抽出の性能向上は業界全体に大きな影響を与えるでしょう。

この新しい方法は、すでにその効果を実証しています。特にDIS-5Kデータセットにおいては、現在のSOTAを精度と速度の両面で上回る結果を示しています。MVANetは、前景抽出タスクにおける新たな標準となる可能性があり、今後の応用範囲の広がりが期待されます。

提案手法

概要

図1.MVANetの概要

 MVANetの全体アーキテクチャは、図1に示されているようにUNetにに似ています。エンコーダでは、入力として遠景ビュー ($G$) と、$M$ (この論文では$M=4$) の非重複ローカルパッチからなるクローズアップビュー ($Lm$) が使用されます。

$G$と$Lm$はマルチビューのパッチシーケンスを構成し、バッチで特徴抽出器に入力され、マルチレベルの特徴マップ$E_i (i=1,2,3,4,5)$が生成されます。各$E_i$には、遠景とクローズアップビューの両方の表現が含まれています。最高レベルの特徴マップ$E_5$は、バッチ次元に沿ってグローバルおよびローカル特徴の2つの異なるセットに分割され、これらは、グローバル表現内のオブジェクトに関する位置情報を強調するために、マルチビュー補完ローカライゼーションモジュール (MCLM, 図2-a) に入力されます。

デコーダはFPN(Lin et.al, 2017)アーキテクチャに似ていますが、各デコード段階にオンザフライのマルチビュー補完リファインメントモジュール (MCRM, 図2-b) が挿入されています。各段階の出力は、SDOマップ(前景だけあるマップ)を再構築し、損失を計算するために使用されます。マルチビュー統合は図1の右下部分に示されています。ローカル特徴が結合され、Conv Headに入力されて精錬され、グローバル特徴と連結されます。

図2.MCLMとMCRMのアーキテクチャ

学習の損失関数

図1に示されているように、デコーダの各層の出力および最終的な予測に監督を追加しています。

具体的には、前者は組み合わされたローカル表現、グローバル表現、およびリファインメントモジュール内のトークンアテンションマップを表す $l_l$, $l_g$, $l_a$ の3つの部分で構成されています。これらのサイド出力それぞれには、シングルチャンネルの予測を得るために別々の畳み込み層が必要です。後者は $l_f$として表されます。これらのコンポーネントは、ほとんどのセグメンテーションタスクで一般的に使用されるバイナリクロスエントロピー(BCE)損失と重み付きIoU損失の組み合わせを使用します。

最終の学習損失関数は次の式となります。本論文では、$ λ_g=0.3,  λ_h=0.3$と設定します。

実験

データセットと評価指標

・データセット

本論文はDIS5Kベンチマークデータセットを使用して実験を行いました。このデータセットには、225カテゴリにわたる5,470の高解像度画像(2K、4K、またはそれ以上のサイズ)が含まれています。データセットは次の3つの部分に分かれています:

  • DIS-TR:3,000枚のトレーニング画像
  • DIS-VD:470枚の検証画像
  • DIS-TE:2,000枚のテスト画像、形状の複雑さが増す4つのサブセット(DIS-TE1、2、3、4)に500枚ずつ分けられている 

DIS5Kデータセットは、高解像度画像、詳細な構造、優れたアノテーションの質により、他のセグメンテーションデータセットよりも困難であり、複雑な詳細を捉えるために高度なモデルが必要です。

・評価指標

性能を評価するために、以下の指標を使用しました:

  • 最大F値 :精度と再現率の最大スコアを測定し、β²は0.3に設定しています。
  • 重み付きF値:Fと類似していますが、重み付けされています。
  • 構造類似度指標 (Sm):予測と真値の間の構造類似度を、領域認識とオブジェクト認識の両方を考慮して評価します。
  • E-Measure:ピクセルレベルと画像レベルのマッチングを評価するために使用されます。
  • 平均絶対誤差 (MAE):予測マップと真値との間の平均誤差を計算します。

これらの指標は、DIS5Kデータセットにおける複雑な構造を持つオブジェクトの識別とセグメンテーションにおいて、モデルの性能を理解するのに役立ちます。

実験結果

・定量評価

表1において、提案したMVANetを他の11の有名な関連モデル(F3Net、GCPANet、PFNet、BSANet、ISDNet、IFA、IS-Net、FPDIS、UDUN、PGNet、InSPyReNet)と比較しました。公平な比較のために、入力サイズを1024 × 1024に統一しました。その結果、MVANetはすべてのデータセットで異なる指標において他のモデルを大幅に上回りました。特に、MVANetはF、Em、Sm、およびMAEにおいて、InSPyReNetよりもそれぞれ2.5%、2.1%、0.5%、0.4%上回りました。

さらに、InSPyReNetとMVANetの推論速度も評価しました。どちらもNVIDIA RTX 3090 GPU上でテストされました。シンプルなシングルストリーム設計のおかげで、MVANetはInSPyReNetの2.2 FPSに対して4.6 FPSを達成しました。

表1.DIS5Kでの定量的評価

・定性的評価

提案手法の高精度な予測を直感的に示すために、テストセットから選ばれた画像の出力を視覚化しました。図3に示すように、提案手法は複雑なシーンでも正確なオブジェクトの位置特定とエッジの詳細を捉えることができます。特に、他の方法が目立った黄色のガーゼや影による干渉を受ける一方で、提案手法は椅子の完全なセグメンテーションと各格子の内部を正確に区別できます(最下段を参照)。

図3.DIS5Kでの定性的評価

まとめ

今回の解説論文では、高精度な前景抽出(背景削除)をマルチビューオブジェクト認識問題としてモデル化し、効率的かつシンプルなマルチビュー集約ネットワークを提供します。これにより、モデル設計、精度、および推論速度のバランスをより良く取ることを目指しています。

複数のビューに対するターゲット整列問題に対処するため、ターゲットの共注意領域を共同で計算するためのマルチビュー補完ローカライゼーションモジュールを提案します。さらに、提案したマルチビュー補完リファインメントモジュールは各デコーダーブロックに埋め込まれており、補完的なローカル情報を完全に統合し、単一ビューのパッチにおけるセマンティック欠如を軽減します。これにより、最終的なビューの再配置は単一の畳み込み層だけで達成できます。

幅広い実験により、提案手法が優れた性能を発揮することが示されました。特にDIS-5Kデータセットにおいては、現在のSOTAを精度と速度の両面で上回る結果を示しています。MVANetは、前景抽出タスクにおける新たな標準となる可能性があり、今後の応用範囲の広がりが期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする