【OW-VISCap】見たことない物体にも注目 - オープンワールドビデオ理解の新アプローチ

Computer Vision 2024年08月21日

3つの要点
✔️ オープンワールドの物体クエリの導入によりプロンプトなしで未知の物体を発見可能とし、既知物体との統合的な検出・セグメンテーション・追跡を実現しました。
✔️ マスク注意機構を物体-テキスト変換器に適用することで、ビデオ全体のコンテキストを考慮しつつ物体中心のキャプションを生成できるようにしました。
✔️ 物体クエリ間の類似性を抑える対比損失を導入し、重複検出の抑制と新規物体発見の両立を図ることで、オープンワールドから閉じたワールドまでのビデオ理解タスクで優れた性能を発揮しました。

OW-VISCap: Open-World Video Instance Segmentation and Captioning
written by Anwesa Choudhuri, Girish Chowdhary, Alexander G. Schwing
(Submitted on 4 Apr 2024)
Comments: Project page: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

この論文ではOW-VISCap (Open-World Video Instance Segmentation and Captioning)というアプローチを提案しています。主な貢献は以下の3点です。

1. オープンワールドの物体クエリ: 既知の物体クエリに加え、未知の物体を発見するためのオープンワールドの物体クエリを導入しています。これにより、追加の入力を必要とせずに未知の物体を検出できます。

2. マスク注意機構を用いた物体中心のキャプショニング: 物体-テキスト変換器にマスク注意機構を導入し、物体に焦点を当てた記述的なキャプションを生成できるようにしています。

3. 物体クエリ間の対比損失: 物体クエリ間の類似性を抑えるための対比損失を導入し、物体の重複検出を抑えつつ、新規物体の発見を促しています。

提案手法はオープンワールドのビデオインスタンスセグメンテーション、ビデオオブジェクトキャプショニング、クローズドワールドのビデオインスタンスセグメンテーションの3つのタスクで優れた性能を示しています。定性的な結果からも、提案手法が未知の物体を検出し、物体中心のキャプションを生成できることが示されています。

提案手法(OW-VISCap)

まず、オープンワールドの物体クエリ q_owについて、これはビデオフレーム上の等間隔なグリッドポイントをプロンプトエンコーダでエンコーディングすることで得られます(図2左の紫色の部分)。この設計により、ビデオ全体の領域にわたって新規物体の発見を促すことができます。

また、q_owに対して特別に設計したオープンワールドの損失関数L_owを導入し、未知物体の検出を奨励しています。

次に、物体中心のキャプショニングについて、物体-テキスト変換器にマスク注意機構を用いることで、物体領域に焦点を当てたキャプションの生成を可能にしています(図2右)。具体的には、検出ヘッドで得られた物体のセグメンテーションマスクを使ってマスク注意を適用し、局所的な物体特徴に着目しつつ、ビデオ全体のコンテキストも考慮したキャプションを生成しています。

最後に、物体クエリ間の類似性を抑えるための対比損失L_contについて、これは重複検出を防ぐとともに、新規物体の発見を促進する効果があります。クローズドワールド設定ではオーバーラップする誤検出の抑制に、オープンワールド設定では新規物体の発見に役立っています。

このようにOW-VISCapは、オープンワールドでの物体発見、物体中心のキャプショニング、クエリ間の類似性抑制といった独自の設計により、統合的なビデオ理解を実現しています。

実験

この論文では、OW-VISCap をオープンワールドのビデオインスタンスセグメンテーション (OW-VIS)、ビデオオブジェクトキャプショニング (Dense VOC)、クローズドワールドのビデオインスタンスセグメンテーション (VIS) の3つのタスクで評価しています。

OW-VISについては BURST[2] データセットで評価し (Tab. 1)、未知 (uncommon) カテゴリの物体に対して約6%の性能向上を示しました。

Dense VOCについては VidSTG[57] データセットを使い (Tab. 2)、物体の検出精度は若干下回るものの、生成されたキャプションの正解率で約7%の改善を示しました。これは、提案するマスク注意機構によりオブジェクト中心のキャプションが生成できるためです。

最後にVISについては OVIS[36] データセットで評価し (Tab. 3)、state-of-the-artと同等の性能を示しました。ここでも、物体クエリ間の対比損失が重複検出の抑制に寄与していることがわかります。

Fig. S1 と Fig. S2 は、それぞれ BURST データセットと VidSTG データセットの定性的な結果を示しています。未知物体の検出・セグメンテーション、そして物体中心のキャプション生成ができていることが確認できます。

結論

本論文は、オープンワールド設定におけるビデオインスタンスセグメンテーションとキャプショニングを統合的に扱うOW-VISCapを提案しました。オープンワールドの物体クエリ、マスク注意に基づくキャプショニング、物体クエリ間の対比損失の3つの要素が特徴で、これにより未知の物体の検出と記述が可能となりました。

また、今回提案したOW-VISCapの核心的な手法は、より汎用的なビデオ理解に応用可能であり、自律システムやAR/VRなどの実世界応用にも期待できます。未知の物体も含めたきめ細かなビデオ理解は、重要な研究課題であり、本手法はその解決に大きく貢献できると考えられます。