背景が鍵となった!動画内の物体抽出手法
3つの要点
✔️ 背景に注目した初のVOS手法
✔️ 半教師手法によるアノテーションコストの軽減
✔️ 従来手法の全てを凌駕するSOTAモデル
Collaborative Video Object Segmentation by Foreground-Background Integration
written by Zongxin Yang, Yunchao Wei, Yi Yang
(Submitted on 18 Mar 2020 (v1), last revised 23 Jul 2020 (this version, v2))
Comments:ECCV 2020, Spotlight
Subjects:Computer Vision and Pattern Recognition (cs.CV)
はじめに
Video Object Segmentation (VOS:動画内物体のセグメンテーション)は自動運転車や拡張現実への応用が期待されています。そして、全ての動画のフレームにセグメンテーションマスクを与える手法ではなく、今回の論文では動画の最初のフレームに与えられたマスクを用いて、動画全体に渡って特定の物体をセグメンテーションする半教師VOSに注目しています。しかし、半教師VOSにもいくつかの欠点があります。
- 初期フレームでの微調整に依存しており、予測速度も大幅に遅い
- 微調整を回避した手法はあるが、大規模なデータセットのシミュレーションに依存し、煩雑な手法である
- マッチング機構を用いた改善手法は、速度が速いが性能が高くない
多くの課題がまだある。しかし、これらの手法は全て動画内の物体をいかにして追いかけるのかと言ったところに焦点が当てられている。この方法では実際に物体1つに対しては効果的なこともあるかもしれないが、実際のVOSの応用を見てみるとカーレースの車や農場の羊たちといった多くの類似物があるタスクに使用されやすく、これは重なりなどのVOSにとって様々な難しさを与えている。
しかし著者たちはVOSでの認識の邪魔をしている1つの要因が背景であり、正確に除去できれば、物体の認識は容易であると考えた。そこで今までのVOSが動画内の物体に焦点を当てていたが、背景にも同様に焦点を当てることで精度向上ができると考えた。
そこで、Foreground-Background Integration (CFBI:前景と背景統合)によるVOS手法を提案しています。従来の前景に対する特徴埋め込みを学習するだけではなく、背景に対しても行うことで前景と背景との混同を避ける手法を提案した。
続きを読むには
(2710文字画像6枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー