2つの視覚的特徴を統合し大幅な精度向上を達成した画像キャプション生成モデル、GRITが登場！

Image Caption 2022年10月25日

3つの要点
✔️ 2つの視覚的特徴であるGrid featuresとRegion featuresを統合させることで、画像キャプション生成における既存手法を大幅に超える性能を達成
✔️ 従来手法でのCNNベースの検出器をDETRベースに置き換えることで、計算速度の向上を達成
✔️Transformerのみのモデル構成により、end-to-endな学習が可能

GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features
written by Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani
(Submitted on 20 Jul 2022)
Comments: ECCV 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

画像キャプション生成とは、あるシーンの画像が与えられたときにそのシーンの意味的な記述を自然言語で生成するタスクであり、そのためにはシーンを包括的に理解しその理解を反映した記述を行う必要があります。

このタスクにおいて最も重要な問題は、画像からいかにして良い特徴を抽出するかという点であり、既存研究ではこの問題に対して主に以下の2つのアプローチが行われてきました。

Grid features：規則的な格子状の点から抽出された局所的な画像特徴量
Region features：物体検出器によって検出されたバウンディングボックスの局所的な画像特徴量

現在の画像キャプション生成のstate-of-the-art手法は検出された物体領域を直接符号化するため、Region featuresを用いていますが、

物体間の領域をカバーできないため、物体の関係などの文脈情報を得ることができない
画像内の重要な物体を見落とすなど、物体の誤検出の危険性がある
計算コストが膨大になる

といったような問題点がありました。(これはFaseter R-CNNのような高性能なCNNベースの検出器を使用する場合に特に顕著になります)

一方、Grid featuresは画像全体から抽出されるため、画像内のオブジェクトの関係などの文脈情報を得ることで上記の2つの問題を解決できる可能性があり、この2つの特徴量を統合する研究はこれまでにも行われてきましたが、最良の手法は未だに不明なままでした。

本稿で紹介するGRIT(Grid- and Region-based Image captioning Transformer)は、この2つの視覚的特徴量を統合するTransformerのみのアーキテクチャで構成され、下図に示すように既存手法に比べて大幅な計算速度と性能向上を達成したend-to-endなモデルになります。

GRIT: Grid- and Region-based Image captioning Transformer

GRITは、入力画像から2つの視覚的特徴を抽出する機構と抽出した特徴からキャプション文を生成する機構の2つから構成されています。（下図参照）

Feature Extractor

従来の画像キャプション手法と同様に、本手法もregion featuresを抽出するためにオブジェクト検出器を使用しますが、従来のSOTA画像キャプションモデルで採用されているFaster R-CNNなどのCNNベースの検出器の代わりに、TransformerベースのフレームワークであるDETRを採用しています。

これにより入力画像から最終出力である生成キャプションまでモデル全体のend-to-endな学習ができ、SOTAモデルと比較して画像キャプションに関するモデルの性能を維持したまま計算時間の大幅な短縮が可能となっています。

具体的には、DETRの変形であるDeformable DETRの学習方法に従い、物体検出に関する事前学習を行います。その後、物体検出と物体属性予測を組み合わせたタスクにおいて、以下の損失関数に従ってファインチューニングを行います。

ここで、P^{^}_σ^(i)(a_i)は属性確率、P^{^}_σ^(i)(c_i)はクラス確率、L_box(b_i, b^{^}_σ^(i))はオブジェクトiの正規化バウンディングボックス回帰に対する損失になります。

Caption Generator

キャプション生成器は先行研究で採用されたTransformerアーキテクチャに基づく基本設計を採用しており、region featuresとgrid featuresの2種類の視覚的特徴を入力として受け取ります。

その後、キャプション生成器は自己回帰的にキャプション文を生成し、時間t-1で予測された単語列を受け取り、時間tで次の単語を予測します。

具体的には、画像キャプション研究の標準的な手法に従い、cross-entropy blossを用いてモデルを事前学習し、self-critical sequence training strategyによるCIDEr-D最適化によりモデルをファインチューニングします。

これはground-truth sentence x^*_1:Tが与えられた時、t = 1, .... ,Tにおける次の単語x^*_tを予測するようにモデルを学習することになるので、モデルのパラメータθに関して、以下の損失関数を最小化することに等しくなります。

その後、既存研究に従ってCIDErスコアを報酬とし、報酬の平均値を報酬のベースラインとするCIDEr-D最適化によってモデルをファインチューニングします。よってself-critical sequence trainingにおける損失は下式で表されます。

ここで、wⁱはビームサーチ中のi番目の文、rは報酬ベースライン、kはバッチ中のサンプル数になります。

Experiments

本論文では、画像キャプションの研究のベンチマークであるCOCOデータセット(5種類のキャプションが付与された123,287枚の画像からなるデータセット)を用いてオンライン評価が行われました。加えて、他の画像キャプションデータセットに対する本手法の有効性を検証するため、nocapsデータセットとArtemisデータセットを用いたモデルの性能評価も実施しています。

また、評価指標には標準的な評価プロトコルであるBLEU@N、METEOR、ROUGE-L、CIDEr、SPICEを使用しています。

COCOデータセットによるオンライン評価

本実験では、COCOデータセットの4万枚のテスト画像に対して単一モデルおよび6つのモデルからなるアンサンブルの結果に対して評価を行い、下表に示す結果が得られました。

表にある通り、本手法は全ての評価指標において最良のスコアを達成する結果となっています。

nocapsとArtemisデータセットによる性能評価

本研究では上記の実験に加えて、(a)COCOデータセットと同じ条件でのモデルの評価、(b)COCOで学習したモデルに対するゼロショットでの推論性能の評価という2つの実験を行いました。

(a)、(b)それぞれの実験結果は下表のようになりました。

このように、既存手法と比較してどちらの実験においても大幅に性能を向上する結果となりました。

Qualitative Examples

COCOデータセットの入力画像に対して提案手法(GRIT)と既存手法(M2 Transformer)で生成したキャプションの例を下図に示します。

GRITは既存手法と比較して、オブジェクトの検出およびオブジェクトの関係の記述において、非常に優れたキャプションを生成できていることが確認できます。

また、既存手法によって生成されたキャプションが不正確なのは、事前に学習した物体検出器によって抽出されたregion featuresが誤った検出と文脈情報の欠如を引き起こすという従来の画像キャプション生成モデルの問題点によるものですが、本手法ではこうした問題を解消していることが実証されました。

まとめ

いかがだったでしょうか。今回は、入力画像から抽出されたRegion featuresとGrid featuresを統合し、入力画像からより豊かな視覚情報を抽出するTransformerベースの画像キャプションモデルであるGRIT(Grid- and Region-based Image captioning Transformer)について解説しました。

本論文で行われた実験により、GRITは推論速度と精度において既存手法を大きく上回る性能を示しており、これまで課題にされてきた2つの視覚的特徴の統合という問いを見事に解決したモデルと言えます。

本手法を基に画像キャプション生成分野がますます発展していくことが期待されるため、今後の動向に注目です。

今回紹介したモデルのアーキテクチャや生成サンプルの詳細は本論文に載っていますので、興味がある方は参照してみてください。