画像の局所的なスタイル情報を反映した多様性のあるキャプション生成が可能に！

Image Caption 2022年10月28日

3つの要点
✔️ 入力画像の局所的なスタイル情報をエンコードするための、VAE(Variational Autoencoder)ベースのフレームワークであるStyle-SeqCVAEを提案
✔️ COCOデータセットから多様なスタイルをもつキャプションを得るためのアノテーションの拡張手法を提案
✔️ SenticapデータセットとCOCOデータセットを用いた実験により、多様性のあるスタイルをもったキャプション生成が可能に

Diverse Image Captioning with Grounded Style
written by Franz Klein, Shweta Mahajan, Stefan Roth
(Submitted on 3 May 2022)
Comments: GCPR 2021
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

近年、視覚と言語を統合したマルチモーダルデータセットの開発により画像キャプション(あるシーンの画像が与えられたときにそのシーンの意味的な記述を自然言語で生成するタスク)において様々なモデルが提案されてきました。

しかし、こうした画像キャプションに利用可能なデータセットは、COCOデータセットに挙げられるように異なるアノテーターによる画像ごとの複数のキャプションで構成されており、このようなデータセットを用いたキャプションフレームワークは画像ごとに単一のキャプションを決定論的に生成してしまうという問題点がありました。

こうした問題に対して、1枚の画像に対して複数のキャプションを生成するフレームワークを用いて多様な画像キャプションを生成する手法が提案されてきましたが、こうしたアプローチは入力画像とテキストのスタイル(文構造のバリエーションや複数の局所的な特徴に注目することによる言語スタイルの変化)をほとんど考慮しておらず、画像から抽出された1つの感情カテゴリに関連する1つのキャプションしか生成できませんでした。

本稿で紹介するStyle-SeqCVAEは、Variational Autoencoderの潜在空間にスタイル情報をエンコードし、入力画像の局所的なスタイル情報に従って潜在空間を逐次的に構造化することで、入力画像から多様なスタイルのキャプション生成が可能になったモデルになります。

既存の画像キャプションデータセットの問題点

既存の画像キャプションデータセットの主な問題点として、アノテーションされたキャプション文が実際に画像で表現されたキャプションとは関係がない可能性があることが挙げられます。

例として下のSenticapデータセットの画像では、左の男性に対してキャプション文ではdead manと誤った表記がされており、このように画像とキャプションの関係性の誤りが生成されるキャプションに悪影響を与える可能性があります。

もう一つの問題は肯定的なキャプションと否定的なキャプションの出現頻度の偏りであり、Senticapデータセットでは、98種類の形容詞と270種類の名詞の組み合わせからなる肯定的な形容詞-名詞のペア(adjective-noun pairs, ANPs)が842組あるのに対して、否定的なANPsは117種類の形容詞と173種類の名詞からなる468組しかありません。

こうした問題を改善するために、本論文ではCOCOデータセットとSenticapデータセットに対する拡張手法を提案しています。

COCOデータセットの拡張

本論文では、COCOデータセットに対して多様なスタイルのキャプション生成を行うために、以下の手法を用いてデータ拡張を行いました。

データセットにあるスタイルを考慮したキャプションのアノテーション不足に対処するため、シーンの構成に焦点を当てたCOCO captionsとCOCO Attributesのスタイル表現用の形容詞を組み合わせる
スタイルを考慮したキャプション生成にあまり関係のない98個のカテゴリ("cooked"など)を排除する
残ったカテゴリ内の同義語同士のセットを定義して、多様性を高める

これに加えて、以下の手順により画像内のスタイルを考慮するためのキャプションのデータセットを作成しました。

COCOデータセットのオブジェクトカテゴリについて、対応するキャプションで交換可能な名詞のセットを定義する
入力画像、関連するオブジェクトとラベル、ground truthのキャプションが与えられたら、キャプションの中から上で定義したオブジェクトカテゴリのセットにも現れる名詞を探し、その名詞の前にアノテーションセットからサンプリングされた形容詞を挿入する

これらの方法により作成されたデータセットは以下のようになり、画像のスタイルを考慮したキャプションに拡張できていることが確認できます。

Style-SeqCVAEの概要

本手法では、画像に基づいたスタイルを持つキャプションを得るために、まず入力画像のオブジェクトに関連する特徴量を抽出し、その後これらの特徴量を用いてStyle-SeqCVAEを構造化した潜在空間として定式化し、画像に基づく局所的なスタイル情報をエンコードします。

Style-SeqCVAEの目的は、画像に含まれる様々なスタイル情報を反映したキャプションを生成することであり、モデルの全体図は下のようになります。

図のように入力画像Iとキャプション列x = (x₁,...,x_T)が与えられたとき、画像中のK個の領域の視覚的特徴{v₁,...,v_k}をFaster R-CNNから抽出し、平均化した画像特徴量がattention LSTMに入力されます。

また本研究では、領域レベルのスタイル情報をさらにc(I)_tにエンコードし、attention weights(α_t)を用いて各時間ステップで更新することを提案しています。

これは画像のスタイルが異なる領域間で大きく異なる可能性があるという仮定に基づいており、このことを考慮してL STMベースの言語エンコーダと言語デコーダによる明示的な潜在空間構造を持つVAEをモデル化しており(モデルの全体図の黄色で塗られた部分)、図のh_t^attention、h_t^encoder、h_t^decoderは時間ステップtにおけるそれぞれのLSTMの隠れベクトルを表しています。

Experiments

本論文では、画像に基づくスタイルでの多様なキャプション生成のための本アプローチを評価するために、データセットには本論文で拡張されたSenticapデータセットとCOCOデータセット、評価指標にBleu(B)、CIDEr(C)、ROUGE(R)、METEOR(M)を用いた実験が行われました。

Senticapデータセットでの評価

Senticapデータセットは画像に対するポジティブとネガティブのキャプションから構成されているため、先行研究ではスタイル指標に基づき与えられた画像に対するポジティブとネガティブのキャプションを生成しており、本実験もこれに基づいてStyle-SeqCVAEにより構造化した潜在空間に基づいて与えられた画像に対してポジティブとネガティブのキャプションを生成しています。

その結果を下の表に示します。(nは入力画像1枚あたりに生成されるキャプション数)