入力画像から視線の軌跡を予測できるモデルが登場！

Transformer 2022年10月19日

3つの要点
✔️ 画像とキャプションを入力としたトレースの生成、画像のみを入力としたキャプションとトレースの生成という2つの新規タスクを提案
✔️ 画像・キャプション・トレースを共同で学習させるためのtransformerアーキテクチャであるMIrrored TransformeR(MITR)を提案
✔️4つの既存データセットを用いた実験により、本アプローチの有効性を実証

Connecting What to Say With Where to Look by Modeling Human Attention Traces
written by Zihang Meng, Licheng Yu, Ning Zhang, Tamara Berg, Babak Damavandi, Vikas Singh, Amy Bearman
(Submitted on 12 May 2021)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

これまでコンピュータビジョンと自然言語処理の分野におけるモデルとアルゴリズムの開発は時折重なる事がある程度でしたが、近年、この2つの分野のアイデアは徐々に収束しつつあります。

特に視覚と言語を整合させるためのマルチモーダルモデルの構築に焦点が当てられており、これらのモデルの目標は、情報を圧縮し、モダリティを越えて翻訳することが可能な人間の並はずれた能力を模倣する事です。

しかし、こうした進歩にもかかわらず、既存の画像キャプションデータセットは名詞レベルまたはフレーズレベルの短いキャプションしか提供しておらず、これまでの画像キャプションとvisual groundingモデルは長文の自然言語キャプションと高精度の単語レベルのvisual groundingを共同で生成する事ができないという課題がありました。

本稿では、画像・キャプション・トレースの3つのモダリティを共同でモデル化する新規のTransformerアーキテクチャを用いて上記の課題を解決した論文について解説します。

データセットと新規タスクの概要

初めに、本論文で使用するLocalized Narrativesデータセットとそれを用いた新規タスクについて解説します。

Localized Narrativesデータセットは、画像の内容を説明する際のアノテーターの音声とマウスのトレースを同時に記録することによって収集された、画像・キャプション・トレースの3つのモダリティからなるデータセットになります。

このデータセットの原論文では、画像とトレースからキャプションを生成するという単一のタスクしか扱いませんでしたが、本論文ではそれに加えて次の2つの新規かつ困難なタスクを提案しました。

画像とキャプションを入力としたトレースの生成
画像のみを入力としたキャプションとトレースの生成

これを図で表すと下のようになります。（表の1行目と3行目が新規タスク）

これら3つのタスクは一見すると別々のように見えますが、本論文では新規のモデルアーキテクチャを用いることで3つのタスクを共同でモデル化する統一的なフレームワークを提案しています。

MIrrored TransformeR(MITR)

本論文では、上記の3つのタスクに対して3つの別々のモデルを構築するのではなく、パラメータを共有した統一的なフレームワークで効果的に学習するモデルを提案し、その対称的な構造からこのモデルアーキテクチャをMirrored TransformeR(MITR)と命名しました。(下図参照)

特徴量

モデルへの入力は、画像特徴量・テキスト特徴量・トレース特徴量のサブセットであり、各特徴量は以下のようになります。

画像特徴量では、事前に学習したFaster R-CNNを用いて、検出された領域の視覚的特徴を計算する
テキスト特徴量では、既存研究と同様に、positional embeddingsとword embeddingsの和をとる
トレース特徴量では、positional embeddingsと入力のトレースをd個の隠れ次元に射影したものを足し合わせる

Model Architecture

本モデルは①image encoder、②caption encoder-decoder、③trace encoder-decoderの3つのモジュールから構成されています。（下図参照）

ここで、入力された画像特徴量、テキスト特徴量、トレース特徴量をそれぞれx_v,x_w,x_rと表記すると、image encoder h_vは以下のように定義されます。

ここでは既存研究に従って、feed-forward network(FFN)をReLU活性化関数を間に挟んだ2つの線形変換層とし、MultiHeadを次のように定義します。

また、caption encoder-decoder h_wとtrace encoder-decoder h_rは以下のように定義されます。

これらのモジュールは、キャプション生成とトレース生成の2つのタスクにおいて、2つのモダリティが対称になるようなミラーリング構造をとる設計となっています。

また既存研究で提案された、encoderはすべての入力を参照し、decoderは部分的な過去の情報のみを参照するというマスキング操作を行うことにより、上記の2つのモジュールはencoderとdecoderの役割をシームレスに切り替える事ができるという特徴があります。

Total Loss Function

最終的な損失関数は以下のように定式化できます。

ここで、L_[trace]はトレース生成における予測されたtrace boxとground truthのtrace box間のL1 lossを、L[_caption]はキャプション生成におけるキャプションのcross-entropy lossを、L_{r^~→w^{^}→r^{^}}はcycle lossを、L_[joint]はキャプションとトレースの共同生成タスクにおけるtrace lossとcaption lossの合計を表しています。

Experiments

本論文では、COCO、Flickr30k、ADE20k、Open Imagesの4つのデータセットを用いて実験を行いました。

Trace & Caption Generation

本論文で提案された手法を用いたトレース生成(Task 1)とキャプション生成(Task 2)の結果を下図に示します。

図のように、提案手法は両方のタスクにおいて正確な生成結果を得る事ができています。

Joint Caption and Trace Generation

キャプションとトレースの同時生成(Task 3)の結果を下図に示します。

キャプションと同時にトレースをモデル化することで、キャプションのみをモデル化したベースラインと比較して、キャプション生成の性能が大きく向上する結果となりました。

しかし、キャプション生成のための人間によるトレースアノテーションがない場合、1つのキャプションの中で同じオブジェクトや説明が数回繰り返されるなどの不具合が見られる事があり、今後の開発ではこうした繰り返しを避けるために、参照されたすべてのオブジェクトの記録を残すなどの対策が必要であることが示唆されました。