现在有一个模型可以从输入的图像中预测凝视轨迹!

Transformer 19/10/2022

三个要点
✔️ 提出了两个新的任务：用图像和说明作为输入生成痕迹，以及只用图像作为输入生成说明和痕迹。
✔️ 拟议的MIrrored TransformeR（MITR），一个用于联合学习图像、标题和痕迹的转化器架构。
✔️ 对四个现有数据集的实验证明了该方法的有效性。

Connecting What to Say With Where to Look by Modeling Human Attention Traces
written by Zihang Meng, Licheng Yu, Ning Zhang, Tamara Berg, Babak Damavandi, Vikas Singh, Amy Bearman
(Submitted on 12 May 2021)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

在过去，计算机视觉和自然语言处理领域的模型和算法的发展只有偶尔的重叠，但近年来，这两个领域的想法逐渐趋同。

特别是，重点是建立多模态模型来协调视觉和语言，这些模型的目标是模仿人类压缩信息和跨模态翻译的非凡能力。

然而，尽管取得了这些进展现有的图像标题数据集只提供简短的名词或短语级别的标题，并且而且，到目前为止，图像标题和视觉定位模型无法联合生成长篇自然语言标题和高度精确的词级视觉定位。

本文介绍了一个使用新颖的Transformer架构解决上述问题的论文，该架构对图像、标题和追踪这三种模式进行联合建模。

数据集和新任务概述

首先，描述了本文中使用的本地化叙事数据集和使用它的新任务。

本地化叙述数据集是通过同时记录注释者描述图像内容时的声音和鼠标痕迹来收集的。该数据集将由三种模式组成：图像、标题和追踪。

虽然关于这个数据集的原始论文只处理了一个任务--从图像和痕迹中生成标题--但本文提出了两个额外的、具有挑战性的新任务

以图像和标题作为输入，生成痕迹。
只用图像作为输入就能生成标题和痕迹。

这在下图中得到了体现。(表中第1行和第3行是新任务）

虽然这三项任务乍看之下是分开的，但本文提出了一个新颖的模型架构并提出了一个统一的框架对这三项任务进行联合建模。

MRL（Mirrored TransformeR）。

本文没有为上述三个任务建立三个独立的模型，而是提出了一个模型，在一个统一的框架内有效地学习，并共享参数，由于其对称结构，本文将这个模型架构命名为Mirrored TransformeR（MITR）。该模型架构因其对称的结构而被命名为镜像传输（MITR）。(见下图)

特征值

模型的输入是一个图像特征、文本特征和痕迹特征的子集，每个特征都是

图像特征使用预先训练好的Faster R-CNNs来计算检测区域的视觉特征。
对于文本特征，与现有的研究一样，总和位置嵌入和词嵌入
在轨迹特征中，位置嵌入和输入轨迹对d个隐藏维度的投影被加在一起。

模型结构

该模型由三个模块组成：1）图像编码器，2）字幕编码-解码器和3）轨迹编码-解码器。(见下图)

让我们分别用_xv、_xw和_xr来表示输入的图像特征、文本特征和痕迹特征。图像编码器_hv定义如下。

这里，按照现有的研究，前馈网络（FFN）被定义为两个线性转换层，中间有一个ReLU激活函数，MultiHead定义如下。

标题编码器-解码器_hw和跟踪编码器-解码器_hr也定义如下。

这些模块被设计成具有镜像结构，在标题生成和跟踪生成这两项任务中，两种模式是对称的。

另外，通过执行现有研究中提出的屏蔽操作，即编码器指的是所有输入，而解码器只指部分过去的信息 ，上述两个模块的特点是能够在编码器和解码器的角色之间无缝切换。这两个模块可以在编码器和解码器的角色之间无缝切换。

总损失功能

最终的损失函数可以表述如下

其中，L_[trace]是trace生成中预测的trace盒与地面真实trace盒之间的L1损失，L[caption_]是caption生成中的cross-entropy损失，_{^{Lr~→w^→r^}}是循环损失，而L_[联合]是联合字幕和追踪生成任务中的追踪损失和字幕损失之和。